Prueba Kruskal-Wallis
Comparación de tres o más grupos

Prueba no paramétrica de tres o más grupos independientes
La prueba de Kruskal-Wallis es una prueba no paramétrica que se utiliza para comparar si tres o más grupos independientes provienen de la misma distribución. Es la alternativa no paramétrica al ANOVA cuando no se puede asumir la normalidad en los datos.
Uso y aplicación de la prueba de Kruskal-Wallis
Se usa cuando:
Hay tres o más grupos independientes (cada grupo con datos que no están relacionados entre sí).
Los datos no siguen una distribución normal, o no se puede garantizar esta condición.
Los grupos tienen tamaños diferentes y no se cumple el supuesto de homocedasticidad (igualdad de varianzas).
Supuestos o requisitos
Los datos deben ser independientes.
Los grupos deben tener al menos 5 observaciones para que los resultados sean confiables.
Estadístico
El estadístico H es:
H = 12 / {N(N+1)} ∑{i=1,k} {Ri²} / {ni} - 3(N+1)
Donde:
N es el número total de observaciones.
Ri es la suma de los rangos del grupo \( i \).
ni es el tamaño de la muestra del grupo \( i \).
k es el número de grupos.
Hipótesis
En la prueba de Kruskal-Wallis, las hipótesis son las siguientes:
1. Hipótesis nula H
No hay diferencias significativas entre las distribuciones de los grupos, es decir, las muestras provienen de poblaciones con distribuciones idénticas. En términos más simples, bajo H0, se asume que los grupos son equivalentes y no hay una diferencia real entre ellos.
H0: Las distribuciones de los grupos son iguales.
2. Hipótesis alternativa H1
Al menos uno de los grupos tiene una distribución diferente a los otros. Esto significa que las muestras no provienen de poblaciones con la misma distribución.
H1: Al menos un grupo tiene una distribución diferente.
Interpretación
Si el valor p es mayor que el nivel de significancia α, no rechazamos H0, lo que sugiere que no hay evidencia suficiente para afirmar que las distribuciones son diferentes.
Si el valor p es menor que α, rechazamos H0 y aceptamos H1, lo que indica que hay diferencias significativas entre al menos dos de los grupos.
Si el valor de H es mayor que el valor crítico de Chi-cuadrado, rechazamos la hipótesis nula y concluimos que al menos uno de los grupos tiene una distribución diferente.
Un valor del estadístico H grande indica que hay una gran diferencia entre los rangos de las muestras, lo que refuerza la idea de que las muestras provienen de poblaciones diferentes.
Proceso de cálculo
Rangos: Los datos de todos los grupos se combinan y se ordenan de menor a mayor, asignando a cada dato un rango (1 para el menor, 2 para el siguiente, etc.).
Suma de rangos por grupo: Se suman los rangos dentro de cada grupo.
Estadístico H: Mide las diferencias entre las sumas de rangos de los diferentes grupos.
Distribución Chi-cuadrado: El valor de H se compara con una distribución Chi-cuadrado con k - 1 grados de libertad para determinar si existen diferencias significativas entre los grupos.
Ejemplo
Supongamos que queremos comparar tres grupos de datos que representan los tiempos de reacción de personas bajo diferentes condiciones:
Grupo 1: [12, 18, 15, 20]
Grupo 2: [25, 30, 28, 22]
Grupo 3: [35, 38, 40, 42]
1. Combinar y ordenar los datos:
[12, 15, 18, 20, 22, 25, 28, 30, 35, 38, 40, 42]
Los rangos son asignados de la siguiente manera:
Grupo 1: 1, 2, 3, 4
Grupo 2: 5, 6, 7, 8
Grupo 3: 9, 10, 11, 12
2. Sumar los rangos por grupo
Grupo 1: 1 + 2 + 3 + 4 = 10
Grupo 2: 5 + 6 + 7 + 8 = 26
Grupo 3: 9 + 10 + 11 + 12 = 42
3. Calcular H
Usando la fórmula anterior, podemos calcular H. También lo podemos calcular por software.
Calculo en Python
Este código puede verse en un jupyter notebook compartido en github.
```python
import pandas as pd
import scipy.stats as stats
# Datos de ejemplo
data = {
'Grupo 1': [12, 18, 15, 20],
'Grupo 2': [25, 30, 28, 22],
'Grupo 3': [35, 38, 40, 42]
}
df = pd.DataFrame(data)
# Realizar la prueba de Kruskal-Wallis
stat, p_value = stats.kruskal(df['Grupo 1'], df['Grupo 2'], df['Grupo 3'])
print(f'Estadístico H: {stat}')
print(f'Valor p: {p_value}')
if p_value < 0.05:
print('Rechazamos la hipótesis nula, hay diferencias significativas entre los grupos.')
else:
print('No se rechaza la hipótesis nula, no hay diferencias significativas entre los grupos.')
```
4. Comparar el valor de H con la distribución Chi-cuadrado
Si el valor de H es mayor que el valor crítico de Chi-cuadrado, rechazamos la hipótesis nula y concluimos que al menos uno de los grupos tiene una distribución diferente. Un valor del estadístico HHH grande indica que hay una gran diferencia entre los rangos de las muestras, lo que refuerza la idea de que las muestras provienen de poblaciones diferentes.
La prueba de Kruskal-Wallis ha arrojado los siguientes resultados:
Estadístico de Kruskal-Wallis: 9.85
Valor p: 0.0073
5. Interpretación
La prueba de Kruskal-Wallis tiene como hipótesis nula que las distribuciones de las tres muestras (Grupo 1, Grupo 2 y Grupo 3) son iguales. Dado que el valor p es 0.0073, que es menor que un nivel de significancia comúnmente usado (α = 0.05), rechazamos la hipótesis nula. Esto sugiere que hay evidencia estadísticamente significativa de que al menos una de las muestras proviene de una población con una distribución diferente.
Por lo tanto, podemos concluir que los grupos no son homogéneos, y las diferencias observadas entre los valores de los tres grupos son estadísticamente significativas.
Ventajas de la prueba Kruskal-Wallis
No requiere que los datos sigan una distribución normal.
Es útil cuando se trabaja con datos ordinales o cuando no se cumplen los supuestos de ANOVA.
Desventajas de la prueba Kruskal-Wallis
No indica específicamente qué grupo es diferente, solo que al menos uno** lo es.
Para identificar qué grupos difieren, se necesitan pruebas post hoc (como la prueba de Dunn).
Conclusión
La prueba de Kruskal-Wallis sigue siendo ampliamente utilizada, especialmente cuando los datos no cumplen con los supuestos del ANOVA. Es una herramienta poderosa para comparar varios grupos independientes en situaciones donde no podemos suponer normalidad o igualdad de varianzas.



