Prueba de Wilcoxon
Pruebas de Wilcoxon
Prueba de rangos con signo de Wiloxon
Las pruebas de Wilcoxon pueden referirse a dos pruebas diferentes que llevan el apellido del estadístico Frank Wilcoxon:
Prueba de rangos con signo de Wilcoxon: Es la que hemos discutido. Se usa para comparar dos muestras relacionadas (dependientes) y es una alternativa no paramétrica a la prueba t para muestras apareadas.
Prueba de la suma de rangos de Wilcoxon (o Wilcoxon rank-sum test): Esta es otra prueba no paramétrica, pero se utiliza para comparar dos muestras independientes. Es una alternativa a la prueba t para muestras independientes y a veces se conoce también como la prueba de Mann-Whitney U (aunque tiene algunas diferencias técnicas menores).
Ambas pruebas son no paramétricas y se basan en la idea de usar rangos en lugar de los valores originales de los datos, por lo que son útiles cuando los datos no siguen una distribución normal.
Prueba de rangos con signo de Wilcoxon
La prueba de rangos con signo de Wilcoxon es una prueba no paramétrica utilizada para comparar dos muestras relacionadas (dependientes). Se usa cuando no podemos asumir que los datos tienen una distribución normal, por lo que es una alternativa a la prueba t de muestras apareadas.
Se basa en las diferencias entre las observaciones emparejadas, tomando en cuenta no solo el signo de la diferencia, sino también la magnitud de las diferencias a través del uso de rangos.
Hipótesis en la Prueba de rangos con signo de Wilcoxon
En la Prueba de rangos con signo de Wilcoxon (para datos pareados), las hipótesis nula y alternativa están relacionadas con la diferencia entre las medianas o distribuciones de dos muestras relacionadas.
1. Hipótesis nula H₀
La mediana de las diferencias entre las dos muestras pareadas es cero. En otras palabras, no hay una diferencia entre las dos muestras; sus medianas son iguales.
H₀: La distribución de las diferencias es simétrica en torno a 0.
2. Hipótesis alternativa H₁
La mediana de las diferencias entre las dos muestras es distinta de cero. Esto implica que hay una diferencia sistemática entre las dos muestras.
H₁: La distribución de las diferencias no es simétrica en torno a 0.
Dependiendo de la naturaleza de la prueba, la hipótesis alternativa puede formularse de dos maneras:
1. Prueba bilateral
H₁: La mediana de las diferencias no es igual a 0.
Esto implica que hay una diferencia significativa, pero no especifica la dirección de la diferencia (podría ser mayor o menor).
2. Prueba unilateral
Si se quiere probar que la mediana de las diferencias es mayor que cero:
H₁: La mediana de las diferencias es mayor que 0.
Si se quiere probar que la mediana de las diferencias es **menor que cero**:
H₁: La mediana de las diferencias es menor que 0.
Comportamiento
Si las diferencias no son simétricas, eso sugiere que hay una tendencia o sesgo, lo cual indicaría una diferencia significativa entre las dos muestras. Esto llevaría a rechazar la hipótesis nula y aceptar la hipótesis alternativa (H1H_1H1), que sostiene que las muestras provienen de poblaciones con medianas diferentes.
Si las diferencias tienden a ser más positivas, entonces una de las muestras es significativamente mayor.
Si las diferencias tienden a ser más negativas, entonces una de las muestras es significativamente menor.
Este comportamiento hace que la prueba de rangos con signo de Wilcoxon sea útil cuando no podemos asumir normalidad, pero sí podemos asumir que las diferencias entre las dos muestras deberían ser simétricas si no hay una diferencia real entre ellas.
Ejemplo
Imagina que tienes dos tratamientos (o dos mediciones) sobre el mismo conjunto de individuos. La prueba de rangos con signo de Wilcoxon te permitirá determinar si las diferencias observadas entre las dos mediciones son suficientemente grandes para concluir que los tratamientos son diferentes (o si las diferencias se deben simplemente al azar).
Pasos de la prueba de rangos con signo de Wilcoxon
Calcular las diferencias entre las observaciones emparejadas.
Ignorar las diferencias de valor cero (diferencias exactas entre las muestras).
Asignar rangos absolutos a las diferencias restantes, sin importar el signo.
Asignar los signos (+ o -) de las diferencias a los rangos correspondientes.
Suma de rangos positivos y negativos.
Calcular el valor estadístico W como la menor de las sumas de rangos positivos o negativos.
Comparar con la distribución de Wilcoxon o usar un valor p para determinar si las diferencias entre las dos muestras son significativas.
Ejemplo
Supongamos que tenemos los siguientes datos de peso antes y después de un tratamiento:
| Paciente | Peso antes (kg) | Peso después (kg) |
|----------|------------------|-------------------|
| 1 | 70 | 68 |
| 2 | 80 | 78 |
| 3 | 90 | 86 |
| 4 | 75 | 75 |
| 5 | 85 | 83 |
| 6 | 95 | 91 |
| 7 | 60 | 59 |
| 8 | 72 | 69 |
Resolución paso a paso
1. Calcular las diferencias
Diferencias =
(70-68), (80-78), (90-86), (75-75), (85-83), (95-91), (60-59), (72-69) =
2, 2, 4, 0, 2, 4, 1, 3
Ignoramos la diferencia 0 (paciente 4).
2. Ordenar las diferencias absolutas
Diferencias absolutas: 1, 2, 2, 2, 3, 4, 4.
Asignamos rangos:
1 Rango: 1
2, Rango promedio: (2 + 3 + 4)/3 = 3
3 Rango: 5
4, Rango promedio: (6 + 7)/2 = 6.5
3. Asignar los signos de las diferencias originales a los rangos:
| Paciente | Diferencia | Rango | Signo |
|----------|------------|-------|-------|
| 1 | 2 | 3 | + |
| 2 | 2 | 3 | + |
| 3 | 4 | 6.5 | + |
| 4 | 0 | - | - |
| 5 | 2 | 3 | + |
| 6 | 4 | 6.5 | + |
| 7 | 1 | 1 | + |
| 8 | 3 | 5 | + |
4. Suma de rangos
Suma de rangos positivos: 3 + 3 + 6.5 + 3 + 6.5 + 1 + 5 = 28.
No hay rangos negativos.
5. Estadístico W:
El estadístico W es el menor entre las sumas de los rangos positivos o negativos. En este caso, no hay rangos negativos, así que W = 0.
6. Decisión:
Podemos usar tablas de la distribución de Wilcoxon o calcular el valor p con una herramienta como Python.
Cálculo en Python
Ahora calculemos este ejemplo usando Python:
Este código puede verse en un jupyter notebook compartido en github.
```python
import numpy as np
from scipy.stats import wilcoxon
# Datos
peso_antes = np.array([70, 80, 90, 75, 85, 95, 60, 72])
peso_despues = np.array([68, 78, 86, 75, 83, 91, 59, 69])
# Prueba de rangos con signo de Wilcoxon
stat, p_valor = wilcoxon(peso_antes, peso_despues)
print(f'Estadístico W: {stat}')
print(f'P-valor: {p_valor}')
```
### **Resultados esperados en Python**:
```plaintext
Estadístico W: 0.0
P-valor: 0.015625
```
Interpretación:
El valor p es 0.0156, lo cual es menor que 0.05. Por lo tanto, podemos rechazar la hipótesis nula y concluir que existe una diferencia significativa en los pesos antes y después del tratamiento.
Equivalencia con la prueba t apareada:
La prueba de rangos con signo de Wilcoxon es una alternativa no paramétrica a la prueba t de muestras apareadas. Si los datos siguieran una distribución normal, la prueba t podría usarse. Sin embargo, la prueba de Wilcoxon es más adecuada cuando no se puede hacer la suposición de normalidad.
Prueba de suma de rangos de Wilcoxon
La prueba de la suma de rangos de Wilcoxon, también conocida como prueba de Wilcoxon-Mann-Whitney o prueba de Mann-Whitney U (o Wilcoxon rank-sum test), es una prueba no paramétrica que se utiliza para comparar dos muestras independientes. Su propósito es determinar si las dos muestras provienen de la misma población o si una tiende a tener valores más altos o bajos que la otra. Esta prueba es una alternativa a la prueba t de Student para dos muestras independientes cuando no se puede asumir que los datos siguen una distribución normal.
Concepto
La prueba de la suma de rangos de Wilcoxon utiliza los rangos de los valores observados, en lugar de los valores en sí, para comparar las dos muestras. Esto permite evitar la necesidad de suponer una distribución normal de los datos, haciendo que la prueba sea robusta ante distribuciones sesgadas o con outliers.
Hipótesis
Hipótesis nula (H₀): Las dos muestras provienen de poblaciones con la misma distribución (no hay diferencia en la mediana entre los grupos).
Hipótesis alternativa (H₁): Las dos muestras provienen de poblaciones con distribuciones diferentes (una tiene valores significativamente más altos o más bajos que la otra).
Procedimiento
Combinar las dos muestras en un solo conjunto de datos.
Asignar rangos a todos los valores de los datos combinados. Los valores más pequeños reciben los rangos más bajos. Si hay valores repetidos (empates), a cada uno se le asigna el promedio de los rangos que deberían ocupar.
Sumar los rangos de cada una de las dos muestras de forma separada.
Calcular el estadístico de la prueba U
U = n₁ × n₂ + {n₁(n₁ + 1)} / 2 - R₁
Donde:
n₁ es el tamaño de la primera muestra,
n₂ es el tamaño de la segunda muestra,
R₁ es la suma de rangos de la primera muestra.
5. Calcular el valor crítico de U a utilizando una aproximación normal.
6. Comparar:
Si el valor de U es menor que el valor crítico (o si el valor p es menor que el nivel de significancia α, (por ejemplo 0.05), se rechaza la hipótesis nula.
Ejemplo manual
Supongamos dos grupos de datos independientes:
- Grupo 1: [10, 12, 14]
- Grupo 2: [15, 17, 18]
Pasos:
1. Combina los dos grupos: [10, 12, 14, 15, 17, 18]
2. Asigna los rangos:
- 10 → rango 1
- 12 → rango 2
- 14 → rango 3
- 15 → rango 4
- 17 → rango 5
- 18 → rango 6
3. Suma los rangos por grupo:
- Suma de rangos del Grupo 1: \(1 + 2 + 3 = 6\)
- Suma de rangos del Grupo 2: \(4 + 5 + 6 = 15\)
4. Calculo de U para el Grupo 1:
U₁ = n₁ × n₂ + {n₁(n₁ + 1)} / 2 - R₁
U₁ = 3 × 3 + {3(3+1)} / 2 - 6 = 9 + 6 - 6 = 9
5. El valor crítico de U para n₁ = 3 y n₂ = 3 (de tablas de referencia) es 2.
Como U₁ = 9, no rechazamos la hipótesis nula.
Código Python
Este código esta en un jupyter notebook compartido en github.
```python
import numpy as np
from scipy.stats import mannwhitneyu
# Datos de ejemplo
grupo1 = [10, 12, 14]
grupo2 = [15, 17, 18]
# Prueba de Mann-Whitney
stat, p_value = mannwhitneyu(grupo1, grupo2, alternative='two-sided')
# Resultados
print(f'Estadístico U: {stat}')
print(f'Valor p: {p_value}')
# Interpretación
if p_value < 0.05:
print("Rechazamos la hipótesis nula. Las medianas son significativamente diferentes.")
else:
print("No rechazamos la hipótesis nula. No hay evidencia de una diferencia significativa entre las medianas.")
```
Interpretación
Estadístico U: Indica la suma de rangos ajustada para uno de los grupos.
Valor p: Si es menor que el nivel de significancia (generalmente 0.05), se rechaza la hipótesis nula, indicando una diferencia significativa entre las muestras.
Ventajas de la prueba de Wilcoxon-Mann-Whitney:
No requiere que los datos sigan una distribución normal.
Es robusta ante outliers o distribuciones no simétricas.
Desventajas de la prueba suma de rangos de Wilcoxon
Menos poderosa que la prueba t si los datos son normales.
No ofrece información sobre la magnitud de la diferencia entre los grupos (sólo indica si hay una diferencia significativa).
Comparación entre la Prueba del Signo y las Pruebas de Wilcoxon
¿Es siempre mejor usar Wilcoxon que la Prueba del Signo?
No siempre. Aunque las pruebas de Wilcoxon (especialmente la de rangos con signo) son generalmente más potentes, hay situaciones donde la prueba del signo podría ser suficiente o preferible:
Simplicidad y rapidez: Si solo necesitas saber si hay más diferencias positivas que negativas y no te interesa la magnitud de las diferencias, la prueba del signo es más rápida y fácil de calcular.
Datos ordinales muy básicos: Si los datos solo están categorizados como mayores o menores sin una medición precisa de magnitud, la prueba del signo podría ser más apropiada, ya que Wilcoxon necesita los rangos.
Cuando la potencia no es crítica: En situaciones donde no se requiere alta precisión o la muestra es pequeña, la prueba del signo puede ser suficiente.
Por otro lado Wilcoxon es preferible en los siguientes casos:
Cuando la magnitud de las diferencias es importante.
Si se quiere una prueba más poderosa para detectar diferencias.
Para datos que no siguen una distribución normal pero son al menos ordinales y tienen cierta magnitud que puede ser clasificada o ranqueada.
En resumen, Wilcoxon generalmente es más robusta y potente, pero la prueba del signo puede ser útil en situaciones específicas de simplicidad o donde no se requiere mucha precisión.