Pruebas No Paramétricas
Pruebas de distribución libre

Comparación pruebas paramétricas y no paramétricas
Las pruebas no paramétricas son métodos estadísticos que no dependen de suposiciones específicas sobre la distribución de los datos, como la normalidad. Son útiles cuando no se cumplen los supuestos de las pruebas paramétricas, como el ANOVA o la prueba t, que requieren que los datos sigan distribuciones normales o que las varianzas sean homogéneas. Las pruebas no paramétricas también se utilizan cuando se trabajan con escalas ordinales o con datos que no pueden cuantificarse con precisión, como las clasificaciones.
Uso de las pruebas no paramétricas
Pequeñas muestras: Si el tamaño de la muestra es pequeño, es difícil verificar si los datos provienen de una distribución normal, por lo que las pruebas no paramétricas son más apropiadas.
Datos no distribuidos normalmente: Si los datos tienen una distribución muy asimétrica o no normal (esto se puede verificar mediante gráficos como histogramas o pruebas de normalidad como la prueba de Shapiro-Wilk), las pruebas paramétricas podrían llevar a conclusiones erróneas.
Datos ordinales o categóricos: Las pruebas no paramétricas son ideales para datos que no son numéricos, como clasificaciones o escalas ordinales (por ejemplo, "malo", "regular", "bueno").
Fundamentos de las pruebas no paramétricas
Las pruebas paramétricas tienen requisitos acerca de la naturaleza o forma de las poblaciones implicadas; las pruebas no paramétricas no requieren que las muestras provengan de poblaciones con distribuciones normales o con cualquier otro tipo particular de distribución. En consecuencia, las pruebas de hipótesis no paramétricas suelen llamarse pruebas de distribución libre.
Aunque el término no paramétrica sugiere que la prueba no está basada en un parámetro, existen algunas pruebas no paramétricas que sí dependen de un pará- metro como la mediana. Sin embargo, las pruebas no paramétricas no requieren de una distribución particular, por lo que algunas veces se les conoce como pruebas de distribución libre. Aunque distribución libre es una descripción más precisa, por lo regular se utiliza el término no paramétrica.
Características de las pruebas no paramétricas
Menos requisitos sobre la distribución: No asumen que los datos sigan una distribución específica, lo que las hace más flexibles.
Menos potencia estadística: Debido a que no aprovechan toda la información disponible de los datos (como la media y la varianza en las pruebas paramétricas), tienden a ser menos potentes, lo que significa que pueden necesitar muestras más grandes para detectar diferencias significativas. Los métodos no paramétricos tienden a desperdiciar información porque los datos numéricos exactos suelen reducirse a una forma cualitativa. Por ejemplo, en la prueba del signo no paramétrica, las pérdidas de peso de las personas sometidas a una dieta se registran simplemente como signos negativos; las magnitudes reales de las pérdidas de peso se ignoran.
Menos eficiencia: Las pruebas no paramétricas no son tan eficientes como las pruebas paramétricas, de manera que con una prueba no paramétrica generalmente necesitamos evidencia más fuerte (como una muestra más grande o diferencias mayores) para rechazar una hipótesis nula.
Más Versatilidad: Se pueden aplicar a diferentes tipos de datos, incluyendo datos ordinales o escalas de clasificación, lo que las hace útiles en situaciones más amplias que las pruebas paramétricas. Por ejemplo, A diferencia de los métodos paramétricos, los métodos no paramétricos a menudo pueden aplicarse a datos categóricos, como el género de quienes respon- den una encuesta.
Más Sencillez: Los métodos no paramétricos, por lo regular, implican cálculos más sencillos que los métodos paramétricos correspondientes y, por lo tanto, son más fáciles de comprender y aplicar. (Sin embargo, como la tecnología ha simplificado los cálculos, es probable que la facilidad de los cálculos no sea un factor tan importante).
Eficiencia de las pruebas no paramétricas
Cuando se satisfacen los requisitos de distribuciones poblacionales, las pruebas no paramétricas generalmente son menos eficaces que sus contrapartes paramétricas, pero la reducción en la eficiencia puede compensarse con un tamaño muestral más grande. Por ejemplo, en la correlación de rangos, tiene una tasa de eficiencia de 0.91, cuando se compara con la correlación lineal. Esto significa que, si todo permanece igual, la correlación de rangos no paramétrica requiere 100 observaciones muestrales para obtener los mismos resultados que 91 observaciones muestrales analizadas por medio de la correlación lineal paramétrica, suponiendo que se satisfacen los requisitos más estrictos para la aplicación del método paramétrico.
La tabla 13-2 lista los métodos no paramétricos cubiertos en este capítu- lo, junto con el método paramétrico correspondiente y la tasa de eficiencia. La ta- bla 13-2 indica que varias pruebas no paramétricas tienen tasas de eficiencia por encima de 0.90, por lo que la eficiencia más baja tal vez no sea un factor esencial para elegir entre los métodos paramétricos y no paramétricos. Sin embargo, pues- to que las pruebas paramétricas tienen tasas de eficiencia más altas que sus contra- partes no paramétricas, generalmente es mejor utilizar las pruebas paramétricas cuando sus supuestos requeridos se satisfacen.
Ejemplos comunes de pruebas no paramétricas
1. Prueba de Mann-Whitney U (o Wilcoxon Rank-Sum):
Es una alternativa no paramétrica a la prueba t para muestras independientes.
Se utiliza para comparar dos grupos independientes cuando no se cumple la normalidad. Ejemplo: Comparar las calificaciones de dos grupos de estudiantes.
2. Prueba de Wilcoxon para muestras pareadas:
Alternativa no paramétrica a la prueba t para muestras pareadas.
Se utiliza cuando se tiene un diseño de medidas repetidas o pareado, pero los datos no son normales. Ejemplo: Comparar los resultados de un grupo antes y después de una intervención.
3. Prueba de Kruskal-Wallis:
Alternativa no paramétrica al ANOVA unidireccional.
Se utiliza cuando se comparan más de dos grupos independientes, pero no se cumplen los supuestos de normalidad. Ejemplo: Comparar la efectividad de tres tratamientos diferentes.
4. Prueba de Friedman:
Es una prueba no paramétrica para datos de medidas repetidas.
Es equivalente al ANOVA de medidas repetidas, pero sin asumir normalidad. Ejemplo: Evaluar las preferencias de los consumidores sobre tres productos diferentes, donde los mismos individuos prueban los tres.
5. Prueba del Signo
Es una prueba no paramétrica (de distribución libre) que utiliza signos positivos y negativos para probar diferentes aseveraciones, incluyendo:
Aseveraciones que implican datos muestrales apareados
Aseveraciones que implican datos nominales
Aseveraciones acerca de la mediana de una sola población
Es equivalente prueba t de muestras relacionadas (o prueba t para datos apareados). Sin embargo, a diferencia de la prueba t, que evalúa si la media de las diferencias entre las parejas es significativamente diferente de cero, la prueba del signo evalúa si la mediana de las diferencias es significativamente diferente de cero.
Ejemplo de la Prueba de Mann-Whitney U en Python
Supongamos que tienes dos grupos de datos que no son normales y quieres saber si las medianas son significativamente diferentes entre ambos:
```python
import numpy as np
from scipy import stats
# Dos grupos de datos
grupo_1 = [5.5, 6.7, 7.8, 8.1, 5.4, 6.9, 7.2]
grupo_2 = [8.5, 9.1, 7.5, 9.7, 8.9, 9.2, 9.4]
# Prueba de Mann-Whitney U
stat, p_value = stats.mannwhitneyu(grupo_1, grupo_2)
print(f'Estadístico U: {stat}, Valor p: {p_value}')
```
Interpretación de los resultados
El **estadístico U** mide el rango en que los valores de los grupos se superponen. Si las distribuciones son muy diferentes, este valor será pequeño.
El **valor p** indica si las diferencias observadas entre las medianas son estadísticamente significativas. Si es menor a un valor de referencia (como 0.05), se puede rechazar la hipótesis nula de que las medianas de los dos grupos son iguales.
Comparación de la eficiencia de las pruebas paramétricas y no paramétricas
Existe evidencia empirica de la eficiencia aproximada de las pruebas no parametricas con relación a las paramétricas. Esto es así sobre todo para determinados estidios o aplicaciones. En la tabla de eficiencia de pruebas paramétricas versus no paramétricas puede verse la eficiencia en comparación con respecto a pruebas paramétricas con distribución normal. En esa tabla pueden verse basicamente dos categorías de eficiencia:
Las pruebas no parametricas con un nivel de eficiencia definico: son las que tienen valores de eficiencia entre 0.63 y hasta 0.95.
Las pruebas no paramétricas no comparebles: significa que no existe una base clara o adecuada para hacer una comparación directa entre las dos pruebas. Esto puede ocurrir por varias razones:
Naturaleza distinta de las pruebas: Las pruebas pueden tener propósitos o supuestos tan diferentes que no se puede establecer una medida común de eficiencia o comparación. Por ejemplo, algunas pruebas no paramétricas no tienen un equivalente paramétrico directo.
Ausencia de una métrica equivalente: No siempre existe un parámetro o métrica estandarizada para evaluar la "eficiencia" de una prueba en ciertas situaciones. Por ejemplo, en la prueba de aleatoriedad como la prueba de rachas, no hay un equivalente paramétrico claro que sirva para hacer una comparación cuantitativa de eficiencia en poblaciones normales.
No aplicable en condiciones específicas: Algunas pruebas no aplican en ciertas condiciones. Por ejemplo, en pruebas de aleatoriedad, no hay un concepto claro de "normalidad" o "no normalidad", lo que hace que no se pueda hablar de la eficiencia en relación a poblaciones normales.
Para el caso de regresión depende mucho de los datos y el tipo de prueba no parametrica que mejor se ajuste. Por esta razon dice aquí que "depende de la distribución"
Conclusión
Las pruebas no paramétricas son esenciales en situaciones donde los datos no cumplen con los supuestos de las pruebas paramétricas. Son más flexibles y aplicables a una variedad más amplia de escenarios, aunque con una menor potencia estadística. La elección entre pruebas paramétricas y no paramétricas depende de la naturaleza de tus datos y de si cumplen con los requisitos de las pruebas paramétricas estándar.
Si tienes alguna pregunta adicional o necesitas ejemplos más específicos, ¡no dudes en preguntar!


