Correlación no paramétrica
Correlación de rangos Spearman y Kendall

Pruebas de Spearman y Kendall
La correlación de rangos es una técnica no paramétrica que mide la relación entre dos variables mediante el uso de sus rangos, en lugar de sus valores absolutos. Una correlación de rangos (como la correlación de Spearman o la correlación de Kendall) es un métodos no paramétrico porque:
No requiere suposiciones sobre la distribución de los datos, como la normalidad. A diferencia de la correlación de Pearson, que asume que los datos siguen una distribución normal y que la relación es lineal, la correlación de rangos se basa únicamente en el orden de los datos, sin asumir ninguna forma específica de la distribución.
Es adecuada para datos ordinales o para variables que no tienen una relación lineal. Esto hace que sea más robusta frente a valores atípicos y distribuciones asimétricas.
La correlación de rangos es una técnica no paramétrica utilizada para medir la fuerza y dirección de una relación entre dos variables ordinales o cuantitativas, basándose en el orden o rango de los valores en lugar de sus valores numéricos absolutos. A diferencia de la correlación de Pearson, que se utiliza para variables que tienen una distribución normal, la correlación de rangos no requiere suposiciones sobre la forma de la distribución de los datos.
Tipos de correlación de rangos
Existen dos métodos principales de correlación de rangos: Spearman y Kendall.
1. Correlación de rangos de Spearman (rho de Spearman)
Definición: ρ de Spearman es una medida de asociación que evalúa cómo se corresponden las clasificaciones (rangos) de dos variables. Calcula el grado de correspondencia entre los rangos de los datos en lugar de los valores en sí. ρ es una medida basada en rangos que evalúa la relación monótona (pero no necesariamente lineal) entre dos variables. Calcula los rangos de los valores en cada variable y luego mide la correlación entre esos rangos.
Aplicación: Séarman resulta útil cuando,
La relación entre las variables es monótona (cambia de manera consistente en una dirección).
Los datos contienen valores atípicos, ya que el uso de rangos hace que sea menos sensible a estos.
Se sospecha que la relación no es lineal, pero sí creciente o decreciente (monótona).
Las variables son ordinales o intervalos de datos, donde la relación esperada es consistente en dirección, aunque no se mantenga constante.
Fórmula:
ρ = 1 - {6 ∑di²} / {n(n² - 1)}
Donde:
di es la diferencia entre los rangos de cada par de valores.
n es el número de observaciones.
Interpretación: El coeficiente de Spearman oscila entre -1 y 1:
ρ = 1 indica una correlación positiva perfecta (a mayor valor en una variable, mayor valor en la otra).
ρ = -1 indica una correlación negativa perfecta (a mayor valor en una variable, menor valor en la otra).
ρ = 0 indica que no hay correlación.
2. Correlación de rangos de Kendall (tau de Kendall)
Definición: τ de Kendall es al coeficiente de Spearman, pero se basa en el número de pares concordantes y discordantes. Evalúa la concordancia en los rangos entre dos variables. τ se basa en el concepto de "pares concordantes y discordantes", midiendo la fuerza y la dirección de la relación entre dos variables ordinales al observar cómo cambian de manera conjunta. Se considera un método más robusto para capturar la estructura del orden en los datos.
Aplicación: Kendal se aplica mejor cuando,
La relación entre las variables es estrictamente ordinal o hay preocupación por la precisión en pares concordantes/discordantes.
Se desea obtener una medida más robusta y menos sensible a errores en los datos, especialmente si hay pocos datos y el enfoque es en la estructura ordinal.
Se analizan datos con posibles lazos (empates) que requieren un método que pueda ajustar mejor.
En situaciones donde los datos contienen muchos empates o para pequeñas muestras.
Fórmula:
τ = {nc - nd} / {1/2}×n(n-1)}
Donde:
nc es el número de pares concordantes.
nd es el número de pares discordantes.
n es el número total de observaciones.
Interpretación: Al igual que Spearman, los valores de Kendall se interpretan entre -1 (correlación negativa perfecta) y 1 (correlación positiva perfecta).
Calculo de los coeficientes de Spearman y Kendall
Ambos métodos se enfocan en cómo se relacionan las posiciones relativas (rangos) de los valores. En lugar de examinar los valores absolutos, transforman los datos en rangos y luego evalúan si las posiciones más altas en una variable corresponden a posiciones más altas en la otra (correlación positiva), o si sucede lo contrario (correlación negativa).
Ventajas de la correlación de rangos
Robustez: Al no requerir normalidad de los datos, estas pruebas son más robustas frente a distribuciones no normales o la presencia de valores atípicos.
Versatilidad: Son aplicables cuando se trabaja con variables ordinales o cuando la relación entre las variables no es necesariamente lineal.
Ejemplo de Correlación de Spearman - Relación entre estudio y puntaje
Un investigador quiere estudiar si existe una relación entre el tiempo de estudio (en horas) y el puntaje obtenido en un examen por un grupo de 5 estudiantes. Los pueden verse en la figura correspondiente y son los siguientes:
| Estudiante | Horas de estudio | Puntaje en el examen |
|------------|-------------------|----------------------|
| A | 10 | 95 |
| B | 8 | 80 |
| C | 7 | 78 |
| D | 6 | 60 |
| E | 4 | 65 |
Procedimiento de cáclculo
1. Asignar rangos a cada variable
Horas de estudio:
10 (Rango 1), 8 (Rango 2), 7 (Rango 3), 6 (Rango 4), 4 (Rango 5)
Puntaje en el examen:
95 (Rango 1), 80 (Rango 2), 78 (Rango 3), 65 (Rango 4), 60 (Rango 5)
2. Calcular la diferencia de rangos di y su cuadrado di²
3. Aplicar la fórmula de Spearman
4. Interpretar el resultado
El resultado es 1. Esto indica una correlación perfecta positiva.
Resolución en Python del ejemplo de Spearman
Este ejemplo se comprueba visualmente y se resuelve en codigo python en jupyter notebook que se comparte en github.
El resultado en python es 0.8999.
El resultado manual en el ejemplo de Spearman dio 1, mientras que el cálculo en Python arroja aproximadamente 0.89. La diferencia se debe a un aspecto importante en el cálculo de rangos: los datos en el ejemplo 1 no están perfectamente ordenados en una relación monótona estricta.
En el ejemplo, los datos en la columna de "Puntaje en el examen" no siguen exactamente el mismo orden relativo que las "Horas de estudio". Aunque el orden general es similar, la relación no es perfectamente monótona (por ejemplo, la posición de los puntajes 60 y 65 no sigue un aumento monótono como las horas de estudio).
Python calcula usando un enfoque de rangos más preciso que detecta esta ligera discrepancia, lo que da como resultado un valor de 0.89 en lugar de 1. Esto refleja una correlación fuerte pero no perfecta.
Si los puntajes y horas de estudio fueran perfectamente ordenados en ambas direcciones, Python también daría un resultado de 1.
Ejemplo de Correlación de Kendall - Relación satisfacción y compromiso
Un investigador desea evaluar si existe una relación de preferencia entre dos variables ordinales: el nivel de satisfacción de los empleados (1 = Muy Insatisfecho, 2 = Insatisfecho, 3 = Neutro, 4 = Satisfecho, 5 = Muy Satisfecho) y el nivel de compromiso con la empresa (1 = Muy Bajo, 2 = Bajo, 3 = Medio, 4 = Alto, 5 = Muy Alto) en una muestra de 6 empleados. Los datos y cálculos están en la figura correspondiente.
| Empleado | Satisfacción | Compromiso |
|----------|--------------|------------|
| A | 5 | 4 |
| B | 4 | 5 |
| C | 3 | 3 |
| D | 2 | 2 |
| E | 1 | 1 |
| F | 3 | 2 |
Procedimiento de cálculo
1. Contar pares concordantes y discordantes
Concordantes: Empleados A, B, C, y D tienen satisfacción y compromiso en concordancia.
Discordantes: Empleado F (mayor satisfacción que compromiso).
Contamos 14 pares concordantes y 1 discordante.
2. Aplicar la fórmula de Kendall
3.Interpretar el resultado
El resultado es 0.87 aproximadamente lo que comprueba una correlación positiva muy fuerte.
Resolución en Python del ejemplo de Kendall
El código de resolución de este ejemplo está escrito en jupyter notebook y compartido en github.
El resultado es aproxmadamente 0.78.
La discrepancia entre los valores de Kendall Tau calculados manualmente y en Python se debe a un tratamiento detallado de los lazos (empates) y al cálculo de pares en el conjunto de datos.
En la resolución manual, calculamos tau considerando solo los pares de datos concordantes y discordantes y no incluimos un ajuste para lazos.
Esto nos llevó a un valor aproximado de τ = 0.87.P
Python (usando `kendalltau` de `scipy.stats`) toma en cuenta la corrección por lazos. Esto significa que ajusta el cálculo de tau considerando pares con valores idénticos en una o ambas variables.
Este ajuste por lazos tiende a reducir ligeramente el valor de τ en comparación con un cálculo sin esta corrección.
Resultado Final: La diferencia entre 0.87 (manual) y 0.78 (Python) es el resultado de este ajuste preciso de Python para los lazos presentes en los datos, lo que da un valor de τ que refleja más fielmente la correlación real considerando esos empates.
El valor calculado por Python de τ es correcto y más preciso, ya que considera la estructura completa de los datos, incluidos los lazos, lo cual es recomendable para obtener una estimación robusta del coeficiente de correlación de Kendall.


