top of page

Correlaciones Lineales

Hipótesis relativas a correlaciones. Coeficientes de Pearson y Spearman.

Correlación lineal

Correlación lineal

La correlación estadística es una medida que indica el grado y la dirección de la relación lineal entre dos variables cuantitativas

  • Es una medida que nos indica la fuerza y dirección de la linealidad entre dos variables numéricas

  • En otras palabras, nos dice si al cambiar el valor de una variable, el valor de la otra tiende a aumentar, disminuir o no se ve afectado.

Es una herramienta fundamental en el análisis de datos porque ayuda a entender cómo dos variables se relacionan entre sí.


Elementos clave de la correlación:

  • Fuerza: Indica qué tan fuerte es la relación entre las variables. Se mide por el valor absoluto del coeficiente de correlación.

  • Dirección: Indica si la relación es positiva (ambas variables aumentan o disminuyen juntas) o negativa (una aumenta mientras la otra disminuye).

  • Linealidad: La correlación mide la relación lineal entre las variables. Si la relación es curva o no lineal, el coeficiente de correlación puede subestimar la fuerza de la asociación.


Tipos de Correlación

  1. Correlación Positiva: Cuando una variable aumenta, la otra también tiende a aumentar.

  2. Correlación Negativa: Cuando una variable aumenta, la otra tiende a disminuir.

  3. Correlación Nula: No hay una relación lineal aparente entre las variables.


Medidas de Correlación

Las dos medidas de correlación más comunes son el coeficiente de correlación de Pearson y el coeficiente de correlación de Spearman.

En este apartado se explican las formulas correspondientes a estos coeficientes. Para utilizarlas y ver sus implicaciones gráfica he compartido un jupiter notebook en mi github.


1. Coeficiente de Correlación de Pearson (r)

  • Definición: Mide la fuerza y la dirección de la relación lineal entre dos variables.

  • Rango

    • r       : Toma valores entre -1 y 1.

    • r=1   : Correlación positiva perfecta.

    • r=−1 : Correlación negativa perfecta.

    • r=0  : No hay correlación lineal.

  • Fórmula:

r = Σ[(Xi - X̄)(Yi - Ȳ)] / √[Σ(Xi - X̄)² * Σ(Yi - Ȳ)²]

  • r: Coeficiente de correlación de Pearson

  • Xi: Valor individual de la variable X

  • X̄: Media de la variable X

  • Yi: Valor individual de la variable Y

  • Ȳ: Media de la variable Y

  • Σ: Sumatoria

  • Numerador: Mide la covarianza entre las dos variables. Indica si las desviaciones de cada punto respecto a sus medias tienden a coincidir en dirección.

  • Denominador: Es el producto de las desviaciones estándar de ambas variables. Normaliza el valor del numerador para que el coeficiente de correlación esté siempre entre -1 y 1.


2. Coeficiente de Correlación de Spearman (ρ)

  • Definición: Mide la fuerza y dirección de una relación monotónica entre dos variables, basado en rangos. Es útil cuando los datos no cumplen las suposiciones de normalidad o hay relaciones no lineales.

  • Rango: ρ toma valores entre -1 y 1, similar a Pearson

    • ρ=1: Correlación positiva perfecta.

    • ρ=−1: Correlación negativa perfecta.

    • ρ=0: No hay correlación.


  • Fórmula:

ρ = 1 - (6Σd²) / (n(n² - 1))

  • ρ: Coeficiente de correlación de Spearman

  • d: Diferencia entre los rangos de cada par de observaciones

  • n: Número total de observaciones

  • d²: Es el cuadrado de la diferencia entre los rangos de cada par de observaciones.

  • Σd²: Es la suma de todos los valores de d².

  • n(n² - 1): Es un factor de corrección que depende del tamaño de la muestra.


  • Cálculo: Se basa en los rangos de los datos en lugar de sus valores brutos.


Interpretación del Coeficiente de Correlación

  • Cercano a 1 o -1: Fuerte correlación positiva o negativa.

  • Cercano a 0: Débil correlación o ninguna correlación.


Resultados y Interpretación

La interpretación parte de un concepto simple en cualquiera de los dos casos:

  • Correlación de Pearson: Te indica si hay una relación lineal y la fuerza de esta relación entre las dos variables.

  • Correlación de Spearman: Es útil si tienes relaciones no lineales o datos que no son normales, y mide si una variable tiende a aumentar o disminuir consistentemente con la otra.

Sin embargo, es importante recordar que  las muestras cuya correlación se está calculando son muestras estadisticas y por lo tanto no son datos deterministicos sino áleatorios. En consecuencia se puede analizar el resultado del indice de correlación con un sentido probabilistico utilizando el concepto de prueba de hipótesis y el valor p.


Diferencia entre Pearson y Spearman. 

Pearson mide la correlación lineal, mientras que Spearman mide la correlación monótona. La diferencia en los coeficientes sugiere que, aunque existe una relación lineal fuerte entre las impresiones de oyentes y las ventas de álbumes, la relación puede no ser perfectamente monótona. La diferencia en los valores p también indica que la relación lineal es más robusta (estadísticamente significativa) que una relación monótona general. 


Prueba de Hipótesis de correlación

Para probar el grado de aceptación de la correlación se plantea la misma como hipótesis alternativa, entonces el planteo queda así:

  1. Hipótesis nula (𝐻0): No existe correlación entre las variables 𝑋 e 𝑌. Matemáticamente, esto se expresa como 𝑟=0 para Pearson y 𝜌=0 para Spearman.

  2. Hipótesis alternativa (𝐻1): Existe una correlación significativa entre las variables 𝑋 e 𝑌. Esto se expresa como 𝑟≠0 para Searson o 𝜌≠0 para Spearman.

Valor p

Si el valor p es pequeño (típicamente ≤ 0.05), esto indica que la probabilidad de observar una correlación tan fuerte como la obtenida, Bajo la suposición de que 𝑟=0 (no hay correlación), si el valor p es muy bajo ( ≤ 0.05) entonces es muy poco probable que no exista correlación. Es decir que es muy probable que si exista una correlación.

En definitiva, el valor p termina siendo conceptualmente inverso o reciproco al indice de correlación:

  • Una correlación alta debería dar como consecuencia un valor p bajo

  • Una correlación nula debería dar como consecuencia un valor p muy alto


Representación gráfica

Una forma visual de representar la correlación es mediante un diagrama de dispersión. En este tipo de gráfico, cada punto representa un par de valores de las dos variables. La forma y dirección de la nube de puntos nos da una idea de la fuerza y dirección de la correlación.

Debe tenerse especial cuidado con los graficos porque dan una buena idea de la correlación pero además nos indican si estamos haciendo una buena intepretación de la misma. En efecto, sucede a veces que ahalizamos grupos de datos que pueden verse bien relacionados entre si aún cuando no lo están dentro de cada aglomerado. Esto puede verse en algunos graficos de ejempolo en estos apartados de correlación y también en loe ejemplos de jupiter notebook en github.


Limitaciones de la Correlación

  1. Correlación no implica causalidad: Aunque dos variables estén correlacionadas, no significa que una cause la otra. El hecho de que dos variables estén correlacionadas no significa necesariamente que una cause la otra. Puede haber una tercera variable influyendo en ambas.

  2. Sensibilidad a valores atípicos: Los valores atípicos (outliers) pueden influir significativamente en el valor del coeficiente de correlación. Especialmente en el caso de Pearson, los outliers pueden distorsionar el valor del coeficiente.

  3. Linealidad: El coeficiente de correlación de Pearson asume una relación lineal entre las variables. Si la relación es no lineal, puede ser necesario utilizar otros métodos de análisis.

  4. Relaciones no lineales: Pearson solo mide relaciones lineales; si la relación entre las variables es no lineal, la correlación de Pearson puede no detectarla.

¿Cuándo utilizar la correlación?

  • Para evaluar la relación entre dos variables continuas.

  • Para identificar posibles variables predictoras en modelos de regresión.

  • Para explorar datos y generar hipótesis.


Requisitos y caracteristicas de una correlación lineal

Dado cualquier conjunto de datos muestrales apareados, siempre se puede calcular el coeficiente de correlación lineal r, pero se deben satisfacer los siguientes requisitos cuando se prueban hipótesis o cuando se hacen inferencias acerca de r.

  1. La muestra de datos apareados (x, y) es una muestra aleatoria de datos cuantitativos. (Es importante que los datos muestrales no se hayan reunido por medio de algún método inapropiado, como una muestra de respuesta voluntaria).

  2. El examen visual del diagrama de dispersión debe confirmar que los puntos se acercan al patrón de una línea recta.

  3. Es necesario eliminar cualquier valor extremo, si se sabe que se trata de un error. Los efectos de cualquier otro valor extremo deben tomarse en cuenta calculando r con y sin el valor extremo incluido.

Los requisitos 2 y 3 se simplifican al verificar el siguiente requisito formal: Los pares de datos (x, y) tienen una distribución normal bivariada. (Este supuesto requiere que, para cualquier valor fijo de x, los valores correspondientes de y tengan una distribución con forma de campana, y que para cualquier valor fijo de y, los valores de x tengan también una distribución conforma de campana).Suele ser difícil verificar este supuesto, por lo que, suelen usarse los criterios 2 y 3.


Outliers y su efecto en las correlaciones

En las limitaciones de la correlación se menciona (más arriba) su sensibilidad a los valores atípicos. Esto quiere decir que uno o más valores atípicos pueden distorcionar por completo un indice de correlación. Así puede verse en el siguiente ejemplo ( ver planteo, grafico y desarrollo en jupyter notebook en github).

# Datos de ejemplo, dónde se observa que el par de datos x,y (10,10) es un outlier

x = [1, 1, 1, 2, 2, 2, 3, 3, 3, 10]

y = [1, 2, 3, 1, 2, 3, 1, 2, 3, 10]

En este ejemplo el indice de correlación es muy alto y es incorrecto.:

Coeficiente de correlación de Pearson: 0.9056603773584905 con p_value: 0.0003088

Coeficiente de correlación de Spearman: 0.2941176470588235, valor p: 0.2941176470588235

El oulier conduce ha un inde de correlación alto que obviamente es incorrecto. Esto podemos comprobarlo quitando el outlier.

# Datos de ejemplo, dónde se elmina (10,10) que es un outlier

x = [1, 1, 1, 2, 2, 2, 3, 3, 3]

y = [1, 2, 3, 1, 2, 3, 1, 2, 3]

Coeficiente de correlación de Pearson: 0.0 con p_value: 0.9999999999999998 Coeficiente de correlación de Spearman: 0.0, valor p: 0.0

Al quietar el outlier vemos que practicamente no existe correlación porque el indice es cero y este es el valor correcto de correlación, en este caso nula.


Aglomerados y su efecto en las correlaciones

A veces los indices de correlación son incorrectos porque los planteos de los análisis son incorrectos. Así puede verse en el siguiente ejemplo ( ver planteo, grafico y desarrollo en jupyter notebook en github).

# Datos de ejemplo

x = [1, 1, 2, 2, 9, 9, 10, 10]

y = [1, 2, 1, 2, 9, 10, 9, 10]

Si se grafica y se calcula la correlación el resultado será una alta correlación.

Coeficiente de correlación de Pearson: 0.9846153846153847 con p_value: 8.99860756868555e-06 Coeficiente de correlación de Spearman: 0.8, valor p: 0.8

Si nos detenemos a observar los datos y el grafico pueden verse dos grupos o aglomerados de datos (que están en el extremo inferior izquierdo y en el extremo superior derecho). Estos aglomerados suelen corresponder a dos categorías distintas (por ejemplo datos correspondientes a mujeres en el extremo inferior izquierdo y  a hombres en el extremo superior izquierdo). En este caso la correlación es alta entre conglomerados pero no evidencia correlación alguna dentro de los mismos. Es decir hay que ver muy bien que estamos intentando analizar, ya que puede comprobar que la correlación dentro de cada grupo será nula.


Variable interventora

Una variable interventora, también conocida como variable mediadora o variable intermedia, es una variable que se encuentra en medio de una cadena causal entre una variable independiente (causa) y una variable dependiente (efecto). Esta variable explica parte o toda la relación entre la variable independiente y la dependiente, actuando como un mecanismo a través del cual la variable independiente influye en la variable dependiente.

Ejemplo Simple. Imaginemos el estudiando la relación entre el nivel educativo (variable independiente) y el ingreso anual (variable dependiente). Es posible suponer que a mayor nivel educativo, mayor será el ingreso anual. Sin embargo, la experiencia laboral podría ser una variable interventora en esta relación:

  • Variable independiente (X): Nivel educativo

  • Variable interventora (M): Experiencia laboral

  • Variable dependiente (Y): Ingreso anual

  • Aquí, el nivel educativo puede llevar a una mayor experiencia laboral (porque personas más educadas pueden acceder a mejores oportunidades laborales), y esta mayor experiencia laboral puede, a su vez, llevar a un mayor ingreso anual. Entonces, la experiencia laboral es una variable que interviene en la relación entre la educación y el ingreso.

Las variables interventoras son importantes porque:

  1. Desempaquetan Relaciones: Ayudan a descomponer y entender relaciones complejas, revelando el mecanismo a través del cual una variable afecta a otra.

  2. Mejora la Precisión del Modelo: Al incluir variables interventoras en un análisis, el modelo puede ofrecer una explicación más precisa y detallada del fenómeno que se está estudiando.

  3. Diferencia entre Correlación y Causalidad: Las variables interventoras pueden ayudar a identificar cómo y por qué existe una relación entre dos variables, ayudando a evitar falsas interpretaciones de causalidad.


Referencias

Ejemplos de correlación con coeficienes de Pearson y Spearman en python en mi github


bottom of page