top of page

Regresión Lineal

Regresión Lineal Estadística

Regresiones en su versión mas simple.

Regresiones en su versión mas simple.

Regresión Lineal 

La regresión lineal es un método que se utiliza para modelar la relación entre una variable dependiente y una o más variables independientes. La idea principal es encontrar una línea recta (en el caso de regresión lineal simple) que mejor describa cómo la variable dependiente (la que quieres predecir) cambia con respecto a las variables independientes (las que usas para hacer la predicción).

La regresión lineal busca establecer una relación lineal entre una variable dependiente (la que queremos predecir) y una o más variables independientes (las que utilizamos para hacer la predicción).


Regresión Lineal Simple

Se utiliza cuando hay una única variable independiente. Se modela la relación entre las dos variables con una línea recta.

y=β0+β1x+ϵ

donde

y es la variable dependiente.
x es la variable independiente.
β0 es la intersección (el valor de y cuando x=0).
β1 es la pendiente de la línea (indica cuánto cambia y por cada unidad de cambio en x).
ϵ es el término de error (la parte de y que no se explica por x).


Regresión Lineal Múltiple

Se utiliza cuando hay más de una variable independiente. La relación se modela con un plano o un hiperplano en dimensiones superiores. Por lo tanto, en la regresión lineal múltiple, la ecuación se extiende para incluir múltiples variables independientes

y=β0+β1x1+β2x2+…+βnxn+ϵy

donde

x1,x2,…,xn

son las variables independientes.


Aplicaciones y usos

  1. Recopilación de Datos: Recolecta datos sobre la variable dependiente y las variables independientes.

  2. Exploración de Datos: Permite entender cómo una variable independiente afecta a la variable dependiente. Por ejemplo, cómo la cantidad de publicidad afecta las ventas de un producto. Realiza gráficos y análisis descriptivos para identificar posibles relaciones lineales.

  3. Control: Ayuda a identificar qué variables tienen un impacto significativo y cuáles no, lo que es útil para la toma de decisiones.

  4. Modelado: Ajusta un modelo de regresión lineal a los datos para estimar los coeficientes β0, β1, etc.

  5. Evaluación del Modelo: Evalúa la fuerza y dirección de las relaciones entre variables.. Usa métricas como R², error cuadrático medio (MSE), y pruebas estadísticas para evaluar la calidad del modelo. 

  6. Interpretación: Analiza los coeficientes estimados para entender la relación entre las variables.

  7. Predicción: Usa el modelo para hacer predicciones sobre nuevos datos. Una de las aplicaciones más comunes es predecir el valor de Y para un nuevo valor de X. Por ejemplo, predecir el precio de una casa (Y) basado en su tamaño (X).


Supuestos o requisitos de la Regresión Lineal

Para que los resultados de una regresión lineal sean válidos, se deben cumplir ciertos supuestos:

  1. Linealidad: La relación entre las variables debe ser lineal.

  2. Independencia: Los errores deben ser independientes entre sí.

  3. Homocedasticidad: La varianza de los errores debe ser constante para todos los valores de X.

  4. Normalidad: Los errores deben seguir una distribución normal.

Es importante profundizar sobre estos requisitos de la siguiente manera:

  1. Linealidad de la mustra de datos apareados: La muestra de datos apareados (x, y) es una muestra aleatoria de datos cuantitativos. El examen visual del diagrama de dispersión indica que los puntos se aproximan al patrón de una línea recta.

  2. Errores con distribución normal y varianza constante para x: Se deben eliminar los valores extremos si se saben que no son representativos de la muestra.

Esto puede inerpretarse en otras palabra de la siguiente manera:

  • Para cada valor fijo de x, los valores correspondientes de y tienen una distribución en forma de campana.

  • Para los distintos valores fijos de x, las distribuciones de los valores correspondien- tes de y tienen la misma varianza. (Esto se viola si parte del diagrama de dispersión presenta puntos muy cercanos a la línea de regresión, mientras otra porción del diagrama presenta puntos que se alejan mucho de la línea de regresión. Consulte la explicación de los puntos residuales casi al final de esta sección).

  • Para los distintos valores fijos de x, las distribuciones de los valores correspondientes de y tienen medias que se ubican en la misma línea recta.

  • Los valores de y son independientes entre si.

  • Los resultados no se ven muy afectados si la distribución no se aleja demasiado de la normalidad y si las varianzas no son demasiado diferentes.


Construccción de la ecuación con regresión lineal

El método de los mínimos cuadrados, también conocido com OLS ("Ordinary Least Squares"). Es un método estándar para estimar los parámetros de un modelo de regresión lineal. El objetivo de OLS es minimizar la suma de los cuadrados de las diferencias (residuos) entre los valores observados y los valores predichos por el modelo.


Evaluación del modelo de Regresión Lineal

  1. Coeficiente de determinación (R²): Indica la proporción de la varianza de Y que es explicada por el modelo. Cuanto más cercano a 1, mejor es el ajuste.

  2. Test F: Evalúa si al menos uno de los coeficientes de regresión es diferente de cero.

  3. Test t: Evalúa si cada coeficiente de regresión individual es diferente de cero.


Ejemplo en Python usando statsmodels

A continuación, un ejemplo práctico de cómo realizar una regresión lineal simple en Python:

Veamos si existe relación entre los precios de las casas y su tamaño, de acuerdo a los siguietnes datos:

Tamaño (pies cuadrados): 1500, 1600, 1700, 1800, 1900,     

Precio (miles de dólares): 300, 320, 340, 360, 380


Tanto el calculo de los coeficientes para la construcción de la ecuación que representa la regresión lineal como la evaluación de la calidad de la misma se comparte en un jupyter notebook en mi github.


Interpretación de los Resultados:

  • Coeficiente de Intersección (β0): Representa el valor estimado de Y cuando X=0. En este contexto, es un valor hipotético, ya que una casa con 0 pies cuadrados no tiene sentido.

  • Coeficiente de la Pendiente (β1): Indica cuánto se espera que cambie Y por cada unidad adicional en X. En este ejemplo, cuánto aumentará el precio de la casa por cada pie cuadrado adicional.

  • : Indica la proporción de la variabilidad en Y que es explicada por X. Un cercano a 1 sugiere un buen ajuste del modelo.

Dicho esto, la librería statsmodels de python tiene un método o función para calcular la regresión lineal por el método de minimos cuadrados, obtener una ecuación y evaluar su representatividad.  El código sería el siguiente:

# Agregar una constante para el intercepto

X = sm.add_constant(X)

# Ajustar el modelo de regresión lineal

modelo = sm.OLS(Y, X).fit()

# Resumen del modelo

print(modelo.summary())

Y el resultado o su conjunto de datos sería el que se muestra en la figura y se ve en jupiter notebook. Se propone la lectura de los datos de la figura en conjunto con la explicación de los resultados siguiente.

A continuación se detalladan estadísticas y métricas clave incluidas en sm.OLS. 

  1. Dep. Variable:La variable dependiente que se está modelando, es decir, la que intentas predecir.

  2. Model:Indica el tipo de modelo utilizado, en este caso, OLS (Ordinary Least Squares).

  3. Method:Método utilizado para estimar los parámetros del modelo, generalmente "Least Squares" para OLS.

  4. Date y Time:Fecha y hora en que se realizó el análisis.

  5. No. Observations:El número de observaciones (filas de datos) utilizadas en el modelo.

  6. Df Residuals:Los grados de libertad de los residuos, calculados como el número de observaciones menos el número de parámetros estimados (incluyendo la constante).

  7. Df Model:Los grados de libertad del modelo, que es el número de variables independientes utilizadas en el modelo.

  8. R-squared (R²):Una medida de qué tan bien se ajusta el modelo a los datos. Va de 0 a 1, donde 1 indica un ajuste perfecto.

  9. Adj. R-squared (R² ajustado):Es una versión ajustada del que penaliza la inclusión de variables independientes innecesarias. Es útil para comparar modelos con diferentes números de variables.

  10. F-statistic y Prob (F-statistic):La F-statistic evalúa la hipótesis nula de que todos los coeficientes del modelo son iguales a cero (es decir, ninguna de las variables independientes tiene un efecto).La Prob (F-statistic) es el valor p asociado con esta prueba. Un valor p bajo (por ejemplo, < 0.05) indica que al menos una variable independiente es significativa.

  11. Log-Likelihood:Es una medida de la probabilidad de los datos dados los parámetros del modelo. Cuanto mayor es el log-likelihood, mejor es el ajuste del modelo.

  12. AIC (Akaike Information Criterion) y BIC (Bayesian Information Criterion):Son criterios para la selección de modelos, donde valores más bajos indican un mejor ajuste relativo. Penalizan la complejidad del modelo, es decir, el número de parámetros.

  13. coef (Coeficientes β\betaβ):Los coeficientes estimados para cada variable independiente y para la constante (intercepto). Indican el cambio esperado en la variable dependiente por un cambio unitario en la variable independiente correspondiente.

  14. std err:El error estándar de cada coeficiente, que mide la precisión de la estimación. Un error estándar más bajo indica una estimación más precisa.

  15. t (t-statistic):El estadístico t para cada coeficiente, que se usa para probar si ese coeficiente es significativamente diferente de cero.

  16. P>|t| (p-value):El valor p asociado con el estadístico t. Indica la probabilidad de observar un valor t tan extremo como el calculado si la hipótesis nula (coeficiente igual a cero) es cierta. Valores p menores a 0.05 típicamente sugieren que el coeficiente es significativamente diferente de cero.

  17. [0.025, 0.975] (Intervalos de confianza):Los intervalos de confianza al 95% para cada coeficiente. Esto significa que estamos un 95% seguros de que el valor real del coeficiente se encuentra dentro de este rango.

  18. Omnibus, Prob(Omnibus):Prueba estadística para la normalidad de los residuos. Un valor p alto sugiere que los residuos son normales.

  19. Skew y Kurtosis:Skew mide la asimetría de la distribución de los residuos.
    Kurtosis mide la "puntiagudez" de la distribución en comparación con una distribución normal.

  20. Durbin-Watson:Estadístico que detecta la autocorrelación en los residuos. Un valor cercano a 2 sugiere que no hay autocorrelación.

  21. Jarque-Bera (JB) y Prob(JB):Otra prueba de normalidad de los residuos. Como con Omnibus, un valor p alto sugiere que los residuos son normales.

  22. Cond. No. (Número de condición):Mide la multicolinealidad o dependencia lineal entre las variables independientes. Valores altos (generalmente > 30) pueden indicar problemas de multicolinealidad.

  • Resumen:

  1. R-squared y Adj. R-squared: Miden la calidad del ajuste del modelo.

  2. coef y P>|t|: Evalúan la importancia de cada variable independiente.

  3. F-statistic: Evalúa la significancia general del modelo.

  4. Pruebas de normalidad (Omnibus, JB, etc.) y Durbin-Watson: Verifican las suposiciones del modelo. 


Interpretación de la construcción de una regresión lienal simple

El concepto clave aquí es describir la relación entre dos variables por medio del cálculo de la gráfica y la ecuación de la recta que representa mejor la relación. Esta recta se conoce como recta de regresión y su ecuación como ecuación de regresión. A partir de datos muestrales apareados, calcularemos valores estimados de b0, que es la intersección en y, y la pendiente b1, de manera que podamos identificar una línea recta con la ecuación en su expreción más sencilla:

yˆ = b0 + b1x+ϵ

o bien, como vimos anteriormente (que es lo mismo pero escrito distinto...

y=β0+β1x+ϵ

donde

y es la variable dependiente.
x es la variable independiente.
β0 es la intersección (el valor de y cuando x=0). Se llama intercepto.
β1 es la pendiente de la línea (indica cuánto cambia y por cada unidad de cambio en x).
ϵ es el término de error (la parte de y que no se explica por x).


En estadística, la primera versión de la ecuación (yˆ = b0 + b1x) corresponde al estadistico muestral mientas que la segunda (y=β0+β1x+ϵ) se usa para representar al parametro poblacional.

En condiciones adecuadas, esa ecuación resulta útil para hacer predicciones. Existen programas de cómputo y calculadoras para realizar los cálculos aritméticos que son hasta cierto punto engorrosos, de manera que nos enfocaremos en entender los conceptos más que en procesar los datos numéricos.


Conceptos  básicos de regresión lineal simple

En algunos casos, dos variables están relacionadas de una forma determinista, es decir, dado un valor de una variable, el valor de la otra variable se determina automáticamente sin error. 

  • Por ejemplo, el costo total y de un artículo con un precio de lista x y un impuesto de venta del 5% se calcula utilizando la ecuación determinista y = 1.05x. Si un artículo tiene un precio de $50, su costo total será de $52.50. Este tipo de funciones se estudian ampliamente en los cursos de álgebra. 

En estadística estamos más interesados en los modelos probabilísticos, en los que una variable no está determinada por completo por la otra variable. 

  • Por ejemplo, la estatura de un niño no está completamente determinada por la estatura del padre (o de la madre). Sir Francis Galton (1822-1911) estudió el fenómeno de la herencia y demostró que cuando parejas altas o bajas tienen hijos, las estaturas de éstos tienden a regresar o a revertirse a la estatura media más común de las personas del mismo género. 

Se utiliza la terminología de “regresión” de Galton, aun cuando nuestros datos no incluyen el mismo fenómeno de estatura estudiado por Galton.


Ecuación lineal

Uso de la ecuación  de regresión para hacer predicciones

Las ecuaciones de regresión a menudo se utilizan para predecir el valor de una variable, dado algún valor particular de la otra variable. Si la recta de regresión se ajusta bastante bien a los datos, entonces es sensato utilizar su ecuación para hacer predicciones, siempre y cuando no vayamos más allá del alcance de los valores disponibles. No está bien hacer predicciones con base en valores que rebasen las fronteras de los datos muestrales conocidos. 


Analisis de correlación - regresión

Valores extremos y puntos de influencia

Un análisis de correlación y regresión de datos bivariados (apareados) debe incluir la investigación de valores extremos y puntos de influencia, que se definen a continuación.

  1. En un diagrama de dispersión, un valor extremo es un punto que aparece muy lejos de los otros puntos de datos.

  2. Los datos muestrales apareados pueden incluir uno o más puntos de influencia, que son puntos que afectan fuertemente la gráfica de la recta de regresión.


Valor residual

Para una muestra de datos apareados (x, y), un residual es la diferencia (y - yˆ) entre un valor y muestral observado y el valor de yˆ, que es el valor de y predicho por medio de la ecuación de regresión. Es decir,

valor residual =  y observada - y predicha = y - yˆ

En la figura correspondiente, los residuales están representados por las líneas punteadas. Para tener un ejemplo específico, observe el residual indicado como 7, que se encuentra directamente por arriba de x = 5. Si sustituimos x =  5 en la ecuación de regresión yˆ = 5 + 4x, obtenemos un valor predicho de yˆ = 25. Cuando x = 5, el valor predicho de y es yˆ = 25, pero el valor muestral real observado es y  = 32. La diferencia y - yˆ = 32 - 25 = 7 es un residual.

La ecuación de regresión representa la recta que se ajusta “mejor” a los puntos, de acuerdo con la siguiente propiedad de mínimos cuadrados.


Minimos cuadrados

Una recta satisface la propiedad de mínimos cuadrados si la suma de los cuadrados de los residuales es la menor suma posible.

En la figura podemos observar que los residuales son  -5, 11,  -13 y 7, de manera que la suma de sus cuadrados es

(-5)² + 11² + (-13)² + 7 = 364

Es ´posible visualizar la propiedad de mínimos cuadrados en figura, donde los cuadrados de los residuales están representados por las áreas de los cuadrados sombreados. La suma de las áreas sombreadas cuadradas es 364, que es la menor suma posible. Utilizando cualquier otra recta, los cuadrados sombreados se combinarán para producir una área mayor que el área sombreada combinada de 364.

Por fortuna, no necesitamos lidiar directamente con la propiedad de mínimos cuadrados cuando deseamos obtener la ecuación de la recta de regresión. Utilizamos métodos y funciones de python para ello.


Grafica Residual

Una gráfica residual es un diagrama de dispersión de los valores (x, y) una vez que cada uno de los valores de la coordenada y han sido reemplazados por el valor residual y - yˆ (donde yˆ denota el valor predicho de y). Es decir, una gráfica residual es una gráfica de los puntos (x, y - yˆ).

Propósitos del Gráfico Residual

  1. Verificación de la Linealidad: En la regresión lineal, se asume que la relación entre las variables independientes y la variable dependiente es lineal. Si el gráfico de residuos muestra un patrón no aleatorio (como una curva), podría indicar que la relación no es lineal y que el modelo no es apropiado.

  2. Homocedasticidad: Se refiere a la suposición de que la varianza de los residuos es constante para todos los valores de la variable independiente. Si el gráfico muestra un patrón en forma de embudo o cualquier otro patrón sistemático, esto podría indicar heterocedasticidad, donde la varianza de los residuos cambia con el nivel de la variable independiente.

  3. Independencia de los Errores: Los residuos deben ser independientes entre sí. Si los puntos en el gráfico muestran un patrón secuencial o de dependencia, podría indicar que los errores no son independientes.

  4. Normalidad de los Residuos: Si los residuos están distribuidos normalmente, deberían estar distribuidos aleatoriamente alrededor de cero en el gráfico. Una distribución no aleatoria puede indicar problemas con la normalidad de los errores.

La gráfica residual es otra herramienta útil para analizar resultados de correlación y regresión, así como para verificar los requisitos necesarios para hacer inferencias sobre una correlación y una regresión. En definitiva:

  • Si una gráfica residual no revela ningún patrón, la ecuación de regresión es una buena representación de la asociación entre las dos variables.

  • Si una gráfica residual revela algún patrón sistemático, la ecuación de regresión no es una buena representación de la asociación entre las dos variables.

Ejemplos:


x 0 1  2  3  4  5 7  8  9  10 

y 1 4 8 18 19 24 36 43 42 47

Todo está bien; los puntos se aproximan a la recta de regresión, de manera que la ecuación de regresión es un buen modelo para describir la asociación entre las dos variables. La gráfica residual correspondiente no revela un patrón diferente.


x  0   1   2   3   4   5   7   8   9   10 

y  1   0   2   5   10  20   15   10   7   3

Este caso, genera un diagrama de dispersión que señala una asociación entre las dos variables, pero la relación no es lineal. La gráfica residual correspondiente indica un patrón diferente, lo que confirma que el modelo lineal no es un buen modelo en este caso.


x  0   1   2   3   4   5   7   8   9   10

y  0  6  9  15  10  35  15  60  75  20  

Este caso, tiene un diagrama de dispersión en el que los puntos se van alejando de la recta de regresión, y la gráfica residual revela un patrón de variación creciente,




bottom of page