Regresión lineal múltiple
Características y utilidad de la regresión lineal múltiple

Regresión Lineal Múltiple
Regresión Lineal Multiple
La regresión múltiple es una extensión de la regresión lineal que permite modelar la relación entre una variable dependiente y dos o más variables independientes.
Se utiliza para predecir el valor de la variable dependiente con base en varias variables predictoras (independientes).
A diferencia de la regresión simple, donde se estudia una relación entre dos variables (una dependiente y una independiente), en la regresión múltiple se analizan varias variables predictoras simultáneamente.
La regresión lineal múltiple es una técnica estadística que nos permite analizar la relación entre una variable dependiente (aquella que queremos predecir) y dos o más variables independientes (aquellas que creemos que influyen en la variable dependiente).
Utilidad de la regresión lineal múltiple
La regresión lineal múltiple permite tomar una población o muestra de datos y relizar tareas tales como:
Predicción: Permite estimar el valor de una variable en función de los valores de otras. Por ejemplo, predecir el precio de una vivienda en función de su tamaño, ubicación, número de habitaciones, etc.
Análisis de causalidad: Aunque no establece relaciones de causalidad directas, nos ayuda a identificar qué variables están más relacionadas con la variable que queremos explicar.
Construcción de modelos: Se utiliza para construir modelos matemáticos que describen fenómenos reales, lo que facilita su comprensión y análisis.
En consecuencia se utiliza cuando:
Tenemos múltiples variables independientes que creemos que afectan una variable dependiente.
Cuando la variable dependiente es continua (por ejemplo, precio, temperatura, altura).
Cuando las variables independientes pueden ser continuas o categóricas (aunque las categóricas suelen requerir codificación).
Cuando se asume una relación lineal entre las variables.
Queremos cuantificar la relación entre la variable dependiente y cada variable independiente.
Es importante aislar el impacto individual de cada variable para hacer predicciones más precisas o para interpretar la influencia de cada factor.
Fórmula general
La ecuación de la regresión múltiple es:
yˆ=β0+β1x1+β2x2+⋯+βnxn+ε
Donde:
y es la variable dependiente (lo que estamos tratando de predecir).
x1,x2,…,xn son las variables independientes (factores que influyen en y).
β0 es el intercepto o término constante.
β1,β2,…,βn son los coeficientes de regresión asociados a cada variable independiente x1,x2,…,xn, que representan el cambio en y cuando esa variable independiente aumenta en una unidad, manteniendo las otras variables constantes.
ε es el término de error o residual.
En otras bibiliografías es observan expresiones equivalentes como por ejemplo:
yˆ = b0 + b1x + b2x 2 + ... + bkxk.
Pero en definitiva se trata de expresiones equivalentes.
Interpretación de los coeficientes:
Cada coeficiente β en la ecuación de la regresión múltiple tiene el siguiente significado:
β0 es la intersección, que representa el valor promedio de y cuando todas las variables independientes son 0.
Cada βi indica cómo cambia y cuando xi cambia en una unidad, mientras las otras variables independientes se mantienen constantes. Este principio se conoce como ceteris paribus.
Suposiciones de la regresión múltiple
Linealidad: La relación entre la variable dependiente y cada variable independiente es lineal.
Independencia: Las observaciones son independientes entre sí.
Normalidad: Los residuos (errores) deben seguir una distribución normal.
Homoscedasticidad: La varianza de los residuos debe ser constante para todos los valores de las variables independientes.
Ausencia de multicolinealidad: No debe haber una alta correlación entre las variables independientes.
Outliers: Los valores atípicos pueden influir significativamente en los resultados del modelo.
Ejemplo de regresión múltiple
Queremos predecir el precio de una casa (variable dependiente) usando tres factores (variables independientes): tamaño de la casa (en metros cuadrados), número de habitaciones y edad de la casa.
La ecuación de la regresión múltiple sería:
Precio=β0+β1⋅Tamaño+β2⋅Habitaciones+β3⋅Edad+ε
donde:
β1 nos dice cuánto cambia el precio de la casa por cada metro cuadrado adicional, manteniendo constantes las otras dos variables.
β2 nos dice cómo cambia el precio con cada habitación adicional.
β3 nos dice cómo cambia el precio con el aumento en la edad de la casa.
Ejemplo en Python usando statsmodels.
En github se comparte el desarrollo en python.
Interpretación de los resultados
Al ejecutar este código, obtendremos una tabla con el resumen del modelo de regresión múltiple que incluirá:
Coeficientes: Los coeficientes β0,β1,β2,β3 aplican a las variables
Tamaño
,Habitaciones
, yEdad
. Cada coeficiente nos indica el efecto que tiene esa variable sobre el precio de la casa, manteniendo las otras constantes.R²: El coeficiente de determinación, que nos dice qué proporción de la variabilidad en el precio de las casas es explicada por el modelo. Un R² cercano a 1 indica un buen ajuste. Sin embargo en este punto es importante analizar el "R² ajustado".
p-valores: Nos indican si las variables predictoras son estadísticamente significativas. Si el valor p es menor que un umbral (por ejemplo, 0.05), la variable es significativa.
Errores estándar: Miden la precisión de los coeficientes estimados.
Limitaciones de la regresión múltiple
Multicolinealidad: Si las variables independientes están altamente correlacionadas entre sí, puede ser difícil interpretar los coeficientes correctamente.
Sobreajuste (overfitting): Si incluimos demasiadas variables independientes en el modelo, podemos ajustar demasiado los datos de la muestra, lo que reduce la capacidad de generalización a nuevas observaciones.
En resumen, la regresión múltiple es una herramienta poderosa que nos permite entender cómo múltiples factores afectan una variable dependiente, pero requiere tener en cuenta varias suposiciones para asegurar que los resultados sean interpretables y precisos.



