Regresiones
Regresiones, tipos, usos y aplicaciones
Tipos más comunes de regresión.
Regresión estadística
La regresión estadística es una técnica que nos permite modelar la relación entre una variable dependiente y una o más variables independientes. En términos más simples, buscamos encontrar una ecuación matemática que mejor describa cómo cambia el valor de una variable cuando otra cambia. Por ejemplo:
¿Cómo influye el número de horas estudiadas en el resultado de un examen?
¿Cuál es la relación entre la edad de un coche y su valor de reventa?
¿Cómo afecta la temperatura a las ventas de helados?
En estos casos, la variable que queremos predecir (resultado del examen, valor de reventa, ventas de helados) es la variable dependiente, y las variables que influyen en ella (horas estudiadas, edad del coche, temperatura) son las variables independientes.
Aplicaciones y usos
La regresión tiene múltiples aplicaciones, entre las más comunes se encuentran:
Predicción: Permite estimar el valor de una variable dependiente a partir de los valores conocidos de las variables independientes.
Explicación: Ayuda a entender cómo las variables independientes influyen en la variable dependiente, es decir, cuál es la naturaleza de la relación entre ellas.
Control: Se puede utilizar para identificar las variables que más influyen en un proceso y así poder controlarlas.
La regresión se utiliza en una amplia variedad de campos, como:
Ciencias sociales: Para estudiar la relación entre variables como el ingreso, la educación y la salud.
Economía: Para analizar la relación entre variables económicas como el PIB, la inflación y el desempleo.
Ciencias naturales: Para modelar fenómenos físicos y biológicos.
Ingeniería: Para optimizar procesos y diseñar productos.
Marketing: Para predecir las ventas y el comportamiento de los consumidores.
Tipos de regresión
Existen muchos tipos de regresión, pero los más comunes son:
Regresión lineal simple: Modela la relación entre una variable dependiente y una única variable independiente, asumiendo una relación lineal.
Regresión lineal múltiple: Modela la relación entre una variable dependiente y múltiples variables independientes, asumiendo una relación lineal.
Regresión logística: Se utiliza cuando la variable dependiente es categórica (por ejemplo, sí/no).
Regresión Polinómica: Una forma de regresión lineal en la que la relación entre la variable dependiente y las variables independientes se modela como un polinomio de grado n.
Regresión Ridge y Lasso: Ridge y Lasso son tipos de regresión lineal regularizada que añaden un término de penalización para evitar el sobreajuste (overfitting). En Ridge (o regresión de cresta), se penalizan los coeficientes grandes agregando la norma L² al término de pérdida. En Lasso, se utiliza la norma L¹, que tiene un efecto de selección de características, reduciendo algunos coeficientes a cero y dejando solo los más importantes.
Regresión Elastic Net: Combina las penalizaciones de Ridge y Lasso, lo que permite obtener beneficios de ambas técnicas. Es útil en problemas con alta multicolinealidad o cuando hay muchas variables independientes en el modelo.
Regresión de Poisson: Utilizada cuando la variable dependiente es una variable de conteo (por ejemplo, el número de eventos en un intervalo de tiempo). Esta regresión asume que los datos siguen una distribución de Poisson y es común en estudios de incidencia o frecuencia de eventos.
Regresión Log-lineal: Una extensión de la regresión de Poisson, utilizada en modelos de contingencia para analizar tablas de frecuencias y estudiar la relación entre varias variables categóricas.
Regresión Probit: Similar a la regresión logística, pero utiliza la función probit (distribución normal acumulada) en lugar de la función logística para modelar la relación entre las variables independientes y la probabilidad de un evento.
Regresión Cuantil: Este método modela las relaciones condicionales entre las variables independientes y percentiles específicos de la variable dependiente (en lugar del promedio). Es útil para estudiar la relación entre variables en diferentes puntos de la distribución de la variable dependiente.
Regresión con Componentes Principales (PCR): Utiliza componentes principales (PCAs) de las variables independientes para construir el modelo de regresión, lo cual ayuda a reducir la dimensionalidad cuando hay muchas variables y hay multicolinealidad.
Regresión de Mínimos Cuadrados Parciales (PLS): Similar a PCR, esta técnica es útil cuando hay muchas variables independientes y alta multicolinealidad. A diferencia de PCR, PLS considera la relación entre las variables independientes y dependientes en la construcción de los componentes principales.
Regresión No Paramétrica (por ejemplo, Regresión con Kernels): A diferencia de los modelos paramétricos, no asume una forma funcional específica entre las variables dependiente e independiente. En su lugar, estima relaciones más flexibles, lo cual es útil en contextos donde la relación es altamente no lineal y difícil de modelar de forma explícita.
Hay un jupyter notebook donde se comparten ejemplos y graficos que está en mi github.
Regresiones lineales simple y multiple
Tal como su nombre sugiere estas regresiones son las más sencillas y por lo tanto son la puerta de entrada al análisis de regresiones
Regresión Lineal Simple: Se utiliza cuando hay una única variable independiente. Se modela la relación entre las dos variables con una línea recta.
y=β0+β1x+ϵ
donde
y es la variable dependiente.
x es la variable independiente.
β0 es la intersección (el valor de y cuando x=0).
β1 es la pendiente de la línea (indica cuánto cambia y por cada unidad de cambio en x).
ϵ es el término de error (la parte de y que no se explica por x).
Regresión Lineal Múltiple: Se utiliza cuando hay más de una variable independiente. La relación se modela con un plano o un hiperplano en dimensiones superiores.
y=β0+β1x1+β2x2+…+βnxn+ϵy
donde
x1,x2,…,xn
son las variables independientes.
Regresión No Lineal: Cuando la relación entre las variables no es lineal, se utilizan modelos más complejos como polinomios, exponenciales, logarítmicos, entre otros.
Regresión Logística: Utilizada cuando la variable dependiente es categórica (generalmente binaria, como "éxito/fallo"). El modelo predice la probabilidad de que ocurra un evento.
Forma de uso
Recopilación de Datos: Recolecta datos que incluyen las variables dependientes e independientes.
Exploración de Datos: Analiza y visualiza los datos para comprender las relaciones básicas.
Modelado: Selecciona el tipo de regresión adecuado (lineal, múltiple, logística, etc.).
Ajuste del Modelo: Usa métodos estadísticos para estimar los coeficientes del modelo (por ejemplo, mínimos cuadrados en la regresión lineal).
Evaluación del Modelo: Verifica la calidad del ajuste del modelo usando métricas como R2, error cuadrático medio, entre otras.
Interpretación: Analiza los coeficientes para entender la relación entre las variables.
Predicción: Usa el modelo para hacer predicciones sobre nuevos datos.
Variable de predicción y variable de respuesta
Una variable de predicción (o predictora) es una variable utilizada en un modelo estadístico o de aprendizaje automático para predecir o estimar el valor de otra variable, conocida como variable dependiente o variable de respuesta. Las variables de predicción suelen ser independientes y se utilizan para identificar patrones o relaciones que ayudan a estimar el resultado de la variable dependiente.
Por ejemplo, en un modelo de regresión lineal que intenta predecir el precio de una vivienda, las variables de predicción podrían incluir el tamaño de la casa, el número de habitaciones, la ubicación, entre otros factores. Estas variables se utilizan para predecir el valor de la variable dependiente, que en este caso sería el precio de la vivienda.
En resumen:
Variables de predicción: Son las entradas del modelo que ayudan a predecir el resultado.
Variable dependiente: Es la salida o el resultado que se intenta predecir.
Variable interventora
Una variable interventora, también conocida como variable mediadora o variable intermedia, es una variable que se encuentra en medio de una cadena causal entre una variable independiente (causa) y una variable dependiente (efecto). Esta variable explica parte o toda la relación entre la variable independiente y la dependiente, actuando como un mecanismo a través del cual la variable independiente influye en la variable dependiente.
Ejemplo Simple. Imaginemos el estudiando la relación entre el nivel educativo (variable independiente) y el ingreso anual (variable dependiente). Es posible suponer que a mayor nivel educativo, mayor será el ingreso anual. Sin embargo, la experiencia laboral podría ser una variable interventora en esta relación:
Variable independiente (X): Nivel educativo
Variable interventora (M): Experiencia laboral
Variable dependiente (Y): Ingreso anual
Aquí, el nivel educativo puede llevar a una mayor experiencia laboral (porque personas más educadas pueden acceder a mejores oportunidades laborales), y esta mayor experiencia laboral puede, a su vez, llevar a un mayor ingreso anual. Entonces, la experiencia laboral es una variable que interviene en la relación entre la educación y el ingreso.
Las variables interventoras son importantes porque:
Desempaquetan Relaciones: Ayudan a descomponer y entender relaciones complejas, revelando el mecanismo a través del cual una variable afecta a otra.
Mejora la Precisión del Modelo: Al incluir variables interventoras en un análisis, el modelo puede ofrecer una explicación más precisa y detallada del fenómeno que se está estudiando.
Diferencia entre Correlación y Causalidad: Las variables interventoras pueden ayudar a identificar cómo y por qué existe una relación entre dos variables, ayudando a evitar falsas interpretaciones de causalidad.