Regresión Ridge
Optimización del ajuste por regresión
Función de costo de regresión Ridge
La regresión Ridge es una técnica de regresión que introduce una penalización en los coeficientes para reducir el problema de colinealidad y el sobreajuste. Es una extensión de la regresión lineal múltiple con una penalización L2 que se agrega a la función de coste.
Beneficios de Ridge
Reducción del Sobreajuste: La penalización L2 ayuda a evitar el sobreajuste ajustando los coeficientes.
Manejo de Colinealidad: Ridge es efectivo en manejar la colinealidad entre las variables independientes, lo que mejora la estabilidad del modelo.
Incluye Todas las Variables: A diferencia de Lasso, Ridge no reduce los coeficientes a cero, por lo que todas las variables se mantienen en el modelo, aunque con coeficientes reducidos.
La regresión Ridge es especialmente útil cuando se trabaja con conjuntos de datos que tienen colinealidad entre las variables independientes. La penalización L2 ayuda a reducir el tamaño de los coeficientes sin eliminarlos, mejorando la estabilidad y el rendimiento del modelo.
Ejemplo
En un jupyter notebook compartido en github se codifica un ejemplo en dónde se realiza una regresión lineal mediante los tres métodos: regresión lineal multiple, ridge y lasso.
Esto es con el objeto de ver que en este caso la regresión ridge es la mejor opción de ajuste de los datos.
Se trata de un ejemplo en donde se generan 1000 muestras de 10 variables independientes que posteriormente se ajustan de manera regresiva para ser representadas por un recta. La matriz X tiene la siguiente estructura:
Cada fila representa una muestra u observación.
Cada columna representa una característica o variable independiente.
La generación de datos simulados nos permite crear un entorno controlado para probar modelos de regresión. La matriz X se estructura con valores aleatorios y la variable y se genera como una combinación lineal de algunas variables relevantes en X, con ruido añadido para simular variabilidad real en los datos.
Este código genera un conjunto de datos simulados, ajusta tres tipos de modelos de regresión (Lineal Múltiple, Ridge y Lasso), y compara su rendimiento utilizando el error cuadrático medio (MSE) y los coeficientes. También genera un gráfico comparativo de los valores predichos frente a los valores reales para evaluar visualmente el rendimiento de cada modelo.
Los resultados de aplicar los tres modelos de regresión son:
Error Cuadrático Medio (Regresión Lineal Múltiple): 0.24
Error Cuadrático Medio (Regresión Ridge): 0.23
Error Cuadrático Medio (Regresión Lasso): 0.49
Interpretación
En la grafica pueden verse los resultados de las predicciones de los tres modelos para disntintos valores de X y su comparación con los valores reales. Pero lo más importante es observar los errores cuadrados que surgen de la función de costo correspondiente. En efecto el error cuadrático medio es menor para el modelo de regresión ridge y por lo tanto, para este caso, la regresión ridge es el mejor modelo.