top of page

Regresión Lasso

Selección de variables

Ajuste por selección de variables

Ajuste por selección de variables

Regresión Lasso (Least Absolute Shrinkage and Selection Operator)

La regresión Lasso, podría considerarse como un caso de optimización de regresión. Esto es porque ofrece los siguientes beneficios:

  • Reducción de Sobreajuste: Lasso puede mejorar la generalización del modelo mediante la penalización de los coeficientes.

  • Selección de Variables: Lasso puede reducir algunos coeficientes a cero, eliminando variables irrelevantes y simplificando el modelo.

  • Colinealidad: Lasso es efectivo en manejar la colinealidad entre variables independientes, a diferencia de la regresión lineal múltiple común.


Modelo Lasso

La ecuación general de la regresión Lasso, también conocida como regresión de menor absoluto y selección de características, se expresa como una extensión de la regresión lineal con una penalización (L1) en los coeficientes: En la figura correspondiente se observa la formula, dónde:

  • y es la variable dependiente.

  • xi son las variables independientes.

  • beta0 es la intersección.

  • betai son los coeficientes de las variables independientes.

  • lambda es el parámetro de regularización que controla la fuerza de la penalización. Un valor mayor de lambda aumenta la regularización, reduciendo más coeficientes a cero.


Características de la Regresión Lasso

  1. Penalización L1: La suma de los valores absolutos de los coeficientes.

  2. Selección de Variables: Al aplicar la penalización ( L1), algunos coeficientes pueden ser reducidos exactamente a cero, lo que lleva a la selección automática de variables.

  3. Reducción del Sobreajuste: La regularización ayuda a mejorar la generalización del modelo, reduciendo el sobreajuste.


Ejemplo en Python

En este ejemplo se generan datos aleatorios que luego se ajustan con este modelo de regresión. Se realiza en python, en jupter notebook y se comparte en github. Este código ilustra cómo ajustar un modelo de regresión Lasso y visualizar los resultados de las predicciones en comparación con los valores reales.


Usos y aplicaciones

La regresión Lasso (Least Absolute Shrinkage and Selection Operator) se utiliza comúnmente en situaciones en las que hay muchas variables predictoras y se desea mejorar la precisión del modelo y la interpretabilidad seleccionando automáticamente las variables más importantes. Aquí hay algunas aplicaciones comunes de la regresión Lasso:


1. Selección de Variables en Modelos Predictivos

Contexto: Cuando hay una gran cantidad de variables predictoras, algunas de las cuales pueden ser irrelevantes o redundantes.

Beneficio: Lasso penaliza los coeficientes de las variables, reduciendo algunos a cero y seleccionando efectivamente un subconjunto de las variables más importantes.

Ejemplo: En estudios genéticos, donde se pueden tener miles de marcadores genéticos (variables), Lasso puede ayudar a identificar los marcadores más relevantes asociados con una enfermedad.


2. Modelos de Predicción Financiera

Contexto: En finanzas, se pueden usar muchos indicadores económicos y financieros para predecir el rendimiento de los activos.

Beneficio: Lasso ayuda a crear modelos más simples y robustos, eliminando indicadores irrelevantes y mejorando la estabilidad del modelo.

Ejemplo: Predicción de precios de acciones utilizando una gran cantidad de variables como tasas de interés, indicadores económicos y datos históricos de precios.


3. Análisis de Datos de Alta Dimensionalidad

Contexto: En situaciones donde hay más variables predictoras que observaciones (alta dimensionalidad).

Beneficio: Lasso puede manejar datos de alta dimensionalidad al reducir el número de variables efectivas, evitando el sobreajuste.

Ejemplo: Procesamiento de señales en telecomunicaciones, donde se utilizan muchos sensores para capturar datos en tiempo real.


4. Modelos de Predicción Médica

Contexto: En medicina, se recopilan muchos datos sobre pacientes, incluyendo datos demográficos, históricos clínicos y resultados de pruebas.

Beneficio: Lasso puede identificar las variables más importantes que contribuyen a un diagnóstico o pronóstico, mejorando la precisión y la interpretabilidad del modelo.

Ejemplo: Predicción del riesgo de enfermedades cardíacas utilizando datos de múltiples pruebas y antecedentes médicos.


Beneficios de la Regresión Lasso

Reducción del Sobreajuste: Al penalizar los coeficientes, Lasso ayuda a evitar el sobreajuste, mejorando la capacidad de generalización del modelo.

Selección de Variables: Al reducir algunos coeficientes a cero, Lasso realiza una selección automática de las variables más importantes, simplificando el modelo.

Manejo de Datos de Alta Dimensionalidad: Lasso es eficaz en escenarios con muchas variables predictoras, mejorando la interpretabilidad y la estabilidad del modelo.


Ejemplo

Creamos un ejemplo con datos sintéticos que incluye muchas variables, pero solo algunas serán realmente relevantes para predecir la variable objetivo. Se desarrolla el ejemplo en código python en un jupyter notebook en github. Esto permite destacar cómo la regresión Lasso selecciona automáticamente las variables más importantes, logrando un mejor ajuste cuando hay redundancia o irrelevancia en las variables.

  • Modelos aplicados:

    • Regresión lineal múltiple: Considera todas las variables, sin penalización.

    • Ridge: Penaliza grandes coeficientes para reducir el sobreajuste, pero no elimina variables irrelevantes.

    • Lasso: Selecciona automáticamente las variables más importantes aplicando una penalización L1L_1L1​, lo que lleva a que algunos coeficientes sean exactamente cero.

  • Resultados: Se calcula el error cuadrático medio (MSE) para cada modelo y se comparan los coeficientes. Lasso debería identificar correctamente las 5 variables relevantes, mostrando el menor MSE.

    • En la grafica correspondiente se observa que si bien ambos métodos trabajan muy parejos en este caso, Lasso temina siendo el que mejor ajusta a los datos de origen.

    • La diferencia se ve aún de manera más precisa al verificar que el MSE para Lasso es el menor.


bottom of page