Valor P en regresión lineal
P value para regresión lineal simple y múltiple
Valores p en regresión lineal
Valores p en regresiones
El valor p en regresión mide la significancia estadística de un coeficiente estimado. Indica si hay evidencia suficiente para afirmar que un coeficiente es significativamente diferente de cero (o de otro valor específico, según la hipótesis nula).
En términos generales:
Si el valor p es pequeño (menor al nivel de significancia, generalmente 0.050.050.05), se rechaza la hipótesis nula y se concluye que el coeficiente tiene un efecto significativo.
Si el valor ppp es grande, no se puede concluir que el coeficiente tiene un efecto significativo.
Fórmula General del Valor p
En principio es de aceptación común que el valor p está relacionado con el estadístico ttt, calculado como:
t = β^j / SE(β^j)
Donde:
β^j es el estimador del coeficiente j.
SE(β^j) es el error estándar del coeficiente.
El valor p se calcula usando la distribución t-Student con n−k−1 grados de libertad, donde n es el número de observaciones y kkk es el número de predictores en el modelo.
No obstante en la figura correspondientes se muestra un cuadro comparativo de valores p según el tipo de regresión.
Casos de regresión lineal simple y múltiple
En regresión lineal (tanto simple como múltiple), el valor p es un indicador estadístico que permite evaluar la significancia de los coeficientes de las variables independientes en el modelo.
1. Regresión lineal simple:
En un modelo de regresión lineal simple, la ecuación es:
y=β0+β1x+ϵ
donde
y es la variable dependiente.
x es la variable independiente.
β0 es la intersección (el valor de y cuando x=0).
β1 es la pendiente de la línea (indica cuánto cambia y por cada unidad de cambio en x).
ϵ es el término de error (la parte de y que no se explica por x).
El valor p asociado a β1 te indica si la variable independiente x tiene un efecto estadísticamente significativo sobre la variable dependiente y.
Si el valor p es bajo (generalmente menor que un nivel de significancia ɑ predefinido, como 0.05), puedes rechazar la hipótesis nula, que postula que β1=0.
Hipótesis nula: β1=0 (no hay efecto de x sobre y ).
Hipótesis alternativa: β1≠0 (hay un efecto de x sobre y).
Un valor p bajo sugiere que x es una variable relevante en el modelo.
2. Regresión lineal múltiple:
En un modelo de regresión lineal múltiple, la ecuación es:
y=β0+β1x1+β2x2+…+βnxn+ϵy
En este caso, cada coeficiente β tiene su propio valor p.
El valor p asociado a cada β te indica si la variable ( x_i ) tiene un efecto estadísticamente significativo sobre la variable dependiente y, controlando por las demás variables del modelo. Esto te permite determinar la relevancia de cada variable independiente en presencia de las otras.
Hipótesis nula: βi=0 (no hay efecto de xi sobre y ).
Hipótesis alternativa: βi≠0 (hay un efecto de xi sobre y).
Ejemplo
Si observamos los valores p del ejemplo de las casas que es el que está en el apartado de regresión lineal multiple y cuyos indicadores se ven también en la figura, puede observarse que si consideramos alfa 0.05 como nivel limite de significancia, entonces resulta que:
Hay dos coeficientes: Tamaño y const que son significativos.
Hay dos coeficientes: Habitaciones y edad que no son tan significativos com los dos primeros.
En resumen, el valor p ayuda a decidir si incluir o no una variable en el modelo, evaluando si su efecto sobre la variable dependiente es significativo o podría deberse al azar.
Casos particulares de regresiones Ridge y Lasso
El cálculo del valor ppp en regresiones Ridge y Lasso difiere del de las regresiones lineales ordinarias (OLS) debido a las penalizaciones introducidas. En la fugura correspondiente hay una comparación que explica cómo estas diferencias afectan el valor p. Y las razones que justifican esto son las siguientes:
Regresión Ridge: La penalización suaviza los coeficientes, reduciendo su magnitud. Esto complica la estimación del error estándar (SE(βj), esencial para calcular el t-estadístico.
Como resultado, los valores ppp no están bien definidos en el sentido clásico y suelen aproximarse con métodos alternativos como bootstrap.
Regresión Lasso: Dado que Lasso puede reducir algunos coeficientes exactamente a cero, el concepto de significancia estadística se vuelve ambiguo. En este caso, los valores ppp clásicos pierden sentido.
Métodos como pruebas parciales o permutaciones son necesarios para evaluar la relevancia de cada predictor.
Alternativas para Valores p en Ridge y Lasso
Permutaciones: Se generan distribuciones empíricas de coeficientes al permutar aleatoriamente los datos para calcular valores p.
Bootstrap: Se usan muestras aleatorias repetidas del conjunto de datos para estimar la variabilidad de los coeficientes.
Pruebas Post-Selección (Lasso): Métodos específicos ajustados a la naturaleza de selección de variables de Lasso, como las pruebas de selección de variables condicionales.
Ejemplo
Cálculo de valores 𝑝 en Regresión Ridge con Bootstrap: Supongamos que tenemos un conjunto de datos con predictores 𝑋 y una variable respuesta 𝑦. Usaremos la librería sklearn para ajustar el modelo Ridge y numpy para implementar el bootstrap.
Los resultados se ven en la figura correspondiente en este apartado. Los cálculos se comparten en un jupyter notebook que está en github.
Interpretación de los Resultados
Coeficientes Estimados
Coef. Estimado
: Valores ajustados por el modelo Ridge utilizando el conjunto de datos de entrenamiento. Indican el efecto de cada predictor sobre la variable dependiente y. Ejemplo: X1 tiene un coeficiente estimado de 63.05, lo que sugiere un impacto positivo significativo en y.
Media Bootstrap y Error Estándar
Media Bootstrap
: Promedio de los coeficientes obtenidos a través de las n=1000 muestras bootstrap. Estas medias son cercanas a los coeficientes estimados iniciales, lo que indica estabilidad en las estimaciones del modelo Ridge. Ejemplo: Para X1, la media es 60.62, muy cercana al coeficiente inicial 63.05.
Error Estándar
: Mide la variabilidad de los coeficientes a través de las muestras bootstrap. Valores pequeños sugieren coeficientes confiables. Ejemplo: X1 tiene un error estándar de 1.18, lo que implica que el coeficiente estimado es robusto.
Z-Scores y Valores P
Z-Score
: Relación entre el coeficiente promedio y su error estándar. Z-scores altos indican que los coeficientes son significativamente diferentes de cero.Ejemplo: X1 tiene un Z−Score=51.43, lo que indica una fuerte evidencia de significancia estadística.
P-Valor
: La probabilidad de observar un coeficiente igual o más extremo si el verdadero coeficiente fuera cero. Los p-valores cercanos a 0 indican alta significancia estadística.Ejemplo: Todos los p-valores son 0.00, lo que sugiere que todos los predictores (X1 a X5) son estadísticamente significativos.
Visualización de las Distribuciones Bootstrap
Se muestran además histogramas para visualizar las distribuciones de los coeficientes obtenidos a través del bootstrap. Esto nos ayuda a evaluar:
La estabilidad de los coeficientes.
Si las distribuciones son aproximadamente normales.
Allí se pueden ver dos cosas:
Histograma: Con la distribución de cada coeficiente a través de las muestras bootstrap.
Curva KDE: Muestra la densidad estimada, que debería ser simétrica y aproximadamente normal para coeficientes estables.