IC e IP en regresión lineal
Intervalos de predicción y confianza en regresión lineal
Intervalos de confianza y de predicción.
Existen dos conceptos asociados al intervalo de confianza en regresiones. Uno es el intervalo de confianza y el otro es el intervalo de predicción. Ambos sin indicadores de nivel de confianza y se refieren a cosas parecidas pero no iguales.
Intervalo de Confianza en Regresiones
Un intervalo de confianza es un rango de valores que se utiliza para estimar un parámetro poblacional (como un coeficiente de regresión) con un nivel de confianza determinado. En el contexto de la regresión, se calcula para los coeficientes del modelo.
Interpretación
Coeficientes de Regresión: El intervalo de confianza para un coeficiente indica que, con un cierto nivel de confianza (generalmente 95%), el valor verdadero del coeficiente está dentro de ese rango. Si el intervalo no incluye cero, se infiere que la variable independiente tiene un efecto significativo sobre la variable dependiente.
Uso común: Determinar la significancia de los coeficientes de regresión. Inferir la relación entre variables.
Intervalo de Predicción en Regresiones
Un intervalo de predicción es un rango de valores que se utiliza para estimar el valor de una nueva observación con un nivel de confianza determinado. Es más amplio que el intervalo de confianza porque incluye la variabilidad de la predicción de nuevas observaciones.
Interpretación
Nuevas Observaciones: El intervalo de predicción para una nueva observación indica que, con un cierto nivel de confianza (generalmente 95%), el valor verdadero de la observación estará dentro de ese rango.
Uso común: Hacer predicciones para nuevas observaciones. Estimar el rango de valores para nuevas observaciones.
En la figura correspondiente se ve un cuadro comparativo que explica los objetivos, aplicaciones y cracterísticas correspondientes a ambos intervalos.
¿Por qué son diferentes?
El intervalo de predicción es generalmente más ancho que el intervalo de confianza porque no solo tiene en cuenta la incertidumbre en la estimación de la media (como lo hace el intervalo de confianza), sino también la variabilidad inherente de los datos.
Utilidad de los intervalos
Ambos intervalos son útiles dependiendo del tipo de pregunta que estemos tratando de responder:
Si nos interesa la media poblacional, usamos el intervalo de confianza.
Si queremos hacer una predicción para un individuo concreto, usamos el intervalo de predicción.
La distribución t de Student se utiliza en los intervalos de confianza y de predicción en regresión lineal porque está diseñada para situaciones donde el tamaño de la muestra es relativamente pequeño y la varianza poblacional es desconocida. Aquí te explico las razones clave:
Varianza desconocida: En la mayoría de los casos, no conocemos la varianza exacta de los errores o de la población en una regresión lineal. En lugar de usar la desviación estándar poblacional (que es desconocida), utilizamos la desviación estándar **muestral** para estimar la incertidumbre. La distribución t de Student corrige esta estimación adicional de incertidumbre que surge cuando usamos la desviación estándar de la muestra, haciendo el intervalo más ancho que si usáramos la distribución normal.
Muestras pequeñas: Cuando el tamaño de la muestra n es pequeño (por ejemplo, menos de 30 observaciones), los errores de estimación son más grandes y necesitamos una distribución que refleje mejor esta incertidumbre adicional. La distribución t tiene "colas más largas" que la normal, lo que significa que asigna más probabilidad a valores extremos, reflejando el hecho de que con muestras pequeñas existe más variabilidad en las estimaciones.
Ajuste a la incertidumbre de la media: La distribución t de Student ajusta la incertidumbre no solo en la estimación de la varianza muestral, sino también en la estimación del promedio de la variable dependiente. Cuanto más pequeña sea la muestra, más incierta es esta estimación, lo que se refleja en un valor t más grande en comparación con la distribución normal.
Grados de libertad ( n-2 ): En la regresión lineal, el uso de la distribución t también tiene en cuenta los **grados de libertad**. Cuando estimamos los parámetros del modelo (la pendiente y la intersección), estamos "gastando" dos grados de libertad, lo que disminuye el tamaño efectivo de la muestra, y esto se refleja en el uso de la t de Student con ( n-2 ) grados de libertad.
En resumen:
La distribución t de Student se usa en ambos casos (intervalo de confianza y predicción) porque:
No conocemos la varianza poblacional y estamos estimándola a partir de la muestra.
Refleja adecuadamente la mayor incertidumbre cuando el tamaño de la muestra es pequeño.
Corrige el hecho de que estamos usando la estimación de la desviación estándar muestral, y no la poblacional, lo que añade incertidumbre a los cálculos.
Ejemplo
Veamos un ejemplo de regresión lineal simple utilizando statsmodels.OLS
en Python, y a calcular los intervalos de confianza y los intervalos de predicción para la predicción de un nuevo valor. Luego interpretaremos los resultados. Este ejemplo está compartido en jupyter notebook en github. Y el grafico resultante está en la figura.
Supongamos que tenemos los siguientes datos de horas estudiadas y las calificaciones obtenidas por un grupo de estudiantes:
Horas estudiadas 2, 3, 5, 7, 9
Calificación 50, 60, 70, 80, 90
Queremos ajustar un modelo de regresión lineal para predecir las calificaciones en función de las horas estudiadas. Además, calcularemos los intervalos de confianza y predicción para un nuevo valor: ¿qué calificación podría obtener un estudiante que estudia 6 horas?
Se crea el código en python con la siguiente secuencia:
Datos: Creamos arrays con las horas estudiadas y las calificaciones.
Modelo: Utilizamos
statsmodels.OLS
para ajustar un modelo de regresión lineal con las horas estudiadas como variable independiente y las calificaciones como variable dependiente.Resumen del Modelo: Mostramos el resumen del modelo con los coeficientes estimados, el R2R^2R2 y otros estadísticos importantes.
Predicción: Calculamos la predicción para un estudiante que estudia 6 horas, y mostramos tanto el intervalo de confianza como el de predicción.
Gráfica: Visualizamos los datos, la línea de regresión, el intervalo de confianza (más estrecho) y el intervalo de predicción (más amplio).
Observaciones e interpretaciones:
Regresión lineal
Intersección (β0): 40
Pendiente (β1): 5
R²: 0.98 (lo que significa que el 98% de la variabilidad en las calificaciones es explicada por el número de horas estudiadas)
Intervalo de Confianza:
El intervalo de confianza nos dice dónde esperamos que esté la media de las calificaciones para un estudiante que estudie 6 horas. El IC para este caso va de 73.2 a 76.8.
Este intervalo IC indica que, si tomamos muchas muestras similares de estudiantes que estudian 6 horas, la media de las calificaciones de esas muestras estaría, con un 95% de confianza, en algún lugar entre 73.2 y 76.8 puntos.
Esto significa que para los estudiantes que estudian 6 horas, podemos confiar razonablemente en que el promedio de las calificaciones será de entre 73.2 y 76.8 puntos.
Intervalo de Predicción:
El intervalo de predicción estima dónde caerá el valor de calificación individual de un estudiante que estudie 6 horas. El IP para 6 horas de estudio es 68.4 a 81.6.
Este intervalo IP nos indica que, para un estudiante específico que estudia 6 horas, con un 95% de confianza, su calificación caerá entre 68.4 y 81.6 puntos.
A diferencia del intervalo de confianza, este refleja la variabilidad inherente en las calificaciones de los estudiantes, no solo la precisión del modelo. Esto significa que si aplicamos este modelo a un nuevo estudiante que estudia 6 horas, esperamos que su calificación esté en ese rango, pero con una mayor incertidumbre debido a la variabilidad individual.
Comparación y Conclusión:
Intervalo de Confianza es más estrecho, ya que solo estima la media de las calificaciones para un número de horas estudiadas. Se utiliza para ver cuán precisa es la estimación de esa media.
Intervalo de Predicción es más amplio porque tiene en cuenta tanto la incertidumbre en la media estimada como la variabilidad individual de los datos. Esto es útil cuando queremos predecir el resultado de un estudiante individual.
Interpretación para este caso:
Intervalo de Confianza: Nos permite estimar con precisión el valor promedio que esperamos para la calificación de estudiantes que estudian 6 horas.
Intervalo de Predicción: Nos indica que aunque sabemos que la media estará entre 73.2 y 76.8, para un estudiante específico, su calificación real puede variar más debido a factores individuales, cayendo en un rango más amplio (68.4 a 81.6).
Ambos intervalos son útiles dependiendo del tipo de pregunta que estemos tratando de responder:
Si nos interesa la media poblacional, usamos el intervalo de confianza.
Si queremos hacer una predicción para un individuo concreto, usamos el intervalo de predicción.