Desvíos de regresión lineal
Regresión Lineal y variaciones de y
Desvíos y variaciones entre una muestra y su recta de regresión
Consideremos un ejemplo como el de la figura para analizar los desvíos que se observan entre un conjunto de datos aparados y su recta de regresión lineal.
Veamos entonces una muestra de datos apareados (x, y) que incluye (5, 19). Supongamos que utilizamos esta muestra de datos apareados para calcular los siguientes resultados:
Existe una correlación lineal alta (con r significativamente diferente de 0).
La ecuación de la recta de regresión es yˆ = 3 + 2x.
La media de los valores de y está dada por y = 9.
Uno de los pares de datos muestrales es x=5 e y=19.
El punto (5, 13) es uno de los puntos sobre la recta de regresión, ya que la sustitución de x=5 en la ecuación de regresión produce yˆ=13.
La figura indica que el punto (5, 13) está sobre la recta de regresión, pero el punto (5, 19) del conjunto de datos original no se ubica en la recta de regresión. Si ignoramos por completo los conceptos de correlación y regresión, y deseamos predecir un valor de y dado un valor de x y un conjunto de datos apareados (x, y), nuestra mejor conjetura sería la media y. Pero en este caso, con una correlación lineal significativa, la forma de predecir el valor de y cuando x=5 consiste en usar la ecuación de regresión para obtener yˆ=13.
Podemos explicar la discrepancia entre la media y=9 y la estimación yˆ=13 al señalar que existe una relación lineal mejor descrita por medio de la recta de regresión. Como consecuencia, cuando x=5, el valor predicho de y es 13 y no el valor medio de 9.
Para x= 5, el valor predicho de y es 13, pero el valor muestral observado de y es en realidad 19. La discrepancia entre yˆ=13 y y 19 no puede explicarse por medio de la recta de regresión y se le denomina desviación sin explicación o residual. Esta desviación sin explicar se expresa en símbolos como y - yˆ.
Igual que con el desvío estándar, una desviación estandar de y es la diferencia entre un valor y la media. (En este caso, la media es y 5 9.) Las siguientes desviaciones específicas a partir de y 5 9:
Desviación total (a partir de y 5 9) del punto (5, 19) = y - y‾ = 19 - 9 = 10
Desviación explicada (a partir de y 5 9) del punto (5, 19) = yˆ - y‾ = 13 - 9 = 4
Desviación sin explicar (a partir de y 5 9) del punto (5, 19) = y - yˆ = 19 - 13 = 6
Estas desviaciones a partir de la media se generalizan y definen formalmente como sigue:
Dado un conjunto de datos apareados que contienen el punto muestral (x, y), que yˆ es el valor predicho de y (obtenido por medio de la ecuación de regresión), y que la media de los valores y muestrales es y‾.
La desviación total de (x, y) es la distancia vertical y - y‾, que es la distancia entre el punto (x, y) y la recta horizontal que pasa por la media muestral y‾.
La desviación explicada es la distancia vertical yˆ - y‾ , que es la distancia entre el valor predicho yˆ y la recta horizontal que pasa por la media muestral y‾.
La desviación sin explicar es la distancia vertical y - yˆ, que es la distancia vertical entre el punto (x, y) y la recta de regresión. (La distancia y 2 yˆ también se conoce como residual.
En la figura podemos apreciar la siguiente relación:
(desviación total) = (desvío explicado) + (desvío no explicado)
(y - y‾) = (yˆ - y‾) + (y - yˆ)
Esta última expresión implica desviaciones a partir de la media y se aplica a cualquier punto (x, y) particular. Si sumamos los cuadrados de las desviaciones utilizando todos los puntos (x, y), obtenemos cantidades de variación, y la misma relación se aplica a las sumas de cuadrados que se muestran en la fórmula de mínimos cuadrados correspondiente, aunque esta última expresión no es algebraicamente equivalente a dicha fórmula. En esa fórmula, la variación total se expresa como la suma de los cuadrados de los valores de desviación totales, la variación explicada es la suma de los cuadrados de los valores de desviación explicados, y la variación sin explicar es la suma de los cuadrados de los valores de desviación sin explicar.
(variación total) = (variación explicada) + (variación no explicada)
(y - y‾)² = (yˆ - y‾)² + (y - yˆ)²
Este es el origen y fundamento de el analisis de desvío o varianza de un conjunto de datos apareados respecto a su recta de regresión y también da origen al análisis de que tan buena es la correlación r mediante el coeficiente de determinación r².
r² = variación explicada/variación total
El valor de r2 es la proporción de la variación en y que está explicada por la relación lineal entre x y y.