r2
Coeficiente de determinación
Coeficiente de determinación r cuadrado
El coeficiente de determinación es la cantidad de variación en y que está explicada por la recta de regresión. Se calcula como:
r² = variación explicada/variación total
Esta expresón surge de analizar el desvío de una regresión lineal en sus valores de y, esto es, el desvio o variación de la recta de regresión respecto de los valores de la muestra (x,y).
El coeficiente de determinación, también conocido como R², es una medida estadística que indica la calidad de un modelo para predecir resultados. Se trata de un número que va de 0 a 1 y que se interpreta como la proporción de variación en la variable dependiente que el modelo predice.
El coeficiente de determinación se utiliza en modelos estadísticos que se emplean para probar hipótesis o predecir resultados futuros.
Un valor de r² cercano a 1 indica que el modelo predice los valores de forma muy precisa, mientras que un valor cercano a 0 indica que el modelo no tiene ningún valor predictivo.
En el contexto de un modelo de regresión lineal, el coeficiente de determinación indica la proporción de variación en la variable de respuesta que se explica a partir de las variables independientes.
Ya dijimos que
r² = variación explicada/variación total
En esta formula, la variación explicada es la variación que explica el modelo y la variación total contiene tanto la variación que explica el modelo como la variación de los errores que en alguna medida arruinan la regrresión. Es fácil ver que la variación explicada ira de cero (muy mal ajuste, no hay regresión) hasta el mismo valor de la variación total (en este último caso la variación r2 será 1 y el ajuste será óptimo.
Esta expresón surge de analizar el desvío de una regresión lineal en sus valores de y, esto es, el desvio o variación de la recta de regresión respecto de los valores de la muestra (x,y).
Es muy encontrar la demostración de esta formula a partir de esta otra, que es una fórmula equivalente, que es la siguietne:
r² = 1 - {Suma de los cuadrados de los residuos (SSR) / Suma total de caudrados (SST)}
Donde:
SSR (Suma de los Cuadrados de los Residuos) representa la suma de las diferencias al cuadrado entre los valores observados y los valores predichos por el modelo.
SST (Suma Total de Cuadrados) representa la suma de las diferencias al cuadrado entre los valores observados y el promedio de los valores observados.
Podemos calcular r2 por medio de la definición dada con la fórmula o podemos simplemente elevar al cuadrado el coeficiente de correlación lineal r. Esto solo en el caso de la regresión lineal simple.
Interpretación gráfica de r²
Si se observa la figura correspondiente a este apartado puede verificarse visualmente que:
Cuanto mejor se ajuste la regresión lineal (en el gráfico de arriba) a los datos en comparación con el promedio simple (en el gráfico de la abajo), más cercano será el valor de r² a uno.
Las áreas de los cuadrados azules representan los residuos al cuadrado respecto a la regresión lineal.
Las áreas de los cuadrados rojos representan los residuos al cuadrado respecto al valor promedio.