Bondad de ajuste
Indicadores de bondad de ajuste estadístico
Resumen de indicadores de bondad de ajuste.
Bondad de Ajuste - Indicadores de bondad
La bondad de ajuste es una herramienta estadística que nos permite evaluar qué tan bien un conjunto de datos observados se ajusta a una distribución teórica esperada.
En otras palabras, nos ayuda a determinar si nuestros datos se comportan de la manera que esperamos según un modelo teórico.
Ejemplo:
Imaginemos que tenemos un rompecabezas. la bondad de ajuste sería una medida de qué tan bien encajan todas las piezas del rompecabezas y si la imagen final es clara y coherente.
Utilidad
Validación de modelos: Nos permite verificar si un modelo estadístico (por ejemplo, una distribución normal, binomial o Poisson) es adecuado para describir nuestros datos.
Detección de anomalías: Si los datos no se ajustan bien al modelo, puede indicar la presencia de factores no considerados en el modelo, como errores de medición o cambios en las condiciones experimentales.
Toma de decisiones: Los resultados de la prueba de bondad de ajuste pueden influir en las decisiones que tomamos, como la selección de un modelo estadístico para realizar inferencias o la interpretación de los resultados de un experimento.
Indicadores de bondad de ajuste
Los indicadores de bondad de ajuste están presentes en todos los modelos estadísticos, podemos agrupar los más utilizados de acuerdo al modelo que se esté utilizando:
1. Indicadores en Modelos de Regresión (Lineal y No Lineal)
Estos modelos predicen una variable dependiente continua a partir de una o más variables independientes. Aquí los indicadores se centran en evaluar la discrepancia entre los valores predichos y observados.
R-cuadrado (R²):Indica la proporción de la variabilidad de la variable dependiente que es explicada por el modelo.
Varía entre 0 y 1, donde 1 indica un ajuste perfecto.
Limitación: No penaliza por la complejidad del modelo (es decir, añadir más variables siempre incrementa el R²).
R-cuadrado ajustado:Similar a R², pero ajusta por el número de variables independientes en el modelo. Penaliza modelos que incluyen muchas variables sin mejorar realmente el ajuste.
Utilizado cuando se comparan modelos con diferentes números de predictores.
Error Cuadrático Medio (MSE):
Mide el promedio de los cuadrados de las diferencias entre los valores predichos y observados.
MSE=1/n ∑(yi−yi^)²
Donde yi son los valores observados y yi^ son los valores predichos.
Un MSE más bajo indica un mejor ajuste.
Raíz del Error Cuadrático Medio (RMSE):
Es la raíz cuadrada del MSE, interpretada en las mismas unidades que la variable dependiente, facilitando la comprensión de la magnitud del error.
SEE (Standard Error of the Estimate)
El SEE (Error Estándar de la Estimación) es una medida de la dispersión de los errores en un modelo de regresión. Se calcula de manera similar al RMSE, pero el SEE se ajusta por el número de parámetros del modelo (grados de libertad).
SEE=√(∑(yi−y^i)/(n−p)
Donde:
n es el número de observaciones.
p es el número de parámetros estimados en el modelo, incluyendo la intersección.
Propósito: El SEE mide la dispersión de los errores residuales en un modelo de regresión, ajustando por el número de parámetros del modelo.
Interpretación: Al igual que el RMSE, un SEE más bajo indica un mejor ajuste. El SEE se ajusta por la cantidad de variables en el modelo, por lo que penaliza modelos más complejos.
Diferencias clave:
El RMSE se calcula sin tener en cuenta el número de parámetros del modelo.
El SEE se ajusta para reflejar el número de variables en el modelo, lo que lo convierte en una versión ajustada del RMSE.
Error Absoluto Medio (MAE):
Mide el promedio de las diferencias absolutas entre los valores observados y predichos. Es menos sensible a valores atípicos que el MSE.
2. Indicadores de Modelos de Clasificación
En los modelos de clasificación, el objetivo es predecir una variable categórica (como "aprobado" o "reprobado"). Los indicadores de bondad de ajuste en este caso evalúan qué tan bien el modelo clasifica correctamente los datos.
Precisión (Accuracy):
Es la proporción de instancias correctamente clasificadas por el modelo.
Accuracy=Instancias Correctamente Clasificadas/Total de InstanciasAccuracy
Es fácil de interpretar, pero puede ser engañosa si las clases están desbalanceadas.
Matriz de confusión:
Una tabla que muestra cuántos ejemplos de cada clase fueron correctamente o incorrectamente clasificados, separando entre verdaderos positivos (TP), falsos negativos (FN), falsos positivos (FP), y verdaderos negativos (TN).
Curva ROC y AUC (Área Bajo la Curva):
La curva ROC traza la tasa de verdaderos positivos (sensibilidad) contra la tasa de falsos positivos (1 - especificidad) para diferentes umbrales de clasificación.
El AUC mide el área bajo la curva ROC y es un resumen de la capacidad del modelo para distinguir entre clases. Un AUC de 0.5 indica un modelo que no es mejor que el azar, mientras que un AUC de 1 es perfecto.
3. Indicadores de Bondad de Ajuste para Datos Categóricos
Para datos categóricos, los indicadores de bondad de ajuste evalúan si las proporciones observadas se ajustan a las proporciones esperadas según una distribución teórica.
Prueba Chi-cuadrado de Bondad de Ajuste:
Se usa para determinar si las frecuencias observadas en una muestra se ajustan a una distribución esperada.
χ2=∑(Oi−Ei)²
Donde Oi son las frecuencias observadas y Ei son las frecuencias esperadas.
Si el valor calculado excede un valor crítico (basado en los grados de libertad), se rechaza la hipótesis de que los datos se ajustan a la distribución esperada.
4. Modelos de Distribuciones Probabilísticas
Estos modelos evalúan si los datos observados provienen de una distribución específica, como la normal o la binomial.
Prueba de Kolmogorov-Smirnov (K-S):
Evalúa si una muestra sigue una distribución específica (normal, uniforme, etc.). Calcula la mayor diferencia entre la función de distribución acumulada observada y la teórica.
Prueba Anderson-Darling:
Similar a la prueba K-S, pero da más peso a las diferencias en los extremos de la distribución. Se utiliza principalmente para pruebas de normalidad.
Prueba de Shapiro-Wilk:Utilizada específicamente para verificar si una muestra sigue una distribución normal. Se utiliza principalmente con tamaños de muestra pequeños.
5. Modelos de Regresión Logística (Clasificación Binaria)
La regresión logística predice una variable categórica binaria y usa distintos indicadores para evaluar el ajuste del modelo.
Deviance (Deviancia):
Es una medida de qué tan bien el modelo ajusta los datos, comparando la probabilidad del modelo con la probabilidad de un modelo "saturado" (el mejor ajuste posible).
Se usa para comparar modelos anidados (un modelo es una versión simplificada del otro).
Pseudo R-cuadrado:
Variedades de R² adaptadas a la regresión logística, como McFadden's R², que miden la proporción de la varianza explicada por el modelo, aunque su interpretación es diferente al R² de la regresión lineal.
Resumen
En resumen, la bondad de ajuste se mide con diferentes indicadores según el tipo de modelo:
Para modelos de regresión, se utilizan R2, SEE, MSE, RMSE, y MAE.
Para modelos de clasificación, la precisión, la matriz de confusión y AUC son las principales métricas.
Para datos categóricos, las pruebas Chi-cuadrado y K-S son comunes.
En modelos probabilísticos, pruebas como K-S, Anderson-Darling y Shapiro-Wilk determinan si los datos siguen una distribución específica.
Modelos de ecuaciones estructurales: Se utilizan índices como el CFI, TLI y RMSEA.
¿Cómo elegir el indicador adecuado?
La elección del indicador depende de:
Tipo de modelo: Cada modelo tiene sus propios indicadores específicos.
Objetivo del análisis: ¿Quieres explicar la variabilidad, hacer predicciones o identificar relaciones causales?
Tipo de datos: ¿Los datos son continuos, discretos o categóricos?
Supuestos del modelo: ¿Se cumplen los supuestos del modelo?
En resumen, los indicadores de bondad de ajuste son herramientas esenciales para evaluar la calidad de nuestros modelos estadísticos. Al elegir el indicador adecuado, podemos tomar decisiones más informadas sobre nuestros análisis y obtener resultados más confiables.