Funciones de costo

Medición de errores en ajustes

Función de costo. Error cuadrático medio.

La función de coste, también conocida como función de pérdida, es una medida de cuán bien un modelo de regresión o clasificación está ajustando los datos. La función de coste evalúa la discrepancia entre los valores predichos por el modelo y los valores reales observados. El objetivo del entrenamiento de un modelo es minimizar esta función de coste para mejorar la precisión de las predicciones. En consecuencia, la función de coste varía según el caso y el modelo de ajuste.

La función de coste es una fórmula matemática que asigna un valor numérico al error del modelo. Este valor depende de los parámetros del modelo y de los datos observados. La idea es ajustar los parámetros del modelo para minimizar la función de coste. En el contexto estadístico, la función de coste también puede interpretarse como la función de pérdida, que define la penalización asociada a un error de predicción. Por ejemplo:

En métodos de estimación como mínimos cuadrados ordinarios (OLS), la función de coste es el MSE.
En análisis bayesiano, la función de pérdida puede ser personalizada, como la pérdida cuadrática o la pérdida absoluta.

Propiedades Deseables de una función de costo

Diferenciable: Para aplicar métodos de optimización como gradiente descendente.
Convexa (si es posible): Asegura que la optimización encuentre un mínimo global.
Escalable: Capaz de manejar grandes cantidades de datos.

Ejemplo de funcón de coste para regresión lineal

En un jupyter notebook que se comparte en github, se realiza un ejemplo de la función de coste que se muestra en las figuras correspondientes a este apartado y también. El ejemplo incluye las siguientes acciones.

Generar datos sintéticos. Los datos simulados siguen una relación lineal y = 3x + 7 con ruido añadido para simular observaciones reales.
Ajustar un modelo de regresión lineal.
Calcular el MSE.
Visualizar gráficamente cómo varía el coste al ajustar los parámetros del modelo.

La visualización de la función de coste tiene como objetivo mostrar cómo varía el error (en este caso, el MSE) al cambiar los parámetros del modelo, específicamente la pendiente y el intercepto.

Mapa de contorno: Representa gráficamente el error (MSE) en función de 𝑚 (pendiente) y 𝑏 (intercepto).
Los colores y líneas indican niveles de error: Los colores más claros representan errores mayores (mal ajuste). Los colores más oscuros o el mínimo en la gráfica representan errores menores (mejor ajuste).
Desglose de la visualización: Eje X: Valores posibles para el intercepto (𝑏). Eje Y: Valores posibles para la pendiente (𝑚).
Colores y contornos: Cada punto en la gráfica corresponde a una combinación específica de 𝑚 y 𝑏. El color asociado al punto indica el valor del MSE: Tonos oscuros: menor MSE (mejor ajuste). Tonos claros: mayor MSE (peor ajuste).
Punto rojo: Este representa el modelo ajustado (la combinación de 𝑚 y 𝑏 que minimiza el MSE).

El objetivo es llegar al punto donde el MSE es más bajo, que es el "valle" en el mapa de contorno.

Interpretación

La visualización permite entender cómo la selección de los parámetros 𝑚 y 𝑏 afecta el error del modelo.

Idealmente, queremos ajustar 𝑚 y 𝑏 para que el MSE sea lo más bajo posible, es decir, ubicarnos en la región más oscura del gráfico.

Ejemplo de ajuste de función de coste con un modelo bayesiano

Un análisis bayesiano tiene un enfoque diferente al enfoque clásico de la minimización de funciones de coste. En el contexto bayesiano, no buscamos un único "mejor valor" para los parámetros 𝑚 y 𝑏, sino que calculamos una distribución posterior para cada parámetro, que refleja nuestra creencia actual sobre esos valores dados los datos observados y nuestras creencias previas.

En este ejemplo, construimos una regresión lineal desde un enfoque bayesiano utilizando la librería pymc. Calculamos las distribuciones posteriores para 𝑚 (pendiente) y 𝑏 (intercepto), y visualizamos la región de alta probabilidad (análoga a la región más oscura en la visualización clásica).

Los resultados pueden verse en las figuras correspondientes dentro de este apartado y el código se comparte en un jupyter notebook en github.

Desglose del código

Definición del modelo: Definimos prioris para la pendiente (m) y el intercepto (b) como distribuciones normales amplias (media=0, desviación estándar=10), indicando una creencia inicial sin mucha información.
Likelihood: El modelo relaciona los datos observados con las predicciones generadas por y = mx + by, asumiendo que el ruido sigue una distribución normal con desviación estándar σ.
Muestreo MCMC: Se utiliza un algoritmo de muestreo (NUTS) para generar muestras de las distribuciones posteriores de m y b.
Resumen de resultados: Calculamos estadísticas descriptivas de las distribuciones posteriores (media, desviación estándar, percentiles, etc.).
Visualización: Graficamos las distribuciones posteriores para m y b. Varias líneas ajustadas (muestreadas de la distribución posterior) para mostrar la incertidumbre del modelo. El modelo promedio como una línea roja (los valores medios de m y b).

Explicación gráfica

Distribuciones posteriores: Reflejan nuestra "creencia" actual sobre los parámetros dados los datos observados y nuestras prioris.
Ejemplo: Si la distribución de m está centrada en 2.4 con una desviación pequeña, significa que estamos bastante seguros de que la pendiente verdadera es cercana a 2.4.
Líneas grises: Representan posibles modelos ajustados basados en muestras de la posterior.
Esto ilustra la incertidumbre en el ajuste: no estamos 100% seguros del valor exacto de los parámetros, pero la mayoría de las líneas estarán cerca del modelo promedio.
Línea roja: Es el modelo promedio, que resume la mejor predicción según el enfoque bayesiano.

Nota: El HDI (Highest Density Interval) es un concepto clave en el análisis bayesiano, utilizado para describir las regiones más probables de una distribución posterior. Representa un intervalo donde se encuentra un porcentaje específico de probabilidad acumulada, con la característica de que dentro del intervalo, todos los valores tienen mayor densidad (probabilidad) que los valores fuera del intervalo.

Interpretación de las graficas

En lugar de obtener un único valor óptimo (m y b), obtenemos una distribución que captura tanto el valor más probable como la incertidumbre asociada.
Las distribuciones posteriores y las líneas muestreadas permiten visualizar la incertidumbre inherente en los parámetros y el ajuste.

1/2