Estadística Bayesiana

Introducción

Ejemplo de estimación bayesiana

En ciencia de datos, machine learning e inteligencia artificial, tanto la estadística bayesiana como la estadística frecuentista tienen su lugar y se utilizan según el contexto y los objetivos específicos del análisis. Sin embargo, hay diferencias en su prevalencia y aplicaciones.

Estadística Frecuentista

Uso: La estadística frecuentista es muy común en muchas aplicaciones de machine learning, especialmente en algoritmos como regresión lineal, regresión logística, árboles de decisión y modelos de clasificación. Muchos de los métodos de evaluación, como el análisis de varianza (ANOVA), también son frecuentistas.
Enfoque en Datos: La estadística frecuentista se basa en la suposición de que los datos son representativos de una población y se enfoca en la estimación de parámetros y la inferencia a partir de datos observados sin la necesidad de integrar información previa.
Métodos de Optimización: Muchos algoritmos de machine learning utilizan técnicas de optimización que se basan en conceptos frecuentistas, como el descenso de gradiente.

Estadística Bayesiana

Crecimiento en Popularidad: La estadística bayesiana ha ganado terreno en los últimos años, especialmente en aplicaciones donde es importante incorporar información previa o donde la incertidumbre es significativa. Esto incluye modelos de inferencia en situaciones con datos limitados o ruidosos.

Modelos Probabilísticos: Los métodos bayesianos son particularmente útiles en modelos probabilísticos complejos, como en el aprendizaje bayesiano, donde se desea entender la distribución de los parámetros en lugar de solo estimar valores puntuales.

Actualización Dinámica: La capacidad de actualizar creencias a medida que se reciben nuevos datos es una ventaja en aplicaciones como la detección de anomalías, el procesamiento de lenguaje natural y el análisis de series temporales, donde los datos llegan de manera continua.

Estadística inferencial y bayesiana

Dentro de la estadística inferencial, la estadística bayesiana utiliza el teorema de Bayes para actualizar las creencias sobre parámetros y modelos a medida que se obtiene nueva evidencia. Se enfoca en la probabilidad como un medio para representar la incertidumbre y permite la inclusión de información previa a través de distribuciones a priori.

Consideraciones generales

En general, la elección entre estadística bayesiana y frecuentista en ciencia de datos, machine learning e IA depende del problema específico, la naturaleza de los datos y los objetivos del análisis. La estadística frecuentista ha sido tradicionalmente más prevalente, especialmente en contextos donde los datos son abundantes y se requiere un enfoque clásico de inferencia. Sin embargo, la estadística bayesiana se ha vuelto cada vez más relevante, especialmente en escenarios que requieren una modelización más flexible y la incorporación de incertidumbre. Ambos enfoques son complementarios y su uso puede variar en función de las necesidades del proyecto.

Enfoque bayesiano y teorema de bayes

La estadística bayesiana es un enfoque de la estadística que utiliza la probabilidad para medir el grado de creencia o confianza en ciertos eventos o hipótesis, actualizando estas creencias a medida que se obtiene nueva evidencia. En lugar de basarse únicamente en la frecuencia de los eventos (como en la estadística frecuentista), la estadística bayesiana se enfoca en actualizar las probabilidades de los parámetros del modelo según nuevos datos.

El concepto central de la estadística bayesiana es el teorema de Bayes, que establece cómo actualizar la probabilidad de una hipótesis a partir de la evidencia disponible. El teorema de Bayes se expresa como:

P(H | E) = P(E | H) / {P(H)P(E)}

Donde:

P(H | E) es la probabilidad posterior de la hipótesis (H) dado la evidencia (E).
P(E | H) es la probabilidad de la evidencia (E) dado que la hipótesis (H) es cierta (likelihood).
P(H) es la probabilidad a priori de la hipótesis (H) antes de ver la evidencia (prior).
P(E) es la probabilidad total de la evidencia (E) (normalizador).

Componentes clave de la estadística bayesiana

Probabilidad a priori P(H): Representa el conocimiento previo sobre la hipótesis antes de observar cualquier evidencia. Este conocimiento puede provenir de estudios anteriores, experticia o suposiciones razonables sobre el fenómeno en estudio.
Likelihood o verosimilitud P(E | H): Mide qué tan probable es observar la evidencia dada una hipótesis específica.
Probabilidad posterior P(H | E): Es la actualización de la creencia sobre la hipótesis después de observar la evidencia. Es el resultado de aplicar el teorema de Bayes.
Evidencia o normalizador P(E): Asegura que la distribución posterior sea válida como una distribución de probabilidad.

Características Distintivas de la estadística bayesiana

Enfoque en la probabilidad: Mientras que la estadística frecuentista se basa en la frecuencia de eventos en experimentos repetidos, la estadística bayesiana trata la probabilidad como un grado de creencia en la verdad de una hipótesis.
Uso de información previa: La estadística bayesiana permite la inclusión de conocimiento previo (prior) en el análisis, lo que puede ser particularmente útil en contextos donde hay escasez de datos.
Actualización dinámica: La estadística bayesiana se caracteriza por la capacidad de actualizar las inferencias conforme se recibe nueva información, mientras que la estadística frecuentista típicamente produce resultados fijos basados en un conjunto de datos.

En términos académicos, la estadística bayesiana es una rama dentro del marco más amplio de la estadística inferencial. Ambas comparten el objetivo de inferir propiedades de las poblaciones a partir de muestras, pero lo hacen a través de paradigmas diferentes que reflejan distintas filosofías sobre la probabilidad y la inferencia.

Diferencias clave con la estadística frecuentista

En la estadística frecuentista, las probabilidades son interpretadas como frecuencias relativas en experimentos repetidos a largo plazo, y no se actualizan con nueva información de manera explícita.
La estadística bayesiana, en cambio, permite actualizar las creencias sobre los parámetros del modelo de forma continua, incorporando nueva información a medida que se va obteniendo.

Ventajas de la estadística bayesiana

Incorporación de conocimiento previo: Permite incluir información previa en el análisis, lo que puede ser útil especialmente en situaciones con pocos datos.
Actualización dinámica: La probabilidad posterior se actualiza con cada nueva pieza de evidencia, lo que hace que el modelo sea flexible y adaptable.
Interpretación coherente: Las probabilidades son interpretadas como un grado de creencia, lo que puede ser intuitivo en muchos contextos.

Desventajas

Computacionalmente costosa: A menudo requiere métodos de simulación compleja, como el muestreo de Monte Carlo por cadenas de Markov (MCMC), especialmente cuando los modelos son complejos.
Elección del prior: La selección del prior (información previa) puede ser subjetiva y, en algunos casos, puede influir fuertemente en los resultados, especialmente con datos limitados.

En resumen, la estadística bayesiana ofrece una forma poderosa y flexible de realizar inferencias estadísticas, donde las probabilidades se interpretan como creencias que pueden ser continuamente actualizadas con nueva información.

Calcular probabilidades es solo una parte de la estadística. Otra es la interpretación de las mismas, y las consecuencias que surgen de las diferentes interpretaciones. Hasta ahora nos hemos limitado a la interpretación frecuentista, que interpreta p como la frecuencia de una ocurrencia: si un resultado de un experimento tiene la probabilidad p, significa que si ese experimento se repite N veces (donde N es un número grande), entonces observamos este resultado específico N * p veces. O en otras palabras: dado un modelo determinado, miramos la probabilidad de encontrar el conjunto observado de datos.

Interpretación bayesiana y frecuentista

La interpretación bayesiana de p es bastante diferente y la interpreta como nuestra creencia sobre la probabilidad de un resultado determinado. Aquí tomamos los datos observados como fijos y buscamos la probabilidad de encontrar ciertos parámetros del modelo. Para algunos eventos, esto tiene mucho más sentido. Por ejemplo, una elección presidencial es un evento único y nunca tendremos un gran número de repeticiones N.

Además de esta diferencia en la interpretación, el enfoque bayesiano tiene otra ventaja: nos permite incorporar conocimientos previos en el cálculo de la probabilidad p, a través de la aplicación del Teorema de Bayes que como se dijo, en su forma más común, es:

P(B | A) = P(A) * P(A | B) / P(A)

En la interpretación bayesiana, la probabilidad mide un grado de creencia. El teorema de Bayes vincula el grado de creencia en una proposición antes y después de tener en cuenta la evidencia. Por ejemplo, supongamos que se cree con un 50 % de certeza que una moneda tiene el doble de probabilidad de caer cara que cruz. Si la moneda se lanza varias veces y se observan los resultados, ese grado de creencia puede aumentar, disminuir o mantenerse igual dependiendo de los resultados.

John Maynard Keynes, un gran economista y pensador, dijo: "Cuando los hechos cambian, cambio de opinión. ¿Qué hace usted, señor?" Esta cita refleja la forma en que un bayesiano actualiza sus creencias después de ver evidencia.

Para la proposición A y la evidencia B:

P(A), la probabilidad previa, es el grado inicial de creencia en A.
P(A | B), la probabilidad posterior, es el grado de creencia después de haber considerado B.

Se puede leer como “la probabilidad de A, dado que B es el caso”.

El cociente P(B | A) / P(B) representa el soporte que B proporciona a A.

Si el número de datos disponibles es grande, la diferencia en la interpretación típicamente no cambia significativamente el resultado. Sin embargo, si el número de datos es pequeño, la posibilidad de incorporar conocimientos externos puede llevar a una estimación significativamente mejorada de p.

Ejemplo Bayesiano

Supongamos que un hombre dice que tuvo una buena conversación con alguien en el tren. No sabiendo nada sobre esta conversación, la probabilidad de que estuviera hablando con una mujer es del 50 % (suponiendo que el hablante tenía la misma probabilidad de iniciar una conversación con un hombre que con una mujer). Ahora supongamos que también te dijo que su interlocutor tenía el cabello largo. Ahora es más probable que estuviera hablando con una mujer, ya que las mujeres son más propensas a tener el cabello largo que los hombres. El teorema de Bayes puede usarse para calcular la probabilidad de que la persona fuera una mujer.

Para ver cómo se hace esto, supongamos que W representa el evento de que la conversación se haya llevado a cabo con una mujer, y L denota el evento de que la conversación se haya llevado a cabo con una persona de cabello largo. Se puede asumir que las mujeres constituyen la mitad de la población para este ejemplo. Entonces, sin saber nada más, la probabilidad de que ocurra W es:

P(W) = 0.5

Supongamos que también se sabe que el 75 % de las mujeres tienen el cabello largo, lo que denotamos como P(L | W) = 0.75 (esto significa: la probabilidad del evento L dado el evento W es 0.75, es decir, la probabilidad de que una persona tenga el cabello largo (evento "L"), dado que ya sabemos que la persona es una mujer ("evento W") es del 75 %). De manera similar, supongamos que se sabe que el 15 % de los hombres tienen el cabello largo, o P(L | M) = 0.15, donde M es el evento complementario de W, es decir, el evento de que la conversación haya sido con un hombre (suponiendo que toda persona es o un hombre o una mujer).

Nuestro objetivo es calcular la probabilidad de que la conversación haya sido con una mujer, dado que la persona tenía el cabello largo, o en nuestra notación, P(W | L).

Usando la fórmula del teorema de Bayes, tenemos:

P(W | L) = P(L | W) * P(W) / P(L)

Donde hemos utilizado la ley de probabilidad total para expandir P(L). La respuesta numérica se puede obtener sustituyendo los valores anteriores en esta fórmula. Esto da como resultado:

P(W | L) ≈ 0.83

Es decir, la probabilidad de que la conversación haya sido con una mujer, dado que la persona tenía el cabello largo, es aproximadamente del 83 %.

Otra forma de hacer este cálculo es la siguiente. Inicialmente, es igualmente probable que la conversación sea con una mujer que con un hombre, por lo que las probabilidades previas son 1:1. Las probabilidades respectivas de que un hombre y una mujer tengan el cabello largo son del 15 % y del 75 %. Es cinco veces más probable que una mujer tenga el cabello largo que un hombre. Decimos que la razón de verosimilitud o el factor de Bayes es 5:1. El teorema de Bayes en forma de probabilidades también nos dice que las probabilidades posteriores de que la persona fuera una mujer también son 5:1 (las probabilidades previas, 1:1, multiplicadas por la razón de verosimilitud, 5:1).

El enfoque bayesiano con la evolución tecnológica

El teorema de Bayes fue nombrado así por el reverendo Thomas Bayes (1701-1761), quien estudió cómo calcular una distribución para el parámetro de probabilidad de una distribución binomial. Ha estado presente durante mucho tiempo. La razón por la que el teorema de Bayes ha ganado tanta popularidad en estadística en los últimos años es la disponibilidad económica de una enorme potencia computacional. Esto permite el cálculo empírico de probabilidades posteriores, una por una, para cada nueva pieza de evidencia. Esto, combinado con enfoques estadísticos como las simulaciones de Monte Carlo con cadenas de Markov (MCMC), ha permitido procedimientos de análisis estadístico completamente nuevos, y ha llevado a lo que se podría llamar "guerra de trincheras estadística" entre los seguidores de las diferentes filosofías.

Referencias

Wikipedia, que tiene algunas explicaciones interesantes bajo "Bayes :::"

Bayesian Methods for Hackers, un buen ebook gratuito, que proporciona una introducción práctica al uso de PyMC.

1/2