Distribución Multinomial

P(Xi número de éxitos en una serie de experimentos cuando hay más de dos resultados posibles)

Distribución de probabilidad multinomial

Distribución Multinomial

La distribución multinomial es una generalización de la distribución binomial. Mientras que la distribución binomial describe el número de éxitos en una serie de experimentos de Bernoulli (con dos posibles resultados, éxito o fracaso), la distribución multinomial se utiliza cuando hay más de dos posibles resultados. Debe pensarse que aunque hay más de dos resultados posibles, se trata deresultados mutuamente excluyentes.

Definición

Consideremos un experimento que puede resultar en uno de k posibles resultados, denotados como C1,C2,…,Ck. Si realizamos este experimento n veces, la variable aleatoria Xi representa el número de veces que el resultado Ci ocurre en estos n ensayos. La distribución de probabilidad conjunta de X1,X2,…,Xk sigue una distribución multinomial y se denota como:

P(X1=x1,X2=x2,…,Xk=xk) = n!/x1!x2!⋯xk! p1^x1 p2^x2 ⋯ pk^xk

donde:

n es el número total de ensayos.
p es la probabilidad de que el resultado del experimento sea Ci (con ∑(i=1,k) pi=1).
Xi es el número de veces que ocurre el resultado Ci en n ensayos (con ∑(i=1,k) Xi=n).

La distribución binomial se aplica únicamente a casos que implican dos tipos de resultados, mientras que la distribución multinomial supone más de dos categorías. Suponga que tenemos tres tipos de resultados mutuamen- te excluyentes, denotados por A, B y C. Sean P(A) p1, P(B) p2 y P(C) p3. En n ensayos independientes, la probabilidad de x1 resultados tipo A, x2 resultados tipo B y x3 resultados tipo C está dada por:

P(x1, x2,..., xn)= n!/(x1!x2!...xn!) p^x1 p^x2 ... p^xn

Propiedades

Esperanza (Media): E[Xi]=npi

Varianza: Var(Xi): npi(1−pi)

Covarianza: Cov(Xi,Xj): −npipj para i<>j

Ejemplo

Supongamos que lanzamos un dado equilibrado 10 veces. Aquí, cada cara del dado representa un posible resultado (k=6), y cada cara tiene una probabilidad de pi=1/6.

queremos calcular la probabilidad de obtener:

un 1 exactamente x1=2 veces,

un 2 exactamente x2=3 veces,

un 3 exactamente x3=1 veces,

un 4 exactamente x4=1 veces,

un 5 exactamente x5=2 veces,

y un 6 exactamente x6=1 veces.

En este caso: La probabilidad de cada resultado en un solo lanzamiento es 1/6, porque son dados no cargados.

En este caso n=10 pero podría ser cualquier otro valor.

P(x1=2, x2=3, x3=1, x4=1,x5=2, x6=1)= 10!/(2!3!1!1!2!1!) (1/6)^10

P(x1=2, x2=3, x3=1, x4=1,x5=2, x6=1)=243,628,800/24 (1/6)^10

P(x1=2, x2=3, x3=1, x4=1,x5=2, x6=1)=151.200 (1/6)^10

P(x1=2, x2=3, x3=1, x4=1,x5=2, x6=1)=151.200 (1/60.466.176)

P(x1=2, x2=3, x3=1, x4=1,x5=2, x6=1)=151.200 /60.466.176

P(x1=2, x2=3, x3=1, x4=1,x5=2, x6=1)=≈0.0025

0.25% aproximadamente.

Aplicaciones y uso:

La distribución multinomial se utiliza en una variedad de aplicaciones actuales y reales en diferentes campos.

1. Investigación de Mercados y Análisis de Encuestas

En investigación de mercados, las encuestas a menudo tienen múltiples opciones de respuesta. La distribución multinomial se puede usar para modelar la probabilidad de diferentes respuestas. Por ejemplo, si una empresa quiere entender las preferencias de los consumidores sobre diferentes sabores de una bebida, puede usar la distribución multinomial para modelar la frecuencia con que los consumidores eligen cada sabor.

2. Procesamiento del Lenguaje Natural (NLP)

En NLP, la distribución multinomial se utiliza para modelar la frecuencia de aparición de palabras en documentos. Un modelo común es el de bolsa de palabras (Bag of Words), donde se asume que las palabras en un documento siguen una distribución multinomial. Esto es útil en aplicaciones como la clasificación de textos, el análisis de sentimientos y la generación de texto.

3. Genética y Biología

En estudios genéticos, la distribución multinomial se puede usar para modelar la frecuencia de diferentes genotipos en una población. Por ejemplo, en el análisis de polimorfismos de nucleótido simple (SNP), se puede modelar la distribución de frecuencias de diferentes alelos en una muestra de ADN.

4. Control de Calidad

En manufactura, la distribución multinomial se puede usar para modelar la cantidad de defectos de diferentes tipos en un lote de productos. Por ejemplo, en una línea de producción de automóviles, los defectos pueden clasificarse en diferentes categorías (pintura, ensamblaje, electrónica, etc.), y la distribución multinomial puede modelar la frecuencia de cada tipo de defecto.

5. Diagnóstico Médico

En diagnósticos médicos, la distribución multinomial se puede usar para modelar la probabilidad de diferentes resultados de prueba. Por ejemplo, en una prueba de laboratorio que puede dar resultados positivos, negativos o indeterminados, se puede usar la distribución multinomial para modelar la probabilidad de cada resultado basado en los datos históricos de los pacientes.

6. Análisis de Redes Sociales

En el análisis de redes sociales, la distribución multinomial se puede usar para modelar la frecuencia de diferentes tipos de interacciones (me gusta, comentarios, compartidos) en una plataforma de redes sociales. Esto puede ayudar a las empresas a entender mejor el comportamiento del usuario y optimizar sus estrategias de marketing en línea.

Ejemplo: Clasificación de Imágenes

Imaginemos un sistema de visión por computadora que clasifica imágenes de frutas en categorías como manzanas, plátanos, naranjas y uvas. Cada imagen se puede etiquetar con una categoría, y la distribución multinomial puede modelar la probabilidad de cada categoría basada en un conjunto de datos de entrenamiento.

Ejemplo: Preferencia de sabores de los clientes de helados

Supongamos que una empresa está interesada en analizar las preferencias de sus clientes sobre tres sabores de helado: chocolate, vainilla y fresa. Realizan una encuesta con 1000 clientes, y obtienen los siguientes resultados:

Chocolate: 450 personas lo prefieren.
Vainilla: 350 personas lo prefieren.
Fresa: 200 personas lo prefieren.

Aquí, la distribución multinomial puede modelar las probabilidades de que un cliente seleccionado al azar prefiera uno de los tres sabores. Usando la distribución multinomial, podemos simular encuestas similares para analizar posibles escenarios.

Ahora, graficaremos la probabilidad de observar diferentes combinaciones de preferencias para los tres sabores usando Python. Este ejemplo está en jupyter notebook compartido en github.

En el gráfico se muestra la distribución de los resultados simulados para las preferencias de los sabores:

Cada histograma corresponde a uno de los sabores: Chocolate, Vainilla y Fresa.
Las medias de las preferencias son aproximadamente proporcionales a las probabilidades definidas:

Chocolate (~450 personas),
Vainilla (~350 personas),
Fresa (~200 personas).

Esto ilustra cómo se distribuyen los resultados de una encuesta basada en la distribución multinomial, mostrando la variabilidad esperada en diferentes escenarios.

Ejemplo: Elecciones. Pronóstico y resultados

Supongamos que estamos analizando los resultados de una pequeña elección en la que hay cuatro candidatos: A, B, C y D. Cada votante puede votar por uno de estos cuatro candidatos. Queremos modelar y analizar los resultados de la elección en una población de 1000 votantes, asumiendo que las probabilidades de votar por cada candidato son:

1. Candidato A: 30% de los votos

2. Candidato B: 25% de los votos

3. Candidato C: 24% de los votos

4. Candidato D: 20% de los votos

5. En blanco: 1% de los votos

Luego simulamos las elecciones y sus resultados utilizando una generación de datos con distribución multinomial. Finalmente comparamos los resultados. Todo esto se puede ver en las figuras correspondiente y está en un jupyter notebook en github.

1/1