Experimentos Multinomiales
Características y Bondad de ajuste
Experimentos multinomiales y bondad de ajuste
Un experimento multinomial es una extensión del experimento binomial, utilizado en situaciones donde hay más de dos posibles resultados para cada ensayo. En un experimento multinomial, cada ensayo tiene un número fijo de posibles categorías o resultados, y la probabilidad de cada resultado es constante en todos los ensayos. El objetivo es determinar la probabilidad de que una serie de ensayos produzca un conjunto específico de conteos para cada categoría.
Características clave de un experimento multinomial:
Número fijo de ensayos (n): El experimento consiste en un número fijo de ensayos independientes.
Resultados categóricos: Cada ensayo puede tener uno de k posibles resultados (k categorías), donde ( k > 2). A diferencia del experimento binomial (que solo tiene dos categorías: éxito o fracaso), el multinomial tiene múltiples categorías.
Probabilidades constantes: La probabilidad de que ocurra cada categoría en un ensayo individual es constante a lo largo de todos los ensayos. Estas probabilidades se denotan como ( p1, p2,..., pk), donde la suma de todas las probabilidades es igual a 1, es decir, ( p1 + p2 + ... + pk = 1 ).
Ensayos independientes: Los ensayos no influyen entre sí, por lo que la probabilidad de un resultado en un ensayo no afecta las probabilidades en otros ensayos.
Variable multinomial: El experimento genera una variable multinomial, que cuenta el número de veces que ocurre cada categoría en los ensayos.
Ejemplo:
Supón que lanzas un dado (con 6 caras) 10 veces. Cada lanzamiento puede resultar en uno de los seis resultados posibles (1, 2, 3, 4, 5, o 6). Si quieres conocer la probabilidad de que obtengas 3 unos, 2 doses, 1 tres, y así sucesivamente, estás realizando un experimento multinomial.
n = 10 (número de lanzamientos)
k = 6 (número de categorías: 1, 2, 3, 4, 5, 6)
p1 = p2 = p3 = p4 = p5 = p6 = 1/6 (probabilidades iguales de cada cara en un dado justo)
Para cada experimento multinomial se suele buscar una distribución teórica que describa dicho experimento. Por eso al estudiar experimentos multinomiales se utilizan pruebas que tienen que ver con la bondad de ajuste de la distribución que se utilice para describir los resultados del esperimento.
Función de probabilidad multinomial
La función de probabilidad multinomial calcula la probabilidad de obtener un conjunto específico de resultados en un número fijo de ensayos. Esta se puede expresar matemáticamente usando la fórmula de la distribución multinomial:
P(X1 = x1, X2 = x2, ..., Xk = xk) = n! p1^{x1} p2^{x2} ... pk^{xk} / {x1! x2! ... xk!}
Donde:
Xi es el número de veces que ocurre la categoría ( i),
xi es el conteo observado de la categoría (i),
n es el número total de ensayos,
pi es la probabilidad de que ocurra la categoría (i).
Este tipo de modelo es útil, por ejemplo, en encuestas donde las respuestas caen en varias categorías o en experimentos genéticos con múltiples tipos de descendencia.
Ejemplo:
Miles de sujetos se realizan estudios de manera rutinaria como parte del National Health Examination Survey. Los procedimientos de examen son muy exactos. Por ejemplo, cuando se obtienen pesos de sujetos, es sumamente importante pesarlos de verdad en vez de pedirles que reporten su peso. Se sabe que cuando la gente reporta su peso, generalmente da un peso más bajo que el real. Entonces, ¿cómo pueden verificar los investigadores que los pesos se obtuvieron por medio de mediciones reales y no por el reporte de los sujetos? Un método consiste en analizar los últimos dígitos de los pesos. Cuando la gente reporta su peso, tiende a redondear la cifra, a menudo hacia el entero inferior. Los últimos dígitos de los pesos reportados suelen tener un número desproporcionado de ceros y cincos, en comparación con los últimos dígitos de los pesos obtenidos a través de un proceso de medición. En contraste, cuando realmente se pesa a las personas, los últimos dígitos tienden a distribuirse de manera uniforme, de modo que 0, 1, 2,..., 9 se presentan aproximadamente con la misma frecuencia. Mario Triola, estadistico, obtuvo los pesos de 80 estudiantes elegidos al azar, cuyos últimos dígitos se resumen en la tabla. Verificaremos que se satisfagan las condiciones de un experimento multinomial.
El número de ensayos (últimos dígitos) es el número fijo 80.
Los ensayos son independientes, puesto que el último dígito de cualquier peso individual no afecta al último dígito de cualquier otro peso.
Cada resultado (último dígito) se clasifica exactamente en una de 10 categorías diferentes. Las categorías se identifican como 0, 1, 2,..., 9.
Al poner a prueba la aseveración de que los 10 dígitos son igualmente probables, cada dígito posible tiene la probabilidad de 1/10, y se supone que esa probabilidad permanece constante para cada sujeto.
En la tabla las frecuencias observadas son:
O = 35, 0, 2, 1, 4, 24, 1, 4, 7 y 2.
La suma de las frecuencias observadas es 80, de manera que n = 80. Si suponemos que los 80 dígitos se obtuvieron de una población en la que todos los dígitos son igualmente probables, entonces esperamos que cada dígito se presente en 1/10 de los 80 ensayos, de manera que cada una de las 10 frecuencias esperadas está dada por E = 8. Si generalizamos este resultado, obtenemos un procedimiento sencillo para calcular las frecuencias esperadas, siempre y cuando supongamos que todas las frecuencias esperadas son iguales: simplemente divida el número total de observaciones entre el número de categorías diferentes (E = n/k).
En otros casos en los que no todas las frecuencias esperadas son iguales, a menudo podemos calcular las frecuencias esperadas para cada categoría multiplicando la suma de todas las frecuencias observadas por la probabilidad p de la categoría, de manera que E = np.
Se resume lo visto en el ejemplo a continuación es decir los dos procedimientos para obtener las frecuencias esperadas son:
Si todas las frecuencias esperadas son iguales, entonces cada frecuencia esperada es la suma de todas las frecuencias observadas dividida entre el número de categorías, de manera que E = n/k.
Si las frecuencias esperadas no son todas iguales, entonces cada frecuencia esperada se calcula multiplicando la suma de todas las frecuencias observadas por la probabilidad para la categoría, de manera que E = np para cada categoría.
Aun cuando estas dos fórmulas para E pueden ser muy buenas, sería mejor utilizar un método informal basado en la comprensión de las circunstancias.
Es recomendable preguntarse:
“¿Cómo se pueden repartir las frecuencias observadas entre las dife- rentes categorías, de manera que exista una coincidencia perfecta con la distribución aseverada?”
Además, es importante reconocer que
Todas las frecuencias observadas deben ser números enteros, puesto que representan conteos reales, en tanto que las frecuencias esperadas no requieren ser números enteros.
Por ejemplo, cuando se tira un dado 33 veces, la frecuencia esperada para cada posible resultado es 33/6 5.5. Se espera que el número 3 se presente con una frecuencia de 5.5, aunque es imposible obtener el resultado de que el 3 se presente exactamente 5.5 veces.
Sabemos que las frecuencias muestrales por lo regular se desvían un poco de los valores que esperamos teóricamente, y ahora planteamos la pregunta clave:
¿Son estadísticamente significativas las diferencias entre los valores observados O reales y los valores teóricos esperados E?
Necesitamos una medida de la discrepancia entre los valores O y E, así que utilizamos el estadístico de prueba dado con los supuestos y los valores críticos.
Para estudiar un fenómeno como el descripto en el ejemplo se suele utilizar el concepto de bondad de ajuste y con las distintas pruebas posibles relacionadas a este concepto. Por ejemplo el estadístico de prueba más común para pruebas de bondad de ajuste en experimentos multinomiales es:
χ² = ∑(Oi - Ei)²/Ei
tal y como se ve en la figura y además se explica en el apartado correspondiente a bondad de ajuste.
Ejemplo:
Volvamos al ejemplo (anterior) en el que el National Health Examination Survey, desea comprobar si en su investigación la gente dió su peso exacto o simplemente lo redondeó. Cuando analizamos los valores esperados para los ultimos dígitos, vemos que estos (si son declarados con exactitud) se distribuyen uniformemente entre todos los digitos del 0 al 9. Entonces como las muestras son 80, la frecuencia de cada dígito debería ser 8. Este ejemplo se calcula y comparte en github, mientras que explica a continuación.
Para este ejemplo entonces:
1. La hipótesis nula debe contener la condición de igualdad, así que tenemos:
H0: p0 = p1 = p2 = p3 = p4 = p5 = p6 = p7 = p8 = p9
H1: Al menos una de las probabilidades es diferente de las otras.
2. No se especificó un nivel de significancia, así que seleccionamos a = 0.05.
3. Probamos la aseveración de que la distribución de los últimos dígitos
es una distribución uniforme,
utilizamos la prueba de bondad de ajuste que utiliza la distribución X2.
4. Las frecuencias observadas O se listan en las tablas de la figura.
5. Los calculos de la prueba se realizan en python y se comparten en jupyter notebook.
6. Los resultados de la prueba se resumen a continuación:
Estadístico Chi-cuadrado: 156.5000
Valor p: 0.0000
Valor crítico para α = 0.05: 16.9190
cada frecuencia esperada E correspondiente es igual a 8 (porque los 80 dígitos estarían distribuidos de manera uniforme a lo largo de las 10 categorías).
La tabla muestra el cálculo del estadístico de prueba x2.
El estadístico de prueba es x2 = 156.500. El valor crítico es x2 16.919
El estadístico de prueba y el valor crítico se muestran en la figura.
Existe suficiente evidencia para sustentar la aseveración de que los últimos dígitos no se presentan con la misma frecuencia relativa.
Hay evidencia muy fuerte que sugiere que los pesos realmente no se midieron.
Es razonable especular que se trata de valores reportados y no de mediciones reales.
Resumen de experimento multinomial
En resumen, el concepto de experimento multinomial es parte de la estadística inferencial, ya que su mayor utilidad está en hacer inferencias sobre las probabilidades de diferentes categorías en una población. Sin embargo, en algunos contextos, también puede aplicarse de manera descriptiva para resumir frecuencias observadas.
Un experimento multinomial puede estar relacionado tanto con la estadística descriptiva como con la inferencial, dependiendo de cómo lo utilices:
Estadística descriptiva: Cuando simplemente observas los resultados de un experimento multinomial (por ejemplo, cuántas veces ocurre cada categoría) y describes las frecuencias o proporciones observadas, estás trabajando con estadística descriptiva. En este caso, no haces inferencias ni generalizaciones, solo resumes los datos de la muestra.
Estadística inferencial: Si usas los resultados del experimento multinomial para hacer predicciones o sacar conclusiones sobre una población más grande, entonces estás haciendo estadística inferencial. Un ejemplo sería usar los resultados para estimar las probabilidades verdaderas de cada categoría en la población o para probar si las probabilidades observadas son consistentes con un modelo teórico (como una prueba de bondad de ajuste Chi-cuadrado).