top of page

Distribución Hipergeométrica

P(x éxitos en una muestra de tamaño m extraída sin reemplazo de una población de tamaño M que contiene n éxitos)

Distribución de probabilidad hipergeométrica

Distribución de probabilidad hipergeométrica

Distribución Hipergeométrica

La distribución hipergeométrica es una distribución de probabilidad discreta que describe el número de éxitos en una muestra de tamaño fijo m extraída sin reemplazo de una población finita de tamaño M que contiene exactamente n éxitos.

P(x) = (C(n,x)) (C(M-n),(m-x))  /  (C(M,m))

  • x: número total de éxitos de la muestra (valor buscado)

  • n: número total de éxitos de la población.

  • m: tamaño total de la muestra

  • M: tamaño total de la población

donde:

  • C(n,x)) es el número de maneras de elegir x éxitos de los n de la población. Es decir, las combinaciones de la cantidad de éxitos de la población tomadas por el numero total de éxitos de la muestra,

  • C(M-n),(m-x) es el número de maneras de elegir m−x fracasos de los M-n fracasos en la población. Es decir, las combinaciones del tamaño de la población menos el numero de exitos de la población, tomadas por el numero de fracasos de la muestra. (El numero de éxitos y el numero de fracasos son complementarios) 

  • (C(M,m)) es el número total de maneras de elegir m elementos de una población de N.  Es decir, combinaciones del tamño total de la población tomadas por el tamaño total de la muestra.

Leyendo la formula con palabras podemos decir que, la probabilidad de que la cantidad de éxitos sea igual a x es igual a:

Sucesos faborables y desfavorables

sobre

Sucesos posibles

donde:

Sucesos faborables y desfavorables = C(Faborables) * C(Desfavorables)

sobre

Sucesos Posibles = C(Población tomadas por el tamaño de la muestra)


Propiedades

Media: μ = m x/M

Varianza: σ^2 = m x/M (1-x/M) (M-m)/(M-1)


Ejemplo:

Supongamos que tenemos una población de 50 elementos, de los cuales 20 son defectuosos. Queremos encontrar la probabilidad de que, al tomar una muestra de 10 elementos, exactamente 4 sean defectuosos.

  • Tamaño de la población (M): 50

  • Número de éxitos en la población (n): 20

  • Tamaño de la muestra (m): 10

  • Número de éxitos en la muestra (x): 4

La probabilidad se calcula como:

P(4)=C(20,4) C(30,6)/C(50,10)

Calculemos cada término:

  • C(20,4) es el número de maneras de elegir 4 elementos de 20 defectuosos.

  • C(30,6) es el número de maneras de elegir 6 elementos de 30 no defectuosos.

  • C(50,10) es el número de maneras de elegir 10 elementos de 50.

Utilizando una calculadora o software estadístico:

P(4) = (4845) (593.775) / 10.272.278.170

P(4) ≈0,027

2,7%

Interpretación:

La probabilidad de obtener exactamente 4 defectuosos en una muestra de 10 es aproximadamente 2,7%.


Aplicaciones y uso:


1. Control de Calidad

En la industria manufacturera, la distribución hipergeométrica se utiliza para el muestreo de productos. Por ejemplo, una empresa puede querer saber la probabilidad de encontrar un cierto número de productos defectuosos en una muestra de un lote sin reemplazo. Si una empresa tiene un lote de 1000 productos con 50 defectuosos y toma una muestra de 20 productos para inspección, puede usar la distribución hipergeométrica para calcular la probabilidad de encontrar exactamente k productos defectuosos en la muestra. En este sentido he realizado un ensayo en python que está documentado y compartido en mi github.


2. Genética y Biología

En estudios genéticos, la distribución hipergeométrica se utiliza para modelar la selección de genes o alelos en una población. Por ejemplo, si se está estudiando una población de plantas con un cierto número de plantas que tienen una característica genética particular, y se toma una muestra de la población para estudiar, se puede usar la distribución hipergeométrica para calcular la probabilidad de encontrar un cierto número de plantas con esa característica en la muestra.


3. Evaluaciones Médicas:Usada para estimar la probabilidad de encontrar un cierto número de individuos con una característica particular en una muestra de una población.
La distribución hipergeométrica es útil para modelar problemas de muestreo sin reemplazo y tiene muchas aplicaciones prácticas en la vida real.


4. Auditoría y Muestreo Estadístico

En auditoría financiera, se usa la distribución hipergeométrica para evaluar la precisión de los registros financieros. Por ejemplo, un auditor puede tomar una muestra de las transacciones de una empresa para verificar la existencia de errores o fraudes. Si se sabe que hay un número fijo de errores en el total de transacciones, la distribución hipergeométrica puede modelar la probabilidad de encontrar un cierto número de errores en la muestra seleccionada.


5. Juegos de Azar y Cartas

En juegos de cartas, la distribución hipergeométrica puede utilizarse para calcular las probabilidades relacionadas con la composición de las manos de cartas. Por ejemplo, en el póker, se puede usar la distribución hipergeométrica para calcular la probabilidad de obtener una cierta combinación de cartas (como una pareja, tres de un tipo, etc.) cuando se reparten las cartas sin reemplazo.


6. Ecología

En estudios ecológicos, la distribución hipergeométrica puede utilizarse para modelar la captura-recaptura de animales para estimar el tamaño de una población. Por ejemplo, los biólogos pueden capturar y marcar un número de animales, luego liberarlos y más tarde capturar una segunda muestra. La distribución hipergeométrica puede ayudar a estimar la probabilidad de recapturar un cierto número de animales marcados en la segunda muestra, lo que puede ser utilizado para estimar el tamaño total de la población.


Ejemplo:

En la Lotería 54, un participante selecciona seis números del 1 al 54 (sin repetición); después se selecciona al azar una combinación de seis números ganadores. Calcule la probabilidad de obtener

a. los seis números ganadores. (x=6, n=6, M=54, N=6)

P(6)= (C(6,6)C(54-6,6-6))/C(54,6)

C(6,6)= 1 (ya que hay solo una manera de elegir 6 éxitos de 6 posibles).

C(48,0) = 1 (ya que hay solo una manera de elegir 0 fracasos de 48 posibles).

C(54,6) = 25,827,165 es el número total de maneras de elegir 6 números de 54.

P(6)= (1 * 1)/25,827,165 ≈ 3.87×10−8

0,0000038% aproximadamente.

b. exactamente cinco de los números ganadores.

P(5)= (C(6,5)C(54-6,6-5))/C(54,6)

C(6,5)= 6 (ya que hay solo una manera de elegir 5 éxitos de 6 posibles).

C(48,1) = 48 (ya que hay solo 48 maneras de elegir 1 fracaso de 48 posibles).

C(54,6) = 25,827,165 es el número total de maneras de elegir 6 números de 54.

P(5)= (6 * 48)/25,827,165 = 288/25,827,165 ≈ 1.115×10−5

0.0011% aproximadamente.

c. exactamente tres de los números ganadores.

P(3)= (C(6,3)C(54-6,6-3))/C(54,6)

C(6,3)= 20 (ya que hay 20 maneras de elegir 3 éxitos de 6 posibles).

C(48,3) = 17.296 (ya que hay  17.296 maneras de elegir 3 fracasos de 48 posibles).

C(54,6) = 25,827,165 es el número total de maneras de elegir 6 números de 54.

P(3)= (20* 17.296)/25,827,165 = 345.920/25,827,165 ≈ 0.0134

1,3% aproximadamente.

d. ningún número ganador.

P(0)= (C(6,0)C(54-6,6-0))/C(54,6)

C(6,0)= 1 (ya que solo 1 manera de elegir 0 éxitos de 6 posibles).

C(48,6) = 12.271.512 (ya que hay  12.271.512 maneras de elegir 1 fracaso de 48 posibles).

C(54,6) = 25,827,165 es el número total de maneras de elegir 6 números de 54.

P(0)= (1* .271.512)/25,827,165 = 12.271.512/25,827,165 ≈ 0.4751

47,5% aproximadamente.


Comparación Binomial Hipergeométrica

Si realizamos un muestreo sin reemplazo de una población finita pequeña, no debe usarse la distribución binomial porque los eventos no son independientes. Si el muestreo se hace sin reemplazo y los resultados pertenecen a uno de dos tipos, podemos usar la distribución hipergeométrica.


Ejemplo: Selección de Pelotas de una Bolsa

Supongamos que tenemos una bolsa con 20 pelotas, de las cuales 7 son rojas (éxitos) y 13 son azules (fracasos). Queremos saber la probabilidad de extraer 4 pelotas rojas al seleccionar 10 pelotas sin reemplazo.


Parámetros de la Distribución:

  • N = 20: Tamaño total de la población.

  • K = 7: Número de éxitos (pelotas rojas) en la población.

  • n = 10: Número de extracciones sin reemplazo.

Este ejemplo se desarrolla en jupyter notebook y se comparte en github. La grafica resultante, que se ve en la figura permite ver como varía la probabilidad de estraer las 4 pelotas rojas.   Muestra la distribución del número de pelotas rojas extraídas al seleccionar 10 pelotas sin reemplazo de una bolsa con 20 pelotas, de las cuales 7 son rojas. La PMF teórica (puntos y líneas azules) se compara con el histograma de las simulaciones (barras verdes). Podemos observar la probabilidad de cada posible número de pelotas rojas extraídas.


bottom of page