TCL

Teorema central de límite y la distribución muestral de medias.

Distribución Muestral de las Medias. Teorema Central del Límite.

Un fenómeno fascinante e intrigante de la estadística es el hecho de que al obtener muestras de cualquier distribución podamos crear una distribución de medias muestrales que es normal o al menos aproximadamente normal.

Teorema central de límite

El teorema central del límite nos dice que:

"Si el tamaño de una muestra es lo suficientemente grande, la distribución de las medias muestrales se puede aproximar por medio de una distribución normal, aun cuando la población original no esté distribuida de forma normal."

El teorema del límite central implica dos distribuciones diferentes:

la distribución de la población original
la distribución de las medias muestrales.

Utilizamos los símbolos siguientes para relacionar población y muestras:

µ y 𝞂 para denotar la media y la desviación estándar de la población original, (µ = 𝞂)
µ(X̅)=µ y 𝞂 (X̅)= 𝞂/√n para hacer referencia a la media y desviación estandar de las medias muestrales.
𝞂 (X̅) suele denominarse error estandard de la muestra.

Lo expresado aquí es cierto para poblaciones infinitas o muestras con reemplazo.

Para muestras sin reemplazo este teorema se hace cierto para muestras cuyo tamaño sea mayor que el 5% de la población. En este caso la formula del desvío estandard debe ajustarse por un factor de corrección que es √((N-n)/(N-1)). (Ver corrección para una población finita más adelante)

El teorema del límite central y la distribución muestral de medias X̅

Dado que:

1. La variable aleatoria x tiene una distribución (que puede o no ser normal) con media µ y desviación estándar 𝞂.

2. Todas las muestras aleatorias del mismo tamaño n se seleccionan de la población. (Las muestras se seleccionan de manera que todas las muestras posibles de tamaño n tengan la misma probabilidad de ser seleccionadas).

Es de esperar que:

1. Conforme el tamaño de la muestra aumenta, la distribución de las medias muestrales X̅ se aproximará a una distribución normal.

2. La media de todas las medias muestrales es la media poblacional µ. (Es decir, la distribución normal de la conclusión 1 tiene una media µ).

3. La desviación estándar de todas las medias muestrales es 𝞂/√n. (es decir, la distribución normal de la conclusión 1 tiene una desviación estándar 𝞂/√n)

Con las siguientes salvedades:

Si la población original no está distribuida normalmente,: para muestras de tamaño n mayores que 30, la distribución de las medias muestrales puede aproximarse razonablemente bien por medio de una distribución normal. (Existen excepciones, como las poblaciones con distribuciones muy diferentes a la normal, que requieren tamaños de muestra mucho más grandes que 30, aunque tales excepciones son relativamente raras). La aproximación mejora conforme el tamaño muestral n se incrementa.
Si la población original se distribuye normalmente, entonces las medias muestrales estarán distribuidas normalmente para cualquier tamaño de muestra n (no sólo los valores de n mayores que 30).

En otras palabras:

Si n > 30, entonces las medias muestrales tienen una distribución que se puede aproximar por medio de una distribución normal, con una media µ y una desviación estándar 𝞂/√n. (Éste es el lineamiento que suele utilizarse, independientemente de la distribución de la población original).
Si n <= 30 y la población original tiene una distribución normal, entonces las medias muestrales tienen una distribución normal con una media µ y una desviación estándar 𝞂/√n.
Si n <= 30, pero la población original no tiene una distribución normal, entonces no se aplican el teorema central de límite.

Corrección para una población finita

Al aplicar el teorema del límite central, el uso de 𝞂/√n. supone que la población tiene un número infinito de miembros. Cuando hacemos un muestreo con reemplazo (es decir, cada elemento seleccionado se reincorpora a la muestra antes de hacer la siguiente selección), la población es efectivamente infinita. Aunque muchas aplicaciones realistas implican un muestreo sin reemplazo, estas muestras sucesivas dependen de resultados previos. En la fabricación, los inspectores de control de calidad suelen muestrear elementos de un lote finito de producción, sin reemplazarlos Para una población finita como ésta tal vez necesitemos ajustar sx La siguiente es una regla práctica:.

Cuando realice un muestreo sin reemplazo y el tamaño de muestra n sea mayor que el 5% de la población finita de tamaño N (es decir, n > 0.05N), ajuste la desviación estándar de medias muestrales 𝞂 (X̅)= 𝞂/√n multiplicándola por el factor de corrección de población finita: √((N-n)/(N-1)).

Comprobación del teorema central del límite

En un jupiter noteook está hecha la comprobación del teorema central de límite.

Esta comprobación se realiza con los siguitentes pasos en dos pasadas:

I. En una pasada se trabaja con una poblacón de 50.000 números aleatorios con una distribución normal.

II. En una segunda pasada se trabaja con 1.000.000 de números aleatorios con una distribución normal.

El procedimiento de comprobación es el siguiente:

Se genera una pobalción aleatoria con numeros del 0 al 9.
Se toman muestras sobre la población de distintos tamaños.
Se comprueba que para tamaños un poco mayor que 30 la distribución de las muestras tiene una forma normal.

En la figura se observan las distribuciones muestrales de la media:

A la izquierda se ven las distribuciones de media de muestras tomadas sobre la población de 50.000 numeros.
A la derecha se ven las distribuciones de media de muestras tomadas sobre la población de 1.000.000 de números.

En los gráficos se muestran las distintas formas de la distribución de medias muestrales para distintos tamaños de más pequeñas a mas grandes. En terminos generales se observa para ambas poblaciones que:

En un extremo, para un muestra de tamaño igual a 1, el TCL no se cumple (requere muestra>=30. Además se ve que la distribución resultante es una uniforme discreta con una cantidad o frecuencia de repetición de cada media que es igual a la población dividido los numeros naturales considerados en la población.
En otro extremo, cuando la muestra es excesivamente grande tampoco se cumple el TCL. A medida que crese en demasía la curva empieza otra vez a deformarse y deja de tener una distribución normal. En el extremo que la muestra es igual a la población, se observará una unica barra porque habrá una unica media igual a la media de la población (Esto puede verse en el caso de 50K en donde se muestra el caso de la muestra tamaño 50K).
Cuando la muestra crece acercandose a 30 la curva empieza a tomar una forma normal, pero aún presenta peligros de confiabilidad o representatividad. En algún caso puede que la envolvente sea normal pero tenga discontinuidades notables (ceros en el caso de población 50K) o picos excesivos (como en el caso de 1MM) que pueden a inducir a errores groseros.
Cuando la muestra va creciendo de a poco por encima de 30 se van observando las formas de distribuicones normales más prolijas y por lo tanto más represntativos.
Para la población de 50K la forma de muestra de tamaño 100 es bastante buena.
Para la poblaicón de 1MM la forma de muestra de tamaño 50 es muy buena.
Cuanto mayor es la población más cerca de 30 puede estar el tamño de la muestra.

Si bien existe una demostración matemática de este teorema, esta demostración empirica parece interesante y queda compartida en mi github.

Concepto Clave

El TLC nos permite hacer inferencias sobre las características de una población utilizando muestras aleatorias. En términos simples, el teorema dice que si tienes una población con cualquier tipo de distribución (no necesariamente normal) y tomas muestras suficientemente grandes de esa población, la media de esas muestras se distribuirá aproximadamente de forma normal.

Implicaciones del Teorema del Límite Central

Aproximación Normal:
Incluso si la población original no es normal, la distribución de la media muestral se aproximará a una distribución normal para tamaños de muestra suficientemente grandes.
Error Estándar:
La desviación estándar de la distribución muestral de la media (σXˉ) es conocida como el error estándar de la media y se calcula como σXˉ=σ/√n
Inferencia Estadística:
El TLC nos permite utilizar técnicas basadas en la normalidad para realizar pruebas de hipótesis y construir intervalos de confianza, incluso cuando los datos no son perfectamente normales.

Ejemplo: Envíos de paquetes

Supongamos que queremos estudiar el peso promedio de los paquetes enviados por una empresa de mensajería. La distribución del peso de todos los paquetes puede tener una forma desconocida o ser sesgada. Sin embargo, si tomamos muestras suficientemente grandes de estos paquetes, la distribución de las medias muestrales de peso será aproximadamente normal.

Este ejemplo se encuentra desarrollado en python en un jupyter notebook y compartido en github.

Interpretación del Resultado

Histograma de las Medias Muestrales:
El histograma muestra la frecuencia de las medias muestrales calculadas a partir de 1000 muestras de tamaño 50 extraídas de la población exponencial.
Podemos observar una distribución aproximadamente normal centrada en la media poblacional.
Función de Densidad de Probabilidad Teórica (PDF):
La línea roja representa la PDF teórica de la distribución normal.
La superposición de la PDF teórica sobre el histograma muestra que la distribución muestral de medias sigue la forma esperada según el Teorema del Límite Central.

Conclusión

El Teorema del Límite Central es fundamental porque nos permite aplicar técnicas de inferencia estadística basadas en la normalidad, incluso cuando los datos no son perfectamente normales. Esto es crucial para realizar estimaciones, construir intervalos de confianza y realizar pruebas de hipótesis en una amplia variedad de contextos prácticos.

Otra vez, un fenómeno fascinante e intrigante de la estadística es el hecho de que al obtener muestras de cualquier distribución podamos crear una distribución de medias muestrales que es normal o al menos aproximadamente normal.

1/1