Distribución de Estadísticos
Distribución de las media, proporciones, chi2, t-student, varianzas, correlación

Distribuciones Muestrales
Distribuciones y estimadores muestrales
En estadística, resulta útil acostumbrarse a interpretar tanto las distribuciones muestrales de una variable como la distribución muestral de los estadísticos de las muestras.
Estudiar los estadísticos de las muestras implica estudiar el comportamiento de todas, o al menos más de una muestra de una población.
Definamos entonces, en primer lugar, de que hablamos cuando hablamos de distribuciones muestrales de estadísticos.
Distribución muestral de un estadístico
La distribución muestral de un estadístico (como una proporción muestral o una media muestral) es la distribución de todos los valores del estadístico cuando se obtienen todas las muestras posibles del mismo tamaño n de la misma población.
Una distribución muestral es la distribución de un estadístico (como la media, varianza, proporción, etc.) calculado a partir de todas las posibles muestras de un tamaño dado de una población.
Conceptos clave en distribuciones muestrales
Estadístico:
Un estadístico es una medida calculada a partir de los datos de una muestra. Ejemplos comunes incluyen la media muestral, la desviación estándar muestral y la proporción muestral.Distribución Muestral:
La distribución muestral describe la distribución de un estadístico basado en todas las posibles muestras de un tamaño específico extraídas de una población.Teorema del Límite Central:
Este teorema establece que, para un tamaño de muestra suficientemente grande, la distribución muestral de la media muestral se aproxima a una distribución normal, independientemente de la distribución original de la población. Esto es clave para muchas técnicas de inferencia estadística.
Valor de un estadístico y variabilidad de muestreo
El valor de un estadístico, como la media muestral x, depende de los valores particulares incluidos en la muestra y generalmente varía de una mues- tra a otra. Esta variabilidad de un estadístico se denomina variabilidad de muestreo.
En función de la menor o mayor variabilidad de muestreo es la calidad de un estadístico. La experiencia estadística nos dice en este sentido que:
Estadísticos que coinciden con los parámetros poblacionales: media, varianza, proporción
Estadísticos que no coinciden con los parámetros poblacionales: mediana, rango, desviación estándar
Distribuciones muestrales frecuentes
En el cuadro correspondiente pueden verse los estadísticos y las características principales de las distribuciones muestrales frecuentemente utilizadas.
La distribución muestral de un estadístico generalmente se representa como la distribución de probabilidad en el formato de tabla, histograma de probabilidad o fórmula.
Las distribuciones muestrales más comunes y sobre las que conviene reflexionar son:
Distribución muestral de la proporciónes,
Distribución muestral de la medias,
Distribución muestral de diferencias de medias muestrales
Distribución muestral de varianzas
Distribución muestral de coeficientes de correlación
Distribución muestral de estadisticos t-Student
Distribución muestral de chi-2 (chi cuadrado)
Estas son 7 distribuciones de uso frecuente en estudios estadística. El orden no importa pero si importa recordar de que se trata cada una, cosa que se resume a continuación. Y en otros apartados se analizan las distribuciones muestrales en mayor profundidad.
1. Distribución Muestral de la Media
La distribución muestral de la media es la distribución de medias muestrales, donde todas las medias tienen el mismo tamaño muestral n y se obtienen de la misma población.
La distribución muestral de la media generalmentese representa como una distribución de probabilidad en formato de tabla, histograma de probabilidad o fórmula.
Ejemplo
Supongamos que tenemos una población con una distribución uniforme y queremos estudiar la distribución muestral de la media muestral.
Observe la figura correspondiente. Y si lo desea consulte el desarrollo en python que está en jupyter notebook compartido en github.
Interpretación del Resultado
Histograma de las Medias Muestrales:
El histograma muestra la frecuencia de las medias muestrales calculadas a partir de 1000 muestras de tamaño 30 extraídas de la población uniforme.
Podemos observar que la distribución muestral de la media se aproxima a una distribución normal, gracias al teorema del límite central.Función de Densidad de Probabilidad Teórica:
La línea roja representa la PDF teórica de la distribución normal que se espera según el teorema del límite central.
La superposición de la PDF teórica sobre el histograma muestra que la distribución muestral de la media sigue aproximadamente una distribución normal.
2. Distribución Muestral de Proporciones
La distribución muestral de la proporciónes es la distribución de probabilidad de proporciones muestrales, donde todas las muestras tienen el mismo tamaño muestral n y provienen de la misma población.
Ejemplo
Supongamos que estamos interesados en estimar la proporción de personas en una ciudad que prefieren el transporte público sobre el transporte privado. Sabemos que en la población general, aproximadamente el 60% de las personas prefieren el transporte público. Queremos estudiar la distribución muestral de la proporción utilizando muestras de tamaño n=100.
Observe la figura correspondiente. Y si lo desea consulte el desarrollo en python que está en jupyter notebook compartido en github.
Interpretación del Resultado
Histograma de las Proporciones Muestrales:
El histograma muestra la frecuencia de las proporciones muestrales calculadas a partir de 1000 muestras de tamaño 100 extraídas de la población.
Podemos observar que la distribución muestral de la proporción se aproxima a una distribución normal, debido al teorema del límite central.Función de Densidad de Probabilidad Teórica:
La línea roja representa la PDF teórica de la distribución normal que se espera según el teorema del límite central.
La superposición de la PDF teórica sobre el histograma muestra que la distribución muestral de la proporción sigue aproximadamente una distribución normal.
3. Distribución muestral de varianzas
La distribuición muestral de varianzas describe cómo varían las varianzas muestrales cuando se extraen múltiples muestras de una población. Es particularmente importante en inferencia estadística, ya que nos permite hacer estimaciones sobre la variabilidad en la población a partir de muestras.
Ejemplo
Supongamos que tenemos una población normalmente distribuida con una media 𝜇 = 50 y una desviación estándar 𝜎 = 10. Queremos estudiar la distribución muestral de la varianza utilizando muestras de tamaño 𝑛 = 30.
Observe la figura correspondiente. Y si lo desea consulte el desarrollo en python que está en jupyter notebook compartido en github.
Interpretación del Resultado
Histograma de las Varianzas Muestrales:
El histograma muestra la frecuencia de las varianzas muestrales calculadas a partir de 1000 muestras de tamaño 30 extraídas de la población.
Podemos observar la distribución muestral de las varianzas que sigue aproximadamente una distribución χ2 escalada.Función de Densidad de Probabilidad Teórica (PDF):
La línea roja ahora representa correctamente la PDF teórica de la distribución χ2 con grados de libertad igual a n−1 y escalada por σ2.
La superposición de la PDF teórica sobre el histograma muestra que la distribución muestral de las varianzas sigue la forma esperada según la distribución χ2.
4. Distribución Muestral de Diferencia de Medias Muestrales
La distribución muestral de la diferencia de medias muestrales describe la distribución de la diferencia entre las medias de dos muestras independientes tomadas de dos poblaciones. Es útil para comparar medias de dos grupos y evaluar si existe una diferencia significativa entre ellas.
Ejemplo
Supongamos que queremos comparar las alturas de hombres y mujeres en una población. Vamos a generar datos de dos poblaciones normalmente distribuidas y estudiar la distribución muestral de la diferencia de medias muestrales.
Alturas de Hombres: Media μ1 = 175 cm, Desviación estándar σ1 = 10 cm
Alturas de Mujeres: Media μ2 = 165 cm, Desviación estándar σ2 = 8 cm
Queremos estudiar la distribución muestral de la diferencia de medias utilizando muestras de tamaño n=50 para ambos grupos.
Observe la figura correspondiente. Y si lo desea consulte el desarrollo en python que está en jupyter notebook compartido en github.
Interpretación del Resultado
Histograma de las Diferencias de Medias Muestrales:
El histograma muestra la frecuencia de las diferencias de medias muestrales calculadas a partir de 1000 muestras de tamaño 50 extraídas de las poblaciones de hombres y mujeres.
Podemos observar que la distribución muestral de la diferencia de medias sigue aproximadamente una distribución normal.Función de Densidad de Probabilidad Teórica (PDF):
La línea roja representa la PDF teórica de la distribución normal de la diferencia de medias muestrales.
La superposición de la PDF teórica sobre el histograma muestra que la distribución muestral de la diferencia de medias sigue la forma esperada según la distribución normal.
5. Distribución Muestral del Coeficiente de Correlación de Pearson
El coeficiente de correlación de Pearson (𝑟) mide la fuerza y dirección de la relación lineal entre dos variables. Vamos a generar datos para dos variables normalmente distribuidas, calcular el coeficiente de correlación de Pearson para múltiples muestras, y graficar la distribución muestral de este estadístico.
Ejemplo
Supongamos que tenemos dos variables, 𝑋 y 𝑌, con una correlación poblacional 𝜌=0.5.
Generamos datos para 𝑋 y 𝑌 con medias 𝜇𝑋=0 y 𝜇𝑌=0, y desviaciones estándar 𝜎𝑋=1 y 𝜎𝑌=1.
Observe la figura correspondiente. Y si lo desea consulte el desarrollo en python que está en jupyter notebook compartido en github.
Interpretación del Resultado
El histograma muestra la frecuencia de los coeficientes de correlación muestrales calculados a partir de 1000 muestras de tamaño 30 extraídas de las poblaciones de
𝑋 y 𝑌.
Podemos observar la distribución muestral del coeficiente de correlación, que se centra alrededor de la correlación poblacional
𝜌=0.5.
6. Distribución muestral del estadístico t-Student
La distribución t de Student se utiliza comúnmente cuando se comparan medias muestrales y la desviación estándar poblacional es desconocida. Vamos a aplicar la distribución t de Student para comparar las medias de dos muestras y determinar si existe una diferencia significativa entre ellas.
Ejemplo:
Supongamos que estamos investigando si una nueva técnica de estudio mejora los puntajes de los estudiantes en comparación con una técnica tradicional. Tomamos dos muestras independientes:
Grupo A (técnica tradicional):
n1 = 30,
media muestral Xˉ1 = 75,
desviación estándar muestral s1 = 10.
Grupo B (nueva técnica):
n2 = 30,
media muestral Xˉ2=80,
desviación estándar muestral s2 = 12
Observe la figura correspondiente. Y si lo desea consulte el desarrollo en python que está en jupyter notebook compartido en github.
Interpretación del Resultado
Cálculo del Estadístico t:
El estadístico t se calcula utilizando la diferencia de las medias muestrales, la desviación estándar combinada (pooled standard deviation) y los tamaños de las muestras.
En este ejemplo, el estadístico t es aproximadamente -1.74, lo cual indica cuántas desviaciones estándar combinadas está la diferencia de medias de cero.Gráfico de la Distribución t de Student:
La curva azul representa la distribución t de Student con los grados de libertad calculados.
La línea vertical roja muestra la ubicación del estadístico t calculado.
7. Distribución muestral de χ2 (chi-cuadrado)
χ2 está diseñada específicamente para evaluar la independencia o asociación entre dos variables categóricas en tablas de contingencia. En el ejemplo que se comparte aquí, las variables son los tipos de sangre y las regiones. La prueba χ2 nos permite comparar las frecuencias observadas de cada categoría con las frecuencias esperadas bajo la hipótesis nula de que no hay asociación entre las variables.
La distribución muestral de la media es más adecuada para comparar medias de datos continuos, no categóricos. Si quisiéramos comparar las medias de dos grupos (por ejemplo, alturas o puntuaciones de un examen), entonces usaríamos la distribución muestral de la media o una prueba t de Student.
Ejemplo:
Supongamos que estamos investigando si hay una diferencia significativa en la distribución de tipos de sangre entre dos regiones diferentes. Queremos comparar las frecuencias observadas de cada tipo de sangre (A, B, AB y O) en ambas regiones y ver si las diferencias son significativas.
Datos:
Región 1: Se han registrado 100 personas con las siguientes distribuciones de tipos de sangre:
A: 40
B: 30
AB: 10
O: 20Región 2: Se han registrado 120 personas con las siguientes distribuciones de tipos de sangre:
A: 50
B: 35
AB: 5
O: 30
Queremos aplicar la prueba χ2 para ver si hay una diferencia significativa en la distribución de tipos de sangre entre estas dos regiones.
Observe la figura correspondiente. Y si lo desea consulte el desarrollo en python que está en jupyter notebook compartido en github.
Interpretación del Resultado
Cálculo del Estadístico χ2:
El estadístico χ2 se calcula utilizando las frecuencias observadas y esperadas para cada tipo de sangre en ambas regiones.
En este ejemplo, el estadístico χ2 es aproximadamente 3.37.Valor p:
El valor p nos dice la probabilidad de obtener un valor χ2 al menos tan extremo como el observado, bajo la hipótesis nula de que no hay diferencia en la distribución de tipos de sangre entre las dos regiones.
En este caso, el valor p es aproximadamente 0.3377.Gráfico de la Distribución χ2:
La curva azul representa la distribución χ2 con los grados de libertad calculados (en este caso, 3).
La línea vertical roja muestra la ubicación del estadístico χ2 calculado.
La prueba χ2 nos permite determinar si las diferencias observadas en la distribución de tipos de sangre entre las dos regiones son estadísticamente significativas.
En este caso, con un valor p de aproximadamente 0.3377, no rechazamos la hipótesis nula al nivel de significancia común (por ejemplo, 0.05).
Esto significa que no hay evidencia suficiente para afirmar que hay una diferencia significativa en la distribución de tipos de sangre entre las dos regiones.
Este análisis proporciona una base sólida para aplicar pruebas de hipótesis y realizar otras técnicas de inferencia estadística, confirmando la distribución de tipos de sangre en diferentes regiones.



