top of page

Distribución chi-cuadrado

Distribución Chi cuadrada

Distribución Chi-Cuadrado

Distribución Chi-Cuadrado

La distribución chi-cuadrado (χ²) es una distribución de probabilidad continua que surge con frecuencia en estadísticas inferenciales, especialmente en el análisis de varianza y en pruebas de hipótesis. 


Definición

La distribución chi-cuadrado se define como la distribución de la suma de los cuadrados de k variables aleatorias independientes que siguen una distribución normal estándar (media = 0, varianza = 1). Si Z1,Z2,…,Zk son variables aleatorias normales estándar, entonces la variable aleatoria:

X=∑Zi**2 

sigue una distribución chi-cuadrado con k grados de libertad. dónde los grados de libertad determinan la forma.


Grados de libertad (k o df): Determina la forma de la distribución. Cuantos más grados de libertad, más se asemeja la distribución a una distribución normal.

Propiedades:

  1. La distribución chi-cuadrado es no negativa: X≥0.

  2. La media de una distribución chi-cuadrado con k grados de libertad es k.

  3. La varianza de una distribución chi-cuadrado conk grados de libertad es 2k.

  4. La distribución chi-cuadrado es asimétrica hacia la derecha, pero con grados de libertad altos, se aproxima a una distribución normal.

Función de Densidad de Probabilidad (PDF)

La función de densidad de probabilidad de una distribución chi-cuadrado con k grados de libertad es:

f(x;k)=1/{2**k/2 Γ(k/2)} x**(k/2)−1 e−x/2

donde:

  • Γ es la función gamma.

  • k es el número de grados de libertad.

  • x es la variable aleatoria (y x≥0).


Aplicaciones

  1. Prueba de Bondad de Ajuste: La prueba chi-cuadrado se utiliza para determinar si una muestra de datos sigue una distribución esperada. Por ejemplo, para verificar si los datos observados siguen una distribución uniforme.

  2. Prueba de Independencia: Se utiliza en tablas de contingencia para evaluar si dos variables categóricas son independientes entre sí.

  3. Intervalos de Confianza para la Varianza: La distribución chi-cuadrado se utiliza para construir intervalos de confianza para la varianza de una población normalmente distribuida.

Intervalo de confianza con chi-cuadrado

Es posible construir el intervalo de confianza de la varianza, cuando no se conoce. Esto se logra con la utilización de la distribución chi-cuadrado a partir de la forma: 

χ2 =  (n-1) s**2 / 𝞂**2

donde:

df = n-1

Dado que la distribución chi cuadrada es sesgada y no simétrica, el intervalo de confianza no se ajusta al formato de s**2 = +-E y debemos hacer cálculos separados para los límites de confianza superior e inferior. De cualquier forma es el mismo cálculo solo que se toma cdf para la cola izquierda y 1-cdf para la cola derecha.

Es importante recordar aquí que estamos hablando de un intervalo de confianza para la varianza.

Las varianzas muestrales s2 tienden a coincidir con (o centrarse en) el valor de la varianza poblacional 𝞂2, por lo que decimos que s2 es un estimador sin sesgo de s2. Es decir, las varianzas muestrales s2 no tienden sistemáticamente a sobreestimar, ni tampoco tienden sistemáticamente a subestimar 𝞂2. En vez de ello, tienden a coincidir con el valor de la propia s2. Además, los valores de s2 tienden a producir errores más pequeños por estar más cercanos a s2 que otras medidas de variación sin sesgo. Por estas razones, generalmente se utiliza s2 para estimar s2. [Sin embargo, existen otros estimadores de s2 que po- drían considerarse mejores que s2. Por ejemplo, aun cuando (n   1)s2>(n   1) es unestimador sesgado de s2, tienela propiedad muydeseable de minimizar la media de los cuadrados de los errores y, por lo tanto, tiene una mayor probabilidad de acercarse a s2. 

La varianza muestral s2 es el mejor estimado puntual de la varianza poblacional 𝞂2.

Puesto que s2 es un estimador sin sesgo de s2, esperaríamos que s fuera un estimador sin sesgo de s, pero no es así. Sin embargo, si el tamaño muestral es grande, el sesgo es tan pequeño que podemos utilizar s como un estimado de s razonablemente bueno. Aunque s es un estimado sesgado, se usa con frecuencia como un estimado puntual de s.

La desviación estándar muestral s suele utilizarse como un estimado puntual de 𝞂 (aunque es un estimado sesgado).

Si bien s2 es el mejor estimado puntual de 𝞂2, no existe una indicación de qué tan bueno es en realidad. Para compensar esta deficiencia, desarrollamos un estimado de intervalo (o intervalo de confianza) que es más informativo.

Intervalo de confianza (o estimado  de intervalo) para la varianza poblacional 𝞂2

(n - 1)s2/ x2D < 𝞂2 < (n - 1)s2/ x2I

Esta expresión se utiliza para calcular un intervalo de confianza para la varianza 𝞂2, pero un intervalo de confianza (o un estimado de intervalo) para la desviación estándar 𝞂 se calcula tomando la raíz cuadrada de cada componente, como se indica en la figura.

Las notaciones x2D  y x2I en las expresiones anteriores se describen como sigue: Son los valores de la X2 de las colas izquierda (I) y derecha (D), respectivamente que corresponden a alpha o nivel de confianza buscado. (Observe que algunos otros libros de texto utilizan otras notaciones.


Tamaño de la Muestra

Queremos determinar el tamaño de muestra n necesario para que la estimación de la desviación estándar esté dentro de un cierto margen de error con una confianza específica. La fórmula para el intervalo de confianza de la varianza se puede reorganizar para resolver el tamaño de muestra requerido. Esto es análogo a lo que se hace para la estimación de otros parametros como la media o la proporción, sólo que en el caso de varianzas y desviación estandard el despeje de la formula es más complejo. Por suerte existen librerías de python que ayudan al calculo sin tanto trabajo.


Ejemplo

Supongamos que queremos evaluar si hay una relación entre el género (masculino o femenino) y la preferencia por un tipo de producto (A o B) en una tienda. Los datos observados se resumen en la siguiente tabla de contingencia. La tabla se ve en la figura correspondiente. 

                     Producto A      Producto B     Total

Masculino          30                      20               50

Femenino           25                      25               50

Total                     55                      45              100


Queremos usar la prueba chi-cuadrado para determinar si las preferencias de productos son independientes del género. Este ejemplo se calcula en python con un jupyter notebook compartido en github.

Estadístico Chi-cuadrado: 0.65 

P-valor: 0.4214 

Grados de Libertad: 1 Frecuencias Esperadas: [[27.5 22.5]  [27.5 22.5]]


Interpretación del Resultado

  1. Estadístico Chi-cuadrado:
    El valor del estadístico chi-cuadrado nos indica la magnitud de la discrepancia entre las frecuencias observadas y las esperadas bajo la hipótesis nula de independencia. El valor del estadístico chi-cuadrado puede ser considerado como "bajo" o "alto" en función de su comparación con un valor crítico específico de la distribución chi-cuadrado para un nivel de significancia (α\alpha) y un número de grados de libertad (kk). Para determinar si un valor del estadístico chi-cuadrado es bajo o alto, se compara con el valor crítico de la distribución chi-cuadrado correspondiente al nivel de significancia (α\alpha) y a los grados de libertad (kk). El valor crítico es el valor que marca la frontera entre la región de rechazo y la región de no rechazo de la hipótesis nula. El
    Estadístico Chi-cuadrado Observado: 0.65. Valor Crítico (para α=0.05 y k=1): 3.841. Dado que 0.65 < 3.841, el estadístico chi-cuadrado observado es bajo en comparación con el valor crítico.  Un valor del estadístico chi-cuadrado menor que el valor crítico indica que no hay suficiente evidencia para rechazar la hipótesis nula. En este caso, las frecuencias observadas no difieren significativamente de las frecuencias esperadas bajo la hipótesis de independencia.

  2. P-valor:
    El p-valor nos permite decidir si rechazamos o no la hipótesis nula. Si el p-valor es menor que el nivel de significancia (α), rechazamos la hipótesis nula.

  3. Grados de Libertad:
    En una tabla de contingencia m×n, los grados de libertad se calculan como (m−1)×(n−1).

  4. Frecuencias Esperadas:
    Las frecuencias esperadas son los valores que esperaríamos observar si las variables fueran independientes.

El estadístico chi-cuadrado de 0.65 es considerado bajo en comparación con el valor crítico de 3.841 para α=0.05 y 1 grado de libertad. Esto sugiere que no hay una diferencia significativa entre las frecuencias observadas y las esperadas, y por lo tanto, no hay evidencia suficiente para concluir que el género y la preferencia por el producto están asociados.

bottom of page