Cuestiones de Bondad
Aspectos a considerar en bondad de ajuste
Bondad de ajuste con Chi-Cuadrado
Prueba para categorías igualmente probables.
Las siguientes son las frecuencias observadas de tres categorías: 5, 5, 20.
Suponga que queremos utilizar un nivel de significancia de 0.05 para probar la aseveración de que las tres categorías son igualmente probables.
a. ¿Cuál es la hipótesis nula?
b. ¿Cuál es la frecuencia esperada para cada una de las tres categorías?
c. ¿Cuál es el valor del estadístico de prueba?
d. ¿Cuál es el valor crítico?
e. ¿Qué concluye usted acerca de la aseveración dada?
a. Hipótesis nula (H₀): La hipótesis nula establece que las tres categorías son igualmente probables. Esto implica que las proporciones teóricas para cada categoría son iguales.
H0: Las tres categorías tienen la misma probabilidad de ocurrir.
b. Frecuencia esperada para cada categoría:
Para encontrar la frecuencia esperada, sumamos las frecuencias observadas y las dividimos entre el número de categorías.
Frecuencias observadas: 5, 5, 20
Suma total: 5 + 5 + 20 = 30
Frecuencia esperada para cada categoría E: 30/3=10
Por lo tanto, la frecuencia esperada para cada categoría es 10.
c. Valor del estadístico de prueba:
El estadístico de prueba en una prueba de Chi-cuadrado se calcula utilizando la fórmula:
χ2=∑(Oi−Ei)²/Ei
Donde Oi son las frecuencias observadas y Ei son las frecuencias esperadas.
Categoría 1: O1=5, E1=10
Categoría 2: O2=5, E2=10
Categoría 3: O3=20, E3=10
Sustituyendo en la fórmula:
χ2=(5−10)²/10+(5−10)²/10+(20−10)²/10
χ2=(-5)²/10+(-5)²/10+10²
χ2=2.5+2.5+10=15
El valor del estadístico de prueba es χ2=15\chi^2 = 15χ2=15.
Los cálculos están compartidos en un jupyter notebook en github.
d. Valor crítico:
El valor crítico se obtiene de la distribución Chi-cuadrado, utilizando un nivel de significancia de α=0.05 y grados de libertad (df).
Grados de libertad: df=k−1, donde k es el número de categorías. En este caso, k=3, por lo que df=3−1=2.
Para df=2df = 2df=2 y α=0.05\alpha = 0.05α=0.05, el valor crítico de χ2\chi^2χ2 es aproximadamente 5.991.
e. Conclusión:
Comparando el estadístico de prueba χ2=15 con el valor crítico χcrit2=5.991:
Como 15 > 5.9911, es posible rechazar la hipotesis nula.
Existe suficiente evidencia para rechazar la aseveración de que las tres categorías son igualmente probables. Esto significa que las categorías no tienen la misma probabilidad.
Prueba para categorías con proporciones diferentes.
Las siguientes son las frecuencias observadas para cuatro categorías: 5, 10, 10, 20. Suponga que queremos utilizar un nivel de significancia de 0.05 para probar la aseveración de que las cuatro categorías tienen proporciones de 0.20, 0.25, 0.25 y 0.30, respectivamente.
a. ¿Cuál es la hipótesis nula?
b. ¿Cuáles son las frecuencias esperadas para las cuatro categorías?
c. ¿Cuál es el valor del estadístico de prueba?
d. ¿Cuál es el valor crítico?
e. ¿Qué concluye usted acerca de la aseveración dada?
a. Hipótesis nula (H₀):
La hipótesis nula establece que las proporciones observadas en las cuatro categorías siguen las proporciones teóricas dadas:
H0: Las proporciones de las categorías son 0.20, 0.25, 0.25 y 0.30.
b. Frecuencias esperadas para las cuatro categorías:
Para obtener las frecuencias esperadas, multiplicamos la proporción teórica de cada categoría por el total de las frecuencias observadas.
Frecuencias observadas: 5,10,10,20
Suma total: 5+10+10+20=455 + 10 + 10 + 20 = 45
Las frecuencias esperadas E se calculan así:
Para la primera categoría (p=0.20p = 0.20p=0.20): E1=0.20×45=9
Para la segunda categoría (p=0.25p = 0.25p=0.25): E2=0.25×45=11.25
Para la tercera categoría (p=0.25p = 0.25p=0.25): E3=0.25×45=11.25
Para la cuarta categoría (p=0.30p = 0.30p=0.30): E4=0.30×45=13.5
c. Valor del estadístico de prueba:
El estadístico de prueba se calcula usando la fórmula del Chi-cuadrado:
χ2=∑(Oi−Ei)² / Ei
Donde Oi son las frecuencias observadas y Ei son las frecuencias esperadas.
Sustituyendo los valores:
Categoría 1: O1=5, E1=9
Categoría 2: O2=10, E2=11.25
Categoría 3: O3=10, E3=11.25
Categoría 4: O4=20, E4=13.5
El valor del estadístico de prueba es χ2≈5.19.
Los cáclulos están hechos con python en jupyter notebook y compartidos en github.
d. Valor crítico:
El valor crítico se obtiene de la tabla Chi-cuadrado, con un nivel de significancia de α=0.05 y grados de libertad df=k−1.
Grados de libertad: df=4−1=3.
Para df=3 y α=0.05, el valor crítico de χ2 es aproximadamente 7.815.
e. Conclusión:
Comparando el estadístico de prueba χ2=5.19 con el valor crítico χcrit2=7.815, se observa que:
Como 5.19 < 7.815, no rechazamos la hipótesis nula.
No hay suficiente evidencia para rechazar la aseveración de que las cuatro categorías tienen las proporciones 0.20, 0.25, 0.25 y 0.30. Esto significa que las proporciones observadas son consistentes con las proporciones teóricas dadas.
Muertes por choques de automóviles.
Se seleccion al azar muertes por choques de automóviles y los resultados se incluyen en la siguiente tabla (según datos del Insurance Institute for Highway Safety). Utilice un nivel de significancia de 0.05 para probar la aseveración de que las muertes por choques de
automóviles ocurren con la misma frecuencia en los diferentes días de la semana.
¿Cómo se explicarían los resultados?
¿Por qué parece haber un número excepcionalmente grande de muertes por
choques de automóviles los sábados?
Día Dom Lun Mar Mié Jue Vie Sáb
Número de muertes 132 98 95 98 105 133 158
a. Hipótesis:
Hipótesis nula (H₀): Las muertes por choques de automóviles ocurren con la misma frecuencia en cada día de la semana.
Hipótesis alternativa (H₁): Las muertes por choques de automóviles no ocurren con la misma frecuencia en cada día de la semana.
b. Frecuencias Esperadas:
Para que las muertes ocurran con la misma frecuencia, calculamos la frecuencia esperada para cada día de la semana. Suma las muertes observadas y divídela por 7 (el número de días de la semana).
Suma total de muertes:
13 2+ 98 + 95 + 98 +105 + 133 + 158 = 819
Frecuencia esperada para cada día:
819 / 7≈117
Entonces, la frecuencia esperada para cada día es 117 muertes.
c. Valor del estadístico de prueba:
El estadístico de prueba Chi-cuadrado se calcula utilizando la fórmula correspondiente y utilizando python en jupyter notebook. Esto se comparte en github.
Domingo: O1=132, E1=117
Lunes: O2=98, E2=117
Martes: O3=95, E3=117
Miércoles: O4=98, E4=117
Jueves: O5=105, E5=117
Viernes: O6=133, E6=117
Sábado: O7=158, E7=117
d. Valor crítico:
Para df=6 y α=0.05, el valor crítico de χ2 es aproximadamente 12.592.
e. Conclusión:
Comparando el valor del estadístico de prueba χ2=30.014 con el valor crítico 12.592 y como 30.014 > 12.592, rechazamos la hipótesis nula.
Hay suficiente evidencia para concluir que las muertes por choques de automóviles no ocurren con la misma frecuencia en todos los días de la semana.
f. Interpretación adicional:
El número excepcionalmente alto de muertes por choques de automóviles los sábados podría explicarse por varios factores:
Mayor número de conductores: Es probable que los sábados haya más personas en la carretera debido a actividades recreativas y sociales.
Consumo de alcohol: Los fines de semana, y especialmente los sábados, pueden estar asociados con un mayor consumo de alcohol, lo que podría aumentar el número de accidentes.
Fatiga o distracción: Es posible que las personas estén más relajadas o distraídas al conducir durante el fin de semana, lo que aumenta el riesgo de accidentes.
En resumen, los sábados muestran un número significativamente mayor de muertes, lo cual podría estar relacionado con comportamientos de riesgo más altos en comparación con otros días.
Prueba de bondad de ajuste con una distribución normal.
La distribución de frecuencias observada de una muestra de puntuaciones de CI es la siguiente:
Puntuación Menor que Mayor que
de CI 80 80–95 96–110 111–120 120
Frecuencia 20 20 80 40 40
a. Suponga una distribución normal con m=100 y s=15 para calcular la probabilidad de que un sujeto seleccionado al azar pertenezca a cada clase. (Utilice fronteras de clase de 79.5, 95.5, 110.5 y 120.5).
b. Utilice las probabilidades calculadas del inciso a) y calcule la frecuencia esperada para cada categoría.
c. Utilice un nivel de significancia de 0.01 para probar la aseveración de que las puntuaciones de CI fueron seleccionadas al azar de una población distribuida normalmente con m=100 y s=15.
a. Cálculo de probabilidades (Inciso a)
Para cada categoría, debemos calcular la probabilidad de que un sujeto seleccionado al azar pertenezca a esa categoría, asumiendo que las puntuaciones de CI siguen una distribución normal N(100,15)
Las fronteras de clase se proporcionan como:
Para "Menor que 80": frontera de clase es 79.5
Para "80-95": fronteras de clase son 79.5 y 95.5
Para "96-110": fronteras de clase son 95.5 y 110.5
Para "111-120": fronteras de clase son 110.5 y 120.5
Para "Mayor que 120": frontera de clase es 120.5
# Fronteras de clase
# Calculos hechos y compartidos en jupyter notebook en github
class_boundaries = [79.5, 95.5, 110.5, 120.5]
b. Cálculo de frecuencias esperadas (Inciso b)
Con las probabilidades obtenidas, multiplicaremos el tamaño total de la muestra (200 sujetos) por las probabilidades para obtener las frecuencias esperadas.
# Parámetros de la distribución normal
mu = 100
sigma = 15
Probabilidades acumuladas: Calculamos las probabilidades para cada clase utilizando la función de distribución acumulada de la normal estándar stats.norm.cdf()
.
# Probabilidades acumuladas para cada frontera (distribución normal estándar)
prob_less_80 = stats.norm.cdf(79.5, mu, sigma)
prob_80_95 = stats.norm.cdf(95.5, mu, sigma) - prob_less_80
prob_96_110 = stats.norm.cdf(110.5, mu, sigma) - stats.norm.cdf(95.5, mu, sigma)
prob_111_120 = stats.norm.cdf(120.5, mu, sigma) - stats.norm.cdf(110.5, mu, sigma)
prob_greater_120 = 1 - stats.norm.cdf(120.5, mu, sigma)
# Probabilidades para cada clase
probabilities = np.array([prob_less_80, prob_80_95, prob_96_110, prob_111_120, prob_greater_120])
Frecuencias esperadas: Multiplicamos las probabilidades obtenidas por el tamaño total de la muestra n=200n = 200n=200 para obtener las frecuencias esperadas.
# Tamaño de la muestra
n = np.sum(observed)
# Probabilidades para cada clase
probabilities = np.array([prob_less_80, prob_80_95, prob_96_110, prob_111_120, prob_greater_120])
Prueba de bondad de ajuste Chi-cuadrado (Inciso c)
Utilizamos un nivel de significancia de α=0.01 para realizar la prueba de bondad de ajuste, comparando las frecuencias observadas con las esperadas.
Prueba Chi-cuadrado: Calculamos el estadístico de prueba χ2 utilizando stats.chisquare()
y lo comparamos con el valor crítico obtenido de la distribución χ2 para un nivel de significancia de 0.01.
Resultados esperados:
Estadístico de prueba Chi-cuadrado: Aproximadamente 13.29.
Valor p: En este caso, si el valor p es mayor que 0.01, no se rechaza la hipótesis nula y se concluye que las puntuaciones de CI siguen una distribución normal.