Tablas de contingencia
Relación entre variables categóricas
Tablas de contingencia
Las tablas de contingencia son una herramienta fundamental en estadística que se utiliza para organizar y resumir datos categóricos o cualitativos, mostrando la relación entre dos o más variables. Estas tablas permiten analizar la asociación, independencia o dependencia entre categorías de distintas variables.
Definición
Una tabla de contingencia (también llamada **tabla de frecuencia cruzada** o **tabla de doble entrada**) muestra la frecuencia con la que ocurren combinaciones específicas de dos o más variables categóricas. Cada celda de la tabla contiene la frecuencia (o número de ocurrencias) de las combinaciones de niveles de las variables que estamos estudiando.
Ejemplo:
Dada una muestra de 100 personas, y se quiere visualizar analizar la relación entre dos variables: sexo (masculino o femenino) y preferencia por un tipo de deporte (fútbol o baloncesto). Una tabla representativa de esta situación puede verse en la figura y se explica a continuación:
Columnas: Representan los niveles de una variable categórica (en este caso, la preferencia deportiva).
Filas: Representan los niveles de otra variable categórica (en este caso, el sexo).
Celdas: Contienen las frecuencias absolutas, es decir, el número de veces que ocurre cada combinación.
Tipos de frecuencias en una tabla de contingencia
Frecuencia absoluta: Número de veces que ocurre una combinación de las variables (por ejemplo, 30 hombres prefieren fútbol).
Frecuencia marginal: Totales de filas y columnas, que muestran la suma de las frecuencias absolutas para cada nivel de una variable (por ejemplo, 40 hombres en total, y 50 personas prefieren fútbol).
Frecuencia relativa: Proporción de observaciones que caen en una celda particular con respecto al total de la muestra. Se calcula dividiendo la frecuencia absoluta entre el total.
Frecuencia conjunta: Es la frecuencia de una celda específica (combinación de variables) dividida por el total de observaciones.
Tipos de tablas de contingencia
Tablas de 2x2: Son las más simples, con dos variables categóricas, cada una con dos niveles (como en el ejemplo anterior).
Tablas más grandes: Pueden tener más de dos categorías o incluir más variables. Por ejemplo, una tabla de 3x3 o más, o con más de dos variables en juego.
Utilidad
Las tablas de contingencia son útiles para examinar la relación entre variables categóricas como también la bondad de ajuste de modelos estadísticos. Algunos de los análisis más comunes incluyen:
1. Pruebas de independencia (Prueba Chi-cuadrado):
También conocidas como pruegas de independiencia. Se utiliza para determinar si existe o no una asociación significativa entre las dos variables categóricas.
La hipótesis nula (H0) es que las variables son independientes, es decir, que no existe relación entre ellas.
2. Cálculo de probabilidades conjuntas y condicionales:
Se utilizan tablas de contingencia para calcular la probabilidad de que una observación pertenezca a una categoría dada otra categoría.
Ejemplo: La probabilidad de que una persona prefiera fútbol dado que es masculina.
3. Razones de probabilidad y odds ratios:
También conocidas como pruebas de homogeneidad.
Muy útil en estudios epidemiológicos, donde las tablas de contingencia permiten calcular medidas como el **odds ratio** para evaluar la relación entre una exposición y un resultado (como en estudios de casos y controles).
Prueba de independencia Chi-cuadrado para tablas de contingencia
Una de las aplicaciones más comunes de las tablas de contingencia es realizar una **prueba χ2** para determinar si las variables categoricas están relacionadas o son independientes. Esta prueba compara las frecuencias observadas con las frecuencias que esperaríamos si las variables fueran independientes.
La fórmula para el estadístico Chi-cuadrado χ2 se ve en la figura y en el apartado de indicadores de bondad.
Si el valor de χ2 es grande, podemos rechazar la hipótesis nula de independencia, sugiriendo que hay una relación entre las variables.
Ejemplo de preferencias deportivas:
Supongamos que queremos evaluar si existe una relación significativa entre el sexo y la preferencia deportiva. Usamos la tabla anterior y aplicamos la prueba Chi-cuadrado. Si el resultado del χ2 es significativo (por ejemplo, p < 0.05), entonces concluimos que la preferencia deportiva está relacionada con el sexo de la persona.
Ventajas
Simplicidad: Las tablas de contingencia permiten organizar los datos de manera clara y comprensible.
Flexibilidad: Pueden ser utilizadas para realizar múltiples análisis estadísticos, desde la prueba de independencia hasta cálculos de probabilidades.
Herramienta exploratoria: Son una excelente forma de explorar relaciones en datos categóricos antes de aplicar métodos más complejos.
Limitaciones
Tamaño de la tabla: Para variables con muchos niveles o múltiples variables, las tablas pueden volverse grandes y difíciles de interpretar.
Datos pequeños: Cuando las frecuencias son muy bajas (especialmente menos de 5 en algunas celdas), las pruebas basadas en la Chi-cuadrado pueden no ser fiables, y se recomienda usar correcciones o pruebas alternativas como la **prueba exacta de Fisher**.
Interpretación del ejemplo de las preferencias deportivas:
Resultados de la prueba Chi-cuadrado:
Chi-cuadrado: 15.041666666666668
P-valor: 0.00010516355403363114
Grados de libertad: 1
Frecuencias esperadas: [[30. 30.] [20. 20.]]
1. Tabla de contingencia:
La tabla de contingencia refleja la distribución de la muestra de 100 personas con respecto a las dos variables categóricas: **sexo** y **preferencia deportiva** (fútbol o baloncesto).
Los datos observados muestran que:
**30 hombres** prefieren fútbol y **10 hombres** prefieren baloncesto.
**20 mujeres** prefieren fútbol y **40 mujeres** prefieren baloncesto.
Esto sugiere inicialmente que más hombres prefieren fútbol y más mujeres prefieren baloncesto, pero necesitamos una prueba estadística para evaluar si esta diferencia es significativa.
2. Prueba Chi-cuadrado:
El **valor deχ2** calculado es **15.04**, lo que indica la magnitud de la desviación entre las frecuencias observadas y las esperadas bajo la hipótesis nula de independencia. Si no existiera diferencia entre los valores esperados y los observados, entonces el valor de χ2 sería cero. Si χ2 fuera igual a cero entonces la hipótesis nula de que son independientes sería cierta. Pero 15.04 se un valor muy lejano a cero.
El **p-valor** resultante es **0.0001**, mucho menor que el umbral común de significancia de 0.05. Esto nos permite **rechazar la hipótesis nula**, que establece que no existe relación entre el sexo y la preferencia deportiva.
Los **grados de libertad** son 1, ya que cada variable tiene 2 niveles.
Las **frecuencias esperadas** asumen que no hay relación entre las variables:
Para las mujeres, se esperarían 30 personas en cada categoría (fútbol y baloncesto).
Para los hombres, se esperarían también 20 personas en cada categoría.
Sin embargo, las frecuencias observadas difieren notablemente de las esperadas, lo que sugiere una **asociación significativa** entre el sexo y la preferencia deportiva.
3. Mapa de calor:
El gráfico muestra de manera visual las frecuencias observadas para cada combinación de sexo y preferencia deportiva.
Los valores en cada celda corresponden a las frecuencias absolutas: el número de personas en cada categoría.
El color azul más oscuro indica frecuencias más altas. En este caso, las **mujeres que prefieren baloncesto** (40) es el grupo más numeroso, seguido de los **hombres que prefieren fútbol** (30).
La diferencia visual es evidente: hay una clara tendencia de **los hombres hacia el fútbol** y **las mujeres hacia el baloncesto**, lo que refuerza la interpretación de los resultados de la prueba estadística.
Resumen:
La prueba Chi-cuadrado y el mapa de calor nos permiten concluir que **existe una relación significativa entre el sexo y la preferencia por deportes** en esta muestra. En términos más simples, las preferencias deportivas no son independientes del sexo: los hombres tienden a preferir el fútbol, mientras que las mujeres muestran una mayor preferencia por el baloncesto.
Ejemplo de conductores de motocicleta:
Los datos de la tabla corresponden a un estudio retrospectivo (o de casos y controles). La variable de renglón tiene dos categorías: controles y casos. Los sujetos del grupo de control eran motociclistas elegidos al azar en ciertos lugares de la carretera. Los sujetos del grupo de casos eran motociclistas gravemente heridos o fallecidos. La variable de columna se utiliza para el color del casco que usaban. La pregunta importante es la siguiente: ¿El color del casco del motociclista se relaciona de alguna forma con el riesgo de lesiones relacionadas con choques? (Los datos se basan en “Motorcycle Rider Conspicuity and Crash Related Injury: Case-Control Study”, de Wells et al., BMJ USA, vol. 4).
Los calculos están hechos en python en jupyter notebook y están compartidos en github.
Prueba Chi-cuadrado: Utilizando una prueba de Chi-cuadrado, se comparan las frecuencias observadas con las esperadas para ver si las diferencias entre los grupos son significativas.El estadístico Chi-cuadrado calculado y el valor p indican si las diferencias entre las frecuencias de cada tipo de casco son lo suficientemente grandes como para no ser atribuidas al azar.
Si el valor p es menor que el nivel de significancia (por ejemplo, 0.05), rechazamos la hipótesis nula, lo que sugiere que sí hay una relación entre el color del casco y el riesgo de lesiones.
b. Interpretación:
Casco Claro: Parece que los motociclistas que usan cascos claros tienen menos probabilidades de estar involucrados en accidentes graves o fatales (dado que la frecuencia en el grupo "Casos" es menor). Esto sugiere que el uso de cascos claros puede estar asociado con una mayor visibilidad, lo que podría reducir el riesgo de lesiones graves.
Casco Oscuro: El mayor número de "Casos" usando cascos oscuros sugiere una posible relación entre el uso de cascos oscuros y un mayor riesgo de accidentes graves o fatales. Los cascos oscuros pueden hacer a los motociclistas menos visibles para otros conductores, aumentando el riesgo.
Otros colores: Las diferencias no parecen tan significativas para esta categoría.
c. Conclusión:
La prueba estadística muestra que hay una relación significativa entre el color del casco y el riesgo de lesiones. Específicamente, el uso de cascos claros podría estar asociado con una mayor seguridad, mientras que el uso de cascos oscuros podría estar relacionado con un mayor riesgo de lesiones graves o fatales en accidentes de motocicleta.
Recomendación: En función de estos resultados, se podría recomendar a los motociclistas utilizar cascos claros para mejorar su visibilidad y reducir el riesgo de accidentes graves.
Conclusión
Las tablas de contingencia son una herramienta estadística fundamental para el análisis de relaciones entre variables categóricas. Junto con la prueba de Chi-cuadrado, permiten analizar la independencia entre variables y calcular probabilidades condicionales y conjuntas. Son ampliamente utilizadas en campos como las ciencias sociales, epidemiología y marketing, proporcionando una manera visual y cuantitativa de explorar datos categóricos.