Tablas de contingencia
Relación entre variables categóricas
Tablas de contingencia
Las tablas de contingencia son una herramienta fundamental en estadística que se utiliza para organizar y resumir datos categóricos o cualitativos, mostrando la relación entre dos o más variables. Estas tablas permiten analizar la asociación, independencia o dependencia entre categorías de distintas variables.
Definición
Una tabla de contingencia (también llamada **tabla de frecuencia cruzada** o **tabla de doble entrada**) muestra la frecuencia con la que ocurren combinaciones específicas de dos o más variables categóricas. Cada celda de la tabla contiene la frecuencia (o número de ocurrencias) de las combinaciones de niveles de las variables que estamos estudiando.
Ejemplo:
Dada una muestra de 100 personas, y se quiere visualizar analizar la relación entre dos variables: sexo (masculino o femenino) y preferencia por un tipo de deporte (fútbol o baloncesto). Una tabla representativa de esta situación puede verse en la figura y se explica a continuación:
Columnas: Representan los niveles de una variable categórica (en este caso, la preferencia deportiva).
Filas: Representan los niveles de otra variable categórica (en este caso, el sexo).
Celdas: Contienen las frecuencias absolutas, es decir, el número de veces que ocurre cada combinación.
Tipos de frecuencias en una tabla de contingencia
Frecuencia absoluta: Número de veces que ocurre una combinación de las variables (por ejemplo, 30 hombres prefieren fútbol).
Frecuencia marginal: Totales de filas y columnas, que muestran la suma de las frecuencias absolutas para cada nivel de una variable (por ejemplo, 40 hombres en total, y 50 personas prefieren fútbol).
Frecuencia relativa: Proporción de observaciones que caen en una celda particular con respecto al total de la muestra. Se calcula dividiendo la frecuencia absoluta entre el total.
Frecuencia conjunta: Es la frecuencia de una celda específica (combinación de variables) dividida por el total de observaciones.
Tipos de tablas de contingencia
Tablas de 2x2: Son las más simples, con dos variables categóricas, cada una con dos niveles (como en el ejemplo anterior).
Tablas más grandes: Pueden tener más de dos categorías o incluir más variables. Por ejemplo, una tabla de 3x3 o más, o con más de dos variables en juego.
Utilidad
Las tablas de contingencia son útiles para examinar la relación entre variables categóricas como también la bondad de ajuste de modelos estadísticos. Algunos de los análisis más comunes incluyen:
1. Pruebas de independencia (Prueba Chi-cuadrado):
Se utiliza para determinar si existe o no una asociación significativa entre las dos variables categóricas.
La hipótesis nula (H0) es que las variables son independientes, es decir, que no existe relación entre ellas.
2. Cálculo de probabilidades conjuntas y condicionales:
Se utilizan tablas de contingencia para calcular la probabilidad de que una observación pertenezca a una categoría dada otra categoría.
Ejemplo: La probabilidad de que una persona prefiera fútbol dado que es masculina.
3. Razones de probabilidad y odds ratios:
Muy útil en estudios epidemiológicos, donde las tablas de contingencia permiten calcular medidas como el **odds ratio** para evaluar la relación entre una exposición y un resultado (como en estudios de casos y controles).
Prueba de independencia Chi-cuadrado para tablas de contingencia
Una de las aplicaciones más comunes de las tablas de contingencia es realizar una **prueba Chi-cuadrado** para determinar si las variables categoricas están relacionadas o son independientes. Esta prueba compara las frecuencias observadas con las frecuencias que esperaríamos si las variables fueran independientes.
La fórmula para el estadístico Chi-cuadrado se ve en la figura y en el apartado de indicadores de bondad.
Si el valor de chi^2 es grande, podemos rechazar la hipótesis nula de independencia, sugiriendo que hay una relación entre las variables.
Ejemplo:
Supongamos que queremos evaluar si existe una relación significativa entre el sexo y la preferencia deportiva. Usamos la tabla anterior y aplicamos la prueba Chi-cuadrado. Si el resultado del chi^2 es significativo (por ejemplo, p < 0.05), entonces concluimos que la preferencia deportiva está relacionada con el sexo de la persona.
Ventajas
Simplicidad: Las tablas de contingencia permiten organizar los datos de manera clara y comprensible.
Flexibilidad: Pueden ser utilizadas para realizar múltiples análisis estadísticos, desde la prueba de independencia hasta cálculos de probabilidades.
Herramienta exploratoria: Son una excelente forma de explorar relaciones en datos categóricos antes de aplicar métodos más complejos.
Limitaciones
Tamaño de la tabla: Para variables con muchos niveles o múltiples variables, las tablas pueden volverse grandes y difíciles de interpretar.
Datos pequeños: Cuando las frecuencias son muy bajas (especialmente menos de 5 en algunas celdas), las pruebas basadas en la Chi-cuadrado pueden no ser fiables, y se recomienda usar correcciones o pruebas alternativas como la **prueba exacta de Fisher**.
Interpretación del ejemplo anterior:
Este ejemplo está desarrollado en python y compartido en github.
Resultados de la prueba Chi-cuadrado:
Chi-cuadrado: 15.041666666666668
P-valor: 0.00010516355403363114
Grados de libertad: 1 Frecuencias esperadas: [[30. 30.] [20. 20.]]
1. Tabla de contingencia:
La tabla de contingencia refleja la distribución de la muestra de 100 personas con respecto a las dos variables categóricas: **sexo** y **preferencia deportiva** (fútbol o baloncesto).
Los datos observados muestran que:
**30 hombres** prefieren fútbol y **10 hombres** prefieren baloncesto.
**20 mujeres** prefieren fútbol y **40 mujeres** prefieren baloncesto.
Esto sugiere inicialmente que más hombres prefieren fútbol y más mujeres prefieren baloncesto, pero necesitamos una prueba estadística para evaluar si esta diferencia es significativa.
2. Prueba Chi-cuadrado:
El **valor de Chi-cuadrado** calculado es **15.04**, lo que indica la magnitud de la desviación entre las frecuencias observadas y las esperadas bajo la hipótesis nula de independencia.
El **p-valor** resultante es **0.0001**, mucho menor que el umbral común de significancia de 0.05. Esto nos permite **rechazar la hipótesis nula**, que establece que no existe relación entre el sexo y la preferencia deportiva.
Los **grados de libertad** son 1, ya que cada variable tiene 2 niveles.
Las **frecuencias esperadas** asumen que no hay relación entre las variables:
Para las mujeres, se esperarían 30 personas en cada categoría (fútbol y baloncesto).
Para los hombres, se esperarían también 20 personas en cada categoría.
Sin embargo, las frecuencias observadas difieren notablemente de las esperadas, lo que sugiere una **asociación significativa** entre el sexo y la preferencia deportiva.
3. Mapa de calor:
El gráfico muestra de manera visual las frecuencias observadas para cada combinación de sexo y preferencia deportiva.
Los valores en cada celda corresponden a las frecuencias absolutas: el número de personas en cada categoría.
El color azul más oscuro indica frecuencias más altas. En este caso, las **mujeres que prefieren baloncesto** (40) es el grupo más numeroso, seguido de los **hombres que prefieren fútbol** (30).
La diferencia visual es evidente: hay una clara tendencia de **los hombres hacia el fútbol** y **las mujeres hacia el baloncesto**, lo que refuerza la interpretación de los resultados de la prueba estadística.
Resumen:
La prueba Chi-cuadrado y el mapa de calor nos permiten concluir que **existe una relación significativa entre el sexo y la preferencia por deportes** en esta muestra. En términos más simples, las preferencias deportivas no son independientes del sexo: los hombres tienden a preferir el fútbol, mientras que las mujeres muestran una mayor preferencia por el baloncesto.
Conclusión
Las tablas de contingencia son una herramienta estadística fundamental para el análisis de relaciones entre variables categóricas. Junto con la prueba de Chi-cuadrado, permiten analizar la independencia entre variables y calcular probabilidades condicionales y conjuntas. Son ampliamente utilizadas en campos como las ciencias sociales, epidemiología y marketing, proporcionando una manera visual y cuantitativa de explorar datos categóricos.