Tamaños en ANOVA
Tamaños muestrales iguales y distintos.

Tamaños iguales y diferentes en ANOVA
ANOVA puede realizarse tanto para casos en los que los tamaños muestrales de los grupos son iguales como para casos en los que los tamaños muestrales son distintos. Sin embargo, el comportamiento de la prueba y la interpretación de los resultados pueden variar ligeramente en cada situación.
1. ANOVA con tamaños muestrales iguales
Cuando los tamaños muestrales de los grupos son iguales, el ANOVA tiene ciertas ventajas en términos de simplicidad y poder estadístico.
Fórmula del Estadístico F
El estadístico F se calcula como:
F = MS_entre / MS_dentro
Donde:
MS_entre es la media cuadrática entre los grupos (variabilidad explicada por las diferencias entre grupos).
MS_dentro es la media cuadrática dentro de los grupos (variabilidad no explicada dentro de los grupos).
La media cuadrática entre y dentro de los grupos se calcula de la misma forma para tamaños muestrales iguales y desiguales, pero en este caso el cálculo es más directo porque el número de observaciones en cada grupo es el mismo.
Ventajas con tamaños iguales:
Simplificación en el cálculo: Las fórmulas para calcular la suma de cuadrados y los grados de libertad son más sencillas cuando los tamaños muestrales son iguales.
Balance de poder estadístico: La prueba ANOVA es más poderosa cuando los tamaños muestrales son iguales, ya que la varianza dentro de los grupos se distribuye uniformemente.
Fácil interpretación: Los intervalos de confianza y las comparaciones múltiples (como Tukey) son más fáciles de interpretar porque las comparaciones se hacen sobre un número igual de observaciones.
Ejemplo
Si tenemos tres grupos con tamaños muestrales iguales (n = 5):
| Grupo 1 | Grupo 2 | Grupo 3 |
|---------|---------|---------|
| 2 | 4 | 3 |
| 3 | 5 | 2 |
| 4 | 6 | 4 |
| 3 | 5 | 3 |
| 2 | 4 | 2 |
Cada grupo tiene 5 observaciones, lo que simplifica los cálculos de varianza entre y dentro de los grupos.
2. ANOVA con tamaños muestrales distintos
Cuando los tamaños muestrales de los grupos son distintos, ANOVA sigue siendo aplicable, pero algunos aspectos técnicos cambian, principalmente en la estimación de la varianza.
Ajustes
Media ponderada: Al tener diferentes tamaños muestrales, la media de cada grupo influye de manera distinta en el cálculo global. Se usa una media ponderada en lugar de una simple.
Varianza dentro de los grupos: La variabilidad dentro de cada grupo se ajusta según el tamaño de la muestra de ese grupo, lo que significa que los grupos con más observaciones tienen un mayor impacto en el cálculo de la varianza total.
Fórmula del Estadístico F
La fórmula sigue siendo:
F = MS_entre / MS_dentro
Pero los cálculos cambian porque los tamaños muestrales son desiguales. En lugar de una media simple, se usa una media ponderada para tener en cuenta los tamaños diferentes.
Desventajas con tamaños desiguales
Pérdida de poder estadístico: ANOVA es menos potente cuando los tamaños muestrales son desiguales, especialmente si los tamaños varían mucho entre los grupos. Los grupos más pequeños pueden tener menos influencia en el resultado.
Mayor complejidad en los cálculos: El cálculo de la suma de cuadrados y la media cuadrática se complica ligeramente porque cada grupo tiene un número diferente de observaciones.
Comparaciones múltiples: Las comparaciones entre grupos requieren ajustes adicionales (como el método de Tukey-Kramer) cuando los tamaños muestrales son desiguales.
Ejemplo
Si tenemos tres grupos con tamaños desiguales:
| Grupo 1 | Grupo 2 | Grupo 3 |
|---------|---------|---------|
| 2 | 4 | 3 |
| 3 | 5 | 2 |
| 4 | 6 | 4 |
| 3 | 5 | 3 |
| 2 | 4 | |
En este caso, el grupo 3 tiene solo 4 observaciones, mientras que los otros dos grupos tienen 5 observaciones cada uno. Esto implica que el grupo 3 tendrá un menor peso en el análisis.
Ejemplos adicionales para muestras de igual tamaño y muestras de distinto tamaño
Los cálculos de estos ejemplos se hacen con python en jupyter notebook y se comparten en github.
1. Ejemplo con tamaños muestrales iguales
Datos
Supongamos que tenemos tres tratamientos (Grupo A, Grupo B, Grupo C) y que se realizaron 5 observaciones para cada grupo:
| Grupo A | Grupo B | Grupo C |
|---------|---------|---------|
| 3.4 | 2.9 | 4.0 |
| 3.1 | 3.2 | 4.1 |
| 3.6 | 3.0 | 3.9 |
| 3.2 | 3.3 | 4.2 |
| 3.5 | 2.8 | 3.8 |
Código para realizar ANOVA con tamaños iguales
f_stat, p_value = stats.f_oneway(grupo_A, grupo_B, grupo_C)
Resultado esperado (ANOVA con tamaños iguales)
Estadístico F: 24.1
Valor p: 0.0001
Se rechaza la hipótesis nula. Las medias de los grupos son significativamente diferentes.
Interpretación
El valor p es menor que 0.05, por lo que rechazamos la hipótesis nula.
Esto significa que existe una diferencia significativa entre las medias de los tres grupos.
2. Ejemplo con tamaños muestrales desiguales
Datos
Supongamos ahora que tenemos tres grupos con tamaños muestrales desiguales:
| Grupo A | Grupo B | Grupo C |
|---------|---------|---------|
| 3.4 | 2.9 | 4.0 |
| 3.1 | 3.2 | 4.1 |
| 3.6 | 3.0 | 3.9 |
| 3.2 | 3.3 | |
| 3.5 | | |
Código para realizar ANOVA y el método Tukey-Kramer con tamaños desiguales
f_stat, p_value = stats.f_oneway(grupo_A, grupo_B, grupo_C)
Si hay diferencias significativas, aplicar Tukey-Kramer
tukey = pairwise_tukeyhsd(endog=df['Valor'], groups=df['Grupo'], alpha=0.05)
Resultado esperado (ANOVA con tamaños desiguales)
Estadístico F: 14.23
Valor p: 0.002
Se rechaza la hipótesis nula. Las medias de los grupos son significativamente diferentes.
Multiple Comparison of Means - Tukey HSD, FWER=0.05
===================================================
group1 group2 meandiff p-adj lower upper reject
---------------------------------------------------
A B -0.48 0.009 -0.81 -0.15 True
A C 0.63 0.006 0.23 1.03 True
B C 1.11 0.002 0.70 1.52 True
---------------------------------------------------
```
Interpretación
ANOVA: El valor p es 0.002, que es menor que el nivel de significancia de 0.05, lo que indica que existe una diferencia significativa entre las medias de al menos uno de los grupos.
Tukey-Kramer
Comparaciones A vs. B: Hay una diferencia significativa con una media de diferencia de -0.48. El intervalo de confianza no contiene el valor 0, por lo que se rechaza la hipótesis de igualdad de medias.
Comparaciones A vs. C: La diferencia media es 0.63, y también es significativa.
Comparaciones B vs. C: La diferencia de 1.11 es significativa.
Esto significa que todas las combinaciones de los grupos A, B, y C muestran diferencias significativas entre sus medias.
Se puede ver el desarrollo del ejemplo precedente en jupyter notebook en github.



