Factores en ANOVA
ANOVA de uno más factores y tratamientos

Análisis de Varianza de uno y dos o más factores
El ANOVA (Análisis de Varianza) es una técnica estadística que se utiliza para comparar las medias de dos o más grupos y determinar si existen diferencias significativas entre ellas. En lugar de hacer múltiples pruebas t por pares (lo que incrementaría el error de tipo I), ANOVA permite evaluar todas las medias simultáneamente.
Existen diferentes tipos de ANOVA, según la cantidad de factores (variables independientes) que se estén considerando. Los dos más comunes son:
1. ANOVA de un factor (o unidireccional)
Este tipo de ANOVA se utiliza cuando queremos comparar las medias de varios grupos que son diferentes en un solo factor o variable independiente.
Factor o Factores
Un factor es la variable que estamos manipulando o categorizando para ver su efecto en otra variable (la variable dependiente). En ANOVA de un factor, solo hay una variable independiente (factor) con varios niveles o grupos.
Ejemplo
Supongamos que estamos investigando el efecto de tres métodos de enseñanza (A, B y C) en el puntaje de los estudiantes. Aquí:
El factor es el método de enseñanza.
Los niveles del factor son los métodos A, B y C.
La variable dependiente es el puntaje obtenido por los estudiantes.
Hipótesis del ANOVA de un factor
Hipótesis nula: Las medias de todos los grupos son iguales. No hay diferencias entre los métodos.
Hipótesis alternativa: Al menos una de las medias de los grupos es diferente.
El ANOVA de un factor, compara la varianza entre los grupos (debido al factor) y la varianza dentro de los grupos (variabilidad aleatoria o no explicada). Si la varianza entre los grupos es significativamente mayor que la varianza dentro de los grupos, entonces hay evidencia de que al menos un grupo tiene una media diferente.
Fórmula del estadístico F en ANOVA de un factor:
F = {Varianza entre los grupos} / {Varianza dentro de los grupos (residual)}
2. ANOVA de dos o más factores (ANOVA factorial)
Este tipo de ANOVA se utiliza cuando queremos investigar el efecto de dos o más factores (variables independientes) sobre una variable dependiente. Además de estudiar el efecto de cada factor individualmente, también permite evaluar si existe una interacción entre los factores.
Ejemplo
Supongamos que ahora no solo queremos ver el efecto del método de enseñanza (A, B o C) en el puntaje, sino que también queremos considerar si el nivel educativo de los estudiantes (primaria, secundaria) tiene un efecto adicional o si los efectos de los métodos cambian dependiendo del nivel educativo.
El primer factor es el método de enseñanza (con niveles A, B y C).
El segundo factor es el nivel educativo (con niveles primaria y secundaria).
La variable dependiente sigue siendo el puntaje de los estudiantes.
Hipótesis del ANOVA de dos factores
Efecto principal del factor 1 (método de enseñanza): Las medias de los puntajes difieren entre los métodos A, B y C.
Efecto principal del factor 2 (nivel educativo)**: Las medias de los puntajes difieren entre los niveles primaria y secundaria.
Interacción entre los factores**: Existe un efecto combinado del método de enseñanza y el nivel educativo. Es decir, el efecto de un método de enseñanza puede depender del nivel educativo.
Interacción entre factores
La interacción significa que el efecto de un factor no es el mismo en todos los niveles del otro factor. Por ejemplo, un método de enseñanza puede ser más efectivo en primaria pero no en secundaria, o viceversa.
Gráficamente
Si trazamos un gráfico con los puntajes en el eje Y, y los métodos de enseñanza en el eje X, y tenemos dos líneas, una para primaria y otra para secundaria, **si las líneas no son paralelas**, indica que existe una interacción entre los factores.
Ejemplo práctico de ANOVA de dos factores
Supongamos que se está investigando el efecto del tipo de fertilizante (Factor A con niveles: Fertilizante 1 y Fertilizante 2) y el tipo de suelo (Factor B con niveles: Suelo A y Suelo B) en el crecimiento de las plantas. Es posible usar un ANOVA de dos factores para determinar:
Si el tipo de fertilizante afecta el crecimiento.
Si el tipo de suelo afecta el crecimiento.
Si hay una interacción entre el tipo de fertilizante y el tipo de suelo, es decir, si el efecto del fertilizante cambia según el tipo de suelo.
Tratamiento
En el contexto del análisis de varianza (ANOVA), un tratamiento se refiere a una categoría o nivel de una variable independiente que está siendo manipulada o comparada en el experimento. En otras palabras, es cada una de las diferentes condiciones o grupos que se comparan entre sí en el ANOVA.
Por ejemplo, si estamos realizando un experimento para comparar los efectos de diferentes fertilizantes en el crecimiento de plantas, cada tipo de fertilizante sería un tratamiento. Si tuviéramos tres tipos de fertilizante, entonces tendríamos tres tratamientos.
Claves sobre el concepto de tratamiento
Factores: Los tratamientos pertenecen a un factor en el análisis. Un factor es una variable categórica (como el tipo de fertilizante en el ejemplo anterior), y los tratamientos son los diferentes niveles o categorías de ese factor.
ANOVA de un factor: Si sólo tenemos un factor con varios tratamientos, estamos realizando un ANOVA de un factor.
ANOVA de dos o más factores: Si tenemos múltiples factores con diferentes tratamientos en cada uno, estamos realizando un ANOVA de dos o más factores, también conocido como ANOVA factorial.
El propósito del ANOVA es determinar si las diferencias en las medias de los grupos de tratamiento son significativas o si podrían haber ocurrido por azar.
Usos y aplicaciones del ANOVA
El análisis de varianza (ANOVA) es una herramienta estadística muy importante y ampliamente utilizada en la actualidad, especialmente en áreas como biología, psicología, economía, agricultura y más. ANOVA permite analizar si existen diferencias significativas entre las medias de varias poblaciones basándose en muestras, por lo que es ideal cuando se tienen múltiples grupos y se desea comparar sus medias. Esto es así porque ANOVA es un método de brinda:
Facilidad de interpretación: ANOVA proporciona una manera clara y directa de determinar si las diferencias entre las medias de varios grupos son estadísticamente significativas.
Versatilidad: Existen muchas versiones de ANOVA, como el ANOVA unidireccional (para un solo factor), el ANOVA factorial (para varios factores) y el ANOVA de medidas repetidas (cuando se miden varias veces las mismas unidades experimentales). Esto lo hace aplicable a una amplia gama de situaciones.
Aplicaciones en ciencias experimentales: En disciplinas como biología y agronomía, ANOVA es esencial para analizar resultados experimentales, especialmente en estudios controlados donde se prueban diferentes tratamientos.
Algunas técnicas han emergido como alternativas o complementos en situaciones específicas. Aquí algunos métodos que pueden ser más apropiados dependiendo del contexto:
Modelos lineales mixtos (Mixed Linear Models): En escenarios donde hay datos dependientes o estructuras jerárquicas (como mediciones repetidas o datos anidados), los **modelos lineales mixtos** ofrecen una mayor flexibilidad que ANOVA tradicional. Estos modelos permiten incorporar efectos aleatorios y fijos, algo que no es posible en ANOVA básico. Ejemplo: En estudios longitudinales, donde se mide el mismo sujeto varias veces, los modelos mixtos pueden captar la variabilidad entre individuos y el tiempo.
ANOVA robusto: ANOVA tradicional asume homocedasticidad (igualdad de varianzas entre grupos) y normalidad. En situaciones donde estas suposiciones se violan, existen versiones robustas de ANOVA que son menos sensibles a estas violaciones.
Pruebas no paramétricas: Si no se cumplen las suposiciones de ANOVA (normalidad de los residuos y homogeneidad de varianzas), se pueden utilizar pruebas no paramétricas como la **prueba de Kruskal-Wallis** (una alternativa no paramétrica para ANOVA de un factor) o la prueba de Friedman (alternativa no paramétrica para ANOVA de medidas repetidas).
Métodos de machine learning: En algunos casos, especialmente cuando se manejan grandes cantidades de datos o datos no lineales, los modelos de machine learning como árboles de decisión, regresiones aleatorias o redes neuronales pueden ser opciones más eficaces. Aunque estos métodos no proporcionan un análisis estadístico tradicional, pueden usarse para hacer predicciones o segmentar grupos de datos.
ANOVA, suficiencia y confiabilidad
ANOVA es confiable, pero puede no ser suficiente en algunos casos como por ejemplo:
Datos no balanceados: Cuando los grupos tienen tamaños de muestra muy diferentes, ANOVA puede ser ineficaz. Los modelos mixtos pueden ser mejores en este caso.
Relaciones complejas: Si las relaciones entre las variables son no lineales o si hay muchas interacciones complejas, los modelos de machine learning o los modelos lineales generalizados (GLM) pueden ser más adecuados.
Ejemplo de aplicación de ANOVA para uno y dos factores
Un estudio realizado por investigadores de Pennsylvania State University arroja los datos contenidos en el conjunto de datos. El conjunto de datos incluye los pesos (en kilogramos) de álamos que recibieron distintos tratamientos en terrenos diferentes.
Primero sólo consideraremos los pesos del año 1 en el terreno 1, el cual tiene un suelo fértil y húmedo, y se localiza cerca de un arroyo. El conjunto de datos puede verse en la figura correspondiente.
Exploración de datos
Con la intención de explorar los datos para investigar el centro, la variación, la distribución, los valores extremos y los patrones de cambio a través del tiempo (CVDVT), Comenzamos calculando los estadísticos muestrales. Observamos medias y desvíaciones.
Al examinar las medias muestrales, vemos que parecen variar mucho, desde 0.164 kg hasta 1.334 kg. Además, las desviaciones estándar de las muestras varían considerablemente, desde 0.126 kg hasta 0.859 kg.
Es difícil analizar las distribuciones porque cada muestra consiste únicamente en 5 valores, pero las gráficas cuantilares normales sugieren que tres de las muestras provienen de poblaciones con distribuciones aproximadamente normales.
El análisis de los pesos de los álamos que recibieron tratamiento con fertilizantes sugiere que el peso de 1.34 kg es un valor extremo cuando se compara con los otros pesos de los árboles fertilizados.
Con un solo valor extremo, procederemos bajo el supuesto de que las muestras provienen de poblaciones con distribuciones aproximadamente normales.
Podríamos realizar análisis adicionales posteriormente para determinar si el peso de 1.34 kg tiene un fuerte efecto en los resultados. Pero por el momento asumimos que no hay un fuerte efecto en este caso.
Parece que las diferencias entre las medias muestrales indican que las muestras provienen de poblaciones con medias diferentes, + pero en vez de considerar únicamente las medias muestrales, también debemos considerar:
las cantidades de variación,
los tamaños muestrales y
la naturaleza de la distribución de las medias muestrales.
Una forma de tomar en cuenta todos estos factores importantes consiste en realizar una prueba formal de hipótesis que los incluya de manera automática.
Entonces sabremos si los distintos tratamientos tienen algún efecto.
Probar si los distintos tratamientos tienen algún efecto significa probar que las cuatro muestras provienen de escenario significativamente diferentes.
Para probar la aseveración de que las cuatro muestras provienen de poblaciones con medias realmente diferentes, podemos realizar un análisis de varianza (ANOVA).
Este método estadístico se usa para comparar las medias de más de dos grupos y verificar si existen diferencias significativas entre ellas.
Los cálculos están en jupyter notebook y se comparten en github y arrojan los siguientes resultados:
Estadístico F: 5.731352874755579
Valor p: 0.007348294418256392
Se rechaza la hipótesis nula.
Las medias de los tratamientos son significativamente diferentes.
Interpretación
El valor p (0.007) es menor que el nivel de significancia 0.05, con lo que podemos rechazar la hipótesis nula. Esto significa que existe evidencia suficiente para afirmar que al menos una de las medias de los tratamientos es significativamente diferente de las demás.
Visualización
La distribución F y el estadístio nos dan una visualización clara para este caso. Puede verse en la figura.
ANOVA 2 factores - 1 año y dos terrenos
El conjunto de datos incluye los pesos (en kilogramos) de álamos que recibieron distintos tratamientos en terrenos diferentes. Ahora consideraremos los pesos del año 1 y de los terrenos 1 y 2, los cuales tienen un suelos fértil y húmedo, y arenoso y seco. El conjunto de datos puede verse en la figura correspondiente.
Procesamiento con python
Al igual que en el caso anterior pasamos el dataframe a formato "long": Para realizar el análisis ANOVA con statsmodels, Esto pueder verse en el jupyter notebook compartido en github.
Transformamos el DataFrame de formato ancho a formato largo con pd.melt().
En este formato, las variables de tratamiento (Sin tratamiento, Fertilizante, Riego, Fertilizante y riego) se agrupan en una columna llamada Tratamiento, y los valores correspondientes de peso en la columna Peso.
Los resultados del modelo ANOVA de dos vías se calculan utilizando:
C(Lugar): Efecto del lugar (Fertil-Húmedo y Arenoso-Seco).
C(Tratamiento): Efecto del tratamiento (Sin tratamiento, Fertilizante, Riego, Fertilizante y riego).
C(Lugar):C(Tratamiento): Interacción entre lugar y tratamiento.
Luego, realizamos la prueba ANOVA usando anova_lm().
Los resultados se ven en la figura correspondiente y son:
sum_sq df F PR(>F)
C(Lugar) 0.27225 1.0 0.812180 0.374209
C(Tratamiento) 7.54700 3.0 7.504776 0.000614
C(Lugar):C(Tratamiento) 0.17163 3.0 0.170670 0.915411
Residual 10.72668 32.0 NaN NaN
Interpretación
C(Lugar): El valor p (PR(>F)) es 0.37, lo cual es mayor que el nivel de significancia 0.05, lo que indica que no hay evidencia suficiente para afirmar que el lugar (Fertil-Húmedo o Arenoso-Seco) tenga un efecto significativo en los pesos de los álamos.
C(Tratamiento): El valor p es 0.0006, lo que es menor que 0.05, lo que significa que los diferentes tratamientos aplicados (Sin tratamiento, Fertilizante, Riego, Fertilizante y riego) sí tienen un efecto significativo en los pesos de los álamos.
Interacción (Lugar*Tratamiento): El valor p es 0.20, que es mayor que 0.05. Esto indica que no hay evidencia significativa de que la interacción entre el lugar y el tratamiento tenga un efecto sobre el peso de los álamos.
Por lo tanto:
Los diferentes tratamientos aplicados a los álamos tienen un impacto significativo en su crecimiento.
Sin embargo, el tipo de terreno (lugar) no parece influir significativamente en el peso de los álamos.
No se encontró una interacción significativa entre el lugar y el tratamiento, lo que sugiere que los efectos del tratamiento son consistentes independientemente del tipo de terreno.
Visualización
En la figura se grafican los boxplot de las distribuciones de pesos por tratamiento y suelo.
ANOVA 3 factores - 2 años y dos terrenos
Ahora consideraremos los pesos de los años 1 y 2 y de los terrenos 1 y 2, los cuales tienen un suelos fértil y húmedo**, y arenoso y seco. El conjunto de datos se puede ver en la tabla contenida en la figura corresondiente.
El procedimiento y los calculos son similares a los calculos anteriores solo que ahora tenemos un factor mas. Los cálculos se pueden ver en jupyter notebook en github.
Los resultados que se ven en la figura correspondiente y se comparten en jupyter notebook, son:
sum_sq df F PR(>F)
C(Años) 3.456961 1.0 11.818499 0.000972
C(Lugar) 0.596851 1.0 2.040487 0.157425
C(Tratamiento) 8.025874 3.0 9.146162 0.000033
C(Años):C(Lugar) 0.001201 1.0 0.004107 0.949078
Residual 21.352811 73.0 NaN Na
Interpretación
El análisis que hemos realizado es de tres factores. Los tres factores considerados son:
Años (factor 1): Tiene dos niveles (1 y 2).
Lugar (factor 2): Tiene dos niveles (Fértil-Húmedo y Arenoso-Seco).
Tratamiento (factor 3): Tiene cuatro niveles (Sin tratamiento, Fertilizante, Riego, Fertilizante y riego).
En el modelo ANOVA utilizado en python:
C(Años) representa el efecto del factor Años.
C(Lugar) representa el efecto del factor Lugar.
C(Tratamiento) representa el efecto del Tratamiento.
C(Años):(Lugar) representa la interacción entre los factores Años y Lugar.
Por tanto, estamos analizando cómo afectan estos tres factores, individualmente y en interacción, al peso de los álamos. En la tabla ANOVA, cada fuente de variación (Años, Lugar, Tratamiento, y la interacción entre Años y Lugar) tiene un valor F y un valor p asociado.
Valor F: Un valor F elevado indica una mayor variación explicada por el factor en comparación con la variación no explicada (residual).
Valor p: Nos indica si las diferencias son estadísticamente significativas. Un valor p menor a 0.05 generalmente indica que hay diferencias significativas.
Años (p=0.000972): El efecto del factor "Años" es estadísticamente significativo, lo que sugiere que los álamos crecen de manera diferente entre los años 1 y 2.
Lugar (p=0.157425): El lugar NO tiene un efecto significativo, lo que indica que los álamos crecen de manera similar en los suelos "Fértil-Húmedo" y "Arenoso-Seco".
Tratamiento (p=0.000033): Los diferentes tratamientos (sin tratamiento, fertilizante, riego, y fertilizante y riego) SI muestran una diferencia significativa en el crecimiento de los álamos.
Interacción Años (p=0.949078): La interacción entre Años y Lugar NO es significativa, lo que indica que el efecto de los años es similar en ambos suelos.
Conclusión del ANOVA
ANOVA sigue siendo una herramienta estadística fundamental y ampliamente utilizada para el análisis de datos experimentales. Sin embargo, en situaciones donde sus supuestos no se cumplen o los datos son más complejos, se pueden utilizar otros métodos como los modelos lineales mixtos, ANOVA robusto o enfoques no paramétricos. ANOVA no ha sido reemplazado por completo, pero el auge de técnicas más sofisticadas (como el machine learning) y modelos estadísticos avanzados ha expandido las opciones disponibles para el análisis de datos. La elección del método depende del contexto y de las características de los datos.
En la tabla se resumen las características de ANOVA de un factor y de dos o más facotres.
Ambos tipos de ANOVA utilizan la distribución F para determinar si las diferencias entre las medias son estadísticamente significativas.



