top of page

Análisis de Varianza

ANOVA

Análisis ANOVA para métodos de enseñanza

Análisis ANOVA para métodos de enseñanza

Análisis de Varianza (ANOVA)


El  Análisis de Varianza (ANOVA, por sus siglas en inglés: Analysis of Variance), es un conjunto de técnicas estadísticas que se utilizan para comparar las medias de diferentes grupos y determinar si hay diferencias significativas entre ellas. ANOVA se aplica cuando tienes más de dos grupos o condiciones, y deseas saber si al menos uno de esos grupos es diferente de los demás en términos de su media.


Objetivo Principal

El objetivo de ANOVA es evaluar si las diferencias observadas entre las medias de diferentes grupos son lo suficientemente grandes como para que no sean atribuibles al azar. ANOVA es una extensión de la prueba t para más de dos grupos.


Conceptos Clave en ANOVA


1. Hipótesis nula (H₀): 

Las medias de todos los grupos son iguales. Esto significa que cualquier diferencia observada es solo debido al azar.

   - H₀: μ₁ = μ₂ = ... = μₖ (donde k es el número de grupos)

   

2. Hipótesis alternativa (H₁)

Al menos una de las medias de los grupos es diferente.


3. Variabilidad dentro de los grupos: La variación debida a las diferencias dentro de los grupos (o condiciones) individuales, conocida como varianza intragrupal o error.


4. Variabilidad entre los grupos: La variación debida a las diferencias entre las medias de los grupos, conocida como varianza intergrupal.


5. F-razón O razón F: El estadístico F se calcula como el cociente entre la varianza entre los grupos y la varianza dentro de los grupos. Si la variabilidad entre grupos es significativamente mayor que la variabilidad dentro de los grupos, la hipótesis nula se rechaza.

F = {Varianza entre los grupos} / {Varianza dentro de los grupos (error)}

  


Tipos de ANOVA


1. ANOVA de un factor (ANOVA de una vía)  

Se usa cuando se tiene una sola variable categórica (factor) que divide los datos en dos o más grupos. Ejemplo: Comparar el rendimiento promedio de estudiantes de tres escuelas diferentes.


2. ANOVA de dos factores (ANOVA de dos vías)

Se utiliza cuando se tienen dos variables categóricas (factores). Esto permite evaluar el efecto de cada factor y también si hay una interacción entre ellos. Ejemplo: Comparar el rendimiento promedio de estudiantes basado en la "escuela" y el "género".


3. ANOVA de medidas repetidas  

Se aplica cuando se toman múltiples medidas del mismo grupo en diferentes momentos o condiciones. Es útil para analizar si hay cambios en los promedios a lo largo del tiempo o entre diferentes tratamientos.


Suposiciones de ANOVA


1. Normalidad: Se asume que los datos dentro de cada grupo siguen una distribución normal.

2. Homogeneidad de varianzas: Se asume que las varianzas de los grupos son aproximadamente iguales.

3. Independencia: Las observaciones son independientes unas de otras.


Ejemplo: Comparando Grupos con Diferentes Métodos de Enseñanza

Supongamos que queremos comparar el rendimiento promedio de tres grupos de estudiantes que recibieron diferentes métodos de enseñanza. Las medias de los grupos son las siguientes:

  • Grupo 1 (Método A): 85, 90, 78

  • Grupo 2 (Método B): 80, 85, 88

  • Grupo 3 (Método C): 92, 88, 95

Volveremos sobre este ejemplo más adelante.


Usando ANOVA, podemos determinar si estas diferencias entre las medias son significativas o simplemente atribuibles al azar.


Interpretación de ANOVA

  1. Si el valor p del estadístico F es menor que el nivel de significancia (por ejemplo, 0.05), se rechaza la hipótesis nula, lo que sugiere que al menos uno de los grupos tiene una media significativamente diferente.

  2. Si el valor p es mayor que el nivel de significancia, no hay suficiente evidencia para rechazar la hipótesis nula, por lo que se concluye que las diferencias observadas entre los grupos pueden ser debidas al azar.


Limitación de ANOVA

ANOVA solo indica si existen diferencias entre los grupos, pero no especifica qué grupos son diferentes entre sí. Para determinar qué grupos difieren, se utilizan pruebas post-hoc, como la prueba de Tukey.


Ejemplo en profundidad: Comparando Grupos con Diferentes Métodos de Enseñanza

Imagina que un profesor quiere saber si tres métodos de enseñanza diferentes afectan el rendimiento de los estudiantes. El profesor tiene tres grupos de estudiantes:


Grupo 1: Recibe el Método A.

Grupo 2: Recibe el Método B.

Grupo 3: Recibe el Método C.


Después de aplicar los tres métodos, se mide el puntaje promedio de cada estudiante en un examen. Estos son los resultados:


Grupo 1 (Método A): 85, 90, 78

Grupo 2 (Método B): 80, 85, 88

Grupo 3 (Método C): 92, 88, 95


El profesor quiere saber: ¿Es el rendimiento de los estudiantes diferente dependiendo del método de enseñanza utilizado?


Cómo se aplica ANOVA en este caso


1. Hipótesis nula (H₀): No hay diferencias entre las medias de los tres grupos. 

  • Esto significa que el método de enseñanza no tiene ningún efecto sobre los puntajes de los estudiantes. Formalmente:

  µ₁ =  µ₂ =  µ₃

   (donde µ₁,  µ₂,  µ₃) son las medias de los grupos 1, 2 y 3, respectivamente).


2. Hipótesis alternativa (H₁): Al menos una de las medias es diferente.  

  • Esto significa que **el método de enseñanza sí tiene un efecto** sobre los puntajes, y que al menos uno de los grupos tiene un rendimiento diferente.


Paso a Paso


Paso 1: Calculamos la media de cada grupo:

   Grupo 1 (Método A): ( {85 + 90 + 78} / {3} = 84.33)

   Grupo 2 (Método B): ( {80 + 85 + 88} / {3} = 84.33)

   Grupo 3 (Método C): ({92 + 88 + 95} / {3} = 91.67)


Paso 2: Comparamos las variaciones dentro de los grupos y entre los grupos.

  •  Variación dentro de los grupos: Observamos qué tan dispersos están los puntajes dentro de cada grupo. Esta variación es también llamada en este contexto como variación residual.

  •  Variación entre los grupos: Observamos la diferencia entre las medias de los grupos.


Paso 3: Se calcula el **estadístico F**:

  • Si la variación entre los grupos es significativamente mayor que la variación dentro de los grupos, el estadístico F será grande.

  • Si el estadístico F es lo suficientemente grande (dependiendo de un valor p), se concluye que al menos uno de los grupos es diferente.


Resultado

  • Si después de aplicar ANOVA obtenemos un valor p pequeño (menor que 0.05, por ejemplo), significa que **hay diferencias significativas** entre los grupos, y el método de enseñanza tiene un efecto sobre el rendimiento.

  • Si el valor p es grande (mayor que 0.05), no hay evidencia suficiente para decir que el método de enseñanza tiene un impacto, y las diferencias observadas entre los grupos podrían ser solo por azar.


Interpretación del ejemplo: Comparando Grupos con Diferentes Métodos de Enseñanza

  • Los cálculos están hechos en jupyter notebook con python y se comparten en github. Los resultados pueden verse en la tabla tanto en la figura como en el jupyter notebook.

  • El valor p (PR(>F)) es 0.1639, que es mayor que 0.05. Esto significa que no hay suficiente evidencia para rechazar la hipótesis nula, lo que sugiere que no hay diferencias significativas entre las medias de los tres grupos.

  • En el contexto de ANOVA, el término residual hace referencia a la variación dentro de los grupos que no puede ser explicada por las diferencias entre los grupos. Es la diferencia entre los valores observados y los valores predichos por el modelo, es decir, lo que queda después de ajustar el modelo a los datos.

Variación total = Variación entre los grupos + Variación residual

  • Variación total: 107.56. Es la suma de la variación entre los grupos (lo que se explica por las diferencias en las medias de los grupos) y la variación residual (lo que no se puede explicar por las diferencias entre los grupos, o sea, la variabilidad dentro de los grupos).

  • Varianza residual: 130.00 Representa la variación de los datos dentro de cada grupo. Se calcula midiendo cuánto varían los puntajes individuales de los estudiantes dentro de un mismo grupo con respecto a su media de grupo.

Uso de la Distribución F en ANOVA

En el contexto de ANOVA, siempre se usa la distribución F para comparar las varianzas. Esto es porque el estadístico F sigue una distribución que es particularmente útil cuando queremos probar si las varianzas de diferentes muestras (o grupos) son significativamente diferentes.

La distribución F se usa por las siguientes razones:

  1. Comparación de varianzas:El ANOVA se basa en la idea de que si las varianzas entre los grupos son significativamente mayores que las varianzas dentro de los grupos, entonces es probable que las diferencias entre las medias de los grupos no sean debidas al azar.

  2. Naturaleza de las varianzas:Como el ANOVA compara dos tipos de varianza, la distribución F es ideal porque está diseñada para probar hipótesis sobre razones de varianzas. Específicamente, la distribución F es una razón de dos distribuciones chi-cuadrado, que se derivan de las varianzas.

  3. Condiciones de normalidad y homogeneidad:Bajo la hipótesis nula de que no hay diferencias significativas entre los grupos, y si los datos siguen una distribución normal con varianzas homogéneas, el estadístico F sigue una distribución F.

  4. Generalización a múltiples grupos:La distribución t, que se usa para comparar dos medias (en una prueba t), no es adecuada cuando hay más de dos grupos. En cambio, la distribución F generaliza la prueba t a situaciones con más de dos grupos.

Que sigue luego de hacer un análisis de varianza ANOVA

Si ANOVA nos dice que hay diferencias entre los grupos, necesitamos averiguar qué grupos son diferentes entre sí. Para esto, usamos pruebas post-hoc, como la prueba de Tukey. La prueba de Tukey nos ayuda a identificar cuáles grupos son significativamente diferentes entre sí.


Resumen de ANOVA

El ANOVA es una técnica poderosa para comparar más de dos grupos en un solo análisis. Evalúa si las diferencias entre las medias de los grupos son significativas o si son atribuibles al azar. Dependiendo del número de factores y el tipo de diseño del estudio, puede ser un ANOVA de una vía, dos vías o de medidas repetidas.

bottom of page