Confusión Experimental
Confusión en Estadística
Analisis y Confusión Estadística
La confusión ocurre en un experimento cuando uno no es capaz de distinguir entre los efectos de diferentes factores.
Mario Triola en su libro de Estadistica propone el siguiente ejemplo.
Suponga que un profesor de Vermont experimenta con una nueva política de asistencia (“su calificación promedio en el curso bajará un punto por cada clase que falte”); sin embargo, llega un invierno excepcionalmente benigno, sin nieve y sin temperaturas muy frías, que son factores que habían limitado la asistencia en años anteriores. Si la asistencia mejora, no podemos determinar si ello se debe a la nueva política de asistencia o al invierno benigno. Los efectos de la política de asistencia y del clima se han confundido.
Una confusión es también cuando un factor confuso influye tanto en la variable dependiente como en la variable independiente.
Supongamos que un día en particular, en la guardia de un hospital aparece una gran cantidad de casos que tiene quemaduras del sol en la piel. Ese mismo día se produce un record de ventas de helado y este record de ventas sale en todos los canales de televisión.
Es obvio que es dificil de considerar que la venta de helado sea la causa de la gran cantidad de quemados en el hospital.
Luego de pensarlo un poco ordenamos las variables y es posible deducir que es altamente probable que el sol, con sus altas temperaturas, ese día haya causado tanto la gran cantidad de quemados en la guardia como el record de venta de helados.
Generalmente es muy importante controlar los efectos de las variables.
Además de la confusión, los experimentos también se pueden arruinar por otros factores, como el hecho de no lograr reunir una muestra que sea representativa de la población. En general, la organización de los experimentos requiere de un gran cuidado y una extensa
planeación. Hay tres aspectos son muy importantes para el diseño de experimentos:
1. Control de los efectos de las variables.
2. Uso de la réplica.
3. Empleo de la aleatoriedad.
La confusión experimental en estadística, también conocida como confusión o "confounding", ocurre cuando la relación observada entre una variable independiente (predictora) y una variable dependiente (resultado) está influenciada por una tercera variable (confusora). Esta variable confusora está relacionada tanto con la variable independiente como con la dependiente, lo que puede llevar a conclusiones erróneas sobre la relación causal entre ellas.
Ejemplo
Se investiga si el consumo de helado causa más casos de ahogamientos. En este caso:
Variable independiente: Consumo de helado.
Variable dependiente: Casos de ahogamiento.
Variable confusora: Temperatura. La temperatura alta aumenta tanto el consumo de helado como la cantidad de personas que van a nadar, lo que incrementa el riesgo de ahogamientos.
Si no se controla la variable confusora (temperatura), podríamos concluir incorrectamente que el consumo de helado causa ahogamientos.
Representación gráfica de la confusión
Una forma común de representarlo es con un diagrama causal o DAG (Directed Acyclic Graph). El gráfico incluiría:
Flechas que muestran relaciones causales entre las variables.
La variable confusora con flechas apuntando tanto a la variable independiente como a la dependiente.
Para el ejemplo:
Temperatura
/ \
Consumo de helado → Casos de ahogamiento
En este diagrama:
"Temperatura" afecta tanto al consumo de helado como a los casos de ahogamientos.
La flecha directa entre "Consumo de helado" y "Casos de ahogamiento" puede ser engañosa si no se considera "Temperatura".
Este tipo de confución se ve reflejado en la grafica correspondiente que surge de el análisis visual de correlación de muestras hecho en jupyter notebook con python y compartido en github.