top of page

Outliers

Valores atípicos

Boxplot o gráfico de caja

Boxplot o gráfico de caja

Un outlier, o valor atípico,  es una observación que se encuentra significativamente alejada del resto de los datos en un conjunto de datos. 

Es como una oveja negra en un rebaño blanco: destaca por ser muy diferente a sus compañeros.

Los outliers son valores que pueden ser tanto una molestia como una oportunidad. Es importante identificarlos y analizarlos cuidadosamente para tomar decisiones informadas sobre cómo tratarlos en nuestro análisis de datos.


Importancia de los outliers

  • Influencia en los resultados: Los outliers pueden distorsionar significativamente las medidas estadísticas como la media, inflándolos o desinflándolos. 

    • Por ejemplo, si en un grupo de personas, una tiene un ingreso anual de un millón de dólares, la media de ingresos del grupo se verá muy influenciada por esa persona, dando una imagen errónea de la situación económica del grupo en general.

  • Indicadores de anomalías: A veces, los outliers pueden indicar la presencia de errores en la recolección de datos, valores extremos que son poco probables o incluso nuevos patrones o comportamientos que no habíamos considerado.

Identificación de los outliers

La identificación de ouliers es una parte importante dentro de la estadística descriptiva de los datos (EDA)

En python se aplican diversas formas de identificación de ouliers. Estas, están compartidas en diversos jupiter notebooks en mi github.


Existen diversas técnicas para identificar outliers, pero las más comunes son:

  • Gráficos: Un simple diagrama de caja (box plot) puede revelar valores que se encuentran muy por encima o por debajo de los límites establecidos.

  • Medidas estadísticas: Se pueden utilizar medidas como los cuartiles y la desviación estándar para definir rangos dentro de los cuales los datos se consideran normales. Los valores que caen fuera de estos rangos son candidatos a ser outliers.

  • Métodos de detección: Existen métodos más sofisticados como el método de Z-scores, el método de Mahalanobis o algoritmos de detección de anomalías basados en aprendizaje automático.

Procesamiento de outliers

La decisión de qué hacer con los outliers depende del contexto y del análisis que se esté realizando. Algunas opciones incluyen:

  • Eliminarlos: Si se determina que son errores de medición o valores claramente anómalos, se pueden eliminar del conjunto de datos. Sin embargo, esta decisión debe tomarse con cuidado, ya que puede eliminar información relevante.

  • Transformar los datos: En algunos casos, se puede aplicar una transformación a los datos (por ejemplo, tomar el logaritmo) para reducir el impacto de los outliers.

  • Utilizar estadísticas robustas: Existen medidas estadísticas que son menos sensibles a los outliers, como la mediana o la desviación estándar robusta.

Desvío estandar e IQR

Existe una relación entre la desviación estándar (DE) y el rango intercuartilico (IQR), aunque no es una relación exacta.  El IQR representa el rango central del 50% de los datos, mientras que la desviación estándar mide la propagación de los datos con respecto a la media. Sin embargo, en el caso de una distribución normal, podemos esperar una relación aproximada entre ellos.

El factor teórico que relaciona el IQR con la desviación estándar para una distribución normal es aproximadamente 1.414. Esto significa que podemos esperar que el IQR sea aproximadamente igual a 1.414 veces la desviación estándar.

Esta relación es solo para distribuciones normales. Para otras distribuciones, el factor puede ser diferente.

bottom of page