top of page

Estadística descriptiva

EDA Análisis Exploratorio

Estadística Descriptiva

Estadística Descriptiva

EDA

El EDA (Exploratory Data Analysis) o Análisis Exploratorio de Datos es un enfoque fundamental en estadística y ciencia de datos que se utiliza para entender y resumir un conjunto de datos antes de aplicar modelos o realizar análisis más avanzados.


Propósito del EDA

  1. Comprender los datos: Obtener una idea clara de su estructura, distribuciones y posibles patrones.

  2. Detectar problemas: Identificar valores atípicos (outliers), datos faltantes o inconsistencias.

  3. Guiar el análisis posterior: Decidir qué técnicas estadísticas o modelos aplicar con base en las características de los datos.

  4. Comunicar hallazgos: Visualizar datos de manera que se facilite la interpretación.


Fases del EDA


1. Resumen estadístico
Utilizamos estadísticas descriptivas para obtener una visión general. Por ejemplo: 

  • Medidas de tendencia central: Media, mediana, moda.

  • Medidas de dispersión: Varianza, desviación estándar, rango.

  • Asimetría y curtosis: Identifican la forma de la distribución.
    Ejemplo: ¿Cuál es la edad promedio en una encuesta y cómo se distribuyen las edades?


2. Análisis univariado
Examina una variable a la vez. Esto incluye: 

  • Histogramas para distribuciones.

  • Diagramas de caja (boxplots) para valores atípicos.

  • Tablas de frecuencia para variables categóricas.

3. Análisis bivariado
Analiza la relación entre dos variables. Ejemplos:

  • T ablas de contingencia (para categóricas).

  • Diagramas de dispersión (para variables numéricas).

  • Cálculo de correlación.
    Ejemplo: ¿Existe una relación entre ingresos y nivel educativo?


4. Visualización de datos
Crear gráficos que ayuden a interpretar los datos:

  • Gráficos de barras, histogramas, diagramas de caja.

  • Diagramas de dispersión para relaciones.

  • Mapas de calor para correlaciones.

Herramientas en Python para EDA

  1. Pandas: Para manipulación y resumen de datos.

  • import pandas as pd
    df.describe()
    df.isnull().sum()

  1. Matplotlib y Seaborn: Para visualizaciones simples.

  • import seaborn as sns
    sns.boxplot(x=df['variable'])

  1. Pandas Profiling: Genera reportes automáticos.

  • from pandas_profiling import ProfileReport
    report = ProfileReport(df)
    report.to_file("reporte.html")

Ejemplo 

Supongamos que analizamos un dataset con información sobre ventas. Con EDA es posible:

  1. Ver la distribución de ventas por día.

  2. Identificar productos con ventas excepcionalmente altas o bajas.

  3. Analizar la correlación entre gasto publicitario y ventas.

Con gráficos como histogramas y diagramas de dispersión, podrías detectar patrones que, de otro modo, pasarían desapercibidos.


¿Por qué es importante?

El EDA es como el diagnóstico de un médico: antes de aplicar un tratamiento (modelos estadísticos o algoritmos), debes entender bien los síntomas (datos). Esto garantiza que las decisiones estén basadas en hechos sólidos.


Para describir los datos de manera apropiada existen cuatro componentes:

  1. Medidas de tendencia central

  2. Medidas de dispersión

  3. Tablas

  4. Gráficos

  • Las medidas de tendencia central son valores únicos que ayudan a identificar el valor central de conjunto de datos.

  • Las medidas de dispersión son valores únicos que nos ayudan a conocer en que medida los valores están dispersos o distribuidos.

  • Las tablas son un set de valores que nos ayudan a representar cuantos son los datos de un conjunto y como se repiten o distribuyen.

  • Los gráficos son la representación grafica de los datos anteriores y facilitan mucho la interpretación de los datos.


Medidas de Tendencia Central

Las medidas de tendencia central son esencialmente 3:

  1. Media o Promedio

  2. Mediana

  3. Moda


Media aritmética

La media aritmética o promedio es es la suma de las observaciones dividio la cantidad de observaciones.


Mediana

La mediana es justo el valor intermedio de las observaciones ordenadas de menor a mayor. 

  • Cuanto la catidad de observaciones es impar es simplemente el valor medio que se ubica a la mitad entre los valores menores y los mayores.

  • Cuando la cantidad de observaciones es par, es simplemente el promedio de los valores intermedios que se ubican a la mitad de los valores menores y los mayores.

En cualquier caso la mitad de los valores de las observaciones queda a un lado de la muestra y al otro lado la otra mitad.


Moda

La moda se refiere al valor que mas se repite en un set de datos.

Por ejemplo si en un se de numeros que van del 1 al 99 con repetición, el numero que mas se repite es el 17, entonces la moda es 17.


Medidas de Dispersión

Las medidas de dispersión son principalmente:

  1. Varianza y Desviación Standard

  2. Rango

  3. Rangos Intercuantilicos


Varianza y Desviación Standard

  • La varianza es un indicador de la distancia entre los datos de un conjunto y su media. El problema que tiene este indicador es que suele arrojar indicadores que están distorcionados por estar elevados al cuadrado y sin rectificar.

  • La desviación standard indica la distancia entre un conjunto determinado de puntos y la media. Este indicador es muy usado porque es la varianza rectificada por la raiz cuadrada. Es un indicador más intuitivo en sus resultados.


Rango

El rango es simplemente el valor resultante de la diferencia entre los valores máximos y minimos de un conjunto de datos.


Intercuartil

El rango intercuartile es el 50% central o intermedio de los datos, de modo que el 50% restante se divide en un 25% en los mínimos y un 25% en los máximos.


Tablas

Las tablas más importantes son:

  • Tablas de frecuencia: que basicamente son una lista que representa cuantas veces se repite cada valor de un conjunto de datos.

  • Tablas de contingencia: que son listas en dónde se muestran las frecuencias de repetición de un conjunto de datos pero desglosadas en dos dimensiones.


Análisis descriptivo

Cuando se investiga un conjunto de datos, por lo general las

siguientes características son muy importantes:

  1. Centro: un valor representativo o promedio.

  2. Variación: una medida de la cantidad en que varían los valores.

  3. Distribución: la naturaleza o forma de la distribución de los datos (como normal,

  4. uniforme o sesgada).

  5. Valores extremos: valores muestrales que se ubican muy lejos de la gran mayoría del

  6. resto de valores muestrales.

  7. Tiempo: características cambiantes de los datos a través del tiempo.


Es especialmente importante desarrollar las siguientes habilidades y comprender los

siguientes conceptos:

  1. Calcular medidas de tendencia central como la media y la mediana.

  2. Calcular medidas de variación como la desviación estándar, la varianza y el rango.

  3. Comprender e interpretar la desviación estándar utilizando herramientas como la regla práctica del intervalo.

  4. Comparar valores individuales utilizando puntuaciones z, cuartiles o percentiles.

  5. Investigar y explorar la dispersión de los datos, el centro de los datos y el rango de los valores por medio de la construcción de una gráfica de cuadro.


Referencias:

Un resumen sobre los valores descriptivos de un conjunto de datos puede vers en el siguiente link:

https://www.youtube.com/watch?v=Gi4GxE4obAc&t=609s

bottom of page