< Back

Verificación de datos

Segunda etapa: Errores e inconsistencias

Control de inconsistencias, errores y utilidad de los datos.

La verificación de la calidad de los datos se debe realizar en la etapa de exploración de los mismos y con una idea de para que se quieren usar. Entre los errores mas comunes que afectan la calidad de los datos suelen destacarse:

Datos faltantes. Los datos perdidos conocidos incluyen cuestionarios sin responder por parte de algunos usuarios registrados. Sin la información extra que proporciona este cuestionario, estos clientes se pueden omitir en algunos de los siguientes modelos.
Errores tipográficos. La mayoría de los orígenes de datos se generan automáticamente, por lo que no es un problema grave. Los errores tipográficos de la base de datos de producto se pueden detectar durante el proceso de exploración.
Errores de mediciones. El origen principal de los errores de suelen ser los cuestionarios. Si alguno de los elementos no está cumplimentado correctamente, es posible que no proporcione la información que se espera obtener. De nuevo, durante el proceso de exploración, es importante prestar una especial atención a los elementos que tienen una distribución inusual de las respuestas.
Las incoherencias de codificación, suelen incluir unidades no estándar de medida o valores incoherentes, como el uso de M y masculino para expresar el género.
Los metadatos erróneos incluyen errores entre el significado aparente de un campo incluido en un nombre o definición de campo.
La temporalidad de la información puede ser motivo de errores sino se verifican las fechas desde y hasta que involucra el alcance del proyecto.

Observando errores e inconsistencias se procedea a resolver las mismas:

Definiendo criterios para los valores nulos o inesperados.
Aplicando reemplazos de valores con algunos más faciles de usar para machine learning o para visualizaciones.
Generar perfiles de datos que puedan obtener más información sobre una columna específica antes de usarla.
Evaluar y transformar datos de columnas.
Aplicar transformaciones de forma de datos a estructurs de tabla.
Combinar consultas
Aplicar converciones y nomeclatura fáciles de comprender.