Validación y Verificación
Errores, inconsistencias y normalización

Control de inconsistencias, errores y utilidad de los datos.
La verificación de la calidad de los datos se debe realizar en la etapa de exploración de los mismos y con una idea de para que se quieren usar. Entre los errores mas comunes que afectan la calidad de los datos suelen destacarse:
Datos faltantes. Los datos perdidos conocidos incluyen cuestionarios sin responder por parte de algunos usuarios registrados. Sin la información extra que proporciona este cuestionario, estos clientes se pueden omitir en algunos de los siguientes modelos.
Errores tipográficos. La mayoría de los orígenes de datos se generan automáticamente, por lo que no es un problema grave. Los errores tipográficos de la base de datos de producto se pueden detectar durante el proceso de exploración.
Errores de mediciones. El origen principal de los errores de suelen ser los cuestionarios. Si alguno de los elementos no está cumplimentado correctamente, es posible que no proporcione la información que se espera obtener. De nuevo, durante el proceso de exploración, es importante prestar una especial atención a los elementos que tienen una distribución inusual de las respuestas.
Las incoherencias de codificación, suelen incluir unidades no estándar de medida o valores incoherentes, como el uso de M y masculino para expresar el género.
Los metadatos erróneos incluyen errores entre el significado aparente de un campo incluido en un nombre o definición de campo.
La temporalidad de la información puede ser motivo de errores sino se verifican las fechas desde y hasta que involucra el alcance del proyecto.
Observando errores e inconsistencias se procede a a resolver las mismas:
Definiendo criterios para los valores nulos o inesperados.
Aplicando reemplazos de valores con algunos más faciles de usar para machine learning o para visualizaciones.
Generar perfiles de datos que puedan obtener más información sobre una columna específica antes de usarla.
Evaluar y transformar datos de columnas.
Aplicar transformaciones de forma de datos a estructurs de tabla.
Combinar consultas
Aplicar converciones y nomeclatura fáciles de comprender.
Depuración de los datos
El preprosesamiento de los datos es esencial. Esto incluye:
La selección de los atributos relevantes.
La elminación de valores atípicos.
La normalización de características.
Estandarización
La estandarización de datos es clave en el análisis de datos porque garantiza consistencia y calidad.
Utilicemos como ejemplo la normalización de los códigos postales (ZIP codes) en principio de Estados Unidos.
Los códigos postales en EE. UU. pueden presentarse de diferentes formas, por ejemplo:
Formato estándar de 5 dígitos:
12345
Formato extendido ZIP+4:
12345-6789
Formato inconsistente:
12345
(con espacios),123456789
(sin guion),12-345
(mal escrito)
El sistema de códigos postales en EE. UU. tiene dos formatos:
1. ZIP Code de 5 dígitos (básico)
Introducido en 1963 por el USPS.
Consiste en cinco dígitos, donde:Los primeros tres representan una región específica (generalmente una ciudad o un área dentro de un estado).
Los dos últimos identifican una zona más pequeña dentro de la región, como una oficina de correos o un sector específico.
🔹 Ejemplo: 12345
123
→ Región (puede ser una ciudad o parte de un estado).45
→ Oficina de correos o área más específica dentro de la ciudad.
2. ZIP+4 (ZIP Code extendido)
Introducido en 1983 para mejorar la precisión en la entrega del correo.
Agrega cuatro dígitos adicionales al código postal de 5 dígitos (
12345-6789
).Los 4 dígitos extra permiten identificar con más detalle:Un grupo de direcciones en una cuadra.
Un edificio específico dentro de un complejo de apartamentos.
Un destinatario grande (como una universidad o una empresa con alto volumen de correo).
🔹 Ejemplo: 12345-6789
12345
→ Código postal base.6789
→ Sector específico (una calle, edificio, piso, etc.).
Justificación de la existencia de ambos formatos?
ZIP de 5 dígitos es suficiente para la mayoría de los envíos básicos.
ZIP+4 mejora la precisión y velocidad del correo al permitir la clasificación automatizada y reducir errores de entrega.
¿Es obligatorio usar ZIP+4?
No, pero USPS lo recomienda porque ayuda a que las cartas y paquetes lleguen más rápido y con menor riesgo de error.
Justificación de la normalización
La normalización ayuda a asegurarnos de que todos los ZIP codes sigan un formato uniforme.
Métodos de normalización
1. Eliminar espacios y caracteres no válidos
Convertir en texto (string) si el dato no lo es.
Eliminar espacios en blanco antes y después.
Remover caracteres no deseados (excepto el guion en ZIP+4).
2. Asegurar que los códigos tengan el formato correcto
Si el código tiene 9 dígitos sin guion (
123456789
), formatearlo como12345-6789
.Si tiene solo 5 dígitos, dejarlo tal cual (
12345
).Si tiene caracteres inválidos, marcarlo como incorrecto para revisión.
3. Validación contra una lista oficial
Comparar los ZIP codes con bases de datos oficiales del Servicio Postal de EE. UU. (USPS).
Esto es útil para detectar errores o códigos inexistentes.
Funciones del USPS respecto a los ZIP codes
Asignación de ZIP Codes:USPS determina qué áreas reciben qué códigos postales, basándose en la distribución del correo y la logística.
Los ZIP codes no siempre siguen límites geográficos como ciudades o condados; están diseñados más bien para optimizar la entrega de correo.
Estandarización y Normas:Define el formato correcto de los códigos postales (5 dígitos o ZIP+4).
Mantiene una base de datos oficial de todos los ZIP codes en el país.
Publicación y Validación:Proporciona APIs y bases de datos actualizadas para validación de direcciones.
Empresas y organismos pueden verificar la autenticidad de un ZIP code usando los servicios de USPS.
Base de Datos y API del USPS
El USPS ofrece servicios para validar y normalizar direcciones mediante:
ZIP Code Lookup Tool (en línea): Permite buscar códigos postales válidos.
USPS Address API: Se puede integrar en sistemas para verificar y formatear direcciones automáticamente.
Para trabajar con datos reales y validar ZIP codes, podemos usar herramientas como:
La API de USPS (requiere registro).
Bases de datos del Censo de EE.UU., que también contienen ZIP codes asignados a regiones.
Servicios de validación de direcciones como SmartyStreets o Melissa Data.
Para validar un ZIP code en EE.UU., se deben considerar los siguientes criterios:
1. Formato correcto
Un ZIP code estándar debe tener 5 dígitos numéricos (
12345
).Un ZIP+4 debe tener 9 dígitos con guion (
12345-6789
).No debe contener letras ni caracteres especiales (excepto el guion en ZIP+4).
2. Rango válido de ZIP codes
Los códigos postales de EE.UU. NO van de
00000
a99999
.Rango real asignado:Los ZIP codes más bajos comienzan en
00501
(Holtsville, NY - Centro de Servicio del IRS).
Los más altos llegan hasta99950
(Ketchikan, Alaska).
No existen códigos como00000
o99999
en uso.
3. Prefijos de ZIP codes
El primer dígito del ZIP code indica la región general:
0
→ Nueva Inglaterra (Maine, Massachusetts, etc.).
2
→ Atlántico Medio (DC, Virginia, Maryland).
5
→ Medio Oeste (Illinois, Missouri, etc.).
9
→ Oeste (California, Oregón, Washington).
Los siguientes dígitos especifican áreas más pequeñas dentro de la región.
4. Validación contra una base de datos oficial
Para verificar si un ZIP code realmente existe, se debe:
Consultar la API del USPS o su herramienta de búsqueda.
Usar bases de datos del Censo de EE.UU. o listas de ZIP codes actualizadas.
Para validar códigos postales (ZIP codes) de Estados Unidos, es esencial utilizar bases de datos actualizadas y confiables. A continuación, te presento algunas opciones que puedes considerar:
1. GeoNames
GeoNames es una base de datos geográfica gratuita que contiene más de 10 millones de nombres geográficos, incluyendo códigos postales. Estos datos están disponibles bajo una licencia Creative Commons Reconocimiento 3.0.
Acceso: Libre y gratuito.
Descarga: Puedes descargar los datos directamente desde su sitio web.
Contenido: Incluye información como latitud, longitud, altitud, población, subdivisión administrativa y código postal para cada ubicación.
Nota: Aunque GeoNames es una fuente gratuita y accesible, siempre es recomendable verificar la exactitud y actualidad de los datos descargados, especialmente si se utilizarán para aplicaciones críticas.
2. PostCodeBase.com
PostCodeBase.com ofrece una base de datos de códigos postales de Estados Unidos que incluye información detallada como el nombre de la ciudad, tipo de ciudad, nombre del condado, código FIPS del condado, nombre del estado, abreviatura del estado, código MSA, código de área, zona horaria, UTC, DST, latitud y longitud.
Acceso: Requiere pago.
Descarga: Disponible para descarga inmediata tras la compra.
Contenido: Aproximadamente 80,163 ítems en la base de datos de códigos postales de Estados Unidos.
Nota: Esta opción es de pago, por lo que deberías evaluar si las características adicionales que ofrece justifican el costo en función de tus necesidades específicas.
3. SimpleMaps.com
SimpleMaps.com proporciona una base de datos de códigos postales de EE. UU. que incluye información geográfica detallada.
Acceso: Ofrece una versión básica gratuita y versiones Pro y Comprehensive de pago.
Descarga: La versión gratuita está disponible para descarga directa; las versiones de pago ofrecen datos más completos y actualizados.
Contenido: La versión gratuita incluye datos geográficos básicos; las versiones de pago añaden información demográfica y otros detalles.
Nota: La versión gratuita puede ser suficiente para necesidades básicas, pero si requieres datos más detallados o actualizados, podrías considerar las versiones de pago.
Consideraciones Adicionales
Actualización de Datos: Es crucial asegurarse de que la base de datos que elijas esté actualizada para reflejar cambios recientes en los códigos postales.
Licencia y Uso: Verifica las licencias de uso asociadas a cada base de datos para asegurarte de cumplir con sus términos, especialmente si planeas utilizar los datos con fines comerciales.
Integración: Considera cómo integrarás la base de datos en tus sistemas existentes y si el formato de los datos es compatible con tus herramientas actuales.
En resumen, existen opciones tanto gratuitas como de pago para acceder a bases de datos de códigos postales de Estados Unidos. La elección dependerá de tus necesidades específicas, el nivel de detalle requerido y el presupuesto disponible.
Validación y Verificación de Datos en el Análisis de Datos
La validación y la verificación de datos son procesos esenciales para garantizar la calidad, precisión y consistencia de los datos utilizados en el análisis y la toma de decisiones. Asegurar que los datos sean confiables evita errores en reportes, modelos predictivos y operaciones empresariales.
1. Diferencia entre Validación y Verificación de Datos
Validación de datos: Es el proceso de comprobar si los datos cumplen con ciertos criterios y reglas predefinidas antes y después de ser almacenados en un sistema. Su objetivo es garantizar que los datos sean correctos, completos y útiles.Ejemplo: Verificar si un correo electrónico ingresado sigue el formato adecuado (nombre@dominio.com).
Verificación de datos: Se centra en asegurarse de que los datos no han sido modificados, alterados o corrompidos durante su transferencia o almacenamiento.Ejemplo: Comparar valores en una base de datos original con una copia para detectar discrepancias.
Ambos procesos son fundamentales para mantener la calidad y confiabilidad de los datos.
2. Identificación de Problemas en los Datos
Al analizar datos, es común encontrar diversas inconsistencias que deben ser detectadas y corregidas. Los principales problemas incluyen:
Valores Perdidos (Missing Values): Datos ausentes en columnas críticas pueden afectar los cálculos y la interpretación de la información.
Duplicados: Registros repetidos generan errores en reportes y modelos analíticos.
Errores de Formato (Formatting Errors): Datos ingresados incorrectamente, como fechas en distintos formatos o textos con caracteres inválidos.
Valores Atípicos (Outliers): Datos que se alejan significativamente del comportamiento esperado, lo que puede indicar errores o eventos inusuales.
3. Métodos para Detectar Problemas en los Datos
Para asegurar la calidad de los datos, se pueden aplicar distintas técnicas de validación y verificación:
3.1. Detección de Valores Perdidos
Uso de funciones en Python como
isnull()
oisna()
en Pandas.Revisión manual en herramientas como Excel o Power BI.
Aplicación de reglas de negocio (ejemplo: si un cliente ha realizado una compra, su ID no debe estar vacío).
3.2. Identificación de Duplicados
Uso de
duplicated()
en Python para encontrar registros repetidos.Aplicación de consultas SQL con
GROUP BY
yCOUNT(*) > 1
para detectar datos redundantes.Filtros en hojas de cálculo para identificar valores repetidos.
3.3. Corrección de Errores de Formato
Uso de expresiones regulares (regex) para validar formatos de correos electrónicos, códigos postales y números de teléfono.
Normalización de formatos de fecha y número en bases de datos y hojas de cálculo.
3.4. Detección de Outliers
Aplicación del método Z-score para identificar valores que se alejan de la media.
Uso del rango intercuartil (IQR) para detectar valores extremos.
Visualización de outliers mediante gráficos de caja (boxplot) en Python, R o Power BI.
Definición de reglas de negocio específicas (ejemplo: una edad mayor a 120 años es sospechosa).
4. Herramientas para la Verificación y Validación de Datos
Para mejorar la calidad de los datos, existen diversas herramientas que permiten detectar, corregir y gestionar inconsistencias:
4.1. Herramientas de Perfilado y Análisis de Datos
Pandas (Python): Biblioteca utilizada para manipulación y limpieza de datos.
Excel y Google Sheets: Herramientas básicas para validación manual y aplicación de reglas condicionales.
Power BI y Tableau: Software de visualización que permite identificar anomalías en los datos.
SQL (Structured Query Language): Lenguaje utilizado para detectar duplicados, valores faltantes y errores de formato.
Informatica Data Quality y Talend Data Quality: Herramientas empresariales para la validación automatizada de datos.
4.2. Herramientas ETL (Extract, Transform, Load)
Apache NiFi y AWS Glue: Soluciones para integración y limpieza de datos en la nube.
Microsoft SSIS (SQL Server Integration Services): Herramienta para transformación de datos en procesos ETL.
4.3. Herramientas para la Detección de Outliers y Calidad de Datos
Scikit-learn (Python): Biblioteca de machine learning con funciones para detectar valores atípicos.
PyCaret: Herramienta para automatizar la validación y limpieza de datos.
IBM InfoSphere: Solución empresarial para monitoreo y control de calidad de datos.
5. Normativas y Estándares para la Validación de Datos
Diversas normativas establecen criterios y mejores prácticas para garantizar la calidad y seguridad de los datos:
ISO 8000: Estándar internacional sobre calidad de datos.
ISO/IEC 25012: Modelo de calidad de datos que define criterios como precisión, consistencia y credibilidad.
DAMA-DMBOK: Buenas prácticas en gestión y gobernanza de datos.
GDPR (General Data Protection Regulation): Normativa de privacidad que exige validaciones de integridad de datos personales.
HIPAA (Health Insurance Portability and Accountability Act): Estándar para garantizar la calidad de los datos en el sector de la salud.
COBIT (Control Objectives for Information and Related Technologies): Modelo de gobernanza que incluye gestión de calidad de datos.
6. Procedimientos para la Validación de Datos
6.1. Definición de Criterios de Validación
Antes de realizar la validación, es necesario establecer reglas claras para los datos, tales como:
Fechas deben estar en un formato específico y dentro de un rango válido.
Campos obligatorios no deben contener valores vacíos.
Restricciones de formato para correos electrónicos, números de identificación y direcciones.
6.2. Automatización de la Validación
Para optimizar el proceso, se recomienda:
Implementar scripts en Python o SQL que detecten valores nulos, duplicados y errores de formato.
Configurar alertas en bases de datos para identificar inconsistencias en tiempo real.
6.3. Generación de Reportes de Calidad de Datos
Crear dashboards en Power BI que muestren la cantidad de valores faltantes, duplicados y errores detectados.
Generar informes automáticos con estadísticas sobre la calidad de los datos.
6.4. Corrección y Limpieza de Datos
Aplicar métodos de imputación para reemplazar valores faltantes.
Eliminar o fusionar registros duplicados.
Normalizar datos en distintos formatos para garantizar consistencia.
6.5. Monitoreo y Actualización Continua
Implementar auditorías de calidad de datos de forma periódica.
Validar los datos antes de su uso en modelos de machine learning o reportes financieros.
Conclusión
La validación y verificación de datos son procesos esenciales en cualquier entorno de análisis de datos. Detectar valores faltantes, duplicados, errores de formato y outliers permite mejorar la calidad y confiabilidad de los datos.
Para lograrlo, se deben combinar técnicas de análisis, herramientas especializadas y normativas reconocidas que aseguren que los datos sean precisos y útiles. Implementar procedimientos de validación garantiza mejores decisiones y optimiza el rendimiento en sistemas empresariales, científicos y tecnológicos.


