Estandarización de datos
Criterios y recomendaciones

Estandarización de datos
La estandarización de los datos es un componente esencial del data cleansing porque garantiza que los datos sean coherentes, precisos y fáciles de analizar. Al unificar formatos y eliminar ambigüedades, se mejora significativamente la calidad de los datos, lo que a su vez permite obtener insights más precisos y tomar decisiones informadas. En resumen, la estandarización es una parte fundamental del proceso de limpieza de datos, ya que facilita la identificación y corrección de errores, y previene futuros problemas al establecer un marco claro para la gestión de datos.
Para profundizar en la estandarización de datos (que es parte del proceso del data cleansig) tomemos como ejemplo una base de datos de clientes que tiene las siguietnes dimensiones:
ID de Cliente
Nombre
Documento de Identidad
Domicilio
Código Postal
E-mail
Teléfono
Fecha (ej. de Alta o ultima compra)
A partir de esta estructura veamos cuales son las recomendaciones para la estandarización en cada caso o dimensión.
ID de Cliente
Mejores prácticas:
Formato único y consistente (numérico, alfanumérico)
Sin espacios ni caracteres especiales
Longitud fija cuando sea posible
Prefijos para segmentar tipos de clientes
Estándares vigentes:
No hay un estándar global único para IDs internos
En sistemas bancarios suelen usarse números de 10-16 dígitos
En retail, códigos alfanuméricos con prefijos por categoría
Nombre
Mejores prácticas:
Separar en campos (Alias, Nombre, Apellido1, Apellido2)
Capitalización consistente (primera letra mayúscula)
Eliminar títulos (Dr., Sr., etc.) o almacenarlos en campo separado
Eliminar caracteres especiales manteniendo acentos y ñ
Estándares vigentes:
ISO/IEC 8859-1 para caracteres latinos
Formato NIST para almacenamiento de nombres personales
Estándar vCard (RFC 6350) para intercambio de información personal
Documento de Identidad
Mejores prácticas:
Formato específico según país/tipo de documento
Eliminar puntos, espacios y guiones
Almacenar tipo de documento en campo separado
Validar mediante algoritmos de verificación si existen
Estándares vigentes:
ISO/IEC 7501 para documentos de viaje legibles por máquina
Estándares nacionales (DNI en España, CPF en Brasil, CURP en México, etc.)
Domicilio (Calle, Número)
Mejores prácticas:
Dividir en componentes (calle, número, piso, etc.)
Abreviaturas estándar (Av., Blvd., etc.)
Normalización de direcciones contra base oficial
Geocodificación para validación
Estándares vigentes:
ISO 19160 para direcciones postales
UPU (Unión Postal Universal) S42 para intercambio internacional
USPS para abreviaturas en Estados Unidos
Estándares nacionales de correos
Código Postal (ZIP Code)
Mejores prácticas:
Formato fijo según país
Validación contra base oficial de códigos postales
Almacenar sin espacios o con formato consistente
Relacionar con localidad/provincia para validación cruzada
Estándares vigentes:
S42 de la UPU para códigos postales internacionales
Formatos específicos por país (5 dígitos en USA, alfanumérico en UK)
Mejores prácticas:
Convertir a minúsculas
Validar formato mediante expresiones regulares
Verificar existencia de dominio
Eliminar espacios y caracteres no permitidos
Estándares vigentes:
RFC 5322 para formato de correo electrónico
RFC 3696 para restricciones en direcciones de correo
IDNA para dominios internacionalizados
Teléfono
Mejores prácticas:
Prefijo internacional: Incluir siempre el
+
seguido del código paísEliminar caracteres no numéricos: Quitar paréntesis, guiones y espacios
Validación con HLR Lookup: Verificar existencia de números mediante bases de datos globales de operadores
Estándares vigentes:
Formato E.164 (UIT):
Estructura:+[código país][número completo sin ceros iniciales]
Ejemplo:
+1 202 555 1234
(EE.UU.)5
6
Obligatorio para SMS y VoIP
5
.Norma E.123 (UIT):
Recomienda usar espacios como separadores:
+54 9 506 5682
(Argentina)
Fecha
Problemas comunes
Ambigüedad numérica:
02/04/03
puede interpretarse como 4 de febrero de 2003 (EE.UU.) o 2 de abril de 2003 (Europa).Variaciones culturales: Meses escritos en idiomas locales (ej. "Août" en francés) generan confusiones.
Estándares internacionales
ISO 8601 (norma global)
Formato básico:
AAAA-MM-DD (ej.2025-03-19
).
AAAAMMDD sin separadores (ej.20250319
).Formato extendido:
Incluye separadores para legibilidad:YYYY-MM-DDTHH:MM:SSZ
(hora en UTC).
Ejemplo completo:2025-03-19T00:49:48Z
4
.
Mejores prácticas
Evitar formatos ambiguos:
Incorrecto:10/12/11
(¿10 de diciembre de 2011 o 12 de octubre de 2011?).
Correcto:2011-12-10
1
4
.Usar separadores estándar:
Guiones (-
) para fechas, dos puntos (:
) para horas.Incluir zona horaria:
2025-03-19T00:49:48+00:00
(UTC) o2025-03-19T00:49:48Z
Implicancias técnicas
Orden cronológico:
2025-03-19
precede a2025-03-20
alfabéticamente y cronológicamente.Periodos de tiempo:
UsarP
para intervalos:P1Y2M3D
(1 año, 2 meses, 3 días).Validación:
Herramientas comoDate parsing
de Canadensys convierten formatos locales a ISO 8601