top of page

Estandarización de datos

Criterios y recomendaciones

Estandarización de datos

Estandarización de datos

La estandarización de los datos es un componente esencial del data cleansing porque garantiza que los datos sean coherentes, precisos y fáciles de analizar. Al unificar formatos y eliminar ambigüedades, se mejora significativamente la calidad de los datos, lo que a su vez permite obtener insights más precisos y tomar decisiones informadas. En resumen, la estandarización es una parte fundamental del proceso de limpieza de datos, ya que facilita la identificación y corrección de errores, y previene futuros problemas al establecer un marco claro para la gestión de datos.


Para profundizar en la estandarización de datos (que es parte del proceso del data cleansig) tomemos como ejemplo una base de datos de clientes que tiene las siguietnes dimensiones:

  • ID de Cliente

  • Nombre

  • Documento de Identidad

  • Domicilio

  • Código Postal

  • E-mail

  • Teléfono

  • Fecha (ej. de Alta o ultima compra)

A partir de esta estructura veamos cuales son las recomendaciones para la estandarización en cada caso o dimensión.


ID de Cliente

Mejores prácticas:

  • Formato único y consistente (numérico, alfanumérico)

  • Sin espacios ni caracteres especiales

  • Longitud fija cuando sea posible

  • Prefijos para segmentar tipos de clientes

Estándares vigentes:

  • No hay un estándar global único para IDs internos

  • En sistemas bancarios suelen usarse números de 10-16 dígitos

  • En retail, códigos alfanuméricos con prefijos por categoría

Nombre

Mejores prácticas:

  • Separar en campos (Alias, Nombre, Apellido1, Apellido2)

  • Capitalización consistente (primera letra mayúscula)

  • Eliminar títulos (Dr., Sr., etc.) o almacenarlos en campo separado

  • Eliminar caracteres especiales manteniendo acentos y ñ

Estándares vigentes:

  • ISO/IEC 8859-1 para caracteres latinos

  • Formato NIST para almacenamiento de nombres personales

  • Estándar vCard (RFC 6350) para intercambio de información personal

Documento de Identidad

Mejores prácticas:

  • Formato específico según país/tipo de documento

  • Eliminar puntos, espacios y guiones

  • Almacenar tipo de documento en campo separado

  • Validar mediante algoritmos de verificación si existen

Estándares vigentes:

  • ISO/IEC 7501 para documentos de viaje legibles por máquina

  • Estándares nacionales (DNI en España, CPF en Brasil, CURP en México, etc.)

Domicilio (Calle, Número)

Mejores prácticas:

  • Dividir en componentes (calle, número, piso, etc.)

  • Abreviaturas estándar (Av., Blvd., etc.)

  • Normalización de direcciones contra base oficial

  • Geocodificación para validación

Estándares vigentes:

  • ISO 19160 para direcciones postales

  • UPU (Unión Postal Universal) S42 para intercambio internacional

  • USPS para abreviaturas en Estados Unidos

  • Estándares nacionales de correos

Código Postal (ZIP Code)

Mejores prácticas:

  • Formato fijo según país

  • Validación contra base oficial de códigos postales

  • Almacenar sin espacios o con formato consistente

  • Relacionar con localidad/provincia para validación cruzada

Estándares vigentes:

  • S42 de la UPU para códigos postales internacionales

  • Formatos específicos por país (5 dígitos en USA, alfanumérico en UK)

E-mail

Mejores prácticas:

  • Convertir a minúsculas

  • Validar formato mediante expresiones regulares

  • Verificar existencia de dominio

  • Eliminar espacios y caracteres no permitidos

Estándares vigentes:

  • RFC 5322 para formato de correo electrónico

  • RFC 3696 para restricciones en direcciones de correo

  • IDNA para dominios internacionalizados

Teléfono

Mejores prácticas:

  • Prefijo internacional: Incluir siempre el + seguido del código país

  • Eliminar caracteres no numéricos: Quitar paréntesis, guiones y espacios

  • Validación con HLR Lookup: Verificar existencia de números mediante bases de datos globales de operadores

Estándares vigentes:

  1. Formato E.164 (UIT):
    Estructura: +[código país][número completo sin ceros iniciales]
    Ejemplo: +1 202 555 1234 (EE.UU.)56
    Obligatorio para SMS y VoIP5.

  2. Norma E.123 (UIT):
    Recomienda usar espacios como separadores:
    +54 9 506 5682 (Argentina)

Fecha

Problemas comunes

  • Ambigüedad numérica: 02/04/03 puede interpretarse como 4 de febrero de 2003 (EE.UU.) o 2 de abril de 2003 (Europa).

  • Variaciones culturales: Meses escritos en idiomas locales (ej. "Août" en francés) generan confusiones.

Estándares internacionales

ISO 8601 (norma global)

  1. Formato básico:
    AAAA-MM-DD (ej. 2025-03-19).
    AAAAMMDD sin separadores (ej. 20250319).

  2. Formato extendido:
    Incluye separadores para legibilidad: YYYY-MM-DDTHH:MM:SSZ (hora en UTC).
    Ejemplo completo: 2025-03-19T00:49:48Z4.

Mejores prácticas

  1. Evitar formatos ambiguos:
    Incorrecto: 10/12/11 (¿10 de diciembre de 2011 o 12 de octubre de 2011?).
    Correcto: 2011-12-1014.

  2. Usar separadores estándar:
    Guiones (-) para fechas, dos puntos (:) para horas.

  3. Incluir zona horaria:
    2025-03-19T00:49:48+00:00 (UTC) o 2025-03-19T00:49:48Z

Implicancias técnicas

  1. Orden cronológico:
    2025-03-19 precede a 2025-03-20 alfabéticamente y cronológicamente.

  2. Periodos de tiempo:
    Usar P para intervalos: P1Y2M3D (1 año, 2 meses, 3 días).

  3. Validación:
    Herramientas como Date parsing de Canadensys convierten formatos locales a ISO 8601




bottom of page