top of page

Datos para un proyecto

Datos Necesarios

Datos para un proyecto

Datos para un proyecto

Entender cuales son los datos necesarios para un proyecto de análisis de datos es algo tan importante que se han generado normativas y marcos de trabajo (plantillas) al respecto.


Introducción

Entender cuales son los datos necesarios para un proyecto de análisis de datos es algo que ayuda a definir la función de utilidad de los mismos.

En general de la experiencia surgen las mejores practicas al respecto, tanto para la definición de los datos indispensables como para enender el tipo de datos que mejor representa a los mismos.

En la tabla de la figura se muestra por ejemplo una estructura de datos de un archivo o tabla de clientes. Se trata de una estructura de datos no muy refinada por cierto. Para entender esto repasemos cuales son los tipos de datos básicos en una tabla o archivo relacional.


Explicación de Tipos de Datos Básicos en Archivos Relacionales.

  • VARCHAR(n): Se usa para cadenas de texto cortas, donde n es la longitud máxima.

  • TEXT: Se usa para almacenar texto largo como direcciones y comentarios.

  • DATE: Para fechas (YYYY-MM-DD).

  • TIMESTAMP: Para fechas y horas exactas (YYYY-MM-DD HH:MM:SS).

  • DECIMAL(m, d): Para valores monetarios, donde m es la cantidad total de dígitos y d los decimales.

Los tipos de datos, básicos o no, deben respetarse a lo largo del ciclo de vida de los datos.

Para esto existe el concepto de validación que consiste en verificar que los datos respeten el formato y las premisas con las que se los debe cargar, almacenar y procesar.


Validaciones Clave

Aquí hay algunos ejemplos básicos de validaciones.

Email: Debe seguir el formato usuario@dominio.com
Teléfono: Formato internacional recomendado +54 9 11 1234 5678
Código postal: Validar que sea real según el país
Fecha de nacimiento: No debe ser futura
Saldo: No puede ser negativo


Análisis de la dirección del cliente

Al analizar la estructura de datos del cliente vemos que si da suficiente información. En efecto en la tabla de la figura siguiente se ve como es una estructura de datos bien desglosada para la dirección de un cliente. Estos incluyen una mayor apertura con datos tales como: número de la dirección, barrio, piso, departemente, latitud, longitud para geolocalización.


Para determinar los datos necesarios para un proyecto de datos, existen varios criterios importantes:


Criterios fundamentales

  1. Objetivos del proyecto: Los datos deben alinearse con los objetivos y preguntas específicas que busca responder el proyecto.

  2. Relevancia: Seleccionar datos que tengan relación directa con el problema a resolver o la hipótesis a comprobar.

  3. Completitud: Asegurar que el conjunto de datos contenga todas las variables necesarias para el análisis.

  4. Calidad de los datos: Evaluar la precisión, integridad, consistencia y actualidad de los datos.

  5. Granularidad: Determinar el nivel de detalle requerido (diario, mensual, individual, agregado, etc.).

  6. Volumen: Estimar la cantidad de datos necesarios para obtener resultados estadísticamente significativos.

  7. Período temporal: Definir el marco temporal relevante para el análisis.

  8. Disponibilidad: Verificar si los datos requeridos están disponibles o pueden obtenerse.

  9. Costo de adquisición: Evaluar el costo-beneficio de obtener ciertos datos.

  10. Consideraciones éticas y legales: Cumplimiento con normativas de privacidad y protección de datos.

Normativas

Sí existen normativas relevantes, principalmente relacionadas con:

  • RGPD/GDPR: En Europa, regula la protección de datos personales.

  • CCPA/CPRA: En California, establece derechos sobre datos personales.

  • HIPAA: En EE.UU., para datos de salud.

  • ISO/IEC 27001: Estándar internacional para gestión de seguridad de la información.

  • Leyes sectoriales específicas: Normativas financieras, sanitarias o gubernamentales según el sector.

Cada país o región puede tener sus propias normativas sobre recopilación, almacenamiento y uso de datos.


Metodologías y plantillas

Existen varias plantillas y metodologías que pueden ayudar:

  1. Plan de gestión de datos: Documentos que describen cómo se gestionarán los datos durante y después del proyecto.

  2. Diccionario de datos: Describe cada variable, su tipo, rango y significado.

  3. Matriz RACI para datos: Define responsabilidades sobre la gestión de datos.

  4. Catálogo de requisitos de datos: Lista estructurada de necesidades de datos.

  5. CRISP-DM: Metodología estándar para proyectos de minería de datos que incluye la fase de "comprensión de datos".

  6. TDSP (Team Data Science Process): Marco de Microsoft que incluye plantillas para requisitos de datos.


bottom of page