top of page

Datos para un proyecto

Primera etapa: DUF. Utilidad de los datos.

Recolección y entendimiento de los datos.

Recolección y entendimiento de los datos.

Las primeras consideraciones son en función del origen de los datos necesarios.

  • Datos existentes. Incluye una amplia variedad de datos, como datos transaccionales, datos de encuesta, registros Web, etc. Tenga en cuenta si los datos existentes son suficientes para adaptarse a sus necesidades.

  • Datos adquiridos. ¿Su organización utiliza datos adicionales, como datos demográficos? Si no los utiliza, considere si son necesarios.

  • Datos adicionales. Si los orígenes anteriores no satisfacen sus necesidades, es posible que necesite realizar encuestas o realizar seguimientos adicionales para servir de complemento a los almacenes de datos actuales.


Lista de tareas

Observe los datos  y considere las siguientes cuestiones:

  • ¿Qué atributos (columnas) de la base de datos parecen más prometedores?

  • ¿Qué atributos no parecen relevantes y se pueden excluir?

  • ¿Existen datos suficientes para obtener conclusiones generales o realizar predicciones precisas?

  • ¿Dispone de atributos suficientes para su proyecto?

  • ¿Está fusionando varios orígenes de datos? En caso afirmativo, ¿existen áreas que puedan plantear problemas al fusionar?

  • ¿Ha considerado cómo se gestionan los valores perdidos en cada origen de datos?


Reconocimiento y análisis de utilidad de los datos

El reconocimiento y clasificación de un determinado tipo de dato esta asociado y permite entender la utilidad del mismo. La utilidad de un dato es función de su grado de implicancia o interés para un determinado análisis o proyecto.

Para avanzar en el análisis de la utilidad de los datos es siempre bueno y necesario hacer el ejercicio de clasificarlos de acuerdo a criterios de nominalidad, ordinalidad, intervalos, rangos y proporcionalidad más allá de verlos simplemente como datos cuantitantivos o cualitativos.

Los niveles de medición de los datos son importantes porque nos ayudan a definir como los datos pueden ser recabados, analizados e interpretados.


Función de utilidad de los datos

La DUF (Data Utility Function) o "función de utilidad de los datos" es un concepto que se utiliza para medir la calidad, utilidad o valor de un conjunto de datos en función de un objetivo específico. Es una herramienta clave en el ámbito de la gestión y análisis de datos, especialmente en áreas como anonimización, calidad de datos y optimización de procesos de aprendizaje automático.


La DUF asigna un valor cuantitativo que indica cuánto un conjunto de datos cumple con los requisitos para un propósito específico, como:

  • Tomar decisiones empresariales.

  • Entrenar modelos de aprendizaje automático.

  • Realizar análisis estadísticos.


Componentes comunes de la DUF

  1. Calidad de los datos:
    Considera aspectos como precisión, completitud, consistencia, validez y puntualidad de los datos.
    Ejemplo: Si los datos tienen muchos valores faltantes, su utilidad será menor.

  2. Relevancia para el objetivo:
    Mide cuánto los datos están alineados con el propósito definido.
    Ejemplo: Para predecir ventas, datos sobre comportamiento de compra serán más útiles que datos demográficos generales.

  3. Privacidad y anonimización:
    En casos de datos sensibles, la DUF evalúa el equilibrio entre anonimización y pérdida de utilidad.
    Ejemplo: Un conjunto de datos anonimizado puede ser seguro pero menos útil si elimina demasiada información.

  4. Facilidad de uso:
    Evalúa cómo de accesibles y comprensibles son los datos.
    Ejemplo: Un archivo bien documentado tendrá mayor utilidad.


Fórmulas o Métodos para calcular DUF

La DUF no tiene una fórmula única porque depende del contexto. Sin embargo, se puede calcular mediante:

  • Métodos estadísticos: Indicadores como entropía o varianza para medir información.

  • Evaluación de tareas: Usar métricas de rendimiento de un modelo o un análisis basado en los datos.

  • Métodos multicriterio: Combinar múltiples indicadores (calidad, privacidad, relevancia) en un índice ponderado.


Ejemplo práctico

Supongamos que analizamos un conjunto de datos para entrenar un modelo de predicción de fraudes.

  • Si los datos tienen muchas variables irrelevantes, la DUF será baja por falta de enfoque.

  • Si las etiquetas son incorrectas, la DUF también baja por imprecisión.

  • Si están altamente anonimizados, puede haber pérdida de utilidad para el modelo.


Importancia de la DUF

La función de utilidad de los datos ayuda a:

  • Priorizar la limpieza y curación de datos.

  • Tomar decisiones sobre el grado de anonimización aceptable.

  • Identificar qué datos deben recolectarse o mejorarse para maximizar valor.


bottom of page