Datos para un proyecto
Primera etapa: DUF. Utilidad de los datos.
Recolección y entendimiento de los datos.
Las primeras consideraciones son en función del origen de los datos necesarios.
Datos existentes. Incluye una amplia variedad de datos, como datos transaccionales, datos de encuesta, registros Web, etc. Tenga en cuenta si los datos existentes son suficientes para adaptarse a sus necesidades.
Datos adquiridos. ¿Su organización utiliza datos adicionales, como datos demográficos? Si no los utiliza, considere si son necesarios.
Datos adicionales. Si los orígenes anteriores no satisfacen sus necesidades, es posible que necesite realizar encuestas o realizar seguimientos adicionales para servir de complemento a los almacenes de datos actuales.
Lista de tareas
Observe los datos y considere las siguientes cuestiones:
¿Qué atributos (columnas) de la base de datos parecen más prometedores?
¿Qué atributos no parecen relevantes y se pueden excluir?
¿Existen datos suficientes para obtener conclusiones generales o realizar predicciones precisas?
¿Dispone de atributos suficientes para su proyecto?
¿Está fusionando varios orígenes de datos? En caso afirmativo, ¿existen áreas que puedan plantear problemas al fusionar?
¿Ha considerado cómo se gestionan los valores perdidos en cada origen de datos?
Reconocimiento y análisis de utilidad de los datos
El reconocimiento y clasificación de un determinado tipo de dato esta asociado y permite entender la utilidad del mismo. La utilidad de un dato es función de su grado de implicancia o interés para un determinado análisis o proyecto.
Para avanzar en el análisis de la utilidad de los datos es siempre bueno y necesario hacer el ejercicio de clasificarlos de acuerdo a criterios de nominalidad, ordinalidad, intervalos, rangos y proporcionalidad más allá de verlos simplemente como datos cuantitantivos o cualitativos.
Los niveles de medición de los datos son importantes porque nos ayudan a definir como los datos pueden ser recabados, analizados e interpretados.
Función de utilidad de los datos
La DUF (Data Utility Function) o "función de utilidad de los datos" es un concepto que se utiliza para medir la calidad, utilidad o valor de un conjunto de datos en función de un objetivo específico. Es una herramienta clave en el ámbito de la gestión y análisis de datos, especialmente en áreas como anonimización, calidad de datos y optimización de procesos de aprendizaje automático.
La DUF asigna un valor cuantitativo que indica cuánto un conjunto de datos cumple con los requisitos para un propósito específico, como:
Tomar decisiones empresariales.
Entrenar modelos de aprendizaje automático.
Realizar análisis estadísticos.
Componentes comunes de la DUF
Calidad de los datos:
Considera aspectos como precisión, completitud, consistencia, validez y puntualidad de los datos.
Ejemplo: Si los datos tienen muchos valores faltantes, su utilidad será menor.Relevancia para el objetivo:
Mide cuánto los datos están alineados con el propósito definido.
Ejemplo: Para predecir ventas, datos sobre comportamiento de compra serán más útiles que datos demográficos generales.Privacidad y anonimización:
En casos de datos sensibles, la DUF evalúa el equilibrio entre anonimización y pérdida de utilidad.
Ejemplo: Un conjunto de datos anonimizado puede ser seguro pero menos útil si elimina demasiada información.Facilidad de uso:
Evalúa cómo de accesibles y comprensibles son los datos.
Ejemplo: Un archivo bien documentado tendrá mayor utilidad.
Fórmulas o Métodos para calcular DUF
La DUF no tiene una fórmula única porque depende del contexto. Sin embargo, se puede calcular mediante:
Métodos estadísticos: Indicadores como entropía o varianza para medir información.
Evaluación de tareas: Usar métricas de rendimiento de un modelo o un análisis basado en los datos.
Métodos multicriterio: Combinar múltiples indicadores (calidad, privacidad, relevancia) en un índice ponderado.
Ejemplo práctico
Supongamos que analizamos un conjunto de datos para entrenar un modelo de predicción de fraudes.
Si los datos tienen muchas variables irrelevantes, la DUF será baja por falta de enfoque.
Si las etiquetas son incorrectas, la DUF también baja por imprecisión.
Si están altamente anonimizados, puede haber pérdida de utilidad para el modelo.
Importancia de la DUF
La función de utilidad de los datos ayuda a:
Priorizar la limpieza y curación de datos.
Tomar decisiones sobre el grado de anonimización aceptable.
Identificar qué datos deben recolectarse o mejorarse para maximizar valor.