Niveles de Medición
Ordenamiento y Clasificación
Tipos de datos y Niveles de Medición
Datos
Los datos son representaciones de observaciones.
Un dato es un dato cuando tiene un significado, y tiene un significado cuando representa algo.
Por ejemplo, la frase: "un dado es color rojo", nos conduce a imaginar una observación de un dado con todas sus caras del mismo color rojo.
Clasificación de los datos
Por su forma de representación los datos se clasifican primeramente en:
Cuantitativos: Por ejemplo, los pesos y las alturas de las personas se representan con numeros o cantidades de kilos y metros.
Cualitativos: Por ejemplo, el color de los ojos de las personas se representan con colores negros, marrones, celestes, azules, verdes, etc.
Entonces podemos decir:
Los datos cuantitativos son datos numericos.
Los datos cualitativos son datos categoricos o en categorías.
Diferencia entre datos cuantitativos y cualitativos
Los datos cuantitativos se representan con numeros que representan cantidades que se pueden operar matemáticamente, mientras que los datos cualitativos se representan con categorías en las que se agrupan los mismos.
Cuando se trabaja con datos cuantitativos, es importante utilizar unidades de medida asociadas, como pesos, dolares, horas, pies, metros, litros. Ignorar las unidades de medida lleva a conlcusiones incorrectas..
Al trabajar con datos cualitativos se elijen cuidadosamente las categorías, por ejemplo al clasificar a las personas por genero se suelen clascificar por genero hombre y mujer, aunque también se han incorporado nuevas categorías como transexual.
Datos discretos y continuos
Los datos discretos son aquellos en los que la cantidad de valores posibles es un numero que se puede contar. Son valores acotados y finitos dentro de un rango.
La cantidad litros de un tanque de nafta es 50.
La cantidad de huevos que pone una gallina es un dato discreto porque se puede contar.
Los numeros naturales del 0 al infinito se pueden contar (1, 2, 3...)
Los datos continuos resultan en un numero infinito de valores posibles.. Se corresponden con alguna escala posible siempre continua que cubre un rango de valores sin huecos.
Los numeros reales son infinitos porque toman todo el rango infinito de valores posibles.
La cantidad de agua que sale de una canilla puede tomar una cantidad infinita de valores reales.
La cantiad de leche que producen las vacas son datos continuos porque puede tomar cualquir valor dentro de un rango infinito de valores posibles. Durante un intervalo de tiempo dado, una vaca produce una cantidad de leche que puede ser cualquier valor entre 0 y 5 galones. Es posible obtener 2.343115 galones, porque la vaca no está restringida a cantidades discretas de 0, 1, 2, 3, 4 o 5 litros.
Para que la leche pueda convertirse a valores discretos utilizamos envases de leche y en este caso lo que contamos son envases de un litro por ejemplo.
Niveles de medición de los datos
Los datos se suelen clascificar tambien por la forma en que se los organiza o miden.
De esta forma los datos se clasifican en cuatro clases o niveles: 1. Nominal, 2. Ordinal, 3. Intervalo , 4. Razón.
Cada variable o columna en un dataset se corresponde con alguno de estos cuatro niveles de medición de datos.
Cada uno de estos niveles nos permite distinguir información sobre los datos y cada uno de estos niveles soporta diferentes tipos de análisis estadísticos.
Los niveles de intervalo y razón suelen estar agrupados en una primera etapa de analisis como datos numericos, pero muchas veces se realizan procesos en los que es necesario separarlos luego en intervalo y/o razón según sea el caso.
Datos nominales
El nivel de medición nominal se caracteriza por datos que consisten exclusivamente en nombres, etiquetas o categorías. Los datos no se pueden acomodar en un esquema de orden (como del más bajo al más alto). Ejemplos:
La nacionalidad de las personas: Argentino, Brasilero, Colombiano...
Animales: Perro, Gato, Pájaro...
Sí/no/indeciso: Respuestas de sí, no e indeciso en una encuesta
Colores: Los colores de los globos en una fiesta (rojo, negro, azul, blanco, magenta, púrpura, etcétera)
En estos casos se puede distinguir cuando un valor (Si, No..etc) corresponde a que categoría. Pero no hay razón significativa para poner estas categorías en orden.
En ocasiones se asignan números a las distintas categorías (especialmente cuando los datos se codifican para utilizarse en computadoras), pero estos números no tienen un significado computacional real y cualquier promedio que se calcule carece de sentido.
Por lo tanto, en ningún caso los datos nominales se deben utilizar para hacer cálculos.
Por ejemplo:
Queremos investigar el genero que tiene más preferenica por un periódico que por otro. En ambos casos las variable son nominales. Entonces si hacemos una encuesta, hay que listar en la misma todas las posibles respuestas de cada una de estas variables. Y no hay necesidad rigurosa de poner esas opciones en ningún orden específico. Luego, los resultados de esta encuesta se pueden ver en talbas de contingencia o gráficos de barras.
Datos ordinales
Los datos están en el nivel de medición ordinal cuando pueden acomodarse en algún orden, aunque no es posible determinar diferencias entre los valores de los datos o tales diferencias carecen de significado. Es decir que estos datos no se pueden operar matemáticamente (sumar, restar, dividir...). Ejemplos:
Tamaño de las prendas: XS, S, M, L, XL.
Calificaciones de un curso: Un profesor universitario asigna calificaciones de A, B, C, D, E o F. Tales calificaciones se pueden ordenar, aunque no es posible determinar diferencias entre tales calificaciones. Por ejemplo, sabemos que A es mayor que B (por lo que hay un orden); pero no podemos restar B de A (por lo que no se puede calcular la diferencia).
Categorías: Con base en varios criterios, una web de turismo ordena los hoteles por categoría. (hoteles de primera, segunda, tercero, cuarta y quinta categoría). Estos rangos o categorías determinan un orden. Sin embargo, las diferencias entre los rangos no tienen ningún significado. Por ejemplo, una diferencia “del segundo menos el primero” sugeriría 2 - 1 = 1, pero esta diferencia de 1 no tiene significado porque no es una cantidad exacta que sea comparable con otras diferencias de este tipo. La diferencia entre los hoteles de primera y segunda categoría podría estar en el precio pero en ese caso ya estaríamos hablando de otro dato (precio) y no de la categoría (o rango).
Rankings: Terna Ganadora: Primero, Segundo, Tercero. Satisfacción: Muy satisfecho, satisfecho, neutral, insatisfecho, muy insatisfecho. Nivel eduativo: High School, Bachelor, Master...
Los datos ordinales se pueden ordenar en rankings, pero estos rankings no implican que los mismos tengan un significado matemático operativo. Por lo tanto puede suceder que los intervalos entre los datos ordinales no sean iguales.
Los datos ordinales proporcionan información sobre comparaciones relativas, pero no las magnitudes de las diferencias. Por lo general, los datos ordinales no deben utilizarse para hacer cálculos como promedios, aunque en ocasiones esta norma se infringe (como sucede cuando utilizamos calificaciones con letras para
calcular una calificación promedio). Pero para hacer esto es necesario convertir las letras (datos ordinales) en números (datos numerales, cuanitativos).
Datos de Intervalo
El nivel de medición de intervalo se parece al nivel ordinal, pero con la propiedad adicional de que la diferencia entre dos valores de datos cualesquiera tiene un significado. Sin embargo, los datos en este nivel no tienen punto de partida cero natural inherente (donde nada de la cantidad está presente). Ejemplos:
Los años 1000, 2008, 1776 y 1492. (El tiempo no inició en el año 0, por lo que el año 0 es arbitrario y no constituye un punto de partida cero natural que represente “la ausencia de tiempo”).
La temperatura ambiente. (-10°C, +25°C), son valores de referencia a determinadas temperaturas pero 0°C no significa ausencia de temperatura.
Cuando estos datos se organizan en intervalos, estos intervalos suelen iguales. Además las diferencias y las sumas entre los intervalos tienen un significado.
Ingresos: Los salarios de los trabajadores. Estos se pueden agrupar en intervalos por niveles de funciones y responsabilidad. Se pueden obtener estadisticas de totales, promedio, máximos y mínimos.
Edades: Las edades de las personas. Se pueden agrupar y desagrupar por rangos etáreos. Se pueden calcular promedios, máximos, mínimos.
Consumo de electricidad u otra variable de consumo como bebidas.
Peso, Altura, etc.
Datos de proporciones
El nivel de medición de razón es similar a nivel de intervalo, pero con la propiedad adicional de que sí tiene un punto de partida cero natural (donde el cero indica que nada de la cantidad está presente). Para valores a este nivel, tanto las diferencias como las proporciones tienen significado. Ejemplos:
Distancias de traslado desde un punto hacia otros: 5km, 10, km, 25km.
Pesos: Los pesos (en quilates) de anillos de compromiso de diamante (el 0 realmente representa la ausencia de peso y 4 quilates es dos veces el peso de 2 quilates).
Precios: Los precios de libros de texto universitarios ($0 realmente representa ningún costo y un libro de $90 es tres veces más caro que un libro de $30)
Diferencia entre datos de intervalo o de proporción.
Consideremos por ejemplo una maratón. En las maratones se mide el tiempo que tardan en recorrer los 42Km cada uno de los corredores y logícamente el más rapido es el primero. En este ejemplo el ganador tardó 2hs y el último tardó 6hs. Entonces se ve que el ganador fue tres veces más rapido que el perdedor o el perdedor fue tres veces más lento que el ganador. Es posible sostener esta argumentación debido a que hay un cero real y absoluto en t=0 al inicio de la maratón. Y al inicio de la maratón todos los corredores arrancan en el instante de tiempo t=0. En este caso estamos en presencia de un nivel de medición de proporción.
Si por el contrario, no se hubiera establecido un cronómetro en t=0 al inicio de la carrera, solo se podrían medir las diferencias de tiempo entre el corredor más rapido y el más lento. Entonces los corredores podrían estar ordenados del primero al últmo con sus diferencias de tiempo pero los cosrrodores no podrían ser ordenados en proporción. En este caso no conocemos los tiempos absolutos de cada corredor, solo conocemos los tiempos relativos entre los mismos.
El cero representa la ausencia de la cantidad que se está midiendo. En el primer caso está presente (hay un cero) en el segundo caso no (no hay cero).
Nivel de medición numerico o metrico
Dato que los niveles de medición de intervalo y de proporcón se pueden medir, es comun enontrarse en análisis de datos en dónde ambos niveles se manejan juntos por ser ambos de caracter métrico o numerio.
En el caso de una encuesta, para estos tipos de datos se coloca un campo que debe ser completado por el encuestado quién tiene que colocar un valor y no elegir una opción de una lista.
Análisis estadístico según el nivel de medición
Diferentes niveles de medición de los datos soportan diferentes analisis estadísticos.
La media y la desviación estandar se aplican a datos numericos o metricos, y en algunos casos (con correctas conversiones e interpretaciones) también se pueden utilizar con datos ordinales, pero definitivamente nunca se usan con datos nominales.
Es así como eligiendo el nivel adecuado de datos también se puede elegir tanto la metodología de graficación o visualización de los mismos como también la metodología adecuada de análisis estadistico.
Reconocimiento y análisis de utilidad de los datos
El reconocimiento y clasificación de un determinado tipo de dato esta asociado y permite entender la utilidad del mismo. La utilidad de un dato es función de su grado de implicancia o interés para un determinado análisis o proyecto.
Para avanzar en el análisis de la utilidad de los datos es siempre bueno y necesario hacer el ejercicio de clasificarlos de acuerdo a criterios de nominalidad, ordinalidad, intervalos, rangos y proporcionalidad más allá de verlos simplemente como datos cuantitantivos o cualitativos.
Referencias
Estadística: Mario F. Triolla. Pearson. Addison Wesley.
Datatab: https://datatab.net/