Puntuación Estándar Z
Z-Score. Diferencias con pˆ, χ²
Z, pˆ, χ², Valor Estandarizado Z
Las puntuaciones estándar, también conocidas como puntuaciones z o z-scores, son una medida en estadística que indica cuántas desviaciones estándar un valor se encuentra por encima o por debajo de la media del conjunto de datos. Las puntuaciones estándar se utilizan para comparar datos de diferentes conjuntos o para identificar valores atípicos dentro de un conjunto de datos.
Valor Crítico o Estandarizado Z
Una puntuación z (o valor estandarizado) es el número de desviaciones estándar que un valor x se encuentra por arriba o por debajo de la media. Se calcula utilizando las siguientes expresiones:
Para una muestra z es igual a la diferencia entre un valor x y su media muestral x raya, sobre la desviación estandard s.
Para una población z es igual a la diferencia entre x menos la media poblacional mu, sobre la desviación estandar sigma.
Una puntuación z (o valor estandarizado) se calcula convirtiendo un valor a una escala estandarizada, como se establece en la siguiente definición.
El concepto de valor crítico en proporciones es análogo al de medias, solo que cambia el estimador. En las medias el estimador es X̅ mientras que en las proporciones el estimador es pˆ
Ejemplo de comparación de estaturas:
Con una estatura de 75 pulgadas, Lyndon Johnson fue el presidente de Estados Unidos más alto del siglo
pasado. Con una estatura de 85 pulgadas, Shaquille O’Neal es el jugador más alto del equipo de básquetbol Miami Heat. ¿Quién es relativamente más alto: Lyndon Johnson entre los presidentes del siglo pasado o Shaquille O’Neal entre los jugadores de su equipo Miami Heat? La estatura media de los presidentes del
siglo pasado era de 71.5 pulgadas, con una desviación estándar de 2.1 pulgadas. Los jugadores de ásquetbol del equipo Miami Heat tienen una estatura media de 80.0 pulgadas, con una desviación estándar de 3.3 pulgadas.
Solución del ejemplo:
Las estaturas de los presidentes y de los jugadores de básquetbol provienen de poblaciones muy diferentes; para compararlas es necesario estandarizar las estaturas convirtiéndolas en puntuaciones z.
Lyndon Johnson: z = (x - mu)/sigma = (75-71.5)/2.1 = 1.67
Shaquille O’Neal: z = (x - mu)/sigma = (85-80)/3.3 = 1.52
Interpretación de la Solución:
La estatura de Lyndon Johnson está a 1.67 desviaciones estándar por arriba de la media, mientras que la estatura de Shaquille O’Neal está a 1.52 desviaciones estándar por arriba de la media.
La estatura de Lyndon Johnson, entre los presidentes del siglo pasado, es relativamente mayor que la
estatura de Shaquille O’Neal entre los jugadores de básquetbol del equipo de Miami Heat. Shaquille O’Neal es mucho más alto que Lyndon Johnson, pero este último es relativamente más alto cuando lo comparamos con sus colegas.
En resumen, en esta comparación es Lyndon Johnson quién es más alto.
Principios Z
Siempre que un valor sea menor que la media, su puntuación z correspondiente será negativa.
Las puntuaciones z son medidas de posición, en el sentido de que describen la localización de un valor (en términos de desviaciones estándar) en relación con la media.
Una puntuación z de 2 indica que un valor está a dos desviaciones estándar por arriba de la media, en tanto que una puntuación z de -3 indica que un valor está a tres desviaciones estándar por debajo de la media.
Los cuartiles y los percentiles también son medidas de posición, pero se definen de forma distinta que las puntuaciones z y son útiles para comparar valores dentro del mismo conjunto de datos o entre distintos conjuntos de datos.
Ejemplo
En la figura correspondiente a Z-Score puede verse el cálculo de un ejemplo de un valor Z para una media de 50 y un desvío igual a 10. Este ejemplo esta resuelto en la grafica y su visualización está hecha en un jupiter notebook compartido en github.
Uso y aplicabilidad de puntuación Z
Por lo visto aquí, una puntuación estandar corresponde a una distribución estándar.
Las puntuaciones Z se basan en el concepto de la distribución normal estándar, pero su aplicación no está estrictamente limitada a datos que sigan una distribución normal. Aquí hay un desglose más claro:
Datos con Distribución Normal:
La puntuación Z es especialmente útil y precisa para datos que siguen una distribución normal, ya que estos datos tienden a ser simétricos alrededor de la media y caen dentro de un rango predecible de desviaciones estándar.
En una distribución normal estándar (media = 0 y desviación estándar = 1), las puntuaciones Z tienen una interpretación directa en términos de probabilidad y percentiles.Datos con Distribuciones No Normales:
Aplicabilidad General: Las puntuaciones Z se pueden calcular para cualquier conjunto de datos, independientemente de la distribución, siempre que se conozcan la media y la desviación estándar.
Interpretación: Aunque las puntuaciones Z pueden calcularse para datos no normalmente distribuidos, la interpretación puede ser menos precisa. Esto se debe a que los datos pueden ser asimétricos o tener colas largas, lo que influye en la posición relativa de las puntuaciones.
Transformación: En algunos casos, los datos pueden ser transformados (por ejemplo, utilizando una transformación logarítmica o una raíz cuadrada) para aproximar una distribución normal y mejorar la aplicabilidad de las puntuaciones Z.
Ejemplo de Uso con Datos No Normales
Supongamos que tenemos un conjunto de datos de ingresos que está altamente sesgado a la derecha. Podemos calcular las puntuaciones Z de estos datos, pero debemos tener en cuenta que la distribución no normal afectará la interpretación de los resultados.
Limitaciones
Precisión: Para datos muy sesgados o con outliers significativos, las puntuaciones Z pueden no reflejar de manera precisa la posición relativa de los valores dentro del conjunto de datos.
Transformaciones: A veces, los datos se transforman para aproximar una distribución normal antes de calcular las puntuaciones Z, para que las interpretaciones sean más fiables.
Usabilidad
Se puede usar: Las puntuaciones Z se pueden calcular para cualquier conjunto de datos siempre que tengamos la media y la desviación estándar. Esto incluye datos con cualquier tipo de distribución, ya sea normal, sesgada, uniforme, etc.
Debe interpretarse con cuidado: La precisión y la utilidad de las puntuaciones Z son mayores cuando los datos siguen una distribución normal. Esto es porque en una distribución normal, las puntuaciones Z tienen propiedades bien definidas en términos de probabilidad y percentiles. Sin embargo, si los datos no son normales, las interpretaciones pueden no ser tan precisas y pueden requerir un análisis adicional o transformaciones.
Ejemplo:
Para un conjunto de datos que es altamente sesgado, como los ingresos (que tienden a ser sesgados hacia la derecha), aún puedes calcular las puntuaciones Z. Pero, dado que los datos no siguen una distribución normal, debes ser consciente de que la interpretación de cuántas desviaciones estándar se encuentra un valor respecto a la media puede no representar completamente la realidad.
Aplicabilidad
En la práctica, se pueden y se usan las puntuaciones Z incluso en distribuciones que no son normales, pero con precaución. Es decir teniendo en cuenta los siguientes conceptos:
Estandarización: Las puntuaciones Z se utilizan para estandarizar datos, lo cual es útil para comparar valores de diferentes distribuciones o conjuntos de datos. Esto es aplicable incluso si los datos no siguen una distribución normal.
Precaución en la Interpretación: Si se sabe que los datos no son normales, se debe tener cuidado al interpretar las puntuaciones Z. En estos casos, las puntuaciones Z pueden no tener la misma interpretación precisa en términos de percentiles y probabilidades que en una distribución normal.
Transformaciones de Datos: A veces se aplican transformaciones a los datos (por ejemplo, logarítmica) para aproximar una distribución normal y luego aplicar puntuaciones Z para obtener resultados más interpretables.
Referencias:
Estadísticas. Mario Triola.