Medidas de Variación
Desvío Estandar, Rango, Intervalo
Desviación Estandard de Muestras y Poblaciones
La media de una muestra, no es una medida suficiente para conocer bien una muestra. Mucho menos para comparar muestras. Hace falta más información sobre el perfil de la muestras.
Por ejemplo si consideramos las colas de los bancos, queremos saber que tan bien o mal gestinonadas están y para eso calculamos los tiempos medios de espera la información no sería suficiente. Por ejemplo 2 o mas colas podrían tener un tiempo medio de espera de 3 minutos por cliente pero esas mismas colas podrían tener todos sus clientes esperando 3 minutos o, por el contrario, podríen estar esperando algunos 1 minuto y otros 6 minutos. Es decir que las colas podrían tener comportamientos muy distintos en las esperas.
Se repasan a continuación algunas medias que dan idea de como varían las muestras.
Las medidas de variación, también conocidas como medidas de dispersión, son estadísticas que describen la cantidad de variabilidad o dispersión en un conjunto de datos. Estas medidas complementan las medidas de tendencia central proporcionando información sobre la extensión y distribución de los datos. Las principales medidas de variación incluyen el rango, la varianza, la desviación estándar, el rango intercuartílico (IQR) y el coeficiente de variación.
Rango
Definición: Es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos.
Fórmula: Rango = Valor Máximo - Valor Mínimo
Uso: Proporciona una medida rápida de la dispersión de los datos, pero puede ser afectado por valores atípicos (outliers).
Varianza
Definición: Es la media de los cuadrados de las diferencias entre cada valor y la media del conjunto de datos.
Fórmula: Para una población: 𝞂² = ∑(xi−μ)² / N Para una muestra: S²=∑(xi−xˉ)² / n−1 Donde xi son los valores de los datos, μ es la media de la población, xˉ es la media de la muestra, N es el tamaño de la población y nn es el tamaño de la muestra.
Uso: Mide la variabilidad de los datos en relación a la media. Es útil en inferencias estadísticas y en la teoría de probabilidad.
Desvío Estándar
Definición: Es la raíz cuadrada de la varianza, proporcionando una medida de dispersión en las mismas unidades que los datos originales.
Fórmula: Para una población: σ=√{∑(xi−μ)² / N} Para una muestra: S=√{∑(xi−xˉ)² / n−1}
Uso: Es una medida común de dispersión que es fácil de interpretar. Indica la cantidad promedio de desviación de los valores respecto a la media.
Rango Intercuartílico (IQR)
Definición: Es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), representando la dispersión del 50% central de los datos.
Fórmula: IQR = Q3 - Q1
Uso: Es útil para detectar valores atípicos y es menos sensible a los outliers que el rango total.
Coeficiente de Variación (CV)
Definición: Es la relación entre la desviación estándar y la media, expresada como un porcentaje.
Fórmula: CV = σ / μ×100%
Uso: Permite comparar la variabilidad relativa entre conjuntos de datos con diferentes unidades o magnitudes.
Aclaraciones sobre las medidas de variación
1. Rango
El rango de un conjunto de datos es la diferencia entre el valor máximo y el valor mínimo..
rango = (valor máximo) - (valor mínimo)
Es muy fácil calcular el rango, pero como depende únicamente de los valores máximo y mínimo, no es tan útil como otras medidas de variación que incluyen cada valor.
2. Desvío estándar de una muestra
La desviación estándar es, por lo general, la medida de variación más importante y útil.
La desviación estándar de un conjunto de valores muestrales, es la medida de variación de los valores con respecto a la media. Es un tipo de desvío promedio de los valores con respecto a la media,
La desviación estándar es una medida de variación de todos los valores con respecto a la media. Sus propiedades son:
El valor de la desviación estándar s generalmente es positivo. Sólo es igual a cero cuando todos los valores de los datos son el mismo número. (Nunca es negativa). Además, valores grandes de s implican mayores cantidades de variación.
El valor de la desviación estándar s puede aumentar de manera drástica con la inclusión de uno o más valores extremos (valores de datos que se encuentran muy lejos de los demás).
Las unidades de la desviación estándar s (como minutos, pies, libras, etcétera) son las mismas de los datos originales.
Para calcular la desviación estándar s (sigma minúscula) de una muestra, se utiliza una fórmula ligeramente diferente: en vez de dividir entre n - 1, se divide entre el tamaño N de la población.
3. Varianza de una muestra y una población
La varianza de un conjunto de valores es una medida de variación igual al cuadrado de la desviación stándar.
Se dice que la varianza muestral s cuadrado es un estimador sin sesgo de la varianza poblacional s cuadrado, lo que significa que los valores de s cuadrado tienden a igualar el valor de sigma cuadrado, en lugar de tender, de manera sistemática, a sobreestimar o subestimar sigma cuadrado.
La varianza es un estadístico importante que se utiliza en algunos métodos estadísticos relevantes, como el análisis de varianza.
Por otro lado, la varianza tiene una gran desventaja: las unidades de la varianza son diferentes de las unidades del conjunto original de datos. Por ejemplo, si los tiempos de espera originales de los clientes están dados en minutos, las unidades de varianza están dadas en minutos cuadrados ( ¿Qué es un minuto cuadrado?) Como la varianza utiliza unidades distintas, es sumamente difícil comprenderla si la relacionamos con el conjunto original de datos.
4. Regla practica del intervalo
Una herramienta rudimentaria pero sencilla para comprender la desviación estándar es la regla práctica del intervalo, que se basa en el principio de que, para muchos conjuntos de datos, la vasta mayoría tanto como el 95% de los valores muestrales se ubican dentro de dos desviaciones estándar a partir de la media.
5. Estimación e interpretación de la desviación estandard
Conociendo la regla practica dl intervalo se puede:
Estimar el valor de la desviación estandard.
Interpretar un valor conocido de la desviación estandard.
Ambas son estimaciones burdas (muy aproximadas) pero suelen ser utiles a la hora de trabajar con datos insuficientes o para revisar calculos y estimaciones.
Estimación: Para estimar el valor de una desviación estandard, simplemente se divide al rango por cuatro.
Interpretación: Para interpretar el valor coocido de una desviación estandard se puede estimar el porcentaje de datos que estan entre 1, 2 y 3 desviaciones estandard. También se puede saber dónde se ubica una observación dentro de la muestra, es decir, que tan lejos está de la media.
6. Comparación de la variación en diferentes poblaciones
Como las unidades de la desviación estándar son las mismas que las unidades de los datos originales, es más fácil comprender la desviación estándar que la varianza. Sin embargo, esta misma propiedad dificulta comparar la variación de valores tomados de distintas poblaciones. Como el resultado es un valor libre de unidades de medida específicas, el coeficiente de variación resuelve esta desventaja.
7. Coeficiente de variación
El coeficiente de variación (CV) de un conjunto de datos muestrales o poblacionales, expresado como porcentaje, describe la desviación estándar en relación con la media. El coeficiente de variación está dado de la siguiente forma:
Para una muestra es CV = s/x * 100%
Para una población es CV = sigma/mu * 100%
8. Regla empírica para datos con distribución normal
Esta regla establece que las siguientes propiedades se aplican a conjuntos de datos con una distribución aproximadamente normal.
Aproximadamente el 68% de todos los valores están dentro de una desviación estándar de la media.
Aproximadamente el 95% de todos los valores están dentro de 2 desviaciones estándar de la media.
Aproximadamente el 99.7% de todos los valores están dentro de 3 desviaciones estándar de la media.