Desvío Estándar
Medidas de Variación
Desviación Estandard de Muestras y Poblaciones
La media de una muestra, no es una medida suficiente para conocer bien una muestra. Mucho menos para comparar muestras. Hace falta más información sobre el perfil de la muestras.
Por ejemplo si consideramos las colas de los bancos, queremos saber que tan bien o mal gestinonadas están y para eso calculamos los tiempos medios de espera la información no sería suficiente. Por ejemplo 2 o mas colas podrían tener un tiempo medio de espera de 3 minutos por cliente pero esas mismas colas podrían tener todos sus clientes esperando 3 minutos o, por el contrario, podríen estar esperando algunos 1 minuto y otros 6 minutos. Es decir que las colas podrían tener comportamientos muy distintos en las esperas.
Se repasan a continuación algunas medias que dan idea de como varían las muestras.
Rango
El rango de un conjunto de datos es la diferencia entre el valor máximo y el valor mínimo..
rango = (valor máximo) - (valor mínimo)
Es muy fácil calcular el rango, pero como depende únicamente de los valores máximo y mínimo, no es tan útil como otras medidas de variación que incluyen cada valor.
Desviación estándar de una muestra
La desviación estándar es, por lo general, la medida de variación más importante y útil.
La desviación estándar de un conjunto de valores muestrales, es la medida de variación de los valores con respecto a la media. Es un tipo de desviación promedio de los valores con respecto a la media,
La desviación estándar es una medida de variación de todos los valores con respecto a la media. Sus propiedades son:
El valor de la desviación estándar s generalmente es positivo. Sólo es igual a cero cuando todos los valores de los datos son el mismo número. (Nunca es negativa). Además, valores grandes de s implican mayores cantidades de variación.
El valor de la desviación estándar s puede aumentar de manera drástica con la inclusión de uno o más valores extremos (valores de datos que se encuentran muy lejos de los demás).
Las unidades de la desviación estándar s (como minutos, pies, libras, etcétera) son las mismas de los datos originales.
Desviación estándar de una población
Para calcular la desviación estándar s (sigma minúscula) de una población, se utiliza una fórmula ligeramente diferente: en vez de dividir entre n - 1, se divide entre el tamaño N de la población,
Varianza de una muestra y una población
La varianza de un conjunto de valores es una medida de variación igual al cuadrado de la desviación stándar.
Se dice que la varianza muestral s cuadrado es un estimador sin sesgo de la varianza poblacional s cuadrado, lo que significa que los valores de s cuadrado tienden a igualar el valor de sigma cuadrado, en lugar de tender, de manera sistemática, a sobreestimar o subestimar sigma cuadrado.
La varianza es un estadístico importante que se utiliza en algunos métodos estadísticos relevantes, como el análisis de varianza.
Por otro lado, la varianza tiene una gran desventaja: las unidades de la varianza son diferentes de las unidades del conjunto original de datos. Por ejemplo, si los tiempos de espera originales de los clientes
están dados en minutos, las unidades de varianza están dadas en minutos cuadrados ( ¿Qué es un minu-
to cuadrado?)
Como la varianza utiliza unidades distintas, es sumamente difícil comprenderla si la relacionamos con el conjunto original de datos.
Regla practica del intervalo
Una herramienta rudimentaria pero sencilla para comprender la desviación estándar es la regla práctica del intervalo, que se basa en el principio de que, para muchos conjuntos de datos, la vasta mayoría tanto como el 95% de los valores muestrales se ubican dentro de dos desviaciones estándar a partir de la media.
Estimación e interpretación de la desviación estandard
Conociendo la regla practica dl intervalo se puede:
Estimar el valor de la desviación estandard.
Interpretar un valor conocido de la desviación estandard.
Ambas son estimaciones burdas (muy aproximadas) pero suelen ser utiles a la hora de trabajar con datos insuficientes o para revisar calculos y estimaciones.
Estimación: Para estimar el valor de una desviación estandard, simplemente se divide al rango por cuatro.
Interpretación: Para interpretar el valor coocido de una desviación estandard se puede estimar el porcentaje de datos que estan entre 1, 2 y 3 desviaciones estandard. También se puede saber dónde se ubica una observación dentro de la muestra, es decir, que tan lejos está de la media.
Comparación de la variación en diferentes poblaciones
Como las unidades de la desviación estándar son las mismas que las unidades de los datos originales, es más fácil comprender la desviación estándar que la varianza. Sin embargo, esta misma propiedad dificulta comparar la variación de valores tomados de distintas poblaciones. Como el resultado es un valor libre de unidades de medida específicas, el coeficiente de variación resuelve esta desventaja.
Coeficiente de variación
El coeficiente de variación (CV) de un conjunto de datos muestrales o poblacionales, expresado como porcentaje, describe la desviación estándar en relación con la media. El coeficiente de variación está dado de la siguiente forma:
Para una muestra es CV = s/x * 100%
Para una población es CV = sigma/mu * 100%
Regla empírica para datos con distribución normal
Esta regla establece que las siguientes propiedades se aplican a conjuntos de datos con una
distribución aproximadamente normal.
Aproximadamente el 68% de todos los valores están dentro de una desviación estándar de la media.
Aproximadamente el 95% de todos los valores están dentro de 2 desviaciones estándar de la media.
Aproximadamente el 99.7% de todos los valores están dentro de 3 desviaciones estándar de la media.