Estimadores y requisitos
Validez y requisitos de un análisis o hipótesis. xˉ p^ Z p IC E
Métodos de evaluación de hipótesis
Los estimadores son funciones de los datos muestrales que se utilizan para inferir los parámetros desconocidos de una población. Son fundamentales en la estadística inferencial, ya que permiten hacer estimaciones sobre características poblacionales basándose en una muestra aleatoria.
Tipos de Estimadores
Estimador Puntual:
Proporciona un único valor que se utiliza como mejor estimación del parámetro poblacional.
Ejemplos: Media muestral (Xˉ), proporción muestral (p^).Estimador por Intervalo:
Proporciona un rango de valores dentro del cual se espera que se encuentre el parámetro poblacional con un cierto nivel de confianza.
Ejemplo: Intervalo de confianza para la media (Xˉ±Zα/2(σn)
Propiedades de los Estimadores
En el cuadro de la figura correspondiente se destacan las propiedades de los distintos estimadores. Puede verse que no todos los estimadores tienen la misma cantidad de propiedades. A continuación se definen cuales son las propiedades de los estimadores.
Insesgadez:
Un estimador es insesgado si su esperanza matemática es igual al parámetro poblacional que estima.
Formalmente, E(θ^)=θ.Consistencia:
Un estimador es consistente si, a medida que el tamaño de la muestra aumenta, el estimador converge en probabilidad al verdadero valor del parámetro.
Formalmente, θ^→pθ.Eficiencia:
Entre todos los estimadores insesgados de un parámetro, el estimador eficiente es aquel que tiene la menor varianza.
Formalmente, si θ^1 y θ^2 son insesgados y Var(θ^1)<Var(θ^2), θ^1 es más eficiente.Suficiencia:
Un estimador es suficiente si utiliza toda la información disponible en la muestra para estimar el parámetro.
Formalmente, un estadístico T(X) es suficiente para el parámetro θ si la distribución condicional de la muestra dada T(X) no depende de θ.
Requisitos que surgen la las propiedades de los estimadores
Muchos trabajos de estadística se pueden realizar de manera sencilla si los datos en estudio se corresponden con una distribución normal, binomial o pueden aproximarse a alguna de estas distribuciones.
Para realizar o revisar un trabajo con estas caracteristicas es preciso saber cuales son las condiciones que los datos deben cumplir tanto para estudios de proporciones como estudios de medias.
Si los requisitos para los datos de las proporciones se cumplen podemos considerar que: La proporción muestral pˆ es el mejor estimado puntual en la proporción poblacional p.
Si los requisitos los datos de las medias se cumplen podemos considerar que: La media muestral xˉ es el mejor estimado puntual de la media de la población µ.
Requisitos para proporciones
1. La muestra es aleatoria simple.
2. Las condiciones para la distribución binomial se satisfacen. Esto es, hay un número fijo de ensayos, los ensayos son independientes, hay dos categorías de resultados y las probabilidades permanecen constantes para cada ensayo. (Véanse la distribución de proporciones.)
3. Para la aproximación de normal a binomial, existen al menos 5 éxitos y al menos 5 fracasos. (Cuando p y q se desconocen, estimamos sus valores utilizando la proporción muestral, de manera que este requisito es una forma de verificar que np 5 y nq 5 se cumplan para que la distribución normal sea una aproximación adecuada para la distribución binomial. Si no se cumple este requisito se debe usar la distribución binomial unicamente y no es posible una aproximación normal.
Si estas condiciones se cumplen entonces: Usamos pˆ como el estimado puntual de p, ya que no está sesgado y es el más consistente de los estimadores que podrían usarse.
No está sesgado en el sentido de que la distribución de las proporciones muestrales tiende a concentrarse alrededor del valor de p; esto es, las proporciones muestrales pˆ no tienden sistemáticamente a subestimar ni a sobreestimar p.
La proporción muestral pˆ es el estimador más consistente en el sentido de que la desviación estándar de las proporciones muestrales tiende a ser menor que la desviación estándar de cualquier otro estimador sin sesgo.
Requisitos para medias
1. Requisito de normalidad La población se distribuye normalmente o que n >= 30. Si n <= 30, la población no necesita tener una distribución exactamente normal, sino aproximadamente normal. Podemos considerar que el requisito de normalidad se satisface si no hay valores extremos y si un histograma de los datos muestrales no se aleja mucho de la forma de campana. Se dice que los métodos de esta sección son robustos, es decir, no se ven muy afectados si los datos se alejan de la normalidad, siempre y cuando no se alejen demasiado.
2. Requisitos del tamaño muestral Si la población original no está distribuida normalmente, entonces decimos que las medias de muestras con tamaño n >= 30 tienen una distribución que puede aproximarse a una distribución normal. La condición de que el tamaño muestral sea n >= 30 se usa por lo regular como di rectriz, pero no define que el tamaño muestral mínimo específico que sea suficiente para todos los casos. El tamaño muestral mínimo realmente depende de cuánto se desvía la distribución de la población de una distribución normal. Tamaños muestrales de 15 a 30 son adecuados si la población parece tener una distribución que no es lejana a la normal, pero algunas otras poblaciones tienen distribuciones que son extremadamente diferentes de la normal y pueden necesitarse tamaños muestrales de 50, 100 o más. El criterio simplificado de n >= 30 es solo un punto de partida para empezar a estudiar un caso por esta metodología.
Si se sabe que una población se distribuye normalmente, la distribución de medias muestrales x es exactamente una distribución normal con media µ y desviación estándar 𝞂/√ n ; si la población no está distribuida normalmente, muestras grandes (n>30) producen medias muestrales con una distribución que es aproximadamente normal, con media µ y desviación estándar 𝞂/√ n].
3. Requisitos adicionales para medias cuando no se conoce el desvío de la población
Puesto que no conocemos el valor de 𝞂, lo estimamos con el valor de la desviación estándar muestral s, pero esto introduce otra fuente de falta de confiabilidad, en especial conlas muestras pequeñas. Para mantener unintervalo de confianza en algún nivel deseado, como el 95%, compensamos esta falta de confiabilidad adicional haciendo más ancho el intervalo de confianza: utilizamos valores críticos tα/2 (de una distribución t de Student), los cuales son más grandes que los valores críticos de zα/2 de la distribución normal.
La distribución t-Student es una distribución de probabilidad continua que surge cuando se estima la media de una población normal en situaciones en las que el tamaño de la muestra es pequeño y la desviación estándar de la población no se conoce. Es especialmente útil en inferencia estadística para pequeñas muestras y se utiliza en el contexto de la prueba t y los intervalos de confianza.
Si estas condiciones se cumplen, entonces consideramos que:
La media muestral xˉ es un estimador sin sesgo de la media poblacional µ. Lo que significa que la distribución de medias muestrales tiende a concentrarse alrededor del valor de la media poblacional µ. Es decir, las medias muestrales no tienden sistemáticamente a sobreestimar el valor de µ, ni subestimar el valor de µ, sino que tienden a coincidir con este valor. (Ver Distribución de las medias)
La distribución de las medias muestrales xˉ tiende a ser más consistente (con menos variación) que la distribución de otros estadísticos muestrales.
Además, existen procedimientos para tratar situaciones en las que la distribución normal no es una aproximación adecuada. Estas otras situaciones y procedimeintos son analizados en otros apartados.
Requisitos para varianza y desvío estandar
1. La muestra es aleatoria simple.
2. La población debe tener valores distribuidos normalmente (aun si la muestra es grande).
El supuesto de una población distribuida normalmente se mencionó en estimación de medias y proporciones, pero este requisito es mucho más importante aquí. Aquí, los alejamientos de una distribución normal pueden generar errores muy graves. En consecuencia, el requisito de tener una distribución normal es mucho más estricto, y debemos revisar la distribución de los datos construyendo histogramas y gráficas cuantilares normales.
Cuando consideramos estimados de proporciones y medias, utilizamos las distribuciones normal y t de Student. Cuando desarrollamos estimados de varianzas o desviaciones estándar utilizamos otra distribución, conocida como la distribución chi cuadrada.
Realización y revisión de procedimientos
Dada un trabajo de análisis en dónde se propone una hipótesis determinada, lo adecuado es evaluar si este trabajo está bien hecho, es decir, si los resultados tienen validez.
Para esto existen conceptos tales como:
Es decir que existen metodos que refuerzan un resultado o lo ponen en duda. En cualquier caso estos análisis adicionales sumarán rigor al trabajo. Es por estos que estos metodos deberían ser utilizados por todo estadísta que quiera hacer un trabajo con rigor y calidad en sus resultados.