Estadística inferencial
Estimadores, Hipótesis y Proceso de inferencia
Estimadores y Pruebas de Hipótesis
Las dos actividades principales de la estadística inerencial son:
estimar un parametro poblacional
probar una hipótesis o afirmación con respecto a un parametro poblacional.
La estadistica inferencial nos permite sacar cocluciones o inferencias sobre una población en base a los datos de una muestra de la misma.
La población es el grupo completo en el cual estamos interesados.
La muestra es un grupo más pequeño que es parte de la población objeto de estudio.
Las muestras se usan para hacer inferencias (estimaciones) sobre una población. Así es como es estiman los parametros poblacionales.
Las muestras suelen usarse porque la población completa suele ser imposible de estudiar.
1. Estimación de parametros poblacionales
Sabemos que las dos actividades más importantes de la estadística inferencial son la estimación de parámetros poblacionales y las pruebas de aseveracoines que se hacen acerca de esos parámetros. Con relación al primer punto, (estimadores) las actividades principales son:
el estimado puntual, que es puntualmente el estimado que estoy calculando. Se trata de estimar un solo valor.
el intervalo de confianza, que define el nivel de confianza con el que estoy haciendo el calculo del estimado puntual. Se trata de estimar un rango asociado a un nivel de confianza.
el tamaño muestral requerido, que es el tamaño de la muestra suficiente y apropiado para calcular un estimado. Se trata de estimar el tamaño de la muestra.
Los estimados más comunmente utilizados son:
● Proporción: el mejor estimado puntual de p es pˆ (conocido como p gorro).
● Media: el mejor estimado puntual de µ es X̅.
● Variación: el valor de s suele emplearse como un estimado puntual de σ, aun cuando éste es un estimado sesgado. Además,s2 es el mejor estimado puntual de σ2.
Puesto que los estimados puntuales anteriores consisten en valores individuales, tienen la grave desventaja de no revelar qué tan buenos son. Por eso, suelen utilizarse intervalos de confianza (o estimados de intervalo) como estimados más reveladores y útiles. Algo análogo sucede para estimar el tamaño de una muestra.
Debemos ser cuidadosos para utilizar la distribución de probabilidad correcta para cada conjunto de circunstancias. Los siguientes criterios se usan habitualmente para seleccionar la distribución apropiada:
Intervalo de confianza para la proporción p: Suele utilizarse la distribución binomial o la normal (considerando que los supuestos requeridos se satisfacen y que haya al menos 5 éxitos y al menos 5 fracasos para que se pueda usar la distribución normal como aproximación de la dis- tribución binomial).
Intervalo de confianza para µ: Suele usarse distribución normal o t-Student, aunque puede que deba utilizarse algún otro método. Para elegir entre la distribución normal o t (o concluir que no se aplica ninguna) existen criterios que dependen de si se conoce o no σ y de esto surge la distribución apropiada.
Intervalo de confianza para σ o σ2: Utilice la distribución chi cuadrada (considerando que los supuestos requeridos se satisfacen).
Para aplicar los procedimientos del intervalo de confianza y el tamaño muestral, es muy importante verificar que los supuestos requeridos se satisfacen. Si no es así, entonces y tal vez necesitemos emplear otros métodos, como el método bootstrap. Para profundizar, es posible avanzar por los apartados de:
2. Hipótesis y Prueba de Hipótesis
Una vez más, sabemos que las dos actividades más importantes de la estadística inferencial son la estimación de parámetros poblacionales y las pruebas de aseveracoines que se hacen acerca de esos parámetros. Con relación al segundo punto, las aseveraciones tienen dos componentes:
hipótesis, es una aseveración o afirmación acerca de una propiedad de una población.
prueba de hipótesis o prueba de sifnificancia, es un procedimiento para probar una aseveración o afirmación acerca de una propiedad de una población.
Ejemplos
Mario Triola, en su libro Estadística cita algunos ejemplos de estudios estadísticos con pruebas de hipotesis:
Laboral: Una nota periodistica afirma que la mayoría de los empleados consiguen trabajo por medio de redes de contactos.
Medicina: Investigadores médicos aseveran que la temperatura corporal media de los adultos sanos no es igual a 98.6°F.
Aviación: La FAA afirma que el peso promedio de un pasajero de aeronave (incluido equipaje de mano) es 185libras mayor que hace 20 años.
Proceso y métodos de inferencia
1. Hipostesis
Para inferir algo, lo primero es definir una hipotesis o supuesto que se desea comprobar o testear.
Por ejemplo se desea comprobar que una droga tiene un efecto en la presión sanguinea como para luego usarla en las prescripciones médicas, si se comprueba que este efecto es positivo. En cualquier caso lo primero que hay que comprobar es: La droga tiene un efecto en la presión sanguinea.
2. Población y muestra
Para probar algo, lo segundo es definir la población y obtener una muestra representativa de la misma.
Por ejemplo si se desea comprobar que una droga tiene un efecto positivo (o negativo) en la presión sanguinea de la población mundial entonces se trabaja para obtener una muestra representativa de esta población.
3. Tamaño de la muestra
Por supuesto que cuanto más pequeña sea la muestra mas impreciso puede resultar el resultado del análisis. Sin embargo, hay metodos de prueba de hipotesis que permiten trabajar con muestrs relativamente pequeñas.
4. Metodos de Inferencia
Los problemas de inferencias estadísticas suelen agruparse en problemas de estimación, intervalos o sets de confianza o pruebas de hipotesis. Usamos estos métodos para determinar el valor de cantidades que en realidad no podemos observar totalmente yhacer declaraciones sobre ellos.
Para entender mejor las inferencias menciono a continuación ejemplos de DJ Hand en su libro "Statistics"-Ed.Oxford.:
Para determinar la velocidad de la luz se realizan distintos procedimientos de medición, pero ninguno es perfecto y si epitieramos el ejercicio, probablemente obtendríamos valores ligeramente diferentes cada vez. La puntería se afina cuanto mayor es la cantidad de mediciones y cuanto mayor es el tamaño de la muestra.
En un ensayo clínico aleatorio simple, podríamos dar una nueva droga (farmaco) a un gupo de pacientes y un farmaco estandar a otra muestra. Basado en observaciones de los efectos en estos dos grupos de pacientes podremos hacer conclusiones o inferencias sobre la eficacia relativa del nuevo fármaco. En otras palabras podremos estimar la efectividad de los dos medicamentos que podríamos esperar si perscribiéramos cada uno de los fármacos a la población general de pacientes. Y también podremos estimar con que grado de confianza podemos sostener las conclusiones que saquemos.
Un antropólogo podría estimar las alturas de las personas de un grupo en su estudio. Para esto podría basarse en distribuciones de probabilidad con base en sus muestras. Con una istribución de probabilidad como la normal por ejemplo podría caracterizar la distribución de las alturs y necesitará encontrar la media y la desviación estandar de esta deistribución.
5. Test o prueba de Hipotesis
Existen una gran cantidad de problemas en los cuales, en vez de estimar el valor de un parámetro, debemos decidir si una afirmación relativa a un parametro es verdadera o falsa. Miller y Freund, en "Probabilidad y Estadística para Ingenieros", propone el siguiente ejemplo:
En un trabajo de control de calidad una muestra aleatoria puede servir para determinar el hecho de que la medida del proceso ha permaneido inalterada o bien si ha cambiado a tal grado que el proceso esté fuera de control y tengan que hacerse ajustes.
Test de hipotesis es un metodo que se elije y se usa para probar un supuesto que se desea comprobar (hipotesis) sobre una población usando una muestra.
Hay una gran cantidad de test de hipotesis así como también hay guias en base a experiencias para elegir el o los metodos correctos para cada estudio. Entre estas pruebas las más conocidas son t-Test, Binomial Test, Chi-square test. También hay metodos de prueba de hipotesis para probar la correlación de variables, como los métodos de correlación y regresión.
6. Contraste de Hipotesis
El contraste de hipotesis es una prueba que sirve para decidir, con cierta probabilidad si una afirmación es cierta o falsa. El contraste de hipotesis se hace definiendo las hipotesis nula y alternativa que se desean estudiar.
La hipotesis nula (H0) es la eque se asume como verdadera hasta que se demuestre lo contrario.
La hipotesis alternativa (H1) es la que se asume con opuesto o contrario a la hipotesis nula.
En otras palabras:
La hipotesis nula es la que asumimos como cierta por defecto,
La hipotesis alternativa es la que pretende refutar la hipotesis nula.
Ejemplos:
En una partida de envases de leche se desea probar si el contenido es exactamente 1 litro tal y como dice el envase. Entonces:
La hipotesis nula es que la media de el contenido de los envases de leches es igual a 1 litro. Ho: µ =1.
La hipotesis alternativa es que la media del contenido de los envases de leches es igual a 1 litro. H1: µ<>1.
Es conocido cuan dañino es el contenido de sal en el pan para la hipertensión arterial. Para esto en muchos países se controla que el contenido sea bajo. Por ejemplo se inspecciona que el contenido de sal en las muestras de sal sea como máximo 1,5%. Entonces:
La hipotesis nula es que la muestra tenga como máximo una proporción de 1.5% de sal. Ho: p <= 1,5%:
La hipotesis alternativa es que la muestra tenga una proporción mayor al 1,5% de sal. H1: p > 1,5%.
Hipótesis Nula y Alternativa
Las hipótesis nula y alternativa son fundamentales en las pruebas de hipótesis.
Generalmente, la hipótesis nula es la que se considera cierta por defecto, y se le da el beneficio de la duda. Si se obtienen suficientes pruebas en su contra, se rechaza.
Existen dos criterios para definir la Hipótesis Alternativa y la Nula. Los criterios son: Pretención de demostración y Facilicad de análisis.
Desde el punto de vista de pretención de demostracón lo usual es que: La hipótesis alternativa es lo que se pretende demostrar, mientras que la hipótesis nula es lo que se intenta refutar.
Por ejemplo, para probar que un pan tiene más sal de la permitida, la hipótesis alternativa (H1) sería que el pan tiene más sal, y la nula (H0) que no tiene más sal.
Desde el punto de vista de la facilidad de análisis, lo usual es que: La hipótesis nula se plantea de manera simple y con una igualdad. La hipotesis alternativa se presenta con una desigualdad.
Por ejemplo, al verificar si los envases de leche tienen 1 litro, la hipótesis nula sería que el promedio es exactamente igual a 1 litro y la alternativa que no lo es.
Hay mayor nivel de detalle de estos conceptos en el apartado de hipótesis nula y alternativa.
Cobertura y exahustividad de las pruebas de hipótesis
Cobertura: Las hipótesis no siempre cubren todos los resultados posibles; por ejemplo, en un remedio que cura al 90% de pacientes, las hipótesis podrían ser que cura al 90% (nula) o menos del 90% (alternativa), sin considerar que cure a más del 90%.
Exahustividad: Las pruebas de hipótesis no ofrecen certeza absoluta, pero indican qué tan improbables son los resultados bajo la suposición de que la hipótesis nula es cierta. Si los resultados son extremadamente improbables, se considera evidencia para rechazar la hipótesis nula y aceptar la alternativa, la cual desafía el estatus quo y lleva la carga de la prueba.
Hay mayor detalle de estos conceptos en el apartado de pruebas de hipótesis.
Nivel de Significancia
Para que una hipotesis pueda ser aceptada como cierta o rechazada como falsa, es necesario definir un criterio de aceptación y rechazo.
Alpha (α), es el área de la región de rechazo en un constraste. Es un valor de probabilidad y por lo tanto debe estar entre 0 y 1. Alpha (α o Alfa) siempre es un valor pequeño, frecuente se le asigna un valor de 5%.
Este concepto se amplia en el apartado de nivel de significancia alfa.
Valor p
Hasta aquí ya se puede saber si la muestra podría ser aceptada o rechazada. Pero antes de decidir y para darle más rigor a la decisión, se suele calcular el valor p de la muestra.
El valor p es la probabilidad de encontrar una observacón que sea igual o más extrema que la de la muestra suponiendo que la hipótesis nula sea cierta.
Cuando una observación es extraña, muy alejada de lo esperado el valor p se hace muy pequeño. Entonces,
si el valor p es menor que el nivel de significación α se rechaza la hipotesis nula.
si el valor p es mayor que el nivel de significación α se acepta la hipotesis nula.
En resumen, cuanto más pequeño es el valor p más improbable es que se repita la muestra observada o algo más extremo, por lo que podemos rechazar la hipotesis nula y podríamos aceptar entonces la hipotesis alternativa que es la que se desea probar.
Si el valor p es muy bajo signigica que el resultado de la muestra es poco probable que haya ocurrido por casualidad unicamente.
Regla del suceso infrecuente para la estadística inferencial
El valor p, se sostiene en una regla experimental de la estadística que se denomina regla del suceso infrecuente. Esta regla afirma que:
Si, bajo un supuesto dado, la probabilidad de un suceso observado particular es excepcionalmente pequeña, concluimos que el supuesto probablemente es incorrecto.
Siguiendo esta regla, probamos una aseveración analizando datos muestrales en un intento por distinguir entre resultados que pueden ocurrir fácilmente por azar y resultados cuya ocurrencia es extremadamente improbable debido al azar.
Podemos explicar la ocurrencia de resultados extremadamente improbables al decir que en realidad ha ocurrido un suceso infrecuente o que el supuesto subyacente no es verdadero.
Se suele entender mejor este concepto con un ejemplo como el de la selección de sexo al concebir un bebé.
Cometer un error
Siempre existe la posibilidad de cometer un error. Los casos en los que se puede acertar y cometer errores son los siguientes.
Si en realidad la hipotesis nula si es cierta:
Si la decisión es aceptarla:, la decisión es correcta y no hay error.
Si la decisión es rechazarla, la decisión es incorrecta y el error es de tipo 1.
Si en realidad la hipotesis nula no es cierta :
Si la decisión es aceptarla, la decisión es incorrecta y el error es de tipo 2.
Si la decisión es rechazarla, la decisión es correcta y no hay error.
Entonces
Error tipo 1: Es cuando la hipotesis nula si es cierta y es rechazada.
Error tipo 2: Es cuando la hipotesis nula no es cierta y es aceptada.
Resumen de los pasos para realizar una prueba de hipotesis
Estudiar la población y definir sus estadísticos.
Definir las hipotesis de contraste, nula y alternativa, H0 y H1.
Elegir un nivel de significación alpha y debijar las regiones de aceptación y rechazo en función de las hipotesis de contraste.
Tomar una muestra nueva y calcular los estadisticos de prueba y su valor p.
Tomar la decisión.
Referencias
Estadística: Mario Triola.