top of page

Distribución t-Student

Distribución t de Student

t-Student.  Características.

t-Student. Características.

Distribución t-Student

La distribución t-Student es una distribución de probabilidad continua que surge cuando se estima la media de una población normal en situaciones en las que el tamaño de la muestra es pequeño y la desviación estándar de la población no se conoce. Es especialmente útil en inferencia estadística para pequeñas muestras y se utiliza en el contexto de la prueba t y los intervalos de confianza.


Características principales


Forma de la distribución: 

La distribución t-Student es simétrica y con forma de campana, similar a la distribución normal, pero con colas más gruesas. Esto significa que tiene más probabilidad de valores extremos comparado con la distribución normal.


Grados de libertad (v o df):

La forma de la distribución t-Student depende de los grados de libertad, que generalmente se relacionan con el tamaño de la muestra. A medida que aumentan los grados de libertad, la distribución t se asemeja cada vez más a la distribución normal. Matemáticamente, los grados de libertad se definen como ( n - 1), donde n  es el tamaño de la muestra.


Media y varianza:

   - Media: La media de la distribución t-Student es 0.

   - Varianza: La varianza es  df/df-2 para df > 2. Para df <=2 la varianza no está definida.


Usos de la distribución t-Student

  1. Pruebas de hipótesis: Se utiliza en la prueba t para determinar si hay una diferencia significativa entre las medias de dos grupos.

  2. Intervalos de confianza: Se emplea para calcular intervalos de confianza para la media de una población cuando la desviación estándar de la población no se conoce y el tamaño de la muestra es pequeño.

Fórmula de la distribución t-Student

La función de densidad de probabilidad de la distribución t-Student con \( \nu \) grados de libertad es:

f(x) = Γ((v+1)/2) / { √(πv) Γ(v/2){1+(x^2/v)]^(v+1)/2 }

  • x es la variable aleatoria de la función. f(x).

  • v (o df) representa los grados de libertad de la distribución. En el contexto de la distribución t-Student, los grados de libertad generalmente se relacionan con el tamaño de la muestra y se calculan como ν=n−1, donde n es el tamaño de la muestra. Los grados de libertad afectan la forma de la distribución: a medida que ν aumenta, la distribución t-Student se parece más a una distribución normal.

  • Γ (Gamma): Es la función Gamma, una generalización de la factorial para números reales y complejos. Para un entero positivo nnn, Γ(n)=(n−1)!\Gamma(n) = (n-1)!Γ(n)=(n−1)!. La función Gamma aparece en muchas áreas de las matemáticas y la estadística, especialmente en distribuciones de probabilidad.Esta parte de la fórmula usa la función Gamma para manejar la generalización de la factorial de valores no enteros, ajustando la forma de la distribución.. 

  • √(πv): Es un factor de normalización que asegura que el área bajo la curva de la función de densidad de probabilidad sea igual a 1, lo cual es una propiedad fundamental de cualquier distribución de probabilidad. Este es un componente que ajusta la escala de la distribución en función de los grados de libertad y asegura que la integral de la función de densidad de probabilidad sobre todos los valores de t sea 1.

  • Γ(v/2): Similar al primer término de Gamma, este ajuste es necesario para calcular la densidad de probabilidad correcta dado ν\nuν.

  • {1+(x^2/v)]^(v+1)/2 }: Este término determina la forma de la distribución. Es una función que decrece rápidamente y que determina la probabilidad de valores extremos en la distribución. Cuanto más pequeño sea ν\nuν, más pesadas son las colas de la distribución, lo que significa una mayor probabilidad de observar valores extremos.

Relación entre la distribución normal y la distribución t-student

La fórmula, 

X̅−μ/(s/√n), 

no es la función de densidad de probabilidad (PDF) de la distribución t-Student original, sino una fórmula simplificada de esta distribución para calcular el valor del estadistico t en una prueba t. Esta estadística t sigue una distribución t-Student bajo ciertas condiciones, como cuando se estima la media de una población normal con una muestra pequeña y se desconoce la desviación estándar de la población, donde:

  • : Es la media muestral, es decir, la media de los valores en la muestra.

  • μ: Es la media poblacional hipotética, que es el valor que queremos probar.

  • s: Es la desviación estándar muestral, calculada a partir de los datos de la muestra.

  • n: Es el tamaño de la muestra.

  • s/√ns: Es el error estándar de la media, una medida de cuánta variabilidad se espera en la media muestral.

Propiedades de la distribución t-Student

1. La distribución t de Student es diferente para distintos tamaños de muestra. (Véase la figura)

2. La distribución t de Student tiene la misma forma de campana simétrica que la distribución normal estándar, pero refleja una mayor variabilidad (con distri- buciones más amplias) de lo que se espera con muestras pequeñas.

3. La distribución t de Student tiene una media de t = 0 (así como la distribución normal estándar tiene una media de z = 0).

4. La desviación estándar de la distribución t de Student varía con el tamaño muestral, pero es mayor que 1 (a diferencia de la distribución normal estándar, que tiene s  = 1).

5. Conforme el tamaño muestral n se hace más grande, la distribución t de Student se acerca más a la distribución normal estándar.


Usos de la distribución t-Student

  1. Pruebas de hipótesis: Se utiliza en la prueba t para determinar si hay una diferencia significativa entre las medias de dos grupos.

  2. Intervalos de confianza: Se emplea para calcular intervalos de confianza para la media de una población cuando la desviación estándar de la población no se conoce y el tamaño de la muestra es pequeño.


Intervalos de confianza con t-Student

Es posible construir el intervalo de confianza de la media, cuando no conocemos la desviación estandard. Esto último se logra con base en la distribución t-Student.

t= X̅−μ/(s/√n)

Como generalmente se desconoce 𝞂 en circunstancias reales, este metodo es muy práctico, y se utiliza con frecuencia. Pero se puede usar bajo ciertas condiciones:

1. La muestra es aleatoria simple.

2. La muestra proviene de una población distribuida normalmente o n  > 30.

El requisito de una población distribuida normalmente no es estricto. Por lo regular, podemos considerar que la población está distribuida normalmente después de usar los datos muestrales para confirmar que no existen valores extremos y que el histograma tiene una forma que no es muy lejana a la de una distribución normal.

El requisito de que el tamaño muestral sea n >  30 suele usarse como directriz, pero el tamaño muestral mínimo realmente depende de cuánto se aleja la distribución de la población de la distribución normal. [Si se sabe que una población se distribuye normalmente, la distribución de medias muestrales x es exactamente una distribución normal con media m y desviación estándar 𝞂/√ n ; si la población no está distribuida normalmente, muestras grandes (n>30) producen medias muestrales con una distribución que es aproximadamente normal, con media µ y desviación estándar 𝞂/√ n].

Si se cumplen estos requisitos podemos considerar que:

La media muestral x es el mejor estimado puntual de la media poblacional µ.

Si 𝞂 no se conoce, pero los requisitos anteriores se satisfacen, utilizamos la distribución t de Student (en vez de la distribución normal), que desarrolló William Gosset (1876-1937). Gosset fue un empleado de la cervecería Guinness Brewery que necesitaba una distribución que pudiera utilizarse con muestras pequeñas. La cervecería irlandesa donde trabajaba no permitía la publicación de resultados de investigaciones, entonces Gosset publicó bajo el seudónimo de Student.

Puesto que no conocemos el valor de 𝞂, lo estimamos con el valor de la desviación estándar muestral s, pero esto introduce otra fuente de falta de confiabilidad, en especial conlas muestras pequeñas. Para mantener unintervalo de confianza en algún nivel deseado, como el 95%, compensamos esta falta de confiabilidad adicional haciendo más ancho el intervalo de confianza: utilizamos valores críticos tα/2  (de una distribución t de Student), los cuales son más grandes que los valores críticos de zα/2 de la distribución normal.


Para el cáclulo de los intervalos de confianza y para trabajar en general con la distribución t-Student es importante recordar el concepto de numero de grados de libertad que depende del tamaño de la muestra.


Grados de libertad = n-1


El número de grados de libertad para un conjunto de datos muestrales recolectados es el número de valores muestrales que pueden variar después de haber impuesto ciertas restricciones a todos los valores de los datos.

Entonces para calcular por ejemplo un z-crítico que ahora sería un t-crítico, tenemos que usar los grados de libertad en lugar del tamaño de la muestra.


Ejemplo:

Una muestra de tamaño n = 23 es una muestra aleatoria simple seleccionada de una población distribuida normalmente. Calcular el valor crítico tα/2 correspondiente a un nivel de confianza del 95%.

Utilizando t.ppf(1 - alpha/2, df) de scipy stats obtenemos el valor ±2.074. Puede verse el cálculo en jupiter notebook

bottom of page