top of page
Foto del escritorDaniel Christello

Estación de Servicio a 5 minutos

Actualizado: 24 may

Al ir y volver a casa, cuando llevo y traigo a mi hijo al cole veo un cartel de aviso de estación de servicio a 5 minutos, raro es ver este cartel por dos razones:

  1. En general veo carteles que explican la distancia a áreas de servicio en kilómetros y no en tiempos.

  2. Se trata de una cartel ubicado en una zona urbana. Es que estoy mas acostumbrado a ver este tipo de aviso en rutas interurbanas.

En cualquier caso e inspirado en curiosidad y en un ejercicio análogo que vi en un curso de estadística en LinkedIn Eladio Mendoza, me dispuse a probar si este cartel está en lo cierto, utilizando la prueba t o t-test. El t-test es el procedimiento de inferencia más básico y popular de la estadística inferencial.



Muestra

Para esto lo primero que hice fue tomarme unos meses para medir los tiempos redondeados a minutos de lo que tardo desde que veo el cartel hasta que paso por la estación de servicio.

  • En primer lugar, decidí hacer un análisis con los datos de una semana, y luego decidir repetir el análisis con otra muestra obtenida por las mediciones de 90 días.


Hipótesis

En segundo lugar, especifiqué las siguientes hipótesis:

  • Hipótesis nula (Ho): El tiempo que se tarda es 5 minutos. (El cartel dice la verdad).

  • Hipótesis alternativa (H1): El tiempo que se tarda es mayor a 5 minutos. (El cartel da información sesgada por defecto)


Cálculo

En tercer lugar lugar decidí hacer el análisis usando python con lo que se facilitó mucho el trabajo de cálculo. Utilicé entonces la librería stats de scipy y dentro de ésta la función ttest_1samp. Puede verse el análisis que explico a continuación en mi repositorio github.


Esta función devuelve los siguientes estimadores estadísticos de la prueba t:

  1. statistic: Es una medida de la distancia en unidades de error estándar que hay entre la media de la muestra y la media de la población. Un valor t alto (positivo o negativo) indica una diferencia mayor.

  2. pvalue: Es la probabilidad de obtener un resultado tan extremo como el observado, bajo la hipótesis nula (que dice que no hay diferencia real entre la media de la muestra y la media de la población). Un valor p bajo (típicamente < 0.05) indica que la diferencia observada es estadísticamente significativa. La función stats.ttest_1samp de SciPy en sí misma no especifica un nivel de confianza o un valor de alfa (α) predeterminado. En lugar de ello, la función realiza la prueba t y devuelve el valor t y el valor p asociados. Es responsabilidad del usuario interpretar estos resultados en función de un nivel de significancia (α) elegido.

  3. df: Son los grados de libertad para calcular el p-value y corresponde al tamaño de la muestra -1.


Interpretación del valor p

El valor p proporcionado por stats.ttest_1samp debe compararse con el nivel de significancia α que se haya decidido utilizar. Los niveles de significancia comunes son: + α = 0.05 (5%):

  • Un valor p menor que 0.05 indica que los resultados son estadísticamente significativos al nivel del 5%. + α = 0.01 (1%):

  • Un valor p menor que 0.01 indica que los resultados son estadísticamente significativos al nivel del 1%.

El valor p mide la probabilidad de observar un resultado tan extremo como el observado, o mayor, dado que la hipótesis nula es verdadera.

  • Si el valor p es menor que el nivel de significancia α, se rechaza la hipótesis nula.


Interpretación del estadístico t

Decimos que la diferencia (t-statistic) entre la media de la muestra y la media de la población es grande, pero para ver que tan grande es esta diferencia podemos compararla con el nivel de confianza.

Podemos calcular el valor del estadístico t, para el nivel de confianza que estemos precisando y en función de los grados de libertad (que se corresponden con el tamaño de la muestra menos uno)

Para esto usamos la función stats.t.ppf(). A esta función le damos como argumentos el nivel de confianza y los grados de libertad y nos devuelve el valor del estadístico t límite o de threshold. Entonces:

  1. Si el estadístico t es mayor que el threshold (para valores positivos o de cola derecha) entonces la diferencia dada por el estadístico t es significativa y su nivel de significancia estará medido por el valor p.

  2. Si el estadístico t es menor que el threshold  (para valores negativos o de cola izquierda) entonces la diferencia dada por el estadístico t es significativa y su nivel de significancia estará medido por el valor p.

Conclusiones

Las conclusiones, además de las observaciones iniciales y pasado el tiempo, son:

  • El cartel de 5 minutos contiene una información poco confiable.

  • Que se tarda al llegar a la estación desde la ubicación del cartel es mayor a 5 minutos y encima de los 6 minutos.

  • Pasados ya varios meses luego de realizado este estudio, el cartel ya no está, aún cuando la estación de servicio si está.



4 visualizaciones0 comentarios

Entradas recientes

Ver todo

Comments


bottom of page