top of page

Cuestiones de regresion

Aspectos a considerar en regresiones

Análisis de cuestiones relativas a correlación y regresión

Análisis de cuestiones relativas a correlación y regresión

Los casos de estudios de este apartado se comparten en un jupiter notebook en github.


Old Faithful. Problema de regresión a resolver.

Para los siguietnes datos, altura de la erupción e intervalo posterior a una erupción:

Altura 140, 110, 125, 120, 140, 120, 125, 150,

Intervalo posterior 92, 65, 72, 94, 83, 94, 101, 87

Calcule :

  • La correlación y regresión con sm.OLS y modelo.summary()

  • Calcule slope, a intercept también con np.polyfit

  • Con sklearn haga lo mismo

  1. Compare slope e intercept de a, b y c. Cual es la mejor opcón para armar la recta de ajuste?

  2. Calcule el mejor tiempo predicho del intervalo posterior a una erupción (hasta la siguiente erupción) dado que la erupción actual tiene una altura de 100 pies.

Haga los calculos con las tres librerias y compare los resultados de las predicciones. Cual es la mas confiable y porque?


Comparación de coeficientes:

  1. sm.OLS: Pendiente: 0.2465, Intercepto: 54.27, R²: 0.073

  2. np.polyfit: Pendiente: 0.2465, Intercepto: 54.27, 

  3. sklearn:Pendiente: 0.2465, Intercepto: 54.27

Predicciones para una altura de 100 pies:

  1. sm.OLS: 78.91 minutos, np.polyfit: 78.91 minutos, sklearn: 78.91 minutos

Evaluación:

La ecuación de la recta de regresión resultante es:

yˆ = b1x  +  b0

yˆ = 0.25x + 54.3

  • Los resultados para la pendiente, el intercepto y la predicción son idénticos en las tres librerías.

  • El R² de la regresión OLS es bastante bajo (0.073), lo que indica que el modelo tiene un ajuste muy limitado a los datos. Esto sugiere que la relación entre la altura de la erupción y el intervalo posterior no está bien representada por una regresión lineal simple.

Dado que los coeficientes y predicciones son consistentes entre los tres métodos, no hay una diferencia significativa entre las opciones en este caso. Sin embargo, el bajo valor de R2R^2R2 indica que el modelo en general no es muy confiable para predecir el intervalo posterior basado solo en la altura de la erupción.


Presupuestos e ingresos brutos de películas. Correlación y Regresión

En la siguiente tabla se muestran los sistolicas (en millones de dólares) y los ingresos brutos (en millones de dólares) de películas seleccionadas al azar (según datos de la Motion Picture Association of America).

Presupuesto   62  90  50  35  200 100 90

Ingresos  65  64  48  57  601 146 47

  • ¿Parece existir una correlación lineal entre el dinero gastado para filmar la película y la cantidad recuperada en las salas de cine?

  • Además del monto del presupuesto, identifique otro factor importante que puede afectar la cantidad de dinero que obtiene la película.

  • Calcule la mejor cantidad predicha de los ingresos brutos de una película con un presupuesto de $40 millones.

Se observa una muy alta correlación entre ambas variables. Esta correlación está apoyada por:

  • Un alto índice de correlaicón de Pearson.

  • Un bajo valor p < 0.01 que desestima la posibilidad de la H0 que ambas variables no estén correlacionadas.

El coeficiente de correlación de Spearman arroja evidencia (observada) que la correlación existe (> 0.5 pero no es monótona)

Conclusión

Existe correlación entre el presupuesto y los ingresos que la película genera.

Existen también otros factores que inciden en los ingresos que genra la pelicula:

  • Las criticas del avant premiere

  • La calidad de los actores

  • El género y la trama

Ecuación de la recta y predicción

Calcule la mejor cantidad predicha de los ingresos brutos de una película con un presupuesto de $40 millones.

Método Slope (Pendiente) Intercept (Intercepto) Predicción (Presupuesto (40MM))

0sm.OLS          3.47209         -164.142932            -25.2593261

np.polyfit         3.47209          -164.142932            -25.2593262

  sklearn         3.47209          -164.142932           -25.259326


Mediciones de presión sanguínea. Correlación y regresión.

Calcule la mejor presión sanguínea diastólica predicha para una persona con una lectura sistólica de 140.

Sistólica 138 130 135 140 120 125 120 130 130 144 143 140 130 150

Diastólica 82 91 100 100 80 90 80 80 80 98 105 85 70 100

MétodoSlope (Pendiente)      Intercept (Intercepto)     Predicción (Diastólica (140 sistólica))

0sm.OLS                    0.769236                    -14.379813          93.3132181

np.polyfit                    0.769236                   -14.379813          93.3132182

sklearn                     0.769236                   -14.379813          93.313218


Predicciones para una sistolica de 140

sm.OLS: 93.3 diastolica, np.polyfit: 93.3 diastolica, sklearn: 93.3 diastolica

Evaluación

yˆ = 0.77x - 14.38*

  • Los resultados para la pendiente, el intercepto y la predicción son idénticos en las tres librerías.

    • Por eso se ve un solo color correspondiente a la ultimalinea ploteada.

  • La predicción da un resultado negativo **( 93.3 diastolica)**

  • El R² de la regresión OLS es alto (0.433), lo que indica que el modelo tiene un ajuste bastante bueno.

  • Esto sugiere que la relación entre el presupuesto y los ingresos reales, está bastante bien representada por una regresión lineal simple.

  • Dado que los coeficientes y predicciones son consistentes entre los tres métodos, no hay una diferencia significativa entre las opciones en este caso.

Referencias

Repositorio Daniel Christello en github.

bottom of page