Cuestiones de regresion
Aspectos a considerar en regresiones
Análisis de cuestiones relativas a correlación y regresión
Los casos de estudios de este apartado se comparten en un jupiter notebook en github.
Old Faithful. Problema de regresión a resolver.
Para los siguietnes datos, altura de la erupción e intervalo posterior a una erupción:
Altura 140, 110, 125, 120, 140, 120, 125, 150,
Intervalo posterior 92, 65, 72, 94, 83, 94, 101, 87
Calcule :
La correlación y regresión con sm.OLS y modelo.summary()
Calcule slope, a intercept también con np.polyfit
Con sklearn haga lo mismo
Compare slope e intercept de a, b y c. Cual es la mejor opcón para armar la recta de ajuste?
Calcule el mejor tiempo predicho del intervalo posterior a una erupción (hasta la siguiente erupción) dado que la erupción actual tiene una altura de 100 pies.
Haga los calculos con las tres librerias y compare los resultados de las predicciones. Cual es la mas confiable y porque?
Comparación de coeficientes:
sm.OLS: Pendiente: 0.2465, Intercepto: 54.27, R²: 0.073
np.polyfit: Pendiente: 0.2465, Intercepto: 54.27,
sklearn:Pendiente: 0.2465, Intercepto: 54.27
Predicciones para una altura de 100 pies:
sm.OLS: 78.91 minutos, np.polyfit: 78.91 minutos, sklearn: 78.91 minutos
Evaluación:
La ecuación de la recta de regresión resultante es:
yˆ = b1x + b0
yˆ = 0.25x + 54.3
Los resultados para la pendiente, el intercepto y la predicción son idénticos en las tres librerías.
El R² de la regresión OLS es bastante bajo (0.073), lo que indica que el modelo tiene un ajuste muy limitado a los datos. Esto sugiere que la relación entre la altura de la erupción y el intervalo posterior no está bien representada por una regresión lineal simple.
Dado que los coeficientes y predicciones son consistentes entre los tres métodos, no hay una diferencia significativa entre las opciones en este caso. Sin embargo, el bajo valor de R2R^2R2 indica que el modelo en general no es muy confiable para predecir el intervalo posterior basado solo en la altura de la erupción.
Presupuestos e ingresos brutos de películas. Correlación y Regresión
En la siguiente tabla se muestran los sistolicas (en millones de dólares) y los ingresos brutos (en millones de dólares) de películas seleccionadas al azar (según datos de la Motion Picture Association of America).
Presupuesto 62 90 50 35 200 100 90
Ingresos 65 64 48 57 601 146 47
¿Parece existir una correlación lineal entre el dinero gastado para filmar la película y la cantidad recuperada en las salas de cine?
Además del monto del presupuesto, identifique otro factor importante que puede afectar la cantidad de dinero que obtiene la película.
Calcule la mejor cantidad predicha de los ingresos brutos de una película con un presupuesto de $40 millones.
Se observa una muy alta correlación entre ambas variables. Esta correlación está apoyada por:
Un alto índice de correlaicón de Pearson.
Un bajo valor p < 0.01 que desestima la posibilidad de la H0 que ambas variables no estén correlacionadas.
El coeficiente de correlación de Spearman arroja evidencia (observada) que la correlación existe (> 0.5 pero no es monótona)
Conclusión
Existe correlación entre el presupuesto y los ingresos que la película genera.
Existen también otros factores que inciden en los ingresos que genra la pelicula:
Las criticas del avant premiere
La calidad de los actores
El género y la trama
Ecuación de la recta y predicción
Calcule la mejor cantidad predicha de los ingresos brutos de una película con un presupuesto de $40 millones.
Método Slope (Pendiente) Intercept (Intercepto) Predicción (Presupuesto (40MM))
0sm.OLS 3.47209 -164.142932 -25.2593261
np.polyfit 3.47209 -164.142932 -25.2593262
sklearn 3.47209 -164.142932 -25.259326
Mediciones de presión sanguínea. Correlación y regresión.
Calcule la mejor presión sanguínea diastólica predicha para una persona con una lectura sistólica de 140.
Sistólica 138 130 135 140 120 125 120 130 130 144 143 140 130 150
Diastólica 82 91 100 100 80 90 80 80 80 98 105 85 70 100
MétodoSlope (Pendiente) Intercept (Intercepto) Predicción (Diastólica (140 sistólica))
0sm.OLS 0.769236 -14.379813 93.3132181
np.polyfit 0.769236 -14.379813 93.3132182
sklearn 0.769236 -14.379813 93.313218
Predicciones para una sistolica de 140
sm.OLS: 93.3 diastolica, np.polyfit: 93.3 diastolica, sklearn: 93.3 diastolica
Evaluación
yˆ = 0.77x - 14.38*
Los resultados para la pendiente, el intercepto y la predicción son idénticos en las tres librerías.
Por eso se ve un solo color correspondiente a la ultimalinea ploteada.
La predicción da un resultado negativo **( 93.3 diastolica)**
El R² de la regresión OLS es alto (0.433), lo que indica que el modelo tiene un ajuste bastante bueno.
Esto sugiere que la relación entre el presupuesto y los ingresos reales, está bastante bien representada por una regresión lineal simple.
Dado que los coeficientes y predicciones son consistentes entre los tres métodos, no hay una diferencia significativa entre las opciones en este caso.
Referencias