TP6 - Modelos lineales
En este trabajo vamos a poner en práctica los conceptos aprendidos sobre regresión lineal, regresión múltiple e inferencia.
1 - Regresión lineal
Utilizando el dataset starbucks
del paquete
{openintro}, ajuste un modelo lineal para estimar las calorías
de un producto calories
utilizando como predictor los
gramos de grasa fat
.
Visualice los resultados y escribir la ecuación del modelo.
Visualice los residuos.
Estime las calorías de un nuevo producto con 19 gramos de grasa.
¿Qué pasa cuando hay 0 gramos de grasa?
¿Cómo varía la pendiente si ajustamos el mismo modelos pero
utilizando carb
, fiber
o
protein
?
Volvamos al modelo con fat
. si vemos la salida de
summary()
, ¿Qué puede decir del \(R^2\) y del \(p\)?
Agreguede a uno cada uno de estos outliers y estude cómo afectan a la pendiente.
- Outlier 1:
fat=25, calories=150
- Outlier 2:
fat=50, calories=150
- Outlier 3:
fat=50, calories=700
2 - Regesión multiple
Utilizando el dataset penguins
del paquete
{palmerpenguins}, ajuste un modelo lineal para estimar el peso
de los pinguinos (en g) body_mass_g
a partir de la variable
continua ancho de pico (en mm) bill_depth_mm
y la variable
discreta especie species
,sin interacción.
Escriba la ecuación y estime el peso de un pinguino Chinstrap de ancho de pico 18 mm.
Más allá de los parámetros ¿Qué puede decir del efecto conjunto de la
variable discreta species
?
Agerguemos la interacción al modelo ¿Es significativamente más “explicativo”? Volvamos a escribir la ecuación y a estimar el peso para un pinguino Chinstrap de ancho de pico 18 mm.
3 - Intervalos de confianza
Utilizando la siguiente ecuación:
\[ Peso = 500 + 1 \times Dientes \] Genere una muestra de 2000 datos de la siguiente forma:
set.seed(4)
<- tibble(Dientes = round(rnorm(2000) * 10+50),
data_dientes Peso = (500 + 1 * Dientes) + rnorm(2000) * 30)
tome 200 muestras aleatorias de 20 individuos y calcule cuántas veces el valor real de la pendiente es contenido por el intervalo de confianza.
¿Qué pasa si en lugar de ser muestras de 20 individuos son de 50?
4 - La interacción
Utilizando el dataset cats
del paquete {MASS},
ajuste un modelo lineal para estimar el peso del corazón (en g)
Hwt
a partir de la variable continua peso del cuerpo (en
Kg) Bwt
y la variable discreta sexo Sex
.
Vizualice los resultados e interprete la salida de
summary()
¿Hay diferencia entre summary()
y
Anova(. , type =3)
? ¿Por qué?
Escriba la ecuación y estime el peso del corazón para un gato macho de 3 Kg y para una gata hembra de 2 Kg.
Escribe el modelo lineal para gatos hembras y machos agrupando pendientes y ordenadas al origen ¿Para qué sexo la pendiente es más empinada?
5 - Muchas variables
Utilizando el dataset birth14
del paquete
{openintro}, ajuste un modelo lineal para estimar el peso de
los recién nacidos (en libras) weight
utilizando como
regresores la longitud del embarazo en semanas weeks
, la
edad de la madre en años mage
, el sexo del bebé
sex
, si la madre era fumadora habit
, y el
número de visitas al hospital durante el embarazo
visits
.
Escriba la ecuación del modelo completo.
Interprete las pendientes de weeks
y habit
en este contexo.
Calcule los residuos para el primer valor del dataset.
Estime el peso en Kg para un bebé female nacido después de 39 semanas de embarazo, con una madre de 38 años de edad, fumadora y con 12 visitas al hospital durante el embarazo.