TP6 - Modelos lineales

En este trabajo vamos a poner en práctica los conceptos aprendidos sobre regresión lineal, regresión múltiple e inferencia.

1 - Regresión lineal

Utilizando el dataset starbucks del paquete {openintro}, ajuste un modelo lineal para estimar las calorías de un producto calories utilizando como predictor los gramos de grasa fat.

Visualice los resultados y escribir la ecuación del modelo.

Visualice los residuos.

Estime las calorías de un nuevo producto con 19 gramos de grasa.

¿Qué pasa cuando hay 0 gramos de grasa?

¿Cómo varía la pendiente si ajustamos el mismo modelos pero utilizando carb, fiber o protein?

Volvamos al modelo con fat. si vemos la salida de summary(), ¿Qué puede decir del \(R^2\) y del \(p\)?

Agreguede a uno cada uno de estos outliers y estude cómo afectan a la pendiente.

  • Outlier 1: fat=25, calories=150
  • Outlier 2: fat=50, calories=150
  • Outlier 3: fat=50, calories=700

2 - Regesión multiple

Utilizando el dataset penguinsdel paquete {palmerpenguins}, ajuste un modelo lineal para estimar el peso de los pinguinos (en g) body_mass_g a partir de la variable continua ancho de pico (en mm) bill_depth_mm y la variable discreta especie species,sin interacción.

Escriba la ecuación y estime el peso de un pinguino Chinstrap de ancho de pico 18 mm.

Más allá de los parámetros ¿Qué puede decir del efecto conjunto de la variable discreta species?

Agerguemos la interacción al modelo ¿Es significativamente más “explicativo”? Volvamos a escribir la ecuación y a estimar el peso para un pinguino Chinstrap de ancho de pico 18 mm.

3 - Intervalos de confianza

Utilizando la siguiente ecuación:

\[ Peso = 500 + 1 \times Dientes \] Genere una muestra de 2000 datos de la siguiente forma:

set.seed(4)
data_dientes <- tibble(Dientes = round(rnorm(2000) * 10+50),
                       Peso = (500 +  1 * Dientes) + rnorm(2000) * 30)

tome 200 muestras aleatorias de 20 individuos y calcule cuántas veces el valor real de la pendiente es contenido por el intervalo de confianza.

¿Qué pasa si en lugar de ser muestras de 20 individuos son de 50?

4 - La interacción

Utilizando el dataset cats del paquete {MASS}, ajuste un modelo lineal para estimar el peso del corazón (en g) Hwt a partir de la variable continua peso del cuerpo (en Kg) Bwt y la variable discreta sexo Sex.

Vizualice los resultados e interprete la salida de summary() ¿Hay diferencia entre summary() y Anova(. , type =3)? ¿Por qué?

Escriba la ecuación y estime el peso del corazón para un gato macho de 3 Kg y para una gata hembra de 2 Kg.

Escribe el modelo lineal para gatos hembras y machos agrupando pendientes y ordenadas al origen ¿Para qué sexo la pendiente es más empinada?

5 - Muchas variables

Utilizando el dataset birth14 del paquete {openintro}, ajuste un modelo lineal para estimar el peso de los recién nacidos (en libras) weight utilizando como regresores la longitud del embarazo en semanas weeks, la edad de la madre en años mage, el sexo del bebé sex, si la madre era fumadora habit, y el número de visitas al hospital durante el embarazo visits.

Escriba la ecuación del modelo completo.

Interprete las pendientes de weeks y habit en este contexo.

Calcule los residuos para el primer valor del dataset.

Estime el peso en Kg para un bebé female nacido después de 39 semanas de embarazo, con una madre de 38 años de edad, fumadora y con 12 visitas al hospital durante el embarazo.