TP4 - Análisis exploratorio de datos

En el siguiente TP vamos a utilizar las herramientas de análisis exploratorio de datos provistas en el curso para analizar un dataset que nunca antes vimos.

Los datos

Este dataset consta de todas las películas originales de Netflix estrenadas hasta del 1 de junio de 2021. Además, también incluye todos los documentales y especiales de Netflix. Los datos se bajaron de esta página de Kaggle. Los miembros de la comunidad votan las puntuaciones de IMDB, y la mayoría de las películas tienen más de 1.000 reseñas.

Las columnas del dataset son:

  • Título de la película Title
  • Género de la película Genre
  • Fecha original de estrenoPremiere
  • Duración en minutos Runtime
  • Puntaje en IMDB (al 01/06/21) IMDB Score
  • Idiomas disponibles (al 01/06/21) Language

Para más detalles de los datos pueden consultar acá.

Los datos están en la carpeta Practicos/tp4-EDA/data del repositorio. Los podemos bajar y cargar con read_csv() o cargar directo desde la url.

library(tidyverse)

url <- "https://raw.githubusercontent.com/spiousas/Inferencia_con_R_UNQ2021/main/Practicos/tp4-EDA/data/NetflixOriginals.csv"
x <- getURL(url)
netflix <- as_tibble(read.csv(text = x))

1 - Mirar los datos

Useamos las funciones summary(), str() y glimpse() para ver qué estructura y qué tipos de variables tiene nuestro dataset

  • ¿Tiene valores NA?

  • ¿Alguna de las variables no es del tipo que corresponde?

    Ayuda: Para convertir una fecha de chr a Date una de las formas más simples es usando el paquete {lubridate}. Por ejemplo, la función mdy("August 5, 2019") nos da como resutado una fecha "2019-08-05". La ventaja de tener variables Date es que nos permite ordenarlas, realizar operaciones con ellas, etc.

  • ¿Hay algún valor sospechoso?

Una vez corregidos los probelmas del dataset imprimir un resumen usando la función skim() del paquete {skimr}.

¿Cuáles son los tres géneros con más estrenos?

¿Y los tres idiomas con más estrenos?

2 - Variación

Exploremos con un simple gráfico de barras la cantidad de películas de cada género.

  • ¿Cuántos géneros hay?
  • ¿Cómo es la distribución por género?

Ahora miremos la distribución de duraciones y de rating de IMDB ¿Qué podemos decir al respecto?

Veamos cómo se distribuyen los ratings de IMDB para los géneros Drama y Comedy.

Por último: ¿Qué pasa con las distribuciones de duraciones para Comedy y Documentary?

3 - Covariación

Utilizando un boxplot veamos si hay alguna relación entre las películas de los géneros Comedy, Drama y Documentary y su rating de IMDB.

Luego, usando la función geom_tile() miremos la cantidad de muestras para las combinaciones de los tres géneros y los tres idiomas con más estrenos.

Ahora vamos a ver la covariación entre dos variables continuas. Vemos si existe alguna relación entre la fecha de estreno y el rating de IMDB.

¿Y si nos quedamos con los tres géneros más populares y lo vemos por género?

Por último, utilicemos la función ggpairs() de {GGally} para ver las distribuciones y correlaciones de todas las variables numéricas de netflix.

4 - Outliers

Usemos la librería {Routliers} para ver si tenemos outliers univariados en las variables Runtime (duración) y IMDB Score (rating de IMDB)

¿Qué podemos decir de los outliers de Runtime? ¿Los podemos categorizar de alguna forma? ¿Nos pueden dar alguna información sobre las producciones de Netflix?

¿Y sobre los outliers de rating de IMDB?

Por último, analicemos si hay outliers multivariados en ambas variables.