TP4 - Análisis exploratorio de datos
En el siguiente TP vamos a utilizar las herramientas de análisis exploratorio de datos provistas en el curso para analizar un dataset que nunca antes vimos.
Los datos
Este dataset consta de todas las películas originales de Netflix estrenadas hasta del 1 de junio de 2021. Además, también incluye todos los documentales y especiales de Netflix. Los datos se bajaron de esta página de Kaggle. Los miembros de la comunidad votan las puntuaciones de IMDB, y la mayoría de las películas tienen más de 1.000 reseñas.
Las columnas del dataset son:
- Título de la película
Title
- Género de la película
Genre
- Fecha original de estreno
Premiere
- Duración en minutos
Runtime
- Puntaje en IMDB (al 01/06/21)
IMDB Score
- Idiomas disponibles (al 01/06/21)
Language
Para más detalles de los datos pueden consultar acá.
Los datos están en la carpeta Practicos/tp4-EDA/data del
repositorio. Los podemos bajar y cargar con read_csv()
o
cargar directo desde la url.
library(tidyverse)
<- "https://raw.githubusercontent.com/spiousas/Inferencia_con_R_UNQ2021/main/Practicos/tp4-EDA/data/NetflixOriginals.csv"
url <- getURL(url)
x <- as_tibble(read.csv(text = x)) netflix
1 - Mirar los datos
Useamos las funciones summary()
, str()
y
glimpse()
para ver qué estructura y qué tipos de variables
tiene nuestro dataset
¿Tiene valores
NA
?¿Alguna de las variables no es del tipo que corresponde?
Ayuda: Para convertir una fecha de
chr
aDate
una de las formas más simples es usando el paquete {lubridate}. Por ejemplo, la funciónmdy("August 5, 2019")
nos da como resutado una fecha"2019-08-05"
. La ventaja de tener variablesDate
es que nos permite ordenarlas, realizar operaciones con ellas, etc.¿Hay algún valor sospechoso?
Una vez corregidos los probelmas del dataset imprimir un resumen
usando la función skim()
del paquete {skimr}.
¿Cuáles son los tres géneros con más estrenos?
¿Y los tres idiomas con más estrenos?
2 - Variación
Exploremos con un simple gráfico de barras la cantidad de películas de cada género.
- ¿Cuántos géneros hay?
- ¿Cómo es la distribución por género?
Ahora miremos la distribución de duraciones y de rating de IMDB ¿Qué podemos decir al respecto?
Veamos cómo se distribuyen los ratings de IMDB para los géneros Drama y Comedy.
Por último: ¿Qué pasa con las distribuciones de duraciones para Comedy y Documentary?
3 - Covariación
Utilizando un boxplot veamos si hay alguna relación entre las películas de los géneros Comedy, Drama y Documentary y su rating de IMDB.
Luego, usando la función geom_tile()
miremos la cantidad
de muestras para las combinaciones de los tres géneros y los tres
idiomas con más estrenos.
Ahora vamos a ver la covariación entre dos variables continuas. Vemos si existe alguna relación entre la fecha de estreno y el rating de IMDB.
¿Y si nos quedamos con los tres géneros más populares y lo vemos por género?
Por último, utilicemos la función ggpairs()
de
{GGally} para ver las distribuciones y correlaciones de todas
las variables numéricas de netflix
.
4 - Outliers
Usemos la librería {Routliers} para ver si tenemos
outliers univariados en las variables Runtime
(duración) y IMDB Score
(rating de IMDB)
¿Qué podemos decir de los outliers de Runtime
?
¿Los podemos categorizar de alguna forma? ¿Nos pueden dar alguna
información sobre las producciones de Netflix?
¿Y sobre los outliers de rating de IMDB?
Por último, analicemos si hay outliers multivariados en ambas variables.