class: center, middle # Visualización de datos:<br>*Return of the ggplot2* ### Análisis estadístico utilizando R UNQ UNTreF CONICET Ignacio Spiousas 2021-07-29 Pablo Etchemendy    54.253z"></path></svg>]( 2021-07-29 --- class: left, top, highlight-last-item # Funcionalidades extra Hay una **infinidad** de paquetes que agregan funcionalidades a **ggplot2** vamos a ver algunos: .pull-left[ ### Geometrías 📦**ggdist**: Distribuciones más lindas 📦**ggforce**: Anotaciones y grupos 📦**ggtext**: Texto con formato ### Layout 📦**patchwork**: Varias subfiguras ### Extras 📦**sf**: Mapas y goecosas 📦**ggstatsplot**: Figuras + estadística ] .pull-right[ ### Estética 📦**ggpubr**: Figuras y temas listos para publicación 📦**ggthemes**: Temas lindos 💇 📦**tvthemes**: Temás inspirados en TV 📦**wesanderson**: Paletas inspiradas en películas de Wes Anderson 🎨 📦**ghibli**: Paletas inspiradas en películas de Estudio Ghibli 🎨 ] --- class: left, top, highlight-last-item # Figura básica Retomemos este plot básico de los **Palmer Penguins** para tener de base ```r penguins_base <- penguins %>% drop_na() %>% ggplot(aes(x = bill_length_mm, y = flipper_length_mm, color = species)) + geom_point(alpha = 0.5) + labs(title = "Palmer penguins", x = "Longitud del pico en mm", y = "Longitud de la aleta en mm") ``` <img src="ggplot_3_files/figure-html/penguins_base_plot-1.png" width="45%" style="display: block; margin: auto;" /> --- class: left, top, highlight-last-itemMe # ggdist 📦 **ggdist()** es un paquete especialmente pensado para la visualización de incertezas Nos permite tanto graficar las distribuciones de los datos como el ajuste de alguna distribución típica a partir de sus parámetros .pull-left[ ```r penguins %>% drop_na() %>% ggplot(aes(x = bill_length_mm, y = species)) + * stat_interval() + labs(title = "Palmer penguins", x = "Longitud del pico en mm", y = "Especie") ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/ggdist-out-1.png" width="90%" style="display: block; margin: auto;" /> ] .pull-left[ ```r penguins %>% drop_na() %>% ggplot(aes(x = bill_length_mm, y = species)) + * stat_halfeye() + labs(title = "Palmer penguins", x = "Longitud del pico en mm", y = "Especie") ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/ggdist2-out-1.png" width="75%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # ggforce 📦 **ggforce()** es un paquete que permite hacer anotaciones y agrupamientos de forma simple y eficiente .pull-left[ ```r penguins_base + * geom_mark_ellipse(aes(fill = species, * label = species), * expand = unit(0.5, "mm"), * label.buffer = unit(-5, 'mm')) ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/ggforce-out-1.png" width="80%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # ggtext 📦 **ggtext()** ```r penguins_base + labs(title = "Dimensiones del pico y aleta del pingüino <i style='color:#28A87D;'>Pygoscelis</i>", caption = "Fuente: Gorman, Williams & Fraser (2014) *PLoS ONE*", x = "**Longitud del pico** (mm)", y = "**Longitud de la aleta** (mm)") + * theme(plot.title = element_markdown(face = "bold"), * plot.caption = element_markdown(margin = margin(t = 15)), * axis.title.x = element_markdown(), * axis.title.y = element_markdown() ) ``` <img src="ggplot_3_files/figure-html/ggtext-1.png" width="45%" style="display: block; margin: auto;" /> --- class: left, top, highlight-last-item # Y que las figuras queden lindas 🖼 El paquete [ggpubr]( tiene como filosofía crear *publication ready plots* ```r install.packages("ggpubr") library(ggpubr) ``` .pull-left[ **ggdensity()** ```r ggdensity(penguins, x = "body_mass_g", add = "mean", rug = TRUE, color = "species", fill = "species", palette = c("#00AFBB", "#E7B800", "#E09891")) ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/ggpubr_2-out-1.png" width="80%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # Y que las figuras queden lindas 🖼 Pero [ggpubr]( también tiene *themes* muy interesantes .pull-left[ **theme_pubclean()** ```r penguins_base + theme_pubclean() ``` <img src="ggplot_3_files/figure-html/ggpubr_themes1-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ **theme_pubr()** ```r penguins_base + theme_pubr() ``` <img src="ggplot_3_files/figure-html/ggpubr_themes2-1.png" width="100%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # Y que las figuras queden lindas 🖼 El paquete [ggthemes]( ofrece alternativas de *themes* ```r install.packages("ggthemes") library(ggthemes) ``` .pull-left[ **Wall Street Journal** ```r penguins_base + theme_wsj() ``` <img src="ggplot_3_files/figure-html/ggthemes1-1.png" width="90%" style="display: block; margin: auto;" /> ] .pull-right[ **Five Thirty Eight** ```r penguins_base + theme_fivethirtyeight() ``` <img src="ggplot_3_files/figure-html/ggthemes2-1.png" width="90%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # Y que las figuras queden lindas 🖼 También hay cosas locas como [tvthemes]( ```r install.packages("tvthemes") library(tvthemes) ``` .pull-left[ **Parks and Recreation** ```r penguins_base + scale_color_parksAndRec() + theme_parksAndRecLight() ``` <img src="ggplot_3_files/figure-html/tvthemes1-1.png" width="90%" style="display: block; margin: auto;" /> ] .pull-right[ **Bob Esponja** ```r penguins_base + scale_color_spongeBob() + theme_spongeBob() ``` <img src="ggplot_3_files/figure-html/tvthemes2-1.png" width="90%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # Y que las figuras queden lindas 🖼 **rcartocolor** es un paquete de paletas para datos geográficos pero que es muy útil .pull-left[ ```r penguins %>% drop_na() %>% ggplot(aes(x = bill_length_mm, y = species)) + stat_interval() + * scale_color_carto_d(palette = "Mint") + labs(title = "Palmer penguins", x = "Longitud del pico en mm", y = "Especie") + theme_minimal() ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/cartopalette-out-1.png" width="100%" style="display: block; margin: auto;" /> ] **wesanderson** es un paquete de paletas basado en las películas de Wes Anderson .pull-left[ ```r penguins_base + * scale_color_manual(values = * wes_palette("FantasticFox1")) + theme_minimal() ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/wesanderson-out-1.png" width="90%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # Y que las figuras queden lindas 🖼 **ghibli** es un paquete de paletas basado en las películas del estudio Ghibli, con bellezas como esto: .pull-left[ ```r penguins %>% drop_na() %>% ggplot(aes(x = bill_length_mm, y = species)) + stat_interval() + * scale_colour_ghibli_d("PonyoLight") + labs(title = "Palmer penguins", x = "Longitud del pico en mm", y = "Especie") + theme_minimal() ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/ghibli1-out-1.png" width="100%" style="display: block; margin: auto;" /> ] Y esto: .pull-left[ ```r penguins_base + * scale_colour_ghibli_d("LaputaMedium", * direction = -1) + theme_minimal() ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/ghibli2-out-1.png" width="90%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # Combinar varias subfiguras .pull-left[  El paquete [patchwork]( ```r # install.packages("devtools") devtools::install_github("thomasp85/patchwork") ``` ```r library(ggplot2) library(patchwork) p1 <- ggplot(mtcars) + geom_point(aes(mpg, disp)) p2 <- ggplot(mtcars) + geom_boxplot(aes(gear, disp, group = gear)) p3 <- ggplot(mtcars) + geom_smooth(aes(disp, qsec)) p4 <- ggplot(mtcars) + geom_bar(aes(carb)) *(p1 | p2 ) /p3 / p4 ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/patchwork-out-1.png" width="90%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # Datos geográficos (todo un 🌎) Combinando el paquete **sf** con las funcionalidades de **ggplot2** se pueden hacer cosas muy lindas ```r install.packages("sf") ``` .pull-left[ ```r # Mapa rnaturalearthdata::countries50 %>% st_as_sf() %>% st_crop(xmin = -88, xmax = -28, ymin = -56, ymax = 12) %>% ggplot(aes(fill = pop_est)) + geom_sf(size = .5, color = "black", alpha = .5) + labs(title = "Población en sudamérica", fill = "Población\nestimada") + theme_void() + theme(legend.position = "right") ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/geo-out-1.png" width="60%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # Figuras + Estadística  Un paquete para investigar con tiempo: [ggstatsplot]( ```r install.packages("ggstatsplot") ``` ```r library(ggstatsplot) *ggbetweenstats( data = iris, x = Species, y = Sepal.Length, title = "Distribution of sepal length across Iris species") ``` <img src="ggplot_3_files/figure-html/ggstatsplot-1.png" width="45%" style="display: block; margin: auto;" /> ??? Como pueden ver, en la figura hay un montón de información estadística. Cosas como tests paramétricos, no paramétricos, bayesianos, etc... Es una excelente herramienta para explorar datos y testear hipótesis rápidamente. --- class: left, top, highlight-last-item # Un poco de visualización de datos .center[] El campo de la visualización de datos (**Data viz**) es muy amplio y excede un poco este curso, pero como comunicadores de datos es **MUY** recomendable que, además de conocer las herramientas para generar las figuras, reflexionemos sobre el tipo de representación que queremos utilizar. Aún cuando esto vaya en contra de la *tradición* en nuestro área de estudio. Vamos a ver un pequeño ejemplo... --- class: left, top, highlight-last-item # Una oda al *raincloud plot* El viejo y conocido **barplot** o **dynamite plot** <img src="ggplot_3_files/figure-html/dynamite_plot-1.png" width="40%" style="display: block; margin: auto;" /> Es un gráfico simple que muestra la **media** y el **error estándar** ??? Esta gráfica es muy linda pero la información que entrega es MUY limitada, son básicamente 4 valores Si hiciéramos un t-test vale la pena mencionar que la diferencia entre ambas poblaciones es significativa --- class: left, top, highlight-last-item # Una oda al *raincloud plot* La información que nos muestra la gráfica es, de hecho, esta: <table class="table table-striped" style="font-size: 16px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> x </th> <th style="text-align:right;"> media </th> <th style="text-align:right;"> error_estandar </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Controls </td> <td style="text-align:right;"> 65.73105 </td> <td style="text-align:right;"> 1.831184 </td> </tr> <tr> <td style="text-align:left;"> Cases </td> <td style="text-align:right;"> 70.96504 </td> <td style="text-align:right;"> 5.405176 </td> </tr> </tbody> </table> --- class: left, top, highlight-last-item # Una oda al *raincloud plot* Pero si vemos los datos que generan esa figura... <img src="ggplot_3_files/figure-html/dynamite_plot_2-1.png" width="80%" style="display: block; margin: auto;" /> Las cosas no eran **TAN** distintas. Pero ¿Cómo lo podemos resolver? ??? Ahora lo que vemos es que las poblaciones no son TAN diferentes como creíamos y que parte de esa diferencia se debe más bien a los dos outliers en 110 y 150. Esta información nos la perdemos cuando usamos dynamite plot. --- class: left, top, highlight-last-item # Una oda al *raincloud plot* Ante la duda, háganle caso a Cedric... .center[ <img src="ggplot_3_files/figure-html/tweet-from-CedScherer-1.png" width="36%" /> ] ??? El raincloud plot intenta abordar las limitaciones antes mencionadas en un formato intuitivo, modular y estadísticamente sólido. En esencia, los raincloud plots combinan un 'violín dividido en la mitad' (un PDF no reflejado trazado contra el eje de datos redundantes), puntos de datos sin procesar y una visualización estándar de tendencia central (es decir, media o mediana) y error, como como un boxplot. --- class: left, top, highlight-last-item # Una oda al *raincloud plot* .pull-left[ ```r dat %>% ggplot(aes(x = x, y = Outcome, color = x, fill = x)) + * geom_point( * size = 2, * alpha = .6, * position = position_jitter(seed = 1, width = .1)) + labs(x = "Nivel", y = "Medida") + theme_pubclean() + scale_fill_manual(values = c("#FAAB18", "#1380A1")) + scale_color_manual(values = c("#FAAB18", "#1380A1")) + theme(legend.position = "none") ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/raincloud_plot_1-out-1.png" width="100%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # Una oda al *raincloud plot* .pull-left[ ```r dat %>% ggplot(aes(x = x, y = Outcome, color = x, fill = x)) + geom_point( size = 2, alpha = .6, position = position_jitter(seed = 1, width = .1)) + * ggdist::stat_halfeye( * alpha = .4, * adjust = .5, * width = .6, * .width = 0, * justification = -.3, * point_colour = NA) + labs(x = "Nivel", y = "Medida") + theme_pubclean() + scale_fill_manual(values = c("#FAAB18", "#1380A1")) + scale_color_manual(values = c("#FAAB18", "#1380A1")) + theme(legend.position = "none") ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/raincloud_plot_2-out-1.png" width="100%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # Una oda al *raincloud plot* .pull-left[ ```r dat %>% ggplot(aes(x = x, y = Outcome, color = x, fill = x)) + geom_point( size = 2, alpha = .6, position = position_jitter(seed = 1, width = .1)) + ggdist::stat_halfeye( alpha = .4, adjust = .5, width = .6, .width = 0, justification = -.3, point_colour = NA) + * geom_boxplot(alpha = .4, * width = .25, * outlier.shape = NA) + labs(x = "Nivel", y = "Medida") + theme_pubclean() + scale_fill_manual(values = c("#FAAB18", "#1380A1")) + scale_color_manual(values = c("#FAAB18", "#1380A1")) + theme(legend.position = "none") ``` ] .pull-right[ <img src="ggplot_3_files/figure-html/raincloud_plot_3-out-1.png" width="100%" style="display: block; margin: auto;" /> ] --- class: left, top, highlight-last-item # Una oda al *raincloud plot* Se puede encontrar más información sobre los **raincloud plots** acá: .big[ - [Raincloud plots: a multi-platform tool for robust data visualization]( - [Open letter to journal editors: dynamite plots must die]( ] --- class: left, top, highlight-last-item # Más recursos para seguir investigando. Una lista de recursos online para seguir investigando sobre las formas más eficientes de comunicar la información: .big[ - [The misuse of colour in science communication]( - [Fundamentals of Data Visualization]( - [Data Visualization. A practical introduction]( ] --- class: center, top # Referencias .left[.big[ - Nordmann, E., McAleer, P., Toivo, W., Paterson, H., & DeBruine, L. (2021). Data visualisation using R, for researchers who don't use R. - Wickham, H. (2011). ggplot2. Wiley Interdisciplinary Reviews: Computational Statistics, 3(2), 180-185. ]]