Análisis estadístico utilizando R

Julio/Agosto 2022

Docentes 💻

Pablo Etchemendy (UNTreF/Conicet)
Ignacio Spiousas (UNQ/Conicet)

Cronograma 📆

Unidad 1

Semana 0 (Antes del 27/6): Para ver si nunca tuviste contacto con R ni RStudio

Clase	Documento	Videos
Introducción a R y Rstudio	No hay	YouTube

Semana 1 (27/6 al 1/7): Presentación del curso 👶.

Clase	Documento	Videos
Presentación del curso	Slides	CS-2021
¿Por qué R?	Slides	YouTube

También en la semana 1: Introducción a R: Bienvenido al Tidyverse! 👶.

Clase	Documento	Videos
Bienvenidos al Tidyverse	Slides	YouTube
El tidyverse en acción	Slides	YouTube
Tidyverse olímpico	Consigna Solución	CS2021 CS2022

También en la intensa semana 1: Visualización de datos con R 👨‍🎨.

Clase	Documento	Videos
Visualización de datos: A New Hope	Slides	YouTube
Visualización de datos: Ggplot2 Strikes Back	Slides	YouTube
Visualización de datos: Return of the Ggplot2	Slides	YouTube
ggplot2 olímpico	Consigna Solución	CS2021 CS2022

Unidad 2

Semana 2 (4/7 al 8/7): Revisando conceptos de probabilidad y estadística: Aleatoriedad y Distribuciones estadísticas 🎲.

Clase	Documento	Videos
Variables Aleatorias 1: ¿Qué es una variable aleatoria?	Slides	YouTube
Variables Aleatorias 2: Tipos de variables aleatorias	Slides	YouTube
Variables Aleatorias 3: ¿Cómo se mide una variable aleatoria?	Slides	YouTube
Variables Aleatorias 4-1: Distribución binomial	Slides	YouTube
Variables Aleatorias 4-2: Distribución uniforme	Slides	YouTube
Variables Aleatorias 4-3: La distribución Gaussiana (o normal)	Slides	YouTube
Variables discretas y continuas	Discretas Continuas	CS2021 CS2022-1 CS2022-2 CS2022-3 CS2022-4 CS2022-5

Semana 3 (11/7 al 15/7): Análisis exploratorio de datos 🤔.

Clase	Documento	Videos
Exploración de datos	Slides	YouTube
Cómo detectar outliers y qué hacer con ellos	Slides	YouTube
Análisis exploratorio de datos	Consigna Solución	CS2021 CS2022

Receso invernal del 15 al 29 de julio

Unidad 3

Semana 4 (1/8 al 5/8): Prueba de hipótesis y control de errores: Potencia estadística, qué es y qué NO ES un p-value, y por qué es saludable reportar effect sizes 💻.

Clase	Documento	Videos
Prueba de hipótesis 1	Slides	YouTube
Prueba de hipótesis 2 - Para qué sirve?	Slides	YouTube
Prueba de hipótesis 3 - Relación entre estadística crítica y nivel de significancia (alfa)	Slides	YouTube
Prueba de hipótesis 4 - P-values	Slides	YouTube
Prueba de hipótesis 5 - Potencia estadística	Slides	YouTube
Prueba de hipótesis 6 - Tamaño del efecto	Slides	YouTube
Prueba de hipótesis	Consigna	CS2021

Semana 5 (8/8 al 12/8): Modelos lineales: Regresión lineal y regresión múltiple ↩︎️.

Clase	Documento	Videos
Modelos lineales 1 - Regresión lineal	Slides	YouTube
Modelos lineales 2 - Inferencia en regresión lineal	Slides	YouTube
Modelos lineales 3 - Regresión múltiple	Slides	YouTube
Modelos lineales 4 - Inferencia en regresión múltiple	Slides	YouTube
Modelos lineales	Consigna Solución	CS2021 CS2022

Semana 6 (15/8 al 19/8): Modelos jerárquicos: Qué son y para qué sirven los famosos modelos lineales de efectos mixtos 😱.

Clase	Documento	Videos
Modelos lineales de efectos mixtos 1 - Datos jerárquicos	Slides	YouTube
Modelos lineales de efectos mixtos 2 - Efectos mixtos	Slides	YouTube
Modelos lineales de efecto mixtos	Consigna	CS2021 CS2022

Unidad 5

Semana 8 (29/8 al 2/9) Presentación del trabajo final 🙏.

Durante esta semana vamos a acomodar las consultas y las presentaciones.

Bienvenidxs

Bienvenidxs a la página web del curso de posgrado Análisis estadístico utilizando R de la Unversidad Nacional de Quilmes. Acá vas a encontrar las presentaciones, tutoriales, ejemplos y ejercicios del curso.

Antes de empezar

Si ya estás inscripto en el curso te invitamos a que completes esta breve encuesta que nos va a ayudar a conocer a la “audiencia” para que el curso salga lo mejor posible. También los invitamos a unirse al espacio de trabajo del curso en Slack. Es muy importante que si vas a hacer el curso estés en el grupo de Slack ya que es el medio que vamos a utilizar para comunicarnos.

En este curso vamos a aprender a organizar, visualizar y modelar tus datos utilizando R para que puedas generar pipelines de análisis elegantes, seguros y reproducibles.

Los temas que vamos a tratar en el curso son:

Introducción a R Aprenderemos por qué R es una opción ideal para el análisis estadístico y sus rudimentos básicos.
Repaso de probabilidad y estadística Nos vamos a poner a tiro con conceptos básicos de variables aleatorias y distribuciones de probabilidad.
Inferencia estadística Pruebas de hipótesis y modelos, qué son, cuándo y cómo utilizarlos para entender nuestros datos.
Ciencia abierta Por qué, para qué y cómo la ciencia abierta es la llave hacia una ciencia mejor.
Trabajo final Lxs estudiantxs van a llevar adelante un modelo de análisis desde la limpieza de datos hasta las interpretaciones científicas.

Temario detallado

Unidad 1

Semana 0: Introducción a R: Bienvenido al Tidyverse! 👶
Introducción a R como herramienta de análisis de datos centrado en las librerías del Tidyverse (principalmente tidyR, dplyr y Purrr). Cómo leer, organizar, resumir y manipular datos experimentales para construir un insumo confiable y reproducible.
Semana 1: Visualización de datos con R 👩‍🎨
Como hacer gráficos que sean la envidia de tus colegas. Nociones básicas sobre el funcionamiento de ggplot2 (otra librería del Tidyverse).

Unidad 2

Semana 2: Revisando conceptos de probabilidad y estadística: Aleatoriedad y otros temas aleatorios 🎲
¿Qué es una variable aleatoria? ¿De dónde surgen los comportamientos aleatorios en la naturaleza? ¿Cómo podemos medir y describir ese tipo de variables? Variables aleatorias categóricas, discretas y continuas.
Semana 3: Revisando conceptos de probabilidad y estadística: Distribuciones estadísticas 📊
¿Qué es una distribución estadística? ¿Para qué se usa? ¿Cuál es la relación entre una variable aleatoria y una distribución estadística? Conceptos de densidad de probabilidad y probabilidad acumulada.

Unidad 3

Semana 4: Análisis exploratorio de datos 🤔
Caracterización de un conjunto de datos guiada mediante una hipótesis o no. Media, desvío estándar, varianza y error estándar muestrales. Coeficientes de correlación.
Semana 5: Prueba de hipótesis y control de errores: Potencia estadística, qué es y qué NO ES un p-value, y por qué es saludable reportar effect sizes 💻
Una de las prácticas estadísticas más extendidas son las pruebas de hipótesis (aún cuando no corresponden). En esta clase vamos a diseccionar su anatomía y explorar sus componentes básicos, como los tipos de errores, la potencia estadística, el p-value y los effect size. Intentaremos resumir las discusiones actuales alrededor del tan amado y, a la vez, odiado p-value.
Semana 6: Modelos jerárquicos: Qué son y para qué sirven los famosos modelos lineales de efectos mixtos 😱
Un p<0.05 en una prueba de hipótesis parece ser el santo grial científico al que todos queremos llegar, pero no siempre se trata de una metodología correcta y puede llevar a grandes errores de interpretación. En esta clase vamos a introducir a los alumnos en una de las técnicas de modelado (una muy popular) para tratar con análisis exploratorios.

Unidad 4

Semana 7: Ciencia Abierta: Por qué, para qué y cómo 😰
La Ciencia Abierta es un movimiento que tiene como objetivo hacer la investigación científica y su divulgación accesible en todo nivel. Se trata de un esfuerzo por construir una ciencia transparente y accesible en base a trabajos colaborativos y herramientas para compartir. También exploraremos las opciones para la publicación eficiente y transparente tanto de nuestros datos como de nuestros códigos de análisis (por ejemplo, OSF, Github, etc.). También, como una consecuencia de la ciencia abierta vamos a hacer una mención a los pre-registros y por qué son importantes, cuándo son factibles y cómo llevarlos adelante.

Unidad 5

Semana 8: Presentación del trabajo final 🙏
Lxs alumnxs presentarán, para los docentes y el resto de sus compañerxs, los análisis que realizaron a modo de trabajo final. La idea es que puedan compartir una experiencia de aplicación honesta, con las complicaciones propias de la inferencia estadística en el mundo real.

Qué hacer antes de la primera clase

Antes de comenzar el curso es necesario que acondicionen su computadora para sacarle el máximo jugo a las clases. A continuación les contamos qué y cómo hacerlo y también van a poder encontrar un vídeo explicativo paso a paso en la página de You Tube del curso.

Instalación de R

Lo primero que hay que hacer para poder correr scripts de R es, como resulta evidente, instalar R. Lo pueden hacer seleccionando su sistema operativo en este link y siguiendo los pasos de la instalación.

Instalación de RStudio

Pueden bajar la versión gratuita de RStudio del siguiente link. En caso de que el link no haya detectado correctamente el sistema operativo, en la sección All Installers pueden seleccionarlo manualmente. Una vez descargado el instalador sólo hay que seguir los pasos de la intalación.

Clonado del repositorio

GitHub es una plataforma de desarrollo colaborativo que permite alojar proyectos utilizando el control de versiones Git. Para ustedes es simplemente el lugar donde van a encontrar todos los materiales del curso. Para bajar todos los materiales de una sola vez, lo que deben hacer es abrir el RStudio e ir a la solapa File/New Project. Una vez ahí deben seleccionar Version Control y luego Git. Seleccionen la carpeta donde quieran descargar el material del curso y (acá viene lo nuevo) en Repository URL copien esta URL https://github.com/spiousas/Inferencia_con_R_UNQ2022.git.

Una de las ventajas de estar conectado al repositorio es que cualquier cambio que hagamos en el repositorio de GitHub ustedes lo pueden actualizar en su carpeta local yendo a Tools/Version Control/Pull Branches.

Git y los repositorios online (como GitHub o GitLab) son una herramienta poderosísima para el trabajo colaborativo y la ciencia reproducible. Quedensé tranquilxs que a lo largo del curso van a aprender cómo incorporarlo a sus hábitos de trabajo.

Modo de evaluación:

Antes de comenzar con el desarrollo del trabajo final lxs alumnxs deberán completar un examen escrito en el que se evaluarán los contenidos básicos del curso. El formato del mismo será una mezcla de multiple-choice y casos de estudio (por ejemplo, encontrar el error en la interpretación de un análisis estadístico).

El trabajo final consistirá en aplicar los contenidos de la materia al análisis de datos propios o de alguna base de datos abiertos de un tema relacionado con la disciplina en la que se desarrolla el/la alumnx. De esta forma pretendemos cerrar la brecha entre los desarrollos teóricos y las aplicaciones prácticas de los contenidos, con todas las limitaciones que esto pudiera presentar. El mismo consistirá de una presentación escrita (en formato Rmd) y una presentación oral en la que deberán estar (TODXS lxs miembros del grupo de trabajo. Asímismo, todos los grupos deberán estar presentes en las dos clases de consulta previas a la entrega.

El trabajo final debe contener un análisis exploratorio de los datos, limpieza y detección de outliers, una visualización utilizando {ggplot2}📦, y un modelo lineal (normal o de efectos mixtos) que puede ser utilizado tanto en el contexto de un análisis exploratorio como en un testeo de hipótesis. En ambos casos los resultados del modelado deben ser interpretados tanto estadísticamente como en el contexto de la pregunta y el tema de investigación a desarrollar.

Donde ver las clases

Las clases van a estar colgadas de manera pública en el canal de You Tube del curso

Bibliografía

Wickham, H., & Grolemund, G. (2016). R for data science: import, tidy, transform, visualize, and model data. ” O’Reilly Media, Inc.”.

Rohlf, F. J., Sokal, R., & James, F. (1973). Introduction to biostatistics. San Francisco: WH Freeman.

Howell, D. C. (2009). Statistical methods for psychology. Cengage Learning.

Galecki, A., & Burzykowski, T. (2013). Linear Mixed-Effects Models Using R: A Step-by-step Approach.

Vicente-Sáez, R., & Martínez-Fuentes, C. (2018). Open Science now: A systematic literature review for an integrated definition. Journal of business research, 88, 428-436.

Tell it like it is. (2020). Nature Human Behaviour, 4(1), 1–1.

Optativa

Wickham, H. (2016). ggplot2: elegant graphics for data analysis. springer.

Ismay, C., & Kim, A. Y. (2019). Statistical Inference via Data Science: A ModernDive into R and the Tidyverse. CRC Press.

Leys, C., Delacre, M., Mora, Y. L., Lakens, D., & Ley, C. (2019). How to classify, detect, and manage univariate and multivariate outliers, with emphasis on pre-registration. International Review of Social Psychology, 32(1). https://www.rips-irsp.com/articles/10.5334/irsp.289/

Nieuwenhuis, S., Forstmann, B. U., & Wagenmakers, E. J. (2011). Erroneous analyses of interactions in neuroscience: a problem of significance. Nature neuroscience, 14(9), 1105-1107.

Lakens, D. (2019). The practical alternative to the p-value is the correctly used p-value.

Gelman, A., & Stern, H. (2006). The difference between “significant” and “not significant” is not itself statistically significant. The American Statistician, 60(4), 328-331.

Ioannidis JPA (2005) Why Most Published Research Findings Are False. PLoS Med 2(8): e124. https://doi.org/10.1371/journal.pmed.0020124

Duncan J Murdoch, Yu-Ling Tsai & James Adcock (2008) P-Values are Random Variables, The American Statistician, 62:3, 242-245, DOI: 10.1198/000313008X332421

Makin, T. R., & de Xivry, J. J. O. (2019). Science Forum: Ten common statistical mistakes to watch out for when writing or reviewing a manuscript. Elife, 8, e48175. https://dx.doi.org/10.7554%2FeLife.48175

McElreath, R. (2020). Statistical rethinking: A Bayesian course with examples in R and Stan. CRC press.

Bates, D., Mächler, M., Bolker, B., & Walker, S. (2014). Fitting linear mixed-effects models using lme4. arXiv preprint arXiv:1406.5823.

Nosek, B. A., Spies, J. R., & Motyl, M. (2012). Scientific utopia: II. Restructuring incentives and practices to promote truth over publishability. Perspectives on Psychological Science, 7(6), 615-631. https://doi.org/10.1177%2F1745691612459058

Foster, E. D., & Deardorff, A. (2017). Open science framework (OSF). Journal of the Medical Library Association: JMLA, 105(2), 203.