Análisis estadístico utilizando R
Julio/Agosto 2022
Cronograma 📆
Unidad 1
- Semana 0 (Antes del 27/6): Para ver si nunca tuviste contacto con R ni RStudio
Clase | Documento | Videos |
---|---|---|
Introducción a R y Rstudio | No hay | YouTube |
- Semana 1 (27/6 al 1/7): Presentación del curso 👶.
Clase | Documento | Videos |
---|---|---|
Presentación del curso | Slides | CS-2021 |
¿Por qué R? | Slides | YouTube |
- También en la semana 1: Introducción a R: Bienvenido al Tidyverse! 👶.
Clase | Documento | Videos |
---|---|---|
Bienvenidos al Tidyverse | Slides | YouTube |
El tidyverse en acción | Slides | YouTube |
Tidyverse olímpico |
Consigna
Solución |
CS2021
CS2022 |
- También en la intensa semana 1: Visualización de datos con R 👨🎨.
Clase | Documento | Videos |
---|---|---|
Visualización de datos: A New Hope | Slides | YouTube |
Visualización de datos: Ggplot2 Strikes Back | Slides | YouTube |
Visualización de datos: Return of the Ggplot2 | Slides | YouTube |
ggplot2 olímpico |
Consigna
Solución |
CS2021
CS2022 |
Unidad 2
- Semana 2 (4/7 al 8/7): Revisando conceptos de probabilidad y estadística: Aleatoriedad y Distribuciones estadísticas 🎲.
Clase | Documento | Videos |
---|---|---|
Variables Aleatorias 1: ¿Qué es una variable aleatoria? | Slides | YouTube |
Variables Aleatorias 2: Tipos de variables aleatorias | Slides | YouTube |
Variables Aleatorias 3: ¿Cómo se mide una variable aleatoria? | Slides | YouTube |
Variables Aleatorias 4-1: Distribución binomial | Slides | YouTube |
Variables Aleatorias 4-2: Distribución uniforme | Slides | YouTube |
Variables Aleatorias 4-3: La distribución Gaussiana (o normal) | Slides | YouTube |
Variables discretas y continuas |
Discretas
Continuas |
CS2021 CS2022-1 CS2022-2 CS2022-3 CS2022-4 CS2022-5 |
- Semana 3 (11/7 al 15/7): Análisis exploratorio de datos 🤔.
Clase | Documento | Videos |
---|---|---|
Exploración de datos | Slides | YouTube |
Cómo detectar outliers y qué hacer con ellos | Slides | YouTube |
Análisis exploratorio de datos |
Consigna
Solución |
CS2021 CS2022 |
Unidad 3
- Semana 4 (1/8 al 5/8): Prueba de hipótesis y control de errores: Potencia estadística, qué es y qué NO ES un p-value, y por qué es saludable reportar effect sizes 💻.
Clase | Documento | Videos |
---|---|---|
Prueba de hipótesis 1 | Slides | YouTube |
Prueba de hipótesis 2 - Para qué sirve? | Slides | YouTube |
Prueba de hipótesis 3 - Relación entre estadística crítica y nivel de significancia (alfa) |
Slides | YouTube |
Prueba de hipótesis 4 - P-values | Slides | YouTube |
Prueba de hipótesis 5 - Potencia estadística | Slides | YouTube |
Prueba de hipótesis 6 - Tamaño del efecto | Slides | YouTube |
Prueba de hipótesis | Consigna | CS2021 |
- Semana 5 (8/8 al 12/8): Modelos lineales: Regresión lineal y regresión múltiple ↩︎️.
Clase | Documento | Videos |
---|---|---|
Modelos lineales 1 - Regresión lineal | Slides | YouTube |
Modelos lineales 2 - Inferencia en regresión lineal | Slides | YouTube |
Modelos lineales 3 - Regresión múltiple | Slides | YouTube |
Modelos lineales 4 - Inferencia en regresión múltiple | Slides | YouTube |
Modelos lineales |
Consigna
Solución |
CS2021 CS2022 |
- Semana 6 (15/8 al 19/8): Modelos jerárquicos: Qué son y para qué sirven los famosos modelos lineales de efectos mixtos 😱.
Clase | Documento | Videos |
---|---|---|
Modelos lineales de efectos mixtos 1 - Datos jerárquicos | Slides | YouTube |
Modelos lineales de efectos mixtos 2 - Efectos mixtos | Slides | YouTube |
Modelos lineales de efecto mixtos | Consigna |
CS2021 CS2022 |
Unidad 5
- Semana 8 (29/8 al 2/9) Presentación del trabajo final 🙏.
Bienvenidxs
Bienvenidxs a la página web del curso de posgrado Análisis estadístico utilizando R de la Unversidad Nacional de Quilmes. Acá vas a encontrar las presentaciones, tutoriales, ejemplos y ejercicios del curso.
Antes de empezar
Si ya estás inscripto en el curso te invitamos a que completes esta breve encuesta que nos va a ayudar a conocer a la “audiencia” para que el curso salga lo mejor posible. También los invitamos a unirse al espacio de trabajo del curso en Slack. Es muy importante que si vas a hacer el curso estés en el grupo de Slack ya que es el medio que vamos a utilizar para comunicarnos.
En este curso vamos a aprender a organizar, visualizar y modelar
tus datos utilizando R para que puedas generar
pipelines de análisis elegantes, seguros y reproducibles.
Los temas que vamos a tratar en el curso son:
Introducción a R
Aprenderemos por qué R es una opción ideal para el análisis estadístico y sus rudimentos básicos.Repaso de probabilidad y estadística
Nos vamos a poner a tiro con conceptos básicos de variables aleatorias y distribuciones de probabilidad.Inferencia estadística
Pruebas de hipótesis y modelos, qué son, cuándo y cómo utilizarlos para entender nuestros datos.Ciencia abierta
Por qué, para qué y cómo la ciencia abierta es la llave hacia una ciencia mejor.Trabajo final
Lxs estudiantxs van a llevar adelante un modelo de análisis desde la limpieza de datos hasta las interpretaciones científicas.
Temario detallado
Unidad 1
Semana 0: Introducción a R: Bienvenido al Tidyverse! 👶
Introducción a R como herramienta de análisis de datos centrado en las librerías del Tidyverse (principalmente tidyR, dplyr y Purrr). Cómo leer, organizar, resumir y manipular datos experimentales para construir un insumo confiable y reproducible.Semana 1: Visualización de datos con R 👩🎨
Como hacer gráficos que sean la envidia de tus colegas. Nociones básicas sobre el funcionamiento de ggplot2 (otra librería del Tidyverse).
Unidad 2
Semana 2: Revisando conceptos de probabilidad y estadística: Aleatoriedad y otros temas aleatorios 🎲
¿Qué es una variable aleatoria? ¿De dónde surgen los comportamientos aleatorios en la naturaleza? ¿Cómo podemos medir y describir ese tipo de variables? Variables aleatorias categóricas, discretas y continuas.Semana 3: Revisando conceptos de probabilidad y estadística: Distribuciones estadísticas 📊
¿Qué es una distribución estadística? ¿Para qué se usa? ¿Cuál es la relación entre una variable aleatoria y una distribución estadística? Conceptos de densidad de probabilidad y probabilidad acumulada.
Unidad 3
Semana 4: Análisis exploratorio de datos 🤔
Caracterización de un conjunto de datos guiada mediante una hipótesis o no. Media, desvío estándar, varianza y error estándar muestrales. Coeficientes de correlación.Semana 5: Prueba de hipótesis y control de errores: Potencia estadística, qué es y qué NO ES un p-value, y por qué es saludable reportar effect sizes 💻
Una de las prácticas estadísticas más extendidas son las pruebas de hipótesis (aún cuando no corresponden). En esta clase vamos a diseccionar su anatomía y explorar sus componentes básicos, como los tipos de errores, la potencia estadística, el p-value y los effect size. Intentaremos resumir las discusiones actuales alrededor del tan amado y, a la vez, odiado p-value.Semana 6: Modelos jerárquicos: Qué son y para qué sirven los famosos modelos lineales de efectos mixtos 😱
Un p<0.05 en una prueba de hipótesis parece ser el santo grial científico al que todos queremos llegar, pero no siempre se trata de una metodología correcta y puede llevar a grandes errores de interpretación. En esta clase vamos a introducir a los alumnos en una de las técnicas de modelado (una muy popular) para tratar con análisis exploratorios.
Unidad 4
- Semana 7: Ciencia Abierta: Por qué, para qué y cómo
😰
La Ciencia Abierta es un movimiento que tiene como objetivo hacer la investigación científica y su divulgación accesible en todo nivel. Se trata de un esfuerzo por construir una ciencia transparente y accesible en base a trabajos colaborativos y herramientas para compartir. También exploraremos las opciones para la publicación eficiente y transparente tanto de nuestros datos como de nuestros códigos de análisis (por ejemplo, OSF, Github, etc.). También, como una consecuencia de la ciencia abierta vamos a hacer una mención a los pre-registros y por qué son importantes, cuándo son factibles y cómo llevarlos adelante.
Unidad 5
- Semana 8: Presentación del trabajo final 🙏
Lxs alumnxs presentarán, para los docentes y el resto de sus compañerxs, los análisis que realizaron a modo de trabajo final. La idea es que puedan compartir una experiencia de aplicación honesta, con las complicaciones propias de la inferencia estadística en el mundo real.
Qué hacer antes de la primera clase
Antes de comenzar el curso es necesario que acondicionen su computadora para sacarle el máximo jugo a las clases. A continuación les contamos qué y cómo hacerlo y también van a poder encontrar un vídeo explicativo paso a paso en la página de You Tube del curso.
Instalación de R
Lo primero que hay que hacer para poder correr scripts de R es, como resulta evidente, instalar R. Lo pueden hacer seleccionando su sistema operativo en este link y siguiendo los pasos de la instalación.
Instalación de RStudio
Pueden bajar la versión gratuita de RStudio del siguiente link. En caso de que el link no haya detectado correctamente el sistema operativo, en la sección All Installers pueden seleccionarlo manualmente. Una vez descargado el instalador sólo hay que seguir los pasos de la intalación.
Clonado del repositorio
GitHub es una plataforma de desarrollo colaborativo que permite
alojar proyectos utilizando el control de versiones Git. Para ustedes es
simplemente el lugar donde van a encontrar todos los materiales del
curso. Para bajar todos los materiales de una sola vez, lo que deben
hacer es abrir el RStudio e ir a la solapa File/New
Project. Una vez ahí deben seleccionar Version Control y
luego Git. Seleccionen la carpeta donde quieran descargar el
material del curso y (acá viene lo nuevo) en Repository URL
copien esta URL
https://github.com/spiousas/Inferencia_con_R_UNQ2022.git
.
Una de las ventajas de estar conectado al repositorio es que cualquier cambio que hagamos en el repositorio de GitHub ustedes lo pueden actualizar en su carpeta local yendo a Tools/Version Control/Pull Branches.
Git y los repositorios online (como GitHub o GitLab) son una herramienta poderosísima para el trabajo colaborativo y la ciencia reproducible. Quedensé tranquilxs que a lo largo del curso van a aprender cómo incorporarlo a sus hábitos de trabajo.
Modo de evaluación:
Antes de comenzar con el desarrollo del trabajo final lxs alumnxs deberán completar un examen escrito en el que se evaluarán los contenidos básicos del curso. El formato del mismo será una mezcla de multiple-choice y casos de estudio (por ejemplo, encontrar el error en la interpretación de un análisis estadístico).
El trabajo final consistirá en aplicar los contenidos de la materia al análisis de datos propios o de alguna base de datos abiertos de un tema relacionado con la disciplina en la que se desarrolla el/la alumnx. De esta forma pretendemos cerrar la brecha entre los desarrollos teóricos y las aplicaciones prácticas de los contenidos, con todas las limitaciones que esto pudiera presentar. El mismo consistirá de una presentación escrita (en formato Rmd) y una presentación oral en la que deberán estar (TODXS lxs miembros del grupo de trabajo. Asímismo, todos los grupos deberán estar presentes en las dos clases de consulta previas a la entrega.
El trabajo final debe contener un análisis exploratorio de los datos, limpieza y detección de outliers, una visualización utilizando {ggplot2}📦, y un modelo lineal (normal o de efectos mixtos) que puede ser utilizado tanto en el contexto de un análisis exploratorio como en un testeo de hipótesis. En ambos casos los resultados del modelado deben ser interpretados tanto estadísticamente como en el contexto de la pregunta y el tema de investigación a desarrollar.
Donde ver las clases
Las clases van a estar colgadas de manera pública en el canal de You Tube del curso
Bibliografía
Wickham, H., & Grolemund, G. (2016). R for data science: import, tidy, transform, visualize, and model data. ” O’Reilly Media, Inc.”.
Rohlf, F. J., Sokal, R., & James, F. (1973). Introduction to biostatistics. San Francisco: WH Freeman.
Howell, D. C. (2009). Statistical methods for psychology. Cengage Learning.
Galecki, A., & Burzykowski, T. (2013). Linear Mixed-Effects Models Using R: A Step-by-step Approach.
Vicente-Sáez, R., & Martínez-Fuentes, C. (2018). Open Science now: A systematic literature review for an integrated definition. Journal of business research, 88, 428-436.
Tell it like it is. (2020). Nature Human Behaviour, 4(1), 1–1.
Optativa
Wickham, H. (2016). ggplot2: elegant graphics for data analysis. springer.
Ismay, C., & Kim, A. Y. (2019). Statistical Inference via Data Science: A ModernDive into R and the Tidyverse. CRC Press.
Leys, C., Delacre, M., Mora, Y. L., Lakens, D., & Ley, C. (2019). How to classify, detect, and manage univariate and multivariate outliers, with emphasis on pre-registration. International Review of Social Psychology, 32(1). https://www.rips-irsp.com/articles/10.5334/irsp.289/
Nieuwenhuis, S., Forstmann, B. U., & Wagenmakers, E. J. (2011). Erroneous analyses of interactions in neuroscience: a problem of significance. Nature neuroscience, 14(9), 1105-1107.
Lakens, D. (2019). The practical alternative to the p-value is the correctly used p-value.
Gelman, A., & Stern, H. (2006). The difference between “significant” and “not significant” is not itself statistically significant. The American Statistician, 60(4), 328-331.
Ioannidis JPA (2005) Why Most Published Research Findings Are False. PLoS Med 2(8): e124. https://doi.org/10.1371/journal.pmed.0020124
Duncan J Murdoch, Yu-Ling Tsai & James Adcock (2008) P-Values are Random Variables, The American Statistician, 62:3, 242-245, DOI: 10.1198/000313008X332421
Makin, T. R., & de Xivry, J. J. O. (2019). Science Forum: Ten common statistical mistakes to watch out for when writing or reviewing a manuscript. Elife, 8, e48175. https://dx.doi.org/10.7554%2FeLife.48175
McElreath, R. (2020). Statistical rethinking: A Bayesian course with examples in R and Stan. CRC press.
Bates, D., Mächler, M., Bolker, B., & Walker, S. (2014). Fitting linear mixed-effects models using lme4. arXiv preprint arXiv:1406.5823.
Nosek, B. A., Spies, J. R., & Motyl, M. (2012). Scientific utopia: II. Restructuring incentives and practices to promote truth over publishability. Perspectives on Psychological Science, 7(6), 615-631. https://doi.org/10.1177%2F1745691612459058
Foster, E. D., & Deardorff, A. (2017). Open science framework (OSF). Journal of the Medical Library Association: JMLA, 105(2), 203.