05:00
Introducción a al paquete R
PhD en Estadística, MSc en Analytics & Big Data, MSc en Estadística. Con 20 años de experiencia, actual director de analítica en el CNC, miembro del comité de expertos en pobreza en el DANE y consultor de la División de Estadística de la CEPAL. Ex-decano de la Facultad de Estadística USTA, ex-director de operaciones en el ICFES, PM CEV …
Puedes encontrarme en:
Familiarizar a los estudiantes en el uso de herramientas para el análisis cuantitativo de datos aplicada a los estudios de desarrollo.
Presentar las cuestiones prácticas y críticas en el uso de métodos de análisis cuantitativo de datos.
Resultados de aprendizaje
Al finalizar el curso, los y las estudiantes estarán en capacidad de:
Aplicar los principales métodos de análisis cuantitativo (análisis de regresión, técnicas de análisis multivariado).
Combinar distintas herramientas para el análisis cuantitativo.
Es un curso de nivel intermedio donde se abordan temas de métodos descriptivos, inferenciales, métodos supervisados y no supervisados.
El enfoque del curso es práctico, a través de ejercicios hechos con los estudiantes. Usaremos el software estadístico R Studio. No nos concentraremos en demostraciones y pruebas formales. El curso tiene un énfasis aplicado.
Sesiones de repaso y aclaración de inquietudes con el Monitor alternadas semanalmente con nuestras sesiones.
¿Por qué considera que la analítica de los datos es importante dentro del proceso de la toma de decisiones o de orientación de políticas?
INFORMACIÓN + CONVERSACIÓN + ACCIÓN = TRANSFORMACIÓN
05:00
Lectura recomendada: Data Visualization Principles
Galerias de gráficos en R: https://r-graph-gallery.com/
Requiere de al menos 3 elementos: datos, variables (aes), geometría.
Cree el proyecto: PIB
Explore el conjunto de datos
g1 <- ggplot(datos, aes(x = gdpPercap, y = lifeExp, size = poblacion, color = continent)) +
geom_point(alpha = 0.7, show.legend = TRUE) +
geom_text(data = datos |> filter(country %in% paises_interes),
aes(label = country), size = 4, vjust = -1, hjust = 0.5, color = "black", alpha = 0.8) +
scale_x_log10(labels = scales::dollar_format(prefix = "$")) +
scale_y_continuous(labels = scales::comma) +
labs(title = "Relación entre PIB per cápita y la esperanza de vida",
subtitle = "Año: {frame_time}",
x = "PIB per cápita (log10)",
y = "Esperanza de vida",
size = "Población (millones)",
color = "Continente") +
theme_minimal(base_size = 14) +
theme(legend.position = "bottom") +
transition_time(year) +
ease_aes('linear')
#anim <- animate(plot, fps = 20, duration = 10, width = 800, height = 600, renderer = gifski_renderer())
#anim_save("gapminder_animation.gif", anim)
Durante el curso se usarán conjuntos de datos reales, descargados de portales de datos abiertos del DANE, DNP, FGN y otros.
Considere los datos de violencia intrafamiliar, descargados de los datos abiertos de la FGN. Realice:
table()
y del paquete dplyr()
para indentificar cuantos casos están con estado de activo Tu turno: Cree un proyecto y cargue el conjunto de datos “ENSIN.sav”, explore los datos y visualice su estructura. Use as_factor()
para visualizar las etiquetas.
15:00
Estamos en un mundo de constante evolución, ¿la IA nos va a reemplazar?
@tiangolo
El GPT (Generative Pre-trained Transformer) es un modelo de LLM (Large Language Model). Mientras que GPT-3 usaba 175 MM de parámetros usando modelos soportados en texto, GPT-4 usa 100 BN de parámetros usando modelos soportados en texto e imágenes.
No pretenda que todo ocurra en un solo paso, a veces se obtienen mejores resultados precisando un prompt en cada paso.
@mdancho84
Escriba el siguiente prompt en ChatGPT y transcriba el código a R:
“use el paquete osm de R para crear un mapa y la base de datos de droguerias en bogotá, luego use mapview para visualizar las droguerias”
Tu turno: Sobre el conjunto de datos “ENSIN.sav”, apoyese en la IA para obtener un gráfico de barras, usando ggplot2
, con la cantidad de registros que se tienen de cada región. Ajustelo a su gusto.
Tu turno: Sobre el conjunto de datos “ENSIN.sav”, apoyese en la IA para obtener un gráfico elegante entre las variables Peso y Estatura, use ggplot2
. Ajustelo a su gusto.
Tu turno: Sobre el conjunto de datos “ENSIN.sav”, apoyese en la IA para obtener un diagrama de cajas elegante que permita comparar la variable IMC entre las diferentes regiones, use ggplot2
. Ajustelo a su gusto.
Usemos un conjunto de datos de la ENSIN
Analice los descriptivos del peso y de la estatura: media, mediana, percentiles, sd y correlación. Use tapply(var, class, fun)
para identificar la región con menor IMC. Explore los comandos create_report()
, glimpse()
y skim()
.
El estudio de Oxfam
y La Casa de la Mujer
publicado aquí. La investigación se realizó en el marco de la Campaña “Violaciones y otras Violencias: Saquen mi cuerpo de la guerra”. El estudio se enfocó en zonas donde se tenían alertas tempranas de la Defensoría del Pueblo y tuvo como periodo de referencia los años 2010 a 2014.
lapply(mujeres, function(x) attributes(x)$label)
para ver las etiquetas de las preguntas.create_report
para hacer un análisis exploratorio de los datos.Sitios para obtener inspiración Quarto.org gallery y el Qmd Club website & blog showcase
.qmd
YAML header (metadatos y opciones del documento)
Narrativa (markdown)
Códigos chunks (importar, depurar, transformar, visualizar)
---
title: Título del documento
author: Giovany Babativa-Márquez
date: "r toupper(format(Sys.time(), '%B %Y'))"
bibliography: docreferences.bib
link-citations: true
toc-title: Tabla de Contenido
lang: es
output:
bookdown::word_document2:
reference_docx: docPlantilla.docx
number_sections: true
fig_caption: yes
fontsize: 12pt
---
Consulte las opciones disponibles en las guías de referencia: HTML, PDF, MS Word, Revealjs, MS Powerpoint.
Sintaxis de Markdown para:
Texto con formato: **negrita**
→ negrita
Título de secciones: # Header 1
, # Header 2
Hipervínculos: [google.com](https://google.com)
→ google.com
Imágenes: 
Código en línea: `{r} Sys.Date()`
→ 2025-08-09
Ecuaciones: `$E = mc^{2}$`
→ \(E = mc^{2}\)
Tres manera para insertar chunks:
Atajos Cmd
/Ctrl
+ Option
/Alt
+ I
.
Insert Chunk botón en las herramientas del editor.
Escribir los delimitadores de fragmento ```{r}
y ```
.
Dos formas de ejecutar los códigos de los chunks:
Use los botones Run Current Chunk o Run All Chunks Above.
Ejecutar el código actual del chunk con Cmd
/Ctrl
+ Shift
+ Enter
.
Use el conjunto de datos de violencia contra las mujeres para construir un informe de muestra, incluya:
Pasos previos
Descargue la plantilla aquí
Cree un proyecto en una ruta de su computadora: data, src
Descomprima el archivo template.zip en src.
Abra el archivo .Rprj y el archivo .qmd o Rmd.
Introducción
Ajuste el título, autores y guarde con otro nombre.
Cargue el conjunto de datos. Use Ctrl + Alt + I
La violencia sexual es una grave violación de los derechos humanos que afecta a personas de todas las edades, géneros y contextos socioeconómicos. Este fenómeno abarca una amplia gama de conductas que van desde el abuso verbal hasta agresiones físicas, y tiene profundas consecuencias físicas, emocionales y psicológicas para las víctimas.
Abordar la violencia sexual requiere un enfoque integral que considere tanto la prevención como la atención a las víctimas (REFERENCIA). Las políticas públicas, la educación sobre el consentimiento y el acceso a servicios de salud mental y justicia son pilares fundamentales para mitigar sus efectos y reducir su prevalencia.
Esta investigación se basa en `{r nrow(mujeres)}`
encuestas y permite cuantificar la prevalencia de la violencia sexual en zonas de conflicto armado, medida a partir de 8 formas de violencia.
quitar las llaves
Análisis descriptivo y exploratorio
3.1 Una tabla con el número de encuestas por departamento, agregue un título y cite en el documento usando \@ref(tab:tab1)
.
3.2 Agregue una gráfica y use \@ref(fig:f1)
para citarla. Apóyese en la IA.
R for data science. Section 3. Data visualization. Disponible aquí
Dougherty, J. and Ilyankou, I. (2022) Hands-On Data Visualization. Interactive Storytelling from Spreadsheets to Code. Section 6. Chart Design Principles. Disponible aquí
Williams, G. (2022) Data Science Desktop Survival Guide. Togaware. Disponible aquí Chapter 2 introducing R
Jadey Ryan. Reproducible reports and presentations with Quarto. Disponible aquí
Este material ha sido creado por Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.
Si se copia parcial o totalmente, debe citar la fuente como:
Babativa-Márquez, J.G. Materiales del curso de Analítica de Datos. URL: https://github.com/jgbabativam/AnaDatos.
Diapositivas disponibles en GitHub.