Analítica de datos aplicada a estudios sobre desarrollo

Introducción a al paquete R

Sobre Mi

PhD en Estadística, MSc en Analytics & Big Data, MSc en Estadística. Con 20 años de experiencia, actual director de analítica en el CNC, miembro del comité de expertos en pobreza en el DANE y consultor de la División de Estadística de la CEPAL. Ex-decano de la Facultad de Estadística USTA, ex-director de operaciones en el ICFES, PM CEV …

Puedes encontrarme en:

INTRODUCCIÓN AL PAQUETE R

Proceso de analítica

Wickham, H. y otros (2023)

Trabajando con R

El entorno `tidyverse`

Flujo de trabajo

Arkie Owen

Organización y proyectos en R

Objetivo: proyectos reproducibles y replicables en entornos colaborativos.

Allison Horst

Organización y proyectos en R

Facilita entornos colaborativos - reproducible y replicable
Evite la asignación de rutas de trabajo setwd(mi/ruta/)
Cree un R-project y solo revise getwd()
Organice su espacio de trabajo:

Entorno de R Studio

Hadley Wickham

Flujo de trabajo

Organice sus scripts por tareas de manera ordenada hasta obtener los resultados.

Allison Horst

Reglas de los datos

Formas básicas

Asignación: objeto <- valor

x <- 3*4             # Numérico
y <- "Hola a tod@s"  # Cadena

Funciones: Nombre_Funcion(arg1 = val1, arg2 = val2,...)

z <- seq(1, 10)      # Vector
hoy <- date()        # Fecha

Ayuda: help(Nombre_Funcion) o ?Nombre_Funcion

?seq
?read.csv

Importar

Hay diferentes paquetes que permiten leer y escribir diversos formatos de datos

haven: Stata, SPSS, SAS
readxl y writexl
arrow, data.table, …

Importar

haven -> Stata :

require(haven)
nombre_en_R <- read_stata("ruta/tu_archivo_en_stata.dta")

haven -> SPSS :

require(haven)
nombre_en_R <- read_sav("ruta/tu_archivo_en_spss.sav")

haven -> SAS :

require(haven)
nombre_en_R <- read_sas("ruta/tu_archivo_en_stata.sas7bdat")

Importar

readxl -> Excel :

require(readxl)
nombre_en_R <- read_excel("ruta/tu_archivo_en_excel.xlsx")

arrow -> Parquet :

require(arrow)
nombre_en_R <- read_parquet("ruta/tu_archivo_en_parquet.parquet")

readr -> CSV :

require(readr)
nombre_en_R <- read_csv("ruta/tu_archivo_en_CSV.csv")

Comandos iniciales: estructura

Existen varias formas de observar la estructura de los datos

head(tus_datos)        # Muestra las primeras 6 filas del data frame
str(tus_datos)         # Muestra la estructura: tipo de dato de cada columna, dimensiones, etc.
length(tus_datos)      # Devuelve la cantidad de columnas si es un data frame, o de elementos si es un vector/lista
glimpse(tus_datos)     # (dplyr) Muestra estructura en un formato más legible
names(tus_datos)       # Devuelve un vector con los nombres de las columnas

Los comandos head, str, names son del paquete base mientras que glimpse es del entorno tidyverse.

Ejercicio

Tu turno:

Cree el espacio de trabajo para Mi primer proyecto
Descargue los siguientes conjuntos de datos desde el repositorio de GitHub y ubiquelos en la carpeta input/:

SPSS: ENSIN.sav,
Stata: COL_2021_LAPOP.dta,
Apache Parquet: violencia_intrafamiliar.parquet,
Excel: datos_est_ventas.xlsx

Importe los conjuntos de datos a R y revise su estructura.

GRACIAS!

Referencias

Lennert, F. (2022). An(other) introduction to R. aquí
Watt, H. (2024) Data Wrangling Recipes in R. Disponible aquí
Wickham, H. (2023) R for data science (2e). Whole game. Disponible aquí
Jadey Ryan. Reproducible reports and presentations with Quarto. Disponible aquí

Citación y derechos de autor

Este material ha sido creado por Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.

Si se copia parcial o totalmente, debe citar la fuente como:

Babativa-Márquez, J.G. Materiales del curso de Analítica de Datos. URL: https://github.com/jgbabativam/AnaDatos.

Analítica de datos aplicada a estudios sobre desarrollo

Sobre Mi

INTRODUCCIÓN AL PAQUETE R

Proceso de analítica

Trabajando con R

El entorno tidyverse

Flujo de trabajo

Flujo de trabajo

Organización y proyectos en R

Organización y proyectos en R

Entorno de R Studio

Flujo de trabajo

Reglas de los datos

Formas básicas

Importar

Importar

Importar

Comandos iniciales: estructura

Ejercicio

GRACIAS!

Referencias

Citación y derechos de autor

El entorno `tidyverse`