Analítica de datos aplicada a estudios sobre desarrollo

Introducción a al paquete R

Sobre Mi

PhD en Estadística, MSc en Analytics & Big Data, MSc en Estadística. Con 20 años de experiencia, actual director de analítica en el CNC, miembro del comité de expertos en pobreza en el DANE y consultor de la División de Estadística de la CEPAL. Ex-decano de la Facultad de Estadística USTA, ex-director de operaciones en el ICFES, PM CEV …

Puedes encontrarme en:

INTRODUCCIÓN AL PAQUETE R

Proceso de analítica

Wickham, H. y otros (2023)

Trabajando con R

El entorno tidyverse

Flujo de trabajo

Flujo de trabajo

Arkie Owen

Organización y proyectos en R

Objetivo: proyectos reproducibles y replicables en entornos colaborativos.

Allison Horst

Organización y proyectos en R

  • Facilita entornos colaborativos - reproducible y replicable
  • Evite la asignación de rutas de trabajo setwd(mi/ruta/)
  • Cree un R-project y solo revise getwd()
  • Organice su espacio de trabajo:

Entorno de R Studio

Hadley Wickham

Flujo de trabajo

Organice sus scripts por tareas de manera ordenada hasta obtener los resultados.

Allison Horst

Reglas de los datos



Formas básicas

  • Asignación: objeto <- valor
x <- 3*4             # Numérico
y <- "Hola a tod@s"  # Cadena
  • Funciones: Nombre_Funcion(arg1 = val1, arg2 = val2,...)
z <- seq(1, 10)      # Vector
hoy <- date()        # Fecha
  • Ayuda: help(Nombre_Funcion) o ?Nombre_Funcion
?seq
?read.csv

Importar

Hay diferentes paquetes que permiten leer y escribir diversos formatos de datos

  • haven: Stata, SPSS, SAS
  • readxl y writexl
  • arrow, data.table, …

Importar

  • haven -> Stata :
require(haven)
nombre_en_R <- read_stata("ruta/tu_archivo_en_stata.dta")
  • haven -> SPSS :
require(haven)
nombre_en_R <- read_sav("ruta/tu_archivo_en_spss.sav")
  • haven -> SAS :
require(haven)
nombre_en_R <- read_sas("ruta/tu_archivo_en_stata.sas7bdat")

Importar

  • readxl -> Excel :
require(readxl)
nombre_en_R <- read_excel("ruta/tu_archivo_en_excel.xlsx")
  • arrow -> Parquet :
require(arrow)
nombre_en_R <- read_parquet("ruta/tu_archivo_en_parquet.parquet")
  • readr -> CSV :
require(readr)
nombre_en_R <- read_csv("ruta/tu_archivo_en_CSV.csv")

Comandos iniciales: estructura


Existen varias formas de observar la estructura de los datos


head(tus_datos)        # Muestra las primeras 6 filas del data frame
str(tus_datos)         # Muestra la estructura: tipo de dato de cada columna, dimensiones, etc.
length(tus_datos)      # Devuelve la cantidad de columnas si es un data frame, o de elementos si es un vector/lista
glimpse(tus_datos)     # (dplyr) Muestra estructura en un formato más legible
names(tus_datos)       # Devuelve un vector con los nombres de las columnas


Los comandos head, str, names son del paquete base mientras que glimpse es del entorno tidyverse.

Ejercicio

Tu turno:

  1. Cree el espacio de trabajo para Mi primer proyecto
  2. Descargue los siguientes conjuntos de datos desde el repositorio de GitHub y ubiquelos en la carpeta input/:
  • SPSS: ENSIN.sav,
  • Stata: COL_2021_LAPOP.dta,
  • Apache Parquet: violencia_intrafamiliar.parquet,
  • Excel: datos_est_ventas.xlsx
  1. Importe los conjuntos de datos a R y revise su estructura.

GRACIAS!

Referencias

  • Lennert, F. (2022). An(other) introduction to R. aquí

  • Watt, H. (2024) Data Wrangling Recipes in R. Disponible aquí

  • Wickham, H. (2023) R for data science (2e). Whole game. Disponible aquí

  • Jadey Ryan. Reproducible reports and presentations with Quarto. Disponible aquí

Citación y derechos de autor

Este material ha sido creado por Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.

Si se copia parcial o totalmente, debe citar la fuente como:

Babativa-Márquez, J.G. Materiales del curso de Analítica de Datos. URL: https://github.com/jgbabativam/AnaDatos.