6.8 Implementación

A continuación se presenta un resumen de los principales paquetes de R y Python que se pueden utilizar para la vinculación probabilística de registros:

Lenguaje Paquete Características principales
R RecordLinkage Implementa Fellegi-Sunter, Soundex, Jaro-Winkler, Levenshtein. Permite bloques, clasificación supervisada o no.
R fastLink Modelo bayesiano de Fellegi-Sunter. Maneja datos faltantes. Permite estimación de probabilidades y escalabilidad.
R fuzzyjoin Permite uniones por coincidencias parciales como stringdist, regex y se integra con dplyr.
R stringdist Ofrece múltiples métricas de distancia (Levenshtein, Jaccard, Jaro, Hamming). Útil para comparaciones de texto.
Python recordlinkage Implementa Fellegi-Sunter, SVM, Random Forests. Permite bloques y evaluación de desempeño.
Python Dedupe Usa aprendizaje supervisado y semi-supervisado. Permite bloques y métodos de clúster.
Python splink Basado en Fellegi-Sunter, escalable con Spark, DuckDB o SQL. Visualización interactiva. Soporta paralelización.