6.8 Implementación
A continuación se presenta un resumen de los principales paquetes de R y Python que se pueden utilizar para la vinculación probabilística de registros:
| Lenguaje | Paquete | Características principales |
|---|---|---|
| R | RecordLinkage |
Implementa Fellegi-Sunter, Soundex, Jaro-Winkler, Levenshtein. Permite bloques, clasificación supervisada o no. |
| R | fastLink |
Modelo bayesiano de Fellegi-Sunter. Maneja datos faltantes. Permite estimación de probabilidades y escalabilidad. |
| R | fuzzyjoin |
Permite uniones por coincidencias parciales como stringdist, regex y se integra con dplyr. |
| R | stringdist |
Ofrece múltiples métricas de distancia (Levenshtein, Jaccard, Jaro, Hamming). Útil para comparaciones de texto. |
| Python | recordlinkage |
Implementa Fellegi-Sunter, SVM, Random Forests. Permite bloques y evaluación de desempeño. |
| Python | Dedupe |
Usa aprendizaje supervisado y semi-supervisado. Permite bloques y métodos de clúster. |
| Python | splink |
Basado en Fellegi-Sunter, escalable con Spark, DuckDB o SQL. Visualización interactiva. Soporta paralelización. |