8 Modelos de regresión en el sistema dual

El sistema de estimación dual (DSE) fue descrito en el capítulo 1, mientras que los diferentes enfoques para la estimación fueron presentados en el capítulo 4. El estimador más clásico del DSE es el de Lincoln-Petersen (Petersen 1896), que se escribe como:

\[\hat{N}_{LP} = \hat{N}_{1+} \left( \frac{\hat{N}_{+1}}{\hat{N}_{11}} \right)\]

En donde el inverso del término entre paréntesis se denomina tasa de coincidencia (match rate). Sin embargo, el término \(\hat{N}_{1+}\) requiere requiere ser ajustado para considerar la calidad de los registros censales. En la práctica, no todos los registros del censo son igualmente confiables, algunos corresponden a enumeraciones correctas, otros son registros con información incompleta o incluso duplicados. Para resolver este problema se define:

\(c_i\): Indica que el registro \(i\) es de persona con una enumeración correcta, es decir, está incluido con precisión en el censo y en el lugar en el que la persona debería haber sido contada.
\(d_i\): Indica que el registro \(i\) es persona que se considera definido por datos, esto es, que el registro contiene suficiente información para ser aceptado en el procesamiento censal³. Lo cual es una condición necesaria para que la persona se considere como una enumeración correcta.
\(m_i\): Indica que el registro \(i\) es una coincidencia real (emparejamiento) con la PES.

La idea es asignar a cada registro censal un peso proporcional a la probabilidad de que sea válido. Para ello, se define el factor de corrección por cobertura como:

\[a_i = \frac{p_{d_i}\cdot p_{c_i}}{p_{m_i}} \]

En donde \(p_{d_i}\), \(p_{c_i}\) y \(p_{m_i}\) son las probabilidades estimadas de que el registro \(i\) esté definido por los datos, sea una enumeración correcta y una coincidencia respectivamente.

En algunas ocasiones, cuando se comparan los resultados de la PES con el Análisis Demográfico (AD), se observa que las proporciones de hombres y mujeres no coinciden. Esto debido a que los análisis son independientes y el AD tiene sus propias estimaciones de cuántos hombres y mujeres debería haber en cada grupo de edad, mientras que la PES depende exclusivamente del emparejamiento con el censo, lo que puede generar una proporción distinta, ya sea por omisiones diferenciales o errores en el censo. Por ejemplo, si la PES estima que hay 95 hombres por cada 100 mujeres, pero el AD indica que deberían ser 98, esa diferencia puede reflejar sesgos de correlación (hombres más difíciles de enumerar, errores de emparejamiento, etc.).

Para reducir estos sesgos, se puede introducir un término adicional para ajustar las estimaciones de la PES de manera que las razones de sexo coincidan con las del AD, así:

\[a_{i}^s = a_i \cdot r.\] En donde \(r\) es el ajuste por la razón de las proporciones del sexo, y de esta forma las estimaciones de la proporción de hombres y mujeres de la PES se alinean con el AD.

References

Petersen, Carl G. J. 1896. “The Yearly Immigration of Young Plaice into the Limfjord from the German Sea.” Report of the Danish Biological Station 6: 1–48.

Este concepto se aplica para cada registro individual de personas, obtenido como parte de una respuesta en el censo, y debe responder a la pregunta: ¿el registro de la persona contiene suficiente información?. Algunos registros de personas pueden contener respuestas válidas para el censo pero carecen de algunas o de todas las características que permiten identificar con precisión a una persona. La ONE debe determinar si un registro a nivel de persona se considera “definido por datos”, y en caso contrario, dicho registro debe pasar por un proceso de imputación. Por lo tanto, la cantidad de registros definidos por los datos es una cantidad conocida porque esta es una actividad que aplica para toda la base censal.↩︎