8.1 Post-estratificación
La estimación por sistema dual asume que las probabilidades de inclusión de cada individuo en el censo y en la encuesta son independientes (Wolter 1986). El sesgo de correlación resulta de la falta de cumplimiento de este supuesto de independencia en el que se basan los DSE, debido a:
Dependencia causal: el hecho de estar incluido en el censo hace que una persona tenga más o menos probabilidad de ser incluida en la PES.
Heterogeneidad: las probabilidades de inclusión en el censo y en la PES varían entre personas.
La dependencia causal puede generar tanto subestimaciones como sobreestimaciones en el DSE. Este fenómeno se conoce como sesgo negativo o positivo, y surge cuando la probabilidad de no ser contado en el censo incrementa (o reduce) la probabilidad de no ser contado también en la PES. Asimismo, la heterogeneidad en las probabilidades de inclusión de las personas dentro de un mismo grupo de estimación tiende a producir subestimaciones, es decir, un sesgo negativo en el DSE.
En algunas encuestas de cobertura se recurre a la post-estratificación con el fin de reducir el impacto derivado del incumplimiento de estos supuestos. Este procedimiento consiste en dividir a la población en grupos con probabilidades de inclusión censal similares, aplicar el modelo DSE dentro de cada post-estrato y, posteriormente, agregar los resultados para obtener la estimación global. El objetivo de la post-estratificación es reducir la heterogeneidad y, por lo tanto, disminuir el sesgo de correlación.
Al dividir la población en \(J\) post-estratos, Zamora (2022) presenta el siguiente estimador :
\[\begin{equation} \hat{N}_{++} = \sum_{j \in J} \left[ N_{d_j} \, \frac{\hat{N}_{c_j}}{\hat{N}_{t_{dj}}} \, \cdot \frac{\hat{N}_{+1,j}}{\hat{N}_{11,j}} \right] \tag{8.1} \end{equation}\]
- \(N_{d_j}\) es la cantidad de enumeraciones definidas por los datos en el censo en el post-estrato \(j\).
- \(\hat{N}_{c_j}\) es el total estimado de enumeraciones correctas en el post-estrato \(j\).
- \(\hat{N}_{t_{dj}}\) es el total estimado de las enumeraciones definidas por los datos en el censo, incluyendo las enumeraciones erróneas en el post-estrato \(j\).
En este caso se usa \(N_{d_j} \, \frac{\hat{N}_{c_j}}{\hat{N}_{t_{dj}}}\) como estimador de \(N_{1+, j}\). La ecuación (8.1) se puede simplicar así:
\[\begin{align*} \hat{N}_{++} &= \sum_{j \in J} \left[ N_{d_j} \frac{\hat{N}_{c_j}/\hat{N}_{11,j}}{\hat{N}_{t_{dj}}/\hat{N}_{+1,j}} \right] \\ &= \sum_{j \in J} \left[ N_{d_j} \frac{\hat{R}_{c,j}}{\hat{R}_{m,j}} \right] \end{align*}\]
En donde \(\hat{R}_{c,j}\) y \(\hat{R}_{m,j}\) son los estimadores de razón de la enumeraciones correctas y emparejamientos en el post-estrato \(j\). Utilizando este estimador post-estratificado, es posible estimar el tamaño poblacional para un área o dominio \(t\) con la siguiente fórmula:
\[\hat{N}_t = \sum_{j \in J} \left[ N_{t, d_j} \frac{\hat{R}_{c,j}}{\hat{R}_{m,j}} \right]\]
En donde \(\hat{N}_t\) es la estimación del total poblacional obtenida por el modelo de sistema de estimación dual en el área o dominio \(t\), y \(N_{t, d_j}\) es la cantidad de registros definidos por los datos en el post-estrato \(j\) y en el área o dominio \(t\).
La implementación de este enfoque resulta desafiante en la práctica, ya que exige fragmentar la población en numerosas celdas de tamaño reducido, lo que incrementa la incertidumbre y puede dejar fuera dinámicas relevantes dentro de los post-estratos. Asimismo, presenta varias limitaciones, entre ellas, que el número de factores (covariables) que pueden incorporarse es restringido, dado que cada nueva variable o cruce de clasificaciones aumenta el número de estratos y, en consecuencia, reduce el tamaño de muestra disponible en cada uno; otra limitación es que admite únicamente variables categóricas o, en su defecto, variables continuas previamente agrupadas.