8.2 Regresión logística

La regresión logística constituye una alternativa más flexible que la post-estratificación y ha demostrado reducir de manera más efectiva el sesgo en las estimaciones de la población total (Olson and Sands 2012). A diferencia de la post-estratificación, que requiere dividir la población en celdas y, por ende, introducir interacciones de alto orden muchas veces innecesarias, la regresión logística permite modelar directamente la relación entre las covariables y la probabilidad de inclusión. Esto reduce el sesgo de correlación sin necesidad de recurrir a estructuras excesivamente complejas.

Otra ventaja importante es que este enfoque admite la incorporación de un mayor número de covariables, tanto categóricas como continuas, ampliando así el conjunto de predictores potenciales que pueden contribuir a mejorar la precisión del ajuste. Asimismo, facilita procesos de selección de variables y comparación de modelos, lo que refuerza su utilidad práctica en aplicaciones de estimación poblacional.

El modelo de regresión logística permite predecir la probabilidad de que una enumeración censal sea correcta y la probabilidad de coincidencia en el emparejamiento. Además, permite incluir variables continuas y utilizar únicamente los términos de interacción estadísticamente significativos, lo que contribuye a reducir tanto el sesgo por heterogeneidad como el error de muestreo. De forma análoga al enfoque de post-estratificación, la muestra E se utiliza para modelar la probabilidad de una enumeración correcta en el censo, mientras que la muestra P se emplea para modelar la probabilidad de coincidencia. En ambos casos se debe usar el diseño muestral para estimar los parámetros.

Considere la variable binaria $y_i$ que en la muestra E se puede definir como:

\[ y_i \;=\; \begin{cases} 1, & \text{si la enumeración $i$ es correcta}\\ 0, & \text{en caso contrario.} \end{cases} \]

Del mismo modo, se podría definir la variable $z_i$ como indicar binario en la muestra P como

\[ z_i \;=\; \begin{cases} 1, & \text{si el registro $i$ es un emparejado}\\ 0, & \text{si el registro $i$ es una omisión} \end{cases} \]

La probabilidad aproximada del suceso se expresa mediante la función logística:

\[\begin{equation} \pi(\textbf{x})= Pr(y = 1 | \textbf{x}) = \frac{\exp\{\textbf{x}'\boldsymbol{\beta}\}}{1+\exp\{\textbf{x}'\boldsymbol{\beta}\}} \tag{8.2} \end{equation}\]

Usando técnicas apropiadas que incluyan el diseño de muestreo complejo en la inferencia, la probabilidad estimada de que la variable de interés tome el valor uno, que a su vez es también la esperanza de la variable de interés, en un modelo de regresión logística es la siguiente:

\[ \hat{\pi}(\textbf{x})= \frac{\exp\{\textbf{x}'\hat{\boldsymbol{\beta}}\}}{1+\exp\{\textbf{x}'\hat{\boldsymbol{\beta}\}}} \]

La varianza de los parámetros estimados se calcula a partir de la siguiente expresión:

\[ var\left(\boldsymbol{\hat{B}}\right)=\boldsymbol{J}^{-1}var\left(S\left(\hat{\boldsymbol{B}}\right)\right)\boldsymbol{J}^{-1} \]

En donde

\[ S\left(B\right)=\sum_{h}\sum_{a}\sum_{i}w_{hai}\boldsymbol{D}_{hai}^{t}\left[\left(\pi_{hai}\left(\boldsymbol{B}\right)\right)\left(1-\pi_{hai}\left(\boldsymbol{B}\right)\right)\right]^{-1}\left(y_{hai}-\pi_{hai}\left(\boldsymbol{B}\right)\right)=0 \] y,

\[ D_{hai} = \frac{\delta\left(\pi_{hai}\left(\boldsymbol{B}\right)\right)}{\delta B_{j}} \]

Donde $j=0,\dots,p$. Dado que el modelo tiene enlace logaritmo, para construir los intervalos de confianza se debe aplicar el función exponencial a cada parámetro,

\[ \hat{\psi}=\exp\left(\hat{B}_{1}\right) \]

Por ende, el intervalo de confianza estará dado por la siguiente expresión:

\[ CI\left(\psi\right)=\exp\left(\hat{B}_{j}\pm t_{df,1-\frac{\alpha}{2}}se\left(\hat{B}_{j}\right)\right) \]

Para el ajuste del modelo es fundamental tener en cuenta el diseño muestral. Por esta razón, la estimación de los parámetros debe realizarse mediante la función svyglm() del paquete survey (Lumley 2010). Para una explicación más detallada sobre el ajuste de modelos de regresión logística considerando el diseño muestral, puede consultarse A. Gutiérrez, Téllez, and Guerrero (2025).

Usando las probabilidades predichas a partir de la regresión logística, calculadas como en la ecuación (8.2), el estimador del total para un dominio o área $t$ se puede escribir como:

\[\begin{equation} \hat{N}_{t} = \sum_{j \in t} \left( I_{d,j} \cdot \frac{\hat{\pi}_{c,j}}{\hat{\pi}_{m,j}} \right) \tag{8.3} \end{equation}\]

En donde:

$\hat{N}_{t}$ es la estimación del total poblacional usando el modelo DSE en el área o dominio $t$.
$I_{d,j}$ es una variable indicadora que toma el valor de 1 cuando la enumeración censal $j$ está definida por los datos, y 0 en caso contrario.
$\hat{\pi}_{c,j}$ es la probabilidad predicha de que la enumeración $j$ sea una enumeración correcta.
$\hat{\pi}_{m,j}$ es la probabilidad predicha de que la enumeración $j$ corresponda a un emparejamiento (match).

A pesar de que $I_{d,j}$ es conocido para todo $j$ en el censo, censos como el de Estados Unidos usó en la PES el siguiente estimador

\[\begin{equation} \hat{N}_{t} = \sum_{j \in t} \left( \hat{\pi}_{d,j} \cdot \frac{\hat{\pi}_{c,j}}{\hat{\pi}_{m,j}} \right) \tag{8.4} \end{equation}\]

En donde $\hat{\pi}_{d,j}$ representa la probabilidad predicha de que la enumeración $j$ esté definida por los datos, estimada a partir de un modelo de regresión logística. Dado que este modelo se ejecuta sobre todo el censo, no requiere de pesos de muestreo.

Los estimadores de las ecuaciones (8.3) y (8.4) generan diferencias mínimas en las estimaciones poblacionales de dominios grandes. Sin embargo, el estimador de la ecuación (8.3) puede producir estimaciones demasiado bajas en dominios pequeños con un número reducido de casos definidos por los datos (Mulry et al. 2008).

Combinando las probabilidades predichas según la ecuación (8.4), para cada enumeración censal se obtiene el factor de corrección de cobertura ($a_i$) y puede ser sumado para generar una estimación usando el modelo DSE en cualquier dominio, así:

\[\begin{equation} a_{i} = \hat{\pi}_{d,i} \frac{\hat{\pi}_{c,i}}{\hat{\pi}_{m,i}} \tag{8.5} \end{equation}\]

De este modo, la estimación de la población en un área o dominio $t$ se obtiene como:

\[\begin{equation} \hat{N}_{t} = \sum_{i \in t} a_{i} \tag{8.6} \end{equation}\]

References

Gutiérrez, Andrés, Cristian Téllez, and Stalyn Guerrero. 2025. “Capítulo 8: Generalizados.” In Análisis de Encuestas de Hogares Con r. https://github.com/psirusteam/LibroAEHR/blob/main/08-Generalizados.Rmd.

Lumley, Thomas. 2010. Complex Surveys: A Guide to Analysis Using r: A Guide to Analysis Using r. John Wiley; Sons.

Mulry, Mary H, Bruce D Spencer, Tom Mule, and Nganha Nguyen. 2008. “Direct Estimates as a Diagnostic for Dual System Estimators Based on Logistic Regression.” In Joint Statistical Meetings. American Statistical Association.

Olson, D., and R. Sands. 2012. “2010 Census Coverage Measurement Estimation Report: Net Coverage Comparison with Post-Stratification.” DSSD 2010 Census Coverage Measurement Memorandum Series 2010-G-12. U.S. Census Bureau.