Análisis de Regresión
Permite identificar de una forma visual la existencia de asociación lineal o no lineal.
Descripción del conjunto de datos precios_viviendas.rds1
| Variable | Descripción |
|---|---|
| precio | Precio de venta, en millones de COP |
| habitaciones | Número de habitaciones |
| banos | Número de baños |
| área | Área de la casa en metros cuadrados |
| anio_construccion | Año en que se construyó la casa |
| lote | Área de toda la propiedad |
| zona | Ubicación de la vivienda |
# Cargar librerías necesarias
library(pacman)
p_load(tidyverse, psych)
# Cargar datos desde GitHub
datos <- "https://github.com/jgbabativam/AnaDatos/raw/main/datos/precios_viviendas.rds"
load(url(datos))
precios_viviendas |>
select(-zona) |>
pivot_longer(cols = -precio, names_to = "variable", values_to = "valores") |>
ggplot(aes(y = precio, x = valores)) +
geom_point(color = "steelblue") +
facet_wrap(~variable, scales = "free") +
theme_bw() precio habitaciones banos area_m2 anio_construccion
precio 1.0000000 0.4116450 0.5938422 0.6713036 0.2176978
habitaciones 0.4116450 1.0000000 0.6203248 0.5671557 0.1817579
banos 0.5938422 0.6203248 1.0000000 0.6753512 0.3230760
area_m2 0.6713036 0.5671557 0.6753512 1.0000000 0.1706275
anio_construccion 0.2176978 0.1817579 0.3230760 0.1706275 1.0000000
tamano_lote 0.5340996 0.2218340 0.2927030 0.4020429 -0.1221422
tamano_lote
precio 0.5340996
habitaciones 0.2218340
banos 0.2927030
area_m2 0.4020429
anio_construccion -0.1221422
tamano_lote 1.0000000
El instrumento del DASS 21 permite construir una escala de Depresión, Ansiedad y Estrés (DASS-21). Investigue más sobre su contrucción y propiedades psicométricas. Una versión del instrumento puede ser consultada aquí
Explore el conjunto del datos DASS21.sav el cual contiene los resultados para una muestra de 800 personas de Colombia realizada en el año 2022.
Puede usar lapply(dass, function(x) attributes(x)$label) para ver las etiquetas de las preguntas.
Haga el diagrama de dispersión y calcule la correlación entre las variables cuantitativas de nivel de depresión, estrés y ansiedad.
¿Considera que el grado de asociación se diferencia entre hombres y mujeres?, haga los gráficos de dispersión segmentados por sexo
Realice los análisis que le permitan concluir sobre la asociación entre la depresión y la satisfacción con la vivienda, trabajo, amigos, vecinos y el barrio.
Teniendo en cuenta que las variables sobre la participación en actividades no son cuantitativas, investigue y discuta sobre la forma en que podría identificarse alguna asociación con la depresión.
Denominar a \(\mathbf{X}=(\mathbf{x}_1,\ldots, \mathbf{x}_p)\) como variables explicativas o predictoras se debe a uno de dos propósitos:
Modelo para explicar las relaciones: busca describir y cuantificar explícitamente la relación entre la variable de resultado \(y\) y un conjunto de variables explicativas \(\mathbf{X}\), así como determinar la importancia de cualquier relación.
Modelo para la predicción: busca predecir una variable de resultado \(y\) basado en la información contenida en un conjunto de variables predictivas \(\mathbf{X}\). Acá no necesariamente importa comprender cómo se relacionan e interactúan todas las variables entre sí, sólo lograr buenas predicciones sobre \(y\) utilizando la información en \(\mathbf{X}\).
En cada caso indique si el objetivo del modelo debe ser explicativo o predictivo. Suponga que tenemos interés en identificar:
. . .
. . .
. . .
. . .
Algunos modelos son:
Lineales: lm().
Generalizados: glm().
Bayesianos: stan_glm()
Penalizados: glmnet()
ML: tidymodels
Sea \(\mathcal{D}=\{(y_i, \mathbf{x}_i): i=1,\ldots,n\}\), con \(y_i\) la \(i\)-ésima respuesta medida en una escala continua; \(\mathbf{x}_i=(x_{i1},\ldots,x_{ip})^t \in \mathbb{R}^p\) es el vector de variables predictoras; y \(n\) \((\gg p)\) es el tamaño de la muestra. El modelo lineal se especifica así:
\[y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} + \varepsilon_i \hspace{0.25cm} \text{con } \varepsilon_i \overset{\text{iid}}{\sim} \mathcal{N}(\mu, \sigma^2)\]
\[Y_i = \hat{Y}_i + (Y_i - \hat{Y}_i) = \hat{Y}_i + e_i \]
El objetivo entonces es minimizar
\[\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^n (Y_i - [\beta_0 + \beta_1 X_i])^2\]
El procedimiento se conoce como Mínimos Cuadrados Ordinarios (MCO).
Considere los datos sobre los precios_vivienda
Descomposición de la varianza
\[\sum_{i=1}^n (Y_i - \bar{Y}_i)^2 = \sum_{i=1}^n (Y_i - \hat{Y})^2+ \sum_{i=1}^n e^2\]
El coeficiente de determinación es un indicador entre 0 y 1:
\[\sum_{i=1}^n (Y_i - \bar{Y}_i)^2 = \sum_{i=1}^n (Y_i - \hat{Y})^2+ \sum_{i=1}^n e^2\]
\[SCT = SCR + SCE\]
Se deduce que:
\[R^2 = \frac{SCR}{SCT} = 1 - \frac{SCE}{SCT}\]
El valor de \(R^2\) está entre 0 y 1.
| r.squared | adj.r.squared | sigma | statistic | p.value | df | logLik | AIC | BIC | deviance | df.residual | nobs |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 0.4451945 | 0.4394153 | 225.0639 | 77.03361 | 6.292077e-14 | 1 | -668.8513 | 1343.703 | 1351.458 | 4862761 | 96 | 98 |
Podemos preguntarnos si el precio depende de la zona donde se ubica la vivenda. Para ello es clave que la variable categórica sea de clase factor.
El ajuste del modelo no cambia:
| Characteristic | Beta | 95% CI | p-value |
|---|---|---|---|
| (Intercept) | 689 | 608, 770 | <0.001 |
| zona | |||
| rural | — | — | |
| urbana | 125 | 6.3, 244 | 0.039 |
| R² | 0.044 | ||
| p-value | 0.039 | ||
| Abbreviation: CI = Confidence Interval | |||
Ajuste un modelo de regresión simple que le permita identificar si el puntaje de depresión se relaciona con el sexo
Convierta la variable sexo en factor así: dass$sexo <- as_factor(dass$sexo)
Ajuste el modelo de regresión y presente los resultados.
Interprete los coeficientes y el valor p.
Ajuste un modelo para el ingreso en función de las variables de área m2, zona, número de habitaciones, cantidad de baños y año de construcción.
\[Precio_i = \beta_0 + \beta_1 \cdot area_i + \beta_2 \cdot zona_{urb} + \beta_3 \cdot habitaciones_i \\ + \beta_4 \cdot baños_i + \beta_5 \cdot añoc_i + \varepsilon_i\]
Observe que las variables explicativas son cuantitativas y cualitativas. Verifique que la clase esté bien definida.
Escriba la ecuación del modelo e interprete los resultados.
| Characteristic | Beta | 95% CI | p-value |
|---|---|---|---|
| (Intercept) | -434 | -5,329, 4,460 | 0.9 |
| area_m2 | 1.7 | 1.1, 2.4 | <0.001 |
| zona | |||
| rural | — | — | |
| urbana | 113 | 25, 202 | 0.013 |
| habitaciones | -21 | -97, 55 | 0.6 |
| banos | 70 | -1.9, 142 | 0.056 |
| anio_construccion | 0.26 | -2.3, 2.8 | 0.8 |
| R² | 0.516 | ||
| p-value | <0.001 | ||
| Abbreviation: CI = Confidence Interval | |||
Que no se cumplan los supuestos puede afectar varios aspectos: sesgos, problemas de pronóstico, error de contraste.
No se debe presentar un patrón, así que la línea roja debe estar aproximadamente de forma horizontal en cero.
Se espera que que los puntos queden igualmente distribuidos dentro de una banda estable.
Un ajuste cercano a la línea de 45 grados es indice de que el supuesto de normalidad se satisface.
# A tibble: 3 × 12
precio area_m2 zona habitaciones banos anio_construccion .fitted .resid
<dbl> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
1 2027. 604 urbana 3 4 1972 1458. 569.
2 127. 489. rural 4 4.5 1970 1158. -1031.
3 533. 477. rural 4 3 1962 1028. -495.
# ℹ 4 more variables: .hat <dbl>, .sigma <dbl>, .cooksd <dbl>, .std.resid <dbl>
Revisar que no existan distancias mayores que 1.
performanceRevise los supuestos del modelo, verifique que VIF es menor que 10 (no hay multicolinealidad) y haga las pruebas de los supuestos
Ajuste un modelo de regresión lineal múltiple con al menos 3 variables explicativas que resulten significativas para modelar el puntaje de depresión. Escriba la ecuación, interprete los coeficientes, revise los supuestos y concluya.
Ajuste un modelo de regresión lineal múltiple con al menos 3 variables explicativas que resulten significativas para modelar el puntaje de estrés. Escriba la ecuación, interprete los coeficientes, revise los supuestos y concluya.
Çetinkaya-Rundel, M. and Hardin, J. (2021) Introduction to modern statistics. Sections of Regression modeling: 7, 8, 9 y 10. Disponible aquí: https://openintro-ims.netlify.app/
Ismay, C., & Kim, A.Y. (2019). Statistical Inference via Data Science: A ModernDive into R and the Tidyverse (1st ed.). Chapman and Hall/CRC. https://doi.org/10.1201/9780367409913
Thompson, J. (2019). Tidy Data Science with the tidyverse and tidymodels. https://tidyds-2021.wjakethompson.com
Diapositivas disponibles en GitHub.