Estadística Descriptiva Multivariada

Medidas Descriptivas Multivariadas

Jimmy A Corzo S, PhD
Giovany Babativa-Márquez, PhD

Medidas descriptivas multivariadas

Contenido

  1. Observaciones multivariadas
  2. Datos: tabla, vector de medias, matrices de covarianzas y correlación
  3. Combinaciones lineales (Ejemplo: ARWU)
  4. Componentes Principales
  5. Teorema de la Descomposición Espectral (TDE)
  6. Teorema de la Descomposición en Valores Singulares (TDVS)
  7. Datos atípicos: Distancia de Mahalanobis
  8. Distancias entre observaciones multivariadas
  9. Laboratorio

Observaciones multivariadas

Observaciones multivariadas

En el contexto multivariado, en lugar de una, se observan \(p\) variables \(X_1,\ldots,X_p\) simultáneamente sobre el mismo objeto \(i\) (ciudad, universidad, persona, etc.), y por tanto una observación para el objeto \(i\) es un vector de \(p\) componentes:

\[x_i = \left(x_{i1},\ldots,x_{ij},\ldots,x_{ip}\right)^\prime,\]

donde \(x_{ij}\) es la observación de la variable \(j\) sobre el objeto \(i\).

Datos

Tabla de datos

Para \(n\) objetos, las observaciones se arreglan en una tabla de datos como la siguiente:

Objeto \(X_1\) \(X_2\) \(\cdots\) \(X_p\)
1 \(x_{11}\) \(x_{12}\) \(\cdots\) \(x_{1p}\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\cdots\) \(\vdots\)
\(\vdots\) \(\vdots\) \(x_{ij}\) \(\ddots\) \(\vdots\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\cdots\) \(\vdots\)
n \(x_{n1}\) \(x_{n2}\) \(\cdots\) \(x_{np}\)

Media, Varianza y Correlación

\[ \begin{aligned} \bar{x}_j &= \frac{1}{n} \sum_{i=1}^{n} x_{ij} && \text{media de } X_j \\ s_j^2 &= \frac{1}{n} \sum_{i=1}^{n} (x_{ij}-\bar{x}_j)^2 && \text{varianza de } X_j \\ s_{jk} &= \frac{1}{n} \sum_{i=1}^{n} (x_{ij}-\bar{x}_j)(x_{ik}-\bar{x}_k) && \text{covarianza} \\ r_{jk} &= \frac{s_{jk}}{s_j s_k} && \text{correlación} \end{aligned} \]

Nótese que para el cálculo de la varianza se utilizó como denominador n, debido a que en datos multivariados se considera suficientemente grande como para que s2 siga siendo un estimador insesgado de la varianza poblacional.

Tabla vs. Matriz

  • Tabla: Para referirse a los datos con nombres en filas y columnas.
  • Matriz: Para utilizar las propiedades algebraicas de la tabla.

\[X = \{x_{ij}\} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix}\]

Se asume que \(n \ge p\).

Columna de la tabla de datos

En esta matriz, la columna \(j\) representa las observaciones de la variable \(X_j\) sobre los \(n\) objetos y se denota como un vector columna:

\[X_{\cdot j} = \begin{bmatrix} x_{1j} \\ x_{2j} \\ \vdots \\ x_{nj} \end{bmatrix}, \quad j=1,\ldots,p\]

Fila de la tabla de datos

Análogamente, la fila \(i\), o el punto objeto \(i\), representa las observaciones de las \(p\) variables sobre el objeto \(i\) que se denota como un vector columna:

\[ x_{i \cdot} = (x_{i1}, \ldots, x_{ip})' = \begin{bmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{ip} \end{bmatrix}, \quad i=1,\ldots,n. \]

Vector de medias

El vector de medias contiene los promedios de cada una de las \(p\) variables:

\[\bar{x} = \begin{bmatrix} \bar{x}_1 \\ \bar{x}_2 \\ \vdots \\ \bar{x}_p \end{bmatrix}\]

Ejemplo: Ciudades Colombianas




library(pacman)
p_load(tidyverse, janitor, corrplot, gt)

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
ciudades <- read.csv2(paste0(url, "ciudades.csv"), sep=";") |> clean_names()
ciudades num_hab analfabetismo cobertura_pria_y_secdaria cobertura_ed_sup rel_al_prof
Armenia 284120 0.0880 1.095 0.266 22.4
Barranquilla 1163007 0.0922 1.083 0.306 22.5
Bogota 7050228 0.0973 0.999 0.538 22.6
Bucaramanga 520080 0.0760 1.192 0.326 22.2
Cali 2169801 0.0831 1.019 0.223 22.0
Cartagena 912674 0.1213 1.207 0.147 24.4
Cucuta 600049 0.1133 1.147 0.217 22.4
Ibague 509796 0.1073 0.983 0.181 23.4
Manizales 383483 0.0769 1.143 0.230 22.2
Medellin 2264776 0.1256 1.219 0.300 26.3
Monteria 390996 0.1587 1.109 0.151 26.1
Neiva 322098 0.1131 1.100 0.179 23.3
Pasto 394074 0.1115 1.052 0.128 21.8
Pereira 448971 0.1007 1.124 0.283 22.6
Popayan 261694 0.0915 1.135 0.163 21.5
Riohacha 184847 0.2713 1.000 0.152 26.1
San Andres 66675 0.0772 0.803 0.107 20.4
Santa Marta 428374 0.1244 1.005 0.116 22.9
Sincelejo 245180 0.1612 1.228 0.107 24.9
Tunja 161209 0.1023 1.036 0.245 22.1
Valledupar 373872 0.1587 1.017 0.147 24.5
Villavicencio 400475 0.1017 1.193 0.174 25.4

Fila de la tabla de datos


La fila 5 de la Tabla es la observación de las cinco variables para la ciudad de Cali (objeto 5):


\[x_{5}=(2169801, 0.08, 1.02, 0.22, 22)^\prime= \begin{bmatrix} 2168901 \\ 0.08 \\ 1.02 \\ 0.22 \\ 22 \end{bmatrix}\]

Columna de la tabla de datos


La variable \(X_4\) (Cobertura en educación superior) es la columna:


\[X_4= \begin{bmatrix} 0.27 \\ 0.31 \\ \vdots \\ 0.15 \\ 0.17 \end{bmatrix}\]

Vector de medias o centroide

Vector de medias o centroide


\[ \text{med}(X) = \bar{x}= \frac{1}{n} \mathbf{1_n}^\prime X = \begin{bmatrix} \bar{x}_1\\ \bar{x}_2\\ \vdots\\ \bar{x}_p \end{bmatrix}, \quad \text{donde} \quad \mathbf{1_n} = \begin{bmatrix} 1\\ 1\\ \vdots\\ 1 \end{bmatrix} \]

Ejemplo: Vector de medias


(med <- round(colMeans(ciudades[, 2:6]), 2))
                  num_hab             analfabetismo cobertura_pria_y_secdaria 
                888021.77                      0.12                      1.09 
         cobertura_ed_sup               rel_al_prof 
                     0.21                     23.27 


El vector de medias de las variables de la tabla de ciudades expresado como un vector es: \(\bar{x}^\prime = (888021.77, 0.12, 1.09, 0.21, 23.27)^\prime\):

Matriz de datos centrados


\[\tilde{X} = X - \mathbf{1}_n \, \bar{x}' = \begin{bmatrix} x_{11}-\bar{x}_1 & x_{12}-\bar{x}_2 & \cdots & x_{1p}-\bar{x}_p \\ x_{21}-\bar{x}_1 & x_{22}-\bar{x}_2 & \cdots & x_{2p}-\bar{x}_p \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}-\bar{x}_1 & x_{n2}-\bar{x}_2 & \cdots & x_{np}-\bar{x}_p \end{bmatrix}, \{\tilde{x}_{ij}\} = \{x_{ij} - \bar{x}_j\} \] Oberve que:

\[\operatorname{med}(\tilde{X}) = \frac{1}{n}\,\tilde{X}^{\prime}\mathbf{1}_n = \left( \frac{1}{n}X^{\prime}\mathbf{1}_n - \frac{1}{n}\bar{x}^{\prime}\mathbf{1}_n^{\prime}\mathbf{1}_n \right) = 0\]

Matriz de datos centrados

Se puede comprobar fácilmente que todas las variables tienen media cero:

Xtil <- ciudades |> 
        column_to_rownames("ciudades") |> 
        mutate(across(where(is.numeric), ~ . - mean(.)))
ciudades num_hab analfabetismo cobertura_pria_y_secdaria cobertura_ed_sup rel_al_prof
Armenia -603901.77 -0.028059091 0.009136364 0.053 -0.87272727
Barranquilla 274985.23 -0.023859091 -0.002863636 0.093 -0.77272727
Bogota 6162206.23 -0.018759091 -0.086863636 0.325 -0.67272727
Bucaramanga -367941.77 -0.040059091 0.106136364 0.113 -1.07272727
Cali 1281779.23 -0.032959091 -0.066863636 0.010 -1.27272727
Cartagena 24652.23 0.005240909 0.121136364 -0.066 1.12727273
Cucuta -287972.77 -0.002759091 0.061136364 0.004 -0.87272727
Ibague -378225.77 -0.008759091 -0.102863636 -0.032 0.12727273
Manizales -504538.77 -0.039159091 0.057136364 0.017 -1.07272727
Medellin 1376754.23 0.009540909 0.133136364 0.087 3.02727273
Monteria -497025.77 0.042640909 0.023136364 -0.062 2.82727273
Neiva -565923.77 -0.002959091 0.014136364 -0.034 0.02727273
Pasto -493947.77 -0.004559091 -0.033863636 -0.085 -1.47272727
Pereira -439050.77 -0.015359091 0.038136364 0.070 -0.67272727
Popayan -626327.77 -0.024559091 0.049136364 -0.050 -1.77272727
Riohacha -703174.77 0.155240909 -0.085863636 -0.061 2.82727273
San Andres -821346.77 -0.038859091 -0.282863636 -0.106 -2.87272727
Santa Marta -459647.77 0.008340909 -0.080863636 -0.097 -0.37272727
Sincelejo -642841.77 0.045140909 0.142136364 -0.106 1.62727273
Tunja -726812.77 -0.013759091 -0.049863636 0.032 -1.17272727
Valledupar -514149.77 0.042640909 -0.068863636 -0.066 1.22727273
Villavicencio -487546.77 -0.014359091 0.107136364 -0.039 2.12727273

Matriz de covarianzas

La matriz de covarianzas se define a partir de la matriz de datos centrados \(\tilde{X}\):


\[ S = \frac{1}{n} \tilde{X}^\prime \tilde{X} = \left[ \begin{array}{cccc} s_1^2 & s_{12} & \cdots & s_{1p} \\ s_{21} & s_2^2 & \cdots & s_{2p} \\ \vdots & \vdots & \vdots & \vdots \\ s_{p1} & s_{p2} & \cdots & s_p^2 \end{array} \right], \quad s_j^2 = s_{jj} \]

Otras medidas de variabilidad multivariada


  • Varianza generalizada: definida como el determinante de la matriz de covarianzas \(|S|\).

  • Varianza total: definida como \(traza(S)\).


Estas medidas se pueden expresar en términos de los valores propios de \(S\), los cuales, como se verá más adelante, representan las varianzas de las componentes principales (factores).

Ejemplo: Matriz de covarianzas

A continuación se presenta la matriz de covarianzas calculada para las variables del conjunto de datos de ciudades:

(mat_cov <- round(var(ciudades[, 2:6]), 2))


num_hab analfabetismo cobertura_pria_y_secdaria cobertura_ed_sup rel_al_prof
num_hab 2.228013e+12 -9797.73 -13331.06 116811.81 -34962.92
analfabetismo -9.797730e+03 0.00 0.00 0.00 0.05
cobertura_pria_y_secdaria -1.333106e+04 0.00 0.01 0.00 0.07
cobertura_ed_sup 1.168118e+05 0.00 0.00 0.01 -0.02
rel_al_prof -3.496292e+04 0.05 0.07 -0.02 2.72

Matriz de datos centrados y estandarizados

Contiene las observaciones centradas y estandarizadas: \(y_{ij} = \frac{x_{ij}- \bar{x}_j}{s_j}\)

\[ \tilde{Y} = \left\{\tilde{y}_{ij} \right\} = \left[ \begin{array}{cccc} \frac{x_{11}-\bar{x}_1}{s_1} & \frac{x_{12}-\bar{x}_2}{s_2} & \cdots &\frac{x_{1p}-\bar{x}_p}{s_p} \\ \frac{x_{21}-\bar{x}_1}{s_1} & \frac{x_{22}-\bar{x}_2}{s_2} & \cdots &\frac{x_{2p}-\bar{x}_p}{s_p}\\ \vdots & \vdots & \vdots & \vdots \\ \frac{x_{n1}-\bar{x}_1}{s_1} & \frac{x_{n2}-\bar{x}_2}{s_2} & \cdots& \frac{x_{np}-\bar{x}_p}{s_p} \end{array} \right] \]

De esta manera \(\bar{Y_j} = 0\) y \(Var(Y_j) = 1\).

Propiedades

  • La matriz de datos centrados estandarizados se obtiene al estandarizar la matriz de datos centrados \(\tilde{X}\):

\[ \tilde{Y} = \tilde{X} D^{-1/2}, \qquad D = \operatorname{diag}\{s_j^2\}, \qquad D^{-1/2} = \operatorname{diag}\!\left(\frac{1}{s_j}\right). \]

  • El vector de medias de \(\tilde{Y}\) es nulo:

\[ \operatorname{med}(\tilde{Y}) = \tilde{Y}^{\prime}\mathbf{1}_n = D^{-1/2}\tilde{X}^{\prime}\mathbf{1}_n = D^{-1/2}\cdot 0 = 0. \]

Matriz de correlación

Es una matriz simétrica que contiene unos en la diagonal, correspondientes a las correlaciones de cada variable consigo misma y por fuera de la diagonal aparecen las correlaciones \(r_{ij}\) entre pares de variables. Se define como


\[R = D^{-1/2}\, S \, D^{-1/2}\]

Matriz de correlación

También se obtiene a partir de la matriz de datos centrados estandarizados así:

\[ R = \frac{1}{n} \tilde{Y}^\prime \tilde{Y} = \left[ \begin{array}{cccc} 1 & r_{12} & \cdots & r_{1p} \\ r_{21} & 1 & \cdots & r_{2p} \\ \vdots & \vdots & \vdots & \vdots \\ r_{p1} & r_{p2} & \cdots & 1 \end{array} \right], \quad r_{ij} = \frac{s_{ij}}{s_i s_j} \]

Matricialmente:

\[ R = D^{-1/2} S D^{-1/2} \] Nótese que la matriz de covarianzas de \(\tilde{Y}\) es también \(R\), puesto que

\[ S_{\tilde{Y}} = \frac{1}{n}\,\tilde{Y}^{\top}\tilde{Y} = \frac{1}{n}\,D^{-1/2}\tilde{X}^{\top}\tilde{X}\,D^{-1/2} = D^{-1/2} S D^{-1/2} = R. \]

Ejemplo: Matriz de correlación

Matriz de correlación entre las variables del archivo de ciudades:

(mat_cor <- round(cor(ciudades[, 2:6]), 2))
num_hab analfabetismo cobertura_pria_y_secdaria cobertura_ed_sup rel_al_prof
num_hab 1.00 -0.15 -0.09 0.79 -0.01
analfabetismo -0.15 1.00 -0.01 -0.34 0.71
cobertura_pria_y_secdaria -0.09 -0.01 1.00 0.09 0.42
cobertura_ed_sup 0.79 -0.34 0.09 1.00 -0.15
rel_al_prof -0.01 0.71 0.42 -0.15 1.00
corrplot(mat_cor, method = "color",  type = "upper",  addCoef.col = "black", tl.col = "black", tl.srt = 45, col = colorRampPalette(c("#2c7bb6", "white", "#d7191c"))(200), diag = FALSE, number.cex = 0.8)

Matriz de datos centrados, estandarizados y normados

Sea \(Y\) la matriz de datos centrados, estandarizados y normados

\[ Y = \frac{1}{\sqrt{n}}\,\tilde{Y} = \frac{1}{\sqrt{n}}\,\tilde{X}\,D^{-1/2} \]

Esta matriz también está centrada puesto que

\[ \mathrm{med}(Y) = \frac{1}{\sqrt{n}}\,\mathrm{med}(\tilde{Y}) = 0. \]

Al estar autoponderada por \(\sqrt{\frac{1}{n}}\), se produce:

\[ S_Y = Y^{\top}Y = \frac{1}{n}\,\tilde{Y}^{\top}\tilde{Y} = R. \]

Varianza total

La varianza total es un indicador de la variabilidad global de una matriz de datos.

Se define como la suma de las varianzas de las variables:

\[ V_T = \sum_{j=1}^{p} s_j^2 \]

donde \(s_j^2\) es la varianza de la variable \(X_j\).

En particular, para las matrices de datos centrados y estandarizados se tiene

\[ S_{\tilde{Y}} = S_Y = R \]

donde \(R\) es la matriz de correlaciones.


Como la diagonal de \(R\) está compuesta por unos, se obtiene

\[ V_T(\tilde{Y}) = V_T(Y) = \operatorname{tr}(R) = p. \]

Combinaciones lineales

Definición de Combinación Lineal

Una combinación lineal es una suma ponderada de los valores de una variable observada en varios objetos. Algunos ejemplos fundamentales son:

  • La media: Es la suma de los valores de la variable ponderados por \(1/n\).
  • La varianza: Es la suma de los desvíos de los valores de la variable respecto a la media \((x_i - \bar{x})^2\) ponderados por \(1/n\).

Combinaciones lineales de múltiples variables

También se define como combinación lineal a la suma ponderada de los valores de varias variables observadas en un mismo objeto. Por ejemplo:

  • Rankings de universidades.
  • Índice de Pobreza Multidimensional: combinación lineal de indicadores de vivienda, servicios básicos, estándar de vida, educación, empleo y protección social.
  • Índice de Desarrollo Humano (IDH): pondera indicadores de dimensiones como esperanza de vida, educación y riqueza.
  • Índices económicos y financieros: utilizados para describir y comparar cantidades de diferente naturaleza.

Utilidad en Estadística Multivariada

Las combinaciones lineales son herramientas esenciales en el análisis de datos multivariados.

Un caso destacado son las Componentes Principales, las cuales:


Son combinaciones lineales de los valores de las variables cuyas ponderaciones se construyen para que contengan la mayor cantidad posible de la varianza de las variables originales.

Combinación lineal de los valores de una variable en \(n\) objetos

Sea \(X_{\cdot j}\) la j-ésima columna de la matriz de datos. Se define la combinación de los \(n\) valores de la variable \(j\) con constantes de ponderación \(a' = (a_1, \ldots, a_n)'\) por:


\[X^{\star}_j = a' X_{\cdot j} = \sum_{i=1}^{n} a_i x_{ij}, \qquad j = 1, \ldots, p.\]

Ejemplo: El promedio


En particular, el promedio de la variable \(j\) es una combinación lineal con constantes de ponderación \(p^\prime = (\frac{1}{n}, \ldots, \frac{1}{n})\):

\[ \bar{x}_j = p^\prime X_{\cdot j} = \sum_{i=1}^n \frac{1}{n} x_{ij}\]

Combinación lineal de \(p\) variables sobre un mismo objeto

Para el objeto \(i\) de la matriz de datos, cuyas observaciones están en la fila \(x_i^\prime = (x_{i1}, \ldots, x_{ip})^\prime\), se define la combinación lineal de los valores de las \(p\) variables con ponderaciones \(b^\prime = (b_1, \ldots, b_p)\) como:

\[ z_i = b^\prime x_{i \cdot} = \sum_{j=1}^p b_j x_{ij}, \quad i=1,\ldots,n\]

Nota importante

Este tipo de combinaciones lineales solo tienen sentido si las variables están estandarizadas, o cuando todas vienen medidas en las mismas escalas.

Ejemplo: Academic Rank of World Universities (ARWU)

Uno de los más exigentes rankings del mundo es el Academic Rank of World Universities (ARWU), que utiliza los siguientes seis criterios de actividad académica e investigativa (entre paréntesis las ponderaciones):

  • Score on Alumni (\(X_1\)): Premios Nobel de exalumnos (10%).
  • Score on Award (\(X_2\)): Premios Nobel de docentes de la universidad (20%).
  • Score on HiCi (\(X_3\)): Artículos altamente citados en 21 categorías temáticas (20%).
  • Score on N&S (\(X_4\)): Artículos publicados en las revistas Nature y Science (20%).
  • Score on PUB (\(X_5\)): Artículos indexados en Science Citation Index-Expanded o Social Science Citation Index (20%).
  • Score on PCP (\(X_6\)): Productividad per cápita de los docentes de la universidad (10%).

Puntajes de las universidades

library(pacman)
p_load(tidyverse, janitor)

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
arwu <- read.csv2(paste0(url, "ARWU_100_top.csv")) |> clean_names()
institution Alumni Award HiCi N.S PUB PCP Total
Harvard 100.0 100.0 100.0 100.0 100.0 69.2 100.0
California, Berkeley 67.6 79.3 69.0 70.9 70.6 54.2 72.4
Stanford 40.2 78.4 87.6 68.4 69.7 50.1 72.1
MIT 70.5 80.3 66.8 70.1 61.4 64.5 71.4
Cambridge 88.5 92.6 53.9 54.3 65.7 53.1 69.6
California I of Tech 50.3 68.8 56.7 64.8 46.9 100.0 64.4
Princeton 56.4 84.8 61.1 43.3 44.3 65.5 60.8
Columbia 70.7 67.4 56.2 47.6 69.9 32.1 60.4
Chicago 65.5 83.9 50.9 39.8 50.5 40.0 57.3
Oxford 56.2 57.6 48.8 49.8 68.5 41.1 56.4
Yale 48.6 44.9 58.5 56.3 62.0 37.0 54.6
Cornell 42.3 51.1 54.3 49.9 59.5 38.1 52.6
California, Los Angeles 27.2 42.6 56.9 49.2 75.1 31.2 52.2
California, San Diego 15.1 35.8 60.2 54.6 65.1 37.9 50.0
Pennsylvania 32.9 34.3 57.1 46.9 68.6 28.5 49.0
Washington 24.4 31.7 53.9 51.6 72.5 28.1 48.7
Wisconsin - Madison 36.5 35.4 51.9 40.2 66.1 25.7 46.4
The Johns Hopkins 43.6 32.1 42.0 49.4 64.0 27.2 46.0
California, San Francisco 0.0 40.1 53.4 51.8 60.7 33.6 46.0
The of Tokyo 33.3 14.1 42.0 52.0 80.4 34.5 45.9
College London 32.9 32.1 39.4 44.6 67.0 31.6 44.4
Michigan - Ann Arbor 36.5 0.0 59.8 43.4 79.8 26.3 44.2
Swiss Federal Institute of Technology Zurich 34.1 36.1 36.3 43.6 53.6 47.1 43.4
Kyoto 33.7 34.7 38.1 36.0 67.6 31.0 43.1
Illinois at Urbana-Champaign 35.4 36.5 42.6 37.1 58.6 27.8 42.6
The Imperial College of Science, Technology and Medicine 17.7 37.2 41.4 36.9 62.3 33.0 41.9
Toronto 23.8 19.2 38.8 38.3 80.3 27.9 41.8
Minnesota, Twin Cities 30.6 16.2 50.4 36.1 66.6 23.9 40.6
Northwestern 18.5 18.9 48.3 35.9 59.7 28.4 38.4
Washington in St. Louis 21.3 25.9 38.8 41.0 54.8 26.7 38.1
New York 32.4 24.4 40.7 36.2 54.4 22.4 37.8
California, Santa Barbara 16.0 35.1 42.0 33.3 42.6 37.3 37.1
Colorado at Boulder 14.1 30.7 38.8 41.7 44.7 33.5 37.1
Rockefeller 19.2 58.4 28.8 42.3 21.0 35.6 36.7
Duke 17.7 0.0 45.8 42.2 62.0 24.4 35.3
British Columbia 17.7 18.9 32.2 30.8 65.7 23.7 34.7
Maryland, College Park 22.0 19.9 41.4 29.0 53.6 26.2 34.7
The of Texas at Austin 18.5 16.6 46.1 28.4 54.4 24.7 34.5
Pierre and Marie Curie - Paris 6 34.8 23.5 24.9 28.8 59.9 21.9 34.2
Copenhagen 26.1 24.1 26.0 26.0 56.4 32.3 33.4
North Carolina at Chapel Hill 10.7 16.2 39.4 27.7 60.6 23.9 33.3
Karolinska Institute 26.1 27.2 31.4 20.5 49.9 38.1 33.2
Pennsylvania State - Park 11.9 0.0 46.6 37.4 56.1 23.2 32.6
The of Manchester 23.2 18.9 27.9 28.0 59.1 23.1 32.4
Paris Sud (Paris 11) 31.7 46.0 12.5 20.8 49.9 23.6 32.3
California, Davis 0.0 0.0 47.2 31.7 63.0 26.0 32.0
California, Irvine 0.0 29.3 36.7 26.3 49.3 26.9 32.0
Southern California 0.0 26.7 38.8 26.3 53.1 20.0 32.0
The of Texas Southwestern Medical Center at Dallas 20.6 33.1 30.5 29.9 38.4 23.5 31.8
Utrecht 26.1 20.9 27.9 30.4 48.2 26.1 31.7
Zurich 10.7 26.7 26.4 28.7 50.6 27.0 31.2
Munich 31.5 22.8 16.1 26.3 54.5 30.7 31.1
Vanderbilt 17.7 29.5 31.4 20.2 50.8 19.1 31.0
Rutgers, The State New Jersey - New Brunswick 13.1 19.9 40.1 27.9 43.7 23.2 30.9
The of Edinburgh 19.2 16.6 26.0 34.2 51.3 23.9 30.9
Technical Munich 39.2 23.5 24.9 19.5 46.5 29.2 30.7
Pittsburgh 21.3 0.0 42.0 23.4 63.1 19.0 30.7
Carnegie Mellon 32.9 32.7 30.5 15.2 34.2 34.3 30.2
The Australian National 15.1 12.6 36.0 27.8 43.8 31.1 29.6
The Ohio State - Columbus 15.1 0.0 41.7 22.8 62.0 19.1 29.6
McGill 31.1 0.0 32.2 22.9 59.6 25.3 29.5
Melbourne 19.9 14.1 22.8 18.7 63.1 27.0 29.3
King's College London 14.1 23.0 31.4 16.7 50.7 25.0 29.1
Heidelberg 16.9 27.0 17.6 23.0 50.6 28.6 29.1
Brown 16.0 13.6 31.4 29.6 41.9 32.1 29.0
Bristol 9.2 17.8 28.8 29.1 47.3 25.1 28.9
Uppsala 22.0 32.1 14.4 19.9 49.5 26.6 28.9
Florida 19.2 0.0 36.7 20.6 63.9 17.5 28.8
Purdue - West Lafayette 16.0 16.6 29.7 22.4 51.8 20.6 28.6
Leiden 21.3 15.4 27.9 19.9 47.8 32.4 28.4
Ecole Normale Superieure - Paris 50.8 24.4 12.5 18.7 27.9 56.7 28.3
The Hebrew of Jerusalem 31.5 19.9 24.9 20.8 41.6 26.5 28.1
Helsinki 16.0 17.8 22.8 20.6 52.7 28.2 28.1
Moscow State 46.8 34.1 0.0 9.6 52.4 31.2 27.9
Osaka 10.7 0.0 26.9 27.9 60.2 27.8 27.7
Oslo 22.0 33.3 17.6 13.5 46.6 24.3 27.7
Boston 13.1 11.5 29.7 24.7 50.0 19.3 27.3
Arizona 0.0 0.0 29.7 37.5 52.1 21.6 26.8
Stockholm 25.0 29.5 16.1 20.4 37.5 24.2 26.4
Nagoya 24.4 14.1 16.1 24.3 48.1 26.1 26.4
Arizona State - Tempe 0.0 19.9 24.9 26.9 44.3 21.1 26.1
Rochester 0.0 11.5 30.5 27.0 46.6 19.2 25.8
Utah 28.2 8.9 26.9 20.6 43.3 21.9 25.8
Tohoku 16.0 0.0 21.6 20.8 60.3 27.4 25.7
Nottingham 13.1 19.9 23.9 16.1 47.6 20.9 25.7
Michigan State 10.7 0.0 37.4 19.1 52.4 18.7 25.5
Basel 22.0 17.0 22.8 19.4 36.2 34.5 25.5
McMaster 14.1 18.9 22.8 14.8 47.3 22.8 25.2
The of Sheffield 19.9 14.1 21.0 21.3 44.3 22.6 25.2
Ghent 7.5 15.4 17.6 15.1 54.4 30.4 25.1
Indiana Bloomington 11.9 22.7 24.9 18.5 39.9 19.6 25.1
Sydney 16.9 0.0 20.4 18.4 61.4 25.1 25.0
Bonn 16.9 19.9 14.4 23.3 42.5 24.3 24.9
Goettingen 32.9 19.9 14.4 17.2 40.7 24.3 24.9
Texas A&M - College Station 0.0 0.0 34.5 21.0 54.0 21.0 24.8
Virginia 0.0 0.0 34.5 26.8 47.5 19.5 24.5
Case Western Reserve 34.5 11.5 21.6 14.3 41.9 22.7 24.3
Aarhus 13.1 18.9 7.2 23.5 48.4 25.4 24.2
Rice 18.5 21.8 21.6 18.8 30.2 29.6 24.0
Birmingham 21.3 10.9 21.6 16.2 46.4 20.7 24.0

Cálculo del Puntaje Total

El puntaje del ranking es una combinación lineal de los puntajes obtenidos por una universidad, con ponderaciones

\[b^\prime = (0.1, 0.2, 0.2, 0.2, 0.2, 0.1)\] donde \(\sum_{j=1}^p b_j = 1\) y

\[y_i = \sum_{j=1}^p b_j x_{ij} = b^\prime x_{i \cdot}\]

Cálculo del Puntaje Total

Para la Universidad de Harvard, cuyos puntajes son \[x_1 = (100, 100, 100, 100, 100, 69.2)\]

El valor de su puntaje total es:

\[ \begin{aligned} y_i &= 0.1(100) + 0.2(100) + 0.2(100) + 0.2(100) + 0.2(100) + 0.1(69.2) \\ y_i &= 96.92 \end{aligned} \]

Este valor se ajusta a 100 en la tabla final como el máximo valor de referencia.

Ejemplo: Ajuste del Ranking ARWU

Para la Universidad de Cambridge, el cálculo de la combinación lineal es:

\[ \begin{aligned} y_5 &= 0.1(88.5) + 0.2(92.6) + 0.2(53.9) + 0.2(54.3) + 0.2(65.7) + 0.1(53.1) \\ y_5 &= 67.46 \end{aligned} \]

Considerando que el valor máximo de referencia (Harvard) fue \(96.92\), el puntaje ajustado para Cambridge es:

\[67.46 / 0.9692 = 69.6\]

Combinación lineal que produce las componentes principales

Las componentes principales son combinaciones lineales de los valores de las variables. Para su construcción se utilizan ponderaciones \(v_1' = (v_{11}, \ldots, v_{p1})\), la primera componente para el objeto \(i\), cuyas observaciones para las \(p\) variables están en la \(i\)-ésima fila de \(Y\) (matriz de datos centrados y estandarizados), \(y_{i\cdot}\) tiene la forma:

\[z_{i1} = y_{i\cdot}' \, v_1= \sum_{j=1}^{p} v_{j1} \, y_{ij},\qquad i = 1, \ldots, n.\]

\(z_{i1}\) es un promedio ponderado de los valores de las variables observadas en el objeto \(i\).

  • La primera componente para el objeto \(i\) es la proyección de los valores de las variables sobre el vector de ponderaciones \(v_1\).

En el siguiente capítulo se realiza la construcción formal de las componentes y sus ponderaciones.

Combinación lineal que produce las componentes principales

Como se verá en el siguiente capítulo, estas componentes tienen, entre otras, dos importantes propiedades:

  • Maximización de varianza: Van en direcciones que acumulan la mayor cantidad posible de varianza de la tabla de datos \(X\), útil para reducir la dimensionalidad del problema en el sentido de que basta con unas cuantas de ellas para interpretar y descubrir asociaciones e información intrínseca en los datos.
  • No correlación: Todas las componentes son ortogonales entre sí, que facilita representaciones gráficas de los datos.

Datos atípicos en una variable

Rango intercuartílico (IQR)

Definición (medida de dispersión) El rango intercuartílico es una medida robusta de dispersión definida por:

\[IQR = Q_{0.75} - Q_{0.25}\]

Construcción del rango para detectar atípicos A partir del IQR se define el intervalo:

\[\left( Q_{0.25} - 1.5 \cdot IQR, \quad Q_{0.75} + 1.5 \cdot IQR \right)\]

Una observación se considera atípica si cae por fuera de este rango.

Motivación: La Referencia Normal

Esta regla es coherente con la idea de concentración de probabilidad en la distribución normal \(N(\mu, \sigma^2)\). Aproximadamente:

  • El 68% de las observaciones se encuentran en el intervalo \(\mu \pm \sigma\).
  • El 95% de las observaciones se encuentran en el intervalo \(\mu \pm 2\sigma\).
  • El 99% de las observaciones se encuentran en el intervalo \(\mu \pm 3\sigma\).

Ejemplo: Indicadores de Educación en Ciudades

library(pacman)
p_load(tidyverse, janitor, corrplot, gt)

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
ciudades <- read.csv2(paste0(url, "ciudades.csv"), sep=";") 
ciudades num_hab analfabetismo cobertura_pria_y_secdaria cobertura_ed_sup rel_al_prof
Armenia 284.120 0 1 0 22
Barranquilla 1.163.007 0 1 0 22
Bogota 7.050.228 0 1 1 23
Bucaramanga 520.080 0 1 0 22
Cali 2.169.801 0 1 0 22
Cartagena 912.674 0 1 0 24
Cucuta 600.049 0 1 0 22
Ibague 509.796 0 1 0 23
Manizales 383.483 0 1 0 22
Medellin 2.264.776 0 1 0 26
Monteria 390.996 0 1 0 26
Neiva 322.098 0 1 0 23
Pasto 394.074 0 1 0 22
Pereira 448.971 0 1 0 23
Popayan 261.694 0 1 0 22
Riohacha 184.847 0 1 0 26
San Andres 66.675 0 1 0 20
Santa Marta 428.374 0 1 0 23
Sincelejo 245.180 0 1 0 25
Tunja 161.209 0 1 0 22
Valledupar 373.872 0 1 0 24
Villavicencio 400.475 0 1 0 25

Detección de Ciudades Atípicas

Utilizando la regla del Rango Intercuartílico (\(IQR\)): \([Q_1 - 1.5IQR, Q_3 + 1.5IQR]\).

ciudades_atipicas <- ciudades

# Función para identificar atípicos y marcarlos
marcar_atipicos <- function(x) {
  q1 <- quantile(x, 0.25, na.rm = TRUE)
  q3 <- quantile(x, 0.75, na.rm = TRUE)
  iqr <- q3 - q1
  inf <- q1 - 1.5 * iqr
  sup <- q3 + 1.5 * iqr
  
  # Retornar el valor original como texto o "*" si es atípico
  ifelse(x < inf | x > sup, "*", as.character(round(x, 2)))
}

ciudades_atipicas[, 2:6] <- lapply(ciudades[, 2:6], marcar_atipicos)

Detección de Ciudades Atípicas

ciudades num_hab analfabetismo cobertura_pria_y_secdaria cobertura_ed_sup rel_al_prof
Armenia 284120 0.09 1.09 0.27 22.4
Barranquilla * 0.09 1.08 0.31 22.5
Bogota * 0.1 1 * 22.6
Bucaramanga 520080 0.08 1.19 0.33 22.2
Cali * 0.08 1.02 0.22 22
Cartagena 912674 0.12 1.21 0.15 24.4
Cucuta 600049 0.11 1.15 0.22 22.4
Ibague 509796 0.11 0.98 0.18 23.4
Manizales 383483 0.08 1.14 0.23 22.2
Medellin * 0.13 1.22 0.3 26.3
Monteria 390996 0.16 1.11 0.15 26.1
Neiva 322098 0.11 1.1 0.18 23.3
Pasto 394074 0.11 1.05 0.13 21.8
Pereira 448971 0.1 1.12 0.28 22.6
Popayan 261694 0.09 1.14 0.16 21.5
Riohacha 184847 * 1 0.15 26.1
San Andres 66675 0.08 * 0.11 20.4
Santa Marta 428374 0.12 1 0.12 22.9
Sincelejo 245180 0.16 1.23 0.11 24.9
Tunja 161209 0.1 1.04 0.24 22.1
Valledupar 373872 0.16 1.02 0.15 24.5
Villavicencio 400475 0.1 1.19 0.17 25.4

Interpretación

Las celdas con * indican que esa ciudad representa un valor extremo para esa dimensión educativa o poblacional en comparación con el resto del grupo.

Datos atípicos en dos variables

Ejemplo: Problema de detección bidimensional

Al analizar dos variables simultáneamente, una observación puede no ser atípica en ninguna de las variables por separado, pero sí serlo por romper la estructura de correlación del grupo.

Distancias entre observaciones multivariadas

Concepto de distancia



Intuitivamente, la distancia entre dos puntos A y B en una superficie plana es la longitud del espacio que hay entre ellos.

Si se desea ir de A hacia B, la distancia se puede medir en unidades físicas (como metros), lo que nos da una idea clara de qué tan lejos o cerca se encuentran el uno del otro.

Propiedades de una métrica

Esta idea de distancia se formaliza mediante las siguientes propiedades. Sean \(A\), \(B\) y \(C\) puntos en el espacio \(\mathbb{R}^2\) (o superior):

  • No negatividad: La distancia siempre es mayor o igual a cero, \(d(A,B) \ge 0\).

    • Si los puntos coinciden, la distancia es cero: \(d(A,A)=0\).
  • Simetría: La distancia de \(A\) a \(B\) es la misma que de \(B\) a \(A\): \[d(A,B) = d(B,A)\]

  • Desigualdad triangular: Ir de \(A\) a \(B\) directamente es siempre más corto o igual que pasar por un tercer punto \(C\): \[d(A,B) \le d(A,C) + d(C,B)\]

Ejemplo: Valor Absoluto

Un ejemplo básico de estas métricas es el valor absoluto entre dos números \(a\) y \(b\).

La distancia se mide por la diferencia entre ellos. Para evitar la ambigüedad que produce el signo de la diferencia (\(a-b\) vs \(b-a\)), se utiliza el valor absoluto: \[|a-b|\] Este valor siempre es positivo y cumple con todas las propiedades de una métrica mencionadas anteriormente.

Distancia Euclidiana

Para dos filas (\(i\), \(i'\) con \(i \ne i'\)) de la matriz de datos \(\mathbf{X}\):

  • \(\mathbf{x}_i = (x_{i1}, \dots, x_{ip})^\top\)
  • \(\mathbf{x}_{i'} = (x_{i'1}, \dots, x_{i'p})^\top\)

La distancia euclidiana es la raíz cuadrada de la suma de las diferencias al cuadrado entre las coordenadas de cada variable:

\[d_e(\mathbf{x}_i, \mathbf{x}_{i'}) = \sqrt{(\mathbf{x}_i - \mathbf{x}_{i'})^\top (\mathbf{x}_i - \mathbf{x}_{i'})} = \sqrt{\sum_{j=1}^p (x_{ij} - x_{i'j})^2}\]

Distancia Euclidiana entre ciudades

El paquete distances permite calcular las distancias entre objetos:


library(pacman)
p_load(tidyverse, distances)

Xmat <- ciudades |> 
        column_to_rownames("CIUDADES") |> 
        mutate(ProPoblacional = Num.Hab / sum(Num.Hab)) |> 
        select(-Num.Hab)

distEuc <- distances(Xmat, id_variable = row.names(Xmat))

Note

Note que se utiliza la proporción de poblacion por ciudad

Distancia Euclidiana entre ciudades

a) Más lejanas
b) Más cercanas
Ciudad A Ciudad B Dist. Ciudad A Ciudad B Dist.
Medellin San Andres 5.92 Armenia Barranquilla 0.12
Monteria San Andres 5.71 Barranquilla Pereira 0.12
Riohacha San Andres 5.71 Bucaramanga Manizales 0.11
San Andres Villavicencio 5.02 Armenia Cucuta 0.08

Distancia de Mahalanobis


La Distancia de Mahalanobis es una medida de la distancia entre observaciones multivariadas que posee la propiedad de incluir tanto las distancias euclidianas entre las variables como el grado de correlación entre ellas.

Distancia de Mahalanobis entre observaciones

Asumiendo que hay \(n\) observaciones para dos variables \(X_1\) y \(X_2\):

\[ \begin{bmatrix} x_{11} & x_{12} \\ \vdots & \vdots \\ x_{i1} & x_{i2} \\ \vdots & \vdots \\ x_{i'1} & x_{i'2} \\ \vdots & \vdots \\ x_{n1} & x_{n2} \end{bmatrix} \]

Distancia de Mahalanobis entre observaciones

La distancia de Mahalanobis al cuadrado entre las observaciones \(i\) e \(i'\) se define como:

\[ d_M^2(i,i') = \frac{1}{(1-r_{12}^2)} \left[ \frac{(x_{i1}-x_{i'1})^2}{s_1^2} + \frac{(x_{i2}-x_{i'2})^2}{s_2^2} - 2r_{12}\frac{(x_{i1}-x_{i'1})(x_{i2}-x_{i'2})}{s_1s_2} \right] \]

Donde:

  • \(\frac{(x_{i1}-x_{i'1})^2}{s_1^2}\) y \(\frac{(x_{i2}-x_{i'2})^2}{s_2^2}\) son las distancias euclidianas estandarizadas entre los dos puntos.
  • \(r_{12}\) es el coeficiente de correlación entre \(X_1\) y \(X_2\).
  • \(s_1\) y \(s_2\) son las desviaciones estándar de cada variable.

Interpretación de la distancia de Mahalanobis

La distancia de Mahalanobis ajusta la métrica de cercanía basándose en la estructura de covarianza de los datos. Su comportamiento depende críticamente del coeficiente de correlación \(r_{12}\):

  • Cuando \(r_{12} \to 0\): Las variables son aproximadamente incorrelacionadas. En este caso, la distancia de Mahalanobis se reduce esencialmente a una suma de distancias euclidianas estandarizadas.
  • Cuando \(r_{12} \to 1\): Las variables están fuertemente correlacionadas de forma positiva. Las diferencias que siguen la dirección común de variación aportan poco a la distancia, mientras que las desviaciones ortogonales (que rompen la tendencia) se amplifican significativamente.
  • Cuando \(r_{12} \to -1\): Existe una correlación negativa fuerte. Las diferencias opuestas entre \(X_1\) y \(X_2\) se penalizan menos, mientras que cualquier discrepancia que se aleje de esa relación lineal incrementa drásticamente la distancia.

Efecto de la Correlación en la Distancia de Mahalanobis

Elipses de distancia para tres niveles de correlación (\(r\)).

Note

Observe cómo la elipse se “estira” y cambia de orientación, lo que redefine qué puntos se consideran “cercanos” al centro.

Distancia de Mahalanobis

  • Distancia a la media multivariada La distancia de Mahalanobis de la observación \(i\) al centro de los datos se obtiene reemplazando \(x_{i^\prime}\) por el vector de medias: \[\bar{\mathbf{x}} = (\bar{x}_1, \bar{x}_2)\] Esto permite cuantificar la separación de cada individuo respecto a la estructura global de las variables.

Distancia de Mahalanobis

  • Estimación de las varianzas Para cada variable se utiliza usualmente el estimador insesgado: \[s_j^2 = \frac{1}{n-1} \sum_{i=1}^n (x_{ij}-\bar{x}_j)^2, \qquad j=1,2\] En contextos poblacionales o para tamaños muestrales grandes puede emplearse el denominador \(n\), ya que la diferencia entre \(n\) y \(n-1\) resulta despreciable.

Caso particular: dos observaciones y dos variables

  • Matriz de datos reducida Cuando solo se dispone de dos observaciones, la matriz de datos toma la forma: \[\begin{bmatrix} x_{11} & x_{12} \\ x_{21} & x_{22} \end{bmatrix}\]

  • Varianzas como sumas de cuadrados Dado que \(n=2\), las varianzas se simplifican a: \[s_j^2 = \sum_{i=1}^2 (x_{ij}-\bar{x}_j)^2, \qquad j=1,2\]

Note

Este caso es fundamentalmente ilustrativo y tiene escaso interés práctico, debido a la inestabilidad inherente a trabajar con un número extremadamente pequeño de observaciones.

Distancia de Mahalanobis: Análisis de Proximidad

En R se usa el mismo paquete distances agregando el argumento normalize = "mahalanobize"

distMah <- distances(Xmat, id_variable = row.names(Xmat), normalize = "mahalanobize")

Obteniendo:

a) Más lejanas (Mahalanobis)
b) Más cercanas (Mahalanobis)
Ciudad A Ciudad B Dist. Ciudad A Ciudad B Dist.
Bogota Riohacha 5.81 Barranquilla Pereira 0.74
Bogota San Andres 5.55 Armenia Tunja 0.74
Riohacha San Andres 5.52 Armenia Pereira 0.65
Riohacha Villavicencio 5.49 Armenia Barranquilla 0.63

Teorema de la Descomposición Espectral

TDE y Componentes Principales

Una matriz simétrica \(B_{p \times p}\) (como \(R\) o \(S\)) se puede reconstruir o factorizar a partir de sus valores y vectores propios:

\[B = U \Lambda U^\prime\]

Donde:

  • \(U\) es una matriz ortogonal cuyas columnas son los vectores propios estandarizados de \(B\).
  • \(\Lambda = \text{diag}\{\lambda_\alpha\}\) con \(\lambda_1 \ge \cdots \ge \lambda_p\) son los valores propios de \(B\) en orden descendente.

TDE y Componentes Principales

Casos particulares:

Caso 1: \(B = R\) (Matriz de correlación)

Es el caso más común. Se descompone como

\[R = U \Lambda U^\prime\]

La multiplicación de cada columna de \(U\) por cada fila de la matriz de datos centrada y estandarizada \(Y\) produce una componente principal.

TDE y Componentes Principales

Casos particulares:

Caso 2: \(B = S\) (Matriz de covarianzas)

Caso menos frecuente:

\[S = U \Lambda U^\prime,\]

donde \(U\) y \(\Lambda\) contienen los vectores y valores propios de \(S\) respectivamente.

Obtención de las Componentes Principales

Tomando la \(j\)-ésima columna de \(U\), denotada por \(u_j^\prime = (u_{1j}, \ldots, u_{pj})^\prime\), la \(j\)-ésima componente principal se obtiene mediante el producto matricial:

\[ Y u_j = \begin{bmatrix} \sum_{k=1}^{p} u_{kj} y_{1k} \\ \vdots \\ \sum_{k=1}^{p} u_{kj} y_{ik} \\ \vdots \\ \sum_{k=1}^{p} u_{kj} y_{nk} \end{bmatrix} = \begin{bmatrix} z_{1j} \\ \vdots \\ z_{ij} \\ \vdots \\ z_{nj} \end{bmatrix}, \quad j = 1, \ldots, p \]

Para \(j=1\), este resultado corresponde a la primera componente principal.

Ejemplo: Ranking ARWU



Aunque en la práctica no se justifica un Análisis de Componentes Principales (ACP) con solo dos variables ya que el coeficiente de correlación y una gráfica de dispersión bastan para representar las relaciones entre ellas, realizaremos un ACP de los rankings regional y mundial con el único objetivo de ilustrar cómo funcionan las componentes y el tipo de información que contienen.

Visualización de Rankings: Regional vs. Mundial

A continuación se presenta la distribución de las instituciones según su posición en los rankings:

library(pacman)
p_load(tidyverse, janitor, FactoMineR)

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
arwu <- read.csv2(paste0(url, "arwu.csv")) 

rownames(arwu) <- arwu$Institution

(g1 <- ggplot(arwu, aes(x = Regional.Rank, y = World.Rank, color = Country, label = Country)) +
  geom_text() +
  theme_bw() +
  labs(title = "Rankings ARWU",
       x = "Ranking Regional",
       y = "Ranking Mundial"))

ACP de los rankings ARWU

Biplot para los rankings regional y mundial. Permite visualizar la dirección de máxima varianza y cómo se agrupan los países en relación con estas nuevas dimensiones.

Ejemplo: Variables de Educación en Ciudades

Visualización de los datos originales comparando la relación alumnos/profesor frente a la tasa de analfabetismo por ciudad.

Ejemplo: Variables de Educación en Ciudades

Visualización de los datos originales comparando la relación alumnos/profesor frente a la tasa de analfabetismo por ciudad.

Componentes Principales

Teorema de la Descomposición en Valores Singulares

TDVS (1)

La descomposición en valores singulares es más general que el TDE, pues no requiere que la matriz sea simétrica, lo que garantiza que también la matriz de datos puede ser descompuesta.

El TDVS garantiza que una matriz \(C_{n \times p}\), con \(n \ge p\) y rango \(r\) (equivalentemente, con \(r\) columnas linealmente independientes, como la matriz de datos \(X\) o la estandarizada \(Y\)), se puede factorizar como:

\[C = U L V^\prime \tag{1}\]

TDVS (2)

Donde los componentes de la factorización \(C = ULV'\) son:

  • \(U_{n \times r}\) y \(V_{p \times r}\) son matrices con columnas ortonormales: \(U^\prime U = V^\prime V = I_r\).
  • \(L_{r \times r} = \mathrm{diag}(\sqrt{\lambda_1}, \ldots, \sqrt{\lambda_r})\), con \(\sqrt{\lambda_1} \ge \cdots \ge \sqrt{\lambda_r} > 0\).
  • \(\sqrt{\lambda_j}\) son los valores singulares de \(C\).
  • \(V_{p \times r} = (v_1, \ldots, v_r)\) contiene en sus columnas los vectores propios de \(C^\prime C\).
  • \(U_{n \times r} = (u_1, \ldots, u_r)\) contiene en sus columnas los vectores propios de \(CC^\prime\).

La equivalencia con los valores propios no nulos de \(CC^\prime\) se establece tomando \[L = \mathrm{diag}(\sqrt{\mu_1}, \ldots, \sqrt{\mu_r}),\] donde \(\mu_\alpha\) es el \(\alpha\)-ésimo valor propio no nulo de \(CC^\prime\).

Reconstrucción a partir del TDVS

Reconstrucción de la matriz de puntajes del ranking ARWU mediante el TDVS

El ejercicio implica los siguientes pasos:

  1. Lectura de los datos y construcción de la matriz \(C \in \mathbb{R}^{n \times p}\).
  2. Cálculo de \(C'C\) y \(CC'\).
  3. Valores y vectores propios de \(C'C\): obtener \(\lambda_\alpha\) y \(V\).
  4. Selección de los valores propios estrictamente positivos; construir la submatriz \(V_r\).
  5. Valores singulares: \(\sigma_\alpha = \sqrt{\lambda_\alpha}\); construir \(L = \mathrm{diag}(\sigma_1, \ldots, \sigma_r)\).
  6. Cálculo de \(U = C V_r L^{-1}\), verificando que \(U'U = I_r\).
  7. Reconstrucción: \(C = U L V_r'\).
  8. Evaluación del error: \(\| C - U L V_r' \|_F \approx 0\).

Ejemplo: Reconstrucción SVD del ARWU

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
arwu_svd <- read.csv2(paste0(url, "ARWU_100_top.csv"))[, -c(2:6)]
rownames(arwu_svd) <- arwu_svd[, 1]
C <- as.matrix(arwu_svd[, -1])

# Descomposición SVD
svd_C <- svd(C)
U <- svd_C$u
L <- diag(svd_C$d)
V <- svd_C$v

# Reconstrucción completa y error
C_rec <- U %*% L %*% t(V)
error_total <- norm(C - C_rec, type = "F")

r_max <- ncol(C)
errores <- sapply(1:r_max, function(r) {
  C_r <- svd_C$u[, 1:r, drop = FALSE] %*%
         diag(svd_C$d[1:r], r, r) %*%
         t(svd_C$v[, 1:r, drop = FALSE])
  norm(C - C_r, type = "F")
})

Ejemplo: Reconstrucción SVD del ARWU

Laboratorio

Laboratorio 1

Con los datos del ARWU_100_top.csv elaborar un diagrama de barras que muestre las primeras 20 universidades según World Rank, con barras de la altura del indicador de

  • Grupo_1: número de premios Nobel o medallas Field obtenidos por sus docentes (Award)
  • Grupo_2: número de premios Nobel o medallasFields obtenidos por sus egresados (Alumni)
  • Grupo_3: número de investigadores altamente citados (HiCi)
  • Grupo_4: número publicaciones en las revistas Science o Nature (N.S)
  • Grupo_5: número de artículos altamente citados (PUB)
  • Grupo_6: desempeño per cápita de su personal académico (PCP)

¿Hay universidades que se distinguen por el indicador que le correspondió al grupo?, ¿Cuáles?

Laboratorio 2

Utilizar los datos del archivo r14_Sci_Qs_Webometrics.csv para elaborar gráficos de dispersión de

  • Grupo_1: del SC.Lac.Ranking con QS.Ranking
  • Grupo_2: del SC.Lac.Ranking con SC.Ibe.Ranking
  • Grupo_3: del SC.Lac.Ranking con WEB.Ranking.LA
  • Grupo_4: del QS.Ranking con SC.Ibe.Ranking
  • Grupo_5: del QS.Ranking con WEB.Ranking.LA
  • Grupo_6: del QS.Ranking con WEB.Ranking.mundial

¿Hay inconsistencias en las posiciones de las universidades entre los rankings que se compararon?
Usar como referencia el ejemplo 2.4.2

Laboratorio 3

Con los datos del ARWU_100_top.csv elaborar una matriz de dispersión con

  • Grupo_1: Los criterios del Scimago incluyendo el SC.Lac.Ranking
  • Grupo_2: Los criterios del QS incluyendo el QS.Ranking
  • Grupo_3: Los criterios del Scimago incluyendo el QS.Ranking
  • Grupo_4: Los criterios del QS incluyendo el SC.Lac.Ranking
  • Grupo_5: Los criterios del Scimago incluyendo el WEB.Ranking.LA
  • Grupo_6: Los criterios del QS incluyendo el WEB.Ranking.LA

¿Se puede intuir algún tipo de asociación entre los criterios y el tipo de ranking que se incluyó en la matriz de dispersión? Usar como referencia la gráfica 2.10

Laboratorio 4

Con los datos del archivo datos_ciudades.xlsx elaborar diagramas de cajas (Boxplots) para visualizar si hay datos atípicos en las variables

  • Grupo_1: Ciencia y Tecnología C&T
  • Grupo_2: Infraestructura INFRA
  • Grupo_3: Finanzas FIN
  • Grupo_4: Gestión productividad GOB
  • Grupo_5: Crecimiento FOR
  • Grupo_6: Internacionalización INT

Laboratorio 5

Utilizar el archivo datos_ciudades.xlsx para calcular los cuantiles \(Q_{.25}\) y \(Q_{.75}\) para corroborar si hay observaciones atípicas en las variables del conjunto que le correspondió al grupo.

Laboratorio 6

Calcular la matriz de correlación entre las variables del conjunto que le correspondió al grupo en el ejercicio 5 y escoger las dos variables que tienen mayor correlación. Calcular la distancia euclidiana entre San Andrés y Riohacha con respecto a estas dos variables y luego calcular la distancia de Mahalanobis entre las mismas ciudades respecto a las mismas dos variables. Para el cálculo de la distancia de Mahalanobis utilizar la matriz de covarianzas de las dos variables con todas las ciudades.

  1. ¿Son las dos distancias igual?

  2. ¿A qué se puede atribuir la diferencia si la hay?

Laboratorio 7

Utilizar los datos del archivo datos_ciudades.xlsx y los mismos grupos de variables asignados en el ejercicio de datos atípicos, junto con la subtabla de indicadores de Recursos Humanos del mismo archivo de ciudades, para conformar una nueva tabla que contenga los dos conjuntos de variables.

  1. Calcular el vector de medias de todas las variables del conjunto asignado al grupo.
  2. Calcular la matriz de datos centrados \(\tilde{X}\).
  3. Calcular la matriz de covarianzas a partir de la matriz de datos centrados: \(S = \frac{1}{n}\tilde{X}'\tilde{X}\).

Laboratorio 8

  1. Calcular la matriz de covarianzas con el comando cov() de R. ¿Coincide con la obtenida en el punto 3? ¿Por qué?

  2. Calcular la matriz \(Y\) de datos centrados estandarizados a partir del vector de medias y las desviaciones estándar del punto 1.

  3. Calcular la matriz de correlación a partir de \(\frac{1}{n}Y'Y\). Calcular también la matriz de correlación con el comando cor() de R. ¿Coinciden? ¿Por qué?

Laboratorio 9

  1. Calcular la matriz de covarianzas \(S\) e identificar las dos variables con mayor covarianza y las dos con menor covarianza.

  2. Calcular la matriz de correlación \(R\) e identificar las dos variables con mayor correlación y las dos con menor correlación. ¿Son las mismas que las identificadas en el punto 7?

  3. Calcular el producto \(\frac{1}{n}Y'Y\) y verificar que coincide exactamente con la matriz \(R\) obtenida en el punto 8. ¿Por qué?

Laboratorio 10

  1. Comprobar que la matriz de covarianzas se obtiene con \(\frac{1}{n}\tilde{X}'\tilde{X}\).

  2. Comprobar que la matriz de correlación se obtiene con \(\frac{1}{n}Y'Y\).

  3. Construir una matriz de datos con los puntajes en los seis criterios del ranking ARWU para las universidades del grupo asignado y comprobar que con el TDVS se puede reconstruir.

Grupo Universidades
Grupo 1 Puestos 91 a 100
Grupo 2 Puestos 81 a 90
Grupo 3 Puestos 71 a 80
Grupo 4 Puestos 61 a 70
Grupo 5 Puestos 51 a 60
Grupo 6 Puestos 41 a 50

Laboratorio complementario


Como preparación para el examen, se recomienda resolver el siguiente laboratorio:


Laboratorio

GRACIAS!

Citación y derechos de autor

Este material ha sido creado por Jimmy Corzo y Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.

Cualquier copia parcial o total de este material, debe citar la fuente como:

Corzo J., & Babativa-Márquez, J.G. Diapositivas del curso de estadística descriptiva multivariada. URL: https://jgbabativam.github.io/Curso_Multivariado/