Estadística Descriptiva Multivariada

Medidas Descriptivas Multivariadas

Jimmy A Corzo S, PhD

jacorzos@unal.edu.co

Giovany Babativa-Márquez, PhD

jgbabativam@unal.edu.co

Medidas descriptivas multivariadas

Contenido

Observaciones multivariadas
Datos: tabla, vector de medias, matrices de covarianzas y correlación
Combinaciones lineales (Ejemplo: ARWU)
Componentes Principales
Teorema de la Descomposición Espectral (TDE)
Teorema de la Descomposición en Valores Singulares (TDVS)
Datos atípicos: Distancia de Mahalanobis
Distancias entre observaciones multivariadas
Laboratorio

Observaciones multivariadas

En el contexto multivariado, en lugar de una, se observan \(p\) variables \(X_1,\ldots,X_p\) simultáneamente sobre el mismo objeto \(i\) (ciudad, universidad, persona, etc.), y por tanto una observación para el objeto \(i\) es un vector de \(p\) componentes:

\[x_i = \left(x_{i1},\ldots,x_{ij},\ldots,x_{ip}\right)^\prime,\]

donde \(x_{ij}\) es la observación de la variable \(j\) sobre el objeto \(i\).

Datos

Tabla de datos

Para \(n\) objetos, las observaciones se arreglan en una tabla de datos como la siguiente:

Objeto	\(X_1\)	\(X_2\)	\(\cdots\)	\(X_p\)
1	\(x_{11}\)	\(x_{12}\)	\(\cdots\)	\(x_{1p}\)
\(\vdots\)	\(\vdots\)	\(\vdots\)	\(\cdots\)	\(\vdots\)
\(\vdots\)	\(\vdots\)	\(x_{ij}\)	\(\ddots\)	\(\vdots\)
\(\vdots\)	\(\vdots\)	\(\vdots\)	\(\cdots\)	\(\vdots\)
n	\(x_{n1}\)	\(x_{n2}\)	\(\cdots\)	\(x_{np}\)

Media, Varianza y Correlación

\[ \begin{aligned} \bar{x}_j &= \frac{1}{n} \sum_{i=1}^{n} x_{ij} && \text{media de } X_j \\ s_j^2 &= \frac{1}{n} \sum_{i=1}^{n} (x_{ij}-\bar{x}_j)^2 && \text{varianza de } X_j \\ s_{jk} &= \frac{1}{n} \sum_{i=1}^{n} (x_{ij}-\bar{x}_j)(x_{ik}-\bar{x}_k) && \text{covarianza} \\ r_{jk} &= \frac{s_{jk}}{s_j s_k} && \text{correlación} \end{aligned} \]

Nótese que para el cálculo de la varianza se utilizó como denominador n, debido a que en datos multivariados se considera suficientemente grande como para que s² siga siendo un estimador insesgado de la varianza poblacional.

Tabla vs. Matriz

Tabla: Para referirse a los datos con nombres en filas y columnas.
Matriz: Para utilizar las propiedades algebraicas de la tabla.

\[X = \{x_{ij}\} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix}\]

Se asume que \(n \ge p\).

Columna de la tabla de datos

En esta matriz, la columna \(j\) representa las observaciones de la variable \(X_j\) sobre los \(n\) objetos y se denota como un vector columna:

\[X_{\cdot j} = \begin{bmatrix} x_{1j} \\ x_{2j} \\ \vdots \\ x_{nj} \end{bmatrix}, \quad j=1,\ldots,p\]

Fila de la tabla de datos

Análogamente, la fila \(i\), o el punto objeto \(i\), representa las observaciones de las \(p\) variables sobre el objeto \(i\) que se denota como un vector columna:

\[ x_{i \cdot} = (x_{i1}, \ldots, x_{ip})' = \begin{bmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{ip} \end{bmatrix}, \quad i=1,\ldots,n. \]

Vector de medias

El vector de medias contiene los promedios de cada una de las \(p\) variables:

\[\bar{x} = \begin{bmatrix} \bar{x}_1 \\ \bar{x}_2 \\ \vdots \\ \bar{x}_p \end{bmatrix}\]

Ejemplo: Ciudades Colombianas

library(pacman)
p_load(tidyverse, janitor, corrplot, gt)

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
ciudades <- read.csv2(paste0(url, "ciudades.csv"), sep=";") |> clean_names()

ciudades	num_hab	analfabetismo	cobertura_pria_y_secdaria	cobertura_ed_sup	rel_al_prof
Armenia	284120	0.0880	1.095	0.266	22.4
Barranquilla	1163007	0.0922	1.083	0.306	22.5
Bogota	7050228	0.0973	0.999	0.538	22.6
Bucaramanga	520080	0.0760	1.192	0.326	22.2
Cali	2169801	0.0831	1.019	0.223	22.0
Cartagena	912674	0.1213	1.207	0.147	24.4
Cucuta	600049	0.1133	1.147	0.217	22.4
Ibague	509796	0.1073	0.983	0.181	23.4
Manizales	383483	0.0769	1.143	0.230	22.2
Medellin	2264776	0.1256	1.219	0.300	26.3
Monteria	390996	0.1587	1.109	0.151	26.1
Neiva	322098	0.1131	1.100	0.179	23.3
Pasto	394074	0.1115	1.052	0.128	21.8
Pereira	448971	0.1007	1.124	0.283	22.6
Popayan	261694	0.0915	1.135	0.163	21.5
Riohacha	184847	0.2713	1.000	0.152	26.1
San Andres	66675	0.0772	0.803	0.107	20.4
Santa Marta	428374	0.1244	1.005	0.116	22.9
Sincelejo	245180	0.1612	1.228	0.107	24.9
Tunja	161209	0.1023	1.036	0.245	22.1
Valledupar	373872	0.1587	1.017	0.147	24.5
Villavicencio	400475	0.1017	1.193	0.174	25.4

Fila de la tabla de datos

La fila 5 de la Tabla es la observación de las cinco variables para la ciudad de Cali (objeto 5):

\[x_{5}=(2169801, 0.08, 1.02, 0.22, 22)^\prime= \begin{bmatrix} 2168901 \\ 0.08 \\ 1.02 \\ 0.22 \\ 22 \end{bmatrix}\]

Columna de la tabla de datos

La variable \(X_4\) (Cobertura en educación superior) es la columna:

\[X_4= \begin{bmatrix} 0.27 \\ 0.31 \\ \vdots \\ 0.15 \\ 0.17 \end{bmatrix}\]

Vector de medias o centroide

Vector de medias o centroide

\[ \text{med}(X) = \bar{x}= \frac{1}{n} \mathbf{1_n}^\prime X = \begin{bmatrix} \bar{x}_1\\ \bar{x}_2\\ \vdots\\ \bar{x}_p \end{bmatrix}, \quad \text{donde} \quad \mathbf{1_n} = \begin{bmatrix} 1\\ 1\\ \vdots\\ 1 \end{bmatrix} \]

Ejemplo: Vector de medias

(med <- round(colMeans(ciudades[, 2:6]), 2))

                  num_hab             analfabetismo cobertura_pria_y_secdaria 
                888021.77                      0.12                      1.09 
         cobertura_ed_sup               rel_al_prof 
                     0.21                     23.27

El vector de medias de las variables de la tabla de ciudades expresado como un vector es: \(\bar{x}^\prime = (888021.77, 0.12, 1.09, 0.21, 23.27)^\prime\):

Matriz de datos centrados

\[\tilde{X} = X - \mathbf{1}_n \, \bar{x}' = \begin{bmatrix} x_{11}-\bar{x}_1 & x_{12}-\bar{x}_2 & \cdots & x_{1p}-\bar{x}_p \\ x_{21}-\bar{x}_1 & x_{22}-\bar{x}_2 & \cdots & x_{2p}-\bar{x}_p \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}-\bar{x}_1 & x_{n2}-\bar{x}_2 & \cdots & x_{np}-\bar{x}_p \end{bmatrix}, \{\tilde{x}_{ij}\} = \{x_{ij} - \bar{x}_j\} \] Oberve que:

\[\operatorname{med}(\tilde{X}) = \frac{1}{n}\,\tilde{X}^{\prime}\mathbf{1}_n = \left( \frac{1}{n}X^{\prime}\mathbf{1}_n - \frac{1}{n}\bar{x}^{\prime}\mathbf{1}_n^{\prime}\mathbf{1}_n \right) = 0\]

Matriz de datos centrados

Se puede comprobar fácilmente que todas las variables tienen media cero:

Xtil <- ciudades |> 
        column_to_rownames("ciudades") |> 
        mutate(across(where(is.numeric), ~ . - mean(.)))

ciudades	num_hab	analfabetismo	cobertura_pria_y_secdaria	cobertura_ed_sup	rel_al_prof
Armenia	-603901.77	-0.028059091	0.009136364	0.053	-0.87272727
Barranquilla	274985.23	-0.023859091	-0.002863636	0.093	-0.77272727
Bogota	6162206.23	-0.018759091	-0.086863636	0.325	-0.67272727
Bucaramanga	-367941.77	-0.040059091	0.106136364	0.113	-1.07272727
Cali	1281779.23	-0.032959091	-0.066863636	0.010	-1.27272727
Cartagena	24652.23	0.005240909	0.121136364	-0.066	1.12727273
Cucuta	-287972.77	-0.002759091	0.061136364	0.004	-0.87272727
Ibague	-378225.77	-0.008759091	-0.102863636	-0.032	0.12727273
Manizales	-504538.77	-0.039159091	0.057136364	0.017	-1.07272727
Medellin	1376754.23	0.009540909	0.133136364	0.087	3.02727273
Monteria	-497025.77	0.042640909	0.023136364	-0.062	2.82727273
Neiva	-565923.77	-0.002959091	0.014136364	-0.034	0.02727273
Pasto	-493947.77	-0.004559091	-0.033863636	-0.085	-1.47272727
Pereira	-439050.77	-0.015359091	0.038136364	0.070	-0.67272727
Popayan	-626327.77	-0.024559091	0.049136364	-0.050	-1.77272727
Riohacha	-703174.77	0.155240909	-0.085863636	-0.061	2.82727273
San Andres	-821346.77	-0.038859091	-0.282863636	-0.106	-2.87272727
Santa Marta	-459647.77	0.008340909	-0.080863636	-0.097	-0.37272727
Sincelejo	-642841.77	0.045140909	0.142136364	-0.106	1.62727273
Tunja	-726812.77	-0.013759091	-0.049863636	0.032	-1.17272727
Valledupar	-514149.77	0.042640909	-0.068863636	-0.066	1.22727273
Villavicencio	-487546.77	-0.014359091	0.107136364	-0.039	2.12727273

Matriz de covarianzas

La matriz de covarianzas se define a partir de la matriz de datos centrados \(\tilde{X}\):

\[ S = \frac{1}{n} \tilde{X}^\prime \tilde{X} = \left[ \begin{array}{cccc} s_1^2 & s_{12} & \cdots & s_{1p} \\ s_{21} & s_2^2 & \cdots & s_{2p} \\ \vdots & \vdots & \vdots & \vdots \\ s_{p1} & s_{p2} & \cdots & s_p^2 \end{array} \right], \quad s_j^2 = s_{jj} \]

Otras medidas de variabilidad multivariada

Varianza generalizada: definida como el determinante de la matriz de covarianzas \(|S|\).
Varianza total: definida como \(traza(S)\).

Estas medidas se pueden expresar en términos de los valores propios de \(S\), los cuales, como se verá más adelante, representan las varianzas de las componentes principales (factores).

Ejemplo: Matriz de covarianzas

A continuación se presenta la matriz de covarianzas calculada para las variables del conjunto de datos de ciudades:

(mat_cov <- round(var(ciudades[, 2:6]), 2))

	num_hab	analfabetismo	cobertura_pria_y_secdaria	cobertura_ed_sup	rel_al_prof
num_hab	2.228013e+12	-9797.73	-13331.06	116811.81	-34962.92
analfabetismo	-9.797730e+03	0.00	0.00	0.00	0.05
cobertura_pria_y_secdaria	-1.333106e+04	0.00	0.01	0.00	0.07
cobertura_ed_sup	1.168118e+05	0.00	0.00	0.01	-0.02
rel_al_prof	-3.496292e+04	0.05	0.07	-0.02	2.72

Matriz de datos centrados y estandarizados

Contiene las observaciones centradas y estandarizadas: \(y_{ij} = \frac{x_{ij}- \bar{x}_j}{s_j}\)

\[ \tilde{Y} = \left\{\tilde{y}_{ij} \right\} = \left[ \begin{array}{cccc} \frac{x_{11}-\bar{x}_1}{s_1} & \frac{x_{12}-\bar{x}_2}{s_2} & \cdots &\frac{x_{1p}-\bar{x}_p}{s_p} \\ \frac{x_{21}-\bar{x}_1}{s_1} & \frac{x_{22}-\bar{x}_2}{s_2} & \cdots &\frac{x_{2p}-\bar{x}_p}{s_p}\\ \vdots & \vdots & \vdots & \vdots \\ \frac{x_{n1}-\bar{x}_1}{s_1} & \frac{x_{n2}-\bar{x}_2}{s_2} & \cdots& \frac{x_{np}-\bar{x}_p}{s_p} \end{array} \right] \]

De esta manera \(\bar{Y_j} = 0\) y \(Var(Y_j) = 1\).

Propiedades

La matriz de datos centrados estandarizados se obtiene al estandarizar la matriz de datos centrados \(\tilde{X}\):

\[ \tilde{Y} = \tilde{X} D^{-1/2}, \qquad D = \operatorname{diag}\{s_j^2\}, \qquad D^{-1/2} = \operatorname{diag}\!\left(\frac{1}{s_j}\right). \]

El vector de medias de \(\tilde{Y}\) es nulo:

\[ \operatorname{med}(\tilde{Y}) = \tilde{Y}^{\prime}\mathbf{1}_n = D^{-1/2}\tilde{X}^{\prime}\mathbf{1}_n = D^{-1/2}\cdot 0 = 0. \]

Matriz de correlación

Es una matriz simétrica que contiene unos en la diagonal, correspondientes a las correlaciones de cada variable consigo misma y por fuera de la diagonal aparecen las correlaciones \(r_{ij}\) entre pares de variables. Se define como

\[R = D^{-1/2}\, S \, D^{-1/2}\]

Matriz de correlación

También se obtiene a partir de la matriz de datos centrados estandarizados así:

\[ R = \frac{1}{n} \tilde{Y}^\prime \tilde{Y} = \left[ \begin{array}{cccc} 1 & r_{12} & \cdots & r_{1p} \\ r_{21} & 1 & \cdots & r_{2p} \\ \vdots & \vdots & \vdots & \vdots \\ r_{p1} & r_{p2} & \cdots & 1 \end{array} \right], \quad r_{ij} = \frac{s_{ij}}{s_i s_j} \]

Matricialmente:

\[ R = D^{-1/2} S D^{-1/2} \] Nótese que la matriz de covarianzas de \(\tilde{Y}\) es también \(R\), puesto que

\[ S_{\tilde{Y}} = \frac{1}{n}\,\tilde{Y}^{\top}\tilde{Y} = \frac{1}{n}\,D^{-1/2}\tilde{X}^{\top}\tilde{X}\,D^{-1/2} = D^{-1/2} S D^{-1/2} = R. \]

Ejemplo: Matriz de correlación

Matriz de correlación entre las variables del archivo de ciudades:

Matriz
Gráfico

(mat_cor <- round(cor(ciudades[, 2:6]), 2))

	num_hab	analfabetismo	cobertura_pria_y_secdaria	cobertura_ed_sup	rel_al_prof
num_hab	1.00	-0.15	-0.09	0.79	-0.01
analfabetismo	-0.15	1.00	-0.01	-0.34	0.71
cobertura_pria_y_secdaria	-0.09	-0.01	1.00	0.09	0.42
cobertura_ed_sup	0.79	-0.34	0.09	1.00	-0.15
rel_al_prof	-0.01	0.71	0.42	-0.15	1.00

corrplot(mat_cor, method = "color",  type = "upper",  addCoef.col = "black", tl.col = "black", tl.srt = 45, col = colorRampPalette(c("#2c7bb6", "white", "#d7191c"))(200), diag = FALSE, number.cex = 0.8)

Matriz de datos centrados, estandarizados y normados

Sea \(Y\) la matriz de datos centrados, estandarizados y normados

\[ Y = \frac{1}{\sqrt{n}}\,\tilde{Y} = \frac{1}{\sqrt{n}}\,\tilde{X}\,D^{-1/2} \]

Esta matriz también está centrada puesto que

\[ \mathrm{med}(Y) = \frac{1}{\sqrt{n}}\,\mathrm{med}(\tilde{Y}) = 0. \]

Al estar autoponderada por \(\sqrt{\frac{1}{n}}\), se produce:

\[ S_Y = Y^{\top}Y = \frac{1}{n}\,\tilde{Y}^{\top}\tilde{Y} = R. \]

Varianza total

La varianza total es un indicador de la variabilidad global de una matriz de datos.

Se define como la suma de las varianzas de las variables:

\[ V_T = \sum_{j=1}^{p} s_j^2 \]

donde \(s_j^2\) es la varianza de la variable \(X_j\).

En particular, para las matrices de datos centrados y estandarizados se tiene

\[ S_{\tilde{Y}} = S_Y = R \]

donde \(R\) es la matriz de correlaciones.

Como la diagonal de \(R\) está compuesta por unos, se obtiene

\[ V_T(\tilde{Y}) = V_T(Y) = \operatorname{tr}(R) = p. \]

Combinaciones lineales

Definición de Combinación Lineal

Una combinación lineal es una suma ponderada de los valores de una variable observada en varios objetos. Algunos ejemplos fundamentales son:

La media: Es la suma de los valores de la variable ponderados por \(1/n\).
La varianza: Es la suma de los desvíos de los valores de la variable respecto a la media \((x_i - \bar{x})^2\) ponderados por \(1/n\).

Combinaciones lineales de múltiples variables

También se define como combinación lineal a la suma ponderada de los valores de varias variables observadas en un mismo objeto. Por ejemplo:

Rankings de universidades.
Índice de Pobreza Multidimensional: combinación lineal de indicadores de vivienda, servicios básicos, estándar de vida, educación, empleo y protección social.
Índice de Desarrollo Humano (IDH): pondera indicadores de dimensiones como esperanza de vida, educación y riqueza.
Índices económicos y financieros: utilizados para describir y comparar cantidades de diferente naturaleza.

Utilidad en Estadística Multivariada

Las combinaciones lineales son herramientas esenciales en el análisis de datos multivariados.

Un caso destacado son las Componentes Principales, las cuales:

Son combinaciones lineales de los valores de las variables cuyas ponderaciones se construyen para que contengan la mayor cantidad posible de la varianza de las variables originales.

Combinación lineal de los valores de una variable en \(n\) objetos

Sea \(X_{\cdot j}\) la j-ésima columna de la matriz de datos. Se define la combinación de los \(n\) valores de la variable \(j\) con constantes de ponderación \(a' = (a_1, \ldots, a_n)'\) por:

\[X^{\star}_j = a' X_{\cdot j} = \sum_{i=1}^{n} a_i x_{ij}, \qquad j = 1, \ldots, p.\]

Ejemplo: El promedio

En particular, el promedio de la variable \(j\) es una combinación lineal con constantes de ponderación \(p^\prime = (\frac{1}{n}, \ldots, \frac{1}{n})\):

\[ \bar{x}_j = p^\prime X_{\cdot j} = \sum_{i=1}^n \frac{1}{n} x_{ij}\]

Combinación lineal de \(p\) variables sobre un mismo objeto

Para el objeto \(i\) de la matriz de datos, cuyas observaciones están en la fila \(x_i^\prime = (x_{i1}, \ldots, x_{ip})^\prime\), se define la combinación lineal de los valores de las \(p\) variables con ponderaciones \(b^\prime = (b_1, \ldots, b_p)\) como:

\[ z_i = b^\prime x_{i \cdot} = \sum_{j=1}^p b_j x_{ij}, \quad i=1,\ldots,n\]

Nota importante

Este tipo de combinaciones lineales solo tienen sentido si las variables están estandarizadas, o cuando todas vienen medidas en las mismas escalas.

Ejemplo: Academic Rank of World Universities (ARWU)

Uno de los más exigentes rankings del mundo es el Academic Rank of World Universities (ARWU), que utiliza los siguientes seis criterios de actividad académica e investigativa (entre paréntesis las ponderaciones):

Score on Alumni (\(X_1\)): Premios Nobel de exalumnos (10%).
Score on Award (\(X_2\)): Premios Nobel de docentes de la universidad (20%).
Score on HiCi (\(X_3\)): Artículos altamente citados en 21 categorías temáticas (20%).
Score on N&S (\(X_4\)): Artículos publicados en las revistas Nature y Science (20%).
Score on PUB (\(X_5\)): Artículos indexados en Science Citation Index-Expanded o Social Science Citation Index (20%).
Score on PCP (\(X_6\)): Productividad per cápita de los docentes de la universidad (10%).

Puntajes de las universidades

library(pacman)
p_load(tidyverse, janitor)

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
arwu <- read.csv2(paste0(url, "ARWU_100_top.csv")) |> clean_names()

institution	Alumni	Award	HiCi	N.S	PUB	PCP	Total
Harvard	100.0	100.0	100.0	100.0	100.0	69.2	100.0
California, Berkeley	67.6	79.3	69.0	70.9	70.6	54.2	72.4
Stanford	40.2	78.4	87.6	68.4	69.7	50.1	72.1
MIT	70.5	80.3	66.8	70.1	61.4	64.5	71.4
Cambridge	88.5	92.6	53.9	54.3	65.7	53.1	69.6
California I of Tech	50.3	68.8	56.7	64.8	46.9	100.0	64.4
Princeton	56.4	84.8	61.1	43.3	44.3	65.5	60.8
Columbia	70.7	67.4	56.2	47.6	69.9	32.1	60.4
Chicago	65.5	83.9	50.9	39.8	50.5	40.0	57.3
Oxford	56.2	57.6	48.8	49.8	68.5	41.1	56.4
Yale	48.6	44.9	58.5	56.3	62.0	37.0	54.6
Cornell	42.3	51.1	54.3	49.9	59.5	38.1	52.6
California, Los Angeles	27.2	42.6	56.9	49.2	75.1	31.2	52.2
California, San Diego	15.1	35.8	60.2	54.6	65.1	37.9	50.0
Pennsylvania	32.9	34.3	57.1	46.9	68.6	28.5	49.0
Washington	24.4	31.7	53.9	51.6	72.5	28.1	48.7
Wisconsin - Madison	36.5	35.4	51.9	40.2	66.1	25.7	46.4
The Johns Hopkins	43.6	32.1	42.0	49.4	64.0	27.2	46.0
California, San Francisco	0.0	40.1	53.4	51.8	60.7	33.6	46.0
The of Tokyo	33.3	14.1	42.0	52.0	80.4	34.5	45.9
College London	32.9	32.1	39.4	44.6	67.0	31.6	44.4
Michigan - Ann Arbor	36.5	0.0	59.8	43.4	79.8	26.3	44.2
Swiss Federal Institute of Technology Zurich	34.1	36.1	36.3	43.6	53.6	47.1	43.4
Kyoto	33.7	34.7	38.1	36.0	67.6	31.0	43.1
Illinois at Urbana-Champaign	35.4	36.5	42.6	37.1	58.6	27.8	42.6
The Imperial College of Science, Technology and Medicine	17.7	37.2	41.4	36.9	62.3	33.0	41.9
Toronto	23.8	19.2	38.8	38.3	80.3	27.9	41.8
Minnesota, Twin Cities	30.6	16.2	50.4	36.1	66.6	23.9	40.6
Northwestern	18.5	18.9	48.3	35.9	59.7	28.4	38.4
Washington in St. Louis	21.3	25.9	38.8	41.0	54.8	26.7	38.1
New York	32.4	24.4	40.7	36.2	54.4	22.4	37.8
California, Santa Barbara	16.0	35.1	42.0	33.3	42.6	37.3	37.1
Colorado at Boulder	14.1	30.7	38.8	41.7	44.7	33.5	37.1
Rockefeller	19.2	58.4	28.8	42.3	21.0	35.6	36.7
Duke	17.7	0.0	45.8	42.2	62.0	24.4	35.3
British Columbia	17.7	18.9	32.2	30.8	65.7	23.7	34.7
Maryland, College Park	22.0	19.9	41.4	29.0	53.6	26.2	34.7
The of Texas at Austin	18.5	16.6	46.1	28.4	54.4	24.7	34.5
Pierre and Marie Curie - Paris 6	34.8	23.5	24.9	28.8	59.9	21.9	34.2
Copenhagen	26.1	24.1	26.0	26.0	56.4	32.3	33.4
North Carolina at Chapel Hill	10.7	16.2	39.4	27.7	60.6	23.9	33.3
Karolinska Institute	26.1	27.2	31.4	20.5	49.9	38.1	33.2
Pennsylvania State - Park	11.9	0.0	46.6	37.4	56.1	23.2	32.6
The of Manchester	23.2	18.9	27.9	28.0	59.1	23.1	32.4
Paris Sud (Paris 11)	31.7	46.0	12.5	20.8	49.9	23.6	32.3
California, Davis	0.0	0.0	47.2	31.7	63.0	26.0	32.0
California, Irvine	0.0	29.3	36.7	26.3	49.3	26.9	32.0
Southern California	0.0	26.7	38.8	26.3	53.1	20.0	32.0
The of Texas Southwestern Medical Center at Dallas	20.6	33.1	30.5	29.9	38.4	23.5	31.8
Utrecht	26.1	20.9	27.9	30.4	48.2	26.1	31.7
Zurich	10.7	26.7	26.4	28.7	50.6	27.0	31.2
Munich	31.5	22.8	16.1	26.3	54.5	30.7	31.1
Vanderbilt	17.7	29.5	31.4	20.2	50.8	19.1	31.0
Rutgers, The State New Jersey - New Brunswick	13.1	19.9	40.1	27.9	43.7	23.2	30.9
The of Edinburgh	19.2	16.6	26.0	34.2	51.3	23.9	30.9
Technical Munich	39.2	23.5	24.9	19.5	46.5	29.2	30.7
Pittsburgh	21.3	0.0	42.0	23.4	63.1	19.0	30.7
Carnegie Mellon	32.9	32.7	30.5	15.2	34.2	34.3	30.2
The Australian National	15.1	12.6	36.0	27.8	43.8	31.1	29.6
The Ohio State - Columbus	15.1	0.0	41.7	22.8	62.0	19.1	29.6
McGill	31.1	0.0	32.2	22.9	59.6	25.3	29.5
Melbourne	19.9	14.1	22.8	18.7	63.1	27.0	29.3
King's College London	14.1	23.0	31.4	16.7	50.7	25.0	29.1
Heidelberg	16.9	27.0	17.6	23.0	50.6	28.6	29.1
Brown	16.0	13.6	31.4	29.6	41.9	32.1	29.0
Bristol	9.2	17.8	28.8	29.1	47.3	25.1	28.9
Uppsala	22.0	32.1	14.4	19.9	49.5	26.6	28.9
Florida	19.2	0.0	36.7	20.6	63.9	17.5	28.8
Purdue - West Lafayette	16.0	16.6	29.7	22.4	51.8	20.6	28.6
Leiden	21.3	15.4	27.9	19.9	47.8	32.4	28.4
Ecole Normale Superieure - Paris	50.8	24.4	12.5	18.7	27.9	56.7	28.3
The Hebrew of Jerusalem	31.5	19.9	24.9	20.8	41.6	26.5	28.1
Helsinki	16.0	17.8	22.8	20.6	52.7	28.2	28.1
Moscow State	46.8	34.1	0.0	9.6	52.4	31.2	27.9
Osaka	10.7	0.0	26.9	27.9	60.2	27.8	27.7
Oslo	22.0	33.3	17.6	13.5	46.6	24.3	27.7
Boston	13.1	11.5	29.7	24.7	50.0	19.3	27.3
Arizona	0.0	0.0	29.7	37.5	52.1	21.6	26.8
Stockholm	25.0	29.5	16.1	20.4	37.5	24.2	26.4
Nagoya	24.4	14.1	16.1	24.3	48.1	26.1	26.4
Arizona State - Tempe	0.0	19.9	24.9	26.9	44.3	21.1	26.1
Rochester	0.0	11.5	30.5	27.0	46.6	19.2	25.8
Utah	28.2	8.9	26.9	20.6	43.3	21.9	25.8
Tohoku	16.0	0.0	21.6	20.8	60.3	27.4	25.7
Nottingham	13.1	19.9	23.9	16.1	47.6	20.9	25.7
Michigan State	10.7	0.0	37.4	19.1	52.4	18.7	25.5
Basel	22.0	17.0	22.8	19.4	36.2	34.5	25.5
McMaster	14.1	18.9	22.8	14.8	47.3	22.8	25.2
The of Sheffield	19.9	14.1	21.0	21.3	44.3	22.6	25.2
Ghent	7.5	15.4	17.6	15.1	54.4	30.4	25.1
Indiana Bloomington	11.9	22.7	24.9	18.5	39.9	19.6	25.1
Sydney	16.9	0.0	20.4	18.4	61.4	25.1	25.0
Bonn	16.9	19.9	14.4	23.3	42.5	24.3	24.9
Goettingen	32.9	19.9	14.4	17.2	40.7	24.3	24.9
Texas A&M - College Station	0.0	0.0	34.5	21.0	54.0	21.0	24.8
Virginia	0.0	0.0	34.5	26.8	47.5	19.5	24.5
Case Western Reserve	34.5	11.5	21.6	14.3	41.9	22.7	24.3
Aarhus	13.1	18.9	7.2	23.5	48.4	25.4	24.2
Rice	18.5	21.8	21.6	18.8	30.2	29.6	24.0
Birmingham	21.3	10.9	21.6	16.2	46.4	20.7	24.0

Cálculo del Puntaje Total

El puntaje del ranking es una combinación lineal de los puntajes obtenidos por una universidad, con ponderaciones

\[b^\prime = (0.1, 0.2, 0.2, 0.2, 0.2, 0.1)\] donde \(\sum_{j=1}^p b_j = 1\) y

\[y_i = \sum_{j=1}^p b_j x_{ij} = b^\prime x_{i \cdot}\]

Cálculo del Puntaje Total

Para la Universidad de Harvard, cuyos puntajes son \[x_1 = (100, 100, 100, 100, 100, 69.2)\]

El valor de su puntaje total es:

\[ \begin{aligned} y_i &= 0.1(100) + 0.2(100) + 0.2(100) + 0.2(100) + 0.2(100) + 0.1(69.2) \\ y_i &= 96.92 \end{aligned} \]

Este valor se ajusta a 100 en la tabla final como el máximo valor de referencia.

Ejemplo: Ajuste del Ranking ARWU

Para la Universidad de Cambridge, el cálculo de la combinación lineal es:

\[ \begin{aligned} y_5 &= 0.1(88.5) + 0.2(92.6) + 0.2(53.9) + 0.2(54.3) + 0.2(65.7) + 0.1(53.1) \\ y_5 &= 67.46 \end{aligned} \]

Considerando que el valor máximo de referencia (Harvard) fue \(96.92\), el puntaje ajustado para Cambridge es:

\[67.46 / 0.9692 = 69.6\]

Combinación lineal que produce las componentes principales

Las componentes principales son combinaciones lineales de los valores de las variables. Para su construcción se utilizan ponderaciones \(v_1' = (v_{11}, \ldots, v_{p1})\), la primera componente para el objeto \(i\), cuyas observaciones para las \(p\) variables están en la \(i\)-ésima fila de \(Y\) (matriz de datos centrados y estandarizados), \(y_{i\cdot}\) tiene la forma:

\[z_{i1} = y_{i\cdot}' \, v_1= \sum_{j=1}^{p} v_{j1} \, y_{ij},\qquad i = 1, \ldots, n.\]

\(z_{i1}\) es un promedio ponderado de los valores de las variables observadas en el objeto \(i\).

La primera componente para el objeto \(i\) es la proyección de los valores de las variables sobre el vector de ponderaciones \(v_1\).

En el siguiente capítulo se realiza la construcción formal de las componentes y sus ponderaciones.

Combinación lineal que produce las componentes principales

Como se verá en el siguiente capítulo, estas componentes tienen, entre otras, dos importantes propiedades:

Maximización de varianza: Van en direcciones que acumulan la mayor cantidad posible de varianza de la tabla de datos \(X\), útil para reducir la dimensionalidad del problema en el sentido de que basta con unas cuantas de ellas para interpretar y descubrir asociaciones e información intrínseca en los datos.

No correlación: Todas las componentes son ortogonales entre sí, que facilita representaciones gráficas de los datos.

Datos atípicos en una variable

Rango intercuartílico (IQR)

Definición (medida de dispersión) El rango intercuartílico es una medida robusta de dispersión definida por:

\[IQR = Q_{0.75} - Q_{0.25}\]

Construcción del rango para detectar atípicos A partir del IQR se define el intervalo:

\[\left( Q_{0.25} - 1.5 \cdot IQR, \quad Q_{0.75} + 1.5 \cdot IQR \right)\]

Una observación se considera atípica si cae por fuera de este rango.

Motivación: La Referencia Normal

Esta regla es coherente con la idea de concentración de probabilidad en la distribución normal \(N(\mu, \sigma^2)\). Aproximadamente:

El 68% de las observaciones se encuentran en el intervalo \(\mu \pm \sigma\).
El 95% de las observaciones se encuentran en el intervalo \(\mu \pm 2\sigma\).
El 99% de las observaciones se encuentran en el intervalo \(\mu \pm 3\sigma\).

Ejemplo: Indicadores de Educación en Ciudades

library(pacman)
p_load(tidyverse, janitor, corrplot, gt)

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
ciudades <- read.csv2(paste0(url, "ciudades.csv"), sep=";")

ciudades	num_hab	cobertura_pria_y_secdaria	cobertura_ed_sup	rel_al_prof
Armenia	284.120	1	0	22
Barranquilla	1.163.007	1	0	22
Bogota	7.050.228	1	1	23
Bucaramanga	520.080	1	0	22
Cali	2.169.801	1	0	22
Cartagena	912.674	1	0	24
Cucuta	600.049	1	0	22
Ibague	509.796	1	0	23
Manizales	383.483	1	0	22
Medellin	2.264.776	1	0	26
Monteria	390.996	1	0	26
Neiva	322.098	1	0	23
Pasto	394.074	1	0	22
Pereira	448.971	1	0	23
Popayan	261.694	1	0	22
Riohacha	184.847	1	0	26
San Andres	66.675	1	0	20
Santa Marta	428.374	1	0	23
Sincelejo	245.180	1	0	25
Tunja	161.209	1	0	22
Valledupar	373.872	1	0	24
Villavicencio	400.475	1	0	25

Detección de Ciudades Atípicas

Utilizando la regla del Rango Intercuartílico (\(IQR\)): \([Q_1 - 1.5IQR, Q_3 + 1.5IQR]\).

ciudades_atipicas <- ciudades

# Función para identificar atípicos y marcarlos
marcar_atipicos <- function(x) {
  q1 <- quantile(x, 0.25, na.rm = TRUE)
  q3 <- quantile(x, 0.75, na.rm = TRUE)
  iqr <- q3 - q1
  inf <- q1 - 1.5 * iqr
  sup <- q3 + 1.5 * iqr
  
  # Retornar el valor original como texto o "*" si es atípico
  ifelse(x < inf | x > sup, "*", as.character(round(x, 2)))
}

ciudades_atipicas[, 2:6] <- lapply(ciudades[, 2:6], marcar_atipicos)

Detección de Ciudades Atípicas

ciudades	num_hab	analfabetismo	cobertura_pria_y_secdaria	cobertura_ed_sup	rel_al_prof
Armenia	284120	0.09	1.09	0.27	22.4
Barranquilla	*	0.09	1.08	0.31	22.5
Bogota	*	0.1	1	*	22.6
Bucaramanga	520080	0.08	1.19	0.33	22.2
Cali	*	0.08	1.02	0.22	22
Cartagena	912674	0.12	1.21	0.15	24.4
Cucuta	600049	0.11	1.15	0.22	22.4
Ibague	509796	0.11	0.98	0.18	23.4
Manizales	383483	0.08	1.14	0.23	22.2
Medellin	*	0.13	1.22	0.3	26.3
Monteria	390996	0.16	1.11	0.15	26.1
Neiva	322098	0.11	1.1	0.18	23.3
Pasto	394074	0.11	1.05	0.13	21.8
Pereira	448971	0.1	1.12	0.28	22.6
Popayan	261694	0.09	1.14	0.16	21.5
Riohacha	184847	*	1	0.15	26.1
San Andres	66675	0.08	*	0.11	20.4
Santa Marta	428374	0.12	1	0.12	22.9
Sincelejo	245180	0.16	1.23	0.11	24.9
Tunja	161209	0.1	1.04	0.24	22.1
Valledupar	373872	0.16	1.02	0.15	24.5
Villavicencio	400475	0.1	1.19	0.17	25.4

Interpretación

Las celdas con * indican que esa ciudad representa un valor extremo para esa dimensión educativa o poblacional en comparación con el resto del grupo.

Datos atípicos en dos variables

Ejemplo: Problema de detección bidimensional

Al analizar dos variables simultáneamente, una observación puede no ser atípica en ninguna de las variables por separado, pero sí serlo por romper la estructura de correlación del grupo.

Distancias entre observaciones multivariadas

Concepto de distancia

Intuitivamente, la distancia entre dos puntos A y B en una superficie plana es la longitud del espacio que hay entre ellos.

Si se desea ir de A hacia B, la distancia se puede medir en unidades físicas (como metros), lo que nos da una idea clara de qué tan lejos o cerca se encuentran el uno del otro.

Propiedades de una métrica

Esta idea de distancia se formaliza mediante las siguientes propiedades. Sean \(A\), \(B\) y \(C\) puntos en el espacio \(\mathbb{R}^2\) (o superior):

No negatividad: La distancia siempre es mayor o igual a cero, \(d(A,B) \ge 0\).
- Si los puntos coinciden, la distancia es cero: \(d(A,A)=0\).
Simetría: La distancia de \(A\) a \(B\) es la misma que de \(B\) a \(A\): \[d(A,B) = d(B,A)\]
Desigualdad triangular: Ir de \(A\) a \(B\) directamente es siempre más corto o igual que pasar por un tercer punto \(C\): \[d(A,B) \le d(A,C) + d(C,B)\]

Ejemplo: Valor Absoluto

Un ejemplo básico de estas métricas es el valor absoluto entre dos números \(a\) y \(b\).

La distancia se mide por la diferencia entre ellos. Para evitar la ambigüedad que produce el signo de la diferencia (\(a-b\) vs \(b-a\)), se utiliza el valor absoluto: \[|a-b|\] Este valor siempre es positivo y cumple con todas las propiedades de una métrica mencionadas anteriormente.

Distancia Euclidiana

Para dos filas (\(i\), \(i'\) con \(i \ne i'\)) de la matriz de datos \(\mathbf{X}\):

\(\mathbf{x}_i = (x_{i1}, \dots, x_{ip})^\top\)
\(\mathbf{x}_{i'} = (x_{i'1}, \dots, x_{i'p})^\top\)

La distancia euclidiana es la raíz cuadrada de la suma de las diferencias al cuadrado entre las coordenadas de cada variable:

\[d_e(\mathbf{x}_i, \mathbf{x}_{i'}) = \sqrt{(\mathbf{x}_i - \mathbf{x}_{i'})^\top (\mathbf{x}_i - \mathbf{x}_{i'})} = \sqrt{\sum_{j=1}^p (x_{ij} - x_{i'j})^2}\]

Distancia Euclidiana entre ciudades

El paquete distances permite calcular las distancias entre objetos:

library(pacman)
p_load(tidyverse, distances)

Xmat <- ciudades |> 
        column_to_rownames("CIUDADES") |> 
        mutate(ProPoblacional = Num.Hab / sum(Num.Hab)) |> 
        select(-Num.Hab)

distEuc <- distances(Xmat, id_variable = row.names(Xmat))

Note

Note que se utiliza la proporción de poblacion por ciudad

Distancia Euclidiana entre ciudades

a) Más lejanas			b) Más cercanas
Ciudad A	Ciudad B	Dist.	Ciudad A	Ciudad B	Dist.
Medellin	San Andres	5.92	Armenia	Barranquilla	0.12
Monteria	San Andres	5.71	Barranquilla	Pereira	0.12
Riohacha	San Andres	5.71	Bucaramanga	Manizales	0.11
San Andres	Villavicencio	5.02	Armenia	Cucuta	0.08

Distancia de Mahalanobis

La Distancia de Mahalanobis es una medida de la distancia entre observaciones multivariadas que posee la propiedad de incluir tanto las distancias euclidianas entre las variables como el grado de correlación entre ellas.

Distancia de Mahalanobis entre observaciones

Asumiendo que hay \(n\) observaciones para dos variables \(X_1\) y \(X_2\):

\[ \begin{bmatrix} x_{11} & x_{12} \\ \vdots & \vdots \\ x_{i1} & x_{i2} \\ \vdots & \vdots \\ x_{i'1} & x_{i'2} \\ \vdots & \vdots \\ x_{n1} & x_{n2} \end{bmatrix} \]

Distancia de Mahalanobis entre observaciones

La distancia de Mahalanobis al cuadrado entre las observaciones \(i\) e \(i'\) se define como:

\[ d_M^2(i,i') = \frac{1}{(1-r_{12}^2)} \left[ \frac{(x_{i1}-x_{i'1})^2}{s_1^2} + \frac{(x_{i2}-x_{i'2})^2}{s_2^2} - 2r_{12}\frac{(x_{i1}-x_{i'1})(x_{i2}-x_{i'2})}{s_1s_2} \right] \]

Donde:

\(\frac{(x_{i1}-x_{i'1})^2}{s_1^2}\) y \(\frac{(x_{i2}-x_{i'2})^2}{s_2^2}\) son las distancias euclidianas estandarizadas entre los dos puntos.
\(r_{12}\) es el coeficiente de correlación entre \(X_1\) y \(X_2\).
\(s_1\) y \(s_2\) son las desviaciones estándar de cada variable.

Interpretación de la distancia de Mahalanobis

La distancia de Mahalanobis ajusta la métrica de cercanía basándose en la estructura de covarianza de los datos. Su comportamiento depende críticamente del coeficiente de correlación \(r_{12}\):

Cuando \(r_{12} \to 0\): Las variables son aproximadamente incorrelacionadas. En este caso, la distancia de Mahalanobis se reduce esencialmente a una suma de distancias euclidianas estandarizadas.

Cuando \(r_{12} \to 1\): Las variables están fuertemente correlacionadas de forma positiva. Las diferencias que siguen la dirección común de variación aportan poco a la distancia, mientras que las desviaciones ortogonales (que rompen la tendencia) se amplifican significativamente.

Cuando \(r_{12} \to -1\): Existe una correlación negativa fuerte. Las diferencias opuestas entre \(X_1\) y \(X_2\) se penalizan menos, mientras que cualquier discrepancia que se aleje de esa relación lineal incrementa drásticamente la distancia.

Efecto de la Correlación en la Distancia de Mahalanobis

Elipses de distancia para tres niveles de correlación (\(r\)).

Note

Observe cómo la elipse se “estira” y cambia de orientación, lo que redefine qué puntos se consideran “cercanos” al centro.

Distancia de Mahalanobis

Distancia a la media multivariada La distancia de Mahalanobis de la observación \(i\) al centro de los datos se obtiene reemplazando \(x_{i^\prime}\) por el vector de medias: \[\bar{\mathbf{x}} = (\bar{x}_1, \bar{x}_2)\] Esto permite cuantificar la separación de cada individuo respecto a la estructura global de las variables.

Distancia de Mahalanobis

Estimación de las varianzas Para cada variable se utiliza usualmente el estimador insesgado: \[s_j^2 = \frac{1}{n-1} \sum_{i=1}^n (x_{ij}-\bar{x}_j)^2, \qquad j=1,2\] En contextos poblacionales o para tamaños muestrales grandes puede emplearse el denominador \(n\), ya que la diferencia entre \(n\) y \(n-1\) resulta despreciable.

Caso particular: dos observaciones y dos variables

Matriz de datos reducida Cuando solo se dispone de dos observaciones, la matriz de datos toma la forma: \[\begin{bmatrix} x_{11} & x_{12} \\ x_{21} & x_{22} \end{bmatrix}\]
Varianzas como sumas de cuadrados Dado que \(n=2\), las varianzas se simplifican a: \[s_j^2 = \sum_{i=1}^2 (x_{ij}-\bar{x}_j)^2, \qquad j=1,2\]

Note

Este caso es fundamentalmente ilustrativo y tiene escaso interés práctico, debido a la inestabilidad inherente a trabajar con un número extremadamente pequeño de observaciones.

Distancia de Mahalanobis: Análisis de Proximidad

En R se usa el mismo paquete distances agregando el argumento normalize = "mahalanobize"

distMah <- distances(Xmat, id_variable = row.names(Xmat), normalize = "mahalanobize")

Obteniendo:

a) Más lejanas (Mahalanobis)			b) Más cercanas (Mahalanobis)
Ciudad A	Ciudad B	Dist.	Ciudad A	Ciudad B	Dist.
Bogota	Riohacha	5.81	Barranquilla	Pereira	0.74
Bogota	San Andres	5.55	Armenia	Tunja	0.74
Riohacha	San Andres	5.52	Armenia	Pereira	0.65
Riohacha	Villavicencio	5.49	Armenia	Barranquilla	0.63

Teorema de la Descomposición Espectral

TDE y Componentes Principales

Una matriz simétrica \(B_{p \times p}\) (como \(R\) o \(S\)) se puede reconstruir o factorizar a partir de sus valores y vectores propios:

\[B = U \Lambda U^\prime\]

Donde:

\(U\) es una matriz ortogonal cuyas columnas son los vectores propios estandarizados de \(B\).
\(\Lambda = \text{diag}\{\lambda_\alpha\}\) con \(\lambda_1 \ge \cdots \ge \lambda_p\) son los valores propios de \(B\) en orden descendente.

TDE y Componentes Principales

Casos particulares:

Caso 1: \(B = R\) (Matriz de correlación)

Es el caso más común. Se descompone como

\[R = U \Lambda U^\prime\]

La multiplicación de cada columna de \(U\) por cada fila de la matriz de datos centrada y estandarizada \(Y\) produce una componente principal.

TDE y Componentes Principales

Casos particulares:

Caso 2: \(B = S\) (Matriz de covarianzas)

Caso menos frecuente:

\[S = U \Lambda U^\prime,\]

donde \(U\) y \(\Lambda\) contienen los vectores y valores propios de \(S\) respectivamente.

Obtención de las Componentes Principales

Tomando la \(j\)-ésima columna de \(U\), denotada por \(u_j^\prime = (u_{1j}, \ldots, u_{pj})^\prime\), la \(j\)-ésima componente principal se obtiene mediante el producto matricial:

\[ Y u_j = \begin{bmatrix} \sum_{k=1}^{p} u_{kj} y_{1k} \\ \vdots \\ \sum_{k=1}^{p} u_{kj} y_{ik} \\ \vdots \\ \sum_{k=1}^{p} u_{kj} y_{nk} \end{bmatrix} = \begin{bmatrix} z_{1j} \\ \vdots \\ z_{ij} \\ \vdots \\ z_{nj} \end{bmatrix}, \quad j = 1, \ldots, p \]

Para \(j=1\), este resultado corresponde a la primera componente principal.

Ejemplo: Ranking ARWU

Aunque en la práctica no se justifica un Análisis de Componentes Principales (ACP) con solo dos variables ya que el coeficiente de correlación y una gráfica de dispersión bastan para representar las relaciones entre ellas, realizaremos un ACP de los rankings regional y mundial con el único objetivo de ilustrar cómo funcionan las componentes y el tipo de información que contienen.

Visualización de Rankings: Regional vs. Mundial

A continuación se presenta la distribución de las instituciones según su posición en los rankings:

Gráfica
Código

library(pacman)
p_load(tidyverse, janitor, FactoMineR)

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
arwu <- read.csv2(paste0(url, "arwu.csv")) 

rownames(arwu) <- arwu$Institution

(g1 <- ggplot(arwu, aes(x = Regional.Rank, y = World.Rank, color = Country, label = Country)) +
  geom_text() +
  theme_bw() +
  labs(title = "Rankings ARWU",
       x = "Ranking Regional",
       y = "Ranking Mundial"))

ACP de los rankings ARWU

Biplot para los rankings regional y mundial. Permite visualizar la dirección de máxima varianza y cómo se agrupan los países en relación con estas nuevas dimensiones.

Ejemplo: Variables de Educación en Ciudades

Visualización de los datos originales comparando la relación alumnos/profesor frente a la tasa de analfabetismo por ciudad.

Ejemplo: Variables de Educación en Ciudades

Visualización de los datos originales comparando la relación alumnos/profesor frente a la tasa de analfabetismo por ciudad.

Componentes Principales

Teorema de la Descomposición en Valores Singulares

TDVS (1)

La descomposición en valores singulares es más general que el TDE, pues no requiere que la matriz sea simétrica, lo que garantiza que también la matriz de datos puede ser descompuesta.

El TDVS garantiza que una matriz \(C_{n \times p}\), con \(n \ge p\) y rango \(r\) (equivalentemente, con \(r\) columnas linealmente independientes, como la matriz de datos \(X\) o la estandarizada \(Y\)), se puede factorizar como:

\[C = U L V^\prime \tag{1}\]

TDVS (2)

Donde los componentes de la factorización \(C = ULV'\) son:

\(U_{n \times r}\) y \(V_{p \times r}\) son matrices con columnas ortonormales: \(U^\prime U = V^\prime V = I_r\).
\(L_{r \times r} = \mathrm{diag}(\sqrt{\lambda_1}, \ldots, \sqrt{\lambda_r})\), con \(\sqrt{\lambda_1} \ge \cdots \ge \sqrt{\lambda_r} > 0\).
\(\sqrt{\lambda_j}\) son los valores singulares de \(C\).
\(V_{p \times r} = (v_1, \ldots, v_r)\) contiene en sus columnas los vectores propios de \(C^\prime C\).
\(U_{n \times r} = (u_1, \ldots, u_r)\) contiene en sus columnas los vectores propios de \(CC^\prime\).

La equivalencia con los valores propios no nulos de \(CC^\prime\) se establece tomando \[L = \mathrm{diag}(\sqrt{\mu_1}, \ldots, \sqrt{\mu_r}),\] donde \(\mu_\alpha\) es el \(\alpha\)-ésimo valor propio no nulo de \(CC^\prime\).

Reconstrucción a partir del TDVS

Reconstrucción de la matriz de puntajes del ranking ARWU mediante el TDVS

El ejercicio implica los siguientes pasos:

Lectura de los datos y construcción de la matriz \(C \in \mathbb{R}^{n \times p}\).
Cálculo de \(C'C\) y \(CC'\).
Valores y vectores propios de \(C'C\): obtener \(\lambda_\alpha\) y \(V\).
Selección de los valores propios estrictamente positivos; construir la submatriz \(V_r\).
Valores singulares: \(\sigma_\alpha = \sqrt{\lambda_\alpha}\); construir \(L = \mathrm{diag}(\sigma_1, \ldots, \sigma_r)\).
Cálculo de \(U = C V_r L^{-1}\), verificando que \(U'U = I_r\).
Reconstrucción: \(C = U L V_r'\).
Evaluación del error: \(\| C - U L V_r' \|_F \approx 0\).

Ejemplo: Reconstrucción SVD del ARWU

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
arwu_svd <- read.csv2(paste0(url, "ARWU_100_top.csv"))[, -c(2:6)]
rownames(arwu_svd) <- arwu_svd[, 1]
C <- as.matrix(arwu_svd[, -1])

# Descomposición SVD
svd_C <- svd(C)
U <- svd_C$u
L <- diag(svd_C$d)
V <- svd_C$v

# Reconstrucción completa y error
C_rec <- U %*% L %*% t(V)
error_total <- norm(C - C_rec, type = "F")

r_max <- ncol(C)
errores <- sapply(1:r_max, function(r) {
  C_r <- svd_C$u[, 1:r, drop = FALSE] %*%
         diag(svd_C$d[1:r], r, r) %*%
         t(svd_C$v[, 1:r, drop = FALSE])
  norm(C - C_r, type = "F")
})

Ejemplo: Reconstrucción SVD del ARWU

Laboratorio

Laboratorio 1

Con los datos del ARWU_100_top.csv elaborar un diagrama de barras que muestre las primeras 20 universidades según World Rank, con barras de la altura del indicador de

Grupo_1: número de premios Nobel o medallas Field obtenidos por sus docentes (Award)
Grupo_2: número de premios Nobel o medallasFields obtenidos por sus egresados (Alumni)
Grupo_3: número de investigadores altamente citados (HiCi)
Grupo_4: número publicaciones en las revistas Science o Nature (N.S)
Grupo_5: número de artículos altamente citados (PUB)
Grupo_6: desempeño per cápita de su personal académico (PCP)

¿Hay universidades que se distinguen por el indicador que le correspondió al grupo?, ¿Cuáles?

Laboratorio 2

Utilizar los datos del archivo r14_Sci_Qs_Webometrics.csv para elaborar gráficos de dispersión de

Grupo_1: del SC.Lac.Ranking con QS.Ranking
Grupo_2: del SC.Lac.Ranking con SC.Ibe.Ranking
Grupo_3: del SC.Lac.Ranking con WEB.Ranking.LA
Grupo_4: del QS.Ranking con SC.Ibe.Ranking
Grupo_5: del QS.Ranking con WEB.Ranking.LA
Grupo_6: del QS.Ranking con WEB.Ranking.mundial

¿Hay inconsistencias en las posiciones de las universidades entre los rankings que se compararon?
Usar como referencia el ejemplo 2.4.2

Laboratorio 3

Con los datos del ARWU_100_top.csv elaborar una matriz de dispersión con

Grupo_1: Los criterios del Scimago incluyendo el SC.Lac.Ranking
Grupo_2: Los criterios del QS incluyendo el QS.Ranking
Grupo_3: Los criterios del Scimago incluyendo el QS.Ranking
Grupo_4: Los criterios del QS incluyendo el SC.Lac.Ranking
Grupo_5: Los criterios del Scimago incluyendo el WEB.Ranking.LA
Grupo_6: Los criterios del QS incluyendo el WEB.Ranking.LA

¿Se puede intuir algún tipo de asociación entre los criterios y el tipo de ranking que se incluyó en la matriz de dispersión? Usar como referencia la gráfica 2.10

Laboratorio 4

Con los datos del archivo datos_ciudades.xlsx elaborar diagramas de cajas (Boxplots) para visualizar si hay datos atípicos en las variables

Grupo_1: Ciencia y Tecnología C&T
Grupo_2: Infraestructura INFRA
Grupo_3: Finanzas FIN
Grupo_4: Gestión productividad GOB
Grupo_5: Crecimiento FOR
Grupo_6: Internacionalización INT

Laboratorio 5

Utilizar el archivo datos_ciudades.xlsx para calcular los cuantiles \(Q_{.25}\) y \(Q_{.75}\) para corroborar si hay observaciones atípicas en las variables del conjunto que le correspondió al grupo.

Laboratorio 6

Calcular la matriz de correlación entre las variables del conjunto que le correspondió al grupo en el ejercicio 5 y escoger las dos variables que tienen mayor correlación. Calcular la distancia euclidiana entre San Andrés y Riohacha con respecto a estas dos variables y luego calcular la distancia de Mahalanobis entre las mismas ciudades respecto a las mismas dos variables. Para el cálculo de la distancia de Mahalanobis utilizar la matriz de covarianzas de las dos variables con todas las ciudades.

¿Son las dos distancias igual?
¿A qué se puede atribuir la diferencia si la hay?

Laboratorio 7

Utilizar los datos del archivo datos_ciudades.xlsx y los mismos grupos de variables asignados en el ejercicio de datos atípicos, junto con la subtabla de indicadores de Recursos Humanos del mismo archivo de ciudades, para conformar una nueva tabla que contenga los dos conjuntos de variables.

Calcular el vector de medias de todas las variables del conjunto asignado al grupo.
Calcular la matriz de datos centrados \(\tilde{X}\).
Calcular la matriz de covarianzas a partir de la matriz de datos centrados: \(S = \frac{1}{n}\tilde{X}'\tilde{X}\).

Laboratorio 8

Calcular la matriz de covarianzas con el comando cov() de R. ¿Coincide con la obtenida en el punto 3? ¿Por qué?
Calcular la matriz \(Y\) de datos centrados estandarizados a partir del vector de medias y las desviaciones estándar del punto 1.
Calcular la matriz de correlación a partir de \(\frac{1}{n}Y'Y\). Calcular también la matriz de correlación con el comando cor() de R. ¿Coinciden? ¿Por qué?

Laboratorio 9

Calcular la matriz de covarianzas \(S\) e identificar las dos variables con mayor covarianza y las dos con menor covarianza.
Calcular la matriz de correlación \(R\) e identificar las dos variables con mayor correlación y las dos con menor correlación. ¿Son las mismas que las identificadas en el punto 7?
Calcular el producto \(\frac{1}{n}Y'Y\) y verificar que coincide exactamente con la matriz \(R\) obtenida en el punto 8. ¿Por qué?

Laboratorio 10

Comprobar que la matriz de covarianzas se obtiene con \(\frac{1}{n}\tilde{X}'\tilde{X}\).
Comprobar que la matriz de correlación se obtiene con \(\frac{1}{n}Y'Y\).
Construir una matriz de datos con los puntajes en los seis criterios del ranking ARWU para las universidades del grupo asignado y comprobar que con el TDVS se puede reconstruir.

Grupo	Universidades
Grupo 1	Puestos 91 a 100
Grupo 2	Puestos 81 a 90
Grupo 3	Puestos 71 a 80
Grupo 4	Puestos 61 a 70
Grupo 5	Puestos 51 a 60
Grupo 6	Puestos 41 a 50

Laboratorio complementario

Como preparación para el examen, se recomienda resolver el siguiente laboratorio:

Laboratorio

GRACIAS!

Citación y derechos de autor

Este material ha sido creado por Jimmy Corzo y Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.

Cualquier copia parcial o total de este material, debe citar la fuente como:

Corzo J., & Babativa-Márquez, J.G. Diapositivas del curso de estadística descriptiva multivariada. URL: https://jgbabativam.github.io/Curso_Multivariado/