Medidas Descriptivas Multivariadas
En el contexto multivariado, en lugar de una, se observan \(p\) variables \(X_1,\ldots,X_p\) simultáneamente sobre el mismo objeto \(i\) (ciudad, universidad, persona, etc.), y por tanto una observación para el objeto \(i\) es un vector de \(p\) componentes:
\[x_i = \left(x_{i1},\ldots,x_{ij},\ldots,x_{ip}\right)^\prime,\]
donde \(x_{ij}\) es la observación de la variable \(j\) sobre el objeto \(i\).
Para \(n\) objetos, las observaciones se arreglan en una tabla de datos como la siguiente:
| Objeto | \(X_1\) | \(X_2\) | \(\cdots\) | \(X_p\) |
|---|---|---|---|---|
| 1 | \(x_{11}\) | \(x_{12}\) | \(\cdots\) | \(x_{1p}\) |
| \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\cdots\) | \(\vdots\) |
| \(\vdots\) | \(\vdots\) | \(x_{ij}\) | \(\ddots\) | \(\vdots\) |
| \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\cdots\) | \(\vdots\) |
| n | \(x_{n1}\) | \(x_{n2}\) | \(\cdots\) | \(x_{np}\) |
\[ \begin{aligned} \bar{x}_j &= \frac{1}{n} \sum_{i=1}^{n} x_{ij} && \text{media de } X_j \\ s_j^2 &= \frac{1}{n} \sum_{i=1}^{n} (x_{ij}-\bar{x}_j)^2 && \text{varianza de } X_j \\ s_{jk} &= \frac{1}{n} \sum_{i=1}^{n} (x_{ij}-\bar{x}_j)(x_{ik}-\bar{x}_k) && \text{covarianza} \\ r_{jk} &= \frac{s_{jk}}{s_j s_k} && \text{correlación} \end{aligned} \]
Nótese que para el cálculo de la varianza se utilizó como denominador n, debido a que en datos multivariados se considera suficientemente grande como para que s2 siga siendo un estimador insesgado de la varianza poblacional.
\[X = \{x_{ij}\} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix}\]
Se asume que \(n \ge p\).
En esta matriz, la columna \(j\) representa las observaciones de la variable \(X_j\) sobre los \(n\) objetos y se denota como un vector columna:
\[X_{\cdot j} = \begin{bmatrix} x_{1j} \\ x_{2j} \\ \vdots \\ x_{nj} \end{bmatrix}, \quad j=1,\ldots,p\]
Análogamente, la fila \(i\), o el punto objeto \(i\), representa las observaciones de las \(p\) variables sobre el objeto \(i\) que se denota como un vector columna:
\[ x_{i \cdot} = (x_{i1}, \ldots, x_{ip})' = \begin{bmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{ip} \end{bmatrix}, \quad i=1,\ldots,n. \]
El vector de medias contiene los promedios de cada una de las \(p\) variables:
\[\bar{x} = \begin{bmatrix} \bar{x}_1 \\ \bar{x}_2 \\ \vdots \\ \bar{x}_p \end{bmatrix}\]
| ciudades | num_hab | analfabetismo | cobertura_pria_y_secdaria | cobertura_ed_sup | rel_al_prof |
|---|---|---|---|---|---|
| Armenia | 284120 | 0.0880 | 1.095 | 0.266 | 22.4 |
| Barranquilla | 1163007 | 0.0922 | 1.083 | 0.306 | 22.5 |
| Bogota | 7050228 | 0.0973 | 0.999 | 0.538 | 22.6 |
| Bucaramanga | 520080 | 0.0760 | 1.192 | 0.326 | 22.2 |
| Cali | 2169801 | 0.0831 | 1.019 | 0.223 | 22.0 |
| Cartagena | 912674 | 0.1213 | 1.207 | 0.147 | 24.4 |
| Cucuta | 600049 | 0.1133 | 1.147 | 0.217 | 22.4 |
| Ibague | 509796 | 0.1073 | 0.983 | 0.181 | 23.4 |
| Manizales | 383483 | 0.0769 | 1.143 | 0.230 | 22.2 |
| Medellin | 2264776 | 0.1256 | 1.219 | 0.300 | 26.3 |
| Monteria | 390996 | 0.1587 | 1.109 | 0.151 | 26.1 |
| Neiva | 322098 | 0.1131 | 1.100 | 0.179 | 23.3 |
| Pasto | 394074 | 0.1115 | 1.052 | 0.128 | 21.8 |
| Pereira | 448971 | 0.1007 | 1.124 | 0.283 | 22.6 |
| Popayan | 261694 | 0.0915 | 1.135 | 0.163 | 21.5 |
| Riohacha | 184847 | 0.2713 | 1.000 | 0.152 | 26.1 |
| San Andres | 66675 | 0.0772 | 0.803 | 0.107 | 20.4 |
| Santa Marta | 428374 | 0.1244 | 1.005 | 0.116 | 22.9 |
| Sincelejo | 245180 | 0.1612 | 1.228 | 0.107 | 24.9 |
| Tunja | 161209 | 0.1023 | 1.036 | 0.245 | 22.1 |
| Valledupar | 373872 | 0.1587 | 1.017 | 0.147 | 24.5 |
| Villavicencio | 400475 | 0.1017 | 1.193 | 0.174 | 25.4 |
La fila 5 de la Tabla es la observación de las cinco variables para la ciudad de Cali (objeto 5):
\[x_{5}=(2169801, 0.08, 1.02, 0.22, 22)^\prime= \begin{bmatrix} 2168901 \\ 0.08 \\ 1.02 \\ 0.22 \\ 22 \end{bmatrix}\]
La variable \(X_4\) (Cobertura en educación superior) es la columna:
\[X_4= \begin{bmatrix} 0.27 \\ 0.31 \\ \vdots \\ 0.15 \\ 0.17 \end{bmatrix}\]
Vector de medias o centroide
\[ \text{med}(X) = \bar{x}= \frac{1}{n} \mathbf{1_n}^\prime X = \begin{bmatrix} \bar{x}_1\\ \bar{x}_2\\ \vdots\\ \bar{x}_p \end{bmatrix}, \quad \text{donde} \quad \mathbf{1_n} = \begin{bmatrix} 1\\ 1\\ \vdots\\ 1 \end{bmatrix} \]
num_hab analfabetismo cobertura_pria_y_secdaria
888021.77 0.12 1.09
cobertura_ed_sup rel_al_prof
0.21 23.27
El vector de medias de las variables de la tabla de ciudades expresado como un vector es: \(\bar{x}^\prime = (888021.77, 0.12, 1.09, 0.21, 23.27)^\prime\):
\[\tilde{X} = X - \mathbf{1}_n \, \bar{x}' = \begin{bmatrix} x_{11}-\bar{x}_1 & x_{12}-\bar{x}_2 & \cdots & x_{1p}-\bar{x}_p \\ x_{21}-\bar{x}_1 & x_{22}-\bar{x}_2 & \cdots & x_{2p}-\bar{x}_p \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}-\bar{x}_1 & x_{n2}-\bar{x}_2 & \cdots & x_{np}-\bar{x}_p \end{bmatrix}, \{\tilde{x}_{ij}\} = \{x_{ij} - \bar{x}_j\} \] Oberve que:
\[\operatorname{med}(\tilde{X}) = \frac{1}{n}\,\tilde{X}^{\prime}\mathbf{1}_n = \left( \frac{1}{n}X^{\prime}\mathbf{1}_n - \frac{1}{n}\bar{x}^{\prime}\mathbf{1}_n^{\prime}\mathbf{1}_n \right) = 0\]
Se puede comprobar fácilmente que todas las variables tienen media cero:
| ciudades | num_hab | analfabetismo | cobertura_pria_y_secdaria | cobertura_ed_sup | rel_al_prof |
|---|---|---|---|---|---|
| Armenia | -603901.77 | -0.028059091 | 0.009136364 | 0.053 | -0.87272727 |
| Barranquilla | 274985.23 | -0.023859091 | -0.002863636 | 0.093 | -0.77272727 |
| Bogota | 6162206.23 | -0.018759091 | -0.086863636 | 0.325 | -0.67272727 |
| Bucaramanga | -367941.77 | -0.040059091 | 0.106136364 | 0.113 | -1.07272727 |
| Cali | 1281779.23 | -0.032959091 | -0.066863636 | 0.010 | -1.27272727 |
| Cartagena | 24652.23 | 0.005240909 | 0.121136364 | -0.066 | 1.12727273 |
| Cucuta | -287972.77 | -0.002759091 | 0.061136364 | 0.004 | -0.87272727 |
| Ibague | -378225.77 | -0.008759091 | -0.102863636 | -0.032 | 0.12727273 |
| Manizales | -504538.77 | -0.039159091 | 0.057136364 | 0.017 | -1.07272727 |
| Medellin | 1376754.23 | 0.009540909 | 0.133136364 | 0.087 | 3.02727273 |
| Monteria | -497025.77 | 0.042640909 | 0.023136364 | -0.062 | 2.82727273 |
| Neiva | -565923.77 | -0.002959091 | 0.014136364 | -0.034 | 0.02727273 |
| Pasto | -493947.77 | -0.004559091 | -0.033863636 | -0.085 | -1.47272727 |
| Pereira | -439050.77 | -0.015359091 | 0.038136364 | 0.070 | -0.67272727 |
| Popayan | -626327.77 | -0.024559091 | 0.049136364 | -0.050 | -1.77272727 |
| Riohacha | -703174.77 | 0.155240909 | -0.085863636 | -0.061 | 2.82727273 |
| San Andres | -821346.77 | -0.038859091 | -0.282863636 | -0.106 | -2.87272727 |
| Santa Marta | -459647.77 | 0.008340909 | -0.080863636 | -0.097 | -0.37272727 |
| Sincelejo | -642841.77 | 0.045140909 | 0.142136364 | -0.106 | 1.62727273 |
| Tunja | -726812.77 | -0.013759091 | -0.049863636 | 0.032 | -1.17272727 |
| Valledupar | -514149.77 | 0.042640909 | -0.068863636 | -0.066 | 1.22727273 |
| Villavicencio | -487546.77 | -0.014359091 | 0.107136364 | -0.039 | 2.12727273 |
La matriz de covarianzas se define a partir de la matriz de datos centrados \(\tilde{X}\):
\[ S = \frac{1}{n} \tilde{X}^\prime \tilde{X} = \left[ \begin{array}{cccc} s_1^2 & s_{12} & \cdots & s_{1p} \\ s_{21} & s_2^2 & \cdots & s_{2p} \\ \vdots & \vdots & \vdots & \vdots \\ s_{p1} & s_{p2} & \cdots & s_p^2 \end{array} \right], \quad s_j^2 = s_{jj} \]
Varianza generalizada: definida como el determinante de la matriz de covarianzas \(|S|\).
Varianza total: definida como \(traza(S)\).
Estas medidas se pueden expresar en términos de los valores propios de \(S\), los cuales, como se verá más adelante, representan las varianzas de las componentes principales (factores).
A continuación se presenta la matriz de covarianzas calculada para las variables del conjunto de datos de ciudades:
| num_hab | analfabetismo | cobertura_pria_y_secdaria | cobertura_ed_sup | rel_al_prof | |
|---|---|---|---|---|---|
| num_hab | 2.228013e+12 | -9797.73 | -13331.06 | 116811.81 | -34962.92 |
| analfabetismo | -9.797730e+03 | 0.00 | 0.00 | 0.00 | 0.05 |
| cobertura_pria_y_secdaria | -1.333106e+04 | 0.00 | 0.01 | 0.00 | 0.07 |
| cobertura_ed_sup | 1.168118e+05 | 0.00 | 0.00 | 0.01 | -0.02 |
| rel_al_prof | -3.496292e+04 | 0.05 | 0.07 | -0.02 | 2.72 |
Contiene las observaciones centradas y estandarizadas: \(y_{ij} = \frac{x_{ij}- \bar{x}_j}{s_j}\)
\[ \tilde{Y} = \left\{\tilde{y}_{ij} \right\} = \left[ \begin{array}{cccc} \frac{x_{11}-\bar{x}_1}{s_1} & \frac{x_{12}-\bar{x}_2}{s_2} & \cdots &\frac{x_{1p}-\bar{x}_p}{s_p} \\ \frac{x_{21}-\bar{x}_1}{s_1} & \frac{x_{22}-\bar{x}_2}{s_2} & \cdots &\frac{x_{2p}-\bar{x}_p}{s_p}\\ \vdots & \vdots & \vdots & \vdots \\ \frac{x_{n1}-\bar{x}_1}{s_1} & \frac{x_{n2}-\bar{x}_2}{s_2} & \cdots& \frac{x_{np}-\bar{x}_p}{s_p} \end{array} \right] \]
De esta manera \(\bar{Y_j} = 0\) y \(Var(Y_j) = 1\).
\[ \tilde{Y} = \tilde{X} D^{-1/2}, \qquad D = \operatorname{diag}\{s_j^2\}, \qquad D^{-1/2} = \operatorname{diag}\!\left(\frac{1}{s_j}\right). \]
\[ \operatorname{med}(\tilde{Y}) = \tilde{Y}^{\prime}\mathbf{1}_n = D^{-1/2}\tilde{X}^{\prime}\mathbf{1}_n = D^{-1/2}\cdot 0 = 0. \]
Es una matriz simétrica que contiene unos en la diagonal, correspondientes a las correlaciones de cada variable consigo misma y por fuera de la diagonal aparecen las correlaciones \(r_{ij}\) entre pares de variables. Se define como
\[R = D^{-1/2}\, S \, D^{-1/2}\]
También se obtiene a partir de la matriz de datos centrados estandarizados así:
\[ R = \frac{1}{n} \tilde{Y}^\prime \tilde{Y} = \left[ \begin{array}{cccc} 1 & r_{12} & \cdots & r_{1p} \\ r_{21} & 1 & \cdots & r_{2p} \\ \vdots & \vdots & \vdots & \vdots \\ r_{p1} & r_{p2} & \cdots & 1 \end{array} \right], \quad r_{ij} = \frac{s_{ij}}{s_i s_j} \]
Matricialmente:
\[ R = D^{-1/2} S D^{-1/2} \] Nótese que la matriz de covarianzas de \(\tilde{Y}\) es también \(R\), puesto que
\[ S_{\tilde{Y}} = \frac{1}{n}\,\tilde{Y}^{\top}\tilde{Y} = \frac{1}{n}\,D^{-1/2}\tilde{X}^{\top}\tilde{X}\,D^{-1/2} = D^{-1/2} S D^{-1/2} = R. \]
Matriz de correlación entre las variables del archivo de ciudades:
| num_hab | analfabetismo | cobertura_pria_y_secdaria | cobertura_ed_sup | rel_al_prof | |
|---|---|---|---|---|---|
| num_hab | 1.00 | -0.15 | -0.09 | 0.79 | -0.01 |
| analfabetismo | -0.15 | 1.00 | -0.01 | -0.34 | 0.71 |
| cobertura_pria_y_secdaria | -0.09 | -0.01 | 1.00 | 0.09 | 0.42 |
| cobertura_ed_sup | 0.79 | -0.34 | 0.09 | 1.00 | -0.15 |
| rel_al_prof | -0.01 | 0.71 | 0.42 | -0.15 | 1.00 |
Sea \(Y\) la matriz de datos centrados, estandarizados y normados
\[ Y = \frac{1}{\sqrt{n}}\,\tilde{Y} = \frac{1}{\sqrt{n}}\,\tilde{X}\,D^{-1/2} \]
Esta matriz también está centrada puesto que
\[ \mathrm{med}(Y) = \frac{1}{\sqrt{n}}\,\mathrm{med}(\tilde{Y}) = 0. \]
Al estar autoponderada por \(\sqrt{\frac{1}{n}}\), se produce:
\[ S_Y = Y^{\top}Y = \frac{1}{n}\,\tilde{Y}^{\top}\tilde{Y} = R. \]
La varianza total es un indicador de la variabilidad global de una matriz de datos.
Se define como la suma de las varianzas de las variables:
\[
V_T = \sum_{j=1}^{p} s_j^2
\]
donde \(s_j^2\) es la varianza de la variable \(X_j\).
En particular, para las matrices de datos centrados y estandarizados se tiene
\[ S_{\tilde{Y}} = S_Y = R \]
donde \(R\) es la matriz de correlaciones.
Como la diagonal de \(R\) está compuesta por unos, se obtiene
\[ V_T(\tilde{Y}) = V_T(Y) = \operatorname{tr}(R) = p. \]
Una combinación lineal es una suma ponderada de los valores de una variable observada en varios objetos. Algunos ejemplos fundamentales son:
También se define como combinación lineal a la suma ponderada de los valores de varias variables observadas en un mismo objeto. Por ejemplo:
Las combinaciones lineales son herramientas esenciales en el análisis de datos multivariados.
Un caso destacado son las Componentes Principales, las cuales:
Son combinaciones lineales de los valores de las variables cuyas ponderaciones se construyen para que contengan la mayor cantidad posible de la varianza de las variables originales.
Sea \(X_{\cdot j}\) la j-ésima columna de la matriz de datos. Se define la combinación de los \(n\) valores de la variable \(j\) con constantes de ponderación \(a' = (a_1, \ldots, a_n)'\) por:
\[X^{\star}_j = a' X_{\cdot j} = \sum_{i=1}^{n} a_i x_{ij}, \qquad j = 1, \ldots, p.\]
En particular, el promedio de la variable \(j\) es una combinación lineal con constantes de ponderación \(p^\prime = (\frac{1}{n}, \ldots, \frac{1}{n})\):
\[ \bar{x}_j = p^\prime X_{\cdot j} = \sum_{i=1}^n \frac{1}{n} x_{ij}\]
Para el objeto \(i\) de la matriz de datos, cuyas observaciones están en la fila \(x_i^\prime = (x_{i1}, \ldots, x_{ip})^\prime\), se define la combinación lineal de los valores de las \(p\) variables con ponderaciones \(b^\prime = (b_1, \ldots, b_p)\) como:
\[ z_i = b^\prime x_{i \cdot} = \sum_{j=1}^p b_j x_{ij}, \quad i=1,\ldots,n\]
Nota importante
Este tipo de combinaciones lineales solo tienen sentido si las variables están estandarizadas, o cuando todas vienen medidas en las mismas escalas.
Uno de los más exigentes rankings del mundo es el Academic Rank of World Universities (ARWU), que utiliza los siguientes seis criterios de actividad académica e investigativa (entre paréntesis las ponderaciones):
| institution | Alumni | Award | HiCi | N.S | PUB | PCP | Total |
|---|---|---|---|---|---|---|---|
| Harvard | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 69.2 | 100.0 |
| California, Berkeley | 67.6 | 79.3 | 69.0 | 70.9 | 70.6 | 54.2 | 72.4 |
| Stanford | 40.2 | 78.4 | 87.6 | 68.4 | 69.7 | 50.1 | 72.1 |
| MIT | 70.5 | 80.3 | 66.8 | 70.1 | 61.4 | 64.5 | 71.4 |
| Cambridge | 88.5 | 92.6 | 53.9 | 54.3 | 65.7 | 53.1 | 69.6 |
| California I of Tech | 50.3 | 68.8 | 56.7 | 64.8 | 46.9 | 100.0 | 64.4 |
| Princeton | 56.4 | 84.8 | 61.1 | 43.3 | 44.3 | 65.5 | 60.8 |
| Columbia | 70.7 | 67.4 | 56.2 | 47.6 | 69.9 | 32.1 | 60.4 |
| Chicago | 65.5 | 83.9 | 50.9 | 39.8 | 50.5 | 40.0 | 57.3 |
| Oxford | 56.2 | 57.6 | 48.8 | 49.8 | 68.5 | 41.1 | 56.4 |
| Yale | 48.6 | 44.9 | 58.5 | 56.3 | 62.0 | 37.0 | 54.6 |
| Cornell | 42.3 | 51.1 | 54.3 | 49.9 | 59.5 | 38.1 | 52.6 |
| California, Los Angeles | 27.2 | 42.6 | 56.9 | 49.2 | 75.1 | 31.2 | 52.2 |
| California, San Diego | 15.1 | 35.8 | 60.2 | 54.6 | 65.1 | 37.9 | 50.0 |
| Pennsylvania | 32.9 | 34.3 | 57.1 | 46.9 | 68.6 | 28.5 | 49.0 |
| Washington | 24.4 | 31.7 | 53.9 | 51.6 | 72.5 | 28.1 | 48.7 |
| Wisconsin - Madison | 36.5 | 35.4 | 51.9 | 40.2 | 66.1 | 25.7 | 46.4 |
| The Johns Hopkins | 43.6 | 32.1 | 42.0 | 49.4 | 64.0 | 27.2 | 46.0 |
| California, San Francisco | 0.0 | 40.1 | 53.4 | 51.8 | 60.7 | 33.6 | 46.0 |
| The of Tokyo | 33.3 | 14.1 | 42.0 | 52.0 | 80.4 | 34.5 | 45.9 |
| College London | 32.9 | 32.1 | 39.4 | 44.6 | 67.0 | 31.6 | 44.4 |
| Michigan - Ann Arbor | 36.5 | 0.0 | 59.8 | 43.4 | 79.8 | 26.3 | 44.2 |
| Swiss Federal Institute of Technology Zurich | 34.1 | 36.1 | 36.3 | 43.6 | 53.6 | 47.1 | 43.4 |
| Kyoto | 33.7 | 34.7 | 38.1 | 36.0 | 67.6 | 31.0 | 43.1 |
| Illinois at Urbana-Champaign | 35.4 | 36.5 | 42.6 | 37.1 | 58.6 | 27.8 | 42.6 |
| The Imperial College of Science, Technology and Medicine | 17.7 | 37.2 | 41.4 | 36.9 | 62.3 | 33.0 | 41.9 |
| Toronto | 23.8 | 19.2 | 38.8 | 38.3 | 80.3 | 27.9 | 41.8 |
| Minnesota, Twin Cities | 30.6 | 16.2 | 50.4 | 36.1 | 66.6 | 23.9 | 40.6 |
| Northwestern | 18.5 | 18.9 | 48.3 | 35.9 | 59.7 | 28.4 | 38.4 |
| Washington in St. Louis | 21.3 | 25.9 | 38.8 | 41.0 | 54.8 | 26.7 | 38.1 |
| New York | 32.4 | 24.4 | 40.7 | 36.2 | 54.4 | 22.4 | 37.8 |
| California, Santa Barbara | 16.0 | 35.1 | 42.0 | 33.3 | 42.6 | 37.3 | 37.1 |
| Colorado at Boulder | 14.1 | 30.7 | 38.8 | 41.7 | 44.7 | 33.5 | 37.1 |
| Rockefeller | 19.2 | 58.4 | 28.8 | 42.3 | 21.0 | 35.6 | 36.7 |
| Duke | 17.7 | 0.0 | 45.8 | 42.2 | 62.0 | 24.4 | 35.3 |
| British Columbia | 17.7 | 18.9 | 32.2 | 30.8 | 65.7 | 23.7 | 34.7 |
| Maryland, College Park | 22.0 | 19.9 | 41.4 | 29.0 | 53.6 | 26.2 | 34.7 |
| The of Texas at Austin | 18.5 | 16.6 | 46.1 | 28.4 | 54.4 | 24.7 | 34.5 |
| Pierre and Marie Curie - Paris 6 | 34.8 | 23.5 | 24.9 | 28.8 | 59.9 | 21.9 | 34.2 |
| Copenhagen | 26.1 | 24.1 | 26.0 | 26.0 | 56.4 | 32.3 | 33.4 |
| North Carolina at Chapel Hill | 10.7 | 16.2 | 39.4 | 27.7 | 60.6 | 23.9 | 33.3 |
| Karolinska Institute | 26.1 | 27.2 | 31.4 | 20.5 | 49.9 | 38.1 | 33.2 |
| Pennsylvania State - Park | 11.9 | 0.0 | 46.6 | 37.4 | 56.1 | 23.2 | 32.6 |
| The of Manchester | 23.2 | 18.9 | 27.9 | 28.0 | 59.1 | 23.1 | 32.4 |
| Paris Sud (Paris 11) | 31.7 | 46.0 | 12.5 | 20.8 | 49.9 | 23.6 | 32.3 |
| California, Davis | 0.0 | 0.0 | 47.2 | 31.7 | 63.0 | 26.0 | 32.0 |
| California, Irvine | 0.0 | 29.3 | 36.7 | 26.3 | 49.3 | 26.9 | 32.0 |
| Southern California | 0.0 | 26.7 | 38.8 | 26.3 | 53.1 | 20.0 | 32.0 |
| The of Texas Southwestern Medical Center at Dallas | 20.6 | 33.1 | 30.5 | 29.9 | 38.4 | 23.5 | 31.8 |
| Utrecht | 26.1 | 20.9 | 27.9 | 30.4 | 48.2 | 26.1 | 31.7 |
| Zurich | 10.7 | 26.7 | 26.4 | 28.7 | 50.6 | 27.0 | 31.2 |
| Munich | 31.5 | 22.8 | 16.1 | 26.3 | 54.5 | 30.7 | 31.1 |
| Vanderbilt | 17.7 | 29.5 | 31.4 | 20.2 | 50.8 | 19.1 | 31.0 |
| Rutgers, The State New Jersey - New Brunswick | 13.1 | 19.9 | 40.1 | 27.9 | 43.7 | 23.2 | 30.9 |
| The of Edinburgh | 19.2 | 16.6 | 26.0 | 34.2 | 51.3 | 23.9 | 30.9 |
| Technical Munich | 39.2 | 23.5 | 24.9 | 19.5 | 46.5 | 29.2 | 30.7 |
| Pittsburgh | 21.3 | 0.0 | 42.0 | 23.4 | 63.1 | 19.0 | 30.7 |
| Carnegie Mellon | 32.9 | 32.7 | 30.5 | 15.2 | 34.2 | 34.3 | 30.2 |
| The Australian National | 15.1 | 12.6 | 36.0 | 27.8 | 43.8 | 31.1 | 29.6 |
| The Ohio State - Columbus | 15.1 | 0.0 | 41.7 | 22.8 | 62.0 | 19.1 | 29.6 |
| McGill | 31.1 | 0.0 | 32.2 | 22.9 | 59.6 | 25.3 | 29.5 |
| Melbourne | 19.9 | 14.1 | 22.8 | 18.7 | 63.1 | 27.0 | 29.3 |
| King's College London | 14.1 | 23.0 | 31.4 | 16.7 | 50.7 | 25.0 | 29.1 |
| Heidelberg | 16.9 | 27.0 | 17.6 | 23.0 | 50.6 | 28.6 | 29.1 |
| Brown | 16.0 | 13.6 | 31.4 | 29.6 | 41.9 | 32.1 | 29.0 |
| Bristol | 9.2 | 17.8 | 28.8 | 29.1 | 47.3 | 25.1 | 28.9 |
| Uppsala | 22.0 | 32.1 | 14.4 | 19.9 | 49.5 | 26.6 | 28.9 |
| Florida | 19.2 | 0.0 | 36.7 | 20.6 | 63.9 | 17.5 | 28.8 |
| Purdue - West Lafayette | 16.0 | 16.6 | 29.7 | 22.4 | 51.8 | 20.6 | 28.6 |
| Leiden | 21.3 | 15.4 | 27.9 | 19.9 | 47.8 | 32.4 | 28.4 |
| Ecole Normale Superieure - Paris | 50.8 | 24.4 | 12.5 | 18.7 | 27.9 | 56.7 | 28.3 |
| The Hebrew of Jerusalem | 31.5 | 19.9 | 24.9 | 20.8 | 41.6 | 26.5 | 28.1 |
| Helsinki | 16.0 | 17.8 | 22.8 | 20.6 | 52.7 | 28.2 | 28.1 |
| Moscow State | 46.8 | 34.1 | 0.0 | 9.6 | 52.4 | 31.2 | 27.9 |
| Osaka | 10.7 | 0.0 | 26.9 | 27.9 | 60.2 | 27.8 | 27.7 |
| Oslo | 22.0 | 33.3 | 17.6 | 13.5 | 46.6 | 24.3 | 27.7 |
| Boston | 13.1 | 11.5 | 29.7 | 24.7 | 50.0 | 19.3 | 27.3 |
| Arizona | 0.0 | 0.0 | 29.7 | 37.5 | 52.1 | 21.6 | 26.8 |
| Stockholm | 25.0 | 29.5 | 16.1 | 20.4 | 37.5 | 24.2 | 26.4 |
| Nagoya | 24.4 | 14.1 | 16.1 | 24.3 | 48.1 | 26.1 | 26.4 |
| Arizona State - Tempe | 0.0 | 19.9 | 24.9 | 26.9 | 44.3 | 21.1 | 26.1 |
| Rochester | 0.0 | 11.5 | 30.5 | 27.0 | 46.6 | 19.2 | 25.8 |
| Utah | 28.2 | 8.9 | 26.9 | 20.6 | 43.3 | 21.9 | 25.8 |
| Tohoku | 16.0 | 0.0 | 21.6 | 20.8 | 60.3 | 27.4 | 25.7 |
| Nottingham | 13.1 | 19.9 | 23.9 | 16.1 | 47.6 | 20.9 | 25.7 |
| Michigan State | 10.7 | 0.0 | 37.4 | 19.1 | 52.4 | 18.7 | 25.5 |
| Basel | 22.0 | 17.0 | 22.8 | 19.4 | 36.2 | 34.5 | 25.5 |
| McMaster | 14.1 | 18.9 | 22.8 | 14.8 | 47.3 | 22.8 | 25.2 |
| The of Sheffield | 19.9 | 14.1 | 21.0 | 21.3 | 44.3 | 22.6 | 25.2 |
| Ghent | 7.5 | 15.4 | 17.6 | 15.1 | 54.4 | 30.4 | 25.1 |
| Indiana Bloomington | 11.9 | 22.7 | 24.9 | 18.5 | 39.9 | 19.6 | 25.1 |
| Sydney | 16.9 | 0.0 | 20.4 | 18.4 | 61.4 | 25.1 | 25.0 |
| Bonn | 16.9 | 19.9 | 14.4 | 23.3 | 42.5 | 24.3 | 24.9 |
| Goettingen | 32.9 | 19.9 | 14.4 | 17.2 | 40.7 | 24.3 | 24.9 |
| Texas A&M - College Station | 0.0 | 0.0 | 34.5 | 21.0 | 54.0 | 21.0 | 24.8 |
| Virginia | 0.0 | 0.0 | 34.5 | 26.8 | 47.5 | 19.5 | 24.5 |
| Case Western Reserve | 34.5 | 11.5 | 21.6 | 14.3 | 41.9 | 22.7 | 24.3 |
| Aarhus | 13.1 | 18.9 | 7.2 | 23.5 | 48.4 | 25.4 | 24.2 |
| Rice | 18.5 | 21.8 | 21.6 | 18.8 | 30.2 | 29.6 | 24.0 |
| Birmingham | 21.3 | 10.9 | 21.6 | 16.2 | 46.4 | 20.7 | 24.0 |
El puntaje del ranking es una combinación lineal de los puntajes obtenidos por una universidad, con ponderaciones
\[b^\prime = (0.1, 0.2, 0.2, 0.2, 0.2, 0.1)\] donde \(\sum_{j=1}^p b_j = 1\) y
\[y_i = \sum_{j=1}^p b_j x_{ij} = b^\prime x_{i \cdot}\]
Para la Universidad de Harvard, cuyos puntajes son \[x_1 = (100, 100, 100, 100, 100, 69.2)\]
El valor de su puntaje total es:
\[ \begin{aligned} y_i &= 0.1(100) + 0.2(100) + 0.2(100) + 0.2(100) + 0.2(100) + 0.1(69.2) \\ y_i &= 96.92 \end{aligned} \]
Este valor se ajusta a 100 en la tabla final como el máximo valor de referencia.
Para la Universidad de Cambridge, el cálculo de la combinación lineal es:
\[ \begin{aligned} y_5 &= 0.1(88.5) + 0.2(92.6) + 0.2(53.9) + 0.2(54.3) + 0.2(65.7) + 0.1(53.1) \\ y_5 &= 67.46 \end{aligned} \]
Considerando que el valor máximo de referencia (Harvard) fue \(96.92\), el puntaje ajustado para Cambridge es:
\[67.46 / 0.9692 = 69.6\]
Las componentes principales son combinaciones lineales de los valores de las variables. Para su construcción se utilizan ponderaciones \(v_1' = (v_{11}, \ldots, v_{p1})\), la primera componente para el objeto \(i\), cuyas observaciones para las \(p\) variables están en la \(i\)-ésima fila de \(Y\) (matriz de datos centrados y estandarizados), \(y_{i\cdot}\) tiene la forma:
\[z_{i1} = y_{i\cdot}' \, v_1= \sum_{j=1}^{p} v_{j1} \, y_{ij},\qquad i = 1, \ldots, n.\]
\(z_{i1}\) es un promedio ponderado de los valores de las variables observadas en el objeto \(i\).
En el siguiente capítulo se realiza la construcción formal de las componentes y sus ponderaciones.
Como se verá en el siguiente capítulo, estas componentes tienen, entre otras, dos importantes propiedades:
Definición (medida de dispersión) El rango intercuartílico es una medida robusta de dispersión definida por:
\[IQR = Q_{0.75} - Q_{0.25}\]
Construcción del rango para detectar atípicos A partir del IQR se define el intervalo:
\[\left( Q_{0.25} - 1.5 \cdot IQR, \quad Q_{0.75} + 1.5 \cdot IQR \right)\]
Una observación se considera atípica si cae por fuera de este rango.
Esta regla es coherente con la idea de concentración de probabilidad en la distribución normal \(N(\mu, \sigma^2)\). Aproximadamente:
| ciudades | num_hab | analfabetismo | cobertura_pria_y_secdaria | cobertura_ed_sup | rel_al_prof |
|---|---|---|---|---|---|
| Armenia | 284.120 | 0 | 1 | 0 | 22 |
| Barranquilla | 1.163.007 | 0 | 1 | 0 | 22 |
| Bogota | 7.050.228 | 0 | 1 | 1 | 23 |
| Bucaramanga | 520.080 | 0 | 1 | 0 | 22 |
| Cali | 2.169.801 | 0 | 1 | 0 | 22 |
| Cartagena | 912.674 | 0 | 1 | 0 | 24 |
| Cucuta | 600.049 | 0 | 1 | 0 | 22 |
| Ibague | 509.796 | 0 | 1 | 0 | 23 |
| Manizales | 383.483 | 0 | 1 | 0 | 22 |
| Medellin | 2.264.776 | 0 | 1 | 0 | 26 |
| Monteria | 390.996 | 0 | 1 | 0 | 26 |
| Neiva | 322.098 | 0 | 1 | 0 | 23 |
| Pasto | 394.074 | 0 | 1 | 0 | 22 |
| Pereira | 448.971 | 0 | 1 | 0 | 23 |
| Popayan | 261.694 | 0 | 1 | 0 | 22 |
| Riohacha | 184.847 | 0 | 1 | 0 | 26 |
| San Andres | 66.675 | 0 | 1 | 0 | 20 |
| Santa Marta | 428.374 | 0 | 1 | 0 | 23 |
| Sincelejo | 245.180 | 0 | 1 | 0 | 25 |
| Tunja | 161.209 | 0 | 1 | 0 | 22 |
| Valledupar | 373.872 | 0 | 1 | 0 | 24 |
| Villavicencio | 400.475 | 0 | 1 | 0 | 25 |
Utilizando la regla del Rango Intercuartílico (\(IQR\)): \([Q_1 - 1.5IQR, Q_3 + 1.5IQR]\).
ciudades_atipicas <- ciudades
# Función para identificar atípicos y marcarlos
marcar_atipicos <- function(x) {
q1 <- quantile(x, 0.25, na.rm = TRUE)
q3 <- quantile(x, 0.75, na.rm = TRUE)
iqr <- q3 - q1
inf <- q1 - 1.5 * iqr
sup <- q3 + 1.5 * iqr
# Retornar el valor original como texto o "*" si es atípico
ifelse(x < inf | x > sup, "*", as.character(round(x, 2)))
}
ciudades_atipicas[, 2:6] <- lapply(ciudades[, 2:6], marcar_atipicos)| ciudades | num_hab | analfabetismo | cobertura_pria_y_secdaria | cobertura_ed_sup | rel_al_prof |
|---|---|---|---|---|---|
| Armenia | 284120 | 0.09 | 1.09 | 0.27 | 22.4 |
| Barranquilla | * | 0.09 | 1.08 | 0.31 | 22.5 |
| Bogota | * | 0.1 | 1 | * | 22.6 |
| Bucaramanga | 520080 | 0.08 | 1.19 | 0.33 | 22.2 |
| Cali | * | 0.08 | 1.02 | 0.22 | 22 |
| Cartagena | 912674 | 0.12 | 1.21 | 0.15 | 24.4 |
| Cucuta | 600049 | 0.11 | 1.15 | 0.22 | 22.4 |
| Ibague | 509796 | 0.11 | 0.98 | 0.18 | 23.4 |
| Manizales | 383483 | 0.08 | 1.14 | 0.23 | 22.2 |
| Medellin | * | 0.13 | 1.22 | 0.3 | 26.3 |
| Monteria | 390996 | 0.16 | 1.11 | 0.15 | 26.1 |
| Neiva | 322098 | 0.11 | 1.1 | 0.18 | 23.3 |
| Pasto | 394074 | 0.11 | 1.05 | 0.13 | 21.8 |
| Pereira | 448971 | 0.1 | 1.12 | 0.28 | 22.6 |
| Popayan | 261694 | 0.09 | 1.14 | 0.16 | 21.5 |
| Riohacha | 184847 | * | 1 | 0.15 | 26.1 |
| San Andres | 66675 | 0.08 | * | 0.11 | 20.4 |
| Santa Marta | 428374 | 0.12 | 1 | 0.12 | 22.9 |
| Sincelejo | 245180 | 0.16 | 1.23 | 0.11 | 24.9 |
| Tunja | 161209 | 0.1 | 1.04 | 0.24 | 22.1 |
| Valledupar | 373872 | 0.16 | 1.02 | 0.15 | 24.5 |
| Villavicencio | 400475 | 0.1 | 1.19 | 0.17 | 25.4 |
Interpretación
Las celdas con * indican que esa ciudad representa un valor extremo para esa dimensión educativa o poblacional en comparación con el resto del grupo.
Ejemplo: Problema de detección bidimensional
Al analizar dos variables simultáneamente, una observación puede no ser atípica en ninguna de las variables por separado, pero sí serlo por romper la estructura de correlación del grupo.
Intuitivamente, la distancia entre dos puntos A y B en una superficie plana es la longitud del espacio que hay entre ellos.
Si se desea ir de A hacia B, la distancia se puede medir en unidades físicas (como metros), lo que nos da una idea clara de qué tan lejos o cerca se encuentran el uno del otro.
Esta idea de distancia se formaliza mediante las siguientes propiedades. Sean \(A\), \(B\) y \(C\) puntos en el espacio \(\mathbb{R}^2\) (o superior):
No negatividad: La distancia siempre es mayor o igual a cero, \(d(A,B) \ge 0\).
Simetría: La distancia de \(A\) a \(B\) es la misma que de \(B\) a \(A\): \[d(A,B) = d(B,A)\]
Desigualdad triangular: Ir de \(A\) a \(B\) directamente es siempre más corto o igual que pasar por un tercer punto \(C\): \[d(A,B) \le d(A,C) + d(C,B)\]
Un ejemplo básico de estas métricas es el valor absoluto entre dos números \(a\) y \(b\).
La distancia se mide por la diferencia entre ellos. Para evitar la ambigüedad que produce el signo de la diferencia (\(a-b\) vs \(b-a\)), se utiliza el valor absoluto: \[|a-b|\] Este valor siempre es positivo y cumple con todas las propiedades de una métrica mencionadas anteriormente.
Para dos filas (\(i\), \(i'\) con \(i \ne i'\)) de la matriz de datos \(\mathbf{X}\):
La distancia euclidiana es la raíz cuadrada de la suma de las diferencias al cuadrado entre las coordenadas de cada variable:
\[d_e(\mathbf{x}_i, \mathbf{x}_{i'}) = \sqrt{(\mathbf{x}_i - \mathbf{x}_{i'})^\top (\mathbf{x}_i - \mathbf{x}_{i'})} = \sqrt{\sum_{j=1}^p (x_{ij} - x_{i'j})^2}\]
El paquete distances permite calcular las distancias entre objetos:
Note
Note que se utiliza la proporción de poblacion por ciudad
a) Más lejanas
|
b) Más cercanas
|
||||
|---|---|---|---|---|---|
| Ciudad A | Ciudad B | Dist. | Ciudad A | Ciudad B | Dist. |
| Medellin | San Andres | 5.92 | Armenia | Barranquilla | 0.12 |
| Monteria | San Andres | 5.71 | Barranquilla | Pereira | 0.12 |
| Riohacha | San Andres | 5.71 | Bucaramanga | Manizales | 0.11 |
| San Andres | Villavicencio | 5.02 | Armenia | Cucuta | 0.08 |
La Distancia de Mahalanobis es una medida de la distancia entre observaciones multivariadas que posee la propiedad de incluir tanto las distancias euclidianas entre las variables como el grado de correlación entre ellas.
Asumiendo que hay \(n\) observaciones para dos variables \(X_1\) y \(X_2\):
\[ \begin{bmatrix} x_{11} & x_{12} \\ \vdots & \vdots \\ x_{i1} & x_{i2} \\ \vdots & \vdots \\ x_{i'1} & x_{i'2} \\ \vdots & \vdots \\ x_{n1} & x_{n2} \end{bmatrix} \]
La distancia de Mahalanobis al cuadrado entre las observaciones \(i\) e \(i'\) se define como:
\[ d_M^2(i,i') = \frac{1}{(1-r_{12}^2)} \left[ \frac{(x_{i1}-x_{i'1})^2}{s_1^2} + \frac{(x_{i2}-x_{i'2})^2}{s_2^2} - 2r_{12}\frac{(x_{i1}-x_{i'1})(x_{i2}-x_{i'2})}{s_1s_2} \right] \]
Donde:
La distancia de Mahalanobis ajusta la métrica de cercanía basándose en la estructura de covarianza de los datos. Su comportamiento depende críticamente del coeficiente de correlación \(r_{12}\):
Elipses de distancia para tres niveles de correlación (\(r\)).
Note
Observe cómo la elipse se “estira” y cambia de orientación, lo que redefine qué puntos se consideran “cercanos” al centro.
Matriz de datos reducida Cuando solo se dispone de dos observaciones, la matriz de datos toma la forma: \[\begin{bmatrix} x_{11} & x_{12} \\ x_{21} & x_{22} \end{bmatrix}\]
Varianzas como sumas de cuadrados Dado que \(n=2\), las varianzas se simplifican a: \[s_j^2 = \sum_{i=1}^2 (x_{ij}-\bar{x}_j)^2, \qquad j=1,2\]
Note
Este caso es fundamentalmente ilustrativo y tiene escaso interés práctico, debido a la inestabilidad inherente a trabajar con un número extremadamente pequeño de observaciones.
En R se usa el mismo paquete distances agregando el argumento normalize = "mahalanobize"
Obteniendo:
a) Más lejanas (Mahalanobis)
|
b) Más cercanas (Mahalanobis)
|
||||
|---|---|---|---|---|---|
| Ciudad A | Ciudad B | Dist. | Ciudad A | Ciudad B | Dist. |
| Bogota | Riohacha | 5.81 | Barranquilla | Pereira | 0.74 |
| Bogota | San Andres | 5.55 | Armenia | Tunja | 0.74 |
| Riohacha | San Andres | 5.52 | Armenia | Pereira | 0.65 |
| Riohacha | Villavicencio | 5.49 | Armenia | Barranquilla | 0.63 |
Una matriz simétrica \(B_{p \times p}\) (como \(R\) o \(S\)) se puede reconstruir o factorizar a partir de sus valores y vectores propios:
\[B = U \Lambda U^\prime\]
Donde:
Casos particulares:
Es el caso más común. Se descompone como
\[R = U \Lambda U^\prime\]
La multiplicación de cada columna de \(U\) por cada fila de la matriz de datos centrada y estandarizada \(Y\) produce una componente principal.
Casos particulares:
Caso menos frecuente:
\[S = U \Lambda U^\prime,\]
donde \(U\) y \(\Lambda\) contienen los vectores y valores propios de \(S\) respectivamente.
Tomando la \(j\)-ésima columna de \(U\), denotada por \(u_j^\prime = (u_{1j}, \ldots, u_{pj})^\prime\), la \(j\)-ésima componente principal se obtiene mediante el producto matricial:
\[ Y u_j = \begin{bmatrix} \sum_{k=1}^{p} u_{kj} y_{1k} \\ \vdots \\ \sum_{k=1}^{p} u_{kj} y_{ik} \\ \vdots \\ \sum_{k=1}^{p} u_{kj} y_{nk} \end{bmatrix} = \begin{bmatrix} z_{1j} \\ \vdots \\ z_{ij} \\ \vdots \\ z_{nj} \end{bmatrix}, \quad j = 1, \ldots, p \]
Para \(j=1\), este resultado corresponde a la primera componente principal.
Aunque en la práctica no se justifica un Análisis de Componentes Principales (ACP) con solo dos variables ya que el coeficiente de correlación y una gráfica de dispersión bastan para representar las relaciones entre ellas, realizaremos un ACP de los rankings regional y mundial con el único objetivo de ilustrar cómo funcionan las componentes y el tipo de información que contienen.
A continuación se presenta la distribución de las instituciones según su posición en los rankings:
library(pacman)
p_load(tidyverse, janitor, FactoMineR)
url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
arwu <- read.csv2(paste0(url, "arwu.csv"))
rownames(arwu) <- arwu$Institution
(g1 <- ggplot(arwu, aes(x = Regional.Rank, y = World.Rank, color = Country, label = Country)) +
geom_text() +
theme_bw() +
labs(title = "Rankings ARWU",
x = "Ranking Regional",
y = "Ranking Mundial"))Biplot para los rankings regional y mundial. Permite visualizar la dirección de máxima varianza y cómo se agrupan los países en relación con estas nuevas dimensiones.
Visualización de los datos originales comparando la relación alumnos/profesor frente a la tasa de analfabetismo por ciudad.
Visualización de los datos originales comparando la relación alumnos/profesor frente a la tasa de analfabetismo por ciudad.
La descomposición en valores singulares es más general que el TDE, pues no requiere que la matriz sea simétrica, lo que garantiza que también la matriz de datos puede ser descompuesta.
El TDVS garantiza que una matriz \(C_{n \times p}\), con \(n \ge p\) y rango \(r\) (equivalentemente, con \(r\) columnas linealmente independientes, como la matriz de datos \(X\) o la estandarizada \(Y\)), se puede factorizar como:
\[C = U L V^\prime \tag{1}\]
Donde los componentes de la factorización \(C = ULV'\) son:
La equivalencia con los valores propios no nulos de \(CC^\prime\) se establece tomando \[L = \mathrm{diag}(\sqrt{\mu_1}, \ldots, \sqrt{\mu_r}),\] donde \(\mu_\alpha\) es el \(\alpha\)-ésimo valor propio no nulo de \(CC^\prime\).
Reconstrucción de la matriz de puntajes del ranking ARWU mediante el TDVS
El ejercicio implica los siguientes pasos:
url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/"
arwu_svd <- read.csv2(paste0(url, "ARWU_100_top.csv"))[, -c(2:6)]
rownames(arwu_svd) <- arwu_svd[, 1]
C <- as.matrix(arwu_svd[, -1])
# Descomposición SVD
svd_C <- svd(C)
U <- svd_C$u
L <- diag(svd_C$d)
V <- svd_C$v
# Reconstrucción completa y error
C_rec <- U %*% L %*% t(V)
error_total <- norm(C - C_rec, type = "F")
r_max <- ncol(C)
errores <- sapply(1:r_max, function(r) {
C_r <- svd_C$u[, 1:r, drop = FALSE] %*%
diag(svd_C$d[1:r], r, r) %*%
t(svd_C$v[, 1:r, drop = FALSE])
norm(C - C_r, type = "F")
})Con los datos del ARWU_100_top.csv elaborar un diagrama de barras que muestre las primeras 20 universidades según World Rank, con barras de la altura del indicador de
¿Hay universidades que se distinguen por el indicador que le correspondió al grupo?, ¿Cuáles?
Utilizar los datos del archivo r14_Sci_Qs_Webometrics.csv para elaborar gráficos de dispersión de
¿Hay inconsistencias en las posiciones de las universidades entre los rankings que se compararon?
Usar como referencia el ejemplo 2.4.2
Con los datos del ARWU_100_top.csv elaborar una matriz de dispersión con
¿Se puede intuir algún tipo de asociación entre los criterios y el tipo de ranking que se incluyó en la matriz de dispersión? Usar como referencia la gráfica 2.10
Con los datos del archivo datos_ciudades.xlsx elaborar diagramas de cajas (Boxplots) para visualizar si hay datos atípicos en las variables
Utilizar el archivo datos_ciudades.xlsx para calcular los cuantiles \(Q_{.25}\) y \(Q_{.75}\) para corroborar si hay observaciones atípicas en las variables del conjunto que le correspondió al grupo.
Calcular la matriz de correlación entre las variables del conjunto que le correspondió al grupo en el ejercicio 5 y escoger las dos variables que tienen mayor correlación. Calcular la distancia euclidiana entre San Andrés y Riohacha con respecto a estas dos variables y luego calcular la distancia de Mahalanobis entre las mismas ciudades respecto a las mismas dos variables. Para el cálculo de la distancia de Mahalanobis utilizar la matriz de covarianzas de las dos variables con todas las ciudades.
¿Son las dos distancias igual?
¿A qué se puede atribuir la diferencia si la hay?
Utilizar los datos del archivo datos_ciudades.xlsx y los mismos grupos de variables asignados en el ejercicio de datos atípicos, junto con la subtabla de indicadores de Recursos Humanos del mismo archivo de ciudades, para conformar una nueva tabla que contenga los dos conjuntos de variables.
Calcular la matriz de covarianzas con el comando cov() de R. ¿Coincide con la obtenida en el punto 3? ¿Por qué?
Calcular la matriz \(Y\) de datos centrados estandarizados a partir del vector de medias y las desviaciones estándar del punto 1.
Calcular la matriz de correlación a partir de \(\frac{1}{n}Y'Y\). Calcular también la matriz de correlación con el comando cor() de R. ¿Coinciden? ¿Por qué?
Calcular la matriz de covarianzas \(S\) e identificar las dos variables con mayor covarianza y las dos con menor covarianza.
Calcular la matriz de correlación \(R\) e identificar las dos variables con mayor correlación y las dos con menor correlación. ¿Son las mismas que las identificadas en el punto 7?
Calcular el producto \(\frac{1}{n}Y'Y\) y verificar que coincide exactamente con la matriz \(R\) obtenida en el punto 8. ¿Por qué?
Comprobar que la matriz de covarianzas se obtiene con \(\frac{1}{n}\tilde{X}'\tilde{X}\).
Comprobar que la matriz de correlación se obtiene con \(\frac{1}{n}Y'Y\).
Construir una matriz de datos con los puntajes en los seis criterios del ranking ARWU para las universidades del grupo asignado y comprobar que con el TDVS se puede reconstruir.
| Grupo | Universidades |
|---|---|
| Grupo 1 | Puestos 91 a 100 |
| Grupo 2 | Puestos 81 a 90 |
| Grupo 3 | Puestos 71 a 80 |
| Grupo 4 | Puestos 61 a 70 |
| Grupo 5 | Puestos 51 a 60 |
| Grupo 6 | Puestos 41 a 50 |
Como preparación para el examen, se recomienda resolver el siguiente laboratorio:
Este material ha sido creado por Jimmy Corzo y Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.
Cualquier copia parcial o total de este material, debe citar la fuente como:
Corzo J., & Babativa-Márquez, J.G. Diapositivas del curso de estadística descriptiva multivariada. URL: https://jgbabativam.github.io/Curso_Multivariado/