Estadística Descriptiva Multivariada

Análisis de Componentes Principales

Jimmy A Corzo S, PhD
Giovany Babativa-Márquez, PhD

Panorama de la Estadística Descriptiva Multivariada  en el moderno contexto del aprendizaje estadístico no supervisado

Objetivo de los métodos supervisados

Predecir una variable respuesta \(Y\) a partir de predictores \(X_1, \ldots, X_p\) mediante un modelo

\[Y = f(X_1, \ldots, X_p)\] Evaluación. La calidad del modelo se mide con un criterio externo de error que compara predicciones \(\hat{y}_i\) con observaciones reales \(y_i\).

Relación entre el predictor y la variable respuesta

¿Qué es lo supervisado?

Idea clave. Al observar \(Y\), el aprendizaje se puede supervisar:



  • Entrenamiento: ajustar \(f\) usando una fracción de los datos.
  • Prueba/validación: evaluar en datos independientes comparando \(\hat{y}_i\) vs. \(y_i\) con una medida de error.

Métodos típicos en la categoría supervisados


  • Regresión: Regresión lineal, polinómica y regularizada (ridge/lasso).

  • Clasificación: Regresión logística, árboles, k-NN, SVM y redes neuronales.

  • Modelos extendidos: Modelos lineales generalizados (GLM) y aditivos generalizados (GAM).

Contraste: Aprendizaje Supervisado vs No Supervisado

Idea central. En el Aprendizaje Estadístico No Supervisado solo se observan variables explicativas \(X_1, \ldots, X_p\); no existe una variable respuesta \(Y\) que permita supervisar el aprendizaje ni evaluar el ajuste mediante un criterio externo de error.

  • No hay una respuesta observable que se desee predecir.
  • El problema no se formula en términos de predicción supervisada.
  • La evaluación del resultado es interna al método y de carácter exploratorio.

Contraste: Aprendizaje Supervisado vs No Supervisado

Contraste: Aprendizaje Supervisado vs No Supervisado

Métodos en Aprendizaje No Supervisado

Como parte del Aprendizaje Estadístico No Supervisado se incluyen, entre otros, los siguientes métodos:


  • Reducción de dimensión: Análisis de Componentes Principales (ACP).
  • Asociación en tablas categóricas: Análisis de Correspondencias (AC) y Análisis de Correspondencias Múltiples (ACM).
  • Estructura de similitud: métodos de agrupamiento (clustering).

Ilustración en el plano factorial

Mapa conceptual

La estadística multivariada en el contexto del aprendizaje no supervisado

Mapa conceptual

La estadística multivariada en el contexto del aprendizaje no supervisado

Métodos tratados en este curso

  • PCA (Principal Components Analysis).
  • CA (Correspondence Analysis).
  • MCA (Multiple Correspondence Analysis).
  • K-means.
  • k-medoids (Partitioning Around Medoids - PAM)
  • Clustering jerarquico (aglomerativo o divisivo).

Métodos de reducción de dimensión

Basados en descomposición SVD

  • PCA (Análisis de Componentes Principales): Método lineal para variables numéricas que busca direcciones de máxima varianza. Basado en la SVD de la matriz centrada (y estandarizada).

  • CA (Análisis de Correspondencias): Analiza la asociación entre dos variables cualitativas en tablas de contingencia a través de perfiles centrados y ponderados. Utiliza una SVD ponderada para obtener coordenadas principales.

  • MCA (Análisis de Correspondencias Múltiples): Extensión del CA a múltiples variables cualitativas mediante la matriz indicatoria o de Burt. Fundamentado en una SVD en el espacio chi-cuadrado.

Métodos de reducción de dimensión

  • MFA (Análisis Factorial Múltiple): Permite analizar múltiples tablas de variables cuantitativas y/o cualitativas; normaliza cada bloque y aplica una SVD global para extraer factores comunes.

  • STATIS (incluye DiSTATIS): Método para tablas estructuradas en tres vías; construye una compromise matrix y aplica descomposición espectral para obtener configuraciones y compromisos.

  • MDS clásico (CMDS): Recupera coordenadas en espacio euclidiano mediante la descomposición espectral de la matriz de distancias doblemente centrada; algebraicamente equivalente a una SVD.

Métodos no lineales de reducción

  • t-SNE (t-distributed Stochastic Neighbor Embedding): Minimiza la divergencia de Kullback–Leibler entre distribuciones de vecinos. No utiliza SVD salvo como opción para inicialización.

  • UMAP (Uniform Manifold Approximation and Projection): Aprendizaje de variedades basado en grafos fuzzy y optimización de atracción-repulsión. No utiliza SVD excepto cuando se inicializa con PCA.

  • Isomap: Aprendizaje de manifolds basado en distancias geodésicas; aplica MDS al final pero no es un método basado en SVD.

  • NMF (Nonnegative Matrix Factorization): Factorización iterativa de matrices no negativas mediante algoritmos multiplicativos o ALS. No utiliza SVD, aunque puede inicializarse con ella.

Métodos de agrupamiento (Clustering)

  • K-means: Asigna cada observación al centroide más cercano minimizando la suma de distancias cuadráticas intra-grupo. Requiere fijar el número de clusters y es sensible a valores atípicos.

  • K-medoids (PAM): Variante robusta de K-means que utiliza medoids (observaciones reales) en lugar de centroides; adecuada para diferentes métricas de distancia.

  • Clustering jerárquico (aglomerativo o divisivo): Construye un dendrograma secuencialmente. No requiere especificar el número de clusters a priori; permite distintos criterios de enlace (single, complete, average, Ward).

Proceso iterativo no jerárquico

Métodos de agrupamiento (Clustering)

  • DBSCAN: Método basado en densidad que identifica regiones densas separadas por zonas de baja densidad. Detecta ruido y produce clusters de formas arbitrarias sin necesidad de fijar el número de grupos - visualización.

  • HDBSCAN: Extensión jerárquica de DBSCAN que permite densidades variables; produce clusters más estables con mejor detección de ruido en datos heterogéneos.

  • GMM (Gaussian Mixture Models): Modelo probabilístico que representa los datos como mezcla de distribuciones normales. Ofrece pertenencias suaves (probabilidades) mediante el algoritmo EM.

  • Clustering espectral: Utiliza los autovectores del Laplaciano de un grafo de similitudes para representar los datos en espacio reducido donde luego aplica K-means. Detecta clusters no lineales.

Elementos de álgebra lineal requeridos en análisis multivariado

  • Espacios vectoriales: vectores, subespacios, bases y dimensión.

  • Producto interno: norma, ángulos y ortogonalidad.

  • Proyección ortogonal y mínimos cuadrados.

  • Matrices: operaciones matriciales, rango, traza e inversa (cuando existe).

  • Matrices simétricas y definidas positivas.

  • Valores y vectores propios.

  • Teorema de la descomposición espectral (TDE).

  • Teorema de la descomposición en valores singulares (TDVS).

Naturaleza de los conjuntos de datos del curso

A lo largo del desarrollo del curso se trabajará exclusivamente con conjuntos de datos reales del contexto colombiano, sobre los siguientes ámbitos:

  • 🎓 Educación
  • 📊 Calidad de vida
  • 🏛 Rankings universitarios
  • 🛍 Investigación de mercados
  • 📚 Otros contextos aplicados

Tipos de variables

Variables cualitativas

  • Describen cualidades, categorías o clases de los objetos.
  • No admiten operaciones aritméticas directas.
    • Nominales: funcionan como códigos sin orden implícito.
      • Ejemplos: ciudades, países, identificadores.
    • Categóricas (u ordinales): representan categorías con orden o jerarquía.
      • Ejemplos: niveles educativos, estratos socioeconómicos, posiciones en rankings.
  • Sus valores se denominan modalidades u opciones de respuesta.

Variables cuantitativas

  • Se expresan en una escala numérica y admiten comparaciones métricas.
  • Permiten definir distancias y aplicar operaciones aritméticas.
  • Continuas: toman valores en un intervalo continuo.
    • Ejemplos: altura, edad, ingresos, longitud.
  • Discretas: toman valores enteros.
    • Ejemplos: número de habitantes, conteos de eventos.
    • Los promedios pueden producir valores no directamente interpretables (p. ej., 4.6 aviones por minuto).

Tipos de variables y métodos multivariados

Las variables son de tipo…

🔢
Cuantitativas
continuas o discretas numéricas
⬇️

PCA

🏷️
Cualitativas
nominales u ordinales
⬇️

MCA

🧩
Mixtas / por grupos
bloques de variables
⬇️

MFA

El tipo de variable define la geometría del espacio y la métrica del análisis.

Proceso de analítica

Wickham, H. y otros (2023)

Proceso de analítica

PANORAMA GENERAL

Motivación: ¿por qué componentes principales?

  • Los gráficos de dispersión permiten explorar relaciones entre pares de variables cuantitativas e identificar patrones, tendencias y valores atípicos.

  • Mediante colores, tamaños o etiquetas es posible incorporar información adicional, pero la representación sigue estando limitada a dos dimensiones.

  • Cuando el número de variables es grande, los planos definidos por variables originales no capturan adecuadamente la estructura global de los datos.

  • Las componentes principales definen nuevos ejes, como combinaciones lineales de las variables originales, que maximizan la variabilidad.

  • Los planos generados por las primeras componentes proporcionan representaciones más informativas y sintéticas de los datos.

Motivación: variables originales vs plano PCA

Ejemplo: ARWU

¿Qué son los rankings universitarios?

  • Clasificación basada en criterios definidos por la entidad.
  • Responde a un modelo implícito de universidad de élite.
  • Los resultados difieren entre rankings.

Criterios frecuentes

  • Producción e impacto científico
  • Calidad de revistas
  • Investigación e innovación
  • Docentes con doctorado
  • Reputación académica
  • Internacionalización
  • Premios y distinciones

ARWU Cont.

Construcción estadística de los rankings

  • Se basan en múltiples indicadores asociados a distintos criterios.

  • Los indicadores se normalizan o estandarizan para hacerlos comparables.

  • Se calcula un puntaje total mediante una combinación lineal ponderada (los pesos reflejan el modelo implícito de universidad).

  • Con el puntaje total se obtiene un ordenamiento (puesto 1 al mayor puntaje, puesto 2 al siguiente, etc.).

  • El resultado es un orden relativo: las diferencias numéricas no necesariamente representan “distancias”.

Distribución por país en el Top 100 (ARWU 2013)

Universidades ubicadas en los 100 primeros puestos del ARWU (año 2013). Se analizan sus posiciones mundial y, por derivación, sus posiciones nacional y regional.

library(readr)

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/arwu.csv"
arwu <- read_csv2(url)

Estructura de los datos

Institution Region Country Regional Rank World Rank National Rank
Harvard University Americas US 1 1 1
University of California, Berkeley Americas US 2 2 2
Stanford University Americas US 3 3 3
Massachusetts Institute of Technology (MIT) Americas US 4 4 4
University of Cambridge Europe UK 1 5 1
California Institute of Technology Americas US 5 6 5
Princeton University Americas US 6 7 6
Columbia University Americas US 7 8 7
University of Chicago Americas US 8 9 8
University of Oxford Europe UK 2 10 2
Yale University Americas US 9 11 9
Cornell University Americas US 10 12 10
University of California, Los Angeles Americas US 11 13 11
University of California, San Diego Americas US 12 14 12
University of Pennsylvania Americas US 13 15 13
University of Washington Americas US 14 16 14
University of Wisconsin - Madison Americas US 15 17 15
The Johns Hopkins University Americas US 16 18 16
University of California, San Francisco Americas US 16 18 17
The University of Tokyo Asia/Pacific JP 1 20 1
University College London Europe UK 3 21 3
University of Michigan - Ann Arbor Americas US 18 22 18
Swiss Federal Institute of Technology Zurich Europe SW 4 23 1
Kyoto University Asia/Pacific JP 2 24 2
University of Illinois at Urbana-Champaign Americas US 19 25 19
The Imperial College of Science, Technology and Medicine Europe UK 5 26 4
University of Toronto Americas CA 20 27 1
University of Minnesota, Twin Cities Americas US 21 28 20
Northwestern University Americas US 22 29 21
Washington University in St. Louis Americas US 23 30 22
New York University Americas US 24 31 23
University of California, Santa Barbara Americas US 25 32 24
University of Colorado at Boulder Americas US 25 32 24
Rockefeller University Americas US 27 34 26
Duke University Americas US 28 35 27
University of British Columbia Americas CA 29 36 2
University of Maryland, College Park Americas US 29 36 28
The University of Texas at Austin Americas US 31 38 29
Pierre and Marie Curie University - Paris 6 Europe FR 6 39 1
University of Copenhagen Europe DE 7 40 1
University of North Carolina at Chapel Hill Americas US 32 41 30
Karolinska Institute Europe SE 8 42 1
Pennsylvania State University - University Park Americas US 33 43 31
The University of Manchester Europe UK 9 44 5
University of Paris Sud (Paris 11) Europe FR 10 45 2
University of California, Davis Americas US 34 46 32
University of California, Irvine Americas US 34 46 32
University of Southern California Americas US 34 46 32
The University of Texas Southwestern Medical Center at Dallas Americas US 37 49 35
Utrecht University Europe NL 11 50 1
University of Zurich Europe SW 12 51 2
University of Munich Europe GE 13 52 1
Vanderbilt University Americas US 38 53 36
Rutgers, The State University of New Jersey - New Brunswick Americas US 39 54 37
The University of Edinburgh Europe UK 14 54 6
Technical University Munich Europe GE 15 56 2
University of Pittsburgh Americas US 40 56 38
Carnegie Mellon University Americas US 41 58 39
The Australian National University Asia/Pacific AS 3 59 1
The Ohio State University - Columbus Americas US 42 59 40
McGill University Americas CA 43 61 3
University of Melbourne Asia/Pacific AS 4 62 2
King's College London Europe UK 16 63 7
University of Heidelberg Europe GE 16 63 3
Brown University Americas US 44 65 41
University of Bristol Europe UK 18 66 8
Uppsala University Europe SE 18 66 2
University of Florida Americas US 45 68 42
Purdue University - West Lafayette Americas US 46 69 43
Leiden University Europe NL 20 70 2
Ecole Normale Superieure - Paris Europe FR 21 71 3
The Hebrew University of Jerusalem Asia/Pacific IR 5 72 1
University of Helsinki Europe FI 22 72 1
Moscow State University Europe RU 23 74 1
Osaka University Asia/Pacific JP 6 75 3
University of Oslo Europe NW 24 75 1
Boston University Americas US 47 77 44
University of Arizona Americas US 48 78 45
Stockholm University Europe SE 25 79 3
Nagoya University Asia/Pacific JP 7 79 4
Arizona State University - Tempe Americas US 49 81 46
University of Rochester Americas US 50 82 47
University of Utah Americas US 50 82 47
Tohoku University Asia/Pacific JP 8 84 5
University of Nottingham Europe UK 26 84 9
Michigan State University Americas US 52 86 49
University of Basel Europe SW 27 86 3
McMaster University Americas CA 53 88 4
The University of Sheffield Europe UK 28 88 10
Ghent University Europe BE 29 90 1
Indiana University Bloomington Americas US 54 90 50
University of Sydney Asia/Pacific AS 9 92 3
University of Bonn Europe GE 30 93 4
University of Goettingen Europe GE 30 93 4
Texas A&M University - College Station Americas US 55 95 51
University of Virginia Americas US 56 96 52
Case Western Reserve University Americas US 57 97 53
Aarhus University Europe DE 32 98 2
Rice University Americas US 58 99 54
University of Birmingham Europe UK 33 99 11

ARWU Cont.

Comparación de la visualización de los datos originales con su proyección sobre las dos primeras componetes principales.

Rankings universidades latinoamericanas

Scimago

Ranking orientado a la actividad investigativa.

Indicadores principales:

  • Impacto y productividad científica
  • Colaboración internacional
  • Publicaciones de alta calidad
  • Liderazgo y excelencia científica
  • Talento científico

Indicadores adicionales

  • 3 de innovación
  • 3 de factor social

Enfoque predominante:
Desempeño científico medido por producción e impacto.

Rankings universidades latinoamericanas

Webranking

Ranking de presencia en la web.

Evalúa visibilidad institucional mediante:

  • Enlaces entrantes al dominio
  • Número de páginas web
  • Archivos publicados (pdf, doc, xls, etc.)

Incluye además:

  • Indicador de excelencia proveniente de Scimago

Enfoque predominante:
Visibilidad digital y difusión académica en la web.

Conclusión:
Principalmente un ranking de visibilidad.

Rankings universidades latinoamericanas

QS

Combina reputación y desempeño académico.

Indicadores de reputación:

  • Reputación entre académicos
  • Reputación entre empleadores

Otros indicadores:

  • Razón estudiantes/profesor
  • Profesores con doctorado
  • Citas por artículo
  • Artículos por docente
  • Impacto web (Webranking)

Conclusión:
Principalmente un ranking de reputación universitaria.

Comparación entre los rankings

Sobre inconsistencias en algunos rankings universitarios

¿Qué están midiendo realmente los rankings?

Scimago

Prioriza:

  • Producción científica
  • Impacto de investigación
  • Excelencia académica

Dimensión dominante:
Investigación

Webranking

Prioriza:

  • Visibilidad web
  • Presencia digital
  • Difusión de contenidos



Dimensión dominante:
Impacto digital

QS

Prioriza:

  • Reputación académica
  • Opinión de empleadores
  • Indicadores institucionales

Dimensión dominante:
Reputación

Rankings universidades latinoamericanas

library(pacman)
p_load(readr, janitor)

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/r14_Sci_Qs_Webometrics.csv"
RankLatino <- read_csv2(url) |> clean_names()
uni_pais pais sc_lac_ranking qs_ranking web_ranking_la
POTFIC CATOLICA DE - CHL CHL 13 1 24
DE SAO PAULO (USP) - BRA BRA 1 2 1
Es DE CAMPIS (UNICAMP) - BRA BRA 4 3 8
DO RD Janeiro FED - BRA BRA 5 4 5
LOS ANDES - COL COL 47 5 38
U de - CHL CHL 10 6 6
TECNOLOGICO DE MONTERREY (ITESM) - MEX MEX 56 7 28
NAL AUTONO DE (UM) - MEX MEX 2 8 2
EEs PAULISTA JULIO MESQU - BRA BRA 3 9 11
Fe DO RG D SUL - BRA BRA 6 10 3
Fe MG - BRA BRA 8 10 9
CONCEPCION - CHL CHL 28 12 32
POTFIC CATOLICA DO R de Janeiro -PUC - BRA BRA 40 13 30
NAL DE - COL COL 18 14 10
Fe DE SAO PAULO (UNIFESP) - BRA BRA 9 15 54
SANTIAGO DE (USACH) - CHL CHL 60 16 34
DE BRASILIA - BRA BRA 19 17 13
Fe DE SAO CARLOS - BRA BRA 21 18 43
BUENOS AIRES - ARG ARG 7 19 7
AUSTRAL - ARG ARG 250 20 262
NAL DPL - ARG ARG 15 21 18
UCA POTFIC CATOLICA ARGENTI - ARG ARG 237 22 171
ANTIOQUIA - COL COL 37 23 37
U CRica - CRI CRI 1 23 20
NAL DE CORDOBA - ARG ARG 30 25 19
INSTITUTO POLITECNICO NAL (IPN) - MEX MEX 16 26 23
CENTRAL DE VENEZUELA (UCV) - VEN VEN 45 27 52
IBEROAMERICA (UIA) - MEX MEX 134 28 90
POTFIC CATOLICA DE VP - CHL CHL 82 29 50
POTFIC CATOLICA DEL PERU - PER PER 159 30 31
POTFIC JAVERIA - COL COL 74 31 61
SIMON BOLIVAR VENEZUELA - VEN VEN 66 32 78
POTFIC CATOLICADESAOPAULO(PUC-SP) - BRA BRA 148 33 96
DO ESTADO DO R de Janeiro (UERJ) - BRA BRA 24 34 35
AUTONOMA METROPOLITA (UAM) - MEX MEX 27 35 15
I Tec AUTONOMO DE (ITAM) - MEX MEX 214 36 168
AUSTRAL DE - CHL CHL 65 37 45
POTFIC CATOLICADORIOGRANDEDOSUL - BRA BRA 42 38 42
TECNICA FEDERICO SANTA MARIA - CHL CHL 61 39 74
Fe DO PARA (UFPR) - BRA BRA 14 40 12
Fe SCT - BRA BRA 11 41 4
DEL ROSARIO - COL COL 132 42 128
Fe DO PERMBUCO - BRA BRA 17 43 21
TORCUATO DI TELLA - ARG ARG 285 44 328
I Tec DE BUENOS AIRES (ITBA) - ARG ARG 297 45 413
NAL DE ROSARIO - ARG ARG 52 46 57
SAN ANDRES - ARG ARG 310 46 257
PUERTO RICO - PRI PRI 26 48 26
FLUMINENSE Fe - BRA BRA 23 49 16
LAS AMERICAS PUEBLA (UDLAP) - MEX MEX 147 50 103
DEL VALLE - COL COL 68 51 72
ADOLFO IBAÑEZ - CHL CHL 199 52 268
NAL MAR DPL - ARG ARG 54 53 64
LA REPUBLICA (UDELAR) - URY URY 33 54 137
NAL - CRI CRI 192 54 102
NAL DE CUYO - ARG ARG 86 56 70
NAL MAYOR DE SAN MARCOS - PER PER 131 57 65
CATOLICA ANDRES BELLO - UCAB - VEN VEN 369 58 217
GUADALAJARA (UDG) - MEX MEX 48 59 25
PALERMO - ARG ARG 327 60 148
LOS ANDES MERIDA - VEN VEN 75 61 46
BELGRANO - ARG ARG 346 62 319
TALCA - CHL CHL 105 63 58
AUTONOMA DE NUEVO LEON (UANL) - MEX MEX 49 64 51
PERUA CAYETANO HEREDIA - PER PER 101 65 193
DIEGO PORTALES - CHL CHL 129 66 132
LA SABA - COL COL 217 67 180
AUTONOMA DEL ESTADO DE - MEX MEX 91 68 56
INDUSTRIAL DE SANTANDER - COL COL 95 69 113
BENEMERITA AUTONOMA DE PUEBLA - MEX MEX 50 70 66
SAN FRANCISCO DE QUITO - ECU ECU 181 71 141
DEL NORTE - COL COL 407 72 189
Fe DA BAHIA - BRA BRA 29 73 14
Fe DE VIÇOSA - BRA BRA 20 74 33
Es DE LONDRI - BRA BRA 43 74 62
NAL DE TUCUMAN - ARG ARG 81 74 122
EAFIT - COL COL 193 77 129
LA FRONTERA (UFRO) - CHL CHL 93 78 98
NAL DE ASUNCION - PY PY 253 78 204
LOS ANDES - CHL CHL 178 80 318
NAL DEL LITORAL - ARG ARG 63 81 73
NAL DEL SUR - ARG ARG 57 82 110
VP - CHL CHL 99 83 159
NAL DE SAN LUIS - ARG ARG 103 84 86
TECNOLOGICA NAL (UTN) - ARG ARG 122 85 55
CATOLICA DEL NORTE - CHL CHL 98 86 100
ANDRES BELLO - UB - CHL CHL 107 86 145
Es DE MARINGA - BRA BRA NA 88 48
POTFIC BOLIVARIA - COL COL 154 89 136
DEL SALVADOR - ARG ARG 268 90 525
LA HABA - CUB CUB 77 91 60
POTFIC CATOLICA DO PARA -PUCPR - BRA BRA 76 92 69
PRESBITERIA MACKENZIE - BRA BRA 129 93 109
Fe DE SANTA MARIA - BRA BRA 25 94 40
MONTEVIDEO - URY URY 367 96 429
POTFIC CATOLICA DEL ECUADOR - ECU ECU 221 97 144
AUTONOMA DE SAN LUIS DE POTOSI - MEX MEX 64 98 108
PAMERICA (UP) - MEX MEX 241 99 272
Fe DO CEARA (UFC) - BRA BRA 22 100 17
GUAJUATO - MEX MEX 59 100 95
EXTERDO DE - COL COL 340 102 351
Fe DE GOIAS - BRA BRA 35 103 29
Fe DE LAVRAS - BRA BRA 34 104 101
TECNOLOGICA DE PAMA (UTP) - PAN PAN 300 105 275
Fe DE PELOTAS - BRA BRA 41 106 82
ORT URUGUAY - URY URY 336 107 309
DE CIEN EMPRESAR Y SOC (UCES) - ARG ARG 404 107 480
MONTERREY - MEX MEX 56 109 291
Fe DE OURO PRETO - BRA BRA 78 110 93
CATOLICA DEL URUGUAY (UCU) - URY URY 331 111 377
MAYOR DE SAN ANDRES - BOL BOL 207 112 125
COLEGIO DE - MEX MEX 259 112 151
POTFIC CATOLICA DO CAMPIS - BRA BRA 162 114 211
NAL DE RIO CUARTO - ARG ARG 116 115 218
PAMA (UP) - PAN PAN 262 116 296
Fe DE UBERLÂNDIA - BRA BRA 39 117 39
METROPOLITA - VEN VEN 392 117 554
JORGETADEOLOZANO - COL COL 286 119 225
ALBERTO HURTADO - CHL CHL 272 119 350
Fe DO RIO GRANDE DO NORTE - BRA BRA 32 121 44
LA SERE - CHL CHL 177 121 153
DO ESTADO SCT - BRA BRA 11 121 59
AUTONOMA DEL ESTADO DE MORELOS - MEX MEX 73 124 216
NAL DE SAN MARTIN (UNSAM) - ARG ARG 113 125 172
CARABOBO - VEN VEN 127 126 91
ANTOFAGASTA - CHL CHL 172 126 175
POTFIC CATOLICA MG - BRA BRA 117 128 104
Fe DA PARAIBA - BRA BRA 36 130 49
Fe DE JUIZ DE FORA - BRA BRA 55 130 87
NAL AGRARIA LA MOLI - PER PER 269 132 233
U de LIMA - PER PER 396 133 475
ESC SUP POLITEC DEL LITORAL - ESPOL - ECU ECU 318 134 79
ABIERTA INTERAMERICA - UAI - ARG ARG 331 134 375
LA SALLE - COL COL 300 134 346
Fe DO R de Janeiro RURAL - BRA BRA 62 137 140
DO NORTE FLUMINENSE Es - BRA BRA 23 138 239
Es DE PONTA GROSSA - BRA BRA 104 138 147
AUTONOMA DE YUCATAN - MEX MEX 106 140 143
VERACRUZA - MEX MEX 100 141 89
Fe DO ESPIRITO SANTO - BRA BRA 46 142 83
AUTONOMA DE BAJA CALIFORNIA - MEX MEX 85 142 81
DEL BIO-BIO - CHL CHL 153 144 77
ARGENTI DE LA EMPRESA -UADE - ARG ARG 352 144 342
DO VALE DO RIO DOS SINOS - BRA BRA 119 146 71
DEL ZULIA - VEN VEN 80 147 152
Fe DE SAO JOAO DEL-REI UFSJ - BRA BRA 112 148 165
Fe DO MG DSUL - BRA BRA 71 149 36
COLIMA - MEX MEX 146 150 53
DEL DESARROLLO - CHL CHL 160 150 240

Rankings universidades latinoamericanas

Entre más lejos de la diagonal mas diferentes son los rankings correspondientes:

Rankings universidades latinoamericanas

Representación simultánea de universidades y rankings etiquetados por país de origen:

Los dos vectores que representan los ranking SC y WEB reflejan su grado de asociación visualizado en la gráfica b). El vector QS muestra el grado de independencia de éste con los otros dos rankings, ya identificada en los gráficos a) y c).

Resultados recientes

Ranking QS

Ranking SCImago

Análisis de Correspondencias Simples - ACS

Tablas de contingencia - TC

Una TC organiza las frecuencias de las modalidades de dos variables cualitativas, \(X\) con \(I\) filas e \(Y\) con \(J\) columnas:

\[G=\{n_{ij}\}=\begin{pmatrix} n_{11}& n_{12}& \cdots& n_{1J}\\ n_{21}& n_{22}& \cdots& n_{2J}\\ \vdots& \vdots& \ddots& \vdots\\ n_{I1}& n_{I2}& \cdots& n_{IJ} \end{pmatrix}\]

\(n_{ij}\) es el número de individuos que presentan simultáneamente la modalidad \(i\) de \(X\) y la modalidad \(j\) de \(Y\), con tamaño muestral total

\[ n=\sum_{i=1}^{I}\sum_{j=1}^{J} n_{ij}. \]

Perfiles fila y perfiles columna

El análisis de una tabla de contingencia permite estudiar la asociación entre variables cualitativas a través de los perfiles fila y columna.

Cada fila define un perfil fila: distribución condicional de \(Y\) dada la modalidad \(i\) de \(X\):

\[f_{ij}=\frac{n_{ij}}{n_{i\cdot}},\quad n_{i\cdot}=\sum_{j=1}^J n_{ij}\]

Cada columna define un perfil columna: distribución condicional de \(X\) dada la modalidad \(j\) de \(Y\):

\[c_{ij}=\frac{n_{ij}}{n_{\cdot j}},\quad n_{\cdot j}=\sum_{i=1}^I n_{ij}\]

Conexión con la teoría de probabilidad

Si dos variables \(X\) e \(Y\) son independientes, entonces:

\[P(X=i,Y=j) = P(X=i)\,P(Y=j)\]

Empíricamente, esta independencia se traduce en:

\[\frac{n_{ij}}{n} \approx \frac{n_{i\cdot}}{n}\,\frac{n_{\cdot j}}{n}\]

Las desviaciones respecto a esta estructura de independencia contienen toda la información sobre la asociación entre modalidades y constituyen el objeto de análisis del Análisis de Correspondencias Simples (ACS).

Distancia chi-cuadrado

Para cuantificar la proximidad entre perfiles se introduce la distancia \(\chi^2\). Entre dos perfiles fila \(i\) e \(i'\):

\[d_{\chi^2}^2(i,i')=\sum_{j=1}^J \frac{1}{n_{\cdot j}/n} \left(\frac{n_{ij}}{n_{i\cdot}}-\frac{n_{i'j}}{n_{i'\cdot}}\right)^2\]

Esta métrica pondera las diferencias entre perfiles según la importancia de cada modalidad, medida por su frecuencia marginal. Constituye el fundamento geométrico del Análisis de Correspondencias Simples, que busca representar las nubes de perfiles en espacios de baja dimensión conservando dichas distancias.

Ejemplo: Encuesta Mundial de Valores (EMV)

La Encuesta Mundial de Valores es un estudio internacional comparativo que se realiza periódicamente desde 1981. Su objetivo es medir valores, creencias y actitudes de la población sobre múltiples temas sociales y culturales.

Una de sus preguntas indaga por la confianza en la justicia en países latinoamericanos:

¿Cree usted que la justicia en este país se aplica de manera justa para todos, independientemente de su origen social o económico?

Muchísimo Mucho No mucho Nada

EMV: Carga de datos

library(pacman)
p_load(here, tidyverse, FactoMineR, factoextra, gt)

url <- "https://raw.githubusercontent.com/jgbabativam/Curso_Multivariado/main/Datos/ConfianzaJUsticia.csv"
confianza <- read.csv2(url)

paises_interes <- c("Mexico", "Colombia", "Ecuador", "Chile",
                    "Peru", "Argentina", "Brasil")

confianza_filtrado <- confianza |> 
                      filter(Pais %in% paises_interes) |> 
                      column_to_rownames("Pais") |> 
                      select(-no_sabe, -no_resp.) |> 
                      arrange(-muchis.)

EMV: Tabla de contingencia

Resultados de la confianza en la justicia en países seleccionados.

País muchis. mucho no_mucho nada Total
Brasil 208 678 404 408 1698
Mexico 105 280 552 778 1715
Colombia 96 105 885 434 1520
Ecuador 90 394 460 237 1181
Chile 43 258 443 235 979
Peru 25 110 389 861 1385
Argentina 17 176 427 365 985
Total 584 2001 3560 3318 9463

EMV: Perfiles fila



Pais muchis. mucho no_mucho nada
Brasil 0.122 0.399 0.238 0.240
Ecuador 0.076 0.334 0.390 0.201
Colombia 0.063 0.069 0.582 0.286
Mexico 0.061 0.163 0.322 0.454
Chile 0.044 0.264 0.453 0.240
Peru 0.018 0.079 0.281 0.622
Argentina 0.017 0.179 0.434 0.371

EMV: Perfiles fila

EMV: Perfiles columna

EMV: Plano de correspondencias simples

Los países en la misma dirección de una modalidad muestran mayor afinidad con esa percepción de confianza. Los países en la misma dirección de una modalidad muestran mayor afinidad con esa percepción.

Correspondencias Múltiples

Encuesta de Cultura Ciudadana (ECC)

La Encuesta de Cultura Ciudadana (ECC) fue realizada por la Corporación Visionarios en varias ciudades latinoamericanas. Es un instrumento de observación y análisis de distintos aspectos relacionados con la cultura ciudadana y el comportamiento social.

Entre sus temas se incluyen:

  • Sentimientos frente a normas (Ley, Moral, Cultura)
  • Capacidades para cumplir acuerdos
  • Pluralismo e inclusión
  • Seguridad y confianza interpersonal
  • Confianza en instituciones

ECC: Pregunta sobre desobediencia de la ley

Pregunta 20. ¿En su opinión se justifica o no desobedecer la ley en los siguientes casos?

  1. Cuando es la única manera de alcanzar sus objetivos
  2. Cuando es la única manera de ayudarle a la familia
  3. Para luchar públicamente contra una ley o régimen injusto
  4. Cuando es muy provechoso económicamente
  5. Cuando la creencia religiosa lo permite
  1. Para responder a una ofensa al honor
  2. Cuando es bastante seguro que uno no será castigado
  3. Cuando alguien lo ha hecho y le ha ido bien
  4. Cuando es lo acostumbrado
  5. Para pagar un favor
  6. Para defender propiedades o bienes

ECC: Frecuencias de respuesta Sí/No por ciudad

library(pacman)
p_load(here, tidyverse, FactoMineR)

url <- "https://raw.githubusercontent.com/jgbabativam/Curso_Multivariado/main/Datos/Muestra_CC.csv"
CCLatin <- read.csv2(url, sep = ";")
cclat_p20 <- CCLatin[, c("city", paste0("P20_", letters[1:11]))]

ECC: Plano de correspondencias múltiples

Las modalidades cercanas en el plano presentan patrones de respuesta similares entre las ciudades encuestadas. La tendencia general es no justificar la desobediencia, pero ítems como P20b, P20c y P20k muestran mayor cercanía entre Sí y No.

Agrupamiento (Clustering)

Sistema Universitario Estatal (SUE)

El Sistema Universitario Estatal (SUE) es una red de universidades públicas colombianas, orientada hacia la colaboración académica, la investigación y la gestión conjunta de recursos.

Para este ejemplo se utilizan seis indicadores del año 2012 para 32 universidades estatales:

  • Docentes de tiempo completo o equivalente (DCTC2012)
  • Gastos en personal administrativo (GPA2012)
  • Matrícula de pregrado (MPRE2012)
  • Matrícula de posgrado (MPOS2012)
  • Graduados de pregrado (GrPre2012)
  • Graduados de posgrado (GrPos2012)

SUE: Datos

library(pacman)
p_load(here, janitor, tidyverse, FactoMineR, ggrepel, patchwork, ggdendro)

url <- "https://github.com/jgbabativam/Curso_Multivariado/raw/main/Datos/SUEsolo2012.csv"
SUE <- read.csv2(url, sep = ";")
rownames(SUE) <- SUE$Universidades
xsue <- SUE[, -1]
Universidades DCTC2012 GPA2012 MPRE2012 MPOS2012 GrPre2012 GrPos2012
NACIONAL 2.161 347.233.353 42.120 9.299 4.903 3.181
PEDAGOGICA 440 7.986.738 9.321 1.614 1.186 362
UPTC 828 20.641.880 24.644 2.360 3.190 1.225
CAUCA 550 28.539.431 12.859 700 1.372 303
TEC DE PEREIRA 442 15.343.348 15.423 1.319 1.532 299
CALDAS 418 12.877.924 12.261 971 1.953 266
CORDOBA 336 17.354.987 12.081 377 809 0
SURCOLOMBIANA 284 10.982.676 9.867 435 1.113 265
AMAZONIA 198 6.113.236 6.851 332 724 177
MILITAR 375 10.673.047 12.850 2.678 978 1.218
TEC DEL CHOCO 240 21.314.583 10.668 43 1.536 49
LLANOS 201 13.159.385 5.218 267 653 136
POPU DEL CESAR 184 5.206.608 13.127 0 1.653 159
MAY DE CNAMARCA 203 7.597.155 5.028 235 870 237
PACIFICO 65 3.613.371 2.115 0 128 0
ANTIOQUIA 1.848 71.634.254 36.788 2.760 3.437 815
ATLANTICO 371 11.693.780 19.907 255 1.559 151
VALLE 935 61.192.000 26.245 3.238 3.209 800
UIS 632 49.145.313 19.897 1.869 2.726 607
CARTAGENA 435 44.876.932 18.804 861 1.236 320
NARINO 296 9.449.989 11.099 549 1.208 270
TOLIMA 321 23.307.867 37.080 1.183 4.499 577
QUINDIO 437 13.088.429 15.740 140 2.051 45
UFPS_CUCUTA 288 7.109.593 20.528 555 2.273 200
UFPS_OCANA 56 3.881.551 4.588 57 307 43
PAMPLONA 525 9.552.468 23.887 317 5.320 315
MAGDALENA 307 4.944.457 20.082 613 2.910 345
CUNDINAMARCA 309 11.632.868 10.432 107 1.064 171
SUCRE 116 3.997.130 4.838 66 678 0
GUAJIRA 224 9.381.315 7.962 277 696 0
DISTRITAL 758 16.043.464 27.293 1.696 2.974 683
UNAD 743 14.683.191 64.558 1.678 2.106 124

SUE: Dispersogramas entre indicadores

SUE: Dendrograma jerárquico (Ward)

SUE: Clusters en el plano PCA

GRACIAS!

Citación y derechos de autor

Este material ha sido creado por Jimmy Corzo y Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.

Cualquier copia parcial o total de este material, debe citar la fuente como:

Corzo J., & Babativa-Márquez, J.G. Diapositivas del curso de estadística descriptiva multivariada. URL: https://jgbabativam.github.io/Curso_Multivariado/