Análisis de Componentes Principales
\[Y = f(X_1, \ldots, X_p)\] Evaluación. La calidad del modelo se mide con un criterio externo de error que compara predicciones \(\hat{y}_i\) con observaciones reales \(y_i\).
Idea clave. Al observar \(Y\), el aprendizaje se puede supervisar:
Regresión: Regresión lineal, polinómica y regularizada (ridge/lasso).
Clasificación: Regresión logística, árboles, k-NN, SVM y redes neuronales.
Modelos extendidos: Modelos lineales generalizados (GLM) y aditivos generalizados (GAM).
Idea central. En el Aprendizaje Estadístico No Supervisado solo se observan variables explicativas \(X_1, \ldots, X_p\); no existe una variable respuesta \(Y\) que permita supervisar el aprendizaje ni evaluar el ajuste mediante un criterio externo de error.
Como parte del Aprendizaje Estadístico No Supervisado se incluyen, entre otros, los siguientes métodos:
PCA (Análisis de Componentes Principales): Método lineal para variables numéricas que busca direcciones de máxima varianza. Basado en la SVD de la matriz centrada (y estandarizada).
CA (Análisis de Correspondencias): Analiza la asociación entre dos variables cualitativas en tablas de contingencia a través de perfiles centrados y ponderados. Utiliza una SVD ponderada para obtener coordenadas principales.
MCA (Análisis de Correspondencias Múltiples): Extensión del CA a múltiples variables cualitativas mediante la matriz indicatoria o de Burt. Fundamentado en una SVD en el espacio chi-cuadrado.
MFA (Análisis Factorial Múltiple): Permite analizar múltiples tablas de variables cuantitativas y/o cualitativas; normaliza cada bloque y aplica una SVD global para extraer factores comunes.
STATIS (incluye DiSTATIS): Método para tablas estructuradas en tres vías; construye una compromise matrix y aplica descomposición espectral para obtener configuraciones y compromisos.
MDS clásico (CMDS): Recupera coordenadas en espacio euclidiano mediante la descomposición espectral de la matriz de distancias doblemente centrada; algebraicamente equivalente a una SVD.
t-SNE (t-distributed Stochastic Neighbor Embedding): Minimiza la divergencia de Kullback–Leibler entre distribuciones de vecinos. No utiliza SVD salvo como opción para inicialización.
UMAP (Uniform Manifold Approximation and Projection): Aprendizaje de variedades basado en grafos fuzzy y optimización de atracción-repulsión. No utiliza SVD excepto cuando se inicializa con PCA.
Isomap: Aprendizaje de manifolds basado en distancias geodésicas; aplica MDS al final pero no es un método basado en SVD.
NMF (Nonnegative Matrix Factorization): Factorización iterativa de matrices no negativas mediante algoritmos multiplicativos o ALS. No utiliza SVD, aunque puede inicializarse con ella.
K-means: Asigna cada observación al centroide más cercano minimizando la suma de distancias cuadráticas intra-grupo. Requiere fijar el número de clusters y es sensible a valores atípicos.
K-medoids (PAM): Variante robusta de K-means que utiliza medoids (observaciones reales) en lugar de centroides; adecuada para diferentes métricas de distancia.
Clustering jerárquico (aglomerativo o divisivo): Construye un dendrograma secuencialmente. No requiere especificar el número de clusters a priori; permite distintos criterios de enlace (single, complete, average, Ward).
DBSCAN: Método basado en densidad que identifica regiones densas separadas por zonas de baja densidad. Detecta ruido y produce clusters de formas arbitrarias sin necesidad de fijar el número de grupos - visualización.
HDBSCAN: Extensión jerárquica de DBSCAN que permite densidades variables; produce clusters más estables con mejor detección de ruido en datos heterogéneos.
GMM (Gaussian Mixture Models): Modelo probabilístico que representa los datos como mezcla de distribuciones normales. Ofrece pertenencias suaves (probabilidades) mediante el algoritmo EM.
Clustering espectral: Utiliza los autovectores del Laplaciano de un grafo de similitudes para representar los datos en espacio reducido donde luego aplica K-means. Detecta clusters no lineales.
Espacios vectoriales: vectores, subespacios, bases y dimensión.
Producto interno: norma, ángulos y ortogonalidad.
Proyección ortogonal y mínimos cuadrados.
Matrices: operaciones matriciales, rango, traza e inversa (cuando existe).
Matrices simétricas y definidas positivas.
Valores y vectores propios.
Teorema de la descomposición espectral (TDE).
Teorema de la descomposición en valores singulares (TDVS).
A lo largo del desarrollo del curso se trabajará exclusivamente con conjuntos de datos reales del contexto colombiano, sobre los siguientes ámbitos:
Las variables son de tipo…
El tipo de variable define la geometría del espacio y la métrica del análisis.
Los gráficos de dispersión permiten explorar relaciones entre pares de variables cuantitativas e identificar patrones, tendencias y valores atípicos.
Mediante colores, tamaños o etiquetas es posible incorporar información adicional, pero la representación sigue estando limitada a dos dimensiones.
Cuando el número de variables es grande, los planos definidos por variables originales no capturan adecuadamente la estructura global de los datos.
Las componentes principales definen nuevos ejes, como combinaciones lineales de las variables originales, que maximizan la variabilidad.
Los planos generados por las primeras componentes proporcionan representaciones más informativas y sintéticas de los datos.
Criterios frecuentes
Se basan en múltiples indicadores asociados a distintos criterios.
Los indicadores se normalizan o estandarizan para hacerlos comparables.
Se calcula un puntaje total mediante una combinación lineal ponderada (los pesos reflejan el modelo implícito de universidad).
Con el puntaje total se obtiene un ordenamiento (puesto 1 al mayor puntaje, puesto 2 al siguiente, etc.).
El resultado es un orden relativo: las diferencias numéricas no necesariamente representan “distancias”.
Universidades ubicadas en los 100 primeros puestos del ARWU (año 2013). Se analizan sus posiciones mundial y, por derivación, sus posiciones nacional y regional.
| Institution | Region | Country | Regional Rank | World Rank | National Rank |
|---|---|---|---|---|---|
| Harvard University | Americas | US | 1 | 1 | 1 |
| University of California, Berkeley | Americas | US | 2 | 2 | 2 |
| Stanford University | Americas | US | 3 | 3 | 3 |
| Massachusetts Institute of Technology (MIT) | Americas | US | 4 | 4 | 4 |
| University of Cambridge | Europe | UK | 1 | 5 | 1 |
| California Institute of Technology | Americas | US | 5 | 6 | 5 |
| Princeton University | Americas | US | 6 | 7 | 6 |
| Columbia University | Americas | US | 7 | 8 | 7 |
| University of Chicago | Americas | US | 8 | 9 | 8 |
| University of Oxford | Europe | UK | 2 | 10 | 2 |
| Yale University | Americas | US | 9 | 11 | 9 |
| Cornell University | Americas | US | 10 | 12 | 10 |
| University of California, Los Angeles | Americas | US | 11 | 13 | 11 |
| University of California, San Diego | Americas | US | 12 | 14 | 12 |
| University of Pennsylvania | Americas | US | 13 | 15 | 13 |
| University of Washington | Americas | US | 14 | 16 | 14 |
| University of Wisconsin - Madison | Americas | US | 15 | 17 | 15 |
| The Johns Hopkins University | Americas | US | 16 | 18 | 16 |
| University of California, San Francisco | Americas | US | 16 | 18 | 17 |
| The University of Tokyo | Asia/Pacific | JP | 1 | 20 | 1 |
| University College London | Europe | UK | 3 | 21 | 3 |
| University of Michigan - Ann Arbor | Americas | US | 18 | 22 | 18 |
| Swiss Federal Institute of Technology Zurich | Europe | SW | 4 | 23 | 1 |
| Kyoto University | Asia/Pacific | JP | 2 | 24 | 2 |
| University of Illinois at Urbana-Champaign | Americas | US | 19 | 25 | 19 |
| The Imperial College of Science, Technology and Medicine | Europe | UK | 5 | 26 | 4 |
| University of Toronto | Americas | CA | 20 | 27 | 1 |
| University of Minnesota, Twin Cities | Americas | US | 21 | 28 | 20 |
| Northwestern University | Americas | US | 22 | 29 | 21 |
| Washington University in St. Louis | Americas | US | 23 | 30 | 22 |
| New York University | Americas | US | 24 | 31 | 23 |
| University of California, Santa Barbara | Americas | US | 25 | 32 | 24 |
| University of Colorado at Boulder | Americas | US | 25 | 32 | 24 |
| Rockefeller University | Americas | US | 27 | 34 | 26 |
| Duke University | Americas | US | 28 | 35 | 27 |
| University of British Columbia | Americas | CA | 29 | 36 | 2 |
| University of Maryland, College Park | Americas | US | 29 | 36 | 28 |
| The University of Texas at Austin | Americas | US | 31 | 38 | 29 |
| Pierre and Marie Curie University - Paris 6 | Europe | FR | 6 | 39 | 1 |
| University of Copenhagen | Europe | DE | 7 | 40 | 1 |
| University of North Carolina at Chapel Hill | Americas | US | 32 | 41 | 30 |
| Karolinska Institute | Europe | SE | 8 | 42 | 1 |
| Pennsylvania State University - University Park | Americas | US | 33 | 43 | 31 |
| The University of Manchester | Europe | UK | 9 | 44 | 5 |
| University of Paris Sud (Paris 11) | Europe | FR | 10 | 45 | 2 |
| University of California, Davis | Americas | US | 34 | 46 | 32 |
| University of California, Irvine | Americas | US | 34 | 46 | 32 |
| University of Southern California | Americas | US | 34 | 46 | 32 |
| The University of Texas Southwestern Medical Center at Dallas | Americas | US | 37 | 49 | 35 |
| Utrecht University | Europe | NL | 11 | 50 | 1 |
| University of Zurich | Europe | SW | 12 | 51 | 2 |
| University of Munich | Europe | GE | 13 | 52 | 1 |
| Vanderbilt University | Americas | US | 38 | 53 | 36 |
| Rutgers, The State University of New Jersey - New Brunswick | Americas | US | 39 | 54 | 37 |
| The University of Edinburgh | Europe | UK | 14 | 54 | 6 |
| Technical University Munich | Europe | GE | 15 | 56 | 2 |
| University of Pittsburgh | Americas | US | 40 | 56 | 38 |
| Carnegie Mellon University | Americas | US | 41 | 58 | 39 |
| The Australian National University | Asia/Pacific | AS | 3 | 59 | 1 |
| The Ohio State University - Columbus | Americas | US | 42 | 59 | 40 |
| McGill University | Americas | CA | 43 | 61 | 3 |
| University of Melbourne | Asia/Pacific | AS | 4 | 62 | 2 |
| King's College London | Europe | UK | 16 | 63 | 7 |
| University of Heidelberg | Europe | GE | 16 | 63 | 3 |
| Brown University | Americas | US | 44 | 65 | 41 |
| University of Bristol | Europe | UK | 18 | 66 | 8 |
| Uppsala University | Europe | SE | 18 | 66 | 2 |
| University of Florida | Americas | US | 45 | 68 | 42 |
| Purdue University - West Lafayette | Americas | US | 46 | 69 | 43 |
| Leiden University | Europe | NL | 20 | 70 | 2 |
| Ecole Normale Superieure - Paris | Europe | FR | 21 | 71 | 3 |
| The Hebrew University of Jerusalem | Asia/Pacific | IR | 5 | 72 | 1 |
| University of Helsinki | Europe | FI | 22 | 72 | 1 |
| Moscow State University | Europe | RU | 23 | 74 | 1 |
| Osaka University | Asia/Pacific | JP | 6 | 75 | 3 |
| University of Oslo | Europe | NW | 24 | 75 | 1 |
| Boston University | Americas | US | 47 | 77 | 44 |
| University of Arizona | Americas | US | 48 | 78 | 45 |
| Stockholm University | Europe | SE | 25 | 79 | 3 |
| Nagoya University | Asia/Pacific | JP | 7 | 79 | 4 |
| Arizona State University - Tempe | Americas | US | 49 | 81 | 46 |
| University of Rochester | Americas | US | 50 | 82 | 47 |
| University of Utah | Americas | US | 50 | 82 | 47 |
| Tohoku University | Asia/Pacific | JP | 8 | 84 | 5 |
| University of Nottingham | Europe | UK | 26 | 84 | 9 |
| Michigan State University | Americas | US | 52 | 86 | 49 |
| University of Basel | Europe | SW | 27 | 86 | 3 |
| McMaster University | Americas | CA | 53 | 88 | 4 |
| The University of Sheffield | Europe | UK | 28 | 88 | 10 |
| Ghent University | Europe | BE | 29 | 90 | 1 |
| Indiana University Bloomington | Americas | US | 54 | 90 | 50 |
| University of Sydney | Asia/Pacific | AS | 9 | 92 | 3 |
| University of Bonn | Europe | GE | 30 | 93 | 4 |
| University of Goettingen | Europe | GE | 30 | 93 | 4 |
| Texas A&M University - College Station | Americas | US | 55 | 95 | 51 |
| University of Virginia | Americas | US | 56 | 96 | 52 |
| Case Western Reserve University | Americas | US | 57 | 97 | 53 |
| Aarhus University | Europe | DE | 32 | 98 | 2 |
| Rice University | Americas | US | 58 | 99 | 54 |
| University of Birmingham | Europe | UK | 33 | 99 | 11 |
Comparación de la visualización de los datos originales con su proyección sobre las dos primeras componetes principales.
Ranking orientado a la actividad investigativa.
Indicadores principales:
Indicadores adicionales
Enfoque predominante:
Desempeño científico medido por producción e impacto.
Ranking de presencia en la web.
Evalúa visibilidad institucional mediante:
pdf, doc, xls, etc.)Incluye además:
Enfoque predominante:
Visibilidad digital y difusión académica en la web.
Conclusión:
Principalmente un ranking de visibilidad.
Combina reputación y desempeño académico.
Indicadores de reputación:
Otros indicadores:
Conclusión:
Principalmente un ranking de reputación universitaria.
Sobre inconsistencias en algunos rankings universitarios