Introducción a las técnicas multivariantes no supervisadas
Métodos para realizar la agrupación de individuos con base en la similaridad que tienen en un vector de variables \(\mathbf{x}'=(x_1, \ldots, x_p)\).
Es una técnica para combinar observaciones en grupos o clúster de forma que:
Cada grupo o clúster sea lo más homogéneo con respecto a las características de análisis. Es decir las observaciones dentro de cada grupo deben ser similares.
Cada grupo debe diferenciarse de los otros grupos respecto a las características que se midieron.
Jerárquicos: Consisten en agrupar los individuos o grupos más similares a partir de algún criterio de aglomeración.
No jerárquicos: Consiste en dividir el conjunto de objetos o individuos en un número de grupos prefijado y aplicar un algoritmo para obtener las agrupaciones.
Forgy (1965)
Forgy (1965)
Forgy (1965)
Forgy (1965)
Forgy (1965)
Forgy (1965)
Forgy (1965)
Forgy (1965)
Forgy (1965)
Ingrese a la siguiente página Naftali
Seleccione los centros aleatoriamente y use una distribución uniforme, normal y alguna otra. Haga \(k=3\) y realice la simulación del clúster.
Seleccione los centros manualmente y use una distribución uniforme, normal y alguna otra. Haga \(k=3\) y realice la simulación del clúster.
Ingrese a la siguiente página Naftali
Comenzar con tantas clases como elementos o individuos se tenga. Las distancias entre clases son las distancias entre elementos originales.
Seleccionar los dos elementos más próximos en la matriz de distancias y formar con ellos un grupo.
Sustituir los dos elementos utilizados en (2) para definir el grupo en (2), por un nuevo elemento que la represente.
Volver a (2) y repetir (2) y (3) hasta que tengamos todos los elementos queden agrupados en un solo grupo.
Considere el conjunto de datos del taller sobre el consumo de proteínas en algunos países de Europa. Realice un análisis clúster a partir de:
En el algoritmo de las \(K\)-medias es indispensable que las variables de análisis sea de tipo cuantitativo. Además, las variables son estandarizadas para evitar el efecto de la escala, de manera que:
\[z_{i} =\frac{x_i - \bar{x}_i}{s_i}, i=1,\ldots, p \]
El gráfico de silueta es una herramienta útil para evaluar la calidad de las agrupaciones resultantes del algoritmo k-medias. Se debe revisar:
Barra alta: Si un punto de datos tiene una barra alta en el gráfico de silueta, significa que está bien asignado al grupo y está lejos de los puntos de otros grupos, esto indica una buena calidad del agrupamiento.
Valor medio de silueta: El valor medio de la silueta es la medida agregada de la calidad del método de clúster, en general se espera que esté en el rango de -1 a 1.
cluster size ave.sil.width
1 1 15 0.38
2 2 4 0.21
3 3 6 0.31
# A tibble: 3 × 10
cluster CarneRoja CarneBlanca Huevsos Leche Pescado Cereales Féculas
<int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 0.452 0.506 0.576 0.584 0.118 -0.610 0.353
2 2 -0.509 -1.11 -0.412 -0.832 0.982 0.130 -0.184
3 3 -0.790 -0.527 -1.17 -0.905 -0.950 1.44 -0.760
# ℹ 2 more variables: Frutossecos <dbl>, Frutosyvegetales <dbl>
Defina primero el número de clúster que se debería usar basado en el criterio de los índices de nivel o inercia iterclases.
Considere los datos artificiales Bogota.sav
que simulan el resultado de la percepción de 350 encuestados. El ejercicio consiste en que a cada encuestado se le da una tarjeta con los nombres de los candidatos, posteriormente se leen algunas frases o se le mencionan algunas cualidades y deberá asociarlo con el candidato que considere que mejor la cumple.
Realice un análisis de correspondencias y posteriormente un análisis clúster para concluir sobre el perfil de los candidatos.
Defina primero el número de clúster que se debería usar basado en el criterio de los índices de nivel o inercia iterclases.
Husson, F., Lê, S., & Pagès, J. (2017). Exploratory multivariate analysis by example using R. CRC press.
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2006). Multivariate data analysis 6th Edition. https://doi.org/10.1201/9780367409913
Aldás Manzano, J., & Uriel Jiménez, E. (2017). Análisis multivariante aplicado con R. Ediciones Paraninfo, SA.
Diapositivas disponibles en GitHub.