Análisis Cluster

Definición

El Análisis de Clusters es una técnica de análisis exploratorio utilizada para resolver problemas de clasificación.
Se encuadra en los métodos de aprendizaje no supervisado.

Su objetivo es ordenar objetos (definidos por un conjunto de variables) en grupos de forma que los miembros del grupo sean lo más homogéneos posibles y los más heterogéneos entre miembros de distintos grupos

El análisis de cluster permite descubrir asociaciones y estructuras que no son evidentes a priori pero que pueden ser útiles una vez que se han detectado. Las estructuras encontradas pueden utilizarse para la definición formal de un esquema de clasificación (taxonomía).

Los métodos más utilizados de clusterización se dividen en dos grandes grupos: jerárquicos y no jerárquicos.

Cluster jerárquico vs Cluster no jerárquico
Cluster jerárquico vs Cluster no jerárquico

Cluster jerárquico Cluster no jerárquico

 

Cluster Jerárquicos (Hierarchical Cluster)

Los métodos jerárquicos o agrupamientos jeraquicos van generando grupos en cada una de las fases del proceso buscando el número de clusters que hacer una agrupación óptima.

El agrupamiento jerárquico es capaz de fijar por si solos el número de clusters, por ello se pueden utilizar de forma exploratoria y posteriormente aplicar un análisis no jerárquico con el número de clusters ya fijado.

Las estrategias para conseguir este objetivo se dividen en:

Estrategias Aglomerativas

Las estrategias aglomerativas parten de un conjunto de elementos individuales y van juntando los elementos que más se parezcan hasta quedarse con un número de clusters que se considere óptimo.

Su complejidad computacional es del orden de n3

 

Estrategias Divisivas

Las estrategias divisivas parten del conjunto de elementos completos y se van separando los grupos que más diferentes sean entre ellos hasta quedarse con un número de clusters que se considere óptimo.

Su complejidad computacional es del orden de 2n

 

Cluster No Jerárquicos (Partitioning Cluster)

Los métodos no jerárquicos categorizan los elementos según un número de cluster dado.

Necesitan que el número de particiones esté fijado a priori.

Métodos

  • k-means
  • k-medoids (PAM)
  • CLARA

 

Autor: Diego Calvo