Figura 6.3 - Esempio di dendrogramma (distanza di Manhattan e algoritmo gerarchico agglomerativo del complete-linkage). Il gra/co è stato realizzato in R con la funzione ggdendrogram (libreria: ggdendro).
Figura 6.4 - Esempio di dendrogramma (distanza euclidea e algoritmo gerarchico agglomerativo del complete-linkage). Il gra/co è stato realizzato in R con la funzione ggdendrogram (libreria: ggdendro).
L’algoritmo viene ripetuto /no a quando, al momento del computo dei centrodi, questi conservano una posizione /ssa. Gli algoritmi che funzionano sull’identi/cazione dei semi in maniera sequenziale o parallela non prevedono lo spostamento di una unità statistica fra gruppi in base al modo in cui si assegnano le osservazioni, cosa che invece è fatta da algoritmi di ottimizzazione più raf/nati.
Fra le procedure non gerarchiche si annoverano anche i metodi di ottimizzazione e gli algoritmi genetici (Paterlini & Minerva, 2001; Pattarin, Paterlini & Minerva, 2004).
A quanti gruppi fermarsi? Quanti cluster rappresentano in maniera ottimale il campione?
Anche se non esiste una risposta univoca a tali domande, ci sono buone pratiche e processi di analisi che portano ad identi/care soluzioni valide da un punto di vista teorico e pratico.
Nei casi dell’uso di metodi gerarchici il processo di clustering viene interrotto quando si raggiunge un grado di eterogeneità interna non accettabile. L’eterogeneità può essere misurata come la distanza dei livelli di fusione. In genere si è soliti considerare tagli a metà della distanza totale, che vediamo nei dendrogrammi in /gura sull’asse delle ascisse. Si guardi a scopo esempli/cativo la Tabella 6.2 riferita ai dati della Figura 6.3, nella quale abbiamo riportato i livelli di fusione superiori al decimo per mostrare il comportamento negli ultimi livelli, dato che nei precedenti l’incremento della distanza è suf/cientemente costante. La prima colonna indica il livello di fusione, la seconda e la terza i cluster e le unità raggruppate (con il segno -) e la quarta colonna la distanza misurata. Il taglio dei cluster si /ssa quando le differenze fra i livelli di fusione sono troppo elevate. In questo caso esempli/cativo, il ricercatore valuterà se /ssare il taglio dopo il livello 13 o 15, dopo aver analizzato la composizione dei cluster ottenuti. Tale analisi viene condotta per cluster con il computo degli indici di posizione per ciascuna variabile e la visualizzazione gra/ca della distribuzione dei dati.
Ultime fasi di lavoro in una analisi cluster sono l’interpretazione e la validazione dei risultati. Il ricercatore, a partire dalle suddivisioni fra le osservazioni, determina i pro/li dei soggetti appartenenti a ciascun cluster. Le caratteristiche dei centroidi possono sintetizzare le proprietà degli elementi dell’intero cluster e, qualora non ben diversi/cate fra i gruppi, indicare che le operazioni di clusterizzazione vanno ripetute. La signi/catività pratica della clusterizzazione può essere validata ripetendo l’operazione su altri campioni oppure suddividendo il campione di partenza in due in modo da veri/care i risultati. Criteri di predittività derivanti da presupposti teorici o concettuali possono allo stesso modo permettere di validare le classi/cazioni ottenute.