Tabella 6.1 - Sintesi delle fasi di realizzazione di una cluster analysis (Hair et al., 2014, pp. 425-451, nostra rielaborazione).
Sempli/cando, da un punto di vista geometrico possiamo considerare in un piano bidimensionale la distanza euclidea come la lunghezza del segmento di estremi A e B nella Figura 6.2 e la distanza di Manhattan come la somma delle lunghezze dei segmenti AC e BC.
Figura 6.2 - Raf/gurazione geometrica in un piano bidimensionale delle distanze euclidea (AB) e di Manhattan (AC + BC).
Sia la distanza euclidea che la distanza di Manhattan sono casi speci/ci della distanza di Minkowski di ordine p espressa dalla formula dove xi e yisono le coordinate dei punti fra i quali calcolare la distanza (distanza di Manhattan per p = 1 e distanza euclidea per p = 2).
(6.1) n (∑|x −y|p)1/ p i Aggiungiamo all’elenco la distanza Mahalanobis nel cui computo non ha inLuenza la maggiore o minore variabilità delle variabili.
Le variabili qualitative sono usate più raramente in procedure di cluster analysis e in seguito a processi di dummizzazione. Per misurare le distanze in questi casi si utilizzano misure di associazione che nei casi più semplici veri/cano per ogni unità statistica la percentuale di concordanza all’interno di un gruppo di variabili. Vengono quindi raggruppate le unità che mostrano una percentuale simile di modalità (1,0) nelle variabili dummy o di concordanza fra le modalità attribuite a più variabili.
Alla scelta del tipo di distanza/misura di similarità che decidiamo di utilizzare, segue la scelta dell’algoritmo da usare per formare i gruppi.
Si distinguono tecniche gerarchiche e non gerarchiche, applicate di volta in volta in base ai contesti della ricerca.
Le prime organizzano le osservazioni ad albero (si vedano le Figure 6.3 e
6.4).
Si parte dal considerare le osservazioni singolarmente e calcolare le distanze che intercorrono fra tutte. Le due unità più vicine vengono associate in un cluster. Si misurano le distanze di questo primo cluster dalle altre unità e di nuovo le distanze inferiori indicano quali osservazioni/cluster raggruppare. Si ripete l’algoritmo /no ad ottenere un unico gruppo costituito dalle n osservazioni del campione. Questa procedura è detta agglomerativa poiché partiamo da tutte le osservazioni e, aggregandole, giungiamo a individuare il numero ottimale di cluster per il nostro studio. Nelle procedure gerarchiche agglomerative la distanza fra i gruppi da formare può essere calcolata con algoritmi diversi: per aggregare due unità/cluster possiamo prendere in considerazione la distanza minima fra le osservazioni che lo compongono (single-linkage) o al contrario la distanza massima (complete-linkage). O ancora si può calcolare la similarità come media fra tutte le distanze fra ciascuna coppia di oggetti che fanno parte dei due cluster (average linkage); si può considerare la distanza minima fra i centroidi dei due cluster dove per centroide indichiamo il punto che ha per coordinate i valori medi delle osservazioni sulle variabili nel cluster; o si può usare il Ward’s method che raggruppa le unità che portano al minimo incremento possibile della devianza in ogni livello di fusione, apprezzando la perdita del minor numero di informazioni nell’aggregazione di una coppia di oggetti.
Opposte agli algoritmi agglomerativi sono le procedure gerarchiche de/nite divisive, meno utilizzate. In esse si procede in maniera inversa: tutte le osservazioni vengono considerate come un unico gruppo che viene diviso in sottogruppi più piccoli a mano a mano che aumentano le distanze fra le osservazioni. Si distinguono fra gli algoritmi divisivi quelli monotetici che usano solo una variabile per dividere i sottogruppi e quelli politetici che usano tutte le variabili del dataset.
Una tipologia di gra/co usata per rappresentare gli algoritmi gerarchici è il dendrogramma che negli esempi delle Figure 6.3 e 6.4 presenta sulle ascisse le distanze fra le osservazioni e sulle ordinate le osservazioni stesse. In gra/ci di questa natura, gli outlier si visualizzano come gli oggetti che vengono agganciati per ultimi nei gruppi.
In entrambe le /gure, sono rappresentati in ambito multivariato i raggruppamenti generati su un cluster di 20 studenti (il numero estremamente basso è stato utilizzato solo a scopo esempli/cativo) a partire dai voti conseguiti nei 7 esami del primo anno nel CdL in Digital Education [il dataset completo e ampliato da altre variabili è stato utilizzato con la cluster analysis in due studi che riguardano i sistemi di tutoring (De Santis et al., 2021a) e i fattori che inLuenzano il successo accademico (De Santis et al., 2021b)]. Ci chiediamo se possano essere rilevate delle similarità nei pro/li degli studenti che hanno scelto nel corso del primo anno di sostenere uno o più esami di settori disciplinari diversi. Sono quindi 7 le variabili scelte per operare la clusterizzazione. Nella Figura 6.3 è stata usata la distanza di Manhattan e l’algoritmo agglomerativo del complete-linkage; nella seconda la distanza euclidea e l’algoritmo single-linkage. In R le distanze sono state calcolate con la funzione dist (libreria: stats) e i cluster con la funzione hclust (libreria: stats). Notiamo che nei due gra/ci i livelli di fusione e la composizione /nale dei cluster differisce.
Accade frequentemente che l’uso di metodi diversi per descrivere le distanze e per aggregare i gruppi restituisca soluzioni con cluster diversi per numero e oggetti che li compongono. Ripetere le operazioni con più metodi e confrontare i risultati aumenta la ragionevolezza della nostra suddivisione e ci porta a identi/care fra le classi/cazioni quella maggiormente sensata e utile. Queste differenze nei processi di clustering ribadiscono quanto sia importante partire da teorie e ricerche precedenti, ipotesi concrete e giusti/cazioni di ciascuna fase di lavoro per gestire al meglio la scelta delle variabili e dei metodi e l’interpretazione dei risultati.
Le procedure non gerarchiche di raggruppamento dei cluster partono dalla de/nizione del numero k di cluster da formare sulla base dei semi ossia punti di riferimento rispetto ai quali viene calcolata la distanza di ciascuna osservazione del campione. Talvolta i semi del cluster vengono de/niti dal ricercatore stesso a partire da altre ricerche o analisi precedenti, altre volte sono generati attraverso selezioni random. L’algoritmo non gerarchico più noto, de/nito kmeans, è una procedura a partizione iterata: i gruppi vengono formati attorno ai semi identi/cati. In seguito vengono calcolati i centroidi di ciascun cluster e ricalcolate le distanze delle unità dai centroidi. In base ad esse, le unità sono ridistribuite in nuovi gruppi.