TECNICHE DI RIDUZIONE DELLA DIMENSIONALITÀ:
ANALISI DELLE COMPONENTI PRINCIPALI,
ANALISI FATTORIALE ESPLORATIVA E ANALISI DELLE CORRISPONDENZE
Al termine del capitolo, il lettore sarà in grado di: · definire le finalità d’uso dei metodi di riduzione della dimensionalità; · descrivere le caratteristiche di alcune delle tecniche di riduzione dati: analisi fattoriale esplorativa, analisi delle componenti principali, analisi delle corrispondenze; · illustrare esempi di ricerca educativa nei quali sono state usate tecniche di riduzione della dimensionalità.
3.1 - Tecniche di riduzione dei dati
Avviamo in questo capitolo la descrizione delle tecniche di analisi multivariata il cui scopo è quello di combinare le variabili misurate in un numero ridotto di fattori o componenti che rappresentano in maniera più immediata, a volte anche meno completa, i dataset da cui sono stati tratti.
Queste tecniche sempli1cano le procedure di analisi e di interpretazione dei dati riducendo e riassumendo le variabili con una perdita minima di informazioni. Esse conducono alla de1nizione di modelli che ci restituiscono la struttura latente alla base delle osservazioni reali effettuate e misurate da variabili manifeste. Questi modelli sono più apprezzati quando sono costruiti partendo da un numero limitato di variabili, rispettando il principio di parsimonia o del rasoio di Occam. Più “eleganti”, ed anche più ef1caci, in ambito statistico sono quelle procedure che riescono a individuare strutture e relazioni utilizzando un minor numero di variabili.
Le tecniche di riduzione dei dati lavorano sulle dimensioni dello spazio geometrico in cui sono collocate le osservazioni. Nell’ambito geometrico, le unità statistiche sono visualizzabili come punti in uno spazio multidimensionale, spazio che senza una profonda conoscenza matematica dif1cilmente può essere percepito e visualizzato da chi, come noi, si ferma a una realtà in tre dimensioni. Ridurre le variabili in uno studio signi1ca ridurre le dimensioni dello spazio multidimensionale. Riuscire dall’analisi a riassumere in due o tre fattori la variabilità dell’intero dataset signi1ca sempli1care in due/tre dimensioni i sistemi con cui abbiamo a che fare rendendoli visibili in uno spazio bi- o tri- dimensionale di più facile lettura. È questa una risposta a quella che viene de1nita la maledizione della dimensionalità, ossia la situazione in cui la presenza di troppe variabili, e cioè troppe caratteristiche delle osservazioni che abbiamo in analisi, rende ingestibile applicazioni di metodi, procedure di calcolo e interpretazione dei fenomeni.
Si tratta certamente di operazioni complesse da un punto di vista del calcolo. Per i più esperti i calcoli algebrici sono di grande aiuto nelle procedure; provvidenziale per tutti è il contributo dei software di analisi dati.
Scegliamo di partire nella descrizione delle tecniche proprio con questo gruppo di metodi perché la selezione delle variabili è una annosa questione con cui ci si confronta immediatamente quando si lavora nell’ambito dell’analisi multivariata. Molto spesso la riduzione della dimensionalità non è il punto d’arrivo delle analisi ma una fase propedeutica all’uso di altre tecniche multivariate. Potrebbe essere infatti necessario applicare tecniche di data summarization su un dataset con un alto numero di variabili prima di processarlo ad esempio attraverso tecniche di regressione o cluster analysis, metodi che affronteremo nei prossimi capitoli.
Procedure di riduzione della dimensionalità investono anche la ricerca educativa. Un caso particolarmente frequente in cui vengono usate è quello della costruzione e analisi psicometrica di scale e questionari nei quali ciascun item è considerato una variabile e l’analisi dei dati raccolti richiede una riduzione a poche dimensioni per una lettura più rapida dei risultati oppure per identi1care quelle relazioni fra fenomeni indagati attraverso le domande che una restituzione meno approfondita (ad es. fatta di sole percentuali in riferimento alle opzioni di risposta) non ci avrebbe permesso di ottenere.
Descriviamo in questo capitolo tre tecniche: l’analisi delle componenti principali (PCA), l’analisi fattoriale esplorativa (EFA) e l’analisi delle corrispondenze (semplici, CORA, e multiple, MCA). Si preferisce inserire la tecnica del multidimensional scaling, seppur classi1cabile come tecnica di riduzione dimensionale, dopo aver introdotto la cluster analysis per le sue implicazioni come supporto alle tecniche di classi1cazione.
Per scegliere fra le tecniche di riduzione quella più adatta alle nostre necessità, dobbiamo rispondere nella fase iniziale di ogni studio ad alcune domande: le variabili del dataset sono metriche o categoriali? La ricerca serve prioritariamente per identi1care e generalizzare strutture latenti nei dataset oppure ha solo scopo descrittivo? Sarebbe più opportuno visualizzare i risultati in forma gra1ca?
L’analisi delle componenti principali è una tecnica di estrazione delle variabili che viene usata anche come parte dell’analisi fattoriale. In essa un numero minimo di variabili, dette componenti, è selezionato per rappresentare la massima porzione della varianza del dataset. Si tratta di una tecnica descrittiva nella quale le componenti principali sono combinazioni lineari delle altre variabili (metriche).
L’EFA è una tecnica applicata principalmente a variabili quantitative che si fonda sull’ipotesi che le variabili originali possano essere modellate come combinazione lineare di un insieme ridotto di variabili non osservabili chiamate fattori e identi1cati come dimensioni di strutture latenti dei fenomeni osservati. Si tratta di una tecnica inferenziale nella quale sono presenti assunti, test di bontà del 1t, signi1catività statistica, precisione delle stime.
L’analisi delle corrispondenze (semplici e multiple) è una tecnica di riduzione delle dimensioni per variabili categoriali nella quale le modalità assunte dalle variabili rivestono un ruolo centrale nella de1nizione di un ristretto numero di dimensioni e nella creazione di una rappresentazione gra1ca in grado di rilevare le distanze che intercorrono fra le modalità. È una tecnica esplorativa e di carattere descrittivo che utilizza il c2 (si legge chi quadro) nel calcolo delle distanze e degli indici principali.