L’analisi fattoriale appartiene al gruppo delle tecniche di interdipendenza che non hanno lo scopo di predire il comportamento di una variabile dipendente ma di spiegare la struttura latente e le relazioni esistenti tra le variabili osservate, massimizzando le informazioni che i dati raccolti possono fornire.
È uno dei latent variable methods più consolidati e utilizzati e si fonda sull’idea che p variabili misurate siano una manifestazione di uno o più fenomeni latenti, non osservabili e misurabili direttamente. Ciascuna variabile del dataset è il risultato dell’azione di più fattori. Le modalità e la variabilità delle variabili osservate sono gli elementi da cui partire per individuare i fattori latenti in grado di descrivere i fenomeni in maniera più signi1cativa. L’obiettivo che ci poniamo è quello di individuare un numero di fattori inferiore al numero delle variabili osservate per delineare un modello, cioè una struttura latente generalizzabile anche ad altri campioni.
L’analisi delle correlazioni anticipa l’applicazione della tecnica: affermare che le variabili originali sono correlate fra loro signi1ca dire in questa tecnica che esse sono connesse a uno stesso fattore latente. Quindi la varianza di ogni singola variabile è in parte giusti1cata dal rapporto che la lega al fattore comune (comune non perché generico ma perché correlato a più variabili), in parte alla distribuzione stessa delle osservazioni. Partiamo da un alto numero di variabili correlate fra loro per arrivare, al termine dell’analisi, a un numero ridotto di fattori non correlati: le variabili osservate sono correlate perché collegate a uno stesso fattore; i fattori individuati non sono correlati fra loro perché espressione di dimensioni latenti diverse.
Un esempio molto frequente utilizzato per far comprendere lo scopo dell’analisi fattoriale (e in genere le strutture latenti) è il costrutto dell’intelligenza. L’intelligenza è un costrutto non misurabile e osservabile di per sé ma rilevabile da comportamenti e prestazioni di un individuo. Le domande di un questionario piuttosto che i punteggi in una serie di prove di valutazione possono rivelare alcuni tratti dell’intelligenza. La correlazione fra le variabili utilizzate per misurare e rilevare questi aspetti ci dice che tutte sono legate a un elemento che misurabile in toto non è: l’intelligenza appunto.
Possiamo considerare lineare la relazione che esiste fra le variabili manifeste e quelle latenti. Questo approccio propone i meccanismi di predizione (e dunque di regressione come vedremo nel capitolo successivo) fra variabile latente/dipendente e manifeste/indipendenti: possiamo conoscere la variabile latente solo indirettamente e a partire dalle modalità assunte dalle variabili manifeste.
Nell’analisi fattoriale assumiamo che le variabili latenti da cercare siano metriche; esistono altri latent variable methods nei quali variano la tipologia delle variabili manifeste e osservate (es. variabili categoriali).
La tipologia di analisi fattoriale che prendiamo in considerazione nella nostra discussione è quella de1nita esplorativa (Exploratory Factorial Analysis, EFA) che utilizza meccanismi di data summarization e che, da quanto abbiamo detto 1nora, si basa su dati reali raccolti per trovare fattori latenti a cui attribuire un signi1cato. L’altra tipologia molto nota di analisi fattoriale è quella confermativa: questa tecnica di analisi utilizza i dati raccolti per testare teorie, ricerche e ipotesi sul modo in cui variabili osservate possono essere raccolte per spiegare una certa struttura alla base di un fenomeno in un dataset.
L’EFA più frequentemente usata è la R-type factor analysis nella quale, così come discusso 1nora, il lavoro di riduzione è condotto sulle variabili. Più raramente si usa la Q-type factor analysis dove il metodo di riduzione è applicato sulle osservazioni per suddividere queste ultime in gruppi simili. Poiché risulta essere un metodo laborioso, per raggiungere gli stessi scopi se ne preferiscono altri come la cluster analysis (capitolo 6). Diversamente da quest’ultima che per la creazione dei cluster utilizza la distanza fra le osservazioni, la Q-type factor analysis lavora sull’intercorrelazione fra le unità statistiche.
Elencate le 1nalità della tecnica, descriviamo quindi la sua procedura di applicazione.
Innanzitutto serve partire dalla veri1ca di assunti concettuali e statistici:
da un punto di vista teorico, il ricercatore deve ipotizzare che esista una struttura latente fra le variabili. I calcoli nell’analisi di per sé non possono garantire che la riduzione o la sintesi delle variabili abbia senso in assoluto;
le variabili devono riguardare uno stesso nucleo concettuale, elemento che giusti1ca l’esistenza di fattori latenti in comune fra di esse. Inoltre, il numero di variabili (metriche) deve all’incirca essere il quintuplo dei fattori individuati;
le deviazioni dalla normalità, dall’omoschedasticità e dalla linearità possono diminuire le correlazioni tra le variabili. Testare la normalità è fondamentale per veri1care la signi1catività dei fattori;
il campione deve essere omogeneo, non devono esserci differenze fra le osservazioni che possano invalidare o “nascondere” la struttura dei dati osservati. Esso deve essere suf1cientemente numeroso: anche se ci sono indicazioni di diversa natura, in genere è suggerito di disporre di un campione fatto da più di 50-100 osservazioni, almeno con 5-20 unità statistiche per ogni variabile.
Poniamo quindi di trovarci nel caso in cui, soddisfacendo gli assunti appena elencati, un analista debba analizzare i risultati di un’indagine composta da oltre 40 item somministrata ai dirigenti delle scuole di primo e secondo grado del vecchio continente per un progetto europeo di comparazione dei sistemi educativi fra i paesi dell’UE. L’indagine ha restituito una grande quantità di dati per la numerosità dei rispondenti e per l’elevato numero di domande somministrate che, come spesso accade, coincidono con il numero di variabili da analizzare. Supponiamo con un certo grado di certezza che ci siano dei fattori comuni alle variabili in grado di descrivere macroaree di comparazione fra i sistemi educativi (ad esempio, l’idea sulla funzione della scuola nel contesto sociale, la percezione del coinvolgimento delle famiglie e del ruolo degli insegnanti, la spinta all’innovazione). Come procedere a questo punto per rilevare tali fattori comuni non osservabili direttamente ma fondamentali per comprendere gli orientamenti dei vari paesi?
Nelle varie fasi di analisi il ricercatore è chiamato a fare delle scelte, scelte che secondo alcune scuole di pensiero potrebbero mettere in discussione l’oggettività della tecnica. Per elencarne alcune: il numero di fattori da estrarre, il metodo da usare per l’estrazione dei fattori, le tecniche di rotazione da applicare.
Per accertarsi di poter usare l’EFA, egli deve veri1care la fattoriabilità del dataset e dunque:
calcolare la matrice di correlazione per veri1care le relazioni fra le variabili nel dataset. Se la maggior parte delle correlazioni è inferiore a 0,30, non ha senso usare l’analisi fattoriale.
applicare il test di sfericità di Bartlett che misura la signi1catività statistica dei valori nella matrice di correlazione con il c2 ; l’ipotesi nulla da invalidare è che la matrice di correlazione sia il risultato di variabili indipendenti.
calcolare la misura di adeguatezza campionaria (MSA) o di Kaiser-MeyerOlkin (KMO), un indice fra 0 e 1 dove il valore 1 indica che le correlazioni parziali fra le variabili sono basse, dunque elevata è la correlazione con i fattori comuni. Valori al di sotto di 0,5 non sono accettabili.
Queste veri1che ci permettono di avviare 1nalmente la procedura di estrazione dei fattori attraverso l’equazione che segue e che descrive il modello generale lineare fattoriale per p variabili osservate e j fattori comuni o variabili latenti:
(3.2)