x p=ap+bp1f1+bp 2f2+…+bpj f j+up dove xpsono le variabili osservate, bpjsono i pesi fattoriali (loading), fii fattori
comuni e up la varianza che dipende dalla singola variabile e il suo errore.
Ogni variabile è una combinazione lineare di fattori che descrivono elementi latenti. I valori di bpj, pesi fattoriali, ci dicono quanto ciascun fattore contribuisce alla de1nizione della variabile.
La formula rovescia le posizioni delle xp e dei fattori fi (componenti Yp)rispetto a quanto visto nell’analisi delle componenti principali: qui ci chiediamo quale fattore e con quale intensità contribuisce a descrivere la variabile originale per determinare la struttura latente nei dati. Nella PCA, lo scopo principale è trovare poche dimensioni reali che possano sostituire numerose variabili osservate; di conseguenza gli elementi da rintracciare sono proprio quelle poche dimensioni, ossia come già detto le componenti Yp.
Nell’espressione (3.2) troviamo anche il parametro up assente nella PCA poiché, come ricorderemo, nella PCA si assume che tale valore sia basso o non consistente e che l’unica varianza da tenere in conto è la varianza totale.
Si può dimostrare che i parametri del modello che descrive le relazioni la tenti fra le variabili possono essere individuati dalla covarianza fra le variabili manifeste. Sia la determinazione dei pesi fattoriali che il fattore speci1co up richiedono che sia posta attenzione a come calcoliamo e concepiamo la varianza nell’EFA. L’abbiamo accennato più volte, ma vale la pena esplicitare in maniera più chiara che essa risulta composta da due parti:
la varianza comune: condivisa con le altre variabili dell’analisi, dipende dalla correlazione con i fattori comuni. La indicheremo in seguito con il termine comunalità e la calcoleremo come somma della varianza comune spiegata dal fattore o meglio il quadrato dei pesi fattoriali che rappresentano la correlazione/covarianza fra una variabile e i fattori;
la varianza unica con il suo errore: si tratta della varianza speci1ca della singola variabile che è attribuita alla distribuzione in sé e il cui errore può essere spiegato solo dai processi di raccolta dati e misurazione.
L’analisi delle componenti principali è una delle tecniche di estrazione dei fattori. Poiché in essa la varianza considerata è solo comune, nella matrice di correlazione usata per determinare autovalori e autovettori si conserva la diagonale composta soltanto da 1 (non prendiamo infatti in considerazione la varianza speci1ca e il suo errore).
Altri metodi, fra cui ad esempio quello dei fattori principali, ammettono invece, come è comune nell’EFA, che la varianza abbia anche una componente unica e quindi che non tutta la varianza sia spiegata nel legame con i fattori comuni. In questi casi, poiché ammettiamo la presenza di errori, nella matrice di correlazione la diagonale sarà composta da valori inferiori ad 1 poiché per via dell’errore la correlazione della variabile con sé stessa non è perfetta; il valore sostituto deriva dalla stima della mutua interazione. Non ci occuperemo di altri metodi possibili come quello dei residui generalizzati, della fattorializzazione immagine o massima verosimiglianza.
Sia che usiamo la PCA, sia che usiamo il metodo dei fattori principali, riportando le equazioni nella forma matriciale, è possibile calcolare i valori dei pesi fattoriali. Non c’è una matrice unica e quindi per stimare gli elementi che compongono la relazione dobbiamo imporre alcuni vincoli come ad esempio che i fattori fj siano non correlati fra loro e standardizzati (media 0 e deviazione 1); che i fattori unici up siano non correlati fra loro e con i fattori comuni; che entrambi seguano una distribuzione normale.
Il numero massimo di fattori estraibili è pari a quello delle variabili originali.
Fra le scelte del ricercatore rientra il numero di fattori a cui fermarsi. A tal proposito una prima valutazione da fare nasce dal confronto tra il numero di fattori che ci aspettiamo di ottenere per motivazioni teoriche e il numero di fattori prodotti dall’analisi statistica e dalle loro comunalità. La somma dei valori delle comunalità di tutti i fattori prodotti nell’analisi è pari a 1, spiega completamente il fenomeno studiato (100%). Tuttavia gli ultimi fattori estratti hanno meno rilevanza nell’analisi (comunalità più basse) e aggiungendoli all’analisi verrebbe meno il vantaggio della riduzione.
Ci sono alcuni criteri per decidere il numero dei fattori da estrarre, criteri che frequentemente vengono usati con modalità iterative in una stessa analisi 1no ad arrivare a una selezione di fattori non soggettiva che esprime la struttura delle variabili latenti senza eccessive perdite di informazioni o complicazioni nella lettura dei dati. Il ricercatore potrebbe stabilire prima di avviare l’analisi il numero di fattori a cui fermarsi (a priori criterion) o potrebbe valutare di utilizzare nell’analisi soltanto i fattori con autovalore superiore a 1 (latent root criterion) o ancora utilizzare lo scree test descritto nel paragrafo precedente.
La matrice dei pesi fattoriali, ossia le correlazioni di ogni variabile con ciascun fattore, ci permette di individuare la struttura latente del dataset. Più sono elevati i valori della correlazione, più i fattori sono rappresentativi della variabile manifesta considerata.
Accade che la matrice dei fattori non risulti di facile lettura: si procede quindi a una rotazione dei fattori per ridurre le ambiguità nell’interpretazione usando gli stessi principi in Figura 3.1. La rotazione è un’invariante rispetto alle distanze e alle composizioni delle variabili. Esistono molte strategie di rotazione che i software statistici includono e applicano automaticamente. Le rotazioni si distinguono in ortogonali (assi perpendicolari) e oblique (assi non perpendicolari). Una delle più note è la variazione ortogonale detta VARIMAX.
L’interpretazione dei fattori (ruotati o non ruotati) ci permette di visualizzare la struttura del dataset. Ciascun fattore diventa a questo punto rappresentativo del gruppo di variabili che ha con esso i valori di correlazione più alti. Il ricercatore quindi potrà attribuire a quel fattore un nome che sia rappresentativo delle variabili con cui è correlato dando più rilevanza nell’interpretazione e nella scelta del signi1cato alle variabili con correlazione più alta.
La Figura 3.6 mostra i pesi fattoriali (loadings) e i risultati forniti da R in un’analisi fattoriale esplorativa (funzione: fa, libreria: psych) su un dataset composto da 6 variabili (a scopo esempli1cativo abbiamo usato i dati relativi agli esami dell’esempio del paragrafo precedente) con l’uso della rotazione obliqua OBLIMIN per l’estrazione di due fattori. I due fattori raccolgono la va riabilità delle variabili in gruppi di tre. Il riquadro in basso contiene i valori relativi alla somma dei pesi fattoriali al quadrato (SS loadings) considerati nell’analisi se superiori a 1 e alla proporzione di varianza per fattore e varianza cumulata come nella PCA. Nell’esempio, la varianza cumulata usando 2 fattori è pari a 0,52, il modello individuato quindi spiega il 52% della varianza del dataset, valore che riteniamo non essere del tutto soddisfacente. Avremmo bisogno di estrarre più fattori per rendere il modello maggiormente rappresentativo della varianza delle variabili di partenza.