Figura 3.1 - Rotazione degli assi cartesiani e riduzione della varianza nella PCA.
Se la rotazione degli assi risulta semplice in uno spazio a due dimensioni con due sole variabili, trovare il modo in cui ruotare uno spazio a più dimensioni, e di conseguenza trovare i valori delle app in base ai quali scrivere la combinazione lineare che ci permette di individuare le componenti principali, può essere dif1cile e laborioso. È necessario utilizzare l’algebra lineare attraverso cui calcolare autovalori e autovettori della matrice di correlazione o di covarianza (per ripassare gli argomenti relativi ad autovalori e autovettori di una matrice quadrata può essere utile consultare “Algebra Lineare” di Marco Abate, 2000).
Nel calcolo di autovalori e autovettori impostiamo alcune condizioni che permettono di scegliere le app ossia:
la varianza totale delle Yp è pari alla varianza totale delle xp;
la somma delle app per ciascuna componente/variabile deve essere pari a 1;
la prima e la seconda componente sono ortogonali (e quindi non correlate fra loro).
Gli autovalori sono la varianza delle componenti Yp. La prima componente ha varianza più alta della seconda e così via a cascata. Spesso la prima componente raccoglie la varianza di un numero maggiore di variabili e quindi spiega la maggior parte della varianza del dataset.
I valori delle app rappresentano la correlazione fra variabili originali e componenti. Questi valori ci aiutano a capire quante e quali variabili inGuenzano maggiormente una componente.
Per capire come i meccanismi visti 1nora si applicano nella pratica, prendiamo in analisi ancora l’esempio del dataset composto dai voti di un gruppo di studenti universitari considerando questa volta sei esami sostenuti. Il nostro scopo è di sintetizzare le informazioni sui sei esami in un numero inferiore di dimensioni. Veri1cata la correlazione, applichiamo il metodo della PCA, operazione che nei software di analisi statistica si riassume nella scrittura di poche funzioni (per nostra fortuna!). In R, ad esempio, è suf1ciente la funzione di base prcomp (libreria stats). I risultati visualizzati con la funzione summary appaiono come nella Figura 3.2.