CopertinaAnnamaria



Yüklə 21,24 Mb.
səhifə18/89
tarix14.09.2023
ölçüsü21,24 Mb.
#143325
1   ...   14   15   16   17   18   19   20   21   ...   89
ITALYAN DESSERTATSIYA. WORDdocx

Figura 2.2 - Boxplot degli iscritti ai MOOC della piattaforma EduOpen suddivisi per categoria dei corsi. Vanno indagati i punti che superano il valore massimo come possibili outlier delle distribuzioni.
Normalità, linearità e omoschedasticità. Per applicare alcuni dei metodi di analisi multivariata, bisogna assumere che i dati si distribuiscano secondo una speci3ca distribuzione, molto spesso una normale multivariata, cioè che ogni variabile e ogni combinazione lineare fra le stesse variabili siano normali, obiettivo complesso da veri3care quando il numero di variabili è particolarmente elevato. Tuttavia un buon punto di partenza è provare normalità, linearità e omoschedasticità per le singole variabili. Diamo rapidi cenni di seguito su come procedere:

  • ci sono test e gra3ci che testano l’ipotesi di normalità univariata come i test di Shapiro-Wilk, Anderson-Darling e Lilliefors (Kolmogorov-Smirnov) o il metodo gra3co denominato Q-Q plot (plot quantile della distribuzione osservata vs quantile della distribuzione di riferimento). Parametri da calcolare utili a testare la normalità sono la skewness, che restituisce la simmetria della curva, e la kurtosis, che ne veri3ca il livello di appiattimento e lo spessore delle code. Entrambi devono avvicinarsi allo 0 se le distribuzioni sono normali ma rappresentano soltanto delle condizioni necessarie e non suf3cienti.

  • l’esistenza di una correlazione lineare fra distribuzioni normali si visualiz za in uno scatterplot bivariato quando i punti sono disposti in maniera curvilinea. Talvolta bisogna accettare che la relazione fra due variabili non assuma una forma lineare ma di altro tipo. E, spesso, è il caso più interessante.

  • l’omoschedasticità è la proprietà di cui gode un gruppo di variabili che possiedono una variabilità (varianza) simile. Se esiste una normalità multivariata allora le variabili sono omoschedastiche.

Quando sono presenti outlier o quando, pur se necessario per i nostri calcoli, le variabili non rispettano i criteri di normalità, linearità e omoschedasticità, si preferisce applicare processi di data trasformation che vanno a modi3care le singole modalità di ciascuna variabile e comportano, come conseguenza, modi3che alle scale e alle unità di misura con le quali i dati sono stati raccolti. Lo scopo di tali trasformazioni è quello di migliorare la normalità delle distribuzioni e di rendere confrontabili variabili misurate con scale diverse (ad esempio, “perdendo” le unità di misura con le quali i dati sono stati misurati). Molto noti sono i processi di normalizzazione e standardizzazione. La prima operazione ci consente di modi3care i dati in modo che, come percentuali, risultino compresi in un range fra 0 e 1, dove 0 coincide con il valore minimo assunto dalla variabile e 1 il valore massimo. La seconda trasforma i valori di partenza generando una distribuzione che ha il valore 0 come media e 1 come deviazione standard. A queste, inoltre, solo per citarne alcune, si possono aggiungere l’inversa e le trasformazioni monotoniche come quelle logaritmiche, di elevamento a potenza e radice quadrata (McCune & Grace, 2002).

Yüklə 21,24 Mb.

Dostları ilə paylaş:
1   ...   14   15   16   17   18   19   20   21   ...   89




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin