CopertinaAnnamaria



Yüklə 21,24 Mb.
səhifə38/89
tarix14.09.2023
ölçüsü21,24 Mb.
#143325
1   ...   34   35   36   37   38   39   40   41   ...   89
ITALYAN DESSERTATSIYA. WORDdocx

Corso di laurea

Gestione dell’ansia

Masse di riga

L1

L2

L3

L4

BLD006

0,35

0,12

0,25

0,28

0,12

BLD023

0,40

0,26

0,19

0,15

0,21

BLD126

0,09

0,20

0,31

0,40

0,23

FIM049

0,49

0,26

0,14

0,11

0,11

MED054

0,25

0,27

0,33

0,15

0,16

MED055

0,38

0,25

0,21

0,17

0,16

Media o centroidi dei pro.li di riga

0,30

0,23

0,25

0,22

1,00

Tabella 3.2 - Pro1li di riga, masse di riga, media o centroidi dei pro1li di riga per le variabili CORSO DI LAUREA (righe) e livello di gestione dell’ANSIA (colonne) in un dataset relativo alla percezione dei sistemi di e-proctoring in ambito universitario.

Corso di laurea

Gestione dell’ansia

Media o centroidi dei pro.li di colonna

L1

L2

L3

L4

BLD006

0,14

0,07

0,13

0,14

0,12

BLD023

0,28

0,24

0,16

0,14

0,21

BLD126

0,07

0,20

0,29

0,42

0,23

FIM049

0,17

0,12

0,06

0,06

0,11

MED054

0,13

0,19

0,22

0,11

0,16

MED055

0,20

0,18

0,14

0,12

0,16

Masse di colonna

0,30

0,23

0,25

0,22

1,00

Tabella 3.3 - Pro1li di colonna, masse di colonna, media o centroidi dei pro1li di colonna per le variabili CORSO DI LAUREA (righe) e livello di gestione dell’ANSIA (colonne) in un dataset relativo alla percezione dei sistemi di e-proctoring in ambito universitario.
(3.3) 2
χ =43,159 , df=15 , p=0,0001478
Di seguito esprimiamo in formule la distanza euclidea e la distanza del c2 per i pro1li di riga 1 e 2 della Tabella 3.2 e veri1chiamo la differenza che intercorre fra le due.
(3.4) DISTANZA EUCLIDEA (pro.li di riga 1 e 2)
d(1,2) = √(0,35−0,40)2+(0,12−0,26)2+(0,25−0,19)2+(0,28−0,15)2 =
= √(0,0025+0,0196+0,0036+0,0169) = 0,2064
(3.5) DISTANZA DEL χ2 (pro.li di riga 1 e 2)
d
= √0,0083+0,0852+0,0144+0,0768 = 0,4298
Attraverso la stessa formula si può calcolare la distanza fra i pro1li di riga (o colonna) e i centroidi.
(3.6) DISTANZA DEL c2 (pro.lo di riga 1 e media del pro.lo riga)
d

Calcolata la distanza pro1li-centroidi, possiamo ottenere l’inerzia, indicatore fondamentale nella CORA poiché coincide con la varianza e la sua scomposizione ci permette di de1nire le dimensioni da includere nei processi di riduzione della dimensionalità.
L’inerzia totale è la somma dei prodotti fra masse e distanze dai centroidi (di riga o colonna) e si può dimostrare che corrisponde al c2 normalizzato (diviso cioè per il numero di osservazioni):
(3.7)
Inerziatotale = ∑(massa di riga i) N
dove d è la distanza del pro1lo di riga i dal centroide e N la numerosità del
campione.
La somma dell’inerzia calcolata per i pro1li di riga coincide con quella calcolata per i pro1li delle colonne. L’inerzia rappresenta la misura della varianza dei pro1li, il valore dell’inerzia totale viene scomposto negli autovalori che coincidono con la varianza delle dimensioni da estrarre. Possiamo scrivere quindi:
(3.8)
Inerziatotale = ∑(massa di riga i) N
dove k è il numero degli autovalori λ in cui viene scomposta l’inerzia ed è
pari al numero di dimensioni dell’analisi in questione. Si può dimostrare che k coincide con il valore minimo delle modalità delle variabili osservate meno uno.
Come nelle tecniche precedenti, anche nella CORA i valori degli autovalori sono restituiti in ordine decrescente, dal più grande al più piccolo. Essi indicano quanto la dimensione a cui sono riferiti è rilevante nell’analisi e quindi permettono di selezionare il numero di dimensioni da considerare.
La scelta del numero di dimensioni, come visto nell’EFA e nella PCA, può essere delegata alle rilevazioni da uno scree test (Figura 3.7), al valore della varianza cumulata o alla limitazione a priori del numero di dimensioni da parte del ricercatore. Ricordiamo comunque che questa operazione è un gioco di equilibri: utilizzare più dimensioni aggiunge informazioni nell’analisi ma può renderla più complicata; allo stesso modo ridurre il numero di dimensioni può sempli1care l’interpretazione ma ridurre anche le informazioni ottenute.

Figura 3.7 - Scree plot per CORA: plot degli autovalori e delle dimensioni (funzione fviz_screeplot, libreria factoextra).
Dal punto di vista gra1co, l’inerzia totale è la somma delle distanze dei punti dall’origine degli assi che, come accennato, si fa coincidere con i pro1li medi. Una volta calcolata l’inerzia, quindi, si può procedere al calcolo delle coordinate di ciascun punto (ciascuna modalità) come proiezioni dello stesso punto sugli assi.
Nel biplot, l’angolo che si crea fra i segmenti con estremi nell’origine e nel punto che indica la modalità indica il grado di relazione fra due modalità: più l’angolo è acuto, più le due modalità sono similari. Alti livelli di associazione (similarità) fra le modalità saranno visibili nella vicinanza dei punti in una mappa di percezione. Punti più vicini all’origine rappresentano modalità con valori più simili a quelli medi; punti più lontani indicano valori delle modalità che si discostano dai valori attesi. Nell’interpretazione dell’andamento delle modalità si considera anche la loro distribuzione in quadranti e in semipiani positivi e negativi.
Per il modo in cui le distanze sono calcolate (scalate rispetto alle frequenze marginali) nell’analisi delle corrispondenze semplici nei biplot de1niti simmetrici si possono confrontare soltanto modalità della stessa variabile. Si è soliti fare generalizzazioni sulle distanze fra le modalità appartenenti a variabili diverse. Il confronto fra modalità appartenenti a più variabili può essere condotto nei biplot asimmetrici nei quali le coordinate dei punti in colonna sono sostituiti con i valori estremi (considerando il caso estremo in cui tutte le unità statistiche rilevate su una riga cadano in una sola colonna).
Ritorniamo al nostro esempio e proviamo a lavorare sui dati utilizzando R e due fra i pacchetti speci1ci per l’analisi delle corrispondenze: FactoMineR e factoextra (per indicazioni più complete per questa e le precedenti tecniche si veda Kassambara, 2017).
Con i dati a nostra disposizione, possiamo calcolare il valore dell’inerzia totale che è pari a 0,134.
(3.9)
χ2
Inerziatotale = = = 0,134
N 323
La funzione CA del pacchetto FactoMineR usa come argomento principale la tabella di contingenza senza totali (Tabella 3.1) e restituisce la visualizzazione gra1ca in Figura 3.8 e gli indici in Figura 3.9.
Otteniamo 3 dimensioni (come ci aspettavamo, il minimo delle modalità per variabile meno uno). La prima dimensione spiega l’84,580% della varianza, la seconda 11,930%, la terza 3,491%. Utilizzando le prime due dimensioni riusciamo a spiegare il 96,509% della varianza del dataset.
Notiamo che sommando l’inerzia per le modalità in riga o in colonna otteniamo 0,134. Sommando gli autovalori (varianza/inerzia) delle 3 dimensioni otteniamo ancora 0,134. Questa uguaglianza non ci meraviglia poiché l’inerzia totale calcolata dalla tabella di contingenza viene ridistribuita come varianza di un numero limitato di dimensioni.
Le coordinate dei punti/modalità, insieme ai contributi (crt) e al coseno quadro (cos2) vengono restituiti sia per riga che per colonna (Figura 3.9).

Figura 3.8 - Biplot simmetrico nell’analisi delle corrispondenze semplici riferita alle variabili ANSIA e CORSO DI LAUREA in un dataset relativo alla percezione dei sistemi di e-proctoring in ambito universitario (funzione CA, libreria FactoMineR).

Figura 3.9 - Risultati dalla funzione summary nelle procedure di analisi delle corrispondenze realizzata in R con la funzione CA, libreria FactoMineR: c2, varianza, ctr e cos2 per righe e per colonne.
L’indice ctr denota quanto la modalità contribuisce a determinare la dimensione, cioè a determinare la variabilità del dataset. Ovviamente saranno più rilevanti, anche nell’interpretazione dei risultati, le modalità con valori di ctr più elevati; da escludere sono le modalità che non inGuenzano nessuna dimensione. Nel nostro esempio, il valore ctr per le modalità BLD006 e MED054 è rispettivamente 62,168 e 59,991. I due item sono quelli che contribuiscono maggiormente alla de1nizione della variabilità rispettivamente delle dimensioni 1 e 2.
Cos2, coseno dell’angolo fra gli assi e la retta passante per l’origine e il punto della modalità, detto anche correlazione al quadrato, indica il livello di qualità della rappresentazione, ossia quanto la modalità è ben rappresentata dalla dimensione. Si tratta di un valore compreso fra 0 e 1. La somma dei cos2 per ciascuna modalità è pari a 1. Scegliendo un numero inferiore di dimensioni rispetto a quelle possibili, il cos2 diminuirà. In ogni caso, più tale valore si avvicina a 1, più la modalità è ben rappresentata nel modello costruito. Ancora nel nostro esempio, MED054 ha un cos2 maggiore nella dimensione 2, questa dimensione rappresenta meglio l’item. Al contrario BLD126 ha un cos2 di 0,990 per la dimensione 1 ed è questa dimensione che meglio rappresenta le frequenze per il corso di laurea in questione.
Le stesse riGessioni su coordinate, qualità (cos2) e contributi (crt) sono riportate nella seconda parte del summary dedicato alle colonne (Figura 3.9).
La rappresentazione in Figura 3.8 è de1nita simmetrica, righe e colonne sono rappresentate con le coordinate calcolate in origine. Come abbiamo detto, ciò limita l’interpretazione delle distanza fra righe e colonne. Per confrontare in maniera più af1dabile le modalità appartenenti a righe e colonne, dobbiamo lavorare sul biplot asimmetrico (Figura 3.10).
I livelli di ANSIA in entrambi i biplot (Figura 3.8 e 3.10) sono distribuiti nei quattro quadranti. Nel biplot simmetrico i punti della variabile CORSI DI LAUREA si dispongono lungo l’asse della dimensione 1 “mescolandosi” con i livelli d’ansia. Le modalità dei corsi FIM049, BLD023 e MED055 sono sul semiasse opposto al corso BLD126. Così come BLD006 è sul semiasse opposto della dimensione 2 rispetto al corso MED054. In entrambi i casi, si tratta di modalità che, considerate in funzione dei livelli di gestione dell’ansia, si comportano in modi diversi. In breve gli studenti in corsi di laurea collocati su semiassi e semipiani opposti, gestiscono in maniera diversa l’ansia. FIM049 è vicina alla modalità d’ansia L1, così come BLD126 lo è al livello L4. Questa vicinanza lascerebbe ipotizzare che con maggiore probabilità gli studenti del corso BLD126 hanno gestito meglio l’ansia usando i sistemi di e-proctoring rispetto agli studenti del corso di laurea FIM049. Il biplot asimmetrico mostra le modalità dei corsi di laurea nelle vicinanze dell’origine, i valori sembrano avvicinarsi molto ai valori medi. I livelli di ansia sono distanti dalle modalità dei corsi di laurea. Questa distribuzione spinge verso l’ipotesi che il tipo di relazione che intercorre fra le due variabili è piuttosto debole. Tuttavia, la visualizzazione nella Figura 3.10 è abbastanza frequente nei biplot asimmetrici poiché abbiamo sostituito i valori delle modalità in colonna con quelli marginali e dunque l’ipotesi è tutta da veri1care. L’uso dei biplot asimmetrici è consigliato quando l’inerzia (e dunque la distanza dei punti dai centroidi) ha valori elevati che permettono di conservare una giusta proporzione fra le modalità.

Figura 3.10 - Biplot asimmetrico nell’analisi delle corrispondenze semplici riferita alle variabili ANSIA e CORSO DI LAUREA in un dataset relativo alla percezione dei sistemi di e-proctoring in ambito universitario (libreria factoextra, funzione fviz_ca_biplot).
I dati usati in questo esempio sono serviti soltanto per generare gra1ci e calcolare indici, hanno un carattere semplicemente esempli1cativo, non aspirano a fornire risposte ef1caci a reali domande di ricerca. Utilizzarli ci ha permesso di ripercorrere le procedure di un’analisi delle corrispondenze semplici e comprendere il tipo di risultati a cui è possibile giungere.
Aggiungiamo al nostro esempio la variabile PERFORMANCE in una scala da
1 a 4. Essa rappresenta il livello con cui l’uso dei sistemi di e-proctoring ha inGuenzato positivamente le prestazioni degli studenti durante le prove d’esame.
Cosa succede quando abbiamo più variabili?
Quando è possibile, il ricercatore prova a riportare l’analisi multivariata a una analisi bivariata. Riporta i dati nella formulazione della Tabella 3.4 dove ciascuna riga rappresenta due modalità (variabili interattive), restando nel nostro esempio, una relativa al corso e una al livello di performance. Gli studenti della riga 1, ad esempio, appartengono al corso di laurea BLD006 e hanno dichiarato che i sistemi di e-proctoring non hanno migliorato la loro performance (livello L1). Di questi 7 hanno un livello L1 di gestione dell’ansia, 0 un livello L2, 1 un livello L3 e 3 un livello L4.
Questa tabella di contingenza può quindi essere usata in una CORA con gli stessi meccanismi visti 1nora.


Yüklə 21,24 Mb.

Dostları ilə paylaş:
1   ...   34   35   36   37   38   39   40   41   ...   89




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin