Tabella 8.1 - Dataset costituito da 865 osservazioni su 10 quesiti.
Nella tabella riportiamo i punteggi conseguiti da ciascuno studente (ultima colonna) e l’indice di dif0coltà calcolato come rapporto fra risposte corrette e risposte totali (ultima riga).
Riportiamo nella Tabella 8.2 i valori della dif0coltà appena calcolati e utilizziamo le espressioni (8.2) e (8.3) per calcolare rispettivamente la DI e la DV. Consideriamo nel gruppo dei “migliori” i punteggi superiori all’8 e nel gruppo dei “peggiori” quelli inferiori al 6. I due valori corrispondono al primo e al terzo quartile. Appartengono al primo gruppo 201 studenti (NH = 201), al secondo 149 (NL = 149). Per ciascuna domanda calcoliamo il numero di studenti che in ciascuno dei due gruppi ha risposto correttamente alla domanda stessa e applichiamo le formule.
Cominciamo con il veri0care che il valore di DV calcolato con le due differenti procedure ci restituisce valori diversi all’incirca di 0,1. Tuttavia, le criticità emergono in entrambi i casi. Sono ad esempio da rivedere gli item Q2 e Q9 come item troppo semplici.
Figura 8.1 - Distribuzione dei punteggi del dataset in Tabella 8.1.
Elevati invece sono i valori della DI degli item Q4, Q6 e Q8 di cui per tale motivo andrebbero veri0cati i contenuti e i distrattori.
L’ultima riga della Tabella 8.2 contiene i valori dell’indice di discriminatività calcolato come punto biseriale. Per questo calcolo, così come per il resto del paragrafo ci serviremo di R e del pacchetto ltm che è stato realizzato espressamente per lavorare sui latent trait model (Rizopoulos, 2007). In questo caso abbiamo usato la funzione biserial.cor (avremmo tuttavia potuto usare anche la funzione di base cor di R ottenendo valori simili). I valori di DI delle ultime due righe sono molto diversi fra loro, siamo davanti a due procedure di calcolo differenti in cui i valori centrali assumono un ruolo importante: esclusi nella riga 3, appiattiscono i risultati nella riga 4.
Usiamo dallo stesso pacchetto ltm la funzione cronbach.alpha che come dice lo stesso nome ci restituisce il valore dell’indice α di Cronbach, per questo dataset modesto, α = 0,553. Questo indica che la coerenza delle domande fra di loro non è elevata, le domande probabilmente non indagano un unico tratto latente.
Indice
Q1
Q2
Q3
Q4
Q5
Q6
Q7
Q8
Q9
Q10
DV (8.1)
0,59
0,90
0,65
0,57
0,42
0,77
0,80
0,80
0,94
0,75
DV (8.2)
0,64
0,82
0,75
0,60
0,54
0,69
0,72
0,71
0,89
0,71
DI (8.3)
0,80
0,69
0,53
0,89
0,82
0,89
0,82
0,88
0,56
0,84
DI (8.4)
0,43
0,52
0,21
0,49
0,41
0,56
0,54
0,56
0,41
0,49
Tabella 8.2 - Indici di dif0coltà DV e discriminatività DI per i 10 item dell’esempio calcolati utilizzando le espressioni (8.1), (8.2), (8.3), (8.4).
È bene sapere che la funzione descript del pacchetto ltm fornisce le statistiche descrittive per un dataset composto da item e l’intero set di indicatori 0nora descritti. Essa ci restituisce il numero delle domande e delle unità statistiche, la percentuale di studenti che hanno risposto correttamente a ciascun item, i punteggi totali, la correlazione punto biseriale, l’α di Cronbach, i p-value calcolati sul c2 delle associazioni a coppie di item: quelle problematiche ci possono fornire indicazione su item critici che hanno un alto livello di associazione fra di loro.
Anche su Moodle, uno dei più noti e utilizzati sistemi di gestione dell’apprendimento per la formazione a distanza, il sistema di Report per le attività Quiz contiene interessanti riferimenti alla Classical Test Theory e in genere all’analisi psicometrica dei questionari come si può vedere dagli screenshot nelle Figure 8.2 e 8.3. La prima sezione (Figura 8.2) fornisce una sintesi su tutte le risposte del Quiz, sul primo o ultimo tentativo, sul tentativo migliore. In particolare, otteniamo per l’intero questionario punteggi medi e mediana, deviazione standard; inoltre, i valori della kurtosis e della skewness della distribuzione dei punteggi, l’α di Cronbach, i parametri di errore.
La seconda sezione (Figura 8.3) contiene per ciascuna domanda i valori della dif0coltà (qui indicata come abilità ossia percentuale di risposte corrette da parte dei rispondenti) e della discriminatività (punto biseriale), il peso previsto (in Figura, 10% poiché uguale per le 10 domande che compongono il questionario) e il peso effettivo (quello stimato come più adatto rispetto alle caratteristiche della domanda).
Figura 8.2 - Prima sezione di reportistica su Moodle per i questionari: Quiz > Report > Statistiche. La sezione contiene valori di sintesi sull’intera prova di valutazione.
Figura 8.3 - Seconda sezione di reportistica su Moodle per i quesiti: Quiz > Report > Statistiche. La sezione contiene nelle righe valori riferiti ai singoli item che compongono la prova di valutazione.
La Classical Test Theory vincola i risultati delle prove (i voti per intenderci) ai quesiti degli item. L’Item Response Theory, invece, introduce un approccio di natura probabilistica nell’analisi che mette in relazione l’abilità dello studente e la dif0coltà degli item con la probabilità che lo studente risponda correttamente alle domande; a partire dai dati raccolti in fase di tryout o nella prima somministrazione della prova permette dunque di de0nire e confrontare modelli nei quali uno studente con una certa abilità ha una determinata probabilità di rispondere correttamente a un quesito con certe caratteristiche. A posteriori e in procedure che prevedono approssimazioni successive stimiamo quindi l’abilità θ di un dato studente, il tratto latente che ci poniamo l’obiettivo di misurare nei questionari di valutazione.
L’analisi fattoriale è la tecnica che ci permette di lavorare sui tratti latenti. La funzione lineare in cui abbiamo espresso la relazione fra variabili manifeste e latenti nel capitolo 3 è utile per le variabili metriche, qualcosa necessariamente cambia nel momento in cui ci troviamo a lavorare con variabili binarie come in questo caso: la relazione che lega le variabili rilevate (in questo caso le risposte alle domande) e i tratti latenti da utilizzare è invece quella logistica (Bartholomew et al., 2008) che abbiamo già incontrato parlando di regressione logistica nel capitolo 5.
Risulta quindi che
(8.5) pi = a + bi1f1 + bi2f 2 + … + bik f k dove p è la probabilità (con valori come è noto compresi fra 0 e 1) che uno
studente risponda correttamente alla domanda i, fk i fattori latenti.
Trasformazioni e sempli0cazioni conducono a de0nire un modello di base nella notazione:
(8.6) (ai +bi θ) e pi = gi + (1−gi) (ai+bi θ)
1+e dove pi è la probabilità che uno studente risponda correttamente alla domanda i, bi è il potere discriminante dell’item i, θ l’abilità dello studente, ai la dif0coltà dell’item i e g il parametro guessing ossia la probabilità che uno studente con scarsa abilità risponda correttamente all’item.
Questa formulazione si riferisce al modello più completo e più complesso a tre parametri, detto di Birnbaum.
Il modello logistico di Rasch, detto a un parametro, ipotizza che g = 0 e che la discriminatività assuma un valore 0sso per tutte le domande. In questo caso i parametri da calcolare sono quelli legati all’abilità θ dello studente (che ricordiamo essere il tratto latente) e la dif0coltà adella domanda i.
Nel modello a due parametri, solo il guessing viene escluso (g = 0): il secondo parametro è la discriminatività bi.
Per applicare la IRT è necessario veri0care due presupposti (Wallace et al., 2018):
gli item devono essere indipendenti fra loro, ossia la probabilità che lo studente risponda correttamente a un item deve essere legata solo all’abilità dello studente e non a risposte ad altri item o ad altri fattori;
il test deve essere unidimensionale, ossia un unico tratto latente deve spiegare completamente la performance dello studente nella prova.
Nel pacchetto ltm (che è solo una delle possibilità esistenti fra sofware e pacchetti di R) tre diverse funzioni ci permettono di calcolare i modelli a uno, due, tre parametri. Si tratta rispettivamente delle funzioni rasch, ltm, tpm.
Le tre funzioni restituiscono i valori dei parametri insieme a stime della bontà del modello come AIC (Akaike Information Criterion), BIC (Bayes Information Criterion) e massima verosimiglianza.
Dai valori dei parametri e attraverso un processo iterativo di ottimizzazione con le procedure di massima verosimiglianza, viene stimata l’abilità θ per ciascuno studente, elemento fondamentale come vedremo nel prossimo paragrafo quando usiamo per 0ni didattici la IRT. Quest’ultima, così anche come la dif0coltà e la discriminatività degli item, sono espresse usando i logit, i logaritmi dell’odds ratio. In particolare, l’abilità di un dato studente risulterà espressa dalla notazione:
(8.7) p θ = log 1−p dove p è la percentuale di risposte corrette fornite dello studente. Nei risultati, per fare un esempio dunque, θ = 0 indica che lo studente ha risposto correttamente al 50% delle domande del questionario essendo p / (1 - p) = 1 e log (1) = 0. Valori negativi di θ indicano che lo studente ha risposto a meno del 50% delle domande e viceversa per i valori positivi (si vedano le proprietà elementari della funzione logaritmo).
Gra0camente la forma che la relazione individuata fra i parametri assume è quella che della curva a forma di S che abbiamo incontrato nella regressione logistica (cap. 5). Per ciascuna domanda con una data dif0coltà potremo gra0camente visualizzare la probabilità che uno studente con una data abilità possa rispondere correttamente. Questa curva viene de0nita Item Characteristic Curve (ICC). [Nota bene: la probabilità non raggiunge mai i valori dello 0 o dell’1, ciò signi0ca che c’è sempre una possibilità per gli studenti con abilità molto basse di rispondere correttamente a una domanda e, viceversa, per studenti con abilità molto alta di sbagliarne una!]
Figura 8.4 – Item Characteristic Curve dei 10 item dell’esempio in analisi.
Nella Figura 8.4 vediamo le ICC calcolate sulle 10 domande nel nostro esempio usando la funzione plot.rasch del pacchetto ltm applicata in questo caso ai risultati della funzione rasch dello stesso pacchetto (modello a un parametro). La probabilità che studenti con il valore di abilità più basso calcolato (-4) rispondano correttamente alla domanda Q5 tende a 0; il valore della stessa percentuale sale al 50% per la domanda Q9 che, come possiamo osservare, è più piatta. La domanda Q5 è quindi più dif0cile della Q9. Curve più ripide come la Q3 e la Q4 hanno un maggiore potere discriminativo perché il passaggio da livelli bassi di abilità a livelli alti è più immediato.
Riportiamo a seguire altri due gra0ci che si possono ottenere dalla stessa funzione: l’Item Information Curve (Figura 8.5) e il Test Information Curve (Figura 8.6). Entrambi riportano la percentuale di informazioni che i singoli quesiti nel primo caso e l’intero test nel secondo forniscono in riferimento all’abilità degli studenti. Gli item Q9 e Q10 forniscono più informazioni su abilità basse, il Q5 su abilità che tendono a valori più alti. L’intero test fornisce informazioni piuttosto su bassi livelli di abilità che su alti: il 60% delle informazioni fornite dal test è riferibile ad abilità comprese fra -4 e 0.