Regression model for CRATE Residual standard error: 0.2165 on 705 DF Residuals: Min 1Q Median 3Q Max
-1,633 -0,126 -0,0324 0,155 0,547
Multiple R-squared: 0,756
Adjusted R-squared: 0,7504
F-statistic: 136,5 on 16 and 705 DF, p-value: < 2,2e-16
Variable
Coecient
SE
t-test
p-value
(Intercept) *
-0,247
0,085
-2,897
0,004
GENDER *
-0,049
0,017
-2,804
0,005
DEGREE *
0,013
0,006
2,065
0,039
AGE *
-0,011
0,004
-2,446
0,015
CHILDREN
0,031
0,021
1,514
0,130
SECTOR
-0,003
0,002
-1,526
0,127
EFFORT
0,001
0,000
1,715
0,087
DROPOUT_TOT
-0,013
0,007
-1,865
0,063
DROPOUT_INT
0,012
0,008
1,504
0,133
DROPOUT_LEA
0,014
0,008
1,700
0,090
DROPOUT_NAV
0,012
0,008
1,544
0,123
MOTIVATION *
0,003
0,001
2,043
0,041
CLICKS_TRACKED *
-0,042
0,009
-4,802
0,000
CLICKS_TOTAL *
0,220
0,013
16,919
0,000
CTUTORED *
0,064
0,026
2,517
0,012
CCAT *
0,126
0,029
4,288
0,000
CHOUR *
0,016
0,003
4,899
0,000
LEGEND:
DF = Degree of Freedom
SE = Standard Error
* = variable with p-value < 0,05 at 95% signiBcance level
Tabella 4.1 - Esempio di regressione lineare multivariata realizzata con un processo di selezione delle variabili stepwise in cui la variabile dipendente CRATE rappresenta la percentuale di completamento delle attività in un MOOC (ripreso e integrato da De Santis et al., 2019, p. 154). La funzione usata in R per le procedure di analisi legate alla regressione lineare è lm (libreria: stats).
L’analisi ha portato alla conclusione che il modello più convincente fra quelli studiati era quello che attribuiva maggiore potere predittivo alle variabili relative al numero di click degli utenti nei corsi (ossia al loro comportamento in piattaforma).
Nella riga introduttiva della Tabella 4.1 sono elencati i valori che ci restituiscono delle valutazioni complessive sull’intera regressione e cioè:
Residual standard error: è la radice del rapporto fra il quadrato dei residui e i gradi di libertà. Ci dice di quanto i valori della y si discostano mediamente dal valore reale. Più basso sarà tale valore, maggiore sarà la bontà del modello di regressione (se fosse pari a 0, il modello corrisponderebbe perfettamente ai dati osservati). Nel calcolo del RSE vengono utilizzati i gradi di libertà (df = degree of freedom) ossia la differenza fra il numero di osservazioni che appartengono al campione o alla popolazione analizzati e il numero dei parametri stimati (pari al numero dei coef'cienti parziali di regressione bi più uno o ancora al numero delle xi + y). Più alto è il numero dei gradi di libertà, più il modello è generalizzabile.
Residuals: le righe riportano i quartili della distribuzione dei residui dai quali possiamo analizzare la simmetria della distribuzione e di conseguenza avere informazioni che contribuiscono a veri'care l’assunto di normalità dei residui.
Multiple R-squared (R2): si tratta del rapporto fra il quadrato delle distanze dei valori stimati della y dalla media e il quadrato delle distanze reali dalla media. Viene de'nito coefciente di determinazione, indica la quantità di varianza della variabile dipendente spiegata dalle variabili indipendenti. Rappresenta la percentuale di casi spiegati dal modello individuato. Ha pertanto valori compresi fra 0 e 1. In generale, a bassi valori di R2 corrispondono previsioni meno af'dabili. Non è necessariamente vero il contrario. Sicuramente un elevato valore di R2 rappresenta una indicazione positiva ma, ricordando che in un modello lineare è il coef'ciente di correlazione fra i valori osservati (sperimentali) della y e i valori stimati dal modello, dipende fortemente dal numero di variabili incluse nel modello. R2, infatti, aumenta all’aumentare del numero delle variabili anche se queste possono non essere tutte signi'cative. È un indicatore “debole” di bontà del modello nell’ambito della regressione multivariata.
Adjusted R-squared (AdjR2 ): è un indicatore che completa il precedente poiché tiene in considerazione anche i gradi di libertà (ossia il numero di variabili) del modello nel calcolo della varianza. R2 aumenta ogni volta che un nuovo predittore (anche non signi'cativo) è aggiunto all’analisi, AdjR2 fornisce valori più stabili. R2 e AdjR2 sono le misure più dirette di quanto l’equazione matematica individuata interpoli i dati osservati.
F-statistic: è il risultato del test statistico F sull'ipotesi che confronta la varianza spiegata dalla regressione con quella non spiegata (residui) tenendo in considerazione il numero di variabili indipendenti coinvolte (nel nostro caso 16) e i gradi di libertà. L’ipotesi nulla veri'cata dal test è che i coef'cienti di regressione siano uguali a 0, cioè che non vi sia una dipendenza fra variabile dipendente e indipendenti e che il modello non abbia una forza predittiva. Se risulta signi'cativo sia per il valore rilevato nelle tabelle di F, che per il valore di signi'catività statistica p calcolato, possiamo affermare con suf'ciente certezza che il modello può essere predittivo anche per altri campioni della stessa popolazione.
Nella parte centrale della Tabella, le colonne restituiscono informazioni sulle variabili e sulla loro signi'catività. All’intercetta e a ciascuna variabile considerata nello studio si fanno corrispondere: i valori dei coef'cienti di regressione parziale; lo standard error of the estimate ossia la deviazione standard dei valori predetti; t-test e p-value.
I valori sono di per sé variabili casuali che si distribuiscono secondo una distribuzione t, su questa calcoliamo il p-value.
I valori dei coef'cienti bi sono affetti da un’incertezza di fondo che rende necessario veri'care la signi'catività di ciascuno di essi, ponendo l’ipotesi H0 che il valore ottenuto sia solamente frutto del caso. In aggiunta o in alternativa, calcolare lo standard error ci permette di de'nire l’intervallo di con'denza dei valori assunti dai coef'cienti. Più l’intervallo è ristretto, più accurato sarà il modello. L’intervallo di con'denza non deve contenere lo 0 per indicare l’esistenza di una qualche dipendenza, poiché ovviamente assumere che fra i valori che il coef'ciente b può assumere ci sia quello nullo, signi'ca accettare che x e y siano indipendenti fra loro (de Lillo et al., 2007).
Dall’esempio della Tabella 4.1 vediamo che la distribuzione dei residui non è simmetrica (le condizioni di normalità dei residui non sono state veri'cate neppure da altri test usati), che il modello spiega il 75% dei casi (i valori di R2 e AdjR2 sono quasi sovrapponibili in questo caso) e dalla F-statistic risulta signi'cativo. Guardando alle variabili nelle righe vediamo che i coef'cienti non sono tutti signi'cativi alla luce del p-value e sono molto vicini allo 0. Ad es. EFFORT è pari a 0,001 e di conseguenza indipendente dalla variabile risposta; il p-value < 0.087 non è signi'cativo (le variazioni non sono dovute soltanto al caso). Guardando invece alla variabile denominata CLICK_TOTAL vediamo che il valore del coef'ciente di regressione parziale si discosta dallo 0 (è pari a 0,220), lo SE è molto basso e p < 0.000 (signi'cativo). Nello studio ci siamo basati su queste osservazioni per arrivare a studiare un modello basato solamente, come dicevamo, sul numero dei click.
Nell’interpretazione dei valori dei coef'cienti, i valori delle bi per ogni predittore vanno letti in base alla scala con cui è espressa la variabile. Per confrontare l’intensità degli effetti dei coef'cienti attribuiti alle singole variabili, si lavora con valori di bi standardizzati che de'niscono la variazione osservata sulle unità di variabili standardizzate. Assumono valori da -1 a 1 dove 0 indica assenza di correlazione. Questa formulazione non viene utilizzata per predire il valore della y, ma per rilevare e confrontare l’intensità degli effetti dovuti alle singole variabili.
Un’ultima considerazione va fatta sulla selezione delle variabili da inserire nei modelli di regressione (Paterlini & Minerva, 2010; Galli & Minerva, 1999). Nell’esempio, ritroviamo nelle righe 16 predittori dei 24 considerati nello studio. Non sempre tutte le variabili rilevate vanno inserite nei modelli da de'nire o perché non aggiungono informazioni rilevanti o perché non sono statisticamente signi'cative. Il teorema fondamentale dell’algebra stabilisce l’esistenza di un polinomio interpolante per qualunque insieme di n + 1 punti, al più di grado n. Tradotto in termini più semplici con un numero altissimo di variabili, al più n, possiamo spiegare (interpolare con un polinomio) qualunque fenomeno. Lo scopo delle analisi statistiche invece è quello di usare il minor numero di variabili per rendere i modelli il più possibile esplicativi. Considerando n il numero delle variabili da selezionare, ogni studio potrebbe portarci a 2n - 1 modelli possibili. Se n è suf'cientemente grande, il numero di modelli possibili può diventare ingestibile anche per i moderni software di calcolo.
La selezione delle variabili indipendenti avviene innanzitutto a partire dal modello teorico e dalle prospettive di ricerca che guidano l’analisi.
Joseph F. Hair e colleghi (2014) sintetizzano tre metodi per la selezione che è preferibile riproporre su set di dati per confermare i risultati.
Nel primo caso, denominato di Conrmatory specication, il ricercatore individua le variabili da inserire nel modello in base alle ipotesi e al disegno della ricerca. Si scelgono le variabili indipendenti che hanno un coef'ciente di correlazione più alto con la variabile dipendente poiché sono quelle in una relazione lineare con essa e contemporaneamente hanno un coef'ciente di correlazione basso tra di loro.
Il caso opposto, Combinatorial approach, elabora tutti i modelli di regressione che possono essere generati da tutti i possibili incroci fra le variabili, considerando regressioni con 2, 3, 4, … , n variabili indipendenti con tutte le possibili combinazioni fra le stesse. Veri'cando la signi'catività e la bontà dell’interpolazione, si sceglie il modello più adeguato. Si tratta di una soluzione poco usata poiché prevede una forte automatizzazione dei processi e uno scarso coinvolgimento del ricercatore e delle teorie che sono alla base delle attività di ricerca.
L’ultimo caso, molto diffuso, è rappresentato dai Metodi sequenziali, che attraverso meccanismi automatici aggiungono e rimuovono le variabili dal set che il ricercatore propone, 'no ad ottenere un modello stabile. I metodi sequenziali sono di tre tipi:
forward addition. Si parte nella regressione da un’unica variabile e a questa si aggiungono una alla volta le successive, scelte fra quelle maggiormente signi'cative. Non è possibile in questo metodo eliminare una variabile già introdotta o aggiungere una variabile precedentemente esclusa;
backward elimination. Diversamente rispetto al caso precedente, nella de'nizione del modello vengono introdotte tutte le variabili dello studio e di volta in volta si eliminano quelle che non incidono sulla bontà della regressione. Come nella forward addition, non è possibile aggiungere o eliminare variabili già considerate;
stepwise estimation. In questo metodo, come nel forward estimation, si parte da una sola variabile, la più signi'cativa, si calcola il modello e la sua bontà. Si aggiunge poi una seconda variabile signi'cativa e si ride'nisce il modello. Se il modello risulta ancora stabile, si prosegue con l’inserimento di una nuova variabile, altrimenti si rimuove l’ultima variabile inserita e si sostituisce con la seguente. In questo caso 'no alla 'ne dell’analisi si può continuare a modi'care il gruppo di variabili selezionate aggiungendole o rimuovendole dal set. Questo metodo è quello utilizzato per la regressione in Tabella 4.1.
Numerosi criteri sono stati elaborati per valutare la qualità dei modelli 'nalizzati a veri'care quanto sia bilanciato il rapporto fra il numero di variabili introdotte nel modello e la sua bontà. Fra quelli più utilizzati vi è il criterio di Akaike (AIC, Akaike Information Criterion; Akaike, 1969; 1978), che fornisce una indicazione quantitativa sulla bontà di adattamento anche in relazione al numero di variabili utilizzate (si ricordi che, generalmente, aumentando il numero di variabili l’adattamento dovrebbe migliorare).
Minore è il valore dell’ AIC, migliore è il modello. Confrontando, dunque, più modelli costruiti a partire da uno stesso dataset, il modello più adeguato risulterà essere quello con il valore minimo dell'AIC. E questo aprirà un altro tema – non oggetto di questa pubblicazione – sugli algoritmi utilizzati per determinare il minimo di un indicatore come l’AIC o comunque di una funzione complessa.