Tabella 2.1 - Checklist per la preparazione dei dati (Tabachnick & Fidell, 2013, p. 91).
Accuratezza. Un primo livello di veri3ca dell’accuratezza si ottiene confrontando la corrispondenza dei dati nel dataset con quelli originali della rilevazione. All’aumentare della numerosità del campione saranno necessarie procedure più complete di controllo. Per ciascuna variabile vanno calcolate distribuzioni di frequenze e (per le quantitative) indici di posizione e variabilità; così come vanno disegnati i gra3ci sull’andamento delle distribuzioni delle variabili coinvolte nello studio. Questo ci permette di essere certi che la media o il range di distribuzione delle variabili risulti accettabile e ragionevole. Fra le coppie di variabili si veri3ca anche la correlazione e si studiano i casi in cui essa risulta accentuata (inNated) − principalmente quando si considerano variabili composte costituite da stesse variabili − o indebolita (deNeated) − quando il range delle risposte di una o più variabile è ristretto. Fenomeni di multicollinearità e singolarità possono emergere rispettivamente quando due variabili sono altamente correlate perché misurano lo stesso fenomeno e quando alcune variabili risultano ridondanti perché una è ottenuta dalla combinazione delle altre. Qualora siano rilevate variabili che presentano valori di correlazione molto alti, si può considerare l’esclusione di quelle che ci restituiscono informazioni simili senza aggiungere spiegazioni ulteriori alla conoscenza del fenomeno studiato.
Durante la fase di veri3ca dell’accuratezza, in3ne, si rileva la presenza di outlier e missing data per una o più variabili.
Dati mancanti (missing data). Come facilmente si può dedurre, affrontiamo il tema del controllo dei casi in cui nei dataset risultino informazioni mancanti in corrispondenza di una unità statistica per una certa variabile. È una delle questioni più annose nell’analisi dei dati e per la quale non esistono linee guida troppo rigide e predeterminate. Il ricercatore può eliminare le unità statistiche per cui si rilevano missing data in una o più variabili se non eccessivamente numerose oppure nei casi più semplici può utilizzare le sue conoscenze precedenti del fenomeno per inserire un valore che ritiene verosimile. Potrebbe inoltre decidere di sostituire i missing data con la media o la mediana (con delle ripercussioni sulla variabilità della varianza e sulla correlazione con le altre variabili) o con delle stime come il risultato di un processo di regressione (capitolo 4) reiterato più volte, nel quale sono le altre variabili a predire il valore mancante.
La scelta dell’azione da mettere in campo una volta individuati i valori mancanti dipende dalla numerosità del campione e dalla numerosità e casualità degli stessi missing value.
Se i valori mancanti sono in un piccolo numero rispetto al campione e siamo certi della loro casualità, una delle scelte più frequenti è quella di eliminare le unità statistiche coinvolte dalla rilevazione.
Se il numero dei valori mancanti è molto alto rispetto alla numerosità del campione, bisogna indagare le motivazioni che si nascondono dietro tali valori. Aver collezionato un alto numero di missing data è di per sé un’informazione rilevante ai 3ni dell’indagine. Quando tali motivazioni sembrano particolarmente rilevanti per lo studio, si può scegliere di sostituire i missing data con la media della variabile e introdurre una variabile di appoggio (dummy) dove si indi ca con 0 il dato completo e con 1 il dato mancante.
Se le variabili per le quali abbiamo tanti missing data non sono fondamentali o le informazioni che ci restituiscono sono comunque ben rappresentate da altri indicatori, è plausibile non tenerle in considerazione.
Nell’eliminazione delle unità statistiche, soprattutto se l’assenza di valori non è casuale, bisogna veri3care che i dati non siano mancanti in una particolare fascia di soggetti. Eliminare i dati in questo caso signi3cherebbe compromettere la rappresentatività del campione. Talvolta in queste situazioni i missing data vengono sostituiti con la media calcolata in una speci3ca categoria di soggetti partecipanti allo studio invece della media dell’intero campione.
Una buona pratica è quella di ripetere l’analisi con e senza le unità per cui rileviamo missing value per testare le differenze.
Outlier. Si tratta di valori estremi che si discostano molto dalle modalità assunte dalle variabili, incidendo in maniera più rilevante sull’analisi. Si possono far rientrare in questa categoria anche modalità che raccolgono il 90% delle frequenze in variabili dicotomiche.
Distinguiamo gli outlier fra univariati (riferiti a una sola variabile) e multivariati, quando derivano dalla combinazione fra le modalità attribuite a più variabili. Nei gra3ci gli outlier appaiono come valori lontani dal resto della distribuzione presunta e sono pertanto riconoscibili con un colpo d’occhio. Nella Figura 2.2, ad esempio, vediamo rappresentati i boxplot relativi alla distribuzione dei numeri di iscritti ai Mooc (Massive Open Online Courses) della piattaforma EduOpen (learn.eduopen.org) relativi a 6 categorie di corsi. Sia la categoria in giallo indicata come AHU (Arts and Humanties), così come quella arancione contrassegnata dalla sigla SSC (Social Sciences), presentano numerosi, potenziali outlier, che oltrepassano il limite massimo calcolato dal software nella distribuzione (i “baf” del boxplot). La categoria SCI (Sciences) presenta un unico potenziale outlier che si discosta in maniera estremamente rilevante dal resto dei dati. Questo non implica automaticamente che tali punti “estremi” siano effettivamente degli outlier ma ci indica di approfondirne la natura.
I metodi per determinare i multivariate outlier, come il calcolo della Mahalanobis distance, la discrepancy o l’inNuence, prendono in considerazione la distanza che esiste fra l’outlier e lo sciame dei dati, e l’inNuenza che di conseguenza tale distanza può comportare nell’andamento e nell’analisi delle variabili.
Si considera anche per gli outlier la possibilità di cancellare le unità statistiche a cui sono riferiti o di trasformare i valori rendendo la distribuzione più simile a quella ipotizzata (per esempio una normale).