La prima operazione per proseguire nell’analisi statistica dopo la raccolta dei dati è quella di preparare il dataset (in pratica una o più tabelle) che contiene tutte le variabili e le unità statistiche osservate. L’obiettivo è spesso quello di avere per ogni riga un’unità statistica e per ogni colonna una variabile (o viceversa). Questa indispensabile operazione serve a mettere insieme ad esempio variabili ottenute da rilevazioni condotte in maniera diversa su uno stesso campione e produrre i 3le di base sui quali poter lavorare attraverso speci3ci software. Quando parliamo di preparazione dei dati, non ci riferiamo solo a questa
procedura ma a un più ampio processo di data screening che, talvolta, può ri chiedere anche più impegno e tempo dello stesso processo di analisi e studio dei dati.
Barbara Tabachnick e Linda Fidell (2013) hanno proposto una generica checklist per il controllo dei dati (Tabella 2.1) da riadattare poi ai singoli studi. Essa presenta fasi di analisi sequenziali che si possono comprendere alla luce di quattro elementi che riproponiamo nello stesso ordine e a partire dalle considerazioni delle autrici. Si tratta dell’accuratezza del 3le dei dati (1), la presenza di missing data (2) e outlier (3), il controllo di normalità, linearità e omoschedasticità (4).
Checklist for Screening Data Inspect univariate descriptive statistics for accuracy of input
Out-of-range values