Il campionamento (ovvero la statistica descrittiva e inferenziale)
L’insieme di soggetti/unità statistiche sui quali si rilevano le variabili dell’indagine contribuisce a de3nire metodi e strumenti da usare e il tipo di risultato che otterremo.
Quando, come nei censimenti, siamo in grado di rilevare i dati di cui abbiamo bisogno dall’intera popolazione di riferimento U, l’analisi statistica che conduciamo è di tipo descrittivo. Potremmo non avere la possibilità di intervistare/contattare tutti i soggetti coinvolti nello studio, non avere i fondi o preferire un’analisi più dettagliata su un gruppo meno numeroso. In questi casi, quando è solo una parte dell’intera popolazione ad essere considerata (anche se siamo interessati a studiare le caratteristiche dell’intera popolazione) cioè un suo sottoinsieme di numerosità n de3nito campione, si entra nell’ambito della statistica inferenziale e si introducono i concetti di probabilità, di stima dei parametri, di errore campionario (poiché da una stessa popolazione possono essere estratti molti campioni diversi). Lo scopo di un’indagine realizzata su un campione è di generalizzare i risultati all’intera popolazione di riferimento. Af3nché la generalizzazione sia signi3cativa, il campione deve essere rappresentativo ovvero si rende necessario attivare delle tecniche di “correzione” o di valutazione dell’errore campionario. Spesso ci si af3da al caso per assicurarsi che lo sia. Quando l’estrazione dei soggetti che faranno parte del campione avviene con reinserimento del soggetto estratto, si parla di campione bernoulliano. In questo caso ogni soggetto ha la stessa probabilità di essere estratto anche dopo l’estrazione. Nel caso in cui non ci sia reinserimento, si parla di campione casuale semplice. I due campioni tendono a sovrapporsi quando la loro numerosità è molto elevata.
Fra i campioni probabilistici, oltre a quelli già elencati, troviamo anche il campione sistematico nel quale sono estratte unità da osservare ogni k soggetti; straticato nel quale la popolazione viene divisa in strati omogenei e vengono estratti n soggetti da ogni strato; a grappoli, nel quale contrariamente al precedente la popolazione viene divisa in gruppi eterogenei al loro interno in grado di rappresentare la varietà della popolazione. Rientrano fra i campioni non probabilistici: il campione accidentale, composto dai soggetti più prossimi al ricercatore; il campione per quote, dove i soggetti sono scelti fra strati omogenei al loro interno in maniera non casuale; il campione a valanga, dove ai primi soggetti coinvolti si chiede di segnalare altri soggetti da coinvolgere; il campione per dimensioni, che include in base a delle griglie soggetti che hanno caratteristiche diverse da tutti gli altri inclusi nel campione.
Esistono procedure di calcolo (anche impostate su applicazioni e pagine web) che ci consentono di de3nire la dimensione ottimale del campione, una volta che, in base ai casi, si conosce la numerosità della popolazione o sono stati 3ssati i livelli di signi3catività dei risultati e il livello di errore che siamo disposti a tollerare, considerando quanto i dati raccolti si scostano dai valori reali di U.