Figura 4.1 - Tre esempi di rette di regressione con b > 0, b < 0, b = 0 .
Nella Figura 4.1 sono presenti tre rappresentazioni gra'che di rette di regressione lineare.
Nell’esempio A all’aumentare del valore delle x, aumentano anche i valori delle y, come nel caso in cui all’aumentare del voto degli esami di maturità, aumenta anche la media dei voti degli esami del primo anno conseguiti dalle ma tricole. Il valore di b è in questo caso positivo.
L’esempio B con b negativo potrebbe invece essere la rappresentazione gra'ca dell’evento in cui il numero di visualizzazioni diminuisce all’aumentare della lunghezza dei video.
Negli esempi A e B osserviamo una correlazione fra le variabili poiché esse variano insieme; nell’esempio C vediamo una perfetta indipendenza di x e y: per qualunque quantità aumenti il valore di x , y resta costante. b in questo caso è pari a 0.
La formulazione statistica dell’equazione della retta di regressione prevede che nel calcolo del valore della y sia aggiunta anche la quantità ε, ossia una variabile casuale che de'nisce l’errore, la variabilità non spiegata che intercorre fra i valori reali e quelli stimati della y, espressa nella formula (4.3) e visualizzata nella Figura 4.2 come distanza verticale (non perpendicolare!) fra i punti osservati e la retta di regressione.
(4.3) y = a + bx + ε dove ε = y − y^
Essendo ε una variabile casuale è necessario de'nirne, ovvero fare ipotesi, sulla distribuzione. Nel caso della regressione lineare l’assunto è che la ε sia distribuita come una normale standardizzata, ossia con media nulla e varianza costante.
Il processo di stima nella regressione lineare consente quindi di ottenere sia una stima del valore della variabile dipendente sia una stima dei residui, ossia gli stimatori εidell’errore.
L’analisi dei residui è una fase molto importante della regressione lineare perché consente di fornire delle valutazioni sulla bontà del modello di approssimazione adottato. In particolare, la loro distribuzione deve risultare il più vicino a una normale con media 0 e varianza costante per soddisfare l’assunto di normalità della componente casuale.
Figura 4.2 – Visualizzazione dei residui. ε è pari a 0 se valori reali e stimati coincidono.
Possiamo a questo punto comprendere come calcolare a e b.
a e b vengono calcolati come quelle quantità che rendono minima la som-
ma dei quadrati dei residui, ossia delle distanze fra i valori realmente osservati della ye i valori della y ottenuti dall’equazione della retta e dunque stimati. Nel calcolo le distanze sono al quadrato; se non lo fossero, la loro somma risulterebbe tendere a 0.
In base a questo metodo, detto dei minimi quadrati (OLS, Ordinary Least Squares in inglese), possiamo de'nire come seguono i valori di a e b (queste formule non ci devono spaventare perché i principali software di analisi statistica hanno delle funzioni che calcolano in maniera automatica i parametri a e b delle rette di regressione insieme, ovviamente, come diremo, a molti altri parametri).