18.2.4.5. Regressione lineare#
Nella sua forma elementare, la regressione lineare è un’approssimazione (stimatore) lineare
tra una coppia di campioni \(\{ X_n \}_{n=1:N}\), \(\{ Y_n \}_{n=1:N}\) estratti dalle popolazioni \(X\), \(Y\), i cui parametri \(\theta = (a,b)\) rendono minimo l’errore quadratico medio
il cui valore permette di stimare la significatività dell’approssimazione lineare.
Algoritmo
L’algoritmo base consiste nella:
normalizzazione dei campioni:
vengono calcolate le medie e le varianze campionarie
\[\begin{split}\begin{aligned} \mu_x = \frac{1}{N} \sum_{n=1}^N X_n \qquad & , \qquad S^2_x = \frac{1}{N-1} (X_n - \mu_x)^2 \\ \mu_y = \frac{1}{N} \sum_{n=1}^N Y_n \qquad & , \qquad S^2_y = \frac{1}{N-1} (Y_n - \mu_y)^2 \end{aligned}\end{split}\]vengono definiti i campioni normalizzati
\[x_n = \frac{X_n - \mu_x}{S_x} \qquad , \qquad y_n = \frac{Y_n - \mu_y}{S_y}\]che hanno media nulla e varianza campionaria unitaria.
calcolo dei valori ottimi dei parametri \(\theta = (a, b)\) del modello applicato ai dati scalati,
\[\hat{y}(x|\theta) = a x + b\]che rendono minimo l’errore quadratico,
\[e:= \sum_{n=1}^{N} ( \hat{y}(x_n) - y_n )^2 = \sum_{n=1}^N ( a \, x_n + b - y_n )^2 \ .\]L’errore quadratico è una funzione definita positiva con un unico minimo in corrispondenza del sistema lineare formato dalle condizioni di derivate parziali nulle,
\[\begin{split}\begin{cases} 0 & = \dfrac{\partial e}{\partial a} = 2 \sum_{n=1}^N ( a \, x_n + b - y_n ) x_n \\ 0 & = \dfrac{\partial e}{\partial b} = 2 \sum_{n=1}^N ( a \, x_n + b - y_n ) \\ \end{cases}\end{split}\]che ha forma diagonale e, introducendo il coefficiente di correlazione dei campioni,
\[r^2_{XY} = \frac{S^2_XY}{S_X S_Y} \qquad , \qquad S^2_{XY} = \frac{1}{N-1} \sum_{n=1}^N (X_n - \mu_X)(Y_n - \mu_Y) \ ,\]e usando il fomralismo matriciale può essere riscritto come,
\[\begin{split}\begin{bmatrix} N-1 & 0 \\ 0 & N \end{bmatrix} \begin{bmatrix} a \\ b \end{bmatrix} = \begin{bmatrix} (N-1) r_{XY} \\ 0 \end{bmatrix} \ , \end{split}\]la cui soluzione è \(a^* = r_{XY}\), \(b^* = 0\). La forma della regressione lineare in termini delle variabili normalizzate è
\[\hat{y}(x) = r_{XY} x \ .\]L’errore quadratico minimo nelle variabili normalizzate vale
\[\begin{split}\begin{aligned} e^* & = \sum_{n=1}^N ( a^* x_n + b^* - y_n )^2 = \\ & = \sum_{n=1}^N ( r_{XY} x_n - y_n )^2 = \\ & = r^2_{XY} (N-1) - 2 (N-1) r_{XY} r_{XY} + (N-1) = \\ & = (N-1) \left( 1 - r^2_{XY} \right) \ . \end{aligned}\end{split}\]Il modello nelle variabili originali diventa
\[\begin{split}\begin{aligned} \hat{Y}(X) & = \mu_Y + S_Y r_{XY} \frac{X - \mu_X}{S_X} = \\ & = r_{XY} \frac{S_Y}{S_X} X + \mu_Y - \mu_X r_{XY} \frac{S_Y}{S_X} = \\ & = \frac{S^2_{XY}}{S^2_X} X + \mu_Y - \mu_X \frac{S^2_{XY}}{S^2_X} \end{aligned}\end{split}\]
Regressione lineare come MLE
La regressione lineare può essere interpretata come risultato di un metodo di Maximum Likelihood Estimation, supponendo che ogni osservazione \(y_n\) sia il risultato del modello lineare lineare \(a x_n + b\) con l’aggiunta di un errore \(\varepsilon_n\),
di variabili gaussiane indipendenti non correlate, identicamente distribuite a media nulla e varianza \(\sigma^2\),
Assumendo le \(x_n\), \(a\), \(b\) osservazioni e parametri deterministici, senza incertezza, segue che
I parametri ottimi del modello \(a\), \(b\), \(\sigma^2\) rendono massima la probabilità,
nel caso in cui le osservazioni siano indipendenti e quindi valga \(p(\mathbf{x},\mathbf{y}|\theta) = \prod_{n=1}^N p(x_n,y_n|\theta)\), o il suo logaritmo
L’annullamento delle derivate parziali produce il sistema lineare
la cui soluzione, ipotizzando di aver normalizzato i campioni sulle medie e varianze campionarie,
Statistiche \(\ \chi^2 \ \) e \(\ t \ \)
Siano \(y_n\) delle variabili gaussiane con varianza \(\sigma^2\) e media \(a x_n + b\), con \(b = 0\) e