Test su campioni singoli o coppie di campioni

Contenuti

18.2.1. Test su campioni singoli o coppie di campioni#

Test più comuni

\(t\)-test
\(\chi^2\)-test
\(Z\)-test
Wilcoxon
…

18.2.1.1. Student \(t\)-test#

I \(t\)-test sono dei test statistici di posizione in cui la statistica test segue una distribuzione \(t\) di Student sotto l’ipotesi nulla \(\text{H}_0\),

\[p(t|\text{H}_0) \sim t_{\nu} \ ,\]

dove il numero di gradi di libertà \(\nu\) della distribuzione \(t_{\nu}\) dipende dal metodo considerato.

Questi test sono «esatti» se la popolazione ha distribuzione normale. todo in caso contrario, la statistica test costruita non segue una distribuzione \(t\)-Student. Bisogna valutare l’attendibilità del test in questo caso; per distribuzioni «sufficientemente simili a quella gaussiana» potrebbero essere validi; il teorema del limite centrale aiuta l’ipotesi di gaussianità; in caso di distribuzioni generiche, meglio affidarsi ad altri test - non parametrici

18.2.1.1.1. Test per un campione - valore medio#

E” un test di posizione/stima della media della popolazione della quale è noto un campione di \(N\) osservazioni, \(\mathbf{X} = \{ X_n \}_{n=1:N}\).

l’ipotesi nulla \(\text{H}_0\) dichiara che la popolazione ha media \(\mu_0\);
la statistica test \(T\),

\[T = \frac{\bar{X} - \mu_0}{\frac{S}{\sqrt{N}}} \ \]

è costruita con la media e la varianza campionaria,

\[\bar{X} = \frac{1}{N} \sum_{n=1}^N X_n \qquad , \qquad S^2 = \frac{1}{N-1} \sum_{n=1}^N (X_n - \bar{X})^2 \ .\]

quindi, una volta definito il livello di significatività del test, \(\alpha\), si controlla se la statistica test \(t\) valutata con il campione a disposizione cade nella regione di rifiuto dell’ipotesi della distribuzione \(t_{N-1}\) o meno, per determinare se si deve considerare \(\text{H}_0\) falsificata dal test o meno

Ipotesi. Come dimostrato in appendice, se i campioni sono variabili i.i.d. gaussiane, con media \(\mu_0\) sotto l’ipotesi nulla \(\text{H}_0\), \(X_n \sim \mathscr{N}(\mu_0, \sigma^2)\), allora la statistica test segue una distribuzione \(t\)-Student con \(N-1\) gradi di libertà,

\[T \sim t_{N-1} \ .\]

todo cosa succede quando la popolazione non ha distribuzione gaussiana? Qual è la robustezza del medoto alla caduta di questa ipotesi? Esempio già disponibile con campionamento variabile con distribuzione uniforme; altri metodi, non parametric?

18.2.1.1.2. Test per una coppia di campioni con stessa varianza - valore medio#

Un \(t\)-test per una coppia di campioni \(\{ X_{1,n} \}_{n=1:N}\), \(\{ X_{2,n} \}_{n=1:N}\) presi da due popolazioni \(X_1\), \(X_2\) di cui si ipotizza la stessa varianza \(\sigma^2\), si riduce al \(t\)-test per campione singolo per la variabile casuale \(X_2 - X_1\).

Variabili gaussiane. Nel caso in cui le variabili casuali \(X_1\), \(X_2\) abbiano distribuzione gaussiana con la stessa varianza, \(X_1 \sim \mathscr{N}(\mu_1, \sigma^2)\), \(X_2 \sim \mathscr{N}(\mu_2, \sigma^2)\), la variabile \(X_2 - X_1\) è gaussiana con distribuzione –>

\[X_2 - X_1 \sim \mathscr{N}(\mu_2-\mu_1, 2 \sigma^2)\]

todo

18.2.1.1.3. Altri \(t\)-test#

todo Se campioni di dimensione differente o con varianze differenti, Welct \(t\)-test…

18.2.1.2. \(Z\)-test#

Test identico al \(t\)-test in cui la statistica test \(z\) segue una distribuzione gaussiana sotto l’ipotesi nulla. Per il legame esistente tra la distribuzione \(t_{\nu}\) e \(\mathscr{N}\), si può interpretare lo \(Z\)-test come limite del \(t\)-test per un numero di campioni sufficientemente grande.

18.2.1.3. \(\chi^2\)-test di Pearson#

Il test \(\chi^2\) di Pearson si applica a dati categoriali, per confrontare le frequenze delle \(K\) categorie per diversi insiemi. Può essere applicato:

a un singolo campione, confrontando le frequenze osservate \(\{ O_k \}_{k=1:K}\) con le frequenze attese \(\{ E_k \}_{k=1:K}\), che costituiscono l’ipotesi nulla \(\text{H}_0\)
a più campioni (todo link a test di indipendenza statistica) per stabilire se provengono dalla stessa popolazione, o comunque da popolazioni con la stessa funzione di probabilità.

Il test \(\chi^2\) a un campione viene utilizzato per confrontare le frequenze osservate \(\{ O_k \}_{k=1:K}\) e attese \(\{ E_k \}_{k=1:K}\) di un insieme di possibili eventi, \(\{ X_n \}_{n=1:N}\).

l”ipotesi nulla \(\text{H}_0\) afferma che il fenomeno osservato segue la distribuzione di probabilità descritta dalle frequenze attese, \(\{ E_k \}\). Supponendo che i dati campionati siano iid, l’ipotesi nulla afferma che il fenomeno dal quale è estratto il campione segue una distribuzione di probabilità categoriale, \(\text{Categorial}(E_1,\dots,E_K)\)
La statistica test è

\[X^2 := \sum_{k=1}^{K} \frac{(O_k - E_k)^2}{E_k} \ ,\]

Nel caso in cui le frequenze attese sono «sufficientemente grandi» e quelle osservate \(O_k\) abbiano una distribuzione gaussiana, allora \(X^2\) segue una distribuzione \(\chi^2_{K-1}\).

… todo

18.2.1.3.1. Esempio: dado truccato#

Ci vengono dati due dadi a 6 facce e ci viene chiesto di verificare con \(n_{rolls} = 50\) lanci se questi dadi possono essere considerati truccati. Noi non lo sappiamo, ma il primo dado non è truccato, mentre il secondo dado è sbilanciato in modo tale che la possibilità che esca la faccia 3 è doppia rispetto a tutte le altre,

\[\begin{split}\begin{aligned} X_1 & \sim \text{Categorial}\left(\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6}\right) \\ X_2 & \sim \text{Categorial}\left(\frac{1}{7},\frac{1}{7},\frac{2}{7},\frac{1}{7},\frac{1}{7},\frac{1}{7}\right) \end{aligned}\end{split}\]

Ipotesi nulla. Per ogni esperimento, l’ipotesi nulla \(\text{H}_0\) è che il dado non sia truccato e che ogni faccia abbia una probabilità \(\frac{1}{6}\). La distribuzione di probabilità attesa è

\[X|\text{H}_0 \sim \text{Categorial}\left(\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6}\right) \ .\]

Statistica test. Assumendo che la differenza tra le frequenze osservate e quelle attese abbiano una distribuzione gaussiana \(\sim \mathscr{N}(0, E^2)\), la statistica test ha una distribuzione

\[X^2 = \sum_{k=1}^K \frac{(O_k - E_k)^2}{E_k} \sim \chi^2_{N-1} \ .\]

todo link al motivo per cui i dof sono \(N-1\): sostanzialmente poiché la pdf è determinata da un solo parametro, un solo vincolo, che riduce di 1 il numero di dof

Livello di significatività. Si sceglie un livello di significatività \(\alpha = 0.05\), cioè solo il \(5\%\) di casi estremi invalidano l’ipotesi nulla. Il livello di significatività determina il valore della statistica test che separa le regioni di accettazione e di rifiuto dell’ipotesi.

Se si vuole essere più conservativi e rigettare l’ipotesi nulla «solo per dadi palesemente truccati», si può ridurre il livello di significatività del test. Ad esempio, scegliendo \(\alpha = 0.01\) si identificano come truccati solo i risultati estremi che hanno probabilità cumulata di verificarsi dell”\(1\%\) sotto l’ipotesi nulla (1% di falsi positivi).

Rejection and acceptance regions for significance, alpha = 0.05
- Not rejection for X2 < 11.0705
- Rejection     for X2 > 11.0705

Rejection limits as a function of significance level
X_rej_lim( alpha=0.050 ) = 11.0705
X_rej_lim( alpha=0.010 ) = 15.0863
X_rej_lim( alpha=0.002 ) = 18.9074
X_rej_lim( alpha=0.000 ) = 22.6141

../../_images/4acf5c8bca28c51b6f5cbd8f30da97f16c83969a943c90946a36b1f9e103572f.png

Vengono svolti gli esperimenti, raccolti i dati, calcolata la statistica test sui campioni e questa viene utilizzata per trarre le conclusioni sull’ipotesi nulla.

../../_images/17a68c5200151a7a34f571a30441f9558463215f0eb3d23b60af4d3ef381a06e.png

Experiment: Fair, nrolls: 1000
- probability (unknown in real exp.) : [0.1667 0.1667 0.1667 0.1667 0.1667 0.1667]
- Observed events                    : [163. 174. 189. 165. 151. 158.]
- Test statistics, X2                : 5.3360
>> H0 not rejected (5.3360 < X_lim=11.0705): dice is fair

Experiment: Rigged, nrolls: 1000
- probability (unknown in real exp.) : [0.1429 0.1429 0.2857 0.1429 0.1429 0.1429]
- Observed events                    : [124. 163. 292. 126. 139. 156.]
- Test statistics, X2                : 120.4520
>> H0 rejected (120.4520 > X_lim=11.0705): dice is rigged

Dipendenza del risultato del test dal numero di prove. Si analizzano i risultati in funzione del numero di lanci fatti in ogni test. Si osserva che:

nel caso di dado non truccato la statistica test \(X^2\) non dimostra una convergenza (almeno fino a \(n_{rolls} = 5000\)) ma rimane limitata
nel caso di dado truccato, la statistica test \(X^2\) cresce circa linearmnete con il numero di lanci \(n_{rolls}\)

Nei \(500\) test svolti, il test ha dato risultati falso positivi nel \(4.8\%\) dei casi con \(\alpha = 0.05\) nel caso di dado non truccato (! ottimo, poiché il test si proponeva di rigettare proprio il \(5\%\) dei casi estremi), mentre ha riconosciuto il dado truccato come tale quasi tutte le volte.

Il progetto di un esperimento prevede la determinazione del numero di lanci necessario (senza andare troppo oltre! Tempo, soldi e pazienza sono una risorse finite!) per distinguere con la sufficiente accuratezza un dado truccato.

N. of rejections of H0, over 500 tests
- Experiment: Fair      ,    24,  4.8%  (false positive) 
- Experiment: Rigged    ,   493, 98.6% 

../../_images/1cd08dac3362ddcf8028f7932fd30796ee0db04b5e7b4434c86ea68b9dc0561d.png

18.2.1.4. Wilcoxon#

…todo