Ristiintaulukon riippumattomuustesti

Lukuaika noin 7 min

Kuten aiemmin todettiin täytyy otokseen perustuvat ristiintaulukot alistaa ns. riippumattomuustestille, joka kertoo kuinka todennäköistä on, että riippuvuus on syntynyt ainoastaan otantasattuman vaikutuksesta niin, että muuttujat ovat perusjoukossa toisistaan riippumattomia. Yleisimmin käytetty testi on ns. Pearsonin Khii toiseen \( x^2 \) -testi, joka perustuu havaittujen ja odotettujen frekvenssien vertailuun.

Taulukko 1 on jo aiemmin käytetty esimerkkiristiintaulukko sukupuolen ja poliittisen kiinnostuksen suhteesta. Taulukkoon on kuitenkin lisätty muutamia lukuja, joita tarvitaan Khii toiseen \( x^2 \) -testin laskemiseksi. Normaalisti näitä tietoja ei tietenkään tarvitse raportoida, koska kaikki tilasto-ohjelmistot laskevat testin automaattisesti tai ainakin pyydettäessä. Taulukkoon on ensinnäkin lisätty "yhteensä" sarake sen oikeaan laitaan. Näitä lukuja tarvitaan odotettujen frekvenssien laskemiseen. Luvut osoittavat, että 123 vastaajaa ilmoitti olevansa erittäin kiinnostunut politiikasta, 464 melko kiinnostunut jne.

Taulukko 1. Poliittinen kiinnostus sukupuolen mukaan (havaitut frekvenssit, odotetut frekvenssit ja prosenttijakauma).
Mies Nainen Yhteensä
Erittäin kiinnostunut 77
58,5
13,6 %
46
64,5
7,3 %
123
Melko kiinnostunut 243
220,7
42,8 %
221
243,3
35,3 %
464
Ei kovin kiinnostunut 197
222,6
34,7 %
271
245,4
43,3 %
468
Ei ollenkaan kiinnostunut 51
66,1
9,0 %
88
72,9
14,1 %
139
Yhteensä
n
100 %
568
100 %
626

1194

Jokaiseen ristiintaulukon soluun on myös lisätty prosenttiluvun yläpuolelle kaksi lukua. Ensimmäinen näistä on havaittu solufrekvenssi (observed frequency). Esimerkiksi 77 miestä ja 46 naista vastasi olevansa erittäin kiinnostunut politiikasta. Tämän luvun alla on solun odotettu frekvenssi (expected frequency), eli luku, joka osoittaa kuinka monta vastaajaa solussa todennäköisesti olisi, jos miehet ja naiset eivät eroaisi toisistaan keskustelutapojensa suhteen. Jos poliittinen kiinnostus todellakin olisi täysin riippumaton sukupuolesta, olisi todennäköisintä, että silloin 58,5 miestä ja 64,5 naista vastaisivat olevansa erittäin kiinnostuneita politiikasta. Syy sille, että naisten odotettu frekvenssi on hiukan miesten vastaavaa suurempi, johtuu siitä, että otoksessa on hieman enemmän naisia kuin miehiä.

Odotetut frekvenssit voidaan laskea seuraavasta kaavasta:

$$ E_{ij} = {O_{i.} \times O_j \over N } $$

jossa

\( E_{ij} \) = i:nnen rivin ja j:nnen sarakkeen odotettu (Expected) frekvenssi
\( O_{i.} \) = i:nnen rivin reunajakauma (eli rivin valinneiden vastaajien kokonaissumma)
\( O_j \) = j:nnen sarakkeen reunajakauma (eli sarakkeen valinneiden vastaajien kokonaissumma)
N \( N \) = Havaintojen määrä taulukossa

Esimerkiksi "En ollenkaan kiinnostunut" vastaavien miesten odotettu frekvenssi saadaan laskemalla 139*568/1194 = 66,1. Vastaava luku naisten osalta on 72,9 ( = 139*626/1194).

Kuten jo aiemmin todettiin, Khii toiseen \( x^2 \) -testi perustuu havaittujen ja odotettujen frekvenssien eroille. Käytännössä testissä lasketaan ns. Khii toiseen \( x^2 \) -luku, joka kuvastaa sitä, kuinka paljon havaitut ja odotetut frekvenssit eroavat toisistaan. Kun Khii toiseen \( x^2 \) -luku on suuri, eroavat nämä frekvenssit paljon toisistaan ja kun se on pieni, ovat erot havaittujen ja odotettujen frekvenssien välillä pienet. Khii toiseen \( x^2 \) -luku laskentaan seuraavan kaavan avulla:

$$ x^2 = {\sum_{i=1}^R \sum_{j=1}^C {(O_{ij}-E_{ij})^2 \over E_{ij}}} $$

jossa

E ij \( E_{ij} \) = i:nnen rivin ja j:nnen sarakkeen odotettu frekvenssi
O ij \( O_{ij} \) = i:nnen rivin ja j:nnen sarakkeen havaittu frekvenssi
R \( R \) = Rivien määrä
C \( C \) = Sarakkeiden määrä

Käytännössä em. kaava tarkoittaa sitä, että jokainen ristiintaulukon solu käydään läpi ja jokaisessa niissä lasketaan ensin odotetun ja havaitun frekvenssin erotus, joka sen jälkeen korotetaan neliöön. Tämän jälkeen saatu tulos jaetaan odotetun frekvenssin arvolla. Lopuksi nämä solukohtaiset arvot lasketaan kaikki yhteen ja lopputuloksena on koko ristiintaulukon Khii toiseen \( x^2 \) -luku.

Esimerkiksi yllä olevan taulukon Khii toiseen \( x^2 \) -luku saadaan kaavasta laskemalla:
(77 - 58,5)^2 / 58,5 + (46 - 64,5)^2 / 64,5 + (243 - 220,7)^2 / 220,7 + (221 - 243,3)^2 / 243,3 + (197 - 222,6)^2 / 222,6 + (271 - 245,4)^2 / 245,4 + (51 - 66,1)^2 / 66,1 + (88 - 72,9)^2 / 72,9 = 27,7

Lopuksi tarvittava p:n arvo saadaan Khii toiseen \( x^2 \) -jakaumasta, joka löytyy taulukkona esimerkiksi useimpien metodioppaiden liitteenä. Käytännössä tietenkin tilasto-ohjelmistot antavat tarvittavan p-arvon suoraan. Oikean p-arvon saamiseen tarvitaan vielä vapausasteiden määrä. Ristiintaulukossa vapausasteiden määrä saadaan kaavasta (rivien määrä-1)*(sarakkeiden määrä-1). Koska esimerkkitaulukossa rivejä on neljä ja sarakkeita on kaksi, on vapausasteiden määrä 3*1 eli 3. Näiden tietojen avulla oikea p-arvo voidaan hakea taulukoista. Tässä tapauksessa se on selvästi pienempi kuin 0,001 eli Khii toiseen \( x^2 \) -testin tulos on erittäin merkitsevä ja näin ollen nollahypoteesi (eli olettamus siitä, että otoksessa havaittu miesten ja naisten ero johtuu pelkästään sattumasta) voidaan hylätä. Miehet todellakin ovat politiikasta kiinnostuneempia kuin naiset.