Ristiintaulukon riippumattomuustesti
Kuten aiemmin todettiin täytyy otokseen perustuvat ristiintaulukot alistaa ns. riippumattomuustestille, joka kertoo kuinka todennäköistä on, että riippuvuus on syntynyt ainoastaan otantasattuman vaikutuksesta niin, että muuttujat ovat perusjoukossa toisistaan riippumattomia. Yleisimmin käytetty testi on ns. Pearsonin
\( x^2 \)
-testi, joka perustuu havaittujen ja odotettujen frekvenssien vertailuun.
Taulukko 1 on jo aiemmin käytetty esimerkkiristiintaulukko sukupuolen ja poliittisen kiinnostuksen suhteesta. Taulukkoon on kuitenkin lisätty muutamia lukuja, joita tarvitaan
\( x^2 \)
-testin laskemiseksi. Normaalisti näitä tietoja ei tietenkään tarvitse raportoida, koska kaikki tilasto-ohjelmistot laskevat testin automaattisesti tai ainakin pyydettäessä. Taulukkoon on ensinnäkin lisätty "yhteensä" sarake sen oikeaan laitaan. Näitä lukuja tarvitaan odotettujen frekvenssien laskemiseen. Luvut osoittavat, että 123 vastaajaa ilmoitti olevansa erittäin kiinnostunut politiikasta, 464 melko kiinnostunut jne.
Mies | Nainen | Yhteensä | |
Erittäin kiinnostunut |
77
58,5 13,6 % |
46
64,5 7,3 % |
123 |
Melko kiinnostunut |
243
220,7 42,8 % |
221
243,3 35,3 % |
464 |
Ei kovin kiinnostunut |
197
222,6 34,7 % |
271
245,4 43,3 % |
468 |
Ei ollenkaan kiinnostunut |
51
66,1 9,0 % |
88
72,9 14,1 % |
139 |
Yhteensä
n |
100 %
568 |
100 %
626 |
1194 |
Jokaiseen ristiintaulukon soluun on myös lisätty prosenttiluvun yläpuolelle kaksi lukua. Ensimmäinen näistä on havaittu solufrekvenssi (observed frequency). Esimerkiksi 77 miestä ja 46 naista vastasi olevansa erittäin kiinnostunut politiikasta. Tämän luvun alla on solun odotettu frekvenssi (expected frequency), eli luku, joka osoittaa kuinka monta vastaajaa solussa todennäköisesti olisi, jos miehet ja naiset eivät eroaisi toisistaan keskustelutapojensa suhteen. Jos poliittinen kiinnostus todellakin olisi täysin riippumaton sukupuolesta, olisi todennäköisintä, että silloin 58,5 miestä ja 64,5 naista vastaisivat olevansa erittäin kiinnostuneita politiikasta. Syy sille, että naisten odotettu frekvenssi on hiukan miesten vastaavaa suurempi, johtuu siitä, että otoksessa on hieman enemmän naisia kuin miehiä.
Odotetut frekvenssit voidaan laskea seuraavasta kaavasta:

jossa
![]() |
= i:nnen rivin ja j:nnen sarakkeen odotettu (Expected) frekvenssi |
![]() |
= i:nnen rivin reunajakauma (eli rivin valinneiden vastaajien kokonaissumma) |
![]() |
= j:nnen sarakkeen reunajakauma (eli sarakkeen valinneiden vastaajien kokonaissumma) |
N \( N \) | = Havaintojen määrä taulukossa |
Esimerkiksi "En ollenkaan kiinnostunut" vastaavien miesten odotettu frekvenssi saadaan laskemalla 139*568/1194 = 66,1. Vastaava luku naisten osalta on 72,9 ( = 139*626/1194).
Kuten jo aiemmin todettiin,
\( x^2 \)
-testi perustuu havaittujen ja odotettujen frekvenssien eroille. Käytännössä testissä lasketaan ns.
\( x^2 \)
-luku, joka kuvastaa sitä, kuinka paljon havaitut ja odotetut frekvenssit eroavat toisistaan. Kun
\( x^2 \)
-luku on suuri, eroavat nämä frekvenssit paljon toisistaan ja kun se on pieni, ovat erot havaittujen ja odotettujen frekvenssien välillä pienet.
\( x^2 \)
-luku laskentaan seuraavan kaavan avulla:

jossa
![]() |
= i:nnen rivin ja j:nnen sarakkeen odotettu frekvenssi |
![]() |
= i:nnen rivin ja j:nnen sarakkeen havaittu frekvenssi |
R \( R \) | = Rivien määrä |
C \( C \) | = Sarakkeiden määrä |
Käytännössä em. kaava tarkoittaa sitä, että jokainen ristiintaulukon solu käydään läpi ja jokaisessa niissä lasketaan ensin odotetun ja havaitun frekvenssin erotus, joka sen jälkeen korotetaan neliöön. Tämän jälkeen saatu tulos jaetaan odotetun frekvenssin arvolla. Lopuksi nämä solukohtaiset arvot lasketaan kaikki yhteen ja lopputuloksena on koko ristiintaulukon
\( x^2 \)
-luku.
Esimerkiksi yllä olevan taulukon
\( x^2 \)
-luku saadaan kaavasta laskemalla:
(77 - 58,5)^2 / 58,5 + (46 - 64,5)^2 / 64,5 + (243 - 220,7)^2 / 220,7 + (221 - 243,3)^2 / 243,3 + (197 - 222,6)^2 / 222,6 + (271 - 245,4)^2 / 245,4 + (51 - 66,1)^2 / 66,1 + (88 - 72,9)^2 / 72,9 = 27,7
Lopuksi tarvittava p:n arvo saadaan
\( x^2 \)
-jakaumasta, joka löytyy taulukkona esimerkiksi useimpien metodioppaiden liitteenä. Käytännössä tietenkin tilasto-ohjelmistot antavat tarvittavan p-arvon suoraan. Oikean p-arvon saamiseen tarvitaan vielä vapausasteiden määrä. Ristiintaulukossa vapausasteiden määrä saadaan kaavasta (rivien määrä-1)*(sarakkeiden määrä-1). Koska esimerkkitaulukossa rivejä on neljä ja sarakkeita on kaksi, on vapausasteiden määrä 3*1 eli 3. Näiden tietojen avulla oikea p-arvo voidaan hakea taulukoista. Tässä tapauksessa se on selvästi pienempi kuin 0,001 eli
\( x^2 \)
-testin tulos on erittäin merkitsevä ja näin ollen nollahypoteesi (eli olettamus siitä, että otoksessa havaittu miesten ja naisten ero johtuu pelkästään sattumasta) voidaan hylätä. Miehet todellakin ovat politiikasta kiinnostuneempia kuin naiset.