KvantiMOTV on päivitetty Kvantitatiivisen tutkimuksen verkkokäsikirjaksi. Lue päivitetty artikkeli Ristiintaulukointi.
Ristiintaulukon riippumattomuustesti
Kuten aiemmin todettiin täytyy otokseen perustuvat ristiintaulukot alistaa ns. riippumattomuustestille, joka kertoo kuinka todennäköistä on, että riippuvuus on syntynyt ainoastaan otantasattuman vaikutuksesta niin, että muuttujat ovat perusjoukossa toisistaan riippumattomia. Yleisimmin käytetty testi on ns. Pearsonin -testi, joka perustuu havaittujen ja odotettujen frekvenssien vertailuun.
Taulukko 1 on jo aiemmin käytetty esimerkkiristiintaulukko sukupuolen ja poliittisista asioista keskustelemisen aktiivisuuden suhteesta. Taulukkoon on kuitenkin lisätty muutamia lukuja, joita tarvitaan -testin laskemiseksi. Normaalisti näitä tietoja ei tietenkään tarvitse raportoida, koska kaikki tilasto-ohjelmistot laskevat testin automaattisesti tai ainakin pyydettäessä. Taulukkoon on ensinnäkin lisätty "yhteensä" sarake sen oikeaan laitaan. Näitä lukuja tarvitaan odotettujen frekvenssien laskemiseen. Luvut osoittavat, että 72 vastaajaa ilmoitti keskustelevansa usein politiikasta ystäviensä kanssa, 621 silloin tällöin jne.
Taulukko 1. Aktiivisuus keskustella poliittisista asioita ystävien kanssa sukupuolen mukaan (havaitut frekvenssit, odotetut frekvenssit ja prosenttijakauma).
Mies | Nainen | Yhteensä | |
Usein | 43 35,0 9 % |
29 37,0 6 % |
72 |
Silloin tällöin | 323 301,9 68 % |
298 319,1 60 % |
621 |
Ei koskaan | 108 137,1 23 % |
174 144,9 35 % |
282 |
Yhteensä n |
100 % 474 |
100 % 501 |
975 |
Jokaiseen ristiintaulukon soluun on myös lisätty prosenttiluvun yläpuolelle kaksi lukua. Ensimmäinen näistä on havaittu solufrekvenssi (observed frequency). Esimerkiksi 43 miestä ja 29 naista vastasi keskustelevansa usein ystäviensä kanssa politiikasta. Tämän luvun alla on solun odotettu frekvenssi (expected frequency), eli luku, joka osoittaa kuinka monta vastaajaa solussa todennäköisesti olisi, jos miehet ja naiset eivät eroaisi toisistaan keskustelutapojensa suhteen. Jos keskusteluaktiivisuus todellakin olisi täysin riippumaton sukupuolesta, olisi todennäköisintä, että silloin 35,0 miestä ja 37,0 naista vastaisivat keskustelevansa politiikasta usein. Syy sille, että naisten odotettu frekvenssi on hiukan miesten vastaavaa suurempi, johtuu siitä, että otoksessa on hiukan enemmän naisia kuin miehiä.
Odotetut frekvenssit voidaan laskea seuraavasta kaavasta:
jossa
![]() |
= i:nnen rivin ja j:nnen sarakkeen odotettu (Expected) frekvenssi | |
![]() |
= i:nnen rivin reunajakauma (eli rivin valinneiden vastaajien kokonaissumma) | |
![]() |
= j:nnen sarakkeen reunajakauma (eli sarakkeen valinneiden vastaajien kokonaissumma) | |
N | = Havaintojen määrä taulukossa |
Esimerkiksi "En koskaan" vastaavien miesten odotettu frekvenssi saadaan laskemalla (282*474)/975=137,1. Vastaava luku naisten osalta on 144,9 (=(282*501)/975).
Kuten jo aiemmin todettiin, -testi perustuu havaittujen ja odotettujen frekvenssien eroille. Käytännössä testissä lasketaan ns.
-luku, joka kuvastaa sitä, kuinka paljon havaitut ja odotetut frekvenssit eroavat toisistaan. Kun
-luku on suuri, eroavat nämä frekvenssit paljon toisistaan ja kun se on pieni, ovat erot havaittujen ja odotettujen frekvenssien välillä pienet.
-luku laskentaan seuraavan kaavan avulla:
jossa
![]() |
= i:nnen rivin ja j:nnen sarakkeen odotettu frekvenssi | |
![]() |
= i:nnen rivin ja j:nnen sarakkeen havaittu frekvenssi | |
R | = Rivien määrä | |
C | = Sarakkeiden määrä |
Käytännössä em. kaava tarkoittaa sitä, että jokainen ristiintaulukon solu käydään läpi ja jokaisessa niissä lasketaan ensin odotetun ja havaitun frekvenssin erotus, joka sen jälkeen korotetaan neliöön. Tämän jälkeen saatu tulos jaetaan odotetun frekvenssin arvolla. Lopuksi nämä solukohtaiset arvot lasketaan kaikki yhteen ja lopputuloksena on koko ristiintaulukon -luku.
Esimerkiksi yllä olevan taulukon -luku saadaan kaavasta laskemalla:
(43-35,0)^2/35,0+(29-37,0)^2/37,0+(323-301,9)^2/301,9+ (298-319,1)^2/319,1+(108-137,1)^2/137,1+(174-144,9)^2/144,9=18,4
Lopuksi tarvittava p:n arvo saadaan -jakaumasta, joka löytyy taulukkona esimerkiksi useimpien metodioppaiden liitteenä. Käytännössä tietenkin tilasto-ohjelmistot antavat tarvittavan p-arvon suoraan. Oikean p-arvon saamiseen tarvitaan vielä vapausasteiden määrä. Ristiintaulukossa vapausasteiden määrä saadaan kaavasta (rivien määrä-1)*(sarakkeiden määrä-1). Koska esimerkkitaulukossa rivejä on kolme ja sarakkeita on kaksi, on vapausasteiden määrä 2*1 eli 2. Näiden tietojen avulla oikea p-arvo voidaan hakea taulukoista. Tässä tapauksessa se on selvästi pienempi kuin 0,001 eli
-testin tulos on erittäin merkitsevä ja näin ollen nollahypoteesi (eli olettamus siitä, että otoksessa havaittu miesten ja naisten ero johtuu pelkästään sattumasta) voidaan hylätä. Miehet todellakin keskustelevat ystäviensä kanssa politiikasta enemmän kuin naiset.