Ristiintaulukointi

Lukuaika noin 11 min

Ristiintaulukoinnilla tutkitaan muuttujien jakautumista ja niiden välisiä riippuvuuksia. Riippuvuus- tai riippumattomuustarkastelussa tutkitaan, onko tarkastelun kohteena olevan selitettävän muuttujan jakauma erilainen selittävän muuttujan eri luokissa.

Tutkimuskysymyksenä voi olla esimerkiksi se, eroavatko naiset ja miehet siinä, kuinka kiinnostuneita politiikasta he ovat. Ristiintaulukointi kertoo eroavatko nais- ja miesvastaajien vastausjakaumat toisistaan, kun näytetään vaihtoehtojen osuudet sukupuolimuuttujan kahdessa eri luokassa ja verrataan niiden suuruuksia. Tässä esimerkissä selittävässä muuttujassa on vain kaksi luokkaa, mutta siinä voisi olla myös useampia luokkia. Ristiintaulukoinnissa voidaan käyttää myös välimatka- tai suhdeasteikolla mitattuja muuttujia, mutta ne on sitä ennen uudelleenkoodattava luokitelluiksi muuttujiksi.

Ristiintaulukon muodostaminen Ankkurilinkki ikoni

Seuraavassa esimerkissä tutkitaan miesten ja naisten välisiä eroja poliittisessa kiinnostuksessa. European Values Study 2017 -aineistossa on pyydetty vastausta seuraavaan kysymykseen: "Kuinka kiinnostunut olet politiikasta?" (kysymys q29). Ristiintaulukoinnin avulla pystytään vastaamaan siihen, kuinka kiinnostuneita naiset ja miehet ovat ja onko kiinnostus yhtä suurta verrattaessa sukupuolia toisiinsa.

Taulukon 1 kuudessa solussa on esitetty ristiintaulukoinnin tuottamat vastaajien lukumäärät.

Taulukko 1. Poliittinen kiinnostus sukupuolen mukaan (absoluuttiset luvut).
Mies Nainen
Erittäin kiinnostunut 77 46
Melko kiinnostunut 243 221
Ei kovin kiinnostunut 197 271
Ei ollenkaan kiinnostunut 51 88

Taulukko 1 osoittaa, miten vastaajat ovat jakautuneet sarake- (sukupuoli) ja rivimuuttujan (poliittinen kiinnostus) eri vaihtoehtoihin. Esimerkiksi 77 miesvastaajaa ilmoitti olevansa erittäin kiinnostunut politiikasta. Naisvastaajissa vastaava määrä oli 46. Taulukosta on kuitenkin vaikea havaita suoraan, eroavatko sukupuolet poliittisen kiinnostuksen suhteen toisistaan. Luvuthan eivät ole suoraan vertailukelpoisia, koska nais- ja miesvastaajien määrät otoksessa eroavat toisistaan. Tämän vuoksi on syytä laskea uuteen ristiintaulukkoon prosenttijakaumat selitettävälle muuttujalle. Tämä on tehty taulukossa 2.

Taulukko 2. Poliittinen kiinnostus sukupuolen mukaan (%).
Mies Nainen
Erittäin kiinnostunut 14 7
Melko kiinnostunut 43 35
Ei kovin kiinnostunut 35 43
Ei ollenkaan kiinnostunut 9 14
Yhteensä (n)
chi2 \( x^2 \) =27,7; vapausasteita=3;
p<0,01
100
568
100
626

Ristiintaulukoinnissa tarkastellaan siis ehdollisia jakaumia. Tämä tarkoittaa sitä, että mielenkiinnon kohteena olevan selitettävän muuttujan jakaumaa tarkastellaan selittävän muuttujan eri luokissa. Koska selitettävän muuttujan arvot jakautuvat vain harvoin tasaisesti selittävän muuttujan luokkiin, on analyysissa selkeyden vuoksi tarpeellista käyttää suhteellista jakaumaa eli laskea prosenttiosuudet.

Taulukon 2 esimerkki selventää asiaa. Myös nyt sarakkeilla ovat selittävän muuttujan (sukupuoli) luokat ja riveillä selitettävän muuttujan luokat. Taulukon prosenttijakaumat osoittavat selkeästi naisten ja miesten erot poliittisessa kiinnostuksessa. Naisista 14 % ei ole lainkaan kiinnostunut politiikasta, kun taas miesten osalta vastaava luku on 9 %. Politiikasta melko tai erittäin kiinnostuneita on miehistä 57 % ja naisista 42 %. Voidaan tehdä johtopäätös, että otoksen perusteella miehet ovat naisia kiinnostuneempia politiikasta.

Ristiintaulukon alimmalla prosenttirivillä on laskettu prosenttiosuudet yhteen. Pyöristys voi joskus aiheuttaa pienen poikkeaman sadasta prosentista, mutta yleensä yhteenlaskettu prosenttiosuus ilmoitetaan silti tasalukuna (100 %). Yhteenlaskettu prosentti on syytä lisätä taulukkoon, koska se kertoo lukijalle heti mihin suuntaan taulukon prosenttijakaumat on laskettu. Lisäksi on tapana ilmoittaa absoluuttiset määrät (n), joiden perustalta prosenttiluvut on laskettu. Näin lukija pystyy arvioimaan myös tulosten luotettavuutta. Lisäksi taulukossa 2 on esitetty merkitsevyystestin tulokset. Näiden tulosten tulkinta ja niiden laskeminen käydään läpi kohta omassa osiossaan. Lisäksi taulukoiden raportointia ja ulkoasua käsitellään toisaalla tarkemmin (ks. Numerotulosten esittäminen ja taulukoiden laatiminen).

Ristiintaulukoitaessa on tarkkaan mietittävä mihin suuntaan prosenttijakaumat tulee laskea. Tämän ratkaisee tutkimusongelma. Jos taulukossa 2 prosentit olisikin laskettu vaakasuoraan, tulokset eivät olisi vastanneet esitettyyn kysymykseen siitä, eroavatko miehet ja naiset poliittisen kiinnostuksensa suhteen. Prosentit olisivat kertoneet esimerkiksi erittäin kiinnostuneiden ryhmän sukupuolirakenteen eli sen, kuinka suuri osuus heistä on miehiä tai naisia. Jos otoksessa olisi esimerkiksi ollut jostakin syystä huomattavasti enemmän naisia kuin miehiä, olisi naisten prosenttiosuus ollut luultavasti kaikissa kiinnostuneiden ryhmissä suurempi kuin miesten prosenttiosuus. Tämä tulos ei kuitenkaan olisi kertonut mitään siitä, ovatko naiset kiinnostuneempia politiikasta kuin miehet.

Selittävän ja selitettävän muuttujan sijainnille ristiintaulukoinnissa ei ole olemassa yhtä yleispätevää sääntöä. Jos ristiintaulukkoon sisältyy selkeä kausaalinen asetelma, on tavanomaista asettaa selittävä muuttuja taulukon yläreunaan eli sarakkeille ja selitettävä muuttuja taulukon sivulle eri riveille. Tällöin prosentit lasketaan sarakkeiden sisällä siten, että yhteenlasketut prosenttiluvut ja lukumäärät sijoittuvat taulukon alalaitaan. Joskus selittävässä muuttujassa voi kuitenkin olla niin monta luokkaa, että käytännön syistä ne kannattaa sijoittaa riveille ja selitettävän muuttujan luokat sarakkeille. Tässä tapauksessa prosenttijakauma on tietenkin laskettava riveittäin.

Erityistapauksissa voi olla tarpeellista laskea prosenttiosuudet koko aineistosta, eikä ainoastaan selittävän muuttujan luokkien sisällä. Tutkija voi esimerkiksi haluta tietää, kuinka suuri osuus koko aineistossa on tietyn ikäisiä naisia. Tämän tuloksen hän saa ristiintaulukoimalla iän sukupuolen mukaan ja laskemalla solujen lukumäärien prosenttiosuudet kaikkien havaintoyksikköjen määrästä.

Ristiintaulukon merkitsevyyden testaus Ankkurilinkki ikoni

Kuten tilastollisen päättelyn osiossa todetaan, otoksiin perustuvissa tutkimuksissa mielenkiinnon kohteena on se, voidaanko otoksessa havaittujen erojen pätevän myös perusjoukossa (eli tässä esimerkissä kaikki täysi-ikäiset suomalaiset). Taulukon 2 prosenttiluvut osoittavat miesten ja naisten erot otoksessa, mutta tärkeä kysymys on, voidaanko näistä tuloksista päätellä tarpeeksi varmasti, että sukupuolten välinen ero säilyy myös tarkasteltaessa koko perusjoukkoa. Tällaiset kysymykset kuuluvat tilastollisen päättelyn alaan. Ristiintaulukoille soveltuva tilastollisen merkitsevyyden testausmenetelmä on ns. Khii toiseen \( x^2 \) -testi ("khii-toiseen testi"; khii on yksi kreikkalaisista aakkosista).

Khii toiseen \( x^2 \) -testi on ns. riippumattomuustesti. Sen lähtökohtaisena oletuksena eli nollahypoteesina on muuttujien välinen riippumattomuus. Esimerkissämme tämä edellyttää, että miehet ja naiset eivät eroa poliittisessa kiinnostuksessaan toisistaan. Toisin sanoen sukupuoli ja kiinnostus politiikkaa kohtaan olisivat siis toisistaan riippumattomia muuttujia.

Testin perustana on havaittujen frekvenssien ja odotettujen frekvenssien erotusten suuruus. Odotetuilla frekvensseillä tarkoitetaan sitä havaintojen jakaumaa, joka syntyisi, jos miehet ja naiset olisivat yhtä kiinnostuneita politiikasta. Esimerkiksi taulukossa 2 tämä tarkoittaisi sitä, että miesten ja naisten kohdalla prosenttiluvut olisivat täysin samat.

Khii toiseen \( x^2 \) -testissä tarkastellaan sitä, kuinka paljon havaitut ja odotetut frekvenssit eroavat toisistaan. Jos erot ovat tarpeeksi suuria, voidaan todeta, että havaitut erot eivät todennäköisesti johdu ainoastaan sattumasta, vaan ne ovat löydettävissä myös perusjoukossa.

P-arvo kertoo todennäköisyyden, jolla havaittua vastaava tai vahvempi yhteys löydettäisiin siinä tapauksessa, että nollahypoteesi on tosi. P-arvon tulkinnassa on perinteisesti käytetty merkitsevyystasoja 5 %, 1 % tai 0,1 %, ja esimerkiksi p-arvon ollessa alle 0,05 on voitu todeta, että erot ovat tilastollisesti melkein merkitseviä. Taulukossa 2 Khii toiseen \( x^2 \) -testin tulos on p<0,01. Nollahypoteesi on, että naisten ja miesten poliittisessa kiinnostuksessa ei ole eroa. Tässä tapauksessa on alle 1 %:n todennäköisyys sille, että otoksessa havaittu tulos poikkeaa havaitun verran tai enemmän nollahypoteesista silloin, kun nollahypoteesi pitää paikkansa. Vastahypoteesi eli se, että poliittisessa kiinnostuksessa on eroa naisten ja miesten välillä, saa näin tukea (ks. myös Hypoteesien testaus).

Ristiintaulukon tilastollisen merkitsevyyden testaamisessa on kuitenkin huomioitava, että testaus ei kerro mitään ristiintaulukon sisältämien erojen sisällöllisestä merkityksestä. Testi kertoo vain erojen suuruudesta tilastotieteellisessä mielessä. Jos otoskoko on hyvin suuri, on todennäköistä, että pienikin riippuvuus muuttujien välillä antaa tilastollisesti merkitsevän Khii toiseen \( x^2 \) -testituloksen. Pienellä otoskoolla suuretkin erot voivat puolestaan jäädä huomaamatta. Siksi on tärkeää muistaa, että tilastollisen merkitsevyyden lisäksi täytyy aina pohtia myös erovaisuuksien suuruuden sisällöllistä merkitystä ja välttää merkitsevyystasojen orjallista tulkintaa (ks. myös p-arvon kritiikistä luvusta Hypoteesien testaus). Vastuu johtopäätöksistä on loppujen lopuksi aina tutkijalla.

Khii toiseen \( x^2 \) -testin periaatteet ja laskutapa on esitelty tarkemmin omassa luvussaan.

Ristiintaulukon elaborointi Ankkurilinkki ikoni

Elaboroinnilla tarkoitetaan prosessia, jossa jo löytynyttä kausaalisuhdetta yritetään tarkentaa tuomalla analyysiin mukaan asiaan vaikuttavia lisätekijöitä. Seuraavassa esimerkissä tarkastellaan ristiintaulukoinnin avulla sitä, miten löytynyt yhteys sukupuolen ja poliittisen kiinnostuksen välillä muuttuu, jos sitä tarkastellaan eri ikäryhmissä.

Kuten taulukko 2 osoitti, miehillä ja naisilla vaikuttaisi olevan eroavaisuuksia heidän poliittisessa kiinnostuksessaan. Seuraavassa esimerkissä tarkastellaan, miten näkemys sukupuolien välisestä erosta muuttuu, jos asiaa tarkastellaan eri ikäryhmissä. Tätä varten aineiston ikämuuttuja on luokiteltu kolmeen eri luokkaan (alle 35 vuotta, 35-59 vuotta ja 60 vuotta täyttäneet; ks. muuttujien uudelleenkoodaus ja ikämuuttujan luokittelua käsittelevä SPSS-harjoitus). Ristiintaulukointi tehdään nyt kaikille kolmelle ryhmälle erikseen. Tulokset ovat taulukossa 3.

Taulukko 3. Poliittinen kiinnostus sukupuolen mukaan ikäryhmittäin (%).
Alle 35 v. 35-59 v. 60 v. täyttäneet
Mies Nainen Mies Nainen Mies Nainen
Erittäin kiinnostunut 14 8 13 5 15 9
Melko kiinnostunut 35 26 42 36 47 40
Ei kovin kiinnostunut 43 49 33 46 32 39
Ei ollenkaan kiinnostunut 9 17 12 13 7 12
Yhteensä
N
100
106
100
123
100
187
100
206
100
260
100
278
Khii toiseen \( x^2 \) =7,1; vapausast.=3; p=0,069 Khii toiseen \( x^2 \) =12,1; vapausast.=3; p=0,007 Khii toiseen \( x^2 \) =26,9; vapausast.=3; p<0,001

Aiemmin havaittu näkemys sukupuolen ja poliittisen kiinnostuksen välisestä suhteesta tarkentuu, kun sitä tarkastellaan vastaajien ikäryhmän suhteen. Miehet ovat naisia kiinnostuneempia politiikasta kaikissa ikäryhmissä, mutta ero on huomattavin nuorimpien keskuudessa. Taulukoiden merkitsevyystestien tulkinta kuitenkin tarkentaa kuvaa sukupuolien välisestä erosta.

Alle 35-vuotiaiden osalta Khii toiseen \( x^2 \) -riippumattomuustestin p-arvo on 0,069. On siis n. 7 %:n todennäköisyys saada vähintään otoksessa havaittu arvo kun oletetaan, että nollahypoteesi on tosi. Toisin sanoen, todennäköisyytemme tehdä väärä päätelmä sukupuolen ja poliittisen kiinnostuksen välisestä yhteydestä tässä ikäryhmässä on korkeampi kuin usein käytetty 5 %:n riskitaso. Tämän tuloksen perusteella tässä ikäryhmässä miesten ja naisten poliittisessa kiinnostuksessa ei ole eroa populaation tasolla, mutta selityksiä tälle tulokselle ja mahdollisia jatkoanalyysejä olisi syytä pohtia. Yleispäätelmänä voisi olla, että vanhemmissa ikäryhmissä miehet ovat naisia kiinnostuneempia politiikasta, mutta nuorimmassa ikäryhmässä ero kiinnostuksen ja sukupuolen välillä ei ole tilastollisesti merkitsevä.

Elaborointia voi suorittaa ristiintaulukoimalla monia muuttujia keskenään. Tällöin tulee kuitenkin kiinnittää huomiota siihen, että tarkasteltavissa osaryhmissä havaintoyksikköjen määrä ei laske niin pieneksi, että se estää pätevien yleistysten tekemisen. Lisäksi kannattaa ottaa huomioon, että monimutkaisista taulukoista tulee hyvin nopeasti hankalasti hahmotettavia. Käytännössä ristiintaulukointi sopii erityisesti kahden tai enintään kolmen yksittäisen muuttujan välisten yhteyksien tarkasteluun. Jos selittäviä muuttujia on useita ja niissä on kaikissa useita luokkia, on syytä harkita muiden välineiden, kuten monimuuttujamenetelmien käyttöä. Käyttämässämme esimerkissä voitaisiin harkita ns. log-lineaaristen mallien käyttöä.