Varianssianalyysi

Lukuaika noin 6 min

Varianssianalyysia (analysis of variance tai ANOVA) käytetään tutkittaessa eroavatko kahden tai useamman ryhmän keskiarvot tilastollisesti merkitsevästi toisistaan. Varianssianalyysilla voidaan esimerkiksi tutkia eroavatko naisten ja miesten keskipalkat toisistaan jossakin yrityksessä tai ovatko eri maahanmuuttajaryhmiin kuuluvien koululaisten todistusten arvosanat keskiarvoiltaan toisistaan poikkeavia. Varianssianalyysia on perinteisesti pidetty kokeellisen analyysin perusmenetelmänä ja sen käyttö onkin ollut yleistä esimerkiksi lääketieteessä. Sillä on kuitenkin useita sovellusmahdollisuuksia myös yhteiskuntatieteiden aloilla.

Varianssianalyysin käyttöön liittyy useita laajennusmahdollisuuksia. Tässä yhteydessä keskitytään ns. yksisuuntaiseen varianssianalyysiin, joka on vaihtoehdoista yksinkertaisin. Lopussa esitellään lyhyesti myös kaksisuuntainen varianssianalyysi, kovarianssianalyysi ja monen muuttujan varianssianalyysi (MANOVA).

Yksisuuntainen varianssianalyysi

Yksisuuntainen varianssianalyysi (one-way analysis of variance) on varianssianalyysin muodoista yksinkertaisin. Koska varianssianalyysissa tarkastellaan selitettävien muuttujien ryhmäkeskiarvoja, täytyy selitettävän muuttujan olla sellainen, että siitä on järkevää laskea aritmeettinen keskiarvo (eli käytännössä välimatka- tai suhdelukuasteikon muuttuja, ks. muuttujien mittaustaso ja keskiluvut). Yksisuuntaisessa varianssianalyysissa on vain yksi selittävä muuttuja. Koska tämä muuttuja kuvaa havaintoyksikköjen jakautumista luokkiin, on sen mittaustaso oltava joko luokittelu- tai järjestysasteikko.

Varianssianalyysin avulla tutkitaan sitä, ovatko selitettävän muuttujan keskiarvot tilastollisesti merkitsevästi erisuuruisia selittävän muuttujan eri luokissa. Analyysin lähtöoletuksena eli nollahypoteesina (ks. hypoteesien testaus) on, että kiinnostuksen kohteena olevien luokkien keskiarvot ovat yhtä suuret. Jos varianssianalyysin tuloksena nollahypoteesi voidaan hylätä, selitettävän muuttujan keskiarvojen välillä on eroja selittävän muuttujan eri luokissa.

Käytännössä varianssianalyysi perustuu siihen, että selitettävän muuttujan varianssi (ks. hajontaluvut) jaetaan kahteen osaan. Näistä ensimmäinen mittaa luokkien sisäistä hajontaa ja toinen luokkakeskiarvojen välistä hajontaa. Jos nämä kaksi varianssia eivät eroa kovinkaan paljon toisistaan, on todennäköistä, että eri luokkien saamat keskiarvot ovat peräisin samankaltaisesta jakaumasta. Tällöin niiden välillä ei ole tilastollisesti merkitsevää eroa. Jos taas nämä kaksi varianssia eroavat toisistaan tarpeeksi, nollahypoteesi voidaan hylätä. Tilastollisena testinä varianssianalyysissa käytetään ns. F-testiä.

Esimerkki yksisuuntaisesta varianssianalyysista

Seuraavassa esimerkissä tutkitaan suomalaisten suhtautumista tuloerojen pienentämiseen tai niiden kasvattamiseen. Aineistona käytetään vuoden 2017 European Values Study -kyselyn Suomen osa-aineistoa. Kyselyssä pyydettiin vastaajia kertomaan mielipiteensä jatkumolla 1–10, jossa pienet arvot kuvastivat vastaajan halua tasata tuloeroja pienemmäksi ja suuret arvot vastaajan halua lisätä tuloeroja (kysymys q32d). Asteikon ääripäitä kuvaavat tekstit olivat "tulotaso pitäisi saada tasaisemmaksi" ja "yksilön ponnistuksille pitäisi olla suurempia kannustimia". Asennemuuttuja tulkitaan tässä välimatka-asteikolliseksi, jotta keskiarvon käyttäminen on mielekästä. Skaalan keskimmäiset vaihtoehdot olivat 5 ja 6 (keskikohta 5,5), jolloin kaikkien vastaajien keskiarvo 5,41 oli hieman tuloerojen tasaamista kannattavalla puolella.

Selittävänä muuttujana esimerkissä on vastaajien kotitalouden tulotaso (q98). Kysymyksessä annettiin vaihtoehdoksi kymmenen erilaista tuloluokkaa. Tarkastelun helpottamiseksi nämä koodattiin uudelleen viideksi luokaksi: "matala", "melko matala", "keskitaso", "melko korkea" ja "korkea" (ks. varianssianalyysin SPSS-harjoitus).

Varianssianalyysin tulokset on esitetty taulukossa 1. Taulukon yläosa kuvaa tuloeromuuttujan keskiarvoja selittävän muuttujan luokissa. Korkeimpaan tuloluokkaan kuuluvat näyttävät suhtautuvan yksilön kannustimiin suopeimmin (keskiarvo 6,04). Eniten tuloerojen pienentämisen kannalla ovat melko matalaan tuloluokkaan kuuluvat vastaajat (keskiarvo 4,90).

Taulukko 1. Eri tuloluokkiin sijoittuvien vastaajien suhtautuminen tuloeroihin. Varianssianalyysin tulokset.
Vastaajan kotitalouden tuloluokka	Suhtautuminen tuloeroihin (ryhmäkeskiarvo)
Korkea	6,04
Melko korkea	5,30
Keskitaso	5,37
Melko matala	4,90
Matala	5,05

F-testi	7,379
p-arvo	p<0,001
eta ²	0,026

Taulukon alaosan F-testiluku ja siihen liittyvä p-arvo kuvaavat ryhmien välisten erojen tilastollista merkitsevyyttä. Koska p-arvo on selvästi pienempi kuin yleisesti raja-arvona pidetty 0,05, voidaan nollahypoteesi ryhmäkeskiarvojen samansuuruisuudesta hylätä. Toisin sanoen eri tuloluokkiin kuuluvien välillä on eroja suhtautumisessa tuloeroihin.

Kahteen matalampaan tuloluokkaan sijoittuvat suomalaiset näyttävät kannattavan tuloerojen tasaamista enemmän kuin korkeampiin tuloluokkiin kuuluvat. Luokkien parivertailu (post hoc -testi, ks. varianssianalyysin SPSS-harjoitus) kuitenkin osoittaa, että keskiarvojen erot ovat tilastollisesti merkitseviä verratessa korkeinta tuloluokkaa muihin tuloluokkiin. Keskiarvojen erot muiden tuloluokkien välillä eivät ole tilastollisesti merkitseviä.

Taulukon 1 alalaidassa esitetty ns. etan neliö kuvaa sitä, kuinka paljon selitettävän muuttuja vaihtelusta pystytään selittämään selittävän muuttujan avulla. Eta² on tunnuslukuna verrattavissa regressioanalyysin yhteydessä käytettävään R²-lukuun. Se voi saada arvoja nollan ja yhden väliltä ja suuret arvot kuvastavat selittävän muuttujan parempaa selitysvoimaa. Taulukon 1 esimerkissä eta²-luku saa arvon 0,026, joka on varsin pieni luku. Luku voidaan tulkita niin, että tuloluokkiin sijoittumista kuvaavan muuttujan avulla voidaan selittää vain 2,6 % vastaajien suhtautumisen vaihtelusta tuloerojen kasvattamiseen tai niiden pienentämiseen. Selitysosuus ja muut tulokset ovat tietenkin sidoksissa aineistoon ja siinä käytettyihin operationalisointeihin.

Varianssianalyysin laajennukset

Kaksisuuntainen varianssianalyysi

Yksisuuntainen varianssianalyysi sisältää vain yhden selittävän muuttujan. Menetelmää voidaan kuitenkin laajentaa kattamaan myös useampia luokittelu- tai järjestysasteikon selittäviä muuttujia. Kaksisuuntaisessa varianssianalyysissa (two-way analysis of variance) selittäviä muuttujia on kaksi. Tällöin voidaan tutkia sitä, vaikuttavatko molemmat selittävät muuttujat selitettävän muuttujan arvoihin yksittäin sekä onko niillä yhteisvaikutusta (eli interaktiovaikutusta).

Kaksisuuntaisessa varianssianalyysissa voisi esimerkkitutkimusongelmana olla, vaikuttaako sukupuoli ja koulutus keskimääräiseen palkkatasoon tutkimuksen kohdeyrityksessä. Tulokset kertovat, onko näillä kahdella selittävällä muuttujalla tilastollisesti merkitsevää vaikutusta palkkatasoon sekä sen, onko sukupuolella ja koulutuksella yhteisvaikutusta. Tässä esimerkissä yhteisvaikutus voi tarkoittaa esimerkiksi sitä, että yliopistotutkinnon suorittaneiden naisten keskimääräinen palkkataso on selvästi huonompi kuin saman koulutustason miesten keskipalkka, mutta muissa koulutusluokissa tällaista sukupuolten välistä eroa ei ole.

Periaatteessa varianssianalyysissa voidaan käyttää useampaakin kuin kahta selittävää muuttujaa. Silloin mahdollisten yhteisvaikutusten määrä kuitenkin kasvaa suureksi, mikä tekee tulkinnan monimutkaisemmaksi.

Kovarianssianalyysi

Samoin kuin kaksiulotteisessa varianssianalyysissa myös kovarianssianalyysissa (analysis of covariance) lisätään varianssianalyysiin yksi tai useampia selittäviä muuttujia. Erona on kuitenkin se, että kovarianssianalyysissa lisättävä muuttuja on mittaustasoltaan välimatka- tai suhdeasteikollinen. Varianssianalyysin yhteydessä tällaista muuttujaa kutsutaan kovariaatiksi.

Oletetaan edellisen esimerkin tapaan, että tutkija on kiinnostunut sukupuolten välisistä palkkaeroista tutkimuksen kohteena olevassa yrityksessä. Hän kuitenkin epäilee, että sukupuolen lisäksi työntekijöiden ikäerot voivat vaikuttaa keskimääräiseen palkkatasoon. Ikämuuttujan vaikutus voidaan ottaa varianssianalyysissa huomioon lisäämällä se kovariaattina analyysiin. Saadut tulokset osoittavat, vaikuttaako sukupuoli tilastollisesti merkitsevästi keskimääräiseen palkkatasoon silloin, kun miesten ja naisten keski-iän erot on otettu huomioon.

Kovarianssianalyysi lähenee menetelmänä regressioanalyysia, jossa luokittelumuuttujat voidaan sisällyttää analyysiin ns. dummy-muuttujien avulla. Erona on, että kovarianssianalyysissa (ja varianssianalyysissa yleensäkin) otetaan automaattisesti huomioon selittävien muuttujien interaktiovaikutukset, kun taas regressioanalyysissa tutkija voi erikseen lisätä analyysiin ns. interaktiomuuttujat, jotta muuttujien mahdollinen yhteisvaikutus tulisi esille.

Monen muuttujan varianssianalyysi

Monen muuttujan varianssianalyysi eli MANOVA (multivariate analysis of variance) eroaa edellisistä varianssianalyysin laajennuksista siinä, että MANOVAssa on useita selitettäviä muuttujia. MANOVAa voidaan käyttää tilanteissa, joissa selitettävät muuttujat ovat teoreettisesti ja empiirisesti toisiinsa sidoksissa. Esimerkiksi työilmapiiritutkimuksissa voitaisiin kyselyn avulla muodostaa useita toisiinsa liittyviä työpaikan ilmapiiriä kuvaavia summamuuttujia ja tutkia eroja näissä muuttujissa yhtäaikaisesti.

Yleisesti voidaan todeta, että MANOVA on melko monimutkainen menetelmä ja ehkä siksi sen sovellukset yhteiskuntatieteissä ovat jääneet verraten harvinaisiksi.

Lisätietoja

Varianssianalyysin perusteista voi lukea lisää esimerkiksi seuraavista teoksista:

Alkula, Tapani & Seppo Pöntinen & Pekka Ylöstalo (1994) Sosiaalitutkimuksen kvantitatiiviset menetelmät. Juva: WSOY.
Field, Andy (2018) Discovering Statistics Using IBM SPSS Statistics (5. p.). Los Angeles: SAGE.
Nummenmaa, Lauri (2011) Käyttäytymistieteiden tilastolliset menetelmät (3. uud. p.). Helsinki: Tammi.
Toivonen, Timo (1999) Empiirinen sosiaalitutkimus: filosofia ja metodologia. Porvoo: WSOY.

Laajemmin varianssi- ja kovarianssianalyysiin sekä MANOVAan voi tutustua esimerkiksi seuraavien kirjojen avulla:

Bray, James H. & Scott E. Maxwell (1985) Multivariate Analysis of Variance. Beverly Hills: Sage.
Denis, Daniel J. (2018) SPSS Data Analysis for Univariate, Bivariate, and Multivariate Statistics. Hoboken: Wiley.
Iversen, Gudmund R. & Helmut Norpoth (1987) Analysis of Variance. Newbury Park: SAGE.
Tabachnick, Barbara G. & Linda S. Fidell (2001) Using Multivariate Statistics (4. p.). Boston: Allyn and Bacon.
Tacq, Jacques (1997) Multivariate Analysis Techniques in Social Science Research: From Problem to Analysis. London: SAGE.