Moderaation tarkastelu regressioanalyysissa

Lukuaika noin 8 min

Markus Kaakinen & Noora Ellonen (viittausohje)

Tämä on toinen osa regressioanalyysista kertovassa luvusta ja pääset alla olevasta listasta siirtymään suoraan muihin luvun osiin.

Yksi regressioanalyysiin sisältyvä oletus on, että selittävien muuttujien yhteydet selitettävään muuttujaan ovat additiivisia (Berry, 1993). Tietyn selittävän muuttujan yhteys selitettävään muuttujaan ei siis riipu siitä, minkä arvon mallin muut selittävät muuttujat saavat. Edellisen esimerkkiregressiomallin tapauksessa tämä tarkoittaa, että syntyvyyden yhteys kuolleisuuteen on riippumaton siitä, minkä verran maassa käytetään resursseja terveydenhuoltomenoihin.

Tämä taustalla oleva oletus ei aina päde. Joskus tutkijalla on myös teoreettinen syy olettaa, että jokin kolmas tekijä moderoi selittävän ja selitettävän muuttujan välistä suhdetta. Moderaatio viittaa tilanteeseen, jossa selittävän muuttujan X yhteys selitettävään muuttujaan Y riippuu tietyn moderaattorimuuttujan M saamasta arvosta (Kuvio 2).

Esimerkiksi (sosiaali)psykologiasta tuttu puskurointihypoteesi (engl. buffering hypothesis) ennustaa, että erilaisten kielteisten elämänkokemusten yhteys yksilön hyvinvointiin riippuu siitä, minkä verran hän saa sosiaalista tukea läheisiltään. Toisin sanoen sosiaalinen tuki (M) moderoi kielteisten elämänkokemusten (X) yhteyttä yksilön hyvinvointiin (Y). Moderaatio on tällaisissa tapauksissa teoreettisesti olennainen osa tutkimusongelmaa ja empiiristä analyysia. Toisaalta regressiomallissa olevien muuttujien taustalla voi tutkijan tietämättä olla tällaista keskinäisriippuvuutta. Huomioimatta jäävät moderaatiot saattavat näkyä analyysissa esimerkiksi residuaalien epätasaisena jakautumisena.

Moderaatiomuuttujan vaikutus — Kuvio 2. Moderaattori M säätelee selittävän muuttujan X ja selitettävän muuttujan Y välistä yhteyttä.

Moderaatioiden analysointi regressiomallissa tapahtuu niin, että malliin lisätään selittävän muuttujan (X) ja moderaattorin (M) lisäksi näiden välinen interaktiotermi. Interaktiotermi tarkoittaa selittäjän ja moderaattorin välistä tuloa (X*M). Esimerkiksi SPSS-ohjelmistossa interaktiotermi siis luodaan laskemalla aineistoon uusi muuttuja, joka saa arvokseen selittävän muuttujan ja moderaattorin välisen tulon.

Tarkastellaan seuraavaksi moderaatiota regressioanalyysiesimerkkimme kautta. Aiemmin huomasimme, että korkeampi syntyvyys oli yhteydessä matalampaan kuolleisuuteen. HI-virustapausten korkea esiintyvyys taas oli yhteydessä korkeampaan kuolleisuuteen. Olettakaamme esimerkin vuoksi, että syntyvyyden yhteys kuolleisuuteen riippuu siitä, minkä verran maassa esiintyy HI-virustartuntoja. Toisin sanoen HIV-tapausten määrä väestössä moderoi syntyvyyden ja eliniänodotteen välistä yhteyttä. Olettakaamme lisäksi, että korkea syntyvyys on yhteydessä matalampaan kuolleisuuteen erityisesti silloin, kun HI-viruksen esiintyvyys maassa on alhainen. Ja toisaalta korkea syntyvyys ei ole yhtä vahvasti yhteydessä matalampaan kuolleisuuteen maissa, joissa HI-viruksen esiintyvyys on korkea.

Standardointi

Tarkastelu tulee aloittaa luomalla interaktiomuuttuja (ks. SPSS-harjoitus 2). Tulosten tulkinnan helpottamiseksi mallin jatkuvat muuttujat (sekä selittävät että selitettävät) usein standardoidaan moderaatioanalyysia ja interaktiotermin muodostamista varten. Standardoinnissa jokaisen havainnon kohdalla muuttujan (x) arvosta vähennetään kyseisen muuttujan keskiarvo (m), jonka jälkeen erotus jaetaan muuttujan keskihajonnalla (sd) (standardoitu arvo = (x-m)/sd). Näin muuttujan keskiarvoksi saadaan 0 ja sen keskihajonnaksi 1. Standardoidun muuttujan kasvu yhdellä yksiköllä siis on sama kuin alkuperäisen muuttujan kasvu yhdellä keskihajonnalla. Standardoinnin jälkeen mallissa tulee tarkastella standardoimatonta regressiokerrointa, jotta vältetään tuplastandardointi.

Jos interaktiotermissä on mukana dummy-muuttujia, niitä ei standardoida. Esimerkkianalyysissa kuolleisuus (selitettävä muuttuja) ja syntyvyys (selittävä muuttuja) ovat jatkuvia. Moderaattori eli HI-viruksen esiintyvyys taas on kaksiluokkainen dummy-muuttuja (0 = matala esiintyvyys, 1 = korkea esiintyvyys). Analyysia varten luodaan interaktiotermi, joka saa arvoksi HI-virus-muuttujan ja standardoidun Syntyvyys-muuttujan välisen tulon (HI-virus*Syntyvyys). Tämä luotu muuttuja lisätään sitten uutena muuttujana edellisen esimerkin regressiomalliin. Malliin jätetään muuten samat muuttujat kuin aiemminkin (huomaathan standardoinnin).

Kuten muidenkin regressiokertoimien kohdalla, interaktiotermin p-arvo kertoo, onko moderaatio tilastollisesti merkitsevä. Esimerkkianalyysissa interaktiotermin p-arvo on 0,02, eli moderaatio on tilastollisesti merkitsevä (Taulukko 3). Moderaatiomallien regressiokertoimien tulkinta vaatii kuitenkin enemmän tarkkuutta, sillä selittävän muuttujan ja moderaattorin regressiokertoimia ei voi enää tulkita samalla tavalla kuin ennen interaktiotermin lisäämistä.

Taulukko 3. Regressioanalyysi selittävien muuttujien ja interaktion yhteydestä kuolleisuuteen (n = 117)
	B	Keskivirhe	Beta	t	p-arvo	95 % luottamustason luottamusväli		VIF
Vakio	0,34	0,27		1,26	0,211	-0,20	0,88
BKTL, alempi keskitaso	-0,32	0,27	-0,14	-1,16	0,249	-0,86	0,22	2,35
BKTL, ylempi keskitaso	-0,41	0,33	-0,18	-1,24	0,219	-1,07	0,25	3,33
BKTL, korkea	-0,31	0,43	-0,11	-0,74	0,464	-1,16	0,53	3,49
HI-viruksen esiintyvyys	0,12	0,26	0,06	0,48	0,632	-0,39	0,64	2,30
Syntyvyys (standardoitu)	-1,18	0,20	-1,18	-5,79	0,000	-1,59	-0,78	6,83
Terveydenhuoltomenot (standardoitu)	0,05	0,10	0,05	0,52	0,603	-0,15	0,26	1,33
Imeväiskuolleisuus (standardoitu)	0,83	0,16	0,85	5,14	0,000	0,51	1,15	4,52
Syntyvyys*HIvirus	0,48	0,20	0,34	2,36	0,020	0,08	0,89	3,45
R²	0,34
Korjattu R²	0,29
F-testi	7,05 p-arvo = 0,000
Estimaatin keskivirhe	0,89

Interaktiotermin lisäämisen jälkeen selittävän muuttujan eli syntyvyyden regressiokerroin (B=-1,18) kertoo sen yhteyden selitettävään muuttujaan silloin, kun moderaattori saa arvon nolla. Syntyvyyden kasvu yhdellä keskihajonnalla (muista standardointi) siis vähentää kuolleisuutta 1,18 keskihajonnalla, kun maassa on vähän HI-virustapauksia (HI_virus-muuttuja saa arvon nolla). Interaktiotermin regressiokerroin (B=0,48) kertoo puolestaan sen, miten syntyvyyden yhteys kuolleisuuteen muuttuu, kun moderaattorin arvo kasvaa yhdellä (eli HI_virus-muuttuja saa arvon 1). Interaktiotermin regressionkerroin siis lisätään selittävän muuttujan regressiokertoimeen. Esimerkkimallissa syntyvyyden kasvu yhdellä keskihajonnalla vähentää kuolleisuutta 1,18 keskihajontaa silloin, kun väestössä on matala HI-viruksen esiintyvyys. Kun HI-viruksen esiintyvyys on korkea, syntyvyyden kasvu yhdellä keskihajonnalla on yhteydessä 0,7 keskihajontaa matalampaan kuolleisuuteen (-1,18 + 0,48 = -0,7). Yllä esitetty oletus moderaatiosta siis pitää paikkansa. Syntyvyys on yhteydessä matalampaan kuolleisuuteen erityisesti silloin, kun maassa esiintyy vähän HI-virustapauksia.

Moderaatiota on mahdollista havainnollistaa jakamalla aineisto moderaattori-muuttujan mukaisesti osaryhmiin ja tekemällä regressioanalyysi erikseen näissä ryhmissä. Esimerkkianalyysissa voimme havainnollistaa moderaatiota niin, että tarkastelemme syntyvyyden ja eliniän välistä yhteyttä erikseen matalan ja korkean HI-virusesiintyvyyden ryhmissä. Malleihin tulevat siis muuten samat muuttujat, mutta HI-virus-muuttujaa käytetään aineiston jakamiseen osaryhmiin (sitä ei lisätä malliin). Tällaisen analyysin tulokset on esitetty taulukossa 4.

Taulukko 4. Regressioanalyysi selittävien muuttujien ja interaktion yhteydestä kuolleisuuteen matalan ja korkean HI-virusesiintyvyyden ryhmissä (n = 117).
Matala HI-virus esiintyvyys
	B	Keskivirhe	Beta	t	p-arvo	95 % luottamustason luottamusväli		VIF
Vakio	0,90	0,45		2,00	0,05	0,02	1,80
BKTL, alempi keskitaso	-1,02	0,47	-0,43	-2,15	0,035	-1,96	-0,07	3,75
BKTL, ylempi keskitaso	-1,01	0,57	-0,42	-1,76	0,084	-2,15	0,14	5,24
BKTL, korkea	-1,01	0,66	-0,39	-1,54	0,130	-2,32	0,30	6,07
Syntyvyys (standardoitu)	-1,36	0,31	-1,10	-4,44	0,000	-1,97	-0,75	5,74
Terveydenhuoltomenot (standardoitu)	0,02	0,15	0,02	0,14	0,887	-0,27	0,31	1,35
Imeväiskuolleisuus (standardoitu)	0,82	0,32	0,60	2,60	0,012	0,19	1,46	4,94
Korkea HI-virus esiintyvyys
Vakio	0,22	0,30		0,71	0,480	-0,40	0,82
BKTL, alempi keskitaso	0,28	0,28	0,14	0,99	0,328	-0,29	0,85	1,57
BKTL, ylempi keskitaso	-0,21	0,35	-0,10	-0,60	0,552	-0,93	0,50	2,33
Syntyvyys (standardoitu)	-0,56	0,20	-0,56	-2,81	0,008	-0,97	-0,16	3,10
Terveydenhuoltomenot (standardoitu)	0,15	0,13	0,15	1,14	0,264	-0,12	0,41	1,38
Imeväiskuolleisuus (standardoitu)	0,75	0,15	0,84	4,85	0,000	0,43	1,06	2,30

Tuloksista huomataan, että syntyvyyden yhteys kuolleisuuteen on heikompi, kun väestössä on paljon HI-virustapauksia. Kun väestössä on paljon HI-virustapauksia, syntyvyyden regressiokerroin on -0,56. Kun väestössä taas on vähän HI-virustapauksia syntyvyyden regressiokerroin on -1,36. Kertoimet eivät täysin vastaa yllä raportoituja regressiokertoimiin perustuvia laskelmia, sillä mallit poikkeavat hieman toisistaan. Regressiomallin ajaminen osaryhmittäin on yksi tapa havainnollistaa moderaatiota, mutta se voidaan tehdä myös muilla tavoilla. Yksi hyvin käytetty lähestymistapa on piirtää kuvio selittävän ja selitettävän muuttujan välisestä yhteydestä moderoivan muuttujan saadessa eri arvoja (ks. esim. Keith, s. 169).

Tässä esimerkissä moderaattori oli dikotominen, eli muuttuja voi saada vain arvon nolla tai yksi. Interaktiomallien tulosten tulkinta on kuitenkin samankaltaista jatkuvien moderaattoreiden tapauksessa. Myös silloin selittävän muuttujan regressiokerroin kertoo sen yhteyden selitettävään muuttujaan, kun moderaattori saa arvo nolla. Jos moderaattorin arvo kasvaa yhdellä yksiköllä, selittävän muuttujan regressiokertoimeen lisätään interaktiotermi (selittävän muuttujan regressiokerroin + interaktiotermi). Jos taas moderaattori kasvaa kahdella yksiköllä, selittävän muuttujan regressiokertoimeen lisätään kaksi kertaa interaktiotermin regressiokerroin (selittävän muuttujan regressiokerroin + interaktiotermi + interaktiotermi).

Saman logiikan mukaisesti selittävän muuttujan regressiokertoimesta vähennetään interaktiotermin kerroin, kun moderaattorin arvo laskee yhdellä yksiköllä. Myös jatkuvan moderaattorin tapauksessa moderaatiota on mahdollista havainnollistaa jakamalla aineisto osaryhmiin moderaattorin perusteella. Silloin aineisto voidaan jakaa vaikkapa ryhmiin, joissa moderaattori saa keskiarvoa pienemmän arvon tai vähintään keskiarvon suuruisen arvon. Tämän jälkeen regressiomalli ajetaan erikseen näissä ryhmissä yllä kuvatulla tavalla.

Jatkuu seuraavalle sivulle

Lisätietoja

Lähteet

Berry, William D. (1993) Understanding regression assumptions. Newbury Park: SAGE.
Keith, Timothy Z. (2015) Multiple Regression and Beyond: An Introduction to Multiple Regression and Structural Equation Modeling. New York: Routledge.

Kirjallisuus

Regressioanalyysin perusteisiin voi perehtyä muun muassa seuraavissa kirjoissa:

Alkula, Tapani & Seppo Pöntinen & Pekka Ylöstalo (1994) Sosiaalitutkimuksen kvantitatiiviset menetelmät. Juva: WSOY.
Field, Andy (2018) Discovering Statistics Using IBM SPSS Statistics (5. p.). Los Angeles: SAGE.
Jokivuori, Pertti & Risto Hietala (2007) Määrällisiä tarinoita. Monimuuttujamenetelmien käyttö ja tulkinta. Helsinki: WSOY.
Ketokivi, Mikko (2015). Tilastollinen päättely ja tieteellinen argumentointi (2. laaj. laitos). Helsinki: Gaudeamus
Metsämuuronen, Jari (2009) Tutkimuksen tekemisen perusteet ihmistieteissä (4. laitos). Helsinki: International Methelp.
Nummenmaa, Lauri (2011). Käyttäytymistieteiden tilastolliset menetelmät (3. p., uud. laitos). Helsinki: Tammi.
Tabachnick, Barbara G. & Linda S. Fidell (2013) Using Multivariate Statistics (6. p.). Harlow: Pearson.
Toivonen, Timo (1999) Empiirinen sosiaalitutkimus: filosofia ja metodologia. Porvoo: WSOY.
de Vaus, David (2014) Surveys in Social Research (6. p.). London: Routledge.

Näytä lisää

Kattavammin ja tilastotieteellisemmältä kannalta regressioanalyysia käsitellään esimerkiksi seuraavissa teoksissa:

Knoke, David & George W. Bohrnstedt & Alisa Potter Mee (2002) Statistics for Social Data Analysis (4. p.). Itasca: F.E. Peacock Publishers.
Kennedy, Peter (2008) A Guide to Econometrics (6. p.). Malden: Blackwell.
Moore, David S. & William I. Notz & Michael A. Fligner (2015) The Basic Practice of Statistics (7. p.). New York: W.H. Freeman.
Moore, David S. & George P. McCabe & Bruce A. Craig (2012) Introduction to the Practice of Statistics (7. p.). New York: W.H. Freeman.