Regressioanalyysi - SPSS-harjoitus 2

Jos olet ensimmäistä kertaa aloittamassa SPSS-harjoitusta, on ennen varsinaisen harjoituksen tekemistä syytä tutustua opiskeluohjeisiin.

Tässä harjoituksessa käytetään Maailmanpankin -tilastoista koottua aineistoa.

Havaintoaineiston hakemisesta SPSS-ohjelmaan on erilliset ohjeet.

Tässä harjoituksessa tarkastellaan moderaatioita regressiomallissa eli standardoidaan mallin jatkuvat muuttujat ja luodaan interaktiomuuttuja ennen regressioanalyysin toteuttamista. Lisäksi harjoitellaan regressiomallin arviointia. Harjoituksessa käytetään samoja muuttujia kuin harjoituksessa 1 ja käsikirjan luvussa Moderaation tarkastelu regressioanalyysissa.

Standardointi ja interaktiotermin luominen Ankkurilinkki ikoni

Regressiomallin jatkuvat muuttujat (sekä selittävät että selitettävät) yleensä standardoidaan tulosten tulkinnan helpottamiseksi ja interaktiotermin muodostamiseksi.

Standardointi onnistuu SPSS:llä valitsemalla Analyze – Descriptive Statistics – Descriptive. Valitse mallin jatkuvat muuttujat Variable(s) -laatikkoon, lisää valinta kohtaan "Save standardized values as variables" ja klikkaa OK. Standardoidut muuttujat ilmestyvät aineiston muuttujaluettelon loppuun.

Standardointi

Seuraavaksi luodaan interaktiotermi kaksiluokkaisesta HI-virusmuuttujasta (joka luotiin harjoituksessa 1) ja standardoidusta syntyvyysmuuttujasta. Valitaan Transform – Compute Variable ja kerrotaan dikotominen HI_virus -muuttuja standardoidulla jatkuvalla syntyvyysmuuttujalla. Klikkaamalla OK interaktiotermi lasketaan muuttujaluettelon loppuun.

Interaktiotermin laskeminen

Nyt regressioanalyysi voidaan ajaa standardoiduilla muuttujilla ja interaktiotermillä. Mukaan otetaan vielä dikotomisen HI-virus -muuttujan lisäksi BKTL-muuttujan kolme dummy-muuttujaa (alempi keskitaso, ylempi keskitaso ja korkea).

Regressioanalyysi standardoiduilla muuttujilla ja interaktiotermillä

Statistics-valikosta voi jälleen valita Confidence intervals. Valitaan myös Collinearity diagnostics, joka lisää tuloksiin multikollineaarisuuden tarkasteluun soveltuvan toleranssin ja VIF-kertoimen.

Regressioanalyysi: Statistics

Kun valinnat on tehty, paina Continue ja OK, jolloin regressioanalyysin tulokset tulostuvat Output-ikkunaan.

Regressioanalyysin tulokset

Standardoinnin jälkeen mallissa tulee tarkastella standardoimatonta (unstandardized) regressiokerrointa. Tuloksista havaitaan, että interaktiotermi on tilastollisesti merkitsevä (p-arvo = 0,02), eli moderaatio on tilastollisesti merkitsevä. Syntyvyyden kasvu yhdellä keskihajonnalla vähentää kuolleisuutta 1,18 keskihajonnalla, kun maassa on vähän HI-virustapauksia. Syntyvyys on yhteydessä matalampaan kuolleisuuteen erityisesti silloin, kun maassa esiintyy vähän HI-virustapauksia. Tämän regressioanalyysin tuloksia tulkitaan tarkemmin regressioanalyysin moderaatiota käsittelevän luvun osiossa Standardointi.

Moderaatiota voidaan havainnollistaa jakamalla aineisto moderaattorimuuttujan mukaisesti ryhmiin ja toteuttamalla regressioanalyysi erikseen näissä ryhmissä, kuten regressioanalyysin moderaatiota käsittelevässä luvussa (ks. taulukko 4). Tällöin aineisto jaetaan Split File -toiminnolla (Data - Split File) ja regressioanalyysi ajetaan uudelleen (ilman interaktiotermiä ja moderaattorimuuttujaa).

Aineiston jakaminen moderaattorimuuttujan mukaan

Regressiomallin arviointi Ankkurilinkki ikoni

Multikollineaarisuutta voidaan tarkastella katsomalla muuttujien VIF-kertoimien arvoja. Edellisessä tulotaulukossa HI-virusmuuttujalla ja interaktiomuuttujalla on melko korkeat VIF-kertoimet, sillä moderaatiomalleissa alkuperäiset muuttujat korreloivat voimakkaasti interaktiotermin kanssa. Syntyvyyden kohdalla (VIF-kerroin = 6,83) korrelaatio muiden muuttujien välillä on myös melko korkea. Siksi voisi olla syytä selvittää tarkemmin, minkä muuttujien kanssa syntyvyys korreloi.

Regressiomallin arviointiin soveltuvia kuvioita voi luoda regressioanalyysin toteuttamisen yhteydessä Plots ja Save -valikoista. Siirrä Plots-valikossa ZRESID kenttään Y ja ZPRED kenttään X. Valitse kohdasta 'Standardized Residual Plots' Histogram. Näin luodaan regressiomallin residuaalien jakauman sirontakuvio ja histogrammi (esimerkin kuviot on luotu harjoituksessa 1 käytetyillä standardoimattomilla muuttujilla).

Regressioanalyysi - kuviot

Klikkaa Continue ja valitse Save-valikko. Valitse sieltä Residuals-kohdasta Standardized. Tämä tallentaa aineistoon standardoidut residuaalit omana muuttujanaan, kun regressioanalyysi ajetaan.

Regressioanalyysi - standardoidut residuaalit

Tästä residuaalimuuttujasta voidaan regressioanalyysin ajamisen jälkeen luoda kvantiilikuvio valitsemalla Analyze – Descriptive Statistics – QQ Plots, siirtämällä muuttuja 'Standardized Residual' Variables-kenttään ja painamalla OK.

Standardoitujen residuaalien kvantiilikuvion luominen

Näillä kuvioilla voidaan arvioida muuttujien välisen yhteyden lineaarisuutta ja homoskedastisuutta (sirontakuvio) ja residuaalien normaalijakautuneisuutta (histogrammi ja kvantiilikuvio).

Sirontakuvio mallin ennustamien arvojen ja mallin residuaalien välisestä yhteydestä

Sirontakuvion perusteella ei ilmene selkeää epälineaarista yhteyttä, mutta residuaalien jakauma (y-akseli) ei näytä tasaiselta eri ennustearvoilla (x-akseli). Residuaalien hajonta näyttäisi olevan isointa nollaa lähellä olevien ennustettujen arvojen kohdalla eli residuaalien jakauma on luultavasti heteroskedastinen.

Regressiomallin standardoidut residuaalit histogrammissa
Kvantiilikuvio residuaalien jakautumisesta

Histogrammin ja kvantiilikuvion perusteella residuaalit eivät näytä noudattavan normaalijakaumaa. Histogrammissa jakauman pitäisi noudattaa jotakuinkin normaalijakauman käyrää ja kvantiilikuviossa pisteiden tulisi ryhmittyä kuvion poikki kulkevalle viivalle. Kvantiilikuviosta nähdään, että residuaalien jakauma poikkeaa normaalijakaumasta etenkin jakauman ylä- ja alakvantiileissa. Tässä tapauksessa voisi siis olla järkevää käyttää väljempiin oletuksiin perustuvia menetelmiä. (Ks. tarkemmin kuvioiden tulkinnasta luvusta Regressiomallin arviointi).