Regressioanalyysin oletukset

Lukuaika noin 4 min

Markus Kaakinen & Noora Ellonen (viittausohje)

Tämä on kolmas osa regressioanalyysista kertovassa luvusta ja pääset alla olevasta listasta siirtymään suoraan muihin luvun osiin.

Lineaarinen regressioanalyysi perustuu joukkoon oletuksia, joiden toteutuminen on edellytyksenä tulosten luotettavuudelle. Toisaalta lineaarinen regressio on verrattain vakaa menetelmä silloinkin, kun oletukset eivät kaikilta osin täyty. Analyysin tulokseen voivat vaikuttaa myös sellaiset tekijät, jotka eivät tarkasti ottaen liity regressioanalyysin odotuksiin. Esimerkki tällaisesta seikasta ovat aineiston poikkeavat havainnot. Pelkkien tulosten raportoimisen sijaan tutkijan kannattaakin myös arvioida sitä, kuinka hyvin lineaarisen regression oletukset toteutuvat, ja onko aineistossa mahdollisesti esimerkiksi tuloksiin vaikuttavia poikkeavia havaintoja. Seuraavaksi tarkastelemme regressiomallien oletuksia ja niistä poikkeamisen mahdollisia vaikutuksia tulosten tulkinnan ja luotettavuuden kannalta. Lopuksi esittelemme tapoja, joilla regressio-oletuksia ja poikkeavia havaintoja voidaan arvioida ja ottaa huomioon analyyseissa.

Lineaarisen regressioanalyysin oletukset Ankkurilinkki ikoni

Lineaarinen regressiomalli perustuu joukkoon oletuksia, joiden täyttyessä analyysin tulokset ovat luotettavia. Poikkeaminen oletuksista taas voi vääristää mallin kertoimia tai niihin liittyvää tilastollista päättelyä (joissain tapauksissa kumpaakin). Tutkimuksen todellisuudessa regressioanalyysin oletuksen tuskin koskaan täysin täyttyvät. Regressioanalyysi kestääkin jonkin verran poikkeamia oletuksista menettämättä luotettavuuttaan etenkin, jos aineistossa on paljon havaintoja. Poikkeamat oletuksista on tästä huolimatta syytä tiedostaa. Oletusten tarkastelua ja poikkeamien huomioimista tarkastellaan tarkemmin seuraavalla sivulla.

Ensinnäkin lineaarinen regressioanalyysi olettaa, että sen avulla mallinnettavat yhteydet ovat luonteeltaan lineaarisia. Selittävien muuttujien yhteys selitettävään muuttujaan täytyy siis olla kuvattavissa lineaarisen yhtälön (suoran) avulla. Jos yhteys ei ole lineaarinen vaan vaikkapa eksponentiaalinen, ei lineaarinen regressioanalyysi anna totuuden mukaista kuvaa muuttujien välisistä yhteyksistä. Lineaarista regressioanalyysia voidaan käyttää myös epälineaaristen yhteyksien mallintamiseen. Regressioanalyysiin voidaan esimerkiksi sisällyttää selittävän muuttujan lisäksi sen toiseen potenssiin korotettu termi. Näin selittävän muuttujan ja selitettävän muuttujan välistä voidaan analysoida suoran lineaarisen yhteyden sijaan toisen asteen polynomifunktion käyrän avulla (paraabeli).

Tämän lisäksi lineaarisella regressioanalyysilla on myös muita oletuksia (Berry, 1993, s. 12):

Oletus 1: Kaikki selittävät muuttujat ovat vähintään intervalliasteikollisia tai dummy-muuttujia, ja selitettävä muuttuja on vähintään intervalliasteikollinen, jatkuva ja vaihteluväliltään rajoittamaton. Ihmistieteissä poiketaan kuitenkin yleisesti esimerkiksi selitettävää muuttujaa koskevasta oletuksesta. Selitettävä muuttuja on esimerkiksi usein diskreetti jatkuvan sijaan ja sen vaihteluväli on rajattu. Olennaista on, että muuttuja on vähintään välimatka-asteikollinen ja se voi saada useampia eri arvoja. Muuttujissa on lisäksi lähes aina mittavirhettä. Mittavirhe vaikuttaa jossain määrin regressiokertoimiin etenkin, jos se ei ole satunnaista.

Oletus 2: Yhdenkään selittävän muuttujan varianssi ei ole nolla (eli muuttujien arvot vaihtelevat). Muuttujien arvoissa täytyy siis olla vaihtelua.

Oletus 3: Selittävien muuttujien välillä ei ole täydellistä multikollineaarisuutta. Tämä tarkoittaa sitä, että mallissa olevat vastemuuttujat eivät ole täysin kuvattavissa toistensa lineaarisena funktiona. Oletus koskee täydellistä multikollineaarisuutta, mutta myös tätä vähäisempi multikollineaarisuus voi olla ongelma analyysissa. Selittävien muuttujien voimakas keskinäinen korrelaatio nostattaa niiden keskivirheitä ja näin vaikeuttaa merkitsevien tulosten havaitsemista. Toisiinsa vahvasti yhteydessä olevien selittävien muuttujien tuominen malliin siis heikentää tilastollisen päättelyn luotettavuutta.

Oletus 4: Selittävien muuttujien joukon kaikilla mahdollisilla arvoilla virhetermin keskiarvo on nolla. Havaittujen arvojen pitäisi siis sijoittua tasaisesti regressiomallin ennustamien arvojen ympärille (keskimäärin ennustettujen arvojen kohdalla). Yleinen syy virhetermin keskiarvon poikkeamiselle nollasta on, että estimoidut yhteydet eivät ole pohjimmiltaan lineaarisia (ks. lineaarisuusoletus yllä). Ongelma voi johtua myös esimerkiksi siitä, että mallista puuttuu jokin olennainen muuttuja (ks. Oletus 5) tai muuttujissa on systemaattista mittavirhettä. Virhetermin nollasta poikkeava keskiarvo voi vääristää regressiomallin kertoimia, joten sen tunnistaminen ja huomioiminen on tärkeää.

Oletus 5: Yksikään selittävä muuttuja ei korreloi virhetermin kanssa. Tämä oletus tarkoittaa sitä, ettei mallista puutu muuttujia, jotka korreloivat merkittävästi sekä selittäjien että selitettävän muuttujan kanssa. Tällaisten muuttujien puuttuminen mallista voi vääristää sekä mallin kertoimia että niihin liittyvää tilastollista päättelyä. Myös tästä syystä regressioanalyysi edellyttää harkintaa ja tutkimuksen aihetta koskevan aikaisemman tutkimuksen tuntemista.

Oletus 6: Virhetermin varianssi on sama kaikilla selitettävän muuttujan ennustetuilla arvoilla. Tämä oletus liittyy virhetermien homoskedastisuuteen. Käytännössä tätä oletusta voidaan arvioida katsomalla, ovatko mallin residuaalit jakautuneet tasaisesti. Jos residuaalien varianssi esimerkiksi kasvaa selitettävän muuttujan ennustettujen arvojen kasvaessa, virhetermi on heteroskedastinen. Heteroskedastisuus ei vaikuta regressiomallin kertoimiin, mutta se vääristää tilastollista päättelyä.

Oletus 7: Havainnot ovat toisistaan riippumattomia, eli niiden virhetermit eivät korreloi keskenään. Havaintojen autokorrelaatiota esiintyy esimerkiksi pitkittäisaineistoissa, joissa saman vastaajan edelliset vastaukset muistuttavat tulevia vastauksia. Oletus ei myöskään täyty, jos aineistossa on havaintoryhmiä, joiden saamat arvot ovat jostain muusta syystä lähellä toisiaan. Esimerkiksi samalta luokalta poimittujen oppilaiden vastaukset luultavasti muistuttavat enemmän toisiaan kuin muulta poimittujen oppilaiden vastaukset. Jos riippumattomuuden oletus ei täyty, voi sillä olla monenlaisia vaikutuksia regressiomalliin. Vaikutuksista todennäköisin on se, että estimoidut keskivirheet ovat todellista pienempiä, mikä vääristää tilastollista päättelyä. Jos havaintojen riippuvuutta aiheuttava tekijä aineistossa tunnetaan, tulee tällaisia aineistoja analysoida niihin soveltuvilla menetelmillä kuten regressioanalyysiin perustuvilla monitasomalleilla (ks. Monitasomallit). Erilaisia tapoja analysoida aikariippuvaisia pitkittäis- tai aikasarja-aineistoja käsitellään myös esimerkiksi Ostromin kirjassa sekä ekonometrian oppikirjoissa (ks. lisätiedot sivun lopusta).

Oletus 8 Regressioyhtälön virhetermi on normaalisti jakautunut. Virhetermin jakauma on olennainen tilastollisen päättelyn kannalta, mutta sen merkitys on vähäisempi isoilla aineistoilla.

Oletuksia 1–7 kutsutaan Gaus-Markovin oletuksiksi. Jos nämä oletukset täyttyvät, pienimmän neliösumman menetelmällä saadut lineaarisen regressioanalyysin kertoimet ovat vääristymättömiä ja tehokkaita ja niistä voidaan tehdä asiaankuuluvasti tilastollisia päätelmiä (kuten laskea p-arvoja tai luottamusvälejä). Oletuksista poikkeaminen voidaan kuitenkin myös ottaa analyyseissa huomioon.