Hypoteesien testaus

Lukuaika noin 12 min

Useimmat määrällisen analyysin menetelmät perustuvat tilastollisten hypoteesien testaukseen. Aina tätä ei ole kuitenkaan helppo huomata, koska hypoteesit ovat menetelmien käytäntöön "sisäänrakennettuja" ja niitä ei tavallisesti tuoda eksplisiittisesti esille, vaan tutkijan oletetaan ymmärtävän hypoteesien testauksen periaatteet. Tämän vuoksi hypoteesien testauksen perusperiaatteiden ja niihin liittyvien ongelmien ymmärtäminen on olennaista, jotta menetelmien antamien tulosten mielekäs tulkinta olisi mahdollinen. Tässä osiossa esitetään ensin hypoteesien testauksen ns. "oppikirjamalli". Lopussa käydään vielä lyhyesti läpi tilastolliseen hypoteesien testaukseen liittyviä ongelmia.

Hypoteesien testaus etenee seuraavien viiden vaiheen kautta. Nämä ovat 1) hypoteesien valinta, 2) sopivan tilastollisen testin valinta, 3) merkitsevyystason valinta, 4) testin suorittaminen ja 5) lopullisen päätöksen tekeminen.

Hypoteesien valinta

Tutkimusta tehdessä tutkijalla on joitakin oletuksia siitä, minkälaisia eroja tai samankaltaisuuksia perusjoukosta mitattujen muuttujien välillä löytyy. Nämä oletukset perustuvat useimmiten teoreettiselle keskustelulle tai aikaisemmassa tutkimuksessa löydetyille havainnoille. Kuvitellaan esimerkiksi, että tutkija olisi kerännyt satunnaisotoksen avulla aineiston suomalaisten ansaitsemista palkoista jollain tietyllä talouden sektorilla. Tutkija on kiinnostunut naisten ja miesten välisistä palkkaeroista ja niihin vaikuttavista syistä. Ensimmäisenä hänen kannattaa tutkia, eroavatko miesten ja naisten keskipalkat toisistaan tällä sektorilla. Merkitään, että $ \mu_n $ tarkoittaa naisten keskipalkkaa ja $ \mu_m $ miesten keskipalkkaa tutkimuksen perusjoukossa.

Tutkijan lähtöoletuksena on, että sukupuolet eroavat palkkatasoltaan toisistaan. Hypoteesin testauksen yleisenä ideana on, että tutkija muotoilee hypoteesin, joka on vastoin hänen alkuperäistä oletustaan ja sen jälkeen tutkii, voidaanko tämä hypoteesi kumota empiirisen aineiston perusteella. Tätä alkuperäisen oletuksen vastaista hypoteesia kutsutaan nimellä nollahypoteesi (null hypothesis). Nollahypoteesia on tapana merkitä H₀ $ H_0 $ .

Nollahypoteesin lisäksi tutkija tarvitsee vastahypoteesin (alternative hypothesis), joka hyväksytään, jos nollahypoteesi pystytään kumoamaan. Tätä hypoteesia merkitään H₁ $ H_1 $ .

Nyt hypoteesit voidaan merkitä formaalisti seuraavalla tavalla:

H₀:

$$ H_0: \mu_n = \mu_m $$

H₁:

$$ H_1: \mu_n \neq \mu_m $$

Toisin sanoen tutkijan nollahypoteesi on, että miesten ja naisten keskipalkat ovat samansuuruiset perusjoukossa ja vaihtoehtoisen hypoteesin mukaan ne eroavat toisistaan. Kyseessä on ns. kaksisuuntainen (two-tailed) hypoteesin testaus, koska tutkija ei tee oletusta siitä, onko miesten vai naisten keskipalkat suurempia, vaan olettaa ainoastaan, että ne eroavat toisistaan.

Vaihtoehtoinen mahdollisuus olisi ottaa lähtökohdaksi olettamus naisten keskipalkan pienemmyydestä. Tällöin olisi kyse yksisuuntaisesta (one-tailed) hypoteesin testauksesta. Tämä tilanne voidaan esittää seuraavasti:

H₀:

$$ H_0: \mu_n = \mu_m $$

H₁:

$$ H_1: \mu_n < \mu_m $$

Edellä esitetyt hypoteesit ovat vain esimerkkejä mahdollisista nolla- ja vastahypoteeseista. Sopivien hypoteesien valinta perustuu aina tutkimusongelmaan, teoriaan ja aikaisempaan tutkimukseen. Niiden ei tarvitse liittyä tutkittavien arvojen saman- tai erisuuruisuuteen, vaan testauksen periaate toimii myös muiden tilastollisten suureiden kanssa. Esimerkiksi tutkittaessa koulutuksen ja ansiotason suhdetta voi nollahypoteesi olla, että näiden tekijöiden välillä ei ole perusjoukossa korrelaatiota, ja vaihtoehtoinen hypoteesi, että niiden välillä on positiivinen korrelaatio.

Tilastollisen testin valinta

Sopivan tilastollisen testin valinta riippuu tutkimusongelmasta, muuttujien mittaustasosta, toisiinsa verrattavien ryhmien määrästä ja monesta muusta asiasta. Erilaisia testejä on olemassa suuri määrä ja niiden tarkempi käsittely ei tässä yhteydessä ole tarkoituksenmukaista, vaan pyrkimyksenä on välittää kuva testauksen yleisistä periaatteista. Kannattaa huomata, että useimmat määrällisen analyysin menetelmät sisältävät "automaattisesti" hypoteesien testausta. Esimerkiksi monen muuttujan regressioanalyysin yhteydessä testataan jokaisen selittävän muuttujan osalta, eroaako niiden regressiokerroin tilastollisesti merkitsevästi nollasta. Tätä varten tutkijan ei kuitenkaan tarvitse muotoilla jokaisen muuttujan osalta omia hypoteesejaan, vaan analyysiohjelmistot tekevät testauksen automaattisesti ja tutkijan tehtävä on kiinnittää huomiota testien antamien tulosten oikeaan tulkintaan. Vastaava tilanne on ristiintaulukoinnin tilastollisen testauksen yhteydessä. Tässä yhteydessä käytetyn ns. $x_2$-testin nollahypoteesi on, että ristiintaulukon kaksi muuttujaa ovat toisistaan riippumattomia, ja jos testitulos on suotuisa, voidaan nollahypoteesi hylätä ja todeta, että muuttujien välillä on yhteys perusjoukossa.

Merkitsevyystason valinta

Merkitsevyystason valinta määrittää todennäköisyyden sille, että tutkija hylkää nollahypoteesin, vaikka se on todellisuudessa pätevä. Kyse on siis virheellisen valinnan riskistä. Tämän takia merkitsevyystasoa kutsutaan joskus myös riskitasoksi. Tilastollisen päättelyn avulla ei voida koskaan sanoa varmuudella, että jokin hypoteesi on tosi tai epätosi, vaan kyse on aina siitä, millä todennäköisyydellä tutkija on valmis hylkäämään hypoteesin.

Yleisesti tieteellisessä tutkimuksessa käytetään 0,05 (eli 5 %:n) tai 0,01 (eli 1 %:n) riskitasoa. Jos kriteerinä käytetään 5 %:n riskitasoa, tarkoittaa tämä, että tulos on tutkimuksen perusjoukossa 95 %:n varmuudella pätevä, mutta samalla, että virheen todennäköisyys on 5 %. Tämä tarkoittaa toisin sanoen sitä, että jos perusjoukosta poimittaisiin 100 samankokoista satunnaisotosta, näistä 95:ssä nollahypoteesi hylättäisiin ja 5:ssä se jäisi voimaan. Jos riskitasona käytettäisiin 1 %:n tasoa, vain yhdessä sadasta otoksesta nollahypoteesi jäisi voimaan.

Jokaisen tilastollisen testin tuloksena saadaan ns. p-arvo, joka ilmoittaa virheellisen päätelmän todennäköisyyden. Jos p-arvo on alle 0,05, on tapana puhua tuloksesta tilastollisesti "melkein merkitsevänä". Jos se on alle 0,01, puhutaan tilastollisesti "merkitsevästä" tuloksesta ja jos se on alle 0,001, tilastollisesti "erittäin merkitsevästä". Taulukoissa on tapana merkitä "melkein merkitsevät" tulokset yhdellä tähdellä (*), "merkitsevät" tulokset kahdella (**) ja "erittäin merkitsevät" tulokset kolmella tähdellä (***).

Kannattaa muistaa, että usein käytetyt 5 %:n ja 1 %:n riskitasot ovat täysin sopimuksenvaraisia. Periaatteessa rajat voisivat olla esimerkiksi 6 % ja 2 %. Tilastotieteen teoriasta ei löydy 5 %:n ja 1 %:n riskitasoille mitään erityistä perustetta, vaan ne ovat vain vuosien saatossa muodostuneet käytännöiksi. Lisäksi on syytä muistaa, että suuret havaintojen lukumäärät vaikuttavat p-arvoon, jolloin pienetkin erot voivat näkyä tilastollisesti merkitsevinä. Tämän vuoksi on tärkeää, että tutkija kiinnittää testitulosten lisäksi aina huomiota myös tulosten sisällölliseen merkityksellisyyteen.

Testin suorittaminen

Kuten jo aiemmin todettiin, tilastolliseen hypoteesien testaukseen on valtava määrä erilaisia testejä tutkimusongelman ja muuttujien mittaustason luonteesta riippuen. Yksinkertaiset testit voidaan tehdä laskukoneen ja tilastollisten taulukoiden tai taulukkolaskentaohjelman avulla. Käytännössä on kuitenkin paras käyttää tähän tarkoitukseen tehtyjä tilastollisia tietokoneohjelmistoja, joihin kaikki tärkeimmät tilastomenetelmät on valmiiksi ohjelmoitu. Näin laskuvirheiden mahdollisuus pienenee, ja tutkija voi keskittyä tulosten oikeaan tulkintaan.

Päätös nollahypoteesin hylkäämisestä tai hyväksymisestä

Kun tilastolliset testisuureet ja niiden todennäköisyydet on laskettu, on tutkijan tehtävä päätös siitä, hylätäänkö nollahypoteesi vai ei. Puhtaasti tilastolliselta kannalta katsottuna tämä tehtävä on helppo. Jos tilastollisen testin antama tulos on pienempi kuin valittu riskitaso, hylätään nollahypoteesi ja todetaan, että vastahypoteesi sai tukea. Muutoin todetaan, että nollahypoteesia ei voitu kumota. Pelkkä tilastotieteellinen tarkastelu ei kuitenkaan sellaisenaan riitä, vaan tutkijan on lähestyttävä asiaa myös sisällöllisesti tutkimusongelman kannalta. Nollahypoteesin hylkäämiseen tai hyväksymiseen liittyy myös muita tekijöitä. Kuvitellaan esimerkki, jossa tutkija on kehittänyt johonkin vakavaan sairauteen uuden lääkkeen. Hänen tutkimustuloksensa osoittavat, että lääkettä käyttäneet testiryhmän jäsenet selviävät hengissä sairaudesta suuremmalla todennäköisyydellä kuin plaseboa nauttineet kontrolliryhmän jäsenet. Tilastollinen testi kuitenkin osoittaa, että ero on merkitsevä vain 6 %:n riskitasolla. Tässä tapauksessa tutkijan tuskin kannattaa luopua lääkkeen jatkotutkimuksista ainoastaan sen takia, että testitulosten p-arvot eivät olleet alle 5 %.

Nollahypoteesin hylkäyksen tai hyväksymisen yhteydessä on itse asiassa mahdollisuus kahteen eri virheeseen. Niin sanottu hylkäämisvirhe (type I error) tapahtuu silloin, kun nollahypoteesi hylätään, vaikka se itse asiassa on tosi. Tämän hylkäämisvirheen todennäköisyys on, kuten jo aiemmin todettiin, valittu riskitaso. Toista virhettä voidaan kutsua hyväksymisvirheeksi (type II error). Hyväksymisvirhe tapahtuu silloin, kun nollahypoteesi hyväksytään, silloin kun se on epätosi. On tärkeää ymmärtää, että hyväksymisvirheen ja hylkäämisvirheen todennäköisyydet ovat toisistaan riippuvaisia. Jos tutkija asettaa hylkäämisvirheelle erittäin matalan rajan (esimerkiksi 0,1 %) kasvaa hyväksymisvirheen riski ja päinvastoin.

Tilastollisten testien kritiikki

Yhteiskuntatieteissä hypoteesien testauksen lähestymistapaa kohtaan on usein esitetty kritiikkiä. Kritiikki voidaan jakaa ainakin kolmeen ryhmään: 1) teknisluontoiseen, 2) tieteenfilosofiseen ja 3) tutkimuksen käytäntöihin liittyvään kritiikkiin (ks. esim. Henkel 1976). Tekninen kritiikki lähtee siitä, että tilastollisten testien taustalla on tiettyjä olettamuksia, joiden pätevyys käytännön tutkimuksessa voidaan usein asettaa kyseenalaiseksi. Näistä oletuksista tärkein liittyy otoksen luonteeseen. Tilastollisen päättelyn menetelmä pätee silloin kun, aineistona käytetään aitoa satunnaisotantaa jostain perusjoukosta (ks. otantamenetelmät). Monet yhteiskuntatieteellisen tutkimuksen aineistot eivät kuitenkaan ole tiukassa merkityksessä satunnaisotoksia. Esimerkiksi postikyselyssä vastaamatta jättäneiden osuus voi olla useita kymmeniä prosentteja lähetettyjen lomakkeiden määrästä. Näin suuri kato aiheuttaa väistämättä ongelmia otoksen satunnaisuuden kannalta.

Tieteenfilosofiselta kannalta hypoteesien tilastollista testausta voi kritisoida monelta kannalta. Ehkä tärkein kritiikki kohdistuu nollahypoteesin luonteeseen. Usein hypoteesin testauksen yhteydessä oletetaan nollahypoteesina, että jonkin parametrin arvo on nolla. Tämä oletus on kuitenkin triviaali. On hyvin epätodennäköistä, että minkään parametrin arvo on todellisuudessa tasan nolla, joten nollahypoteesin hylkääminen ei käytännössä lisää tutkimusongelman kannalta tietoamme paljoakaan. Samoin aiemmin esitettyä nollahypoteesia, jonka mukaan miesten ja naisten keskipalkat ovat yhtä suuret, voidaan kritisoida samalla tavalla. Ei tutkija todellisuudessa oleta, että keskipalkat ovat sentilleen täysin samat. Sisällöllisesti mielekäs kysymys on, kuinka paljon keskipalkat eroavat toisistaan ja mihin suuntaan.

Yhteiskuntatieteellisen tutkimuksen käytännöistä lähtevä kritiikki voidaan jakaa kahteen luokkaan. Ensimmäinen liittyy tilastollisten testien väärään käyttötapaan. Usein tutkijat eivät täysin ymmärrä testauksen luonnetta, osaa valita oikeaa testiä tai osaa tulkita niiden tuloksia. Tähän kritiikkiin on tietysti ratkaisuna tutkijoiden parempi koulutus ja tutkimusten kriittinen arviointi menetelmien käytön osalta. Toinen tutkimuksen käytäntöihin liittyvä kritiikki liittyy tilastollisten testien "ritualistiseen" käyttöön. Tämä tarkoittaa liiallista keskittymistä pelkästään tilastollisten testien tulokseen sisällöllisten tulkintojen kustannuksella. P-arvon käytöstä ja 0,05:n riskitason orjallisesta noudattamisesta yhteiskuntatieteissä ja monilla muilla aloilla on kirjoiteltu tilastotieteellisissä julkaisuissa runsaasti, ja esimerkiksi American Statistical Association on julkaissut erillisen kannanoton p-arvon käytöstä (Wasserstein & Lazar 2016). Tilastollisten testien pitäisikin olla lähtökohta tulosten tulkinnalle, ei päätepiste. Useimmiten tutkijaa ei kiinnosta pelkästään se, eroavatko kaksi ryhmää toisistaan jonkun tekijän suhteen, vaan se kuinka paljon ryhmät eroavat ja mikä merkitys tällä eron suuruudella on tutkimusongelman kannalta.

Tämä tilastollisten testien ja hypoteesin testaamisen kritiikki on tärkeää ottaa huomioon. Vasta-argumentti esitetylle kritiikille korostaa pragmaattista lähestymistapaa. Sen mukaan tilastolliseen testaukseen liittyy ongelmia, mutta se ei tarkoita, että testauksesta täytyisi luopua kokonaan, vaan että ongelmat on otettava huomioon tutkimusprosessissa. Pragmaattisen kannan mukaan tilastollisilla testeillä saadaan niihin liittyvistä ongelmista huolimatta informaatiota, joka on otettava huomioon tulosten tulkinnassa. Niiden avulla pystytään esimerkiksi arvioimaan (ainakin suunnilleen), kuinka todennäköisesti otoksessa havaitut erovaisuudet ovat sattumasta johtuvia, eivätkä näin ollen kuvaa mitään systemaattista yhteyttä tutkittavien tekijöiden välillä. Tämän vuoksi tutkimuksissa on hyvä raportoida testien tulokset, koska silloin ainakin lukija voi käyttää tuloksia hyväkseen arvioidessaan tulosten merkityksellisyyttä.

Lisätietoja

Lähteet

Gigerenzer, Gerd (2004) Mindless Statistics. Journal of Socio-Economics 33, 587–606.
Henkel, Ramon E. (1976) Tests of Significance. Beverly Hills: SAGE.
Wasserstein, Ronald L. & Nicole A. Lazar (2016) The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician 70, 129–133.

Kirjallisuus

Hypoteesien päättelyn perusteita voi opiskella esimerkiksi seuraavista kirjoista:

Heikkilä, Tarja (2014) Tilastollinen tutkimus (9. uud. p.). Helsinki: Edita.
Ketokivi, Mikko (2015) Tilastollinen päättely ja tieteellinen argumentointi (2. laaj. laitos). Helsinki: Gaudeamus.
Nummenmaa, Lauri (2011) Käyttäytymistieteiden tilastolliset menetelmät (3. p., uud. laitos). Helsinki: Tammi.

Kanjin teos on hyvä käsikirja erilaisiin tilastollisiin testeihin. Se ei kuitenkaan välttämättä sovi aloittelijan tarpeisiin:

Kanji, Gopal K. (1999) 100 Statistical Tests. London: SAGE.

Keskustelua tilastollisista testeistä ja p-arvon käytöstä löytyy mm. seuraavista:

Kennedy-Schaffer, Lee (2019) Before p<0.05 to Beyond p>0.05: Using History to Contextualize p-Values and Significance Testing. The American Statistician 73, 82–90.
Wasserstein, Ronald L. & Allen L. Schirm & Nicole A. Lazar (2019) Moving to a World Beyond “p<0.05”. The American Statistician 73, 1–19.

Videoaineisto Tietoarkiston YouTube-kanavalla

Saari, Tiina (2018) Keskiarvovertailu: T-testi (Avautuu uuteen välilehteen) . Ohjevideo T-testin käytöstä keskiarvovertailussa SPSS-ohjelmistolla European Social Survey 2012 -aineistoa käyttäen. Tampereen yliopisto / MOTV.

Näytä lisää

Verkosta lisätietoa tilastollisesta päättelystä löytyy mm. Hyperstat Online -palvelun kohdasta "The Logic of Hypothesis Testing" (Avautuu uuteen välilehteen) .

Toinen hyvä verkkoresurssi on Valerie J. Eastonin ja John H. McCollin "Statistics Glossary (Avautuu uuteen välilehteen) " ja sen alakohta " Hypothesis Testing (Avautuu uuteen välilehteen) "