Otos ja otantamenetelmät

Lukuaika noin 8 min

Määrällinen yhteiskuntatieteellinen tutkimus pyrkii kuvailemaan ja selittämään tutkimuksen kohteena olevia ilmiöitä järjestelmällisten havaintojen avulla. Empiirisen havainnoinnin eli mittauksen kohteita voidaan kutsua havaintoyksiköiksi (unit of observation). Havaintoyksikkö määräytyy tutkimusongelman perusteella. Esimerkiksi jos tutkimuksella halutaan tietoa suomalaisen aikuisväestön mielipiteistä, havaintoyksikköinä ovat siihen kuuluvat henkilöt. Jos tutkija haluaa tietoa suomalaisista kunnista, havaintoyksikköinä ovat Suomen kunnat jne.

Havaintoyksikön valinnan jälkeen tutkijan tulee ratkaista, kuinka monesta havaintoyksiköstä hän kerää tietoa. Kaikkien havaintoyksiköiden muodostamaa kokonaisuutta kutsutaan tutkimuksen perusjoukoksi (population). Varmin tapa saada määrällistä tietoa tutkimuskohteesta on mitata halutut ominaisuudet jokaisesta tutkimuksen perusjoukkoon kuuluvasta havaintoyksiköstä. Käytännön syistä tämä on kuitenkin usein mahdotonta. Esimerkiksi kaikkien suomalaisten haastatteleminen olisi lähes mahdoton tehtävä muun muassa sen vaatimien resurssien takia. Tämän vuoksi tutkimuksessa useimmiten keskitytään perusjoukkoa pienemmän, satunnaisesti valitun havaintoyksikköjoukon eli otoksen tutkimiseen. Tilastollisen päättelyn avulla otoksesta saatuja tietoja voidaan käyttää hyväksi tehtäessä päätelmiä koko perusjoukosta. Tilastollisten päätelmien pätevyys riippuu muun muassa siitä, kuinka hyvin otoksen valinta eli otanta on suoritettu. Tämän vuoksi on tärkeää ymmärtää otannan perusperiaatteet ja erilaisten otantamenetelmien luonne.

Otos ja näyte Ankkurilinkki ikoni

Tutkimuksen kohteena olevat perusjoukkoa pienemmät havaintoyksikköjoukot voidaan jakaa otoksiin ja näytteisiin (probability sample ja non-probability sample). Otos on sellainen havaintoyksikköjen joukko, johon kaikilla havaintoyksiköillä on tiedossa oleva nollaa suurempi todennäköisyys tulla valituksi. Näytteessä havaintoyksikköjen valinta on usein harkinnanvarainen, eikä havaintoyksikköjen todennäköisyyttä tulla valituksi tiedetä. Yleensä määrällisessä tutkimuksessa suositaan otosaineistoja, koska niiden avulla pystytään tekemään paremmin tilastollisia yleistyksiä perusjoukkoon.

Tarkasti perusjoukon ominaisuuksia kuvastavaa otosta kutsutaan edustavaksi otokseksi (representative sample). Edustavan otoksen saamiseksi täytyy varmistaa, että mitään havaintoyksikköjen ryhmää ei systemaattisesti suosita tai suljeta otoksen ulkopuolelle. Jos käyntikysely tehtäisiin niin, että haastattelijat pyrkisivät tavoittamaan haastateltavat kotiosoitteista vain keskellä päivää, ei tuloksena olisi edustava otos, koska työssäkäyvien osuus otoksesta olisi huomattavasti pienempi kuin heidän osuutensa perusjoukosta. Varmin tapa saada otoksesta edustava on käyttää satunnaisuutta hyväksi otosta valittaessa. Käytännössä tämä tarkoittaa sitä, että otokseen valikoidut havaintoyksiköt "arvotaan" satunnaisesti.

Joissakin tapauksissa satunnaisotoksen saaminen perusjoukosta on mahdotonta. Varsin usein tutkijalla ei ole käytettävissään tietoja kaikista havaintoyksiköistä, jolloin niiden satunnainen valinta koko perusjoukosta on mahdotonta. Tällöin tutkijan on tyydyttävä harkinnanvaraiseen näytteeseen. Tällaiseen tilanteeseen joudutaan usein esimerkiksi sosiologian alalla tutkittaessa erilaisten alakulttuurien jäseniä kuten huumeiden käyttäjiä tai prostituoituja. Huumeiden käyttäjistä ei ole saatavilla minkäänlaista listaa, josta otanta voitaisiin suorittaa. Itse asiassa edes perusjoukon koosta ei ole kovinkaan tarkkoja tietoja. Tässä tapauksessa tutkija saattaa aloittaa tutkimuksensa muutamasta tuntemastaan huumeiden käyttäjästä, haastatella heitä ja sen jälkeen pyytää heiltä vinkkejä uusista haastateltavista. Toinen vaihtoehto voisi olla huumevieroitusklinikan asiakkaiden haastattelu. Kumpaakin menetelmää käyttäen tuloksena olisi näyte, koska valittujen havaintoyksiköiden edustavuudesta suhteessa perusjoukkoon ei olisi mitään taetta.

Yksinkertainen satunnaisotanta Ankkurilinkki ikoni

Perustavanlaatuinen otantamenetelmä on ns. yksinkertainen satunnaisotanta (simple random sampling). Siinä kaikilla perusjoukon havaintoyksiköillä on samansuuruinen todennäköisyys tulla valituksi otokseen.

Käytännössä yksikertainen satunnaisotanta etenee vaiheittain. Ensimmäisessä vaiheessa tutkijalla täytyy olla käytettävänään lista kaikista perusjoukon havaintoyksiköistä (eli ns. otantakehikko). Oletetaan, että tutkija haluaa tehdä otokseen perustuvan tutkimuksen Suomen kuntien taloudellisesta tilasta vuonna 2020 ja hänellä on aakkosellinen lista kaikista Suomen kunnista. Vuonna 2020 Suomessa oli 310 kuntaa. Otannan toteuttamisen helpottamiseksi tutkija numeroi havaintoyksikkönsä alkaen numerosta yksi, jonka saa Akaa. Sen jälkeen Alajärvi saa numeron kaksi, Alavieska numeron kolme jne. Aakkosissa viimeinen kunta (Äänekoski) saa numeron 310. Kannattaa huomata, että näitä numeroita ei pidä sekoittaa yleisesti käytettyyn viralliseen kuntanumerointiin, jota kannattaa käyttää kuntien tunnuksena aineistossa.

Seuraavaksi tutkijan täytyy päättää haluamansa otoksen koko. Tätä varten on olemassa erilaisia sääntöjä, jotka liittyvät siihen, kuinka tarkasti otoksesta saadut tulokset voidaan yleistää perusjoukkoa koskevaksi. Suomalaisissa valtakunnallisissa tutkimuksissa käytetään yleensä vähintään tuhannen hengen otoksia, jolloin tulosten luottamusväli on muutaman prosenttiyksikön luokkaa (ks. tarkemmin tilastollinen päättely). Yleisesti ottaen otoskoko on suhteutettava tutkimustarpeisiin ja käytettävissä oleviin resursseihin. Jos perusjoukko on pieni, kannattaa tehdä niin sanottu kokonaistutkimus eli kerätä tiedot kaikista perusjoukon jäsenistä.

Oletetaan, että kuntatutkija haluaa otokseensa 50 kuntaa. Otoksen valintaa varten tutkija tarvitsee 50 satunnaislukua välillä 1–310. Nämä satunnaisluvut voidaan poimia esimerkiksi tilastollisten taulukkokirjojen satunnaislukutaulukoista. Kätevä tapa on aloittaa satunnaisesti jostain taulukon osasta ja katsoa, minkä luvun kolme seuraavaa taulukon numeroa muodostavat. Jos tämä luku on välillä 001–310, kirjoitetaan se muistiin ja siirrytään seuraavaan kolmen satunnaisluvun muodostamaan lukuun. Jos luku on suurempi kuin 310, siirrytään suoraan seuraavaan lukuun. Tätä prosessia toistetaan, kunnes tutkijalla on lista 50 satunnaisesta luvusta väliltä 1–310. Satunnaislukujen valinnassa voidaan käyttää hyväksi myös tarkoitukseen soveltuvia tietokoneohjelmia. Otoksen muodostamisen lopuksi kuntalistasta valitaan 50 satunnaislukujen osoittamaa kuntaa, jotka näin muodostavat tutkimuksen otoksen.

Yksinkertainen satunnaisotos on periaatteiltaan helppo ymmärtää ja on usein myös helppo toteuttaa. Monissa tapauksissa ei kuitenkaan ole helppo saada listaa kaikista perusjoukon havaintoyksiköistä, jolloin menetelmän käyttö on mahdotonta. Kyselytutkimuksissa perusjoukko on usein suuri ja laajalle alueelle hajaantunut. Näin on esimerkiksi tilanteessa, jossa tutkitaan henkilökohtaisten haastattelujen avulla suomalaisten kulutustottumuksia. Jos haastateltavien valinta perustuisi yksinkertaiseen satunnaisotantaan, henkilökohtaisten haastattelujen tekeminen vaatisi suuria määriä resursseja, koska haastattelijat joutuisivat matkustamaan ympäri Suomea satunnaisotokseen valikoituneiden henkilöiden asuinpaikkojen mukaan. Tällaisissa tutkimustilanteissa käytetäänkin usein muunlaisia otantamenetelmiä, esimerkiksi ryväsotantaa.

Systemaattinen satunnaisotanta Ankkurilinkki ikoni

Systemaattinen eli tasavälinen otanta (systematic sample) on tavallaan pelkistetty versio yksinkertaisesta satunnaisotannasta. Myös systemaattista otantaa varten tutkija tarvitsee listan perusjoukon havaintoyksiköistä. Poimintavälin määrittelemiseksi on laskettava otoksen suhteellinen koko perusjoukosta. Jos esimerkiksi oletetaan, että perusjoukkoon kuuluu 500 havaintoyksikköä ja otoskoko on 100, saadaan suhteelliseksi otoskooksi 1/5 (=100/500). Näin ollen havaintoyksikkölistasta poimitaan joka viides havainto otokseen.

Ennen otoksen poiminnan aloittamista täytyy päättää, mistä kohdasta havaintoyksikköjen listaa otoksen valinta aloitetaan. Tässä voidaan käyttää hyväksi satunnaislukutaulukoita. Systemaattinen otanta etenee tämän jälkeen niin, että listasta poimitaan otokseen joka viides havaintoyksikkö aloittaen satunnaisesti valitusta lähtökohdasta. Jos lista loppuu ennen kuin havaintoyksikköjä on saatu poimittua tarpeellinen määrä, jatketaan prosessia taulukon alusta.

Systemaattinen satunnaisotanta on teknisesti erittäin helppo toteuttaa, mutta siihen liittyvät samat ongelmat kuin yksinkertaiseen satunnaisotantaan. Tämän lisäksi ongelmia aiheutuu, jos havaintoyksikkölista noudattaa jotain säännöllistä jaksollisuutta. Jos esimerkiksi tiedot perusjoukosta koostuvat pariskunnista ja poimintaintervalli on parillinen luku, seurauksena voi olla, että otokseen saattaisi valikoitua ainoastaan joko miehiä tai naisia.

Ositettu otanta Ankkurilinkki ikoni

Ositetun otannan (stratified sampling) avulla pyritään varmistamaan, että otos on mahdollisimman edustava tutkimuksen kannalta merkittävien ryhmien osalta. Edustavassa otoksessa tärkeät ryhmät ovat edustettuina otoksessa samassa suhteessa kuin perusjoukossa. Joskus jokin ryhmä voi olla niin pieni, että yksinkertainen satunnaisotanta ei pysty varmistamaan, että ryhmän edustus toteutuisi otoksessa. Esimerkkinä voidaan käyttää jo edellä mainittua kuntatutkijaa, joka haluaa tutkia suomalaisia kuntia otoksen perusteella. Tutkijaa kiinnostaa erityisesti asukasluvultaan suurten kaupunkikuntien ja asukasluvultaan pienten maalaiskuntien erot ja hän haluaa varmistaa, että kaupunkikuntien osuus otoksessa on yhtä suuri kuin niiden osuus kaikkien kuntien joukosta. Suhteellisesti oikean kokoisen edustuksen otoksessa voi varmistaa käyttämällä ositettua otantaa.

Ositetussa otannassa käytetään hyväksi etukäteistietoja perusjoukon jakautumisesta ryhmiin. Esimerkiksi vuonna 2020 Suomessa oli Tilastokeskuksen luokittelun mukaan 58 kaupunkimaista kuntaa. Suhteellisesti näitä kaupunkikuntia oli siis noin 19 prosenttia perusjoukosta. Koska tutkija haluaa varmistaa, että kuntaotokseen sisältyy yhtä suuri osuus kaupunkimaisia kuntia kuin muita kuntia, hän jakaa ensin kunnat näihin kahteen ryhmään. Oletetaan lisäksi, että hän haluaa otokseensa yhteensä 100 kuntaa. Varmistaakseen erityyppisten kuntien edustavuuden hän poimii otokseen 19 kuntaa kaupunkikuntalistalta ja 81 kuntaa maalaiskuntalistalta. Tämä menetelmä varmistaa, että lopullisessa otoksessa kaupunkimaisten ja muiden kuntien suhteellinen osuus on sama kuin perusjoukossa. Yksittäisten kuntien poiminta kahdelta listalta voidaan tehdä esimerkiksi käyttäen yksikertaista satunnaisotantaa.

Edellinen esimerkki ositetusta otannasta on hyvin yksinkertainen. Käytännössä luokittelevia muuttujia voi olla useita, jolloin perusjoukko täytyy jakaa useampaan ryhmään ennen otannan suorittamista. Kuntatutkija voisi esimerkiksi haluta, että otoksessa toteutuu myös kuntien maantieteellinen jakauma edustavasti. Tämä varmistuu jakamalla kunnat kuntamuodon lisäksi läänien mukaan ja poimimalla näistä ryhmistä oikea määrä kaupunkimaisia ja muita kuntia.

Ositetun otannan käyttöön suurissa kyselytutkimuksissa liittyy samoja ongelma kuin yksinkertaiseen ja systemaattiseen satunnaisotantaan. Otokseen valikoituneet vastaajat voivat olla levittäytyneinä suurella maantieteellisellä alueella ja näin heidän haastattelemisensa vaatii paljon matkustamista ja siihen liittyviä kuluja.

Ryväsotanta Ankkurilinkki ikoni

Ryväsotantaa (cluster sampling) käytetään yleensä suuria haastattelututkimuksia tehtäessä. Tavoitteena on vähentää tietojen keruun aiheuttamia kustannuksia samalla varmistaen, että otos on kuitenkin mahdollisimman edustava. Ryväsotantaa voidaan hyödyntää myös silloin, kun tutkijalla ei ole käytettävissään kattavaa listaa kaikista havaintoyksiköistä.

Ryväsotanta koostuu useasta eri otoksesta. Ajatuksena on, että ensin tehdään otanta havaintoyksikköjä suuremmista kokonaisuuksista, minkä jälkeen valitaan näistä kokonaisuuksista varsinaiseen otokseen tulevat havaintoyksiköt. Oletetaan, että tutkimustehtävänä on selvittää sairaalapotilaiden tyytyväisyyttä heidän saamaansa hoitoon. Kaikilla sairaaloilla on omat potilasrekisterit, mutta tutkijalla ei ole käytettävissään kattavaa tietoa kaikista maan potilaista. Hänellä on kuitenkin apunaan lista kaikista Suomen sairaaloista.

Ryväsotanta etenee niin, että ensin tutkija ottaa haluamansa kokoisen otoksen sairaaloista. Tässä vaiheessa voidaan käyttää muita edellä esitettyjä otantamenetelmiä, esimerkiksi yksinkertaista satunnaisotantaa. Tämän jälkeen tutkija voi pyytää valituista sairaaloista listat heidän potilaistaan ja poimia varsinaisen otoksen näistä listoista. Menetelmän ilmeisenä etuna on se, että potilashaastattelut voidaan rajoittaa valittuun määrään sairaaloita, mikä vähentää tiedonkeruun kustannuksia. Samaa menetelmää voidaan käyttää esimerkiksi tutkittaessa jonkin kaupungin asukkaiden mielipiteitä. Ensimmäisessä vaiheessa valitaan otos kaupungin alueista, ja sen jälkeen varsinainen otos poimitaan näistä valituista alueista.