Mittaaminen: Mittarin luotettavuus

Lukuaika noin 10 min

Tämä luku jakautuu neljään osaan. Pääset liikkumaan osien välillä alla olevasta listasta.

Operationalisointi Ankkurilinkki ikoni

Monet yhteiskunta- ja käyttäytymistieteellisissä tutkimuksissa tarkasteltavat käsitteet ovat varsin abstrakteja. Tällaisia ovat älykkyys, onnellisuus, tasa-arvo, poliittinen aktiivisuus, suvaitsevaisuus jne. Mitä sinun mielestäsi on suvaitsevaisuus? Jos viisi eri tutkijaa määrittelevät toisistaan tietämättä 'suvaitsevaisuuden', saamme luultavasti viisi eri määritelmää. Kvantitatiivinen tutkimus edellyttää käsitteiden määrittelemistä sellaisiksi analyyttisiksi käsitteiksi, joita voidaan mitata. Tällaista käsitemäärittelyä ja mittareiden luontia kutsutaan operationalisoinniksi. Abstrakteista käsitteistä luodut mittarit ymmärretään yleensä kysymys- tai väittämäpatteristoiksi.

Alkula ym. (1994, 75-76) erottavat neljä eri vaihetta operationalisoinnissa:

  1. Käsitteen yleinen hahmottaminen ja määrittäminen
  2. Käsitteen osa-alueiden määritteleminen
  3. Siirtyminen teoreettisesta kielestä konkreettiseen arkikieleen ja indikaattoreihin
  4. Operationalisoinnin tarkka kuvaaminen

Tutkijan on siis osoitettava selvästi, mitä tarkasteltava käsite hänen tutkimuksessaan tarkoittaa. Määrittelyprosessin alkuvaiheessa perehdytään aiheeseen liittyviin aikaisempiin tutkimuksiin ja muuhun kirjallisuuteen. Myös aiheesta käytävät keskustelut auttavat jäsentämään käsitettä, sen osa-alueita ja konteksteja.

Tutkimuksen luotettavuutta lisäävät operationalisoinnin vaiheiden esittäminen jäsennellysti ja konkreettisesti sekä lopullisten indikaattoreiden valinnan ja muotoilun huolellinen perusteleminen. Tämä helpottaa myös mittareiden ja samalla kokonaisten havaintoaineistojen uudelleenkäyttöä. Uudiskäyttäjän on tärkeää selvittää, missä viitekehyksessä käsitettä on käytetty ja mikä on ollut alkuperäisen tutkimuksen kohderyhmä.

Ajan kuluessa yhteiskunta muuttuu ja "samojen" ilmiöiden vertaaminen eri ajankohtina vaikeutuu. Se luo tarvetta myös mittareiden muuttamiseen. Jos halutaan tietää, uuvuttavatko työntekijöitä nyt samat asiat kuin 20 vuotta sitten, voidaan ehkä käyttää samoja mittareita kuin aiemmin. Jos sen sijaan tutkimuksen kohteena on ihmisten nykyinen kokemus työuupumuksesta, mittaria on uudistettava.

Operationaalistamisprosessissa on tärkeää pitää mielessä validiteetti- ja reliabiliteettivaatimukset.

Esimerkki 1.

Raigo Liiman (2000) tutki pro gradu -työssään uskonnollisuutta virolaisten ja Virossa asuvien venäläisten keskuudessa. Tutkimusaineistot olivat vuosilta 1991, 1992, 1994 ja 1998. Hän määritteli uskonnollisuuden uskontoon kuuluvaksi tai perustuvaksi, sille ominaiseksi riitiksi, toimitukseksi tai vakaumukseksi. Tutkimuksessa sovellettiin Rodney Starkin ja Charles Y. Glockin (1968) kehittämää uskonnollisten ulottuvuuksien teoriaa, ja uskonnollisuus jaettiin teoreettisesti neljään eri ulottuvuuteen: ideologinen ulottuvuus, rituaalinen ulottuvuus, institutionaalinen ulottuvuus ja seurausten ulottuvuus. Edelleen esimerkiksi rituaalinen ulottuvuus jaettiin yksityiseen ja julkiseen hartauden harjoitukseen. Yksityistä hartauden harjoitusta olivat mm. Raamatun lukeminen, rukoileminen ja mietiskely; julkista olivat mm. kirkossa ja häissä käynti sekä sakramentteihin osallistuminen.

Valmiiden aineistojen mittarit eivät aina ole niin kattavia kuin tutkija haluaisi. Tällöin voidaan käyttää useampia aineistoja, kuten tässä työssä on tehtiin. Vuoden 1998 aineistossa (Suomen Akatemia) rituaalista uskonnollisuutta mitattiin julkiseen uskonnonharjoitukseen liittyvällä kysymyksellä "Kuinka usein käytte jumalanpalveluksessa?" ja yksityiseen uskonnonharjoitukseen liittyvällä kysymyksellä "Kuinka usein rukoilette Jumalaa?" Vuonna 1994 Virossa tehdyssä kyselyssä rituaalista ulottuvuutta selvitettiin kysymyksillä: "Seuraatteko uskonnollisia ohjelmia televisiosta tai radiosta?" ja "Kuinka usein te luette Raamattua?" ja "Onko teillä kotona Raamattu tai Uusi testamentti?"

Esimerkki 2.

Kun halutaan tutkia sosiaalista toimintaa, pitää määritellä, mitä sosiaalinen toiminta on. Operationalisoinnin perustana on käsitteen perinpohjainen määritteleminen. Esimerkin tämän erittäin laaja-alaisen ja abstrahoidun käsitteen määrittelemisen vaikeudesta saa Ilpo Vilkunan (1998) artikkelista jossa hän käy läpi erilaisia tapoja ymmärtää 'sosiaalinen toiminta' ja nähdä sen osa-alueita. Hän esittää mm. Ziglerin ja Trickettin (1978) määrittelemät sosiaalisen kompetenssin ulottuvuudet: fyysinen terveys ja hyvinvointi, formaalinen kognitiivinen kyky, suorituskyky, motivaation/emootion taso. Jopa fyysinen terveys voidaan siis nähdä 'sosiaaliseen toimintaan' kuuluvana osa-alueena.

Harjoituksia

Tehtävä 1. Millaisiksi kysymyksiksi operationalisoisit työuupumuksen? Käy huolellisesti läpi operationalisoinnin vaiheet. Käytä Alkulan ym. operationalisoinnin vaihekuvausta ja aiheeseen liittyvää kirjallisuutta hyväksesi. Rajaa kuvitellun tutkimuksen kohderyhmä.

  • Mitä työuupumus on?
  • Millaisia osa-alueita voidaan työuupumuksessa nähdä erityisesti tässä kohderyhmässä? Voisiko näitä osa-aluejaotteluita olla useita?
  • Millaisissa konkreettisissa tilanteissa työuupumus näkyy?
  • Millaisilla kysymyksillä tai väittämillä konkreettisia työuupumuksen merkkejä voidaan selvittää?
    Laadi mittari.

Arvioi mittaria. Mieti mm. onko jokin työuupumuksen osa-alue painottunut liikaa. Onko jotakin jäänyt huomaamatta? Ovatko mittarissa käytettävät sanat ja lauseet yksiselitteisiä ja ymmärrettäviä?

Tehtävä 2. Mieti, millaisilla konkreettisilla kysymyksillä sinä mittaisit tutkimuksessasi uskonnollisuuden rituaalista ulottuvuutta. Lue ensin esimerkki 1. Tutki, mitä European Values Survey osa-aineiston kysymyksiä voisit käyttää rituaalisen ulottuvuuden mittareina.

Mittarin validiteetti Ankkurilinkki ikoni

Mittarin validiteetilla tarkoitetaan sen pätevyyttä eli sen hyvyyttä mitata juuri sitä, mitä sen on tarkoitus mitata - tarpeeksi kattavasti ja tehokkaasti. Mittaria on osattava käyttää oikeaan kohteeseen, oikealla tavalla ja, jotta se tavoittaa kohteen, myös oikeaan aikaan. Esimerkiksi epäonnistunut otanta, mittauksen ajankohta tai jopa haastateltavan ja haastattelijan välinen henkilökemia voivat aiheuttaa "epäpätevyyttä" mittarin käytössä. Lähtökohdiltaan virheellinen tutkimusasetelma vaikuttaa ratkaisevasti tutkimuksen kokonaisvaliditeettiin. Yksittäisen mittarin hyvä validiteetti onkin välttämätöntä tutkimuksen kokonaisvaliditeetin kannalta.

Validiteetin käsitettä on kirjallisuudessa luokiteltu. Esimerkiksi jos valintakoe ennustaa hyvin opinnoissa menestymistä, sen ennustevaliditeetti on hyvä. Validiteetille on määritelty myös muita "erityisnimiä", kuten sisällöllinen validiteetti, samanaikaisvaliditeetti, rakennevaliditeetti ja prosessivaliditeetti (ks. Alkula ym. 1994, 91-92; Nummenmaa ym. 1997, 203-204). Nämä validiteetin lajit voidaan nähdä sekä yksittäisten mittareiden validiteettia että koko tutkimuksen validiteettia arvioitaessa. Esimerkiksi sisällöllisen validiteetin käsite korostaa, että mittari todella mittaa sisällöllisesti sitä, mitä sillä halutaan mitata. Jos valintakokeen ennustevaliditeetti on hyvä, voitaisiin myös sanoa, että sen sisällöllinen validiteetti on hyvä, koska sen tarkoituksena on nimenomaan toimia opintomenestyksen ennustajana. Tällöin mittariin on osattu valita sisällöllisesti oikeita asioita. Vastaavasti muutkin validiteetit tarkoittavat itse asiassa samaa asiaa. Maxwellin ym. sanoilla: "Validiteetti tarkoittaa pohjimmiltaan totuutta tai virheettömyyttä, vastaavuutta todellisuuden ja siitä tehtyjen väittämien välillä." (Maxwell ym. 2018).

Validi mittari on tulos onnistuneesta operationalisoinnista. Käsiteanalyysin loogisella ja täsmällisellä argumentoinnilla vahvistetaan operationalisoinnin uskottavuutta, sillä tutkittavat ilmiöt voidaan käytännössä operationalisoida hyvinkin erilaisiksi mittareiksi. On hyvä, jos lukija voi prosessia seuraten itse arvioida mittarin pätevyyttä ja vakuuttua siitä.

Operationalisoinnissa voidaan epäonnistua. Hankaluuksia voi aiheuttaa itse käsitteen määrittely. Sanojen valinta lopullisiin mittareihin tuottaa päänvaivaa. Voi olla, että vastaaja ei esimerkiksi iästään tai sosiaalisesta asemastaan johtuen ymmärrä lainkaan tai ymmärrä samalla tavalla kysymyksiä kuin tutkija. Tutkijan kieli voi olla abstraktia, yksittäisillä täytesanoilla voi olla erilainen painoarvo eri ihmisille, valmiista mittareista lainatut sanat tai käsitteet voivat olla vanhentuneita. Kulttuurin huomioiminen voi unohtua kokonaan: Yhdysvalloissa laadittu mittari ei olekaan kulttuurierojen vuoksi pätevä Suomessa tai Suomessa käytettävä mittari ei välttämättä toimi Ruotsissa.

Mittarin validiteettin testaamiseen on yritetty löytää erilaisia keinoja. Esimerkiksi "äärivastaajien" suhteen voidaan saada jotakin informaatiota Likert-asteikollisen mittarin validiteetista, kun lasketaan samojen väittämien kielteisten ja myönteisten versioiden korrelaatiot. Erisuuntaiset väittämät korreloivat keskenään voimakkaasti, jos ne todella mittaavat samaa asiaa.

Joissakin tilanteissa mittarin validiteettia on mahdollista testata kriteerimuuttujan tai -muuttujien avulla. Esimerkiksi valintakoemittareilla saatuja tuloksia voidaan verrata myöhempiin opintosuorituksiin, jos halutaan osoittaa, että valintakokeella on saatu opinnoissaan menestyviä opiskelijoita. Mittarin pätevyyttä ei voida tällöinkään todeta täydellisesti, sillä asetelmassa jäävät havaitsematta mm. ne hylätyt pyrkijät, jotka olisivat menestyneet opinnoissaan. Tällainen jälkikäteen tapahtuva mittarin vertaaminen kriteerimuuttujaan on hyödyllistä silloin, kun kehitetään toistuvasti käytettäviä mittareita. Mittareiden kehittäminen vie aikaa ja muita resursseja. Ajan kuluminen voi asettaa mittarille myös muutospaineita. Procter (1998, 129) toteaa, että on lähes mahdotonta laskea kvantitatiivista mittaa mittarin validiteetille, minkä vuoksi on vain parasta pitää ongelma mielessään ja etsiä keinoja validiteetin parantamiseksi.

Harjoituksia

Tehtävä 3. Mieti konkreettisia esimerkkejä. Millaisia asioita ei voida mitata samoilla mittareilla esimerkiksi Albaniassa ja Suomessa?

Mittarin reliabiliteetti Ankkurilinkki ikoni

Sana reliabiliteetti voidaan suomentaa sanoilla 'luotettavuus', 'käyttövarmuus' ja 'toimintavarmuus'. Kvantitatiivisen tutkimuksen kielessä sillä tarkoitetaan mittarin johdonmukaisuutta; sitä, että se mittaa aina, kokonaisuudessaan samaa asiaa. Arkikielen 'luotettavuus' on tutkimuksen kielessä validiteetti. Mittarilla tarkoitetaan tässä yhteydessä samaa asiaa mittaavaa asenneväittämä- tai kysymysjoukkoa. Jos mittari on täysin reliaabeli, siihen eivät vaikuta satunnaisvirheet eivätkä olosuhteet.

Reliabiliteetissa erotetaan kaksi osatekijää: stabiliteetti ja konsistenssi. Stabiliteetissa on kysymys mittarin pysyvyydestä ajassa. Epästabiilissa mittarissa näkyvät olosuhteiden ja vastaajan mielialan ynnä muiden satunnaisvirheiden vaikutukset helposti. Mittarin pysyvyyttä voidaan tarkastella vertaamalla useampia ajallisesti peräkkäisiä mittauksia. Tällöin aikavälin pituus tulisi osata optimoida: sen pitää olla tarpeeksi pitkä, jotta vastaaja ei muista vastauksiaan, mutta toisaalta niin lyhyt, ettei todellisia muutoksia asioissa ole ehtinyt tapahtua. Monissa tapauksissa tämä reliabiliteetin mittaustapa ei ole toteuttamiskelpoinen, sillä huono reliabiliteettikerroin voidaan usein helpommin selittää ajassa tapahtuneilla todellisilla muutoksilla kuin epästabiililla mittarilla (Wright 1979, 47).

Mittarin konsistenssilla eli yhtenäisyydellä tarkoitetaan sitä, että kun useista väittämistä koostuva mittari jaetaan kahteen joukkoon väittämiä, kumpikin väittämäjoukko mittaa samaa asiaa. Tällöin molempien väittämäjoukkojen kokonaispistemäärien välinen korrelaatiokerroin saa suuren arvon. Koska ei ole mitään ulkoista kriteeriä, jolla testattaisiin mittarin reliaabeliutta, on tyydyttävä edellä kuvatulla tavalla "sisäisiin" kriteereihin eli samaan tutkimusjoukkoon ja mittariin itseensä. (Procter 1998, 128). Tämän toteamiseksi yleisesti käytetään mm. Cronbachin alfakerrointa, joka perustuu väittämien välisiin korrelaatioihin. On kuitenkin todettava, että on mahdollista luoda väittämäpatteristo, joka sisältää täysin eri asioita mittaavia, mutta keskenään voimakkaasti korreloivia muuttujia. Toisaalta saman ilmiön osa-alueita mittaavat muuttujat eivät aina välttämättä korreloi keskenään ja kuitenkin niitä on tarpeen tarkastella yhdessä.

Samalla reliabiliteetin käsitteellä on määritelty siis kaksi varsin erilaista mittarin ominaisuutta. Stabiili mittari ei välttämättä ole konsistentti eikä konsistentti mittari välttämättä stabiili. Käytännössä reliabiliteetti liitetään pääasiassa mittarin konsistenssiin. Vaikka mittari olisi sekä konsistentti että stabiili, se ei riitä. Tutkimuksen mittari voi nimittäin mitata väärääkin asiaa hyvin johdonmukaisesti. Mittarin on oltava myös validi.

Paljon käytetty tunnusluku reliabiliteetin mittaamiseksi on Cronbachin Alfan-merkki \( \alpha \) (alfa). Sillä mitataan nimenomaan mittarin konsistenssia eli yhtenäisyyttä. Cronbachin alfa lasketaan muuttujien välisten keskimääräisten korrelaatioiden ja väittämien lukumäärän perusteella. Mitä suurempi alfan arvo on, sitä yhtenäisempi mittarin voidaan katsoa olevan. Käytännössä kannattaa kokeilla, mikäli mahdollista, eri muuttujakombinaatioita ja verrata saatuja alfan arvoja (ks. lisäesimerkki reliabiliteetista). Reliaabeliutta osoittamaan voidaan laskea alfa-kerroin myös käyttäen ns. puolitusmenetelmää (Split-Half), jolloin muuttujat jaetaan kahteen ryhmään ja alfa-kertoimet lasketaan kummallekin osiolle. Guttmanin mukaan voidaan laskea useita alimpia rajoja (Lower Bounds).

Alfan standardoitu estimaatti voidaan laskea seuraavalla kaavalla:

$$\alpha = {k \cdot \bar{r}\over 1+(k-1) \cdot\bar{r} }$$
Alfan standardoidun estimaatin kaava

jossa Hatullinen R \( \bar{r} \) on väittämien välinen keskikorrelaatio eli väittämien välisten Pearsonin korrelaatiokertoimien keskiarvo. K on väittämien lukumäärä (SPSS 1999, 362).

Reliabiliteetista ollaan yleensä kiinnostuneita sen vuoksi, että väittämäpatteriston muuttujat halutaan tiivistää summamuuttujaksi. Reliabiliteettia kuvaava tunnusluku lasketaan niille muuttujille, joita on tarkoitus yhdistää. Tällöin väittämien koodaus tulee olla sama, kuin se on summamuuttujaa laskettaessa. Joskus joidenkin muuttujien koodaus pitää kääntää päinvastaiseksi.

Teknisesti reliabiliteettia saadaan parannettua, kun jätetään alfa-kertoimen arvoa alentavia muuttujia pois. Tällöin voi kuitenkin mittarin validiteetti kärsiä eli mittari ei enää olekaan kattava. On siis mietittävä myös sisällöllisesti, mitä poistetaan. Ainakin monitulkintaiset väittämät on syytä jättää pois.

Reliaabeliuden perusajatus voidaan esittää SPSS-ohjelmiston oppaasta suomennetulla yksinkertaisella lauseella: "Reliaabeliin kyselyyn annetut vastaukset eroavat, koska vastaajilla on erilaisia mielipiteitä - ei sen vuoksi, että kysely on hämmentävä tai monitulkintainen." (SPSS 1999, 362)