KvantiMOTV on päivitetty Kvantitatiivisen tutkimuksen verkkokäsikirjaksi. Lue päivitetty artikkeli Puuttuvat havainnot.

Puuttuvat havainnot

Puuttuvan tiedon syyt
  Puuttuvan tiedon lajit
  Täydellisten havaintorivien tarkastelu
Painotusmenetelmät
  Painotettu täydellisten havaintojen analyysi
  Jälkiositus
  Käytettävissä olevien havaintojen analyysi
Imputointimenetelmät puuttuvan tiedon hallinnassa
  Imputointimenetelmiä
  Moniulotteinen puuttuvuus
Lähteet

Ida Arhosalo, Karita Hakala, Lauri Kortelainen, Tero Lähderanta, Jani Pellinen, Ari Perälä ja Juha Karvanen (viittausohje)

Puuttuvan tiedon syyt

Usein analysoitava aineisto on joidenkin havaintoyksiköiden osalta puutteellinen. Aineistossa voi olla tyhjiä kohtia eli puuttuvaa tietoa (missing data) joidenkin havaintoyksiköiden tiedoissa. Puuttuva tieto voi olla aineistossa koodattu eri tavoin, esimerkiksi käyttämällä pistettä, merkkijonoa "NA" tai numerokoodia kuten "9999". Puuttuvien havaintojen koodi tulee valita niin, että se eroaa selkeästi muuttujan saamista "oikeista" arvoista. Jos puuttuvan havainnon koodina käytetään numeerisia arvoja, kuten esimerkkiksi 0, 9, tai 999, ne eivät voi olla muuttujan valideja arvoja. Jos esimerkiksi 0 tarkoittaa, että vastaaja ei ole osallistunut kertaakaan kysyttyyn toimintaan, puuttuvaa tietoa ei voi koodata numerolla 0. Puuttuvalle tiedolle käytetty koodaus täytyy tilastollisissa ohjelmistoissa määritellä ennen aineiston analysointia.

Kyselytutkimuksissa vaihtoehdot 'en osaa sanoa', 'en halua sanoa' tai 'en tiedä' eivät lähtökohtaisesti ole puuttuvaa tietoa, vaan tutkimusongelman kannalta mielenkiintoista tietoa. Jos tietyn tyyppisillä vastaajilla ei ole mielipidettä jostain yhteiskunnallisesta ilmiöstä, voi tämä tieto olla itsessään arvokas tulkittaessa vastaajien suhtautumista tutkittavaan ilmiöön.

Kun kiinnostuksen kohteena olevasta populaatiosta kerätään tietoa otantatutkimuksella, koko populaatiota koskevan tiedon puuttuminen on suunniteltua. Usein aineiston keruu ei kuitenkaan onnistu suunnitellusti ja syntyy myös suunnittelemattomasti puuttuvaa tietoa. Tavanomainen tilanne on, ettei kaikilta otokseen valituilta henkilöiltä saadaan lainkaan vastausta kyselyyn. Tällöin puhutaan kadosta (total nonresponse). Vastaamisesta kieltäytymisen lisäksi katoa voi aiheutua siitä, ettei otoksen valittua henkilöä tavoitettu. Jos vastaaja osallistuu tutkimukseen, mutta osaan kysymyksistä ei saada vastausta, käytetään termiä osittaiskato (item nonresponse). Osoittaiskadon syitä voi olla monia. Kyselytutkimuksessa vastaaja voi kieltäytyä vastaamasta joihinkin kysymyksiin. Pitkittäistutkimuksissa koehenkilö saattaa jättäytyä pois kesken tutkimuksen. Havaintoarvoja saattaa jäädä epähuomiossa kirjaamatta.

Jos suunnittelemattomasti puuttuvaa tietoa syntyy, on vaarana, että analyysin tulokset vääristyvät. Tilastotieteessä puhutaan tällöin harhasta. Ensimmäinen ratkaisu puuttuvan tiedon ongelmaan on yrittää hankkia se esimerkiksi ottamalla uudelleen yhteyttä alun perin otokseen valittuihin henkilöihin. Jos tämä ei onnistu, pitää ongelmaa käsitellä muilla tavoin. Havaintoyksiköiden korvaaminen on erityisesti markkinatutkimuksissa käytetty menetelmä, jossa katoon jäänyt havaintoyksikkö pyritään korvaamaan samankaltaisella, täydellisesti havaitulla havaintoyksiköllä. Korvaava havaintoyksikkö valitaan yleensä kiintiöinnin perusteella, jolloin tavoitteena on saada taustamuuttujien osuus aineistossa vastaamaan populaatio-osuuksia. Yleisesti käytettyjä taustamuuttujia ovat ikä, sukupuoli ja maantieteellinen alue. Menetelmä ei ole yleispätevä ratkaisu, koska se toimii vain, mikäli puuttuvaa tietoa sisältävät muuttujat riippuvat ainoastaan kiintiöidystä muuttujasta.

Puuttuvan tiedon lajit

Puuttuvuuden luokitteluun käytetään kolmea käsitettä, joiden englanninkieliset lyhenteet ovat MCAR, MAR ja MNAR.

Termiä täysin satunnainen puuttuvuus (missing completely at random, MCAR) käytetään, kun puuttuvuus ei riipu mistään aineiston havaintoarvoista. Esimerkiksi tiedon syötössä tapahtuva satunnainen näppäilyvirhe voi tuottaa tällaista puuttuvuutta.

Jos esimerkiksi kyselytutkimuksessa vastausprosentit vaihtelevat paikkakunnittain, ei puuttuvuus ole täysin satunnaista, sillä kotipaikkakunta vaikuttaa puuttumisen todennäköisyyteen. Jos vain havaitut arvot (esimerkiksi rekisteritiedoista saatava kotipaikkakunta tai ikäryhmä) vaikuttavat puuttuvuuteen, puhutaan satunnaisesta puuttuvuudesta (missing at random, MAR). Tällöin havaittuja muuttujia voidaan käyttää ennustamaan puuttuvia arvoja.

Normista poikkeavat vastaukset saatetaan jättää todennäköisemmin antamatta, esimerkiksi tulotietoja jättävät ilmoittamatta köyhät tai rikkaat todennäköisemmin kuin keskituloiset. Lääketieteellisessä tutkimuksessa paremmin voivat tutkimushenkilöt kenties todennäköisemmin keskeyttävät tutkimukseen osallistumisen. Nämä ovat esimerkkejä tilanteista, joissa puuttuvuuden ja puuttuvien arvojen välillä on riippuvuutta. Tätä sanotaan ei-satunnaiseksi puuttuvuudeksi (missing not at random, MNAR). Tätä ei voi päätellä aineistosta, mutta sen mahdollisuus pitää ottaa huomioon.

Täydellisten havaintorivien tarkastelu

Suoraviivainen tapa käsitellä puuttuvaa tietoa on jättää ne havaintorivit käsittelemättä, joista puuttuu yksi tai useampi arvo. Jäljelle jäävää aineistoa käsitellään kuten täydellistä aineistoa. Tätä kutsutaan täydellisten havaintorivien analyysiksi (complete-case analysis, list-wise deletion). Esimerkiksi kyselytutkimuksessa jätetään kaikki ne vastaajat tutkimuksen ulkopuolelle, jotka eivät ole vastanneet jokaiseen kysymykseen. Tällä tavalla voi isokin osa kerätystä aineistosta jäädä hyödyntämättä analyysissä. Analyysi myös vääristyy, ellei puuttuvuus ole täysin satunnaista. Jos esimerkiksi nuorempien vastaajien arvot olisivat jollakin muuttujalla suurempia kuin vanhempien vastaajien mutta toisaalta nuoret jättäisivät useammin vastaamatta kyseiseen kohtaan, olisi täydellisten havaintorivien tarkasteluun perustuva estimaatti kyseisen muuttujan keskiarvolle liian alhainen.

Täydellisten havaintorivien tarkastelu on järkevää, kun puuttuvaa tietoa on vain vähän. Täydellisten havaintorivien analyysia käytettäessä on raportoitava minkä kokoinen alkuperäinen aineisto oli ja kuinka paljon havaintorivejä on poistettu. Puuttuvan tiedon osuus on tehtävä lukijalle näkyväksi.

Painotusmenetelmät

Yleisesti painotusmenetelmät eivät ole paras keino käsitellä puuttuvaa tietoa, mutta niiden yksinkertaisuuden ja helppouden vuoksi ne ovat usein käytettyjä.

Painotettu täydellisten havaintojen analyysi

Tiedon puuttuvuus ei aina ole täysin satunnaista. Esimerkiksi kyselytutkimuksessa vastaamistodennäköisyys voi riippua henkilöön liittyvistä muuttujista kuten iästä, sukupuolesta, koulutustasosta yms. Käytettäessä täydellisten havaintorivien analyysia voidaan saada vääristyneitä tuloksia, koska vastaamistodennäköisyys ei ole kaikilla havainnoilla sama. Tätä harhaa voidaan pienentää painottamalla havaintoja. Painotetussa täydellisten havaintorivien analyysissa (weighted complete-case analysis) havainnot jaetaan luokkiin taustamuuttujien mukaan. Näiden luokkien perusteella jokaiselle havainnolle annetaan painokerroin. Tavallisesti aineistossa luokkia ovat esimerkiksi sukupuoli, ikä, paikkakunta jne. Painokerroin määrää siis, miten havainto edustaa koko populaatiota ja ne ovat kääntäen verrannollisia havaintotodennäköisyyteen. Käytännössä havaintotodennäköisyydet estimoidaan luokan havaintojen lukumäärän ja kaikkien yksilöiden lukumäärän suhteella.

Monesti kyselytutkimuksissa miehet jättävät useammin vastaamatta kuin naiset. Tämä voi vääristää tuloksia, kun käytetään täydellisten havaintorivien analyysia. Tässä tapauksessa voisi olla hyödyllistä jakaa aineisto luokkiin sukupuolen mukaan ja antaa miehille ja naisille eri painokertoimet. Nyt puuttuvuudesta johtuva epätasapaino saadaan korjattua.

Kannattaa ottaa huomioon, että edellisessä esimerkissä oletetaan, että luokassa "mies" ja luokassa "nainen" puuttuvuus on täysin satunnaista. Jos esimerkiksi nuoret miehet vastaavat kaikista vähiten, voidaan aineisto jakaa sukupuolen lisäksi myös iän suhteen. Toinen huomioitava seikka on että painotuksen käyttö vähentää riskia saada vääristyneitä tuloksia, mutta varianssi kasvaa.

Jälkiositus

Kuten painotetussa täydellisten havaintojen analyysissa, myös jälkiosituksessa (post-stratification) jokaiselle havainnolle annetaan luokkaan perustuva painokerroin. Painokertoimet lasketaan aineiston sijaan jonkin ulkopuolisen lähteen populaatio-osuuksista. Ulkopuolisena lähteenä voi toimia esimerkiksi Tilastokeskuksen julkaisemat väestötilastot, jotka kertovat esimerkiksi tietyn ikäryhmän osuuden kaikista suomalaisista.

Käytettävissä olevien havaintojen analyysi

Kun tietoa puuttuu paljon, täydellisten havaintorivien analyysissa käytettävien havaintojen lukumäärä on hyvin pieni ja analyysi voi olla tehoton. Houkutteleva, mutta ei suositeltava, vaihtoehto on soveltaa käytettävissä olevien havaintojen analyysia (available-case analysis). Kuten nimestä voi päätellä, käytettävissä olevien havaintojen analyysissa hyödynnetään maksimaalinen määrä havaintoja. Jos esimerkiksi havainnolta puuttuu tieto yhdestä taustamuuttujasta, sen sijaan että hylättäisiin havainto kokonaan, otetaan estimointiin mukaan kaikki muut taustamuuttujat.

Käytettävissä olevien havaintojen analyysiin liittyy monia ongelmia. Muuttujien tunnusluvut lasketaan eri määrästä havaintoja, jolloin niitä on vaikea verrata toisiinsa ja erityisesti varianssin estimoiminen on vaikeaa. Menettely saattaa myös tuottaa ykköstä suurempia korrelaatiokertoimia, mikä ei ole järkevä tulos.

Imputointimenetelmät puuttuvan tiedon hallinnassa

Imputointimenetelmät (imputation methods) ovat painotusmenetelmien lisäksi eräs keino paikata aineiston sisältämä puuttuvuus. Imputointimenetelmien ajatuksena on perustellusti korvata puuttuvat arvot havaitun aineiston perusteella ilman, että korvatut arvot vääristävät aineistosta laskettavia tilastollisia tuloksia. Millä tahansa arvoilla aineiston puuttuvia tietoja ei voi korvata, vaan imputointimenetelmä tulee valita kuhunkin tilanteeseen sopivasti ja tutkijan tulee ymmärtää imputointimekanismi hyvin.

Imputointimenetelmiä käytettäessä on tärkeää ymmärtää, että aineistoon imputoidut arvot ovat tilastollisen mallinnuksen tulos: niitä ei voida käsitellä kuten keräämällä saatua aineistoa. Jos imputointi suoritetaan aineistolle useamman kerran, huomataan, että imputoidut arvot jonkin verran vaihtelevat, vaikka käytetty imputointimenetelmä olisi sama. Tämä tarkoittaa sitä, että imputoituihin arvoihin sisältyy tilastollista epävarmuutta. Epävarmuuden vuoksi imputointi tuleekin aina toistaa puuttuvaa tietoa sisältävälle aineistolle useamman kerran, jotta jatkoanalyysien tulokset olisivat luotettavia. Tätä kutsutaan moni-imputoinniksi (multiple imputation). Moni-imputoinnin jälkeen jatkoanalyysit tehdään kullekin imputoidulle aineistolle erikseen kuten täydelliselle aineistolle tehtäisiin ja tulokset yhdistetään yhdeksi lopputulokseksi laskemalla imputoitujen aineistojen tulosten keskiarvo, luottamusväli ja varianssi.

Imputointimenetelmiä

Imputointimenetelmät voidaan jaotella sellaisiin, joiden taustalla on tilastollinen malli ja sellaisiin, jotka eivät suoraan perustu tilastolliseen malliin. Alla on esitelty tilastollisiin malliin perustuvista imputointimenetelmistä ehdollistamaton keskiarvoimputointi ja regressioimputointi ja malliin perustumattomista menetelmistä hot deck -imputointi.

Hot deck -imputointimenetelmissä puuttuva tieto korvataan aineiston havaittujen arvojen avulla. Aineiston havaintoyksiköistä valitaan ns. luovuttajat (donors), joiden ajatellaan olevan puuttuvaa tietoa sisältävien havaintoyksiköiden kanssa jollain tavalla samankaltaisia ja joista tietoa ei puutu tarkasteltavan muuttujan osalta. Tarkasteltavan muuttujan puuttuva tieto korvataan luovuttajista havaituilla arvoilla. Luovuttajien valintakriteerin määrittäminen on erityisen olennaista imputoinnin onnistumisen takaamiseksi, koska havaitsemattomat arvot korvataan näiden havaintoyksiköiden arvoilla. Eräs esimerkki hot deck -menetelmästä on ennustekeskiarvojen kaltaistus (predictive mean matching, PMM), jossa luovuttajat valitaan puuttuvaa tietoa sisältävälle muuttujalle sovitetun regressiomallin ennusteiden avulla. Mallista lasketaan ennusteet sekä selitettävän muuttujan havaituille arvoille että havaitsemattomille arvoille ja lasketaan näiden arvojen välinen etäisyys. Kullekin havaintoyksikölle valitaan muutama sellainen mahdollinen luovuttaja, jolle ko. etäisyys on mahdollisimman pieni. Luovuttajien joukosta valitaan satunnaisesti varsinainen luovuttaja ja korvataan puuttuva arvo tämän havaintoyksikön arvolla.

Mahdollisesti tunnetuin – ja samalla vahvasti kyseenalainen – imputointimenetelmä on ehdollistamaton keskiarvoimputointi (unconditional mean imputation), jossa puuttuvat arvot korvataan havaittujen arvojen keskiarvolla. Menetelmää ei suositella käytettäväksi, sillä se vääristää puuttuvaa tietoa sisältävän muuttujan havaintojakaumaa: keskiarvon saavia arvoja on ehdollistamattoman keskiarvoimputoinnin jälkeen enemmän kuin alkuperäisessä havaintoaineistossa. Tällöin esimerkiksi imputoidusta aineistosta lasketut varianssit ovat liian pieniä.

Stokastisessa regressioimputoinnissa (stochastic regression imputation) puuttuvien havaintojen luomiseen käytetään regressiomallia, jossa selitettävänä muuttujana on puuttuvaa tietoa sisältävä muuttuja. Mallin regressiokertoimet estimoidaan täydellisistä havaintoriveistä. Selitettävää muuttujaa siis arvioidaan regressiomallilla totuttuun tapaan muuttujilla, jotka kuvaavat selitettävän muuttujan vaihtelua parhaiten. Imputoidut arvot saadaan lisäämällä regressiomallin antamiin ennusteisiin satunnaista vaihtelua. Oikein toteutetussa regressioimputoinnissa tulee ottaa huomioon myös regressiokertoimien epävarmuus.

Moniulotteinen puuttuvuus

Moniulotteisesta puuttuvuudesta puhutaan silloin, kun aineistossa on puuttuvuutta useammassa kuin yhdessä muuttujassa. Puuttuvuuden hallinta on tällöin työlästä. Moniulotteisen puuttuvuuden ongelmien ratkaisuun on kehitetty MICE-algoritmi (Multivariate Imputation by Chained Equations). Esimerkiksi tilastolliseen laskentaan kehitetyssä R-ohjelmistossa tämä algoritmi on toteutettu mice-paketissa. Lisätietoa MICE-algoritmista löytyy kirjasta Flexible Imputation of Missing Data (van Buuren, 2012).

Lähteet

van Buuren, Stef (2012): Flexible Imputation of Missing Data, Chapman & Hall / CRC Press.
Karvanen, Juha (2015): Puuttuva tieto ja vilppi. Tieteessä tapahtuu, 33 (1), 46–48.
Little, Roderick J. A. & Rubin, Donald B. (2002): Statistical Analysis with Missing Data., 2nd ed. New York: John Wiley.

Puuttuvan tiedon käsittelystä aiemmin tällä paikalla MOTVissa julkaistu artikkeli: Mattila, Mikko (2003): Puuttuvat havainnot.

	Ajankohtaista \| MOTV-lista \| Palaute
MOTV KvantiMOTV Menetelmäoppaat SPSS-opas Harjoitusaineistot Ohjeet Lukemisto Tietosuoja