Puuttuvat havainnot

Lukuaika noin 10 min

Creative Commons -lisenssi Tommi Härkänen artikkelin Puuttuvat havainnot: Ida Arhosalo, Karita Hakala, Lauri Kortelainen, Tero Lähderanta, Jani Pellinen, Ari Perälä ja Juha Karvanen pohjalta (viittausohje)

Puuttuva tieto Ankkurilinkki ikoni

Usein analysoitava aineisto on puutteellinen joidenkin otantayksiköiden (jatkossa yksilö) osalta. Puuttuvan tiedon rakenteen analysoiminen ja käsitteleminen on kyselyaineiston käsittelyn keskeinen vaihe. Puuttuvan tiedon analyysissa arvioidaan aineiston keräämisen eri vaiheissa syntyneen puuttuvan tiedon osuus ja yhteys tunnettuihin tekijöihin, esimerkiksi ikään ja sukupuoleen. Tyypillisesti erotetaan vastaamattomuuden aiheuttama puuttuva tieto ja aineiston sisäinen kato, jota aiheutuu esimerkiksi siitä, että vastaajat eivät vastaa kaikkiin kysymyksiin tai kun aineiston tallennuksessa katoaa tietoa esimerkiksi tallennettaessa paperilomakkeita.

Aineistossa voi olla tyhjiä kohtia eli puuttuvaa tietoa (missing data) joidenkin yksilöiden tiedoissa. Puuttuva tieto voi olla aineistossa koodattu eri tavoin, esimerkiksi käyttämällä pistettä, merkkijonoa "NA" tai numerokoodia kuten "9999". Puuttuvien havaintojen koodi tulee valita niin, että se eroaa selkeästi muuttujan saamista "oikeista" arvoista. Jos puuttuvan havainnon koodina käytetään numeerisia arvoja, kuten 0, 9, tai 999, ne eivät voi olla muuttujan sallittuja arvoja. Jos esimerkiksi 0 tarkoittaa, että vastaaja ei ole osallistunut kertaakaan kysyttyyn toimintaan, puuttuvaa tietoa ei voi koodata numerolla 0. Puuttuvalle tiedolle käytetty koodaus täytyy tilastollisissa ohjelmistoissa määritellä ennen aineiston analysointia.

Kyselytutkimuksissa vaihtoehdot 'en osaa sanoa', 'en halua sanoa' tai 'en tiedä' eivät lähtökohtaisesti ole puuttuvaa vaan tutkimusongelman kannalta kiinnostavaa tietoa. Jos tietyn tyyppisillä yksilöillä ei ole mielipidettä jostakin yhteiskunnallisesta ilmiöstä, voi tämä tieto olla itsessään arvokas tulkittaessa yksilöiden suhtautumista tutkittavaan ilmiöön. On kuitenkin tilanteita, joissa nämä vastaukset joudutaan muuttamaan puuttuvaksi tiedoksi. Tällainen tarve voi tulla esimerkiksi silloin, jos muuttujia käytetään summamuuttujien tekoon. Aineistossa voi myös olla niin epätarkkoja tietoja, kuten epäselviä vastauksia kyselytutkimuksessa, että ne joudutaan muuttamaan puuttuvaksi tiedoksi.

Aineiston keruu ei yleensä onnistu täydellisesti, vaan syntyy suunnittelemattomasti puuttuvaa tietoa. Usein kaikilta otokseen valituilta yksilöiltä ei saada lainkaan vastausta kyselyyn. Tällöin puhutaan kadosta (total nonresponse), jota voi aiheuttaa myös se, ettei otokseen valittua yksilöä tavoitettu. Usein myös katoon jääneistä yksilöistä on käytettävissä jotakin tietoa, esimerkiksi otantaan liittyen ikä, sukupuoli ja maantieteellinen alue. Jos yksilö osallistuu tutkimukseen, mutta osaan kysymyksistä ei saada vastausta, käytetään termiä osittaiskato (item nonresponse). Osittaiskadon syitä voi olla monia. Kyselytutkimuksessa yksilö voi kieltäytyä vastaamasta joihinkin kysymyksiin, koska vastaaja ei ymmärrä esitettyä kysymystä, kysymys ei ole relevantti hänen tilanteessaan, kysymys koetaan liian sensitiivisenä tai mikään vastausvaihtoehdoista ei ole sopiva. Havaintoarvoja saattaa jäädä epähuomiossa kirjaamatta. Pitkittäistutkimuksissa yksilö saattaa jättäytyä pois seurannasta kesken tutkimuksen.

Puuttuvan tiedon lajit

Puuttuvuuden mekanismi luokitellaan usein kolmeen ryhmään. Termiä täysin satunnainen puuttuvuus (missing completely at random, MCAR) käytetään, kun havainnon puuttuminen ei riipu tutkittavasta ilmiöstä. Esimerkiksi henkilö olisi voinut ilmoittaa tutkimuksessa painonsa, mutta painomittaus puuttuu, koska vaa’an paristot olivat tyhjentyneet.

Jos esimerkiksi kyselytutkimuksessa vastausprosentit vaihtelevat ikäryhmittäin, ei puuttuvuus ole täysin satunnaista, sillä ikä vaikuttaa puuttumisen todennäköisyyteen. Jos vain havaitut arvot (yleensä koko otokselle saadut tiedot, kuten ikä) vaikuttavat puuttuvuuteen, puhutaan satunnaisesta puuttuvuudesta (missing at random, MAR). Esimerkiksi jos kaikki yli 50-vuotiaat yksilöt ovat ilmoittaneet painonsa mutta vain 70 % alle 50-vuotiaista on ilmoittanut painonsa, ei painoa tarkastelevan muuttujan puuttuva tieto ole täysin satunnaista. Tällöin havaittuja muuttujia (tässä esimerkissä ikämuuttuja) voidaan käyttää ennustamaan puuttuvia arvoja.

Normista poikkeavat vastaukset saatetaan jättää todennäköisemmin antamatta, esimerkiksi tulotietoja jättävät ilmoittamatta köyhät tai rikkaat todennäköisemmin kuin keskituloiset. Terveyteen liittyvissä väestötutkimuksissa sairaammat tai korkeammassa sairastumisriskissä olevat yksilöt jättävät usein osallistumatta tutkimukseen. Jos tällaisessa tutkimuksessa tavoitteena on estimoida riskitekijöiden yleisyyttä väestössä, pelkästään osallistuneiden käyttäminen saattaa antaa liian myönteisen kuvan. Nämä ovat esimerkkejä tilanteista, joissa puuttuvuuden ja puuttuvien arvojen välillä on riippuvuutta. Tätä sanotaan ei-satunnaiseksi puuttuvuudeksi (missing not at random, MNAR), jota ei voi päätellä havaintoaineistosta, mutta jonka mahdollisuus pitää ottaa huomioon ja nostaa esiin myös raportoinnissa. Joissakin tapauksissa osallistuneiden vertaaminen väestöä edustaviin rekisteritietoihin voi antaa tietoa kadon vaikutuksen suuruudesta ja suunnasta. Tällaista vertailua voidaan tehdä osana katoanalyysiä.

Katoanalyysi

Kun puuttuvaa tietoa syntyy, on vaarana, että analyysin tulokset vääristyvät. Tilastotieteessä puhutaan tällöin harhasta. Tutkijan onkin tärkeä analysoida puuttuvien tietojen luonnetta ja ominaisuuksia. Tätä tarkastelua kutsutaan katoanalyysiksi. Yleisiä analyysimenetelmiä ovat esimerkiksi osallistuneilta laskettujen suorien jakaumien vertailu koko otoksen tai väestön vastaaviin jakaumiin, esimerkiksi ikä- ja sukupuolijakaumat. Jos käytettävissä on suurempi määrä taustamuuttujia koko otoksesta, voidaan myös käyttää regressioanalyysejä, esimerkiksi logistista regressiomallia, jossa vasteena on osallistumistieto ja selittäjinä tunnetut taustamuuttujat.

Puuttuvan tiedon vaikutusten korjaaminen Ankkurilinkki ikoni

Kun katoanalyysin myötä puuttuvien tietojen luonne on selvillä, voidaan puuttuvaa tietoa yrittää korjata eri tavoin. Puuttuvan tiedon osuus alkuperäisessä aineistossa, mahdollisesti poistetut tiedot sekä puuttuvan tiedon korvaamistavat on aina raportoitava tutkimuksessa huolellisesti.

Alun perin otokseen valittuihin yksilöihin, joiden vastauksissa on puuttuvia arvoja, voidaan yrittää ottaa uudelleen yhteyttä. Yksilöiden (havaintoyksiköiden) korvaaminen on erityisesti markkinatutkimuksissa käytetty menetelmä, jossa katoon jäänyt yksilö pyritään korvaamaan samankaltaisella, täydellisesti havaitulla yksilöllä. Korvaava yksilö valitaan yleensä kiintiöinnin perusteella, jolloin tavoitteena on saada taustamuuttujien jakaumat havaintoaineistossa vastaamaan väestöjakaumia. Yleisesti käytettyjä taustamuuttujia ovat ikä, sukupuoli ja maantieteellinen alue, joiden perusteella väestö jaetaan ositteisiin. Menetelmä ei ole yleispätevä ratkaisu, koska se toimii vain, mikäli muuttujien jakaumat ovat samat katoon jääneillä ja osallistujilla jokaisen ositteen sisällä.

Täydellisten havaintorivien analyysi

Suoraviivainen tapa käsitellä puuttuvaa tietoa on jättää käyttämättä ne yksilöt (havaintorivit), joista puuttuu yksi tai useampi arvo. Jäljelle jäävää aineistoa käsitellään kuten täydellistä aineistoa. Tätä kutsutaan täydellisten havaintorivien analyysiksi (complete-case analysis, list-wise deletion). Jos aineistosta esimerkiksi jätetään pois kaikki ne yksilöt, jotka eivät ole vastanneet jokaiseen kysymykseen, merkittävä osa kerätystä aineistosta voi jäädä hyödyntämättä analyysissä eli aineiston koko pienenee. Tulokset myös vääristyvät, ellei puuttuvuus ole täysin satunnaista (MCAR). Jos esimerkiksi nuorempien osallistujien arvot olisivat tutkittavalla muuttujalla suurempia kuin vanhempien vastaajien mutta nuoret jättäisivät useammin vastaamatta kyseiseen kohtaan, olisi täydellisten havaintorivien tarkasteluun perustuva estimaatti kyseisen muuttujan keskiarvolle liian alhainen.

Käytettävissä olevien havaintojen analyysi

Kun tietoa puuttuu paljon, täydellisten havaintorivien analyysissa käytettävien havaintojen lukumäärä on hyvin pieni ja analyysi voi olla tehoton. Houkutteleva, mutta ei suositeltava, vaihtoehto on soveltaa käytettävissä olevien havaintojen analyysia (available-case analysis). Kuten nimestä voi päätellä, käytettävissä olevien havaintojen analyysissa hyödynnetään maksimaalinen määrä havaintoja. Jos esimerkiksi joltakin osallistujalta puuttuu tieto yhdestä muuttujasta, otetaan osallistuja mukaan niihin analyyseihin, joissa kyseistä muuttujaa ei tarvita.

Käytettävissä olevien havaintojen analyysiin liittyy monia ongelmia. Muuttujien tunnusluvut lasketaan eri määrästä havaintoja, jolloin niitä on vaikea verrata toisiinsa. Esimerkiksi korrelaatiokerroin saattaa olla suurempi kuin yksi.

Painotusmenetelmät Ankkurilinkki ikoni

Painotettu täydellisten havaintojen analyysi

Tiedon puuttuvuus ei yleensä ole täysin satunnaista. Vastaamistodennäköisyys voi riippua yksilöön liittyvistä muuttujista kuten iästä, sukupuolesta, koulutustasosta yms. Käytettäessä täydellisten havaintorivien analyysia voidaan saada vääristyneitä tuloksia, koska vastaamistodennäköisyys ei ole kaikilla yksilöillä sama. Tätä harhaa voidaan pienentää painottamalla havaintoja (Lehtonen ja Pahkinen, 2004). Painotetussa täydellisten havaintorivien analyysissa (weighted complete-case analysis) yksilöt jaetaan ryhmiin taustamuuttujien mukaan. Näiden ryhmien perusteella jokaiselle osallistujalle annetaan painokerroin. Usein ryhmittelymuuttujia ovat sukupuoli, ikäryhmä ja paikkakunta. Yleensä tulokset ovat tarkempia, jos vastaamistodennäköisyys riippuu voimakkaasti käytetyistä ryhmittelymuuttujista. Painokerroin kuvaa, miten suurta osaa otoksesta osallistuja edustaa, ja on kääntäen verrannollinen vastaamistodennäköisyyteen. Usein vastaamistodennäköisyydet estimoidaan ryhmittäin osallistuneiden lukumäärän ja kaikkien kyseiseen väestöryhmään kuuluvien osamääränä, mutta jos ryhmittelymuuttujia on suuri määrä, osallistumistodennäköisyyksiä voidaan laskea myös esimerkiksi logistisen regressiomallin avulla.

Monesti miehet jättävät useammin osallistumatta kuin naiset. Tämä voi vääristää tuloksia täydellisten havaintorivien analyysissä. Tässä tapauksessa voisi olla hyödyllistä ryhmitellä aineisto sukupuolen mukaan, ja antaa miehille ja naisille eri painokertoimet, jolloin epätasapaino saadaan korjattua.

Kannattaa huomioida, että ryhmien sisällä puuttuvuus oletetaan täysin satunnaiseksi. Jos esimerkiksi nuoret miehet vastaavat harvimmin, aineisto kannattaa ryhmitellä sukupuolen lisäksi myös ikäryhmän suhteen. Painotuksen käyttö vähentää riskiä saada vääristyneitä tuloksia, mutta varianssi voi kasvaa erityisesti, jos painokertoimien varianssi on suuri. Painotusmenetelmät eivät ole yleensä paras keino käsitellä puuttuvaa tietoa, mutta niiden yksinkertaisuuden ja helppouden vuoksi ne ovat usein käytettyjä.

Jälkiositus

Kuten painotetussa täydellisten havaintojen analyysissa, myös jälkiosituksessa (post-stratification) jokaiselle samaan ryhmään kuuluvalle osallistujalle annetaan sama painokerroin. Painokertoimet perustuvat tutkimusotoksen sijaan väestötilastoihin, joita voivat olla esimerkiksi Tilastokeskuksen julkaisemat tilastot suomalaisten jakautumisesta eri ikäryhmiin.

Imputointimenetelmät puuttuvan tiedon hallinnassa Ankkurilinkki ikoni

Imputointimenetelmät (imputation methods) ovat painotusmenetelmien lisäksi toinen yleisesti käytetty keino korjata puuttuvien havaintojen aiheuttamia ongelmia. Imputointimenetelmien tavoitteena on korvata puuttuvat arvot sopivilla ennustearvoilla siten että täydennettyyn aineistoon perustuvat tulokset vastaisivat tuloksia, jotka saataisiin ilman katoa. Millä tahansa arvoilla aineiston puuttuvia tietoja ei voi korvata, vaan imputointimenetelmä tulee valita kuhunkin tilanteeseen sopivasti ja tutkijan tulee ymmärtää imputointimekanismi hyvin. On myös hyödyllistä kokeilla useammalla imputointimenetelmällä ja verrata tuloksia – jos tulokset poikkeavat merkittävästi, on syytä arvioida erojen syitä huolellisesti.

Imputointimenetelmiä käytettäessä on tärkeää ymmärtää, että puuttuviin havaintoihin liittyy aina epävarmuutta. Hyvällä imputointimenetelmällä tämä epävarmuus saadaan välitettyä analyysin tuloksena syntyviin estimaatteihin. Tärkeä ryhmä hyviä imputointimenetelmiä on luonteeltaan stokastisia, joissa jokaiselle puuttuvalle, imputoitavalle arvolle lasketaan havaitun aineiston perusteella odotusarvo, johon lisätään satunnaisvaihtelua epävarmuuden huomioimiseksi. Epävarmuuden vuoksi imputointi toistetaan aineistolle useita kertoja. Tällaisessa moni-imputoinnissa (multiple imputation) alkuperäisestä aineistosta tuotetaan useita kopioita, joissa ei ole enää puuttuvia arvoja. Eri kopioissa saman puuttuvan havainnon paikalla on satunnaisesti määräytyneitä ennustearvoja. Moni-imputoinnin jälkeen analyysi tehdään kullekin kopiolle erikseen kuten täydelliselle aineistolle tehtäisiin. Lopuksi tulokset yhdistetään laskemalla piste-estimaattien keskiarvo. Varianssi saadaan vastaavasti piste-estimaattien varianssin ja varianssiestimaattien keskiarvon summana.

Imputointimenetelmiä

Imputointimenetelmät voidaan jaotella sellaisiin, joiden taustalla on tilastollinen malli ja sellaisiin, jotka eivät suoraan perustu tilastolliseen malliin. Alla on esitelty tilastollisiin malliin perustuvista imputointimenetelmistä ehdollistamaton keskiarvoimputointi ja regressioimputointi ja malliin perustumattomista menetelmistä hot deck -imputointi.

Hot deck -imputointimenetelmissä puuttuva tieto korvataan aineiston havaittujen arvojen avulla. Aineiston havaintoyksiköistä valitaan ns. luovuttajat (donors), joiden ajatellaan olevan puuttuvaa tietoa sisältävien havaintoyksiköiden kanssa jollain tavalla samankaltaisia ja joista tietoa ei puutu tarkasteltavan muuttujan osalta. Tarkasteltavan muuttujan puuttuva tieto korvataan luovuttajista havaituilla arvoilla. Luovuttajien valintakriteerin määrittäminen on erityisen olennaista imputoinnin onnistumisen takaamiseksi, koska havaitsemattomat arvot korvataan näiden havaintoyksiköiden arvoilla.

Eräs esimerkki hot deck -menetelmästä on ennustekeskiarvojen kaltaistus (predictive mean matching, PMM), jossa luovuttajat valitaan puuttuvaa tietoa sisältävälle muuttujalle sovitetun regressiomallin ennusteiden avulla. Mallin avulla lasketaan ennusteet sekä selitettävän muuttujan havaituille että puuttuville arvoille ja lasketaan näiden arvojen välinen etäisyys. Kullekin havaintoyksikölle valitaan muutama sellainen mahdollinen luovuttaja, jolle ko. etäisyys on mahdollisimman pieni. Luovuttajien joukosta valitaan satunnaisesti varsinainen luovuttaja ja korvataan puuttuva arvo tämän havaintoyksikön arvolla. Toinen menetelmä perustuu random forest -menetelmään, jota käytetään usein koneoppimisessa, ja joka pystyy automaattisesti huomioimaan mahdollisia epälineaarisuuksia ja yhdysvaikutuksia muuttujien välillä.

Mahdollisesti tunnetuin – ja samalla vahvasti kyseenalainen – imputointimenetelmä on ehdollistamaton keskiarvoimputointi (unconditional mean imputation), jossa puuttuvat arvot korvataan havaittujen arvojen keskiarvolla. Menetelmää ei suositella käytettäväksi, sillä se vääristää puuttuvaa tietoa sisältävän muuttujan jakaumaa: keskiarvon saavia arvoja on ehdollistamattoman keskiarvoimputoinnin jälkeen enemmän kuin alkuperäisessä havaintoaineistossa. Tällöin imputoidusta aineistosta lasketut varianssit ovat liian pieniä ja muuttujien väliset yhteydet liian heikkoja.

Stokastisessa regressioimputoinnissa (stochastic regression imputation) puuttuvien havaintojen luomiseen käytetään regressiomallia, jossa selitettävänä muuttujana on puuttuvaa tietoa sisältävä muuttuja. Mallin regressiokertoimet estimoidaan täydellisistä havaintoriveistä. Selitettävää muuttujaa siis arvioidaan regressiomallilla totuttuun tapaan muuttujilla, jotka kuvaavat selitettävän muuttujan vaihtelua parhaiten. Imputoidut arvot saadaan lisäämällä regressiomallin antamiin ennusteisiin satunnaista vaihtelua. Oikein toteutetussa regressioimputoinnissa tulee ottaa huomioon myös regressiokertoimien epävarmuus.

Moniulotteinen puuttuvuus

Moniulotteisesta puuttuvuudesta puhutaan silloin, kun useammassa kuin yhdessä muuttujassa on puuttuvia arvoja. Tutkijan kannalta ehkä helpoin menetelmä moniulotteisen puuttuvuuden ongelmien käsittelemiseen on MICE-algoritmi (Multivariate Imputation by Chained Equations), joka pystyy käsittelemään joustavasti sekä jatkuva-arvoisia että kategorisia muuttujia. Esimerkiksi tilastolliseen laskentaan kehitetyssä R-ohjelmistossa tämä algoritmi on toteutettu mice-paketissa. Lisätietoa MICE-algoritmista löytyy kirjasta Flexible Imputation of Missing Data (van Buuren, 2018).