Laadullisen aineiston anonymisointi

Usein kuulee väitettävän, ettei laadullisia aineistoja voi anonymisoida. Erityisen haasteellista onkin anonymisoida videoaineistoja tai äänitiedostoja, eikä Tietoarkistolla ole niihin soveltuvia ohjeita. Sen sijaan Tietoarkisto antaa ohjeita tekstiaineistojen anonymisointiin, sillä niitä voi anonymisoida. Tekstit voivat olla haastattelujen tai muun vuorovaikutuksen litterointeja tai ihmisten tutkimustarkoituksiin tuottamia kirjoituksia.

Kuvan kuvaus näkörajoittuneille.
Kuvitteellinen esimerkkiote anonymisoidusta haastattelusta.

Anonymisoinnin tulee aina olla peruuttamaton. Siksi tutkijan tulee anonymisoinnin päätteeksi hävittää kaikki aineiston alkuperäiset henkilötietoja sisältäneet tiedostonsa. Jos taas tutkimusaineisto on tehty asiakirjoista tai verkkosisällöistä, tutkija ei voi hävittää alkuperäisiä tietoja. Tällöin anonymisointi on haasteellista ja usein mahdotonta. Esimerkiksi verkosta kerättyjä henkilötietoja sisältäviä aineistoja on vaikea käsitellä niin, että toteutettaisiin anonymisoinnin peruuttamattomuuden periaatetta. Alkuperäiset sisällöt ovat usein pysyvästi saatavilla ja ne löytyvät kohtuullisen helposti verkkohauilla.

Tässä artikkelissa käsittelemme yksinomaan tutkimustarkoituksiin tuotettujen, tekstimuodossa olevien laadullisten aineistojen anonymisointia. Kokemukseemme perustuen väitämme, että tekstimuodossa olevat tutkimusaineistot voi anonymisoida edellyttäen, että alkuperäiset henkilötietoja sisältäneet aineistot voi anonymisoinnin päätteeksi hävittää. Tunnisteet ja muualta saatavat tiedot ovat kaksi keskeisintä asiaa, joihin anonymisoinnissa tulee kiinnittää huomiota.

Tunnisteet

Tunniste voi olla mikä tahansa tieto, jonka perusteella henkilö on tunnistettavissa suoraan, välillisesti tai muihin tietoihin yhdistämällä. Tunnisteet voivat olla suoria, vahvoja epäsuoria tai epäsuoria. Vahva epäsuora tunniste on käsite, joka on luotu Tietoarkistossa tunnisteiden poiston suunnittelun avuksi.

Suora tunniste on sellaisenaan henkilön yksilöivä tieto. Sellainen on henkilötunnus, ihmisen ääni ja tunnistettava valokuva tai video henkilöstä. Suora tunniste voi olla myös harvinainen henkilön koko nimi tai henkilönimen mukainen sähköpostiosoite. Suorat tunnisteet poistetaan anonymisoinnissa aina.

Vahvojen epäsuorien tunnisteiden perusteella henkilöä ei voi tunnistaa suoraan, mutta tunnistamisen voi tehdä kohtuullisen helposti. Vahvoja epäsuoria tunnisteita ovat esimerkiksi postiosoite, puhelinnumero, muu kuin henkilönimen mukainen sähköpostiosoite, henkilön teoksen nimi, henkilöstä tunnistetietoja sisältävän verkkosivun osoite, harvinainen ammattinimike tai vain yhdelle kerrallaan annettu asema, esimerkiksi puheenjohtajuus yhdistyksessä tai nimetyn kunnan lautakunnassa. Joskus myös harvinainen tapahtuma voi olla vahva epäsuora tunniste. Anonymisoinnissa vahvat epäsuorat tunnisteet poistetaan tai niiden sisältämä tieto karkeistetaan tunnisteettomaksi.

Epäsuoria tunnisteita sisältyy lähes aina ihmistieteiden aineistoihin. Yksittäisen epäsuoran tunnisteen perusteella ihmisiä ei voi tunnistaa, mutta niitä yhdistelemällä tunnistaminen voi olla mahdollista. Epäsuoria tunnisteita ovat esimerkiksi sukupuoli, ikä, koulutus, ammatti, perheen koostumus, siviilisääty, kieli, kansallisuus, työpaikka tai koulu ja asuinpaikkaa koskevat tiedot. Epäsuoria tunnisteita saa sisältyä anonymisoituihin tutkimusaineistoihin, mutta niiden ja muiden saatavien tietojen perusteella henkilöitä ei saa aineistosta tunnistaa.

Laadullisissa aineistoissa vahvat epäsuorat tunnisteet voivat esiintyä missä tahansa aineiston sisällä. Ne voivat liittyä suoraan tutkittaviin asioihin, mutta ne voivat olla myös satunnaisesti mainittuja. Sellaisia ovat esimerkiksi maininnat merkittävästä roolista jonkin tapahtuman järjestäjänä ("silloin olin Qstockin promoottori") tai asemasta, joka voi olla tiettynä hetkenä vain yhdellä ("olen nyt Interaktio ainejärjestön viestintävastaava"). Myös viittaukset omiin julkaisuihin ovat vahvoja epäsuoria tunnisteita, joiden perusteella henkilö on tunnistettavissa. Joskus poistettava tunniste on vihje aineiston sisällä.

Esimerkki poistettavasta tunnisteesta

Kuvitteellisessa tutkimuksessa postityön kuormittavuutta tutkitaan haastattelemalla 20 työntekijää kuudesta tutkimukseen valitusta kunnasta. Kuntatieto jätetään aineistoon vertailun mahdollistamiseksi, sillä työ on organisoitu tutkimuskunnissa eri tavoin. Aineiston minimointi suunnitellaan niin, että yksityiskohtaisia taustatietoja ei kerätä lainkaan. Kustakin haastateltavasta jätetään anonymisoitavaan aineistoon seuraavat tiedot: työskentelykunta, sukupuoli ja ikäryhmä.

Haastattelukysymykset keskittyvät työn sisältöön ja koettuun kuormitukseen. Yksityiselämään liittyviä kysymyksiä ei esitetä. Mutta avoimissa haastatteluissa ihmiset voivat puhua vapaasti. Yksi haastateltavista mainitsee työilmapiiriä käsittelevään haastattelukysymykseen vastatessaan "...olen täällä ainoa, jolla on rastat ja lävistyksiä...". Vastauksessa mainitut tiedot ovat tunnisteita. Niiden perusteella paikallistuntemusta omaava voi päätellä, kenen haastattelu on kyseessä. Koska aineistoon jätetään kuntatieto, tulee haastateltavan ulkoista olemusta koskeva tieto poistaa aineistosta.

Tunnisteista ja ylipäänsä tutkittavaa koskevista tiedoista merkittävimpiä ovat sellaiset, jotka voidaan olettaa jokseenkin muuttumattomiksi. Ihmisen syntymäaika tai syntymävuosi ei muutu, eikä päivä, jolloin läheinen tai muu tärkeä ihminen kuoli. Perheen koostumus voi muuttua, mutta tieto siitä, kuinka monta lasta perheessä on tietyllä hetkellä, on sitä hetkeä koskeva muuttumaton tieto. Tutkittavan asuinpaikka tutkimushetkellä on aineistokeruuhetkeä kuvaava tosiasia, vaikka hän olisi myöhemmin muuttanut toisaalle. Koulutusta ja työelämän historiaa koskevat tiedot työpaikkoineen ovat myös muuttumattomia. Ne voivat vain täydentyä ajan saatossa.

Tutkimusaineistot sisältävät myös tietoja, jotka eivät ole pysyviä ja joita ei täsmälleen vastaavina löydy muualta. Ihmisten ajatukset ja asenteet muuttuvat ajan myötä. Henkilö ei välttämättä muista seuraavana päivänä haastattelussa antamaansa täsmällistä vastausta. Myös kokemusten ja muistojen kuvaukset ja niiden merkityksen tulkinta muuttuvat ajan saatossa. Saarenheimon (2012) mukaan muistamiseen liittyy aina jännite totuuden ja kerronnallisuuden välillä. Toisaalta muistellessaan tapahtumia ihmiset pyrkivät totuudellisuuteen, mutta samalla he pyrkivät kertomaan asiat itselleen suotuisasti ja vähintään ymmärrettävästi (mt., 33.) Selostukset ja kuvaukset menneistä tapahtumista ja niiden merkityksestä muuttuvat ajan saatossa ja myös sen mukaan, kenelle niitä kerrotaan.

Esimerkki ainutkertaisesta elämänkokemuksesta

Kuvitteellisessa pitkiä avioliittoja tutkivassa tutkimuksessa haastatteluun sisältyy pitkä kuvaus avioliitossa koetusta yksinäisyyden tunteesta. Jos aineistoon sisältyy niin paljon tunnisteita, että henkilön voi päätellä aineistosta tai muualta saatavien tietojen perusteella (esimerkiksi harvinainen ammattinimike, asuinkunta, sukupuoli ja syntymävuosi), kuvaus yksinäisyyden kokemuksesta on henkilötietoa.

Anonymisoituna yksinäisyyden kokemuksen kuvaukseen voi liittää aineiston perusteella vain esimerkiksi tiedot siitä, että naishenkilö kuuluu ikäryhmään 50-54 vuotiaat, hän työskentelee julkisella sektorilla ja asuu maaseutumaisessa kunnassa Etelä-Suomessa. Taustatiedot voivat olla yhtenevät kymmenien tai jopa satojen ihmisten kanssa. Vaikka avioliitossa koettu yksinäisyyden tunteen kuvaus on edelleen yksilöllinen, se ei ole enää yhdistettävissä tutkittavaan – olettaen että myös kaikki muut mahdolliset tunnistetiedot on aineistosta poistettu.

Muualta saatavat tiedot

Muualta saatavat tiedot lisääntyvät jatkuvasti ja tuovat haasteita anonymisoinnille. Tällaisia ovat esimerkiksi sosiaalinen media, organisaatioiden, yhdistysten ja viranomaisten verkkosivut ja tilastot. Rajatulla määrällä ihmisiä voi olla lisäksi pääsy erilaisten palveluiden tietoihin, joista selviää rekisteröityneiden asiakkaiden nimet, sähköpostiosoitteet ja joskus henkilötunnukset. Kaikilla on helppo pääsy julkaisujen ja muiden teosten tekijätietoihin. Myös tutkimusaineistoja on tarjolla käytettäväksi vuosi vuodelta enemmän.

Nimi, syntymäaika ja osoite

Henkilön nimen poistaminen on helppoa. Sen tilalle voi keksiä koodin (tutkittava01), keksityn etunimen tai pelkästään nimen mukaisen sukupuolen. Täsmällinen syntymäaika on puolestaan vahva epäsuora tunniste, vaikka yksin sen tiedon varassa ihmistä ei voi tunnistaa. Suhteessa aineiston muihin tunnisteisiin syntymäaika voidaan karkeistaa tutkimukseen parhaiten soveltuvalla tavalla.

Henkilön ikä

Täsmällinen syntymäaika on liian yksityiskohtainen tieto henkilöstä, ja se tulee muuttaa karkeammalle tasolle. Tutkittavan syntymäaika on esimerkiksi 24.6.1952 ja aineisto on kerätty helmikuussa 2021. Vähemmän yksityiskohtainen tieto olisi henkilön syntymävuosi 1952. Syntymävuottakin epätäsmällisempi on ikä vuosissa (68 v), jolloin aineistoa tutkiva ei voi olla enää varma, onko henkilö syntynyt 1952 vai 1951. Karkeimmalla tasolla ikä voidaan kertoa luokiteltuna. Henkilö voitaisiin luokitella 65–69 vuotiaisiin

Aluetiedot on katsottu yhdeksi merkittävimmistä tekijöistä tunnisteiden poiston suunnittelussa (Elliot et al. 2016, 347; Elliot et al. 2020, 47). Asuinpaikka tai muu aluetieto on epäsuora tunniste. Mitä täsmällisemmät aineiston henkilöihin liittyvät aluetiedot ovat, sitä helpommin voi yrittää päätellä ja tunnistaa aineistoon sisältyviä henkilöitä. Aluetietoja ovat esimerkiksi postinumero, kaupunginosa, kunta, maakunta, seutukunta tai suuralue.

Aluetiedon karkeistaminen

Kuvitteellisessa esimerkissä tutkimusaineisto sisältää taustatietoina ammatin, asuinkunnan ja tiedon siitä, työskenteleekö tutkittava julkisella vai yksityisellä sektorilla. Mainitut tunnistetiedot voivat joissain tapauksissa jo sellaisenaan riittää henkilön tunnistamiseen. Tällainen yhdistelmä olisi esimerkiksi kuntatieto yhdistettynä eläinlääkärin ammattiin työpaikkana julkinen sektori. Osa kunnista julkaisee verkkosivuillaan, ketkä ovat kunnan palveluksessa olevia eläinlääkäreitä ja pienimmissä kunnissa heitä on vain yksi.

Aluetiedon tunnistettavuuden poistamisen voi tehdä monin eri tavoin. Kuvitellaan, että tutkittava asuu Paraisten kaupunkiin kuuluvassa Nauvossa, joka on varsin pieni asuinalue. Aluetiedon voi ilmaista postinumerolla 21600, mutta sekin on liian täsmällinen aluetieto. Sitä voi karkeistaa poistamalla numeroita postinumeron lopusta (esim. 216XX; 21XXX). Postinumeroa vähemmän täsmällinen on pelkkä kuntatieto Parainen, mutta esimerkissä kuntatiedon sisällyttäminen aineistoon osoittautui epäonnistuneeksi ratkaisuksi pienten kuntien osalta. Asuinkunnan sijaan voi kertoa vain maakunnan tai muodostaa aluetietojen yhdistelmän. Nauvo voidaan anonymisoinnissa muuttaa aluetiedoiksi, jotka viittaavat käytännössä viiteen eri kuntaan alueella:

  • 10.000-30.000 asukkaan kaupunki
  • Varsinais-Suomi

Joskus täsmälliset aluetiedot ovat olennainen osa itse tutkimusta. Silloin aluetiedon sijaan tulee poistaa ja muokata kaikki muut mahdolliset tunnistetiedot riittävän karkealle tasolle, jotta aineistosta saadaan anonyymi.

Koulutus- ja työhistoria

Ihmisten tietoja käydyistä kouluista, tutkinnoista ja työpaikoista on helposti saatavilla (esimerkiksi sosiaalinen media ja työnvälityspalvelujen hakijatiedot). Siksi koulutus- ja työhistoriaa kuvaavat tiedot tulee luokitella ja täsmälliset tiedot samalla poistaa, kun aineisto anonymisoidaan.

Laadullisten haastattelujen alussa on tyypillistä kysyä taustoittavia kysymyksiä. Aloituskysymysten tarkoitus on saada tietoa tutkittavasta henkilöstä ja osoittaa, että tutkija on kiinnostunut tutkittavasta. Haastattelujen alut sisältävät usein paljon henkilötietoja. Kuvitteellisessa esimerkissä ei tutkita työhistoriaa, mutta senkin kertomiselle tutkija antaa avauskysymyksellään mahdollisuuden:

Esimerkki laadullisen haastattelun alusta: koulutus ja työhistoria

"Tutkija: Voitko vaikka aluksi kertoa vähän itsestäs. Siis tiedän, että oot 28, mutta että mitä kouluja oot käynyt ja ootko töissä vai…?

Tutkittava: No, olen syntynyt ja asuinkin lukion loppuun asti Heinävaarassa, joten kävin lukion Ilomantsissa. Yritin päästä Itä-Suomen yliopistoon lukemaan kauppatieteitä, muttei tärpännyt. Se vuosi oli sitten työttömänä olemista ja välillä puhelinmyynnissä. Mutta seuraavana keväänä sitten pyrin ja pääsin Savoniaan liiketalouteen, ja pääsin samalla pois kotoa Ilomantsiin. Valmistuin 2015 ja sen jälkeen oon saanut hyvin myyjän töitä, kun jo harjoittelussa tuli tutuksi paikkoja, että ensin olin töissä Metropolin Dressmannilla vuoden, sitten menin saman kauppakeskuksen Kappahliin vajaaksi vuodeksi ja sen jälkeen oon ollut K-kengässä. Siellä viihdyn ja luulen että saan jatkaa pitempäänki."

Haastatteluotteen voi anonymisoida sellaisenaan poistamalla ja karkeistamalla siitä paikkakunnat ja erisnimet tyyliin "... ensin olin töissä [kauppakeskuksen vaateliikkeessä] vuoden, sitten menin saman kauppakeskuksen [toiseen vaateliikkeeseen] vajaaksi vuodeksi...".

Koska tutkimuksen kohteena ei ole koulutus- ja työhistoria, jo heti aineiston litteroinnin jälkeen ensimmäisen vastauksen sisältö voidaan myös minimoida ja samalla aloittaa aineiston alustava anonymisointi. Haastattelun sisältökysymysten vastauksia ei minimoida, mutta minimoituna aloituskysymyksen vastauksen ja tutkijan entuudestaan tietämien tietojen perusteella muodostetaan tutkimuksen toteuttamiseen riittävät kategorisoidut taustatiedot tutkittavasta. Sen jälkeen alkuperäinen litteroitu vastaus poistetaan aineistosta. Esimerkkivastauksen minimointi:

  • Sukupuoli: Nainen
  • Ikä: 25-29 vuotta
  • Asuinpaikka: Kaupunkimainen kunta, Pohjois-Karjala
  • Koulutus: AMK-tutkinto, liiketalous
  • Työ: Myyjä, vaatetusliike

Kun haastateltavan kuvaama koulutus- ja työhistoria karkeistetaan edellä kuvatulla tavalla ja vastaavat tiedot muokataan myös muusta haastattelun sisällöstä, häntä on vaikea tunnistaa etsimällä vastaavia tietoja esimerkiksi sosiaalisesta mediasta tai työnhakupalveluiden hakijoiden ansioluetteloista. Haastateltavan asuinpaikan karkeistus tarkoittaa käytännössä sitä, että hän voi asua Ilomantsissa, mutta myös Kiteellä, Lieksassa, Nurmeksessa tai Outokummussa.

Harvinaiset tiedot ja tapahtumat

Toisinaan aineistoihin sisältyy harvinaisia tietoja tai mainintoja harvinaisista tapahtumista. Jos tieto on itsessään tunnisteellinen se pitää poistaa (esimerkiksi "olen Suomen vanhin vankilanjohtaja"). Kun aineistoon sisältyvistä harvinaisista tiedoista tai tapahtumista löytyy tietoa myös muualta, tiedot tulee muokata anonyymeiksi.

Harvinaisia tietoja ovat lähes poikkeuksetta tutkittavan tai hänen lähipiirinsä kohtaamat uutiskynnyksen ylittäneet ilot, surut ja onnettomuudet. Niistä löytyy hyvin todennäköisesti helposti lisätietoja muualta ja ne voivat johtaa aineistoon sisältyvien henkilöiden tunnistamiseen. Haastattelussa joku voi esimerkiksi nimeä mainitsematta kertoa, että hänen äitinsä sai tietyn kirjallisuuspalkinnon vuonna 2009. Tieto kirjallisuuspalkinnosta on äitiä koskeva tunniste, ja sen perusteella voi joissain tapauksissa tunnistaa myös haastateltavan. Joka tapauksessa äidin tunnistaminen paljastaa kaikki henkilötiedot, joita aineistossa hänestä ja hänen lapsestaan (haastateltava) on, vaikka itse haastateltua henkilöä ei tiedon perusteella tunnistaisikaan.

Joskus harvinainen ja ainakin tunnisteellinen tieto voi olla viittaus tutkittavan itse pitämään blogiin tai tutkittavan tai hänen läheisensä suosittuun sosiaalisen median tiliin. Tällaiset tiedot tulee joko poistaa tai karkeistaa (esimerkki tiedon poistosta: "osa vapaa-ajastani menee Kakkukeisari-blogini sisällön tuottamiseen" → "osa vapaa-ajastani menee [-]-blogini sisällön tuottamiseen"). Joskus myös viittaukset tutkittavan tuottamiin sosiaalisen median sisältöihin voivat mahdollistaa henkilön tunnistamisen. Esimerkiksi tieto julkaisun ajankohdasta voi antaa riittävän lisävihjeen tunnistamiseen, vaikka itse sisältöä ei aineistossa toistettaisi sananmukaisesti kuten se on julkaistu.

Julkaisut, muut teokset ja tutkimusaineistot

Aineistoihin voi sisältyä mainintoja tutkittavan tai hänen lähipiirinsä julkaisuista, kirjoista, opinnäytteistä, sävellyksistä tai muista teoksista. Vaikka tekijän nimeä ei mainittaisi, jo teoksen nimi riittää usein tekijätiedon selvittämiseen. Tekijätiedot ovat löydettävissä paitsi tietokannoista myös yksinkertaisella internethaulla. Kun maininnat teoksista voivat paljastaa aineistoon sisältyviä henkilöitä, tieto tulee poistaa tai karkeistaa tunnistamattomaksi (esimerkki poistosta: "isäni tekemä Tulilla-patsas keskustassa" → "isäni tekemä [-]-patsas keskustassa").

Anonymisoinnissa täytyy varmistaa, että aineiston tunnistetietoja ei voi päätellä myöskään tutkimusjulkaisuista. Kun paikkatiedot päätetään poistaa tai luokitella, tulee varmistaa, ettei paikkakuntia pysty päättelemään aineistosta tehtyjen julkaisujen perusteella. Jos tutkimusjulkaisujen perusteella voi päätellä paikkakunnat, niiden poistaminen aineistosta ei ole toimiva anonymisointiratkaisu. Jos laadullisen aineiston anonymisoinnissa päätetään luokitella tutkittavien ikä ja ammatti, vastaavia tietoja ei saa olla myöskään tutkimusjulkaisujen aineisto-otteiden yhteydessä.

Kun samoista tutkittavista kerätään useita aineistoja, tulee anonymisointi suunnitella erityisen huolella. Jokainen ratkaisu tulee arvioida paitsi suhteessa muualta saataviin tietoihin myös suhteessa muihin tutkittavista tietoja sisältäviin tutkimusaineistoihin. Joskus tarkoitus onkin, että tiettyä henkilöä koskevat tiedot voidaan yhdistää eri aineistojen välillä. Tällöin tunnisteiden poisto tulee tehdä suunnitelmallisen yhdenmukaisesti, jotta aineistojen yhdistely ei mahdollista tunnistamista.

Anonymiteetin varmistaminen

Kun tutkimusaineiston anonymisointi on tehty, ratkaisujen toimivuutta voi testata kolmen kysymyksen avulla. Jos vastaus jokaiseen on "Ei kohtuullisen todennäköisin keinoin", voi anonymisoinnin arvioida onnistuneeksi.

  1. Voiko henkilö olla edelleen tunnistettavissa aineistosta?
  2. Voiko aineiston tietoja yhdistää toiseen aineistoon tai ulkopuoliseen tietoon, ja niiden avulla tunnistaa henkilön?
  3. Voiko tietojen päätellä koskevan tiettyä henkilöä? Ovatko muokatut tai poistetut tiedot pääteltävissä? (WP29 WP 216, s. 18–19)

Jotta anonymisoinnista tulee varmasti peruuttamaton, lopuksi tulee hävittää kaikki henkilötietoja sisältäneet aineistot ja muut materiaalit. Niitä ovat ääni- ja videotallenteet, alkuperäiset litteraatit, suostumuslomakkeet, yhteystiedot ja tutkittavien kanssa tapahtunut viestintä.

Jokin raja kulkee myös tunnisteiden anonymisoinnissa. Kun tutkittavat kertovat käsityksiään ja mielipiteitään vaikkapa poliitikoista tai viihdetaiteilijoista, mainittuja henkilöitä ei anonymisoida. Ainoastaan, jos he kertovat julkisuuden henkilöiden yksityiseen elämään kuuluvista ei julkisista asioista, maininnat anonymisoidaan.

Tutkimusaineiston anonymisoinnin suunnittelussa voi käyttää apuna Aineistonhallinnan käsikirjaa. Sieltä löytyy kattavasti anonymisoinnin perusohjeita aineistojen minimoinnista alkaen.

Teksti: Arja Kuula-Luumi