Tietoarkistosta anonymisoinnin oppeja Sykeen
Olin Tietoarkistossa työkierrossa marraskuusta 2025 helmikuulle 2026. Työskentelen data managerina ja avoimen tieteen asiantuntijana Suomen Ympäristökeskuksessa (Syke). Työkierron tavoitteena oli syventää osaamistani erityisesti haastatteluaineistojen anonymisoinnissa. Haastattelu- ja kyselyaineistot ovat Sykessä tärkeä tapa tuottaa tietoa yhteiskunnan toiminnasta ja tuoda esille ihmisten ympäristöön liittyviä kokemuksia, arvoja ja käytäntöjä. Arkistoimalla aineistot mahdollisimman avoimeen käyttöön tuotamme vaikuttavaa ja pitkäjänteisesti hyödynnettävää (ympäristö)tietoa.
Syke on Ympäristöministeriön alaisuudessa toimiva asiantuntija- ja tutkimuslaitos. Meillä tuotetaan monipuolisesti tietoa ja dataa Suomen ja globaaleihin tarpeisiin. Haastattelu- ja kyselyaineistoilla on keskeinen rooli tiedon tuottamisessa yhteiskunnan eri sektoreiden toiminnasta – politiikasta, elinkeinoelämästä, hallinnosta ja kansalaisjärjestöistä. Niiden avulla tuodaan esille myös tavallisten ihmisten ympäristöön liittyviä kokemuksia, arvoja ja käytäntöjä. Kun pystymme sykeläisinä hyödyntämään Tietoarkiston palveluita ja osaamista mahdollisimman hyvin, varmistamme, että haastattelu- ja kyselyaineistomme tulevat osaksi aineistojen kokonaisuutta ja ajankuvaa sekä kulttuurin että yhteiskunnan muutoksen kuvaajina.
Datanhallinnan töitä tekevänä olen usein auttanut asiantuntijoita ja tutkijoita haastattelu- ja kyselyaineistoihin liittyvissä asioissa, pohtinut tietosuojaa, suostumuksia, säilytystä ja jatkokäytön järjestämistä, erityisesti Tietoarkiston hyödyntämistä. Koin kuitenkin, että minulta puuttui osaamista juuri yhdeltä keskeiseltä osa-alueelta: syvällinen ymmärrys anonymisoinnista sellaisena kuin se tulee tehdä arkistointia varten.
Datatuessa katson työkenttää myös laajemmin palveluiden resurssoinnin sekä meidän asiantuntijoiden ja tutkijoiden osaamisen kehittämisen näkökulmista. Koska olin haaveillut työjaksosta Tampereella Tietoarkistossa pitkään, heräsi ajatus: voisiko Tietoarkisto olla paikka, jossa kehittää omaa anonymisointiosaamista, pohtia mahdollisuuksia sekä anonymisointipalvelun lokaalille konseptille että sykeläisten anonymisointiosaamisen kehittämiselle.
Tavoitteet
Työkierron tavoitteeni olivat hyvin selkeät. Työkierron alussa rajattiin, että keskityn haastatteluaineistojen anonymisoinnin kysymyksiin. Sykessäkin arkistointi on painottunut anonymisoituihin kyselyaineistoihin, joten järkeilimme, että suurimman hyödyn työkierrosta Syke ja minä saamme, jos käytän kiertoon varatun ajan anonymisoinnin opetteluun tekemällä anonymisoinnin vain haastatteluaineistoon. Vaikka osa-aikainen työkierto oli peräti neljä kuukautta, tein samanaikaisesti myös Syke-töitä. Työni luonteen vuoksi ei ollut realistista, että olisin ollut kokonaan poissa useita kuukausia.
Halusin ymmärtää myös koko prosessin, en vain oppia teknisiä anonymisoinnin toimenpiteitä, vaan hahmottaa systemaattisen työn, jonka tuloksena aineisto lopulta päätyy muiden hyödynnettäväksi. Toiveeni oli saada kokonaiskuva Tietoarkiston toiminnasta ja sen perusteista, jotta ymmärtäisin paremmin, millaista asiantuntemusta ja osaamista arkistointi ylipäätään edellyttää.
Kun suunnittelimme kierron toteutusta Tuomas Alaterän kanssa, vakuutuin siitä, että Tietoarkistossa opittu jalostuu Sykessä yhdessä tekemällä anonymisoinnin tueksi ja osaamiseksi laajemminkin ja tukee siten meidän työtämme kehittää haastattelu- ja kyselyaineistojen hallinnan palveluita.
Aineiston elinkaari ei saa päättyä hankkeen päättymiseen
Työkierto vahvisti ajatusta, että jatkokäytön eteen on tehtävä paljon enemmän ja konkreettisemmin. Liian usein käy niin, että haastattelu- ja kyselyaineistot tuhotaan ja aineiston elinkaari päättyy hankkeen päättymiseen ilman selkeää perustetta.
Syyt ovat sinänsä ymmärrettäviä ja moninaisia. Resurssien niukkuus nähdään usein esteenä. Myös tietosuoja koetaan haasteeksi. Tai pikemminkin tietosuojasäädöksiä saatetaan tulkita esteenä, vaikka niiden avulla voidaan myös löytää ratkaisuja aineiston hallittuun jatkokäyttöön. Lisäksi epävarmuus jatkokäytön mahdollisuuksista voi johtaa siihen, että aineistot hävitetään.
Näihin haasteisiin avointen arkistojen käyttö ja sitä tukevat palvelut ovat ratkaisu. Arkistoimalla aineistot mahdollisimman avoimeen käyttöön tuotamme vaikuttavaa ja pitkäjänteisesti hyödynnettävää (ympäristö)tietoa. Kun aineisto säilytetään ja avataan hallitusti jatkokäyttöön, mahdollistuu uusien tutkimuskysymysten tarkastelu ilman, että samaa tietoa tarvitsee kerätä uudelleen. Tämä on erityisen tärkeää tilanteissa, joissa aineiston keruu on hidasta, kallista ja voi kuormittaa vastaajia. Arkistointi lisää myös tutkimuksen läpinäkyvyyttä ja toistettavuutta. Samalla aineistot kytkeytyvät osaksi laajempaa ympäristö- ja yhteiskuntatiedon kokonaisuutta, jossa niitä voidaan hyödyntää erilaisissa ajallisissa ja yhteiskunnallisissa konteksteissa. Näin aineistot eivät jää tietyn hetken tuotoksiksi, vaan tuottavat arvoa pitkälle tulevaisuuteen osana yhteistä tutkimusinfrastruktuuria ja tiedon kumuloitumista.
Arkistointi ja anonymisointi on moniammatillista työtä
Kun keskustelin arkistolaisten kanssa heidän työstään, minulle esiteltiin työkulkuja ja tein anonymisointia heidän ohjauksessaan, yllätyin siitä, kuinka monipuolista työskentely Tietoarkistossa on ja kuinka monta työvaihetta aineiston arkistointiin sisältyy. Arkistointi edellyttää moniammatillista työyhteisöä sekä siellä erityistarpeisiin kehitettyjä tai sovellettuja työkaluja ja prosesseja. Oli hienoa nähdä käytännössä, miten ne palvelut, joiden piiriin olen sykeläisiä ohjannut, käytännössä toteutetaan. Lisäksi arkistointia kehitetään sisäisessä kehitystoiminnassa ja ulkoisen rahoituksen hankkeissa.
Tietoarkiston toiminnan ansiosta meidän ei itse tarvitse ottaa esimerkiksi DDI-standardia (Avautuu uuteen välilehteen) käyttöön, jotta saamme hyvin dokumentoidut aineistot tarjolle, eikä myöskään hallita pitkäaikaissäilytyksen kiemuroita, sillä Tietoarkisto huolehtii aineistojen siirrosta PAS-palveluun.
Anonymisointi on prosessi – ei yksittäinen toimenpide
Yksi tärkeimmistä oivalluksista työkierron aikana oli, että anonymisointi ei ole yksittäinen vaihe, jossa "poistetaan nimet". Se ei ole toimenpide tai edes joukko toimenpiteitä.
Tietoarkistossa minut ohjattiin anonymisoimaan selkeän työkulun mukaisesti. Anonymisointi on huolellisesti suunniteltu prosessi, jossa perehdytään aineistoon kokonaisuutena, arvioidaan tunnisteita, kontekstia, epäsuoria tunnistamisriskejä sekä pohditaan, mikä aineistossa on sen säilyttämisen kannalta olennaista.
Tämä oli ehkä työkiertoni tärkein käytännön oppi.
Anonymisointiratkaisut tehdään systemaattisesti ja dokumentoidusti: mitä muokataan, mitä säilytetään, millä perusteella ja mitä vaikutuksia tehdyillä valinnoilla on. Tällainen systemaattinen työtapa auttaa varmistamaan, että anonymisointi ei ole kompromissi aineiston käytettävyyden ja tietosuojan välillä, vaan tasapainon hakemista niin, että molemmat voidaan turvata mahdollisimman hyvin.
Toinen keskeinen havainto liittyi anonymisointiosaamisen vaikutuksiin koko aineistojen hallinnan prosessissa. Anonymisoinnin osaamisen vahvistaminen tukee haastattelu- ja kyselyaineistojen koko elinkaaren hallintaa. Kun anonymisointiosaaminen vahvistuu, voidaan jo tutkimuksen suunnitteluvaiheessa sekä aineiston keruussa, käsittelyssä ja dokumentoinnissa tehdä ratkaisuja, jotka vähentävät tunnistettavuutta ja helpottavat aineiston jatkokäsittelyä ja jakamista. Tämä tukee erityisesti aineistojen hallittua jatkokäyttöä ja arkistointia.
Anonymisointia käytännössä
Minua suorastaan innosti se johdonmukaisuus, jolla Tietoarkistossa työskennellään. Tuntui hyvältä, ja jopa huojentavaltakin, tilanteessa, jossa oli hieman vieraalla maaperällä, että sain keskittyä konkreettiseen tekemiseen ja tukeutua arkistolaisten kehittämään prosessia, ohjeisiin ja opastukseen.
Työkiertoni alussa kävin Tietoarkiston kvanti- ja kvaliaineistojen asiantuntijoiden Hannele Keckman-Koivuniemen, Henna Juusolan ja Jarkko Päivärinnan kanssa läpi arkiston järjestelmät, arkistoinnin käytännöt ja anonymisoinnin ohjeet. Arja Kuula-Luumi varmisti tietosuoja-asiantuntijana omalta osaltaan, että ymmärsin, mitä olin tekemässä.
Minua onnisti myös Syken päässä. Marja Helena Sivonen antoi minulle Business Finlandin rahoittaman CIPGeS-tutkimuksessa (Haastelähtöinen innovaatiopolitiikka, geopoliittinen epävarmuus ja turvallisuus (Avautuu uuteen välilehteen) ) kerätyn haastatteluaineiston anonymisoinnin "harjoitusaineistoksi". Kiitän Marja Helenaa ja hankkeen johtajaa Paula Kivimaata luottamuksesta!
CIPGeS-hankkeen aineisto edustaa Sykelle tyypillistä haastatteluaineistojen tyyppiä: asiantuntijahaastattelua. Näissä haastatteluissa tunnisteellisuus ei yleensä koske haastateltavien yksityiselämää, eikä aineisto siten ole sensitiivistä samassa mielessä kuin esimerkiksi henkilökohtaisia kokemuksia käsittelevä aineisto.
Tunnistamisen riskit liittyvät pikemminkin asiantuntijoiden osaamiseen, työhön, koulutukseen ja sijaintitietoihin. Haastateltavat edustavat usein erityisosaamista, työtehtävät ovat alalla tunnistettavia ja he työskentelevät rajatuilla toimialoilla. Tällaiset tiedot voivat yksittäin tai yhdessä muodostaa tunnistamisriskin. Tämä oli tilanne myös CIPGeS-haastatteluissa.
Noudatin Tietoarkiston prosessia niin tarkasti kuin mahdollista. Ennen varsinaista anonymisointia perehdyin haastatteluaineistoon ja laadin anonymisointisuunnitelman. Esittelin suunnitelmani Arjalle, kävimme ratkaisut läpi ja tarkensin suunnitelmaa hänen kommenttiensa pohjalta.
Työprosessini poikkesi Tietoarkiston normikäytännöstä siinä, että anonymisoin aineiston tutkijan puolesta. Tavallisesti tutkija anonymisoi itse ja tietoarkistolaiset tarkistavat sen ja tekevät tarvittaessa lisäanonymisointeja. Minun tapauksessani keskustelua ja vuorovaikutusta tutkijan kanssa oli paljon ja useassa vaiheessa.
Haastattelujen anonymisoinnin tein pääasiassa korvaamalla suorat ja epäsuorat tunnisteet asiayhteyteen sopivilla ilmaisuilla sekä poistamalla yksittäisiä sanoja. Joissain tapauksissa oli tarpeen poistaa pidempiäkin haastattelukatkelmia, jotta haastateltavan identiteetti ei paljastuisi asiayhteydestä. Kun anonymisoinnit olivat valmiit, kävimme tekemäni ratkaisut tutkijan kanssa läpi ja tein viimeiset viilaukset anonymisointiin. Lopuksi kuvailin aineiston DDI:n mukaisesti ja Marja Helena tarkisti kuvauksen. Aineisto avautuu embargon jälkeen vuonna 2029!
Opit mukaan Sykeen
Nyt varsinainen työ Sykessä vasta alkaa. Tietoarkiston oppien pohjalta voimme Sykessä yhdessä asiantuntijoiden ja tutkijoiden kanssa kehittää anonymisoinnin tuen ja yleensä haastattelu- ja kyselyaineistojen hallinnan palveluita.
Seuraava askel Sykessä on tarkastella aineiston elinkaaren ja tutkimusprosessin vaiheita ja varmistaa, että hallinnan prosessimme tukevat haastattelu- ja kyselyaineistojen jatkokäyttöä mahdollisimman selkeästi. Kun anonymisoinnin tuki ja siihen liittyvä osaamisen kehittäminen nivoutuvat osaksi prosessia, voimme välttää tilanteet, joissa aineiston jatkokäyttöä aletaan tarkastella vasta hankkeen lopussa, jolloin olemme usein auttamattomasti myöhässä.
Konkreettisia seuraavia askeleita Sykessä ovat anonymisointipalvelun ja anonymisointiin liittyvän osaamisen kehittäminen sekä tietosuojatuen vahvistaminen niin, että myös se tukee jatkokäyttöä.
Työkierron aikana pystyin, vaikka noudatin Tietoarkiston prosesseja mahdollisimman tarkasti, kokeilemaan myös työkulkuja, jotka voivat toimia pohjana Syken omalle toiminnan kehittämiselle. Anonymisointituen kehittämisen näkökulmasta Marja Helenan rooli oli tässä ratkaiseva. Yhteistyö hänen kanssaan antoi esikäsitystä palvelutarpeista ja siitä, millainen Syken palvelukonseptin tulisi olla. Saatoin esitellä anonymisointituen peruspalikat ja sopia yhdessä niistä sisällöistä, joissa tutkijan rooli on erityisen tärkeä. Sovimme yhdessä anonymisointisuunnitelmasta, kävimme anonymisoinnin toteutusta läpi muutaman esimerkkihaastattelun avulla ennen koko aineiston anonymisointia, tarkastelimme yhdessä anonymisoitua aineistoa ja sovimme kuvailun sisällöstä.
Tämän kokemuksen pohjalta uskon, että systemaattisen, vaiheistetun anonymisoinnin prosessin luominen tutkimuslaitosympäristöön on mahdollista. Se tuskin syntyy hetkessä, vaan vaatii useita pilotteja, mutta se on rakennettavissa. Prosessi ei voi myöskään olla täysin samanlainen kaikissa tilanteissa, vaan se edellyttää todennäköisesti useampia toimintamalleja, joissa tuen ja aineiston kerääjän työpanos vaihtelee tilanteen mukaan.
Oleellista kuitenkin on, että asiantuntija tai tutkija ei jää aineistonsa kanssa yksin.
Kiitokset!
Työkierto oli minulle henkilökohtaisesti todella tärkeä ja antoisa kokemus, josta ammennan vielä pitkään. Se oli myös tapa rakentaa siltaa organisaatioiden välille, tuoda tutkimuslaitosympäristön näkökulmaa arkistoon ja viedä arkiston systemaattista osaamista takaisin tutkimuslaitokseen.
Parhaimmillaan työkierto ei ole vain osaamisen siirtoa, vaan yhteisen ymmärryksen rakentamista.
Suuri kiitos kaikille arkistolaisille – aineistoryhmälle, ICT:lle, harjoittelijoille ja sivarille. Teidän joukkoon oli helppo sulautua!
Teksti: Maria Söderholm, Syke