Kohti tehokkaampaa anonymisointia? Apuohjelmien arviointi Tietoarkistossa
Tietoarkisto suojaa tutkimukseen osallistuvien yksityisyyttä ja varmistaa tallennetun datan käytettävyyden onnistuneen anonymisoinnin avulla. Arkisto on ainoa toimija Suomessa, jonka keskeisenä tehtävänä on anonymisoida muiden tahojen tuottamia tutkimusaineistoja tai tarkistaa niiden anonymisoinnin kattavuus.

FIRI2018-hankkeen Crossing Boundaries with Tools and Services (C-BoTS) työpaketti Exploring Aids for Anonymisation kartoitti Tietoarkiston mahdollisuuksia hyödyntää erilaisia anonymisointiin suunniteltuja apuohjelmia tutkimusaineistojen käsittelyssä. Anonymisointi tai sen tarkastaminen on tarkkaa ja aikaa vievää työtä. Kehittämiskohteeksi onkin tunnistettu erityisesti kvalitatiivisten aineistojen anonymisoinnin mahdollinen automatisointi sekä tehdyn anonymisoinnin tehokkuuden arviointi. Varsinainen selvitys laadittiin Tietoarkiston sisäiseen käyttöön.
Tietoarkiston tutkimusaineistot ovat pääosin ihmistieteellisiä ja sisältävät usein epäsuoria tunnisteita. Suorat tunnisteet poistetaan jo ensitarkastuksessa, ja epäsuoria tunnisteita joko karkeistetaan tai poistetaan. Anonymisointimenetelminä käytetään muun muassa salaamista, kategorisointia, yleistämistä ja sotkemista. Tavoitteena on EU:n tietosuoja-asetuksen mukainen anonymisointi, jossa yksittäistä henkilöä ei voida kohtuullisin keinoin tunnistaa aineistossa saatavilla olevien tietojen perusteella.
Aineistojen anonymisointi edistää avointa tiedettä, vähentää väärinkäytön riskiä ja mahdollistaa laajemman yhteistyön ja tiedonvaihdon tutkijoiden välillä. Tutkimukseen osallistujien luottamus on keskeistä tutkimuksen onnistumiselle. Kun osallistujat tietävät, että heidän yksityisyytensä suojataan, he ovat todennäköisemmin halukkaita osallistumaan ja vastaamaan rehellisesti. Lainsäädännön lisäksi myös tutkimuseettiset ohjeet korostavat osallistujien oikeuksien turvaamista ja henkilötietojen suojaamista. Anonymisointi mahdollistaa aineistojen avaamisen ilman yksityisyyden loukkaamisen riskiä.
Selvityksessä tarkasteltiin tutkimusaineistojen anonymisointikäytäntöjä ja -määritelmiä sekä kansallisessa että eurooppalaisessa kontekstissa. Eri arkistoilla voi olla kansallisessa lainsäädännössä erilaisia asemia ja tämä saattaa vaikuttaa siihen, miten tietosuojaa ja anynymisoinnin toteutuksen tiukkuutta tarkastellaan. Tämä puolestaan vaikuttaa siihen, mitä ominaisuuksia pseudonymisointiin tai anomymisointiin kehitetyltä työkalulta vaaditaan. Suomessa Tietoarkistolla ei ole mandaattia luovuttaa henkilötietoja sisältäviä tutkimusdatoja kuin ainoastaan muutamassa poikkeustapauksessa.
Apuohjelmien tarkastelujakso kattoi vuodet 2020–2021, jolloin Tietoarkisto arvioi useita saatavilla olleita työkaluja ja niiden soveltuvuutta tutkimusaineistojen anonymisointiin ja anonymisoinnin tarkastamiseen. Yksikään työkalu ei sellaisenaan soveltunut suoraan käyttöön Tietoarkistossa, mutta monista löytyi potentiaalia.
Testatut ohjelmistot
- ARX – Data Anonymization Tool - Saksassa kehitetty kattava työkalu, joka tukee useita yksityisyys- ja riskimalleja sekä anonymisointimenetelmiä. ARX:n käyttöliittymä on selkeä ja tarjoaa graafisia esityksiä tuloksista, mikä helpottaa prosessin hallintaa. Se hyödyntää muun muassa k-anonymiteettiä, l-diversiteettiä ja differentiaalista yksityisyyttä. ARX soveltuu parhaiten kokonaisaineistoihin, joissa vastausprosentti on korkea. Käyttö vaatii edelleen harkintaa siitä, mitä tietoja poistetaan ja mitä säilytetään.
- Amnesia - EU-rahoitteinen työkalu, joka käyttää k-anonymiteettiä ja k-m-anonymiteettimallia. Se toimii vain CSV- ja TXT-tiedostoilla ja kykenee käsittelemään enintään yhden gigatavun kokoista dataa. Käyttöliittymä on helppokäyttöinen, mutta suurten aineistojen käsittelyssä ilmeni ongelmia.
- QualiAnon - Bremenin yliopiston kehittämä työkalu laadullisten aineistojen anonymisointiin, joka tukee DOCX- ja ODT-muotoja ja mahdollistaa tekstin muodon tunnistamisen sekä merkkien korvaamisen. Vahvuutena on ulkoisten luokitusten, kuten ISCO-ammattiluokituksen, hyödyntäminen. Ohjelma perustuu kuitenkin pitkälti "etsi ja korvaa" -toimintoihin, eikä testauksessa nähty merkittävää etua esimerkiksi tapaan, jolla Tietoarkistssa käytetään Wordia vastavassa tarkoituksessa.
- ANOPPI ja APPI - Suomessa kehitteillä olevat työkalut perustuvat kieliteknologiseen tekoälyyn ja on suunniteltu erityisesti tuomioistuinratkaisujen ja muiden viranomaispäätösten anonymisointiin. ANOPPI tunnistaa ja merkitsee automaattisesti keskeiset ilmaukset, kun taas APPI tarjoaa älykkään haun ja linkityksen muihin aineistoihin. Näiden työkalujen hyödyllisyyttä arvioidaan uudelleen tuotteistamisen edetessä, ja niillä voi tulevaisuudessa olla merkittävä rooli.
Hankkeen aikana Tietoarkistossa otettiin myös käyttöön uusia anonymisoinnin suunnitteluohjeita ja systemaattisia tarkistusmenettelyjä. Lisäksi järjestettiin useita anonymisointikoulutuksia ja päivitettiin verkossa julkaistuja ohjeita. Nämä vaikuttavat myös siihen, mitä ominaisuuksia ohjelmilta vaaditaan ja kuinka hyvin anonymisoituna tutkimusaineiston voidaan olettaa saapuvan Tietoarkistoon.
Tietoarkisto jatkaa anonymisointiprosessien kehittämistä ja etsii jatkuvasti uusia työkaluja ja menetelmiä, jotka parantavat anonymisoinnin tehokkuutta ja aineistojen käytettävyyttä. Automaation lisääminen ja päätöksenteon tukeminen ovat keskeisiä tulevaisuuden tavoitteita. Hankkeen aikana tekoälyn kehitys otti merkittäviä harppauksia ja toi uusia mahdollisuuksia tutkimusdatan anonymisointiin sekä tutkijoiden tekemän anonymisoinnin tarkistamiseen. Näiden ratkaisujen käyttökelpoisuutta selvitetään parhaillaan AIMS 2030 -hankkeessa.
Teksti: Tuomas J. Alaterä, kuvituskuva: tekoälyavusteisesti Tuomas J. Alaterä