Tekoäly tekstitiedostojen anonymisoinnin tarkistuksessa: Etevä avustaja asiantuntijan ohjauksessa
Tekoäly voi parhaimmillaan löytää tunnisteet ihmistä tarkemmin. Oikein ohjattu tekoäly voi nopeuttaa ja parantaa tutkimusaineistojen anonymisoinnin tarkistusta, kunhan se otetaan käyttöön harkiten ja tietosuojakäytännöt huomioiden. Toimintavarmuus kuitenkin vaihtelee.
Artikkeli on laadittu Tietoarkiston testiraportin pohjalta käyttämällä apuna Copilot 365 Researcher -agenttia.
Vaikka tekoälyn kyky löytää tunnisteet voi olla erittäin hyvä, ei se silti ole täysin toimintavarma apuri. Tämän vahvistivat Tietoarkiston FSD AIMS 2030 -hankkeessa tehdyt kokeilut tekoälyratkaisuista laadullisten tekstiainestojen anonymisoinnin tarkistamisessa. Kokeissa vertailtiin eri Copilot-työkaluja (Chat, Analyst, Researcher) sekä räätälöityä omaa agenttia anonymiteetin varmistamisessa. Tulokset osoittavat, että tekoäly voi nopeuttaa anonymisoinnin varmistusta, mutta asiantuntevaa ihmisen arviointia ja päätöksiä tarvitaan edelleen.
Taustaa testeistä
Tietoarkisto varmisti luvan tekoälyn käytölle anonymisoinnin tarkistuksessa Tampereen yliopiston lakitiimiltä. Tarkistettavat datatiedostot arvioitiin kuuluvaksi tietoluokkaan, joka mahdollistaa yliopiston tarjoamien tekoälytyökalujen käytön. Arkistoitavat datatiedostot ovat tutkijoiden jo anonymisoimia, Tietoarkistossa täytyy vain arvioida anonymisoinnin riittävyys ja johdonmukaisuus. Tutkijoiden ihmisiltä kerätty ja ihmisiä koskeva alkuperäinen, anonymisoimaton data taas sisältää todennäköisesti aina huomattavan määrän henkilötietoja ja erityisiin henkilötietoryhmiin kuuluvia tietoja. Niiden anonymisointiin tekoälysovelluksia ei toistaiseksi voi käyttää (tilanne syksyllä 2025).
Teimme Tietoarkistossa keväällä ja syksyllä 2025 sarjan testejä, joissa selvitettiin voisiko tekoälyä hyödyntää laadullisten haastattelulitteraattien anonymisoinnin tarkistamisessa. Kokeet kattoivat Copilotin työkaluja sekä lopulta myös täysin omaan käyttötarkoitukseen rakennetun agentin. Testiaineistona käytettiin kahta anonymisoitua haastattelulitteraattia. Ne olivat kooltaan 29 368 ja 25 134 merkkiä ilman välilyöntejä. Lisäsimme tiedostoihin testejä varten tunnisteita (esim. henkilönnimiä, paikkakuntia, organisaatioiden nimiä, ammattinimikkeitä). Lisätyistä tunnisteista tehtiin tarkistuksia varten listaukset, jotta pystyttiin arvioimaan kuinka hyvin kukin menetelmä tunnisteet löytää.
Testatut työkalut
- Copilot Chat – Yleisluontoinen tekoäly-chat.
- Copilot Analyst – Copilotin sisäänrakennettu agentti rakenteisemmalle datalle (esim. taulukot).
- Copilot Researcher – Copilotin "syväanalyysi"-agentti, joka pystyy hakemaan lisätietoja ja parantelemaan vastauksiaan.
- "Tekstien tunnistelistaaja" – Itse luotu agentti, räätälöity nimenomaan anonymisoinnin tarkistukseen listausmuodossa.
Seuraavissa osioissa käydään läpi kunkin työkalun toiminta, tulokset sekä havaitut vahvuudet ja rajoitukset anonymisoinnin tarkistuksessa. Yhteenvetona esitetään myös taulukko, jossa eri työkalujen suoriutumista verrataan keskenään.
Copilot Chat: Nopea chat-avustaja, rajallinen tunnisteiden löytäjä
Testasimme ensimmäisenä Copilot Chat -työkalua (Teamsin ja Office-sovellusten chat-toiminto). Annoimme sille tarkan kehotteen eli promptin, jossa pyydettiin etsimään kaikki henkilöt, paikat, organisaatiot ja ammattinimikkeet tekstistä ja merkitsemään ne tunnisteiksi tietyllä tavalla.
Tulokset olivat puutteellisia: Chat löysi vain osan tunnisteista. Kaikkia tavallisia etunimiä (kuten Hannu) se ei tunnistanut lainkaan, eikä myöskään kaikkia paikkakuntia (Lappeenranta, Kitee, Rovaniemi). Erilaiset kehotteen hienosäädöt eivät merkittävästi parantaneet tulosta.
Havainnot: Copilot Chat jätti kokonaan huomaamatta useita testiin lisättyjä tunnistetietoja. Tämä tarkoittaa, että jos sitä käyttäisi anonymisoinnin tarkistamiseen, osa henkilötiedoista voisi jäädä poistamatta.
Johtopäätös
Copilot Chat ei sellaisenaan sovellu litteraattien anonymisoinnin tarkistukseen, koska sen antamat tunnistehavainnot ovat puutteellisia.
Chat-työkalun vahvuus on ennemminkin nopeassa, yksittäisten tietojen hakemisessa ja yhdistelemisessä: se osaa hakea esimerkiksi tietyn hankkeen taustatiedot useista lähteistä yhden kysymyksen perusteella. Chat-työkalua voi siten käyttää anonymisoinnin suunnittelussa. Sen avulla voi esimerkiksi selvittää, onko haastattelussa mainittu organisaatio paikallinen vai valtakunnallinen. Tällaisessakin käytössä käyttäjän on syytä vahvistaa Chatin antamat tiedot luotettavista lähteistä, sillä joukossa voi olla virheitä tai hallusinaatioita.
Copilot Analyst: Rakenteisen datan työkalu ei taivu tekstiin
Seuraavaksi kokeilimme Copilot Analyst -agenttia, joka on Microsoft 365 Copilotin sisäänrakennettu työkalu taulukkomaiselle datalle. Analyst on suunniteltu esimerkiksi Excel- ja CSV-tiedostojen analysointiin ja se pystyy myös optimoimaan vastauksiaan iteratiivisesti, joskin tämä tekee siitä hitaamman kuin Copilot Chat.
Odotuksemme olivat matalalla, sillä anonymisoinnin tarkistus kohdistuu vapaamuotoiseen tekstiin. Analystille annettiin vastaava listauspyyntö kuin Chatille – listaa kaikki henkilönimet, paikat, organisaatiot ja ammatit esiintymisjärjestyksessä tekstistä.
Tulokset olivat jälleen vajavaiset: agentti tuotti kyllä listoja erikseen eri kategorioista (esim. paikkakunnat erikseen, organisaatiot erikseen), mutta jokaisesta listasta puuttui osia – toisin sanoen se jätti joitain tunnisteita tunnistamatta.
Suoritus kesti noin 2–3 minuuttia per tiedosto, eli hieman pidempään kuin Chat, koska Analyst ilmeisesti käy läpi aineistoa perusteellisemmin.
Havainnot: Yhdessä testissä Analyst kyllä erotteli tekstistä henkilöiden ja paikkojen nimet omiin osioihinsa, mutta esimerkiksi erään henkilön sukunimi jäi listalta pois kokonaan. Samoin muutamia organisaation nimiä ei ilmestynyt listaukseen lainkaan. Nämä aukot tarkoittavat, että Analystin varaan ei voi jättää tunnisteiden täydellistä löytymistä.
Johtopäätös
M365 Copilot Analyst ei sovellu laadullisen tekstiaineiston anonymisoinnin tarkistamiseen, sillä sen tuottamat listat olivat puutteellisia samaan tapaan kuin Copilot Chatinkin. Tämä on ymmärrettävää, sillä Analyst on suunniteltu ensisijaisesti jäsentyneen, numeerisen datan käsittelyyn, ei pitkien vapaan tekstin dokumenttien lukemiseen.
Analystia testataan jatkossa Tietoarkistossa kvantitatiivisten aineistojen anonymisoinnin ja muun käsittelyn tukena.
Copilot Researcher: Syväanalyysi löydöksineen – tarkka mutta hidas
Copilot Researcher on edistyneempi agentti, joka kykenee tekemään syväanalyysiä: se voi tarpeen mukaan hakea taustatietoja internetistä ja iteroida vastauksiaan parantaakseen lopputulosta.
Odotimme, että Researcher suoriutuisi tunnisteiden löytämisestä paremmin kuin Chat tai Analyst – ja niin kävikin, tosin tietyin varauksin.
Tunnisteiden merkitseminen suoraan tekstiin
Ensin kokeilimme lähestymistapaa, jossa Researcher pyydettiin merkitsemään tunnisteet suoraan tekstiin tiettyjen merkkien avulla. Koska agentti voi verkosta hakemalla täydentää tietämystään, ja se myös arvioi omaa vastaustaan ennen lopettamista, jokainen ajo oli varsin hidas. Esimerkiksi sen merkitessä kaikki henkilön- ja paikannimet #-merkillä tekstin sekaan, lopputuloksen saaminen kesti reilusti yli tunnin.
Tuloksena saatu merkitty litteraatti oli kuitenkin täydellinen: Researcher löysi kaikki pyydetyt nimet, jopa paikannimen muodossa "Espoosta", joka oli jäänyt testaajilta itseltään huomaamatta valmistellussa tarkistuslistassa.
Tehtävää jatkettiin useilla eri tunnistetyypeillä. Kun pyydettiin merkitsemään organisaatioiden nimet ja ammatit tekstissä, myös siinä Researcher löysi kaiken – tosin se tulkitsi joitakin sanoja tunnisteiksi liiankin herkästi. Esimerkiksi sanat "päivystäjä", "esimies" ja "päällikkö" merkittiin tunnisteiksi, vaikkeivät ne testiaineistossa viitanneet tiettyyn anonymisoitavaan henkilöön tai organisaatioon.
Tekoäly siis noudatti ohjeita kirjaimellisesti, mikä johti ylimääräisiin "tunnisteisiin", jotka ihmislukija todennäköisesti jättäisi anonymisoimatta.
Kolmannessa kokeessa annettiin hyvin kattava kehote, jossa pyydettiin merkitsemään kaikki mahdolliset henkilöt, organisaatiot, ammatit ja paikat tuplahakasulkeilla [[...]] tekstin sisään, ja palauttamaan sama teksti hakasulkeiden kera. Tämä suoritus kesti noin 1 tunnin 15 minuuttia ja tuotti jälleen kattavan tuloksen.
Researcher antoi lopuksi vielä yhteenvedon löytämistään tunnisteista ja palautti koko litteraatin siten, että jokainen tunnisteen esiintymä oli hakasulkeissa. Tulos oli hyvin tarkka – tekoäly löysi jopa kaksi testiin lisättyä paikkakuntaa (Nuorgam ja Kilpisjärvi), jotka eivät olleet päätyneet ihmisten tekemään tarkistuslistaan. Myös esimerkiksi Elviksen kuunteluun viittaava kohta tekstissä merkittiin kuten kuuluikin eli Elvis tunnistettiin erisnimeksi.
Kääntöpuolena edellä mainitussa lähestymistavassa on, että Researcher merkitsee tunnisteiksi myös huomattavan paljon sellaista, mitä ei oikeasti tarvitsisi anonymisoida. Kuten todettu, se leimaa varmuuden vuoksi esimerkiksi yleiset ammattinimikkeet ja valmiiksi anonymisoidut aluetiedot (kuten "naapurikaupunki") tunnisteiksi, vaikka niitä ei tarvitsisi anonymisoinnissa poistaa.
Tämä tarkoittaa, että jos käyttäjä saa takaisin koko tekstin täyteen merkittynä, hänen on käytävä se läpi ja poistettava turhat hakasulkeet niistä kohdista, jotka eivät oikeasti olleet tunnisteita. Se hidastaa työprosessia. Lisäksi tekoälyn avulla suora tekstin muokkaus on raskasta: yli tunnin odotus per tiedosto on käytännössä liian pitkä.
Johtopäätös (Researcher, merkinnät tekstiin)
Tunnisteiden merkitseminen suoraan tekstiin onnistuu täydellisesti, mutta tuottaa runsaasti ylimääräisiä merkintöjä ja on menetelmänä hidas. Suuria tekstejä käsiteltäessä on varauduttava jopa tuntien odotusaikaan. Menetelmä ei siis ole erityisen tehokas.
Tunnisteiden listaaminen erilliseen listaan
Päättelimme, että parempi tapa voi olla tunnisteiden listausten tuottaminen sen sijaan, että niitä merkittäisiin suoraan tekstiin. Näin vältytään tekstin hitaalta muokkaukselta: saadaan vain lista kaikista löydetyistä tunnistetyyppisistä ilmauksista, ja data-asiantuntija voi listasta tarkistaa, mitkä tunnisteet on jo anonymisoitu [hakasulkeissa] ja mitkä vaativat toimenpiteitä.
Ensimmäinen listauskokeilu tuotti heti lupaavia tuloksia. Researcher-agentti palautti nimet, paikat, organisaatiot ja ammatit esiintymisjärjestyksessä yhdessä listassa, täsmälleen pyydetyssä muodossa. Tuloksesta tuli käytännössä liki täydellinen – "pääkokki" ja "turkulainen" ei ensimmäisellä kerralla ilmestynyt tuloslistaan. Kun kehotetta täydennettiin maininnalla, että myös esimerkiksi oululainen tai muu kotipaikkaan viittaava muotoilu lasketaan paikkatiedoksi, saatiin toisella ajolla myös turkulainen listaukseen, mutta pääkokki puuttui edelleen.
Toisen ajon tarkkuus oli siis erinomainen, mutta se vaati jo 35 minuuttia laskentaa – listausmenetelmäkin voi viedä aikaa, jos kehote on hyvin laaja. Lopputuloksena Researcher antoi listan, jossa olivat kaikki tunnisteiksi tulkittavat ilmaukset (paitsi pääkokki), myös toistot, alkuperäisessä sijamuodossa. Listalta pystyi selkeästi erottamaan, mitkä kohdat tutkija oli jo anonymisoinut, koska ne esiintyivät hakasulkeissa, esim. [Kansalaisjärjestö] ja mitkä olivat sellaisia, jotka pitäisi vielä anonymisoida.
Tällaista listaa hyödyntämällä dataa tarkastava henkilö voi nopeasti poimia ne kohdat, joissa anonymisointi on mahdollisesti vielä kesken, ja tehdä tarvittavat toimenpiteet aineistoon.
Copilot Researcher toimii erittäin hyvin tekstitiedostojen anonymisoinnin tarkistuksessa listausmuodossa. Tekoäly löysi käytännössä lähes kaikki tunnisteet, myös sellaisia joita ihmissilmä ei ollut huomannut. Merkittävä haittapuoli on varsin pitkä odotusaika per tiedosto (tyypillisesti kymmenistä minuuteista jopa tuntiin).
Researcher-ohjatun anonymisoinnin testi
Pyysimme Copilot Researcheria myös anonymisoimaan testitekstin alusta loppuun Tietoarkiston aineistonhallinnan käsikirjan anonymisointiohjeiden perusteella. Annoimme agentille linkin julkisiin ohjeisiimme ja kehotimme sitä merkitsemään tunnisteet hakasulkeisiin käsikirjaohjeen mukaisesti.
Researcher osasi kysyä tarkentavia kysymyksiä (esim. voiko iän säilyttää, miten epäsuorat tunnisteet käsitellään) ennen aloittamista, joihin vastaamalla saimme prosessin käyntiin. Lopputulos valmistui 45 minuutissa: tekoäly tuotti taulukon, jossa se näytti esimerkkien kera, mitä alkuperäisestä ilmauksesta tuli anonymisoituna (esimerkiksi "Härmän Liikenne Oy:n" → "[yritys]n") ja antoi anonymisoidun tekstin.
Researcher noudatti ohjeita melko hyvin – se esimerkiksi korvasi kaikki erisnimet muotoon [[henkilön nimi]]. Samalla ilmeni kuitenkin, että ihmiskäsittelijä tekisi joitakin asioita toisin: tekoäly jätti tekstiin tarkan kuvauksen erään henkilön työhistoriasta (useita ammattinimikkeitä peräkkäin), koska ne olivat sinänsä yleisiä ammatteja, mutta todellisuudessa ne saattavat yhdessä paljastaa henkilöllisyyden. Todennäköisesti jo tutkija olisi karkeistanut tällaiset tiedot. Lisäksi havaittiin, että tekoäly ei poistanut aivan kaikkia paikannimiä, joita alkuperäinen tutkija tai Tietoarkisto olisi poistanut – muutama kaupunki mainittiin yhä sellaisenaan, koska Copilot noudatti ohjeita sallien joitain paikkakuntia, jos ne eivät yksinään olleet tunnisteellisia.
Johtopäätös
Researcher pystyy teknisesti anonymisoimaan tekstin ohjeiden mukaan, mutta se ei korvaa ihmistä. Lopputulosta täytyy kriittisesti arvioida ja sen tekeminen vie aikaa.
Oma agentti "Tekstien tunnistelistaaja": Räätälöity nopeuteen ja tarkkuuteen
Testien edetessä kehitimme ratkaisun, joka yhdistää Researcher-agentin tarkkuuden ja listausmenetelmän, mutta toimii nopeammin: loimme oman Copilot-agentin nimeltä "Tekstien tunnistelistaaja". Tämä on käyttäjän määriteltävissä oleva agentti, jolle annetaan tarkat ohjeet tehtävän suorittamista varten.
Tekstien tunnistelistaajan tehtäväksi määrittelimme:
Ohjeissa täsmennettiin tarkasti kaikki anonymisoitavat tunnistetyypit (henkilönimet, ammatit, tutkinnot, organisaatioiden nimet, projektien nimet, paikkakunnat, ikään viittaavat maininnat, harvinaiset sairaudet, ym.). Lisäksi korostettiin, että myös hakasulkeissa olevat (jo anonymisoidut) tiedot tulee sisällyttää listaan hakasulkeineen. Agentille annettiin taustatieto, että lähtökohtaisesti tutkija on jo anonymisoinut aineiston Tietoarkiston ohjeiden mukaan.
Agentti toimii siis eräänlaisena automaattisena tarkistuslistan luojana , jonka tuottaman listan perusteella data-asiantuntija voi tehdä lopullisen tarkastuksen.
Kokeilu testiaineistolla
Ensin kokeilimme omaa agenttiamme samalla testilitteraatilla, jota oli käytetty Researcher-kokeissa. Tulokset olivat erittäin lupaavia: lista valmistui alle minuutissa, ja se sisälsi samat tunnisteet kuin Copilot Researcherin listausmenetelmä. Toisin sanoen tarkkuus oli lähes täydellinen, tosin edelleen listalta puuttui pääkokki ammatti.
Agentin listauksessa oli mukana myös paljon sellaista, mikä ei ole arkistoinnin kannalta anonymisoitavaa tietoa, mutta joka agentin ohjeiden mukaan laskettiin tunnisteeksi. Listalla näkyi "Kirjasto", "Tuntematon sotilas", "Museo" ym. dokumentissa mainittuja asioita, jotka eivät ole henkilötietoja. Ylimääräinen tieto ei ole ongelma, sillä datan käsittelijä voi listasta yksinkertaisesti ohittaa sellaiset kohdat, jotka selvästi eivät liity tunnisteellisuuteen. Esimerkiksi Tuntematon sotilas on ohjeen mukainen tunniste, sillä agentin pitää löytää opinnäytteiden ja muiden teosten nimet. On jopa hyödyllistä nähdä listasta kaikki erikoisetkin termit, koska ne kiinnittävät datan käsittelijän huomiota kaikkiin epäsuoriin tunnistetietoihin.
Oikean aineistotiedoston tarkistus
Viimeisenä ja tärkeimpänä kokeena sovelsimme kehittämäämme agenttia oikeaan tutkimusaineistoon. Valitsimme erään vuonna 2025 arkistoitavaksi tarjotun haastatteluaineiston, jonka tutkija oli kertonut anonymisoineensa. Ennen agentin ajamista teimme esitarkastuksen aineiston kahdelle satunnaiselle tiedostolle. Tarkastuksen perusteella aineisto näytti hyvin anonymisoidulta (ei ilmeisiä oikeita nimiä tekstissä, vain joitain hakasulkein merkittyjä paikkoja ja nimiä). Tämän jälkeen ajoimme Tekstien tunnistelistaaja -agentin yhdelle satunnaisesti valitulle haastattelutiedostolle.
Agentti tuotti tunnistelistan alle minuutissa. Listalle kertyneet ilmaukset vahvistivat, että aineisto oli anonymisoitu onnistuneesti: Listan alussa näkyi kaksi oikeaa nimeä (haastatteludokumentin metatiedoissa olleet anonymisoijan ja haastattelijan nimet) ja yksi organisaatio (Tutkimustie Oy litteroinnin toteuttajana), mutta kaikki muut henkilönnimet listalla olivat hakasulkeissa (esim. [Johannes], [Maria]), eli ne olivat tutkijan käyttämiä keksittyjä nimiä oikeiden tilalla.
Samoin ikä- ja paikkakuntatiedot oli listalla merkattu hakasuluin luokitelluiksi ([60–69 vuotta], [pienen kunnan 1] jne.) Siis nekin tutkija oli anonymisoinut onnistuneesti. Agentti löysi myös paljon yksittäisiä tunnisteita, joissa esiintyi esimerkiksi jokin yleinen ammatti ilman hakasulkeita (perhehoitaja, esimies). Ylimääräiset tunnisteet eivät haittaa tarkistustyötä, sillä kokenut datan käsittelijä osaa kyllä poimia kohtuullisen nopeasti tarkemmin arvioitavat tunnisteet listasta. Testin perusteella käsiteltyyn datatiedostoon ei tarvinnut tehdä enää lisäanonymisointia.
Tämän testin perusteella oma agenttimme suoriutui tehtävästään erinomaisesti reaalidatan kohdalla: se vahvisti nopeasti sekä anonymisoinnin onnistumisen että poimi esiin kaikki olennaiset kohdat tarkistettavaksi. Räätälöity Tekstien tunnistelistaaja -agentti osoittautui parhaaksi keinoksi anonymisoinnin tarkistukseen. Se löysi aivan yhtä laajasti tunnisteet kuin Copilot Researcher.
Johtopäätös
Kokonaisuutena itse luotu Tunnisteiden listaaja -agentti on hyvä apuri: sen tuottama lista toimii erinomaisena pohjana anonymisoinnin tarkistukselle. Lisäksi agentin ohjeistusta voi tarvittaessa muokata aineistokohtaisesti – esimerkiksi jos tiedetään, että tietyntyyppisiä tunnisteita ei esiinny tai halutaan lisätä jokin kategoria, ohjeita voi säätää ennen ajoa.
Yhteenveto: Tekoälytyökalujen vertailu tunnisteiden löytämisessä
Alla olevaan taulukoon on koostettu eri työkalujen suoriutuminen tunnisteiden tunnistustehtävässä testiemme perusteella:
| Työkalu | Tunnisteiden löytäminen | Käsittelyaika | Huomiot |
|---|---|---|---|
| Copilot Chat | Puutteellinen – löysi vain osan tunnisteista; monet nimet ja paikannimet jäivät huomaamatta. | Sekunteja per tiedosto (nopea vasteaika). | Ei sovellu anonymisoinnin tarkistukseen. Soveltuu paremmin yksittäisten tietojen nopeaan hakemiseen kuin systemaattiseen tunnisteiden etsintään. |
| Copilot Analyst | Puutteellinen – listasi joitakin tunnisteita, mutta jokaisesta kategoriasta jäi tietoja puuttumaan. | 2–3 min per tiedosto | Ei sovellu tekstimuotoisen aineiston tarkistukseen. Suunniteltu numeeriselle datalle, joten saattaa toimia kvantitatiivisten aineistojen anonymisoinnissa ja muussa käsittelyssä, muttei testattu vielä. |
| Copilot Researcher |
Erittäin kattava – löysi lähes kaikki
tunnisteet (myös sellaisia mitä ihminen ei huomannut.
Ainoastaan yksittäisiä erikoistapauksia (esim. "pääkokki") jäi löytämättä |
10–15+ min listauksena (voi venyä >30
min riippuen promptista)
1 h+ jos merkitään suoraan tekstiin |
Hyvin tarkka ja perusteellinen. Listausmuoto suositeltava – helpompi tulkita ja hyödyntää. Hidas: vaatii odottelua, joten työaika organisoitava sen mukaan. Merkitsee paljon "turhia" tunnisteita, jos ohjetta ei rajata (ihmisen pitää suodattaa). |
| Oma agentti ("Tekstien tunnistelistaaja") | Erittäin kattava – löysi samat tunnisteet kuin Researcher-listauskin. | Alle 1 min per tiedosto (huomattavan nopea) | Tarkka ja nopea yhdistettynä. Noudattaa ohjeita kirjaimellisesti: tuottaa myös ei-anonymisoitavia termejä listalle, jotka käsittelijä voi ohittaa. |
Taulukosta nähdään selvästi, että Copilot Chat ja Analyst eivät kykene tarjoamaan kattavaa tunnisteiden löytämistä – ne eivät löytäneet monia olennaisia tietoja. Copilot Researcher sen sijaan löysi kaikki tunnisteet erittäin tarkasti, mutta sen käytettävyys kärsii hitaudesta ja siitä, että se tuottaa ison määrän dataa, joka vaatii tulkintaa. Oma agenttimme yhdisti parhaat puolet: se saavutti Researcherin tason tarkkuudessa lähes Chat-työkalun nopeudella.
Johtopäätökset ja varoituksen sanat
Kokonaisuutena testitulokset osoittavat, että Copilot-työkalujen välillä on selviä eroja anonymisoinnin tarkistuksessa. Copilot Chat ja Copilot Analyst eivät pystyneet tunnistamaan läheskään kaikkia tunnisteita, joten ne eivät sellaisenaan sovellu laadullisten tekstien anonymiteetin varmistamiseen.
Copilot Researcher löysi puolestaan käytännössä lähes kaikki tunnistetiedot – jopa sellaisia, jotka ihmissilmältä jäivät huomaamatta – mutta sen käyttö on hyvin hidasta ja tuottaa runsaasti ylimääräistä dataa tulkittavaksi. Sen sijaan räätälöity oma agenttimme "Tekstien tunnistelistaaja" yhdisti parhaat puolet: se saavutti lähes Researcherin tason tarkkuudessa, mutta suoriutui tehtävästä alle minuutissa per tiedosto.
Tekoälyn avulla voi nopeuttaa merkittävästi anonymisoinnin tarkistustyötä. Sen sijaan että datan käsittelijä lukisi läpi 40 sivun haastattelulitteraatin, hän voikin arvioida anonymisoinnin tarkistuslistauksen kanssa. Kokonaan automatisoidusta tarkistuksesta ollaan silti vielä kaukana. Ihmisen pitää joka tapauksessa arvioida, mitkä tunnisteet ovat poistettavia tai muokattavia ja mitkä eivät. Se taas onnistuu parhaiten etsimällä tunnisteen konteksti litteraatista.
Vaikka tekoälystä voi olla suurta apua, kielimalleihin perustuvana siinä on myös puutteita. Siinä missä algoritmeihin pohjautuvat ohjelmat toimivat jokseenkin loogisesti ja varmasti, kielimalliin perustuva tekoäly ei aina toimi. Jonain hetkenä agentti jumittaa alinomaa jonkun tiedoston tarkistuslistauksen tuottamisen kanssa: aluksi lista tulostuu normaalisti ja sitten listaus alkaa toistaa yhtä sanaa loputtomiin. Seuraavana päivänä agentti taas tuottaa saman tehtävän samalla tiedostolla nopeasti ilman ongelmia. Toisinaan listauksessa on jotkut tunnisteet mainittu vain kerran tai muutaman kerran, eikä esiintymisjärjestyksessä joka kerta toistuen, kuten agentin ohje määrää. Näin eri ajokertojen välillä tunnistelistausten sisältö vaihtelee eli välillä listaus on lyhempi välillä pidempi, vaikkei agentti jäisi jumiin.
Toimintavarmuuden sijasta tekoälyn käyttäjän pitää hyväksyä satunnainen epävarmuus. IT-heldesk ei voi tässä auttaa. Ratkaisemattomaksi arvoitukseksi testeissä jäi myös se, miksi tekoäly ei tunnistanut litteraatista 'pääkokkia' ammatiksi. Pääsuunnittelijan ja käsikirurgin se kyllä tunnisti eli kyse ei ole siitä, että ammatti, jonka nimen alussa on ruumiinjäsen tuottaisi sille analyysiongelmia.
Tulokset vahvistavat, että huolellisesti ohjattu tekoäly voi nopeuttaa anonymisoinnin riittävyyden tarkistusta – kunhan sitä hyödynnetään harkiten ja noudatetaan tietosuojakäytäntöjä. Yliopistojen tiedonluokittelun soveltaminen on ensimmäinen askel, kun harkitaan datatiedostojen käsittelyä ja tarkistusta tekoälyavusteisesti.
Kuva: pxhere.com