Kuinka olla enemmän FAIR?
Tietoarkiston askeleita

Kukapa ei haluaisi olla FAIR, tai vielä enemmän FAIR? Tätä saa pähkäillä useampikin data-arkistoalalla toimiva näinä päivinä. Ja tutkija, joka hyödyntää arkistojen palveluita, joutuu ehkä itsekin miettimään, ovatko hänelle tarjolla olevat datan hoivapalvelut toteutettu siten, että FAIR-periaatteet on otettu huomioon. Tietoarkisto on kevään aikana tehnyt muutoksia, joiden myötä olemme enemmän FAIR.

FAIR steps illustrated as letters F A I and R as stepping stones on top of a computer matrix. Image: Tuomas J. Alaterä CC BY 4.0

European Open Science Cloud (EOSC) on avointa tiedettä edistävä infrastruktuuri. EOSC-Nordic on hanke, joka pyrkii edistämään EOSCille merkityksellisiä tavoitteita Pohjoismaissa ja Baltiassa. Yksi näistä tavoitteista on laatia suosituksia, joilla edistää FAIR-periaatteiden toteutumista.

Tietoarkisto osallistuu hankkeessa näiden suositusten laatimiseen. Tätä tavoitetta varten hankkeessa on tehty laaja kartoitus siitä, miltä digitaalista tutkimusdataa säilyttävien arkistojen nykytila näyttää, kun niitä tarkastellaan FAIR-kypsyyttä mittaavin kriteerein.

FAIR on varmasti jo kaikille tutkimusaineistojen hallinnan tai avaamisen alalla toimiville tuttu lyhenne. Ehkä jo niin tuttu, että siihen viitataan liki itsestään ja samalla todeten, että tavoitteena on olla joko FAIR tai vielä FAIRimpi. Yleinen ymmärrys on, että FAIR on avoimuutta ja aineistojen uusiokäyttöä edistävä, tavoiteltava asiaintila. Itse kuusitoista ohjaavaa FAIR-periaatetta, jotka jakaantuvat tutkimusaineistojen löydettävyyden, saatavuuden, yhteentoimivuuden ja uudelleenkäytettävyyden sektoreille, ovat vähemmän tunnettuja kuin yleinen tavoite.

Vaikka periaatteet ovat heti ensilukemalta ymmärrettäviä, on niiden takana sangen tekninen ajatuskehikko, jonka saattaminen konkreettiseksi osaksi palvelua ylittää normaalin aineistonhallinnan piirissä tehtävän työn. Tarvittava tietosisältö syntyy, mutta sen saaminen julki on erillinen haaste. FAIR-periaatteilla tavoitellaan erityisesti sitä, että (tieto)koneet voivat edistää tutkimusaineistojen uudelleenkäyttöä. Yksinkertaisemmin tämä tarkoittaa sitä, että kone löytää aineiston ja tietää löytämänsä olevan saatavilla, yhdistettävissä ja siirrettävissä sekä uudelleen käytettävissä. Mutta koneen ja ihmisen näkö- tai lukukyky eivät välttämättä käy yksiin.

Tavallinen virhepäätelmä on, että FAIR-data ja avoin data ovat toistensa synonyymejä. Sukulaisuussuhde näillä on, mutta data (tai sen tuottamiseen kehitetty menetelmä tai koodi) voi olla hyvin rajoitetusti saatavilla, mutta silti täysin FAIR. Oleellista on, että kone ja ihminen voivat tietää aineiston olemassaolosta, niistä ehdoista, jolla sen voi saada käyttöönsä, ja mitä sen käyttäminen vaatii. Määritelmät saavat olla sidoksissa tieteenalaan ja tutkimusyhteisön määrittelemiin käytäntöihin. Niiden ei tarvitse olla yleisesti sitovia.

Kuinka mitata FAIR-kypsyyttä?

Tietoarkistossa olemme kuratoineet ja kuvailleet tutkimusaineistoja kaksi vuosikymmentä. Olemme aktiivisesti osallistuneet metatietomallien kehittämiseen, sanastotyöhön ja aineistojen avoimuuden ja löydettävyyden edistämiseen. Tekemämme metatietokuvaukset ovat rikkaita ja avoimesti saatavilla CC BY 4.0 -lisenssillä. Tiedämme niitä haravoitavan useampaan yhteisluetteloon. Nämä ovat kaikki alueita, joita FAIR-ajattelu pyrkii edistämään.

Kun toimija asettaa tavoitteekseen olla enemmän FAIR, tulisi seuraavan loogisen kysymyksen olla "Miten se mitataan?" Koska periaatteet ovat luonteeltaan ohjaavia, eivät vaadi käytettäväksi tarkasti määriteltyjä yleisiä standardeja ja lisäksi tieteenalan käytänteet ja määritelmät FAIRille vaihtelevat, mittaaminen ei ole yksinkertaista. FAIR ei myöskään ole "joko tai", vaan paremminkin "enemmän tai vähemmän".

Maturity Indicator Authoring Group on kehittänyt 22 kypsyysmittaria, joiden avulla mittaamista lähestyä. Nämä testit voi kohdistaa mihin tahansa verkossa olevaan digitaaliseen objektiin. Järjestelmä tekee testit täysin automaattisesti ja palauttaa lopputuloksena tiedon siitä, kuinka moni testi onnistui, ja miksi. Testi ei yritäkään tulkita löytämäänsä ihmismäisesti, ainoastaan koneellisesti.

Kypsyystason määrittely EOSC-Nordic-hankkeessa

EOSC-Nordic-hankkeessa arkistojen digitaalisten objektien arviointi on rakennettu näiden testien varaan. Ensimmäisessä vaiheessa isolla kammalla valittiin mukaan pitkälti toista sataa toimijaa, joilla on kokoelmissaan tutkimusaineistoa. Seuraavassa vaiheessa kustakin arkistosta pyrittiin tunnistamaan vähintään kymmenen digitaalista objektia, joiden kypsyyttä voitiin arvioida. Tämä oli työllistävä vaihe, sillä yksittäisen datan löytäminen ei ollut lainkaan niin yksiselitteistä kuin voisi luulla. Moni yksikkö putosi tässä vaiheessa pois esimerkiksi siksi, että avointa aineistosta kertovaa metadataa ei löytynyt.

Testitulosten perusteella on laskettu keskimääräiset "FAIR-pisteet". Testauksessa otettiin huomioon myös keskihajonta eri testattujen objektien tulosten välillä. Näiden lukujen valossa ei voi tehdä pitkälle meneviä johtopäätöksiä, mutta ne antavat suuntaa sille, kuinka hyvin arkisto kykenee esittämään tietosisältönsä koneluettavassa muodossa. Siis kuinka hyvin kone voi "ymmärtää" minkälaisen toimijan kanssa se keskustelee, ja mitä dataa sille on tarjolla.

Ristiriitaisia tunnelmia ensimmäisistä tuloksista

Testeissä FAIR-periaatteet on pilkottu osatesteiksi. Ne pyrkivät emuloimaan sitä, miten tietokone lähestyy kohdettaan. Testeissä etsitään koneluettavaa (meta)dataa ja siitä piirteitä, jotka tukevat periaatteissa mainittuja ominaisuuksia. Esimerkiksi, että (meta)datalla on ainutkertainen ja pysyvä tunnus, (meta)dataan pääsee käsiksi käyttäen yleisesti tunnettuja yhteysprotokollia, (meta)datan kuvailuun käytetään avoimia ja koneluettavia sanastoja ja lisenssit ja käyttöehdot on määritelty.

Tiedämme, että Tietoarkistossa on paljon laadukasta metadataa, joka rikkaasti kuvailee monipuolisen aineistokokoelmamme. Tiedämme, että olemme vähintään tyydyttävästi FAIR.

Siksi, kiistämättä, olimme pettyneitä, että ensimmäiset kypsyystasotestit antoivat tuloksia, jotka vain hädin tuskin ylittivät minimitason. Saimme 4/22 pistettä. Ei syytä kuohujuomaan.

Toki huomasimme heti, että suuri osa testeistä epäonnistui, koska järjestelmä ei tunnistanut valitsemaamme tapaa ilmaista testattavia asioita. Tästä esimerkkeinä ovat tuottamallemme metadatalle antamamme lisenssitieto ja koneluettavassa muodossa tarjoamamme XML. Testi ei tunnistanut näistä kumpaakaan. Olemme jo pitkään määritelleet selkeät käyttöehdot sekä datalle että metadatalle - ja metadatan lisensointi data-arkistoissa on vielä verrattain harvinaista. Toimintatavan pitäisi olla hyvinkin FAIR-periaatteiden mukaista.1

Lähempi tarkastelu antaa toivoa paremmasta

Kun tarkastelimme tarkemmin, totesimme, että aineistoluettelossa lisenssi oli kuvattu ihmisten kielellä - tavallisella HTML-merkkauksella. Kone ei siitä välittänyt, vaan poistui yhtä tietämättömänä kuin oli saapunut. Kun lisäsimme metadataan tiedon lisenssistä käyttäen Creative Commonsin kehittämää standardoitua tapaa kuvailla lisenssejä ohjelmistojen ymmärtämällä tavalla, testi meni onnistuneesti läpi.

Sama koski XML-tiedostoa - kone ei sitä käsitellyt, koska testiä ei ollut kehitetty huomioimaan tätä ilmaisutapaa. Tämä ei tarkoita, että kumpikaan osapuoli olisi välttämättä väärässä. Jos käytäntömme vastaisi jotain yhteisökohtaista määrittelyä sille, miten kuvailla FAIR-metadata koneluettavasti, voisi kyseinen testi olla toisenlainen ja tulos sen mukainen.

Vastaavalla tavalla tarkastelimme jokaista yksittäistä testiä. Totesimme, että laadukkaat aineistokuvailumme olivat koneelle vaikeita tulkita. Ratkaisu oli tämän perusteella ilmeinen. Rikastimme metatietokuvauksia upottamalla niihin aineistoa kuvaavaa linkitettyä dataa käyttäen JSON-LD-formaattia ja schema.orgin datatyyppejä. Muutos ei näy millään tavalla tutkijalle, joka saapuu Ailaan tutustumaan aineistonkuvailuun. Tieto on tarjolla vain koneelle.

Seuraus kypsyystasomittauksessa oli huomattava. Uusimmissa testeissä tuloksemme oli 17/22. (Kuohujuoma odottaa aikaa, jolloin työyhteisön on turvallista kokoontua täysimääräisenä työpaikalle.)

EOSC-Nordicissa olemme jo esittäneet, että joitain asioita voitaisiin kypsyystesteissä mitata toisin. Toisaalta yleiset testit voivat joustaa vain tiettyyn rajaan asti. Osa tuloksista pitää tulkita FAIR-hengessä, eikä testin kirjaimen mukaan. Siten esimerkiksi tulkitsemme, että aineistoille antamamme URN-tunnus on pysyvä, vaikka tunnuksen pysyvyyttä mittaavan testin spektriin se ei kuulu.

Mitä opimme?

Maailmalla on monia etabloituneita ja laadukkaita data-arkistoja. Monet niistä ovat vuosikymmeniä olleet tutkimusaineistojen uudelleenkäytön - ja koneluettavuuden - eturintamassa. Siksi heikot tulokset testissä voivat ensireaktiona ajaa siilipuolustukseen. On selvää, että osaamista ei voikaan yksinkertaisesti typistää kypsyystasotestiin. Testillä on sisällölliset ja tekniset rajoitteensa.2.

On silti terveellistä tarkastella, miten hyvin tehty työ näkyy asiakkaisen ohella koneelle. Epäilemättä vaatimukset metadatan koneluettavuudelle tulevat kasvamaan. Uusia palveluita rakennetaan tämän oletuksen varaan.

Suuri osa vaadittavista muutoksista on pohjimmiltaan yksinkertaisia, toteutettavissa käyttäen arkiston jo tuottamaa metatietoa ja valmiita skeemoja. Vaikeuskerroin kasvaa, jos käytössä olevan aineistoluettelon taustajärjestelmä ei tue näitä. Tie FAIRimpaan huomiseen käy sisältöasiantuntijan ja teknisen asiantuntijan työtilojen kautta.

Tavoitetta ei kannata asettaa minimitasolle. Datan avoimuuden edistäminen edistää myös joissain testeissä menestymistä. Monet testit voi läpäistä tarjoilemalla vain hyvin vähän, osin jopa merkityksetöntä, metadataa. Tämän tien valitsevalla keisarilla ei ole vaatteita.

Tietoarkistossa tiesimme, että voimme olla FAIR ja halusimme, että se näkyisi myös arvioinnissa. Halusimme myös, että tekemämme muutokset aidosti edistävät aineistojemme käytettävyyttä. Siksi kerromme koneluettavassa muodossa linkitettynä datana perustiedot tutkimusaineistosta, tekijöistä, julkaisuajankohdasta, aineiston käyttöehdoista ja aineistolle annetuista tunnisteista - kaiken, jolla arvioimme koneen osaavan kertoa loppukäyttäjälle, mitä meillä on tarjota.

1Ks. periaate R1.1. (Meta)data are released with a clear and accessible data usage license.

2Testi operoi ainoastaan REST-rajapinnan kautta - siis käytännössä vaatii, että digitaalinen objekti on testattavissa HTTP:n yli. Se ei huomioi vaihtoehtoisia rajapintoja, kuten OAI-PMH tai SOAP.

Teksti ja kuvitus (CC BY 4.0): Tuomas J. Alaterä (hyödyntäen OpenClipart-Vectors - Pixabay ja Pxfuel)

Kirjoittajasta

Tuomas Alaterä työskentelee Tietoarkistossa IT-palveluasiantuntijana. Hänen erityisosaamisalueisiinsa kuuluvat viestintä, avoin tiede, verkkopalvelut ja digitaalinen pitkäaikaissäilyttäminen. EOSC-Nordic-hankkeessa hän on mukana data-arkistojen FAIR-kyvykkyyden lisäämistä ja sertifiointia edistävissä työpaketeissa.