Valmistautuminen CESSDA ERIC -jäsenyyteen (VERIC)

Yhteiskuntatieteellinen tietoarkisto on vuonna 2013 solmitun eurooppalaisten tietoarkistojen tutkimusinfrastruktuurikonsortion, CESSDA ERIC:n (Consortium of European Social Science Data Archives) kansallinen palveluntuottaja. Täyttääkseen CESSDAn asettamat täysjäsenyysvaatimukset tietoarkisto uudistaa ja vahvistaa toimintojaan VERIC–hankkeessa.

Hanke täydensi vuonna 2010 alkanutta Tietoarkisto 2015 -hanketta. VERIC toteutti kolme erillistä, mutta toisiinsa nivoutuvaa osa-kokonaisuutta: uusi metadatatietokanta, metatietoyhteistyö Tilastokeskuksen kanssa ja CESSDA ERIC:n kansallisten palveluntuottajien pitkäaikaissäilytyksen luotettavuuden arviointi. Hankkeen lopputuloksena tietoarkistoon arkistoitujen aineistojen metatieto tulee olemaan aikaisempaakin laadukkaampaa ja monipuolisempaa sekä tietoarkiston käytännöt kehittyneempiä.

Hanke sai rahoituksensa Suomen Akatemian infrastruktuureille suunnatusta FIRI 2012 -kutsuhausta. Rahoituskausi alkoi 14.12.2012 ja päättyi 15.12.2014. Yhteyshenkilö: Mari Kleemola.

Uusi metadatatietokanta

Uuden metadatatietokannan rakentaminen oli VERIC-hankkeen keskeisin osahanke. Tietoarkisto tuottaa laajaa ja sisällöltään rikasta metatietoa kaikista arkistoimistaan aineistoista. Yksittäisen aineiston kuvailuun käytetään kymmeniä tietoelementtejä. Ilman rikasta metatietoa varsinaisen datan löytäminen ja käyttäminen on hankalaa tai jopa mahdotonta. Metatieto mahdollistaa myös datan tuottaneen tutkijan tai tutkijaryhmän meritoitumisen, kun dataan voidaan viitata metatietoon sisältyvän lähdeviitteen ja pysyvän tunnisteen avulla.

Tietoarkiston metatiedon tuottamiseen ja hallintaan käytettävät työvälineet ja prosessit ovat muotoutuneet 15 toimintavuoden aikana. Käytännöt ovat osoittautuneet sinänsä toimiviksi, mutta vuosien saatossa prosessit ovat monimutkaistuneet. Metatietoja tallennetaan nyt useaan paikkaan: DDI-standardin mukaisiin XML-tiedostoihin, operationaaliseen tietokantaan ja erilaisiin sovelluksiin liittyviin XML-tiedostoihin.

Hankkeessa rakennettava metadatatietokanta on saanut nimekseen Metka. Se yksinkertaistaa metatiedon hallintaa, nopeuttaa ja helpottaa metatiedon tuottamista sekä mahdollistaa erilaisia uusia toimintoja. Metka-järjestelmä koostuu tietokannasta ja graafisesta käyttöliittymästä. Järjestelmässä kiinnitetään erityistä huomiota versiointiin sekä aineistojen välisten suhteiden kuvaamiseen. Käyttöliittymä tukee aiempaa paremmin kontrolloitujen sanastojen ja ontologioiden käyttöä sekä aineistojen kuvausten kääntämistä englanniksi. Tietojen tallentaminen yhteen tietokantaan helpottaa ja tehostaa metatiedon jatkokäyttöä sekä yksinkertaistaa metatietoon perustuvien palvelujen rakentamista.

Metka takaa CESSDA ERIC -jäsenyyden ehtojen täyttämisen aineistojen metatietojen osalta. Metka toteutettiin avoimen lähdekoodin ohjelmistona.

Lisätietoa:
Metka GitHubissa
CESSDA

Metatietoyhteistyö Tilastokeskuksen kanssa

Yksi CESSDA ERIC:n tavoitteista on parantaa tutkijoiden mahdollisuuksia saada käyttöönsä kansallisten tilastovirastojen tilastointia varten keräämää mikrodataa. Eurooppalaisella tasolla asiaa edistettiin Data without Boundaries -hankkeessa. VERIC:ssä puolestaan tehtiin metatietoyhteistyötä Tietoarkiston ja Tilastokeskuksen välillä.

Sekä Tilastokeskus että Tietoarkisto tuottavat aineistoistaan runsaasti hyvälaatuista metatietoa. Vaikka organisaatioiden toimintamallit ovat erilaisia, metatiedon tuottamisessa ja hallinnassa on paljon yhteisiä piirteitä. Hankkeessa verrattiin Tilastokeskuksen CoSSI-metatietomallia ja Tietoarkiston käyttämää DDI-metatietomallia sekä tuotettiin luonnos julkiseen käyttöön suunnatusta datasta ja sen kuvailusta. Tavoitteena oli parantaa metatiedon yhteentoimivuutta sekä kehittää molempien organisaatioiden metatietokäytäntöjä.

Lisätietoa:
Raportti: Mikko Saloila (2014). Comparison of Statistics Finland's and FSD's Metadata Models. Finnish Social Science Data Archive. Yhteiskuntatieteellisen tietoarkiston julkaisuja; 11. URN:ISBN:978-951-44-9659-2
Data without Boundaries - DwB
Aineistojen kuvailu tietoarkistossa
Common Structure of Statistical Information (CoSSI)

Pitkäaikaissäilytyksen luotettavuuden arviointi

Kaikkien CESSDA ERIC:n tietoarkistopalvelujen on pystyttävä täyttämään tietyt toiminnalliset vaatimukset. Tätä varten eri organisaatioilla on oltava yhtenäinen käsitys siitä, mitä nämä vaatimukset tarkoittavat. Sekä CESSDA ERIC:n että yksittäisten palveluntuottajien on voitava luottaa siihen, että kaikki toimivat yhteisesti sovitulla tavalla.

CESSDA hyödyntää Data Seal of Approval (DSA) menetelmää palveluntuottajiensa tilanteen kartoittamiseen. Data Seal of Approval -sertifikaatti myönnetään kriteerit täyttäville organisaatioille, jotka ovat sitoutuneet sähköisten aineistojen pitkäaikaissäilytykseen ja tarjoavat aineistoihin liittyvää tietopalvelua.

CESSDA järjesti helmikuussa 2013 Trust Requirements –seminaarin, jonne myös Yhteiskuntatieteellinen tietoarkisto osallistui. Seminaarin jälkeen kukin data-arkisto teki DSA-itsearvioinnin, jota seurasi vertaisarviointi: jokainen data-arkisto arvioi toisen data-arkiston tekemän itsearvioinnin. Työtä koordinoi neljän hengen asiantuntijaryhmä, jossa mukana olivat Ison-Britannian UKDA, Alankomaiden DANS, Saksan GESIS ja Suomen yhteiskuntatieteellinen tietoarkisto. Arviointeja ja niiden tuloksia käsiteltiin seminaarissa Kölnissä lokakuussa 2013, minkä jälkeen asiantuntijaryhmä laati loppuraportin. Loppuraportissa todettiin, että eurooppalaisilla data-arkistoilla on hyvät käytännöt muun muassa aineistojen jatkokäytön suhteen. Myös aineistojen pitkäaikaissäilytys hallitaan, joskin monessa data-arkistossa toimintakäytäntöjen dokumentointi on puutteellista. Data-arkistojen tulisikin kartoittaa ja tallentaa tärkeä hiljainen tieto sekä parantaa prosessiensa läpinäkyvyyttä. Arviointien mukaan Yhteiskuntatieteellisessä tietoarkistossa käytännöt olivat kaiken kaikkiaan hyvällä tasolla, joskin joitain parannuskohteitakin löytyi.

CESSDA Trust Requirements -työn pohjalta Tietoarkisto päätti hakea DSA-sertifikaattia ja saikin sen syyskuussa 2014 ensimmäinen organisaationa Suomessa.

Lisätietoa:
Tiedote tietoarkiston DSA-sertifikaatista
Tietoarkiston DSA-sertifikaatti
The Finnish Social Science Data Archive and the DSA: a case study
Data Seal of Approval

Julkaisut ja esitykset

VERIC-hankkeessa tuotetut julkaisut ja esitykset:

Metka metadatatietokanta on toteutettu avoimen lähdekoodin ohjelmistona ja se löytyy GitHub-sivustolta: https://github.com/Tietoarkisto/metka

Kleemola, Mari (2013). CES2013: Open Questions about Research Data Management. Presentation at the CESSDA Expert Seminar, October 28-29th 2013, Vienna, Austria. https://github.com/Tietoarkisto/metka

Heinonen, Matti and Alaterä, Tuomas J. (2014). Aila and Metka – FSD’s new tools for the trade. Poster at the 40th IASSIST Conference “Aligning Data and Research Infrastructure”, June 3-6, Toronto, Canada. http://www.library.yorku.ca/cms/iassist/program/posters/#heinonen

Kleemola, Mari (2014). CESSDA Archives and Research Data Management Activities. Case: Finland. Presentation at the 40th IASSIST Conference “Aligning Data and Research Infrastructure”, June 3-6, Toronto, Canada. http://www.library.yorku.ca/cms/iassist/program/sb7/

Saloila, Mikko (2014). Comparison of Statistics Finland’s and FSD’s Metadata Models. Finnish Social Science Data Archive. Yhteiskuntatieteellisen tietoarkiston julkaisuja; 11.

Kleemola, Mari (2015). The Finnish Social Science Data Archive and the DSA: a case study. http://datasealofapproval.org/en/assessment/fsd-dsa-case-study/