Tietoarkiston aineistonhallintapolitiikka
Aineistotyypit
Tietoarkisto on sitoutunut TRUST (Avautuu uuteen välilehteen) - ja FAIR (Avautuu uuteen välilehteen) -periaatteisiin ja arkistoi vain jatkokäyttöön soveltuvia aineistoja. Arkistoimme kvantitatiivisia (numeerisia) ja kvalitatiivisia (tekstiä, puhetta tai kuvia) tutkimusaineistoja. Hyväksymme tutkimustarkoituksiin sekä korkeakouluopetukseen ja -opiskeluun soveltuvia aineistoja. Arkistoitavat aineistot voivat olla yhteiskuntatieteistä, humanistisilta aloilta ja joissakin tapauksissa myös tekniikasta, luonnontieteistä tai ei-invasiivisesta terveys- tai lääketieteellisestä tutkimuksesta. Aineistojen on täytettävä laadulliset, tekniset ja lainsäädännölliset kriteerit.
Henkilötietojen käsittely
Tietoarkiston palveluja käytetään laajasti ja palveluportaali Ailan aineistolatausten määrä kasvaa jatkuvasti. Näin ollen merkittävin osa käsittelemistämme henkilötiedoista on asiakastietoja: aineiston luovuttajien eli arkistoijien ja aineistojen käyttäjien eli Aila-asiakkaiden henkilötietoja. Meillä on tietosuoja-asetuksen mukaiset menettelyt ja tietosuojailmoitukset molempia asiakasryhmiä varten.
Kehotamme aineistonsa arkistoivia tutkijoita noudattamaan anonymisoinnissa Aineistonhallinnan käsikirjan ohjeistuksia: Kvantitatiivisten aineistojen anonymisointi & Kvalitatiivisten aineistojen anonymisointi.
Jos tutkija haluaa arkistoida aineiston, johon sisältyy henkilötietoja tai aineisto on pseudonyymi, autamme tutkijaa tietosuoja-asetuksen ja tietosuojalain soveltamisessa.
Laadun varmistus
Datankäsittelijämme tarkistavat perusteellisesti kaikki arkistoitavat aineistot. Kaikki aineistoihin tehtävät muutokset dokumentoidaan. Kvantitatiivisten aineistojen muuttujat tarkistetaan kyselylomakkeen (tai muun aineistonkeruuinstrumentin) perusteella, ja mahdolliset puutteet selvitetään. Datatiedostoihin lisätään yksityiskohtaisia tietoja muuttujien sisällöistä ja arvoista, ja muuttujille ja arvoille annetaan selitteet kyselylomakkeen perusteella. Kvalitatiiviset aineistot arvioidaan huolella aineistoon jääneiden tunnistetietojen varalta. Tiedostot nimetään järjestelmällisesti ja sisäisen metadatan (tiedostonimet, selitteet) yhdenmukaisuus tarkistetaan. Datatiedostot muunnetaan jatkokäyttöön ja pitkäaikaissäilytykseen soveltuviin tiedostoformaatteihin (ks. Formaattitaulukko).
Toteutamme laadunvarmistusta järjestelmällisesti: aineistonkäsittelijät noudattavat tarkkoja sisäisiä ohjeistuksia aineistojen prosessoinnissa ja tekevät aineistoille ristiintarkistuksia. Teemme säännöllisin väliajoin aineistoille jäännösriskin arviointia (residual risk assessment), jolla varmistetaan anonymisoinnin riittävyys. Päivitämme myös jo arkistoitujen aineistojen metatietoja ja tiedostomuotoja niiden käytettävyyden varmistamiseksi. (Ks. Laatutyö Tietoarkistossa).
Aineistojen käyttöoikeudet
Tutkimusaineiston luovuttaja suostuu aineiston arkistointiin ja jatkokäyttöön toimittamiseen arkistointisopimuksessa (Avautuu uuteen välilehteen) PDF mainituin ehdoin. Aineiston alkuperäiset tekijät säilyttävät kaikki aineistoon liittyvät tekijänoikeudet ja muut immateriaalioikeudet. Tietoarkisto huolehtii tietosuojalainsäädännön mukaisesti aineiston pitkäaikaissäilyttämisestä sekä jatkokäyttöön toimittamisesta arkistointisopimuksessa sovittuihin tarkoituksiin.
Tietoarkistoon arkistoiduilla aineistoilla on neljä saatavuusluokkaa, jotka on selitetty selkeästi jokaisen aineiston kuvailussa.
- A - käytettävissä ilman rekisteröitymistä CC BY 4.0 lisenssillä (Avautuu uuteen välilehteen)
- B – käytettävissä tutkimukseen, opetukseen ja opiskeluun Ailan rekisteröityneille asiakkaille
- C – käytettävissä vain tutkimukseen ja ylempiin opinnäytteisiin (esimerkiksi pro gradu -tutkielmat, maisterintutkielmat ja väitöstutkimukset) Ailan rekisteröityneille asiakkaille
- D – käytettävissä vain aineistonluovuttajan erillisellä luvalla Ailan rekisteröityneille asiakkaille
CESSDA ERIC:n kansallisena palveluntuottajana noudatamme CESSDAn saatavuuspolitiikkaa (Avautuu uuteen välilehteen)
Avoin ja rajattu aineistojen saatavuus
Kaikki metadatamme on avattu CC BY 4.0 (Avautuu uuteen välilehteen) lisenssillä ja suppeammat ovat saatavilla CC0 1.0 (Avautuu uuteen välilehteen) lisenssillä. Ailassa kaikki käyttäjät voivat tutkia ja selata aineistokuvailuja, muuttujia ja niiden vastausjakaumia. Hakuja voi kohdistaa sekä aineistoihin että kysymyksiin. Varsinaiset analysoitavat datatiedostot saa maksutta kellon ympäri Ailasta kullekin aineistolle asetettujen käyttöehtojen mukaisesti.
A-aineistot ovat vapaasti käytettävissä lisenssin ehdoin. Kaikki saatavuusluokkiin B ja C kuuluvat aineistot ovat saatavilla ja ladattavissa rekisteröityneille asiakkaille. Asiakkaaksi voivat rekisteröityä korkeakoulujen ja tutkimusorganisaatioiden tutkijat ja opiskelijat Suomessa ja ulkomailla. Rekisteröityneet asiakkaat voivat hakea käyttölupaa D-aineistolle Ailassa.
Jotkut aineiston luovuttajat valitsevat saatavuusluokan D määräajaksi, jos päätuloksia ei ole vielä julkaistu. Määräajan jälkeen aineisto avataan joko A-, B- tai C-saatavuusluokkaan. Suurin osa luokkaan D kuuluvista aineistosta on pitkittäistutkimusten pseudonyymejä aineistoja. Meillä on tietosuoja-asetuksen mukaiset menettelyt näiden aineistojen arkistoimiseen ja jatkokäyttöön toimittamiseen. Aineistojen luovuttajat (tutkija ja hänen organisaationsa) ovat henkilötietojen rekisterinpitäjän roolissa. Tietoarkisto toimii käsittelijän roolissa ja noudattaa rekisterinpitäjän antamia ohjeita ja päätöksiä. Pitkittäistutkimusten aineistot avataan A-, B- tai C-käyttöoikeusluokkaan, kun tutkimukset päättyvät eikä rekisterinpitäjä enää säilytä tutkittavien henkilötietoja.
Suositellut käyttöoikeusluokat ja pitkäaikaissaatavuus
Aineistojen avoimuudessa noudatamme periaatetta ”niin avointa kuin mahdollista, niin rajattua kuin tarpeen”. Arkistointisopimuksessa edellytämme, että aineistot on kerätty laillisesti ja eettisesti niin, että jatkokäyttö on mahdollista. Koska valtaosa aineistoista on kerätty ihmisiltä, aineiston saatavuusluokka määräytyy eettisesti sen perusteella, mitä aineiston käytöstä tutkittaville on kerrottu. Tutkijoilla on mahdollisuus valita, mikä saatavuusluokka sopii parhaiten heidän aineistollensa. Tietoarkisto tarjoaa selkeät mallit tutkijoille siitä, miten aineiston arkistoinnista ja jatkokäytöstä informoidaan tutkittavia.
Kun tutkija haluaa arkistoida henkilötietoja sisältäviä aineistoja, avustamme henkilökohtaisesti, jotta tietosuoja-asetuksen noudattaminen varmistetaan.
Arkistopalveluitamme käyttävät tutkijat voivat luottaa siihen, että heidän aineistonsa säilyvät pitkäaikaisesti. Varmuuskopiointiin käytettävien omien tietoteknisten ratkaisujen lisäksi käytämme opetus- ja kulttuuriministeriön omistamaa kansallista digitaalista säilyttämispalvelua, jonka tarjoaa CSC - Tieteen tietotekniikan keskus. Palvelu on suojattu ja tarkoitettu erityisesti kulttuuriperinnön ja tutkimusaineistojen pitkäaikaissäilytykseen. CSC:n konesalit ja ICT-palvelut ovat ISO 27001 -sertifioituja. Aineistoja voidaan siirtää vain takaisin Tietoarkistoon. (Lisätietoa palvelun verkkosivuilta: Digitaalisten aineistojen pitkäaikaissäilytystä kulttuuriperintö- ja tutkimusorganisaatioille (Avautuu uuteen välilehteen) ).
Dokumentaatio ja metadata
Tietoarkisto on käyttänyt vuodesta 1999 lähtien DDI-standardia (Data Documentation Initiative (Avautuu uuteen välilehteen) ), joka on kehitetty kansainvälisesti kuvaamaan kyselytutkimusten ja muiden yhteiskunta-, käyttäytymis-, talous- ja terveystieteiden havainnointimenetelmien tuottamia aineistoja. DDI:ssä aineistot kuvaillaan käyttämällä XML-rakenteita. Annamme ohjeita kuvailuun Aineistonhallinnan käsikirjassa. Annamme yksityiskohtaiset ohjeet arkistointiin ja Ailassa tutkijat voivat siirtää datan, kuvailutiedot ja muut tiedostot Tietoarkistoon suojatun yhteyden avulla.
Tietoarkisto käyttää aineistokuvailuissaan useita kontrolloituja sanastoja ja tesauruksia. DDI-allianssin kehittämiä kontrolloituja sanastoja käytämme aineistojen otanta- ja keruumenetelmien, aikaulottuvuuden, keruuinstrumenttien ja havaintoyksiköiden kuvailemiseen. Asiasanoitukseen käytämme suomeksi Yleistä suomalaista ontologiaa (YSO) ja englanniksi monikielistä ELSST-sanastoa. Lisäksi käytämme opetus- ja kulttuuriministeriön tieteenalaluokitusta ja CESSDAn aihepiiriluokitusta.
FAIR-periaatteiden mukaisesti Ailan metadata on saatavilla koneluettavassa DDI-formaatissa ja se voidaan koneellisesti haravoida erilaisiin katalogeihin. Pienempi joukko kuvailevia metatietoja on saatavilla koneellisesti luettavissa JSON-LD-muodossa. Ylläpidämme lisäksi erillistä OAI-PMH-palvelinta (Kuha2), josta metadatan voi haravoida koneellisesti. Ailan aineistojen metadata tarjotaan haravoitavaksi Kuha2:sta DDI Codebook-, OAI Dublin Core- ja EAD3-muotoihin. Ailan lisäksi Tietoarkistoon arkistoitujen aineistojen metatiedot löytyvät esimerkiksi seuraavista luetteloista: Etsin (Avautuu uuteen välilehteen) , Finna (Avautuu uuteen välilehteen) , Research.fi (Avautuu uuteen välilehteen) ja CESSDA Data Catalogue (Avautuu uuteen välilehteen) .
Viittausvaatimus ja pysyvät tunnisteet
Vastuullinen tieteen tekeminen edellyttää toisten tutkijoiden saavutusten kunnioittamista ja niihin viittaamista asianmukaisesti. Tietoarkistoon arkistoitujen aineistojen käyttäjät sitoutuvat aineistojen käyttöehdoissa viittaamaan aineistoihin ja niiden alkuperäisiin tekijöihin. Noudatamme CESSDAn Data Citation (Avautuu uuteen välilehteen) -suosituksia ja teemme jokaiselle aineistolle malliviittauksen, jonka avulla viittaaminen on aineiston käyttäjälle mahdollisimman vaivatonta.
Ailan rekisteröityneet käyttäjät sitoutuvat ilmoittamaan Tietoarkistolle kaikista julkaisuista, joissa käytetään Ailasta ladattuja aineistoja. Tietoarkisto näyttää aineistoon pohjautuvien julkaisujen viitetiedot Ailan aineistokuvailussa.
Annamme pysyvät tunnisteet (PID) kaikille arkistoiduille aineistoille dokumentoitujen standardien mukaisesti (URN ja DOI). Aineistojen tekijöille lisätään myös pysyvä tunnus, jos heillä on se käytössä. Henkilöille pysyvä tunniste on ORCID, ISNI tai ResearcherID. Organisaatioille pysyvä tunniste on ISNI tai ROR.
Pysyvillä, koneellisesti tulkittavilla muuttumattomilla tunnisteilla varmistetaan, että aineistot ovat löydettävissä verkosta, vaikka niiden osoite tai tallennuspaikka muuttuisikin. Selkeä PID-käytäntö on osa sitoutumistamme FAIR-periaatteisiin ja CESSDAn PID-politiikkaan (Avautuu uuteen välilehteen) .
Pääsynvalvonta, aineistojen säilytys, varmuuskopiointi ja sertifiointi
Pääsy Tietoarkiston sisäisiin järjestelmiin on rajoitettu ja henkilöstömme käyttämien tietokoneiden massamuistit on salattu. Pääsy tietoihin on rajoitettu käyttöoikeuksin niin, että niihin pääsevät käsiksi vain palvelinten ylläpitäjät ja Tietoarkiston työntekijät, joiden työrooli edellyttää pääsyä kyseiseen tietoon.
Median fyysisen vaurioitumisen (esimerkiksi massamuistin vikaantuminen tai tulipalo) varalta Tietoarkiston palvelimilla olevat tietoaineistot varmuuskopioidaan Tampereen korkeakouluyhteisön tietohallinnon varmuuskopiointipolitiikan mukaisesti. Varmuuskopiointikäytäntöjä ja niiden täytäntöönpanoa tarkistetaan säännöllisesti. Tämän lisäksi tietyiltä Tietoarkiston palvelimilta otetaan varmuuskopioita Tietoarkiston omalla varmistusjärjestelmällä. Molemmissa tapauksissa varmuuskopioiden säilytyspaikka on korkeakouluyhteisön tietohallinnon konesali. Konesali on lukittu, paloturvallinen ja kulunvalvonnan piirissä. Aineistojen pitkäaikaissäilytyksen teknisestä toteutuksesta vastaa CSC.
Tietoarkisto on luotettava sertifioitu arkistopalvelu (CoreTrustSeal), joka arkistoi aineistoja jatkokäyttöä varten.
Versio 2 Julkaistu 23.4.2025 (Versio 1 julkaistu 9.11.2023)