Yhteiskuntatieteellisen tietoarkiston aineistopalvelun arkistonmuodostussuunnitelma

Tässä ohjeosassa kuvataan ensin lainsäädännön huomioiminen tietoarkistotyössä ja tietoarkiston seulontaperiaatteet. Tämän jälkeen kuvataan aineistopalvelun työprosessi ja prosessin eri vaiheissa käsiteltävät ja tuotettavat asiakirjat ja asiakirjasarjat. Lopuksi kuvataan tietoarkiston keskeisin tietojärjestelmä (TIIPII-tietokanta) sekä tietoturvatoimenpiteet ja -käytännöt.

1. Lainsäädännön huomioon ottamisesta

Tietoarkistolla on valtakunnallinen palvelutehtävä osana Tampereen yliopistoa. Yliopistolaissa (558/2009) vahvistetaan yliopistojen autonomia, jonka mukaisesti yliopistojen sisäisestä hallinnosta vastaavat yliopistot itse, eivätkä valtion yleiset hallintoviranomaiset. Yliopistolakia koskevassa hallituksen esityksessä painotetaan, että tutkimusaineistojen asianmukainen säilytys on turvattava (HE 7/2009 vp, s 87).

Tietoarkiston keskeisin tehtävä on tutkimustarkoituksiin kerättyjen sähköisten aineistojen dokumentointi, luettelointi, käytettävyyden ylläpito ja pitkäaikaissäilytys. Tietoarkisto pyrkii toteuttamaan arkistoitavien aineistojen käsittelyn vastuut, ohjeet ja tietoturvan siten kuin laissa julkisen hallinnon tiedonhallinnasta (906/2019) edellytetään.

Jotta Tietoarkisto voi onnistua tehtävässään, tutkimusaineistojen arkistoinnin kaikki vaiheet tulee tehdä suunnitelmallisesti. Tietoarkistotyön käytännön arkistotyötä ohjaa arkistonmuodostussuunnitelma (AMS). AMS päivitetään vuosittain ja julkaistaan tietoarkiston verkkosivuilla. AMS on tehtäväpohjainen. Ihmistieteiden tutkimusaineistoihin sovelletaan keskeisimmin tekijänoikeuslakia ja tietosuojalainsäädäntöä.

Tekijänoikeuslaki (8.7.1961/404)

Tutkimusaineistonsa Tietoarkistoon arkistoiva antaa Tietoarkistolle oikeudet aineiston arkistoimiseen ja luovuttamiseen edelleen jatkokäyttöä varten arkistointisopimuksessa (Avautuu uuteen välilehteen) PDF yksilöidyin ehdoin. Aineistontekijät säilyttävät muilta osin oikeutensa tutkimusaineistoon, mukaan lukien omistus- ja tekijänoikeudet. Arkistointisopimuksen mukaisesti tietoarkisto voi muokata vastaanottamaansa aineistoa voimassa olevien tietosuoja- ja tietoturvallisuusnormien ja pitkäaikaissäilytyksen vaatimusten mukaisesti.

Tutkimusaineiston tekijyyden kunnioittaminen tapahtuu tieteen normaalien viittauskäytäntöjen kautta. Aineistojen käyttöehdoissa jatkokäyttäjä velvoitetaan viittamaan käyttämäänsä aineistoon ja sen tekijään tai tekijöihin asianmukaisesti kaikissa julkaisuissa ja esityksissä, joissa aineistoa käytetään.

Suomen tekijänoikeuslaissa ei ole niin sanottua tutkimuspoikkeusta, joka mahdollistaisi tutkimuksessa analysoitujen teosten arkistoinnin tutkimuskäyttöön ilman tekijän lupaa tai erillistä lisenssisopimusta. Tietoarkisto ja Kopiosto ovat solmineet 2015 sopimuksen, jonka mukaisesti tutkimuksen analysoitavaksi aineistoksi digitoidut tai valmiiksi sähköisessä muodossa olevat Kopioston edustamien oikeudenhaltijoiden aloihin lukeutuvat teokset saa arkistoida Tietoarkistoon tutkimuskäyttöä varten (esim. lehtiartikkelit, kuvat, kuvitukset ja sarjakuvat). Sopimus ei koske audiovisuaalisia teoksia eikä sävellysteoksia.

Kun tutkimusaineistoihin sisältyy tutkittavien tuottamaa tekijänoikeuksien alaista materiaalia, tutkijan tulee sopia oikeuksien siirrosta tutkittavien kanssa ennen aineiston arkistointia.

Tietosuoja-asetus (2016/679)

Asiakkaiden henkilötietojen luottamuksellinen, läpinäkyvä ja laillinen käsittely on Tietoarkistolle tärkeää (tietosuoja-asetuksen artiklat 12-14). Tietoarkisto huolehtii, että asiakkaat saavat kaiken lainsäädännön edellyttämän tiedon henkilötietojen käsittelystä ja rekisteröidyille kuuluvista oikeuksista. Tietoarkiston verkkosivuilta löytyy linkki tietosuojaselosteeseen. Seloste sisältyy myös rekisteröitymistä vaativiin palveluihin ja tietosuojaselosteen verkko-osoite sisällytetään aina sähköisiin asiakaspalvelun viesteihin.

Tietoarkisto pyytää tutkimusaineistonsa arkistoivaa luovuttajaa poistamaan aineistosta henkilötiedot Tietoarkiston ohjeiden mukaisesti. Poikkeus tähän ovat esimerkiksi lehtiaineistot ja aineistot, joihin perustuviin tutkimusjulkaisuihin sisältyvät tutkittavien henkilötiedot (esimerkiksi asiantuntija- ja taiteilijahaastattelut sekä teossuojan alaiset aineistot). Poikkeusperuste nojautuu tietosuoja-asetuksen artiklaan 85 perustuvaan tietosuojalain (1050/2018) 27 §:ään, jossa säädetään henkilötietojen käsittelystä journalistisen, akateemisen, taiteellisen tai kirjallisen ilmaisun tarkoituksia varten.

Tutkijoiden anonyymeiksi arvioimat aineistot sisältävät usein vähintään epäsuoria tunnisteita siinä määrin, että ne katsotaan Tietoarkistossa henkilötietoja sisältäviksi. Tämän vuoksi Tietoarkisto tekee aineistonluovuttajan kanssa arkistointisopimuksen (Avautuu uuteen välilehteen) PDF ennen aineiston siirtoa Tietoarkistoon arkistointiedellytysten arviointia varten. Tietoarkisto toimii lähtökohtaisesti henkilötietojen käsittelijän roolissa tutkimusaineiston toimittavan rekisterinpitäjän lukuun. Arkistointisopimuksella varmistetaan molempien sopimusosapuolten EU:n tietosuoja-asetuksen mukainen osoitusvelvollisuus, henkilötietojen vastuullinen käsittely ja aineiston laillinen siirtäminen Tietoarkistoon. Sopimus tehdään aina, vaikka siirrettävä aineisto olisikin aineiston luovuttajan arvion mukaan lähtökohtaisesti anonyymi tai valmiiksi anonymisoitu. Sopimus allekirjoitetaan sähköisesti ja se sisältää tiedot aineiston rekisterinpitäjästä, henkilötietojen tyypeistä ja aineistoon sisältyvistä rekisteröityjen ryhmistä.

Tietoarkisto toteuttaa tarpeelliset tekniset ja organisatoriset toimenpiteet aineistojen käsittelyn turvallisuuden varmistamiseksi. Tarpeellisten toimenpiteiden määrittämisessä otetaan huomioon riskiä vastaava turvallisuustaso tietosuoja-asetuksen 32 artiklan mukaisesti. Tietoarkisto antaa pyynnöstä lisätietoja henkilötietojen käsittelyyn sovellettavista teknisistä ja organisatorisista turvatoimista. Tutkimusaineistoa käsittelevät Tietoarkiston työntekijät noudattavat soveltuvia lakisääteisiä vaitiolo- ja salassapitovelvollisuuksia. Tutkimusaineistoa käsittelevät työntekijät ovat lisäksi allekirjoittaneet erillisen vaitiolositoumuksen ja saaneet sekä tietosuojaan että tietoturvaan liittyvän asianmukaisen perehdytyksen ja koulutuksen.

Kun Tietoarkisto poistaa aineistosta tunnisteita, se pyytää aineiston luovuttaneelta rekisterinpitäjältä tai hänen edustajaltaan hyväksynnän tehdyille tunnisteiden poistoille ja muokkauksille. Samassa yhteydessä Tietoarkisto kehottaa rekisterinpitäjää hävittämään hallussaan mahdollisesti olevan tunnisteita sisältävän aineistoversion.

Tietosuojaa vahvistetaan myös aineistojen käyttöehdoissa, joihin jokaisen asiakkaan on sitouduttava ennen aineiston käyttöön saamistaan. Käyttöehtojen mukaisesti jatkokäyttäjä sitoutuu olemaan vaarantamatta aineiston tietoihin liittyvien henkilöiden tai tahojen yksityisyyden suojaa. Lisäksi käyttäjän on noudatettava tiedeyhteisön hyväksymiä yksityisyyttä ja tietosuojaa koskevia eettisiä periaatteita ja hävitettävä aineisto heti käyttötarkoituksen päätyttyä.

Yksityiskohtaiset tietoteknisten ja hallinnollisten suojatoimien kuvaukset asiakastietojen ja tutkimusaineistojen käsittelyssä löytyvät vuosittain laadittavasta tietotilinpäätöksestä (www-sivuilla: Tietoarkisto : asiakirjat : tietotilinpäätökset).

Tietosuojalaki (1050/2018)

Tietoarkiston henkilöstö noudattaa työssään tietosuojalain 35 § mukaista vaitiolovelvollisuutta. Jokainen työntekijä allekirjoittaa vaitiolositoumuksen heti työsuhteen alussa.

Erityisryhmiin kuuluvien aineistojen käsittelystä on säädetty tietosuojalain 6 § toisen momentin alla. Tietoarkisto noudattaa Tampereen korkeakouluyhteisön tietoturvaohjeita. Lisäksi Tietoarkistossa on käytössä niin henkilötietoja sisältävien kuin muidenkin aineistojen käsittelyssä seuraavat suojatoimet:

  • Pääsy henkilötietoja sisältävin asiakastietoihin ja arkistoitaviin tutkimusaineistoihin on rajattu käyttöoikeuksin.
  • Tietoarkiston käyttämien työasemien kiintolevyt on salattu.
  • Tietoarkiston koko henkilökunta saa vuosittain tietosuoja- ja tietoturvakoulutuksen. Aineiston käsittelijät saavat vuosittain lisäksi tutkimusaineistojen anonymisointikoulutuksen.
  • Tietoarkistolla on nimetty tietosuojavastaava, joka tekee yhteistyötä Tampereen yliopiston tietosuojavastaavan kanssa.
  • Aineistolle tehty anonymisointi arvioidaan tutkimusaineistojen arkistointiprosessissa ja tarvittaessa tunnisteita muokataan tai poistetaan lisää aineiston rekisterinpitäjän antamalla valtuutuksella ja ohjeilla.
  • Tutkimusaineistojen käsittely kirjataan työntekijöiden henkilökohtaisin tunnuksin ja anonymisointitoimet dokumentoidaan.
  • Asiakastiedot ja tutkimusaineistot varmuuskopioidaan.
  • Uudet ohjelmakoodit ja asennukset katselmoidaan ennen kuin ne hyväksytään käyttövalmiiksi. Tietoarkistossa käytetään automaattisia monitorointityökaluja, jotka varoittavat tietynlaisista turvallisuuspuutteista.
  • Henkilötietoja sisältävien aineistojen siirtoa ja käsittelyä varten Tietoarkistolla on käytössä tietosuoja-asetuksen mukainen arkistointisopimus.
  • Tutkimusaineistot siirretään arkistoitavaksi Tietoarkistoon suojatulla HTTPS-yhteydellä.
  • Muut käytössä olevat suojatoimet on kuvattu luvussa 5. Tietojärjestelmät, tietoturva ja pitkäaikaissäilytys.

Tietosuoja-asetuksen artiklaan 85 perustuvaan tietosuojalain 27 § sovellusalaan kuuluvia journalistisiin tarkoituksiin lukeutuvia aineistoja muokataan Tietoarkistossa vain tarvittaessa (esimerkiksi tutkimusta varten analysoitavaksi kerätyt media-aineistot). Sen sijaan tietosuojalain 27 § mukaisesti akateemisen ja kirjallisen ilmaisun tarkoituksiin lukeutuvista aineistoista poistetaan aina arkistointiin ja jatkokäyttöön nähden tarpeettomat henkilötiedot (tietosuoja-asetus artikla 25, kohta 2). Tällaisia aineistoja voivat olla esimerkiksi asiantuntija- ja taiteilijahaastattelut, kirjoitusaineistot ja teossuojan alaiset aineistot.

2. Seulontaperiaatteet

Tietoarkisto kartuttaa aineistokokoelmaansa sekä aktiivisesti että selektiivisesti: Tietoarkisto hankkii aineistoja aktiivisesti, mutta ottaa aineistoja arkistoitavaksi valikoiden seulontaperiaatteita noudattaen. Tietoarkistoon arkistoitaviksi otettavien aineistojen tulee täyttää soveltuvin osin laadulliset, tekniset ja lainsäädännölliset seulontakriteerit.

2.1. Laadulliset seulontakriteerit

Arkistoimme ensisijaisesti tutkimustarkoituksiin tuotettuja aineistoja, jotka eivät ole jo saatavilla jossain toisessa palvelussa. Aineiston on sovelluttava jatkokäyttöön, esimerkiksi tutkimukseen, opiskeluun ja opetukseen. Anonyymiksi tarkoitetun aineiston tulee olla anonymisoitavissa ilman että sen käytettävyys heikkenee oleellisesti. Lisäksi vähintään yhden seuraavista kriteereistä on täytyttävä:

  • aineisto on käyttökelpoinen muiden aineistojen ajallisena tai sisällöllisenä vertailukohteena
  • aineisto on käyttökelpoinen muiden aineistojen rinnalla täydentävänä aineistona
  • aineisto on vain osin analysoitu
  • aineisto on hyödynnettävissä alkuperäisestä poikkeavalla tavalla (esimerkiksi uudet kysymyksenasettelut/ metodiset painopisteet)
  • aineisto on tieteellisesti ja/tai kulttuurisesti ainutkertainen

2.2. Tekniset seulontakriteerit

Molempien kriteerien täytyttävä:

  • aineiston tekninen kunto on kohtuullinen eli aineisto on prosessoitavissa/konvertoitavissa jatkokäyttöön kohtuullisin kustannuksin
  • aineiston tietosisältö on riittävän selkeässä järjestyksessä ja aineistoa kontekstoiva muu materiaali on riittävä jatkokäyttöön tarkoitetun käyttöaineiston prosessoimiseksi ja metadatan luomiseksi

Suositeltavat tiedostoformaatit löytyvät erillisestä taulukosta.

2.3. Lainsäädännölliset seulontakriteerit

Aineistot tulee voida prosessoida jatkokäyttöön soveltuviksi voimassaolevaa lainsäädäntöä noudattaen:

  • aineistoon liittyvät omistus- ja hallintasuhteet ovat riittävän selkeät
  • tutkittavaa on informoitu läpinäkyvästi anonymisoitavaksi tarkoitetun aineiston siirrosta Tietoarkistoon, ja aineiston arkistointi on myös muuten voimassa olevaa lainsäädäntöä noudattaen mahdollista.
  • henkilötietoja sisältävän aineiston arkistointi katsotaan lailliseksi tietosuojalainsäädännön ja muiden normien kannalta ottaen huomioon tutkittavan informointi, tutkimuseettiset periaatteet ja tieteen avoimuus.
  • teossuojaa saavat aineistot lukeutuvat Kopioston ja Tietoarkiston välisen sopimuksen alaan tai aineistojen oikeuksien siirrosta on sovittu tekijöiden kanssa
  • lupapäätöksillä määräaikaiseen tutkimuskäyttöön saatujen aineistojen käyttölupaan sisältyy aineiston arkistointi tunnisteettomana Tietoarkistoon. Esimerkiksi julkisuuslain mukaisina luovutuksina tutkimukseen saatujen aineistojen käyttölupiin ei tavallisesti sisälly oikeutta aineiston siirtoon Tietoarkistoon. Jos tutkija haluaa luvanvaraisesti saamansa aineiston arkistoida anonyyminä, hänen tulee hankkia arkistointiin erillinen lupapäätös aineiston luovuttaneelta organisaatiolta.

2.4. Muut seulontakriteerit

  • Tietoarkisto arkistoi suomen-, ruotsin- ja englanninkielisiä aineistoja. Poikkeustapauksissa voimme harkita myös muunkielisten aineistojen arkistointia. Tutkijoiden tulee olla yhteydessä asiakaspalveluun ennen aineiston keruuta.
  • Tietoarkisto ei arkistoi tutkimuksessa käytettyjä Kansallisarkiston digitaalisesti saatavilla olevia aineistoja. Tietoarkisto kuitenkin arkistoi tutkijan digitoimat tai digikuvaamat Kansallisarkiston paperiaineistot, kun ne on digitoitu tai kuvattu tutkimuksessa analysoitavaksi ja niitä koskevat viitetiedot ovat riittävät.
  • Tietoarkiston ja Kopioston välisen sopimuksen mukaisesti tutkimuksen analysoitavaksi aineistoksi digitoidut tai valmiiksi sähköisessä muodossa olevat Kopioston edustamien oikeudenhaltijoiden (Avautuu uuteen välilehteen) aloihin lukeutuvat teokset saa arkistoida Tietoarkistoon tutkimuskäyttöä varten (esim. lehtiartikkelit ja kuvat). Sopimus kattaa koti- ja ulkomaiset teokset. Sopimus ei koske audiovisuaalisia teoksia eikä sävellysteoksia.
  • Paperimuodossa olevia kuva- tai tekstiaineistoja muunnetaan sähköisiksi tiedostoiksi osaksi jakelupakettia, jos niitä on käytetty keruuinstrumenttina (esim. arkistoitavan keskustelun, haastattelun tai lomakekyselyn virikkeenä).
  • Tietoarkisto ei arkistoi audiovisuaalisia tallenteita. Niiden pitkäaikaissäilytykseen ja jatkokäytön hallinnointiin on erikoistunut Helsingin yliopiston yhteydessä toimiva Kielipankki (Avautuu uuteen välilehteen) .

3. Aineistopalvelun työprosessi

Tässä luvussa kuvaillaan aineistopalvelun kolme keskeisintä työprosessia eli aineistojen sisäänotto, aineistojen prosessoiminen ja käyttöaineistojen toimitus jatkokäyttöön. Kunkin kuvauksen lopussa luetellaan ne asiakirjat/asiakirjasarjat, jotka kuuluvat esiteltyyn tehtäväkokonaisuuteen. Kaikki asiakirjat ja niihin liittyvät asiakirjahallinnolliset toimenpiteet kuvataan tarkemmin liitteessä 1 (arkistoinnin ohjetaulut).

3.1. Aineistojen sisäänotto

Aineistojen sisäänotolla tarkoitetaan prosessia, jossa tutkija, tutkimusryhmä tai tutkimusyksikkö luovuttaa tutkimusaineiston Tietoarkistoon arkistoitavaksi. Ennen aineiston siirtoa Tietoarkistoon luovuttajan kanssa tehdään aineistoa koskeva arkistointisopimus (Avautuu uuteen välilehteen) PDF. Sopimus mahdollistaa myös henkilötietoja (esimerkiksi epäsuoria tunnisteita) sisältävän aineiston siirtämisen Tietoarkistoon arkistointikelpoisuuden arvioimiseksi. Tietoarkisto edellyttää sopimuksen tekoa jo ennen aineiston siirtoa.

Tehtyään aineistotiedostojen siirtoa koskevan tietosuoja-asetuksen mukaisen arkistointisopimuksen, asiakas siirtää aineistotiedostot Tietoarkiston palvelimelle kirjatumalla palveluportaali Ailaan. Aineistonsiirtoprosessi alkaa, kun asiakas saa Tietoarkiston asiakaspalvelulta aktivointilinkin sähköpostiinsa. Linkki ohjaa kirjautumisen kautta lomakkeelle, johon asiakas voi täyttää luovutuksen tiedot (metadata) ja siirtää tiedostot. Lähetetty aktivointilinkki toimii vain kerran.

Yhteys Ailaan on suojattu HTTPS-yhteys. Asiakas tunnistautuu HAKA-federaatiota käyttäen tai poikkeustapauksessa (asiakkaalla ei ole mahdollisuutta HAKA-tunnistautumiseen) Tietoarkiston omalla identiteettipalvelimella. Yksittäistä luovutusta voivat tarkastella ja muokata asiakas itse sekä ne Tietoarkiston työntekijät, joilla on aineistojen vastaanottoon liittyvä työrooli tai järjestelmän ylläpitoon liittyvä työrooli. Tietoarkisto poistaa luovutukseen liittyvät tiedot palvelusta, kun luovutus on todettu valmiiksi. Luovutusta koskevat tiedot tallennetaan sisäiseen TIIPII-tietokantaan.

Sähköiseen muotoon tallennettu alkuperäinen data voidaan toimittaa Tietoarkistoon jonkin tilastomatemaattisen sovellusohjelman formaatissa, tekstitiedostoina tai kuvatiedostoina (ks. formaattitaulukko). Aineistoa siirtäessään luovuttaja kirjaa aineiston tiedot (metadata) Ailan siirtoa varten aineistokohtaiselle kuvailulomakkeelle. Kuvailulomakkeen tiedot säilytetään siihen saakka, kun Tietoarkisto on tuottanut lopullisen metadatan aineistosta.

Alkuperäinen data tuhotaan, kun käyttöaineisto on tuotettu ja luovuttaja on hyväksynyt aineiston kuvailun ja aineistoon tehdyt muokkaukset.

Tietoarkisto antaa kaikille arkistoiduille aineistoille pysyvät tunnisteet eli PIDit URN-tunnuksina. Pysyvät tunnisteet takaavat, että aineisto löytyy, vaikka se siirtyisi jostain syystä esimerkiksi uuteen osoitteeseen.

Aineiston sisäänotto sisältää seuraavat asiakirjat/asiakirjasarjat:

3.2. Aineistojen prosessointi

Tietoarkisto prosessoi luovutuspaketin sisältämästä materiaalista pitkäaikaissäilytettävän ja jatkokäyttöön soveltuvan käyttöaineiston (jakelupaketti). Käyttöaineisto sisältää datan ja aineistoon liittyvän muun materiaalin. Jos luovuttaja haluaa pitää itsellään ensikäyttöoikeuden osaan aineistoa (esim. tietyt muuttujat), Tietoarkisto tuottaa aineistosta erikseen myös säilytyspaketin, johon sisältyy myös määräajan käyttökiellossa olevat muuttujat.

Prosessoinnin päämäärä on (1) muokata aineisto teknisesti ja sisällöllisesti pitkällä aikavälillä käyttökelpoiseksi sekä (2) huolehtia tutkittavien tietosuojasta. Keinoina ovat muun muassa sopivan tallennusformaatin valinta, yksityiskohtaisen metadatan luominen ja anonymisointi. Aineiston prosessoinnin tavoitteet ovat samat eri aineistotyypeillä, mutta erityyppiset aineistot prosessoidaan eri tavoilla. Kvantitatiivisten ja kvalitatiivisten aineistojen prosessoinnin ominaispiirteet on kuvattu alla.

Pääsääntöisesti aineistot käsitellään A-tasolla. Tällöin aineisto kuvaillaan mahdollisimman kattavasti suomeksi ja englanniksi. Aineisto tarkistetaan ja muokataan yksityiskohtaisesti. Tarvittaessa aineistosta poistetaan tunnisteita. Jos aineistoa ei arvioida tieteellisesti merkittäväksi, se käsitellään B-tasolla. B-käsittelytasolla aineisto kuvaillaan suomeksi ja englanniksi. Datatiedostot säilytetään pääosin tutkijan toimittamassa muodossa. Tarvittaessa aineistosta poistetaan tunnisteita. B-tason aineistoja ovat esimerkiksi hallinnollisiin tarkoituksiin kerätyt aineistot, media-aineistot ja mittausaineistot, joissa on rajallinen muuttujien määrä.

Aineistojen prosessoinnissa tuotetaan seuraavat asiakirjasarjat:

3.2.1. Kvantitatiiviset aineistot

Tietoarkistoon luovutettu alkuperäinen aineisto voi olla monissa eri formaateissa (data esimerkiksi SPSS-, Excel- tai ASCII-tiedostona ja oheismateriaali Word-, Excel- tai tekstitiedostona tai paperilla). Päämääränä on tuottaa hyvin dokumentoitu datatiedosto, jonka sisältö ja rakenne vastaa mahdollismman tarkasti keruuinstrumenttia (esimerkiksi kyselylomaketta). Tämän vuoksi käyttödataan ei yleensä jätetä esimerkiksi sellaisia tutkijoiden konstruoimia muuttujia, jotka voidaan rakentaa datan muista muuttujista.

Kvantitatiivisen datan tarkistamiseen, muokkaukseen ja aineiston muuttujia kuvailevien tietojen lisäämiseen käytetään SPSS-ohjelmaa. Aineistonkäsittelijä kirjaa yksityiskohtaiset tiedot siitä, miten säilytys- ja käyttöaineisto on tuotettu. Muuttujien tiedot, tehdyt muutokset ja muut huomiot kirjataan SPSS-syntaksitiedostoon. Aineiston sisältöä ja keruuta kuvaava metadata tallennetaan DDI2-formaatin mukaisesti. Aineiston säilytys- ja paketointitiedot tallennetaan sisäiseen TIIPII-tietokantaan (ks. luku 5).

Anonymisointi

Tietoarkisto pyytää luovuttajaa poistamaan tunnisteet kvantitatiivisesta aineistosta ennen arkistoon luovutusta (lisätietoja tunnisteista ja anonymisoinnista Aineistonhallinnan käsikirjassa). Tietoarkisto arvioi tehdyn anonymisoinnin ja tekee tarvittaessa lisämuutoksia. Tarvittavat muutokset yksilöidään luovuttajalle ja häneltä pyydetään hyväksyntä niille.

Anonymisointi suunnitellaan jokaiselle aineistolle erikseen. Anonymisoinnin aluksi kartoitetaan aineiston ominaisuudet (perusjoukko ja otanta; aineiston sisältö; aineiston ikä; vastaajista muualta saatavat tiedot; käytettävyys). Tunnisteita poistetaan seuraavilla tavoilla.

  • Alkuperäisten havaintotunnusten ja koodiavainten hävittäminen
  • Muuttujan, yksittäisten arvojen tai havaintoyksiköiden poistaminen
  • Muuttujan arvojen uudelleen luokittelu
  • Avomuuttujien tekstivastauksien muokkaus
  • K-anonymiteetti ja l-diversiteetti
  • Kohinan lisääminen (adding noise)
  • Permutaatio

3.2.2. Kvalitatiiviset aineistot

Tietoarkisto ottaa arkistoitavaksi kvalitatiivisia eli ei-numeerisia tutkimusaineistoja monissa eri formaateissa. Valtaosa aineistoista on tekstejä, jotka on tuotettu erilaisista haastattelu- ja vuorovaikutustilanteista. Toinen tärkeä aineistotyyppi ovat kirjoitusaineistot (esim. erilaiset teemakirjoitukset).

Tutkimusaineiston digitaaliset kuvat arkistoidaan, jos tutkija on saanut kuvaajilta luvat arkistointiin (ns. oikeuksien siirto). Äänitallenteet arkistoidaan ainoastaan poikkeustapauksissa. Esimerkiksi oman alansa tunnettujen henkilöiden asiantuntijahaastattelujen äänitallenteet voidaan arkistoida, jos tallenteilla esiintyvät ihmiset ovat antaneet arkistointiluvan ja aineisto on sisällöltään sen kaltainen, että siihen soveltuu tietosuojalain 27 §. Valtaosaan haastatteluaineistoista ei sovellu mainittu säännös.

Kvalitatiivisten aineistojen prosessoinnissa sähköinen tekstiaineisto muunnetaan TXT tai RTF-muotoon. Kuvat säilytetään JPEG, PNG, TIFF tai DNG-tiedostoina ja audioaineistot FLAC tai MP3-muodossa. Paperimateriaali konvertoidaan harkinnanvaraisesti PDF-, RTF- tai TIFF-muotoon. Lisäksi tarkistetaan aineiston sisäisen metadatan (esimerkiksi tiedostojen nimet ja aineistoyksikköjen kuvailevat taustatiedot) yhtenäisyys. Käyttödatan tuottamisessa käytetyt toimenpiteet kirjataan yksityiskohtaisesti aineistokohtaiseen tekstitiedostoon. Aineiston sisältöä ja keruuta kuvaava metadata tallennetaan DDI2-formaatin mukaisesti. Tekstitiedostoista tuotetaan aineistonhallintaa helpottava html-versio jatkokäyttäjälle tarkoitettuun jakelupakettiin. Aineiston säilytys- ja paketointitiedot tallennetaan sisäiseen TIIPII-tietokantaan (ks. luku 5).

Tunnisteiden poisto

Tietoarkisto pyytää luovuttajaa poistamaan tunnisteet kvalitatiivisesta aineistosta ennen arkistoon luovutusta (lisätietoja tunnisteista ja anonymisoinnista Aineistonhallinnan käsikirjassa).Tietoarkisto arvioi tehdyn anonymisoinnin riittävyyden ja tekee tarvittaessa lisää tunnistetietojen poistoja ja muokkauksia. Tarvittavat muutokset yksilöidään luovuttajalle ja häneltä pyydetään hyväksyntä niille.

Tunnisteita poistetaan seuraavilla tavoilla.

  • Hävitetään suoria tunnisteita (henkilönimet, osoitteet, puhelinnumerot, sähköpostiosoitteet ja henkilötunnukset) sisältävät aineistojen oheistiedostot.
  • Alkuperäisten henkilönimien (niin tutkittavien kuin heidän mainitsemien muiden henkilöiden) tilalle annetaan keksityt nimet (Liisa -> [Anni]) tai nimet poistetaan (Liisa -> [vaimo]). Alkuperäiset nimet hävitetään.
  • Tekstin sisällä mainittujen erisnimien (koulut, työpaikat jne.) tilalle vaihdetaan karkeamman tason kategoriat (Muoti-Titaani Oy -> [vaatetusliike]).
  • Tutkittavien taustatiedot (esim. ikä, asuinpaikkakunta, koulutus, ammatti, kotitalouden/perheen koostumus, kansallisuus tai etninen tausta, työpaikka) luokitellaan.
  • Poistetaan huomattavasti tunnistetietoja sisältäviä aineisto-osuuksia.
  • Poikkeustilanteet: 1) Tekijänoikeuslain 8.7.1961/404 ja tietosuojalain 27 § perusteella arkistoitavat aineistot vain minimoidaan. 2) Yksinomaan tietosuojalain 27 § sovellusalaan kuuluvia Kopiostosopimuksen alaisia aineistoja (esim. lehtiartikkelit) ei minimoida.

Mikäli aineistoa ei voi käyttää järkevästi anonymisoituna ja se olisi henkilötietoineen tutkimuksellisesti arvokas, Tietoarkisto kehottaa tutkijaa neuvottelemaan organisaationsa tietosuojavastaavan kanssa mahdollisuudesta arkistoida aineisto henkilötietoineen tietosuojalain arkistointia koskevien säännösten perusteella.

3.3. Aineistojen toimitus jatkokäyttöön

Tietoarkistoon arkistoituja aineistoja toimitetaan jatkokäyttöön aineistoa koskevan arkistointisopimuksen määrittelemällä tavalla. Osa aineistoista on vapaasti kaikkien käytettävissä.

Valtaosa aineistoista on saatavissa vain Tietoarkiston asiakkaaksi kirjautumalla. Suomalaisten yliopistojen ja korkeakoulujen henkilökunta ja opiskelijat käyttävät asiakkaaksi kirjautumiseen Haka-käyttäjätunnistusjärjestelmää (Avautuu uuteen välilehteen) . Muut asiakkaat (esim. valtion tutkimuslaitosten ja ulkomaisten yliopistojen henkilökunta ja opiskelijat) hakevat käyttäjätunnusta Tietoarkistosta täyttäen henkilötietolomakkeen ja perusteen aineistojen käytölle. Kun lomakkeen tiedot on tarkistettu Tietoarkistossa, asiakas saa hyväksynnän rekisteröitymisestään ja käyttäjätunnuksen antamaansa sähköpostiosoitteeseen.

Asiakkaaksi kirjautuminen edellyttää asiakkaan henkilötietojen käsittelyä tietosuojaselosteen mukaisesti. Asiakkaan on sitouduttava noudattamaan aineistoportaalin käyttöehtoja, aineistojen yleisiä käyttöehtoja ja mahdollisia aineistoa koskevia erityisehtoja ennenkuin hän voi ladata tarvitsemansa aineiston.

Jatkokäyttöön toimituksen valtuudet ovat aineistokohtaisia ja määräytyvät arkistointisopimuksen mukaan neljään vaihtoehtoiseen käyttöluokkaan:

  • A ilman rekisteröitymistä (CC BY 4.0) Sopii tutkimusaineistoihin, joiden jatkokäyttö ei ole rajattua lainsäädännöllisillä tai eettisillä perusteilla.
  • B tutkimukseen, opetukseen ja opiskeluun Ailan rekisteröityneille asiakkaille
  • C vain tutkimukseen ja ylempiin opinnäytteisiin (esimerkiksi väitöstutkimukseen, pro graduun ja ylemmän AMK-tutkinnon opinnäytetyöhön) Ailan rekisteröityneille asiakkaille
  • D vain erillisellä luvalla Ailan rekisteröityneille asiakkaille

Jatkokäyttöön toimittamiseen sisältyvät seuraavat asiakirjat ja tiedostot:

4. Verkkosivusto

Yksi Tietoarkiston keskeisistä tehtävistä on tiedottaa arkistoiduista tutkimusaineistoista. Arkistoitujen aineistojen laajat kuvailutiedot ovat vapaasti saatavilla Aila palveluportaalissa. Aineistoluetteloa päivitetään jatkuvasti.

Verkkosivuilla ohjeistetaan tutkijoita aineistonhallinnassa. Ohjeissa kerrotaan esimerkiksi tutkittavien informoinnista, anonymisoinnista, tiedostoformaateista, metatiedoista ja tietoturvasta. Sivuilla on myös ohjeita tutkimusmenetelmistä sekä kaikki ilmestyneet Tietoarkisto-lehdet.

Tietolähteinä verkkosivustolla käytetään Tietoarkiston perustamisasiakirjoja, arkistoitujen aineistojen tiedostoja, data-arkistoalan kirjallisuutta ja tiedotteita sekä tutkimuskirjallisuutta. Sivuista otetaan joka vuosi ja aina ennen suuria muutoksia yksi pysyvästi säilytettävä sähköinen kopio. Sivustoon tehdyistä muutoksista pidetään kirjaa versionhallintajärjestelmän avulla. Verkkosivuston osoite on https://www.fsd.tuni.fi/.

5. Tietojärjestelmät, tietoturva ja pitkäaikaissäilytys

Tietoarkistossa on kaksi keskeistä tietojärjestelmää: Palveluportaali Aila ja Tiipii-tietokanta. Palveluportaali Aila on aineistojen jatkokäyttöön toimittamisen rekisteröintijärjestelmä, asiakasrekisteri, kirjautumisjärjestelmä ja aineistoportaali: Tietojärjestelmäseloste (Aila). Tiipii-tietokantaa käytetään kaiken arkistotyön sisäisenä rekisteröintijärjestelmänä: Tietojärjestelmäseloste (Tiipii).

Tietoarkistossa on myös muita sisäiseen käyttöön tarkoitettuja tietojärjestelmiä, joihin on pääsy vain Tietoarkiston henkilökunnalla. Pääsy järjestelmiin on rajattu esimerkiksi palomuurien ja kirjautumisen vaatimisen avulla. Kaikki Tietoarkiston käytössä olevat tietojärjestelmät on tallennettu Tampereen yliopiston järjestelmäsalkkuun.

Lisäksi Tietoarkisto hyödyntää kansallista pitkäaikaissäilytyspalvelua, jonka omistaa Opetus- ja kulttuuriministeriö ja toteuttaa CSC – Tieteen tietotekniikan keskus Oy.

Sähköisiä tietoaineistoja säilytetään Tampereen korkeakouluyhteisön palvelimilla, jotka sijaitsevat korkeakouluyhteisön palvelintiloissa. Palvelintiloihin on pääsy vain henkilöillä, jotka sitä työroolinsa vuoksi tarvitsevat. Sähköinen yhteys tietoaineistoihin on rajoitettu käyttöoikeuksin niin, että niihin pääsevät käsiksi vain palvelinten ylläpitäjät ja Tietoarkiston työntekijät, joiden työrooli edellyttää pääsyä kyseiseen tietoon.

Osaan Tietoarkiston tietoaineistoista on mahdollista päästä myös Tampereen korkeakouluyhteisön tarjoaman virallisen etäyhteyspalvelun avulla korkeakouluyhteisön tilojen ulkopuolelta. Muita etäyhteyskäytäntöjä järjestelmiin ei tarjota eikä tueta. Tietoarkiston työntekijät noudattavat etätyöhön erikseen laadittuja tietoturvaohjeita.

Pitkäaikaissäilytyksen päämäärä on säilyttää aineistotiedostot ymmärrettävinä. Tarvittaessa aineistotiedostot migroidaan uuteen tiedostoformaattiin. Tietoarkistossa emulointi ei sisälly aineistotiedostojen ymmärrettävyyden säilytyksen keinovalikoimiin.

Median fyysisen vaurioitumisen (esimerkiksi kiintolevyn vikaantuminen tai tulipalo) varalta Tietoarkiston palvelimilla olevat tietoaineistot varmuuskopioidaan Tampereen korkeakouluyhteisön tietohallinnon varmuuskopiointipolitiikan mukaisesti. Tämän lisäksi tietyiltä Tietoarkiston palvelimilta otetaan varmuuskopioita Tietoarkiston omalla varmistusjärjestelmällä. Molemmissa tapauksissa varmuuskopioiden säilytyspaikka on korkeakouluyhteisön tietohallinnon konesali. Konesali on lukittu, paloturvallinen ja kulunvalvonnan piirissä. Tietohallinnon tarjoama levypalvelu on Tampereen korkeakouluyhteisön (Tampereen yliopisto ja Tampereen ammattikorkeakoulu) yhteinen.

Hylätyt tallennusmediat (esimerkiksi kiintolevyt) hävitetään toimittamalla ne tuhottavaksi tai tyhjennettäväksi Tampereen korkeakouluyhteisön antamien henkilötietoja sisältävien tallenteiden hävittämistä koskevien määräysten mukaisesti. Tampereen korkeakouluyhteisön tietohallinnon tallennusmediat hävitetään samojen ohjeiden mukaisesti. Hävityksestä huolehtii korkeakouluyhteisön yhteistyökumppani, joka hoitaa hävityksen sovittujen tietoturvastandardien mukaisesti ja raportoi tehdystä käsittelystä mediakohtaisesti.

Tampereen korkeakouluyhteisö vaatii tietojärjestelmien ylläpitäjiltä erillisen vaitiolositoumuksen. Vaatimus koskee sekä Tietoarkiston teknisten palveluiden henkilöstöä, että Tampereen korkeakouluyhteisön tietohallinnon ylläpitohenkilöstöä.

Tietoarkiston käyttämien työasemien kiintolevyt on salattu. Uudet ohjelmakoodit ja asennukset katselmoidaan ennen kuin ne hyväksytään käyttövalmiiksi. Tietoarkistossa käytetään automaattisia monitorointityökaluja, jotka varoittavat tietynlaisista turvallisuuspuutteista. Tietoarkiston tietoturvavastaava seuraa aktiivisesti tietoturvauhkiin liittyvää uutisointia ja tiedotusta sekä järjestelmien ja toimintatapojen tietoturvan kehitystä ja tekee tarvittaessa ehdotukset tietoturvan parantamiseksi. Tekniset palvelut pitävät säännöllisesti iteraationvaihtoja, joissa koko teknisellä tiimillä on mahdollisuus ottaa esille tietoturva-asioita ja jakaa tietoa.

Tietoarkiston arkistoimat tutkimusaineistot siirretään myös Kansalliseen pitkäaikaissäilytyspalveluun (Avautuu uuteen välilehteen) . Säilytystä varten aineistoista muodostetaan digitaalisia säilytyspaketteja, aineistojen tiedostomuodot harmonisoidaan ja pakettiin lisätään säilytyksen vaatimaa teknistä ja provenienssimetatietoa. Siirtotie on salattu. PAS-palvelu on digitaalisten kulttuuriperintöaineistojen ja tutkimusaineistojen pitkäaikaissäilyttämiseen erikoistunut, tietoturvallinen palvelukokonaisuus. Palvelua ylläpitää CSC, jonka kaikki datakeskukset ja ICT-palvelut on ISO 27001 -sertifioitu. PAS-palvelusta aineistot voidaan ainoastaan luovuttaa takaisin Tietoarkistolle. Digitalpreservation.fi -sivulla on julkaistu PAS-palvelun tietosuojaseloste (Avautuu uuteen välilehteen) ja paketointi, tiedostomuoto- ja rajapintamääritykset (Avautuu uuteen välilehteen) .

6. Tähänastiset kertymät ja ennuste

Paperiset arkistointisopimukset (vuoteen huhtikuuhun 2013 saakka luovutussopimukset):
kertymä vuodesta 1999 heinäkuuhun 2019 on 5 arkistokoteloa (0,4 hyllymetriä). Kertymäennuste: 1 arkistokotelo (0,08 hyllymetriä) neljässä vuodessa.

Tutkimusaineistoja kontekstoivat pysyvästi säilytettävät paperimateriaalit:
kertymä vuodesta 1999 heinäkuuhun 2019 on 41 arkistokoteloa (3,28 hyllymetriä). Kertymäennuste: 1 arkistokoteloa (0,16 hyllymetriä) neljässä vuodessa. Valtaosa aineistoista 2010 -luvulta alkaen on sähköistä.

Sähköiset tutkimusaineistot ja niihin liittyvä muu sähköinen materiaali:
kertymä vuodesta 1999 heinäkuuhun 2019 yhteensä noin 16,9 gigatavua sisältäen 38 261 tiedostoa. Kertymäennuste: noin 0,8 gigatavua vuodessa.

Tietoarkiston pysyvästi säilytettävät hallinnolliset asiakirjat arkistoidaan Tampereen korkeakouluyhteisön päätearkistoon korkeakouluyhteisön arkistonmuodostussuunnitelman mukaisesti. Pieni osa hallinnollisista asiakirjoista säilytetään Tietoarkistossa. Niitä on kertynyt yhteensä 1 arkistokotelo heinäkuuhun 2019 mennessä.

Paperiset käyttölupahakemukset ja käyttöehtositoumukset:
kertymä vuodesta 1999 huhtikuuhun 2014 on 20 arkistokoteloa (1,6 hyllymetriä). Kertymäennuste: ei kertymiä. Sarja on päättynyt 23.4.2014.

7. Jatkuvuussuunnitelma

Tietoarkiston perusrahoitus on riittävä perustoimintojen (aineistojen arkistointi, jakelu ja tietopalvelu) ylläpitoon. Siinä epätodennäköisessä tapauksessa, että yksikön rahoitus on loppumassa, Tietoarkiston johtaja kokoaa työryhmän, joka toteuttaa ensisijaisesti arkistoitujen aineistojen hallitun siirron seuraajalle tai seuraajille sekä hallinnollisesta että teknisestä näkökulmasta ja toissijaisesti toimintojen ja palveluiden siirron. Työryhmässä olisi edustettuina yliopisto, OKM, muut rahoittajat, neuvottelukunta, tieteelliset asiantuntijat, sähköisen säilyttämisen asiantuntijat ja muut tarpeelliset sidosryhmät. Mahdolliset seuraajat kutsutaan työryhmään heti kun ne on tunnistettu. Työryhmän tehtäviä ovat ainakin:

  • Määritellä ja tunnistaa uudelle toimijalle siirrettävät aineistot ja palvelut ja niihin liittyvät avaintoiminnot ja osaamisvaatimukset.
  • Etsiä seuraaja(t) aineisto-, kokoelma- ja palvelukohtaisesti.
  • Aloittaa aineistojen arkistointiin ja hallintaan liittyvien sopimusten tarkistus ja uudelleenneuvottelut.
  • Aloittaa kansallisiin ja kansainvälisiin palveluihin ja jäsenyyksiin liittyvien sopimusten tarkistus ja uudelleenneuvottelut.
  • Varmistaa arkistointiprosessissa olevien aineistojen saattaminen PAS-kuntoon.
  • Järjestää riittävän rikkaan metadatan ja dokumentaation tuottaminen siirtoa ja jatkohallintaa varten aineistoille, kokoelmille, toiminnoille ja palveluille.
  • Järjestää siirron teknisen toteutuksen suunnittelu ja suorittaminen.
  • Varmistaa Tietoarkiston tarjoamien rajapintojen ja pysyvien tunnisteiden toiminta.
  • Huolehtia tietosuojasta, erityisesti rekisterinpitäjän ja käsittelijän rooleihin liittyvien velvollisuuksien siirrosta.
  • Ratkaista CESSDA ERICin kansallisen palveluntuottajan asema.
  • Varmistaa ulkopuolisen rahoituksen hankkeiden toteuttaminen.
  • Päättää tarvittaessa lakkautettavista palveluista ja tuhottavista kokoelmista ja aineistoista.