Yhteiskuntatieteellisen tietoarkiston aineistopalvelun arkistonmuodostussuunnitelma

Tässä ohjeosassa kuvataan ensin lainsäädännön huomioiminen tietoarkistotyössä ja tietoarkiston seulontaperiaatteet. Tämän jälkeen kuvataan aineistopalvelun työprosessi ja prosessin eri vaiheissa käsiteltävät ja tuotettavat asiakirjat ja asiakirjasarjat. Lopuksi kuvataan tietoarkiston keskeisin tietojärjestelmä (TIIPII-tietokanta) sekä tietoturvatoimenpiteet ja -käytännöt.

1. Lainsäädännön huomioon ottamisesta

Tietoarkistolla on valtakunnallinen palvelutehtävä osana Tampereen yliopistoa. Yliopistolaissa (558/2009) vahvistetaan yliopistojen autonomia, jonka mukaisesti yliopistojen sisäisestä hallinnosta vastaavat yliopistot itse, eivätkä valtion yleiset hallintoviranomaiset. Yliopistolakia koskevassa hallituksen esityksessä painotetaan, että tutkimusaineistojen asianmukainen säilytys on turvattava (HE 7/2009 vp, s 87).

Tietoarkiston keskeisin tehtävä on tutkimustarkoituksiin kerättyjen sähköisten aineistojen dokumentointi, luettelointi, käytettävyyden ylläpito ja pitkäaikaissäilytys. Tietoarkisto pyrkii toteuttamaan arkistoitavien aineistojen käsittelyn vastuut, ohjeet ja tietoturvan siten kuin laissa julkisen hallinnon tiedontiedonhallinnasta (906/2019) edellytetään.

Jotta Tietoarkisto voi onnistua tehtävässään, tutkimusaineistojen arkistoinnin kaikki vaiheet tulee tehdä suunnitelmallisesti. Arkistotyön ylin ohje on arkistonmuodostussuunnitelma (AMS). AMS päivitetään vuosittain ja julkaistaan tietoarkiston verkkosivuilla. AMS on tehtäväpohjainen. Ihmistieteiden tutkimusaineistoihin sovelletaan keskeisimmin tekijänoikeuslakia ja tietosuojalainsäädäntöä.

Tekijänoikeuslaki (8.7.1961/404)

Tutkimusaineistonsa Tietoarkistoon arkistoiva antaa Tietoarkistolle oikeudet aineiston arkistoimiseen ja luovuttamiseen edelleen jatkokäyttöä varten arkistointisopimuksessa PDF yksilöidyin ehdoin. Aineistontekijät säilyttävät muilta osin oikeutensa tutkimusaineistoon, mukaan lukien omistus- ja tekijänoikeudet. Arkistointisopimuksen mukaisesti tietoarkisto voi muokata vastaanottamaansa aineistoa voimassa olevien tietosuoja- ja tietoturvallisuusnormien ja pitkäaikaissäilytyksen vaatimusten mukaisesti.

Tutkimusaineiston tekijyyden kunnioittaminen tapahtuu tieteen normaalien viittauskäytäntöjen kautta. Aineistojen käyttöehdoissa jatkokäyttäjä velvoitetaan viittamaan käyttämäänsä aineistoon ja sen tekijään tai tekijöihin asianmukaisesti kaikissa julkaisuissa ja esityksissä, joissa aineistoa käytetään.

Suomen tekijänoikeuslaissa ei ole niin sanottua tutkimuspoikkeusta, joka mahdollistaisi tutkimuksessa analysoitujen teosten arkistoinnin tutkimuskäyttöön ilman tekijän lupaa tai erillistä lisenssisopimusta. Tietoarkisto ja Kopiosto ovat solmineet 2015 sopimuksen, jonka mukaisesti tutkimuksen analysoitavaksi aineistoksi digitoidut tai valmiiksi sähköisessä muodossa olevat Kopioston edustamien oikeudenhaltijoiden aloihin lukeutuvat teokset saa arkistoida Tietoarkistoon tutkimuskäyttöä varten (esim. lehtiartikkelit, kuvat, kuvitukset ja sarjakuvat). Sopimus ei koske audiovisuaalisia teoksia eikä sävellysteoksia.

Kun tutkimusaineistoihin sisältyy tutkittavien tuottamaa tekijänoikeuksien alaista materiaalia, tutkijan tulee sopia oikeuksien siirrosta tutkittavien kanssa ennen aineiston arkistointia.

Tietosuoja-asetus (2016/679)

Asiakkaiden henkilötietojen luottamuksellinen, läpinäkyvä ja laillinen käsittely on Tietoarkistolle tärkeää (tietosuoja-asetuksen artiklat 12-14). Tietoarkisto huolehtii, että asiakkaat saavat kaiken lainsäädännön edellyttämän tiedon henkilötietojen käsittelystä ja rekisteröidyille kuuluvista oikeuksista. Tietoarkiston jokaiselta verkkosivulta löytyy linkki tietosuojailmoitukseen. Tietosuojailmoitus sisältyy myös rekisteröitymistä vaativiin palveluihin ja tietosuojailmoituksen verkko-osoite sisällytetään aina sähköisiin asiakaspalvelun viesteihin.

Tietoarkisto pyytää tutkimusaineistonsa arkistoivaa luovuttajaa poistamaan aineistosta henkilötiedot Tietoarkiston ohjeiden mukaisesti. Poikkeus tähän ovat esimerkiksi lehtiaineistot ja aineistot, joihin perustuviin tutkimusjulkaisuihin sisältyvät tutkittavien henkilötiedot (esimerkiksi asiantuntija- ja taiteilijahaastattelut sekä teossuojan alaiset aineistot). Poikkeusperuste nojautuu tietosuoja-asetuksen artiklaan 85 perustuvaan tietosuojalain (1050/2018) 27 §:ään, jossa säädetään henkilötietojen käsittelystä journalistisen, akateemisen, taiteellisen tai kirjallisen ilmaisun tarkoituksia varten.

Tutkijoiden anonyymeiksi arvioimat aineistot sisältävät usein vähintään epäsuoria tunnisteita siinä määrin, että ne katsotaan Tietoarkistossa henkilötietoja sisältäviksi. Tämän vuoksi Tietoarkisto edellyttää aina tietosuoja-asetuksen mukaista käsittelysopimusta PDF ennen aineiston siirtoa Tietoarkistoon arkistointiedellytysten arviointia varten.

Tietoarkisto toimii henkilötietojen käsittelijän roolissa tutkimusaineiston toimittavan rekisterinpitäjän lukuun. Käsittelysopimuksella varmistetaan molempien sopimusosapuolten EU:n tietosuoja-asetuksen mukainen osoitusvelvollisuus, henkilötietojen vastuullinen käsittely ja aineiston laillinen siirtäminen Tietoarkistoon. Sopimus tehdään aina, vaikka siirrettävä aineisto olisikin aineiston luovuttajan arvion mukaan lähtökohtaisesti anonyymi tai valmiiksi anonymisoitu. Lähettämällä aineiston Tietoarkistoon aineiston luovuttaja sitoutuu käsittelysopimuksen ehtoihin. Käsittelysopimus tehdään sähköisesti sähköpostikirjeenvaihdon yhteydessä, eikä sitä tarvitse erikseen allekirjoittaa. Jotta sopimus olisi lainvoimainen, Tietoarkisto pyytää luovuttajalta sähköpostitse tiedot aineiston rekisterinpitäjästä, henkilötietojen tyypeistä ja aineistoon sisältyvistä rekisteröityjen ryhmistä.

Tietoarkisto toteuttaa tarpeelliset tekniset ja organisatoriset toimenpiteet aineistojen käsittelyn turvallisuuden varmistamiseksi. Tarpeellisten toimenpiteiden määrittämisessä otetaan huomioon riskiä vastaava turvallisuustaso tietosuoja-asetuksen 32 artiklan mukaisesti. Tietoarkisto antaa pyynnöstä lisätietoja henkilötietojen käsittelyyn sovellettavista teknisistä ja organisatorisista turvatoimista. Tutkimusaineistoa käsittelevät Tietoarkiston työntekijät noudattavat soveltuvia lakisääteisiä vaitiolo- ja salassapitovelvollisuuksia. Tutkimusaineistoa käsittelevät työntekijät ovat lisäksi allekirjoittaneet erillisen vaitiolositoumuksen ja saaneet sekä tietosuojaan että tietoturvaan liittyvän asianmukaisen perehdytyksen ja koulutuksen.

Kun Tietoarkisto poistaa aineistosta tunnisteita, se pyytää aineiston luovuttaneelta rekisterinpitäjältä tai hänen edustajaltaan hyväksynnän tehdyille tunnisteiden poistoille ja muokkauksille. Samassa yhteydessä Tietoarkisto kehottaa rekisterinpitäjää hävittämään hallussaan mahdollisesti olevan tunnisteita sisältävän aineistoversion. Kun aineisto on arvioitu arkistointikelpoiseksi, Tietoarkisto ja aineiston rekisterinpitäjä laativat arkistointisopimuksen.

Tietosuojaa vahvistetaan myös aineistojen käyttöehdoissa, joihin jokaisen asiakkaan on sitouduttava ennen aineiston käyttöön saamistaan. Käyttöehtojen mukaisesti jatkokäyttäjä sitoutuu olemaan vaarantamatta aineiston tietoihin liittyvien henkilöiden tai tahojen yksityisyyden suojaa. Lisäksi käyttäjän on noudatettava tiedeyhteisön hyväksymiä yksityisyyttä ja tietosuojaa koskevia eettisiä periaatteita ja hävitettävä aineisto heti käyttötarkoituksen päätyttyä.

Yksityiskohtaiset tietoteknisten ja hallinnollisten suojatoimien kuvaukset asiakastietojen ja tutkimusaineistojen käsittelyssä löytyvät vuosittain laadittavasta tietotilinpäätöksestä (www-sivuilla: Tietoarkisto : asiakirjat : tietotilinpäätökset).

Tietosuojalaki (1050/2018)

Tietoarkiston henkilöstö noudattaa työssään tietosuojalain 35 § mukaista vaitiolovelvollisuutta. Jokainen työntekijä allekirjoittaa vaitiolositoumuksen heti työsuhteen alussa.

Erityisryhmiin kuuluvien aineistojen käsittelystä on säädetty tietosuojalain 6 § toisen momentin alla. Tietoarkistossa on käytössä niin henkilötietoja sisältävien kuin muidenkin aineistojen käsittelyssä seuraavat suojatoimet:

  • Pääsy henkilötietoja sisältävin asiakastietoihin ja arkistoitaviin tutkimusaineistoihin on rajattu käyttöoikeuksin.
  • Tietoarkiston käyttämien työasemien kiintolevyt on salattu.
  • Tietoarkiston koko henkilökunta saa vuosittain tietosuoja- ja tietoturvakoulutuksen. Aineiston käsittelijät saavat vuosittain lisäksi tutkimusaineistojen anonymisointikoulutuksen.
  • Tietoarkistolla on nimetty tietosuojavastaava, joka tekee yhteistyötä Tampereen yliopiston tietosuojavastaavan kanssa.
  • Tutkimusaineistojen arkistointiprosessissa aineistoista poistetaan välittömät tunnisteet ja välillisiä tunnisteita muokataan tai poistetaan aineiston rekisterinpitäjän antamalla valtuutuksella ja ohjeilla.
  • Tutkimusaineistojen käsittely kirjataan työntekijöiden henkilökohtaisin tunnuksin ja anonymisointitoimet dokumentoidaan.
  • Asiakastiedot ja tutkimusaineistot ovat hajautetun varmuuskopioinnin piirissä.
  • Uudet ohjelmakoodit ja asennukset katselmoidaan ennen kuin ne hyväksytään käyttövalmiiksi. Tietoarkistossa käytetään automaattisia monitorointityökaluja, jotka varoittavat tietynlaisista turvallisuuspuutteista.
  • Henkilötietoja sisältävien aineistojen siirtoa ja käsittelyä varten Tietoarkistolla on käytössä tietosuoja-asetuksen mukainen käsittelysopimus.
  • Tutkimusaineistot siirretään arkistoitavaksi Tietoarkistoon suojatulla HTTPS-yhteydellä.
  • Muut käytössä olevat suojatoimet on kuvattu luvussa 5. Tietojärjestelmät, tietoturva ja pitkäaikaissäilytys.

Tietoarkisto on linjannut periaatteet tietosuojalain mahdollistaman henkilötietoja sisältävän tutkimusaineiston yleisen edun mukaiseen arkistointiin. Perusedellytys arkistoinnille on, että henkilötietojen sisällyttäminen arkistoitavaan tutkimusaineistoon on oltava tarpeen ja oikeasuhtaista sillä tavoiteltuun yleisen edun mukaiseen tavoitteeseen ja rekisteröidyn oikeuksiin nähden tietosuojalain (1050/2018) 4 § 4-kohdan mukaisesti. Lisäksi tutkijan tulee osoittaa, että aineiston arkistoinnista Tietoarkistoon henkilötietoineen on informoitu tutkittavia tutkimuksen tietosuojailmoituksessa. Tutkijan tulee perustella henkilötietojen arkistoinnin tarpeellisuus ja oikeasuhtaisuus ja aineistot tulee aina minimoida.

Tietosuoja-asetuksen artiklaan 85 perustuvaan tietosuojalain 27 § sovellusalaan kuuluvia aineistoja käsitellään seuraavasti: Journalistisiin tarkoituksiin lukeutuvia aineistoja ei muokata Tietoarkistossa (esimerkiksi tutkimusta varten analysoitavaksi kerätyt media-aineistot). Sen sijaan tietosuojalain 27 § mukaisesti akateemisen ja kirjallisen ilmaisun tarkoituksiin lukeutuvia aineistoja voidaan tarvittaessa muokata poistamalla aineistoista arkistointiin ja jatkokäyttöön nähden tarpeettomia henkilötietoja (tietosuoja-asetus artikla 25, kohta 2). Tällaisia aineistoja voivat olla esimerkiksi asiantuntija- ja taiteilijahaastattelut, kirjoitusaineistot ja teossuojan alaiset aineistot.

2. Seulontaperiaatteet

Tietoarkisto kartuttaa aineistokokoelmaansa sekä aktiivisesti että selektiivisesti: Tietoarkisto hankkii aineistoja aktiivisesti, mutta ottaa aineistoja arkistoitavaksi valikoiden. Tietoarkistoon arkistoitaviksi otettavien aineistojen tulee täyttää soveltuvin osin laadulliset, tekniset ja lainsäädännölliset seulontakriteerit.

2.1. Laadulliset seulontakriteerit

Vähintään yhden seuraavista kriteereistä on täytyttävä:

  • aineisto on käyttökelpoinen muiden aineistojen ajallisena tai sisällöllisenä vertailukohteena
  • aineisto on käyttökelpoinen muiden aineistojen rinnalla täydentävänä aineistona
  • aineisto on vain osin analysoitu
  • aineisto on hyödynnettävissä alkuperäisestä poikkeavalla tavalla (esimerkiksi uudet kysymyksenasettelut/ metodiset painopisteet)
  • aineisto soveltuu opiskeluun tai opetukseen
  • aineisto on tieteellisesti ja/tai kulttuurisesti ainutkertainen

2.2. Tekniset seulontakriteerit

Molempien kriteerien täytyttävä:

  • aineiston tekninen kunto on kohtuullinen eli aineisto on prosessoitavissa/konvertoitavissa jatkokäyttöön kohtuullisin kustannuksin
  • aineiston tietosisältö on riittävän selkeässä järjestyksessä ja aineistoa kontekstoiva muu materiaali on riittävä jatkokäyttöön tarkoitetun käyttöaineiston prosessoimiseksi ja metadatan luomiseksi

Suositeltavat tiedostoformaatit löytyvät erillisestä taulukosta.

2.3. Lainsäädännölliset seulontakriteerit

Aineistot tulee voida prosessoida tutkimuskäyttöön voimassaolevaa lainsäädäntöä noudattaen:

  • aineistoon liittyvät omistus- ja hallintasuhteet ovat riittävän selkeät
  • aineisto on anonyymi tai anonymisoitavissa ilman että sen käytettävyys heikkenee oleellisesti
  • 25.5.2018 jälkeen kerätyn anonyymin tai anonymisoitavaksi tarkoitetun aineiston tietosuojailmoitukseen on sisältynyt aineiston siirto Tietoarkistoon tutkimuksen päätyttyä. Jos aineisto on kerätty mainittua päivämäärää ennen ilman informointia tietoarkistoinnista, Tietoarkisto arvioi tapauskohtaisesti arkistointimahdollisuudet ja jos arkistointiin päädytään, päätös perustellaan erikseen.
  • henkilötietoja sisältävien tutkimusaineistojen arkistointi on tarpeen ja oikeasuhtaista sillä tavoiteltuun yleisen edun mukaiseen tavoitteeseen ja rekisteröidyn oikeuksiin nähden tietosuojalain (1050/2018) 4 § 4-kohdan mukaisesti ja aineiston arkistoinnista Tietoarkistoon henkilötietoineen on informoitu tutkittavia tutkimuksen tietosuojailmoituksessa. Tutkijan tulee perustella henkilötietojen arkistoinnin tarpeellisuus ja oikeasuhtaisuus. Aineistot tulee aina minimoida (tietosuoja-asetus 2016/679 artikla 89 1-kohta).
  • tietosuojalain 27 §:n perusteella arkistoitaviin haastattelu- ja kirjoitusaineistoihin on arkistointilupa tutkittavilta
  • teossuojaa saavat aineistot lukeutuvat Kopioston ja Tietoarkiston välisen sopimuksen alaan tai aineistojen oikeuksien siirrosta on sovittu tekijöiden kanssa
  • lupapäätöksillä määräaikaiseen tutkimuskäyttöön saatujen aineistojen käyttölupaan sisältyy aineiston arkistointi tunnisteettomana Tietoarkistoon. Esimerkiksi julkisuuslain mukaisina luovutuksina tutkimukseen saatujen aineistojen käyttölupiin ei tavallisesti sisälly oikeutta aineiston siirtoon Tietoarkistoon. Jos tutkija haluaa luvanvaraisesti saamansa aineiston arkistoida anonyyminä, hänen tulee hankkia arkistointiin erillinen lupapäätös aineiston luovuttaneelta organisaatiolta.

2.4. Muut seulontakriteerit

  • Jos aineisto ei ole suomen-, englannin- tai ruotsinkielinen, tutkijoiden tulee olla yhteydessä Tietoarkistoon jo ennen aineiston keruuta ja noudattaa minimointiin annettuja ohjeita. Tällöin tutkijat kantavat itse vastuun koko aineiston anonymisoinnista. Aineistoja ei arkistoida, jos Tietoarkisto ei ole voinut vaikuttaa aineiston minimointiin ennen sen keruuta.
  • Tietoarkisto ei arkistoi tutkimuksessa käytettyjä Kansallisarkiston digitaalisesti saatavilla olevia aineistoja. Tietoarkisto kuitenkin arkistoi tutkijan digitoimat tai digikuvaamat Kansallisarkiston paperiaineistot, kun ne on digitoitu tai kuvattu tutkimuksessa analysoitavaksi ja niitä koskevat viitetiedot ovat riittävät.
  • Tietoarkiston ja Kopioston välisen sopimuksen mukaisesti tutkimuksen analysoitavaksi aineistoksi digitoidut tai valmiiksi sähköisessä muodossa olevat Kopioston edustamien oikeudenhaltijoiden aloihin lukeutuvat teokset saa arkistoida Tietoarkistoon tutkimuskäyttöä varten (esim. lehtiartikkelit ja kuvat). Sopimus kattaa koti- ja ulkomaiset teokset. Sopimus ei koske audiovisuaalisia teoksia eikä sävellysteoksia.
  • Paperimuodossa olevia kuva- tai tekstiaineistoja muunnetaan sähköisiksi tiedostoiksi osaksi jakelupakettia, jos niitä on käytetty keruuinstrumenttina (esim. arkistoitavan keskustelun, haastattelun tai lomakekyselyn virikkeenä).
  • Tietoarkisto ei arkistoi audiovisuaalisia tallenteita. Niiden pitkäaikaissäilytykseen ja jatkokäytön hallinnointiin on erikoistunut Helsingin yliopiston yhteydessä toimiva Kielipankki.

3. Aineistopalvelun työprosessi

Tässä luvussa kuvaillaan aineistopalvelun kolme keskeisintä työprosessia eli aineistojen sisäänotto, aineistojen prosessoiminen ja käyttöaineistojen toimitus jatkokäyttöön. Kunkin kuvauksen lopussa luetellaan ne asiakirjat/asiakirjasarjat, jotka kuuluvat esiteltyyn tehtäväkokonaisuuteen. Kaikki asiakirjat ja niihin liittyvät asiakirjahallinnolliset toimenpiteet kuvataan tarkemmin liitteessä 1 (arkistoinnin ohjetaulut).

3.1. Aineistojen sisäänotto

Aineistojen sisäänotolla tarkoitetaan prosessia, jossa tutkija, tutkimusryhmä tai tutkimusyksikkö luovuttaa tutkimusaineiston Tietoarkistoon arkistoitavaksi. Ennen aineiston siirtoa Tietoarkistoon luovuttajan kanssa tehdään aineistoa koskeva käsittelysopimus PDF. Käsittelysopimus mahdollistaa myös henkilötietoja (esimerkiksi epäsuoria tunnisteita) sisältävän aineiston siirtämisen Tietoarkistoon arkistointikelpoisuuden arvioimiseksi. Tietoarkisto edellyttää aina käsittelysopimusta, vaikka tutkija olettaisi aineistonsa olevan jo anonyymi.

Tehtyään aineistotiedostojen siirtoa koskevan tietosuoja-asetuksen mukaisen käsittelysopimuksen, asiakas siirtää aineistotiedostot Tietoarkiston palvelimelle kirjatumalla palveluportaali Ailaan. Aineistonsiirtoprosessi alkaa, kun asiakas saa Tietoarkiston asiakaspalvelulta aktivointilinkin sähköpostiinsa. Linkki ohjaa kirjautumisen kautta lomakkeelle, johon asiakas voi täyttää luovutuksen tiedot (metadata) ja siirtää tiedostot. Lähetetty aktivointilinkki toimii vain kerran.

Yhteys Ailaan on suojattu HTTPS-yhteys. Asiakas tunnistautuu HAKA-federaatiota käyttäen tai poikkeustapauksessa (asiakkaalla ei ole mahdollisuutta HAKA-tunnistautumiseen) Tietoarkiston omalla identiteettipalvelimella. Yksittäistä luovutusta voivat tarkastella ja muokata asiakas itse sekä ne Tietoarkiston työntekijät, joilla on aineistojen vastaanottoon liittyvä työrooli tai järjestelmän ylläpitoon liittyvä työrooli. Tietoarkisto poistaa luovutukseen liittyvät tiedot palvelusta, kun luovutus on todettu valmiiksi. Luovutusta koskevat tiedot tallennetaan sisäiseen TIIPII-tietokantaan.

Sähköiseen muotoon tallennettu alkuperäinen data voidaan toimittaa Tietoarkistoon jonkin tilastomatemaattisen sovellusohjelman formaatissa, tekstitiedostoina tai kuvatiedostoina (ks. formaattitaulukko). Aineistoa siirtäessään luovuttaja kirjaa aineiston tiedot (metadata) Ailan siirtoa varten aineistokohtaiselle kuvailulomakkeelle. Kuvailulomakkeen tiedot säilytetään siihen saakka, kun Tietoarkisto on tuottanut lopullisen metadatan aineistosta.

Arkistointisopimus PDF tehdään joko arkistointikelpoisuuden arvioinnin jälkeen tai viimeistään, kun aineisto on muokattu jatkokäytettävään muotoon (käyttöaineisto valmis). Alkuperäinen data tuhotaan, kun käyttöaineisto on tuotettu ja luovuttaja on hyväksynyt aineiston kuvailun ja aineistoon tehdyt muokkaukset.

Tietoarkisto antaa kaikille arkistoiduille aineistoille pysyvät tunnisteet eli PIDit URN-tunnuksina. Pysyvät tunnisteet takaavat, että aineisto löytyy, vaikka se siirtyisi jostain syystä esimerkiksi uuteen osoitteeseen.

Aineiston sisäänotto sisältää seuraavat asiakirjat/asiakirjasarjat:

3.2. Aineistojen prosessointi

Tietoarkisto prosessoi luovutuspaketin sisältämästä materiaalista pitkäaikaissäilytettävän ja jatkokäyttöön soveltuvan käyttöaineiston (jakelupaketti). Käyttöaineisto sisältää datan, kuvailutiedot (metadatan) ja aineistoon liittyvän muun materiaalin. Jos luovuttaja haluaa pitää itsellään ensikäyttöoikeuden osaan aineistoa (esim. tietyt muuttujat), Tietoarkisto tuottaa aineistosta erikseen myös säilytyspaketin, johon sisältyy myös määräajan käyttökiellossa olevat muuttujat.

Prosessoinnin päämäärä on (1) muokata aineisto teknisesti ja sisällöllisesti pitkällä aikavälillä käyttökelpoiseksi sekä (2) huolehtia tutkittavien tietosuojasta. Keinoina ovat muun muassa sopivan tallennusformaatin valinta, yksityiskohtaisen metadatan luominen ja anonymisointi. Aineiston prosessoinnin tavoitteet ovat samat eri aineistotyypeillä, mutta erityyppiset aineistot prosessoidaan eri tavoilla. Kvantitatiivisten ja kvalitatiivisten aineistojen prosessoinnin ominaispiirteet on kuvattu alla.

Aineistojen prosessoinnissa tuotetaan seuraavat asiakirjasarjat:

3.2.1. Kvantitatiiviset aineistot

Tietoarkistoon luovutettu alkuperäinen aineisto voi olla monissa eri formaateissa (data esimerkiksi SPSS-, Excel- tai ASCII-tiedostona ja oheismateriaali Word-, Excel- tai tekstitiedostona tai paperilla). Päämääränä on tuottaa hyvin dokumentoitu datatiedosto, jonka sisältö ja rakenne vastaa mahdollismman tarkasti keruuinstrumenttia (esimerkiksi kyselylomaketta). Tämän vuoksi käyttödataan ei yleensä jätetä esimerkiksi sellaisia tutkijoiden konstruoimia muuttujia, jotka voidaan rakentaa datan muista muuttujista.

Kvantitatiivisen datan tarkistamiseen, muokkaukseen ja aineiston muuttujia kuvailevien tietojen lisäämiseen käytetään SPSS-ohjelmaa. Aineistonkäsittelijä kirjaa yksityiskohtaiset tiedot siitä, miten säilytys- ja käyttöaineisto on tuotettu. Muuttujien tiedot, tehdyt muutokset ja muut huomiot kirjataan SPSS-syntaksitiedostoon. Aineiston sisältöä ja keruuta kuvaava metadata tallennetaan DDI2-formaatin mukaisesti. Aineiston säilytys- ja paketointitiedot tallennetaan sisäiseen TIIPII-tietokantaan (ks. luku 5).

Anonymisointi

Tietoarkisto pyytää luovuttajaa poistamaan tunnisteet kvantitatiivisesta aineistosta ennen arkistoon luovutusta (lisätietoja tunnisteista ja anonymisoinnista Aineistonhallinnan käsikirjassa). Tietoarkisto tarkistaa tehdyn anonymisoinnin ja tekee tarvittaessa lisämuutoksia. Tarvittavat muutokset yksilöidään luovuttajalle ja häneltä pyydetään hyväksyntä niille.

Anonymisointi suunnitellaan jokaiselle aineistolle erikseen. Anonymisoinnin aluksi kartoitetaan aineiston ominaisuudet (perusjoukko ja otanta; aineiston sisältö; aineiston ikä; vastaajista muualta saatavat tiedot; käytettävyys). Tunnisteita poistetaan seuraavilla tavoilla.

  • Muuttujan, yksittäisten arvojen tai havaintoyksiköiden poistaminen
  • Muuttujan arvojen uudelleen luokittelu
  • Avomuuttujien tekstivastauksien muokkaus
  • K-anonymiteetti ja l-diversiteetti
  • Kohinan lisääminen (adding noise)
  • Permutaatio
  • Pseudonyymien aineistojen anonymisointi: Edellä mainittujen keinojen lisäksi pseudonyymeille datoille arvotaan aina uudet havaintotunnukset ja aineisto järjestetään uudelleen arvottujen tunnusten mukaiseksi. Alkuperäiset havaintotunnukset hävitetään. Näin anonymisoituun aineisto ei voi enää liittää uusia tietoja tutkittavista.

3.2.2. Kvalitatiiviset aineistot

Tietoarkisto ottaa arkistoitavaksi kvalitatiivisia eli ei-numeerisia tutkimusaineistoja monissa eri formaateissa. Valtaosa aineistoista on tekstejä, jotka on tuotettu erilaisista haastattelu- ja vuorovaikutustilanteista. Toinen tärkeä aineistotyyppi ovat kirjoitusaineistot (esim. erilaiset teemakirjoitukset).

Tutkimusaineiston digitaaliset kuvat arkistoidaan, jos tutkija on saanut kuvaajilta luvat arkistointiin (ns. oikeuksien siirto). Äänitallenteet arkistoidaan ainoastaan poikkeustapauksissa. Esimerkiksi oman alansa tunnettujen henkilöiden asiantuntijahaastattelujen äänitallenteet voidaan arkistoida, jos tallenteilla esiintyvät ihmiset ovat antaneet arkistointiluvan ja aineisto on sisällöltään sen kaltainen, että siihen soveltuu tietosuojalain 27 §. Valtaosaan haastatteluaineistoista ei sovellu mainittu säännös.

Kvalitatiivisten aineistojen prosessoinnissa sähköinen tekstiaineisto muunnetaan TXT tai RTF-muotoon. Kuvat säilytetään JPEG, PNG, TIFF tai DNG-tiedostoina ja audioaineistot FLAC tai MP3-muodossa. Paperimateriaali konvertoidaan harkinnanvaraisesti PDF-, RTF- tai TIFF-muotoon. Lisäksi tarkistetaan aineiston sisäisen metadatan (esimerkiksi tiedostojen nimet ja aineistoyksikköjen kuvailevat taustatiedot) yhtenäisyys. Käyttödatan tuottamisessa käytetyt toimenpiteet kirjataan yksityiskohtaisesti aineistokohtaiseen tekstitiedostoon. Aineiston sisältöä ja keruuta kuvaava metadata tallennetaan DDI2-formaatin mukaisesti. Tekstitiedostoista tuotetaan aineistonhallintaa helpottava html-versio jatkokäyttäjälle tarkoitettuun jakelupakettiin. Aineiston säilytys- ja paketointitiedot tallennetaan sisäiseen TIIPII-tietokantaan (ks. luku 5).

Tunnisteiden poisto

Tietoarkisto pyytää luovuttajaa poistamaan tunnisteet kvalitatiivisesta aineistosta ennen arkistoon luovutusta (lisätietoja tunnisteista ja anonymisoinnista Aineistonhallinnan käsikirjassa).Tietoarkisto tarkistaa tiedostot ja tekee niihin tarvittaessa lisää tunnistetietojen poistoja ja muokkauksia. Tarvittavat muutokset yksilöidään luovuttajalle ja häneltä pyydetään hyväksyntä niille.

Tunnisteiden poistoa varten tehdään suunnitelma jokaiselle aineistolle erikseen. Tunnisteet poistetaan kaikista henkilötiedoista, niin tutkittavia itseään kuin kolmansia osapuolia koskevista tiedoista. Tunnisteita poistetaan seuraavilla tavoilla.

  • Hävitetään suoria tunnisteita (henkilönimet, osoitteet, puhelinnumerot, sähköpostiosoitteet ja henkilötunnukset) sisältävät aineistojen oheistiedostot.
  • Alkuperäisten henkilönimien (niin tutkittavien kuin heidän mainitsemien muiden henkilöiden) tilalle annetaan keksityt nimet (Liisa -> [Anni]) tai nimet poistetaan (Liisa -> [vaimo]). Alkuperäiset nimet hävitetään.
  • Tekstin sisällä mainittujen erisnimien (koulut, työpaikat jne.) tilalle vaihdetaan karkeamman tason kategoriat (Muoti-Titaani Oy -> [vaatetusliike]).
  • Tutkittavien taustatiedot (esim. ikä, asuinpaikkakunta, koulutus, ammatti, kotitalouden/perheen koostumus, kansallisuus tai etninen tausta, työpaikka) luokitellaan.
  • Poistetaan huomattavasti tunnistetietoja sisältäviä aineisto-osuuksia.
  • Poikkeustilanteet: 1) Tekijänoikeuslain 8.7.1961/404 ja tietosuojalain 27 § perusteella arkistoitavat aineistot vain minimoidaan. 2) Yksinomaan tietosuojalain 27 § sovellusalaan kuuluvia Kopiostosopimuksen alaisia aineistoja (esim. lehtiartikkelit) ei minimoida.

Mikäli aineistoa ei voi käyttää järkevästi anonymisoituna ja se olisi henkilötietoineen tutkimuksellisesti arvokas, Tietoarkisto kehottaa tutkijaa neuvottelemaan organisaationsa tietosuojavastaavan kanssa mahdollisuudesta arkistoida aineisto henkilötietoineen tietosuojalain arkistointia koskevien säännösten perusteella.

3.3. Aineistojen toimitus jatkokäyttöön

Tietoarkistoon arkistoituja aineistoja toimitetaan jatkokäyttöön aineistoa koskevan arkistointisopimuksen määrittelemällä tavalla. Pieni osa aineistoista on vapaasti kaikkien käytettävissä.

Valtaosa aineistoista on saatavissa vain Tietoarkiston asiakkaaksi kirjautumalla. Suomalaisten yliopistojen ja korkeakoulujen henkilökunta ja opiskelijat käyttävät asiakkaaksi kirjautumiseen Haka-käyttäjätunnistusjärjestelmää. Muut asiakkaat (esim. valtion tutkimuslaitosten ja ulkomaisten yliopistojen henkilökunta ja opiskelijat) hakevat käyttäjätunnusta Tietoarkistosta täyttäen henkilötietolomakkeen ja perusteen aineistojen käytölle. Kun lomakkeen tiedot on tarkistettu Tietoarkistossa, asiakas saa hyväksynnän rekisteröitymisestään ja käyttäjätunnuksen antamaansa sähköpostiosoitteeseen.

Asiakkaaksi kirjautuminen edellyttää asiakkaan henkilötietojen käsittelyä tietosuojaselosteen mukaisesti. Asiakkaan on sitouduttava noudattamaan aineistoportaalin käyttöehtoja, aineistojen yleisiä käyttöehtoja ja mahdollisia aineistoa koskevia erityisehtoja ennenkuin hän voi ladata tarvitsemansa aineiston.

Jatkokäyttöön toimituksen valtuudet ovat aineistokohtaisia ja määräytyvät arkistointisopimuksen mukaan neljään vaihtoehtoiseen käyttöluokkaan:

  • kaikkien käytettävissä
  • tutkimukseen, opiskeluun ja opetukseen (edellyttää asiakkaaksi rekisteröitymistä)
  • tutkimukseen (edellyttää asiakkaaksi rekisteröitymistä)
  • vain luovuttajan luvalla (edellyttää asiakkaaksi rekisteröitymistä)

Jatkokäyttöön toimittamiseen sisältyvät seuraavat asiakirjat ja tiedostot:

4. Verkkosivusto

Yksi Tietoarkiston keskeisistä tehtävistä on tiedottaa arkistoiduista tutkimusaineistoista. Arkistoitujen aineistojen laajat kuvailutiedot ovat vapaasti saatavilla Aila palveluportaalissa. Aineistoluetteloa päivitetään jatkuvasti.

Verkkosivuilla ohjeistetaan tutkijoita aineistonhallinnassa. Ohjeissa kerrotaan esimerkiksi tutkittavien informoinnista, anonymisoinnista, tiedostoformaateista, metatiedoista ja tietoturvasta. Sivuilla on myös ohjeita tutkimusmenetelmistä sekä kaikki ilmestyneet Tietoarkisto-lehdet.

Tietolähteinä verkkosivustolla käytetään Tietoarkiston perustamisasiakirjoja, arkistoitujen aineistojen tiedostoja, data-arkistoalan kirjallisuutta ja tiedotteita sekä tutkimuskirjallisuutta. Sivuista otetaan joka vuosi ja aina ennen suuria muutoksia yksi pysyvästi säilytettävä sähköinen kopio. Sivustoon tehdyistä muutoksista pidetään kirjaa versionhallintajärjestelmän avulla. Verkkosivuston osoite on https://www.fsd.tuni.fi/.

5. Tietojärjestelmät, tietoturva ja pitkäaikaissäilytys

Tietoarkistossa on kaksi keskeistä tietojärjestelmää: Palveluportaali Aila ja Tiipii-tietokanta. Palveluportaali Aila on aineistojen jatkokäyttöön toimittamisen rekisteröintijärjestelmä, asiakasrekisteri, kirjautumisjärjestelmä ja aineistoportaali: Tietojärjestelmäseloste (Aila). Tiipii-tietokantaa käytetään kaiken arkistotyön sisäisenä rekisteröintijärjestelmänä: Tietojärjestelmäseloste (Tiipii).

Tietoarkistossa on myös muita sisäiseen käyttöön tarkoitettuja tietojärjestelmiä, joihin on pääsy vain Tietoarkiston henkilökunnalla. Pääsy järjestelmiin on rajattu esimerkiksi palomuurien ja kirjautumisen vaatimisen avulla.

Lisäksi Tietoarkisto hyödyntää kansallista pitkäaikaissäilytyspalvelua, jonka omistaa Opetus- ja kulttuuriministeriö ja toteuttaa CSC – Tieteen tietotekniikan keskus Oy.

Sähköisiä tietoaineistoja säilytetään Tampereen yliopiston palvelimilla, jotka sijaitsevat yliopiston palvelintiloissa. Palvelintiloihin on pääsy vain henkilöillä, jotka sitä työroolinsa vuoksi tarvitsevat. Sähköinen yhteys tietoaineistoihin on rajoitettu käyttöoikeuksin niin, että niihin pääsevät käsiksi vain palvelinten ylläpitäjät ja Tietoarkiston työntekijät, joiden työrooli edellyttää pääsyä kyseiseen tietoon.

Osaan Tietoarkiston tietoaineistoista on mahdollista päästä myös Tampereen yliopiston tarjoaman virallisen etäyhteyspalvelun avulla yliopiston tilojen ulkopuolelta. Muita etäyhteyskäytäntöjä järjestelmiin ei tarjota eikä tueta. Tietoarkiston työntekijät noudattavat etätyöhön erikseen laadittuja tietoturvaohjeita.

Median fyysisen vaurioitumisen (esimerkiksi kiintolevyn vikaantuminen tai tulipalo) varalta Tietoarkiston palvelimilla olevat tietoaineistot varmuuskopioidaan Tampereen yliopiston tietohallinnon varmuuskopiointipolitiikan mukaisesti. Tämän lisäksi tietyiltä Tietoarkiston palvelimilta otetaan varmuuskopioita Tietoarkiston omalla varmistusjärjestelmällä. Molemmissa tapauksissa varmuuskopioiden säilytyspaikka on yliopiston tietohallinnon konesali. Konesali on lukittu, paloturvallinen ja kulunvalvonnan piirissä. Tietohallinnon tarjoama levypalvelu on Tampereen korkeakouluyhteisön (Tampereen yliopisto ja Tampereen ammattikorkeakoulu) yhteinen.

Hylätyt tallennusmediat (esimerkiksi kiintolevyt) hävitetään toimittamalla ne tuhottavaksi tai tyhjennettäväksi Tampereen yliopiston antamien henkilötietoja sisältävien tallenteiden hävittämistä koskevien määräysten mukaisesti. Tampereen yliopiston tietohallinnon tallennusmediat hävitetään samojen ohjeiden mukaisesti. Hävityksestä huolehtii yliopiston yhteistyökumppani, joka hoitaa hävityksen sovittujen tietoturvastandardien mukaisesti ja raportoi tehdystä käsittelystä mediakohtaisesti.

Tampereen yliopisto vaatii tietojärjestelmien ylläpitäjiltä erillisen vaitiolositoumuksen. Vaatimus koskee sekä Tietoarkiston teknisten palveluiden henkilöstöä, että Tampereen korkeakouluyhteisön tietohallinnon ylläpitohenkilöstöä.

Tietoarkiston käyttämien työasemien kiintolevyt on salattu. Uudet ohjelmakoodit ja asennukset katselmoidaan ennen kuin ne hyväksytään käyttövalmiiksi. Tietoarkistossa käytetään automaattisia monitorointityökaluja, jotka varoittavat tietynlaisista turvallisuuspuutteista. Tietoarkiston tietoturvavastaava seuraa aktiivisesti tietoturvauhkiin liittyvää uutisointia ja tiedotusta sekä järjestelmien ja toimintatapojen tietoturvan kehitystä ja tekee tarvittaessa ehdotukset tietoturvan parantamiseksi. Tekniset palvelut pitävät säännöllisesti iteraationvaihtoja, joissa koko teknisellä tiimillä on mahdollisuus ottaa esille tietoturva-asioita ja jakaa tietoa.

Tietoarkiston arkistoimat tutkimusaineistot siirretään myös Kansalliseen pitkäaikaissäilytyspalveluun. Säilytystä varten aineistoista muodostetaan digitaalisia säilytyspaketteja, aineistojen tiedostomuodot harmonisoidaan ja pakettiin lisätään säilytyksen vaatimaa teknistä ja provenienssimetatietoa. Siirtotie on salattu. PAS-palvelu on digitaalisten kulttuuriperintöaineistojen ja tutkimusaineistojen pitkäaikaissäilyttämiseen erikoistunut, tietoturvallinen palvelukokonaisuus. Palvelua ylläpitää CSC, jonka kaikki datakeskukset ja ICT-palvelut on ISO 27001 -sertifioitu. PAS-palvelusta aineistot voidaan ainoastaan luovuttaa takaisin Tietoarkistolle. Digitalpreservation.fi -sivulla on julkaistu PAS-palvelun tietosuojaseloste ja paketointi, tiedostomuoto- ja rajapintamääritykset.

6. Tähänastiset kertymät ja ennuste

Paperiset arkistointisopimukset (vuoteen huhtikuuhun 2013 saakka luovutussopimukset):
kertymä vuodesta 1999 heinäkuuhun 2019 on 5 arkistokoteloa (0,4 hyllymetriä). Kertymäennuste: 1 arkistokotelo (0,08 hyllymetriä) neljässä vuodessa.

Tutkimusaineistoja kontekstoivat pysyvästi säilytettävät paperimateriaalit:
kertymä vuodesta 1999 heinäkuuhun 2019 on 41 arkistokoteloa (3,28 hyllymetriä). Kertymäennuste: 1 arkistokoteloa (0,16 hyllymetriä) neljässä vuodessa. Valtaosa aineistoista 2010 -luvulta alkaen on sähköistä.

Sähköiset tutkimusaineistot ja niihin liittyvä muu sähköinen materiaali:
kertymä vuodesta 1999 heinäkuuhun 2019 yhteensä noin 16,9 gigatavua sisältäen 38 261 tiedostoa. Kertymäennuste: noin 0,8 gigatavua vuodessa.

Tietoarkiston pysyvästi säilytettävät hallinnolliset asiakirjat arkistoidaan Tampereen yliopiston päätearkistoon yliopiston arkistonmuodostussuunnitelman mukaisesti. Pieni osa hallinnollisista asiakirjoista säilytetään Tietoarkistossa. Niitä on kertynyt yhteensä 1 arkistokotelo heinäkuuhun 2019 mennessä.

Paperiset käyttölupahakemukset ja käyttöehtositoumukset:
kertymä vuodesta 1999 huhtikuuhun 2014 on 20 arkistokoteloa (1,6 hyllymetriä). Kertymäennuste: ei kertymiä. Sarja on päättynyt 23.4.2014.

7. Jatkuvuussuunnitelma

Tietoarkiston perusrahoitus on riittävä perustoimintojen (aineistojen arkistointi, jakelu ja tietopalvelu) ylläpitoon. Siinä epätodennäköisessä tapauksessa että yksikön rahoitus loppuu, Tietoarkiston johtaja kokoaa työryhmän, joka suunnittelee arkistoitujen aineistojen hallitun siirron seuraajalle tai seuraajille sekä hallinnollisesta että teknisestä näkökulmasta. Työryhmä koostuisi rahoittajien, neuvottelukunnan, asiantuntijoiden ja muiden tarpeellisten sidosryhmien edustajista.