Laadullisten aineistojen arkistointi

Lukuaika noin 9 min

Aineiston arkistointi tulee yleensä ajankohtaiseksi tutkimuksen päättyessä, mutta arkistointi ja aineistonhallinta kannattaa huomioida jo tutkimusta suunnitellessa ja ennen aineiston keräämistä.

Aineiston keruu ja käsittely on usein hyvin työlästä ja siksi laadullinen aineisto on hyvä suunnitella niin, että sen voi oman tutkimuksen päätyttyä tallentaa tai arkistoida muiden käytettäväksi. Muut voivat hyödyntää vaivalla kerättyä aineistoa myöhemmin tutkimuksessa, opiskelussa tai opetuksessa. Arkistointi tukee myös tieteen läpinäkyvyyttä ja tutkimustulosten toistettavuutta, kun tutkimuksen lukijat voivat itse tutustua aineistoon.

Lisätietoa arkistoinnin hyödyistä ja aineistonhallinnassa huomioon otettavista asioista on Aineistonhallinnan käsikirjassa.

Tässä luvussa esitellään kolme organisaatiota, jotka ottavat vastaan laadullisia aineistoja. Aineistojen keruussa ja käsittelyssä on noudatettava kunkin organisaation antamia ohjeita.

  • Tietoarkisto on sähköisten tutkimusaineistojen arkistointiin ja jatkokäyttöön toimittamiseen erikoistunut yksikkö. Tietoarkisto vastaanottaa jatkokäyttöön soveltuvia laadullisia aineistoja.
  • Suomalaisen Kirjallisuuden Seura (SKS) kerää ja tallentaa suomalaista kulttuuria ja kulttuuriperintöä.
  • Kielipankki on palvelukokonaisuus, jonka kautta sähköiset kieliaineistot ja niiden käsittelyyn sopivat työkalut tuodaan tutkijoiden saataville. Kielipankki auttaa eri alojen tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan kieliaineistoja.

Laadullisen aineiston arkistointi Tietoarkistoon Ankkurilinkki ikoni

Arja Kuula-Luumi (viittausohje)

Tietoarkisto vastaanottaa laadullisia tutkimusaineistoja, joita voi käyttää tutkimukseen, opiskeluun tai opetukseen. Tavallisesti aineistot arkistoidaan siinä vaiheessa, kun alkuperäinen tutkimus on päättynyt tai päättymässä.

Litteraatit ja kirjoitusaineistot

Aineistot voivat olla haastattelujen, ryhmähaastatteluiden ja erilaisten vuorovaikutustilanteiden litteraatteja tai erilaisia kirjoitusaineistoja. Litteraatit ja kirjoitusaineistot arkistoidaan pääosin anonyymeinä.

Jos aineistoista tehdyt tutkimusjulkaisut sisältävät tutkittavien henkilötietoja, voidaan myös litteraatit ja kirjoitukset arkistoida esimerkiksi sisältäen tutkittavien nimet ja joitain taustatietoja. Tällaisia voivat olla esimerkiksi taiteilijoiden tai tunnettujen asiantuntijoiden haastattelut, joiden nimien julkaisuun ja arkistointiin tutkittavat ovat antaneet luvan.

Tietoarkiston Penna-verkkoalustalla on mahdollista toteuttaa kirjoitusaineiston keruu tutkimusta tai pro gradu -tutkielmaa varten.

Teokset kuten lehtiaineistot

Tietoarkistoon voi arkistoida myös teossuojan alaisia aineistoja. Analysoitavaksi kerätyt sähköiset tai tutkimuksessa digitoidut artikkelit, lehtikirjoitukset, lehtikuvitukset, sarjakuvat, kirjojen kuvitukset tai otteet kirjallisuudesta voi arkistoida Tietoarkistoon. Aineistot voivat olla Suomesta tai ulkomailta kerättyjä. Tätä varten Tietoarkisto on solminut Kopioston kanssa sopimuksen.

Kuvat

Tutkijan tutkimusta varten ottamat kuvat voidaan arkistoida, jos kuvissa mahdollisesti esiintyvät henkilöt ovat antaneet luvan kuvien arkistointiin. Kun tutkittavat ottavat tai luovuttavat tutkimukseen ottamiaan kuvia, tulee heidän kanssaan sopia kuvien arkistoinnista jatkokäyttöä varten. Ohjeita siihen löytyy Aineistonhallinnan käsikirjan luvusta Sopimukset ja oikeudet.

Some-data vain rajatusti

Sosiaalisen median aineistoista Tietoarkistoon voi arkistoida suomalaisen palvelutarjoajan sivustolta kerätyn aineiston, jos tutkija on sopinut palvelutarjoajan kanssa aineiston arkistoinnista Tietoarkistoon. Suurten ulkomaisten palveluntarjoajien (esimerkiksi Facebook, Instagram ja Twitter) alustoilta kerättyjä aineistoja ei oteta Tietoarkistoon, koska sosiaalisen median palvelujen käyttöehdot eivät mahdollista aineiston arkistointia muihin tarkoituksiin luovutettavaksi. Tietoarkisto ei myöskään ota vastaan audiovisuaalisia aineistoja, joiden pitkäaikaissäilytykseen ja jatkokäytön hallinnointiin on erikoistunut Kielipankki.

Aineistojen tallentaminen Suomalaisen Kirjallisuuden Seuran (SKS) arkistoon Ankkurilinkki ikoni

Katri Kivilaakso (viittausohje)

SKS:n arkisto (Avautuu uuteen välilehteen) ottaa hankintapolitiikkansa (Avautuu uuteen välilehteen) mukaisesti vastaan perinne- ja muistitietoaineistoja sekä suomalaisten kirjallisuuden alan toimijoiden aineistoja. Perinne- ja muistitietoaineistoilla tarkoitetaan hyvin monenlaisia aineistoja ja ne voivat liittyä niin menneisyyteen kuin nykypäivään. Arkistossa on esimerkiksi paljon keruukyselyaineistoja, joissa vastaajia on pyydetty kirjoittamaan tietystä aihepiiristä melko vapaamuotoisesti. Keruun järjestäjä tarjoaa kirjoittajille usein kuitenkin ohjaavia kysymyksiä. (Ks. myös Kirjoituskutsut).

Hankintapäätökseen vaikuttavat monet seikat, kuten aineiston sisältö, laajuus sekä käytettävyys. SKS:n arkistoon kannattaa olla yhteydessä hyvissä ajoin ennen aineistonkeruun aloittamista, jotta voimme yhdessä varmistaa, että aineisto on sisällöllisesti SKS:n arkiston sopivaa ja että aineiston arkistointi ja asiakaskäyttö ovat mahdollista.

Arkistoinnin ja asiakaskäytön kannalta tärkeää on, että vastaajilta tai haastatelluilta on SKS:n käytäntöjen mukaiset luvat ja suostumukset aineiston arkistointiin ja asiakaskäyttöön antamiseen.

Aineiston keruu, suunnittelu ja dokumentointi

Aineiston keruun suunnitteluvaiheessa SKS:n arkisto tarvitsee tiedot tutkimuksen aihepiiristä sekä siitä millaista aineistoa on tarkoitus kerätä, keiltä ja millä menetelmällä. Lisäksi tarvitaan tietoa tiedonkeruun toteuttajista, aineiston käyttötarkoituksesta ja siitä, mikä osa aineistosta on tarkoitus luovuttaa ja millaisin ehdoin muut saavat sitä käyttää.

Aineiston kerääjän vastuulla on laatia haastattelusuunnitelma, kyselylomake tai keruukutsu. Hän kerää myös vastaajien suostumuksen arkistointiin ja järjestää ja kuvailee aineiston sekä toimittaa aineiston arkistoon. Aineiston käyttöön ja arkistointiin kerättävien lupien tai suostumusten tulee olla yhdistettävissä aineistoon siten, että on tiedossa, mihin yksittäiseen vastaukseen tai haastatteluun luvat liittyvät. Ne pidetään kuitenkin erillään aineistosta niin, että luvat ja niiden sisältämät yhteystiedot ovat helposti erotettavissa vain arkiston käyttöön.

Tutkijan tai tutkimusryhmän laatimat suostumuslomakkeet ja luvat arkistointiin kannattaa tarkistuttaa arkistossa etukäteen sen varmistamiseksi, että ne vastaavat SKS:n käytäntöjä. Tutkittaville annettava tutkimusseloste ei saa olla ristiriidassa arkistointia varten laaditun luvan tai suostumuksen kanssa.

Henkilötiedot ja arkistoon sopimattomat aineistot

SKS:n arkiston aineistot ovat tyypillisesti sidoksissa aikaan, paikkaan ja henkilöihin. SKS:n arkisto kiinnittää aineiston vastaanottopäätöstä tehdessään siihen, että aineistolla on kulttuuriperintöarvoa. Tämä tarkoittaa sitä, että aineiston on oltava sisällöltään riittävän eheää ja siitä on saatavilla riittävästi kontekstoivaa tietoa siitä, mitä aikaa aineisto kuvaa, milloin se on tuotettu, miten se sijoittuu maantieteellisesti, ketä se kuvaa ja niin edelleen.

Arkisto ei lähtökohtaisesti ota vastaan aineistoja, joiden kohdehenkilöille on luvattu, ettei heitä voi tunnistaa, sillä tätä ei aina voida taata. Aineiston henkilötietoja voidaan kuitenkin minimoida silloin kun se on tarpeen. Tämä on kuitenkin aineiston kerääjän vastuulla, sillä arkisto ei poista tai muokkaa aineistoon sisältyviä henkilötietoja. Vastaanottopäätöstä tehtäessä kiinnitetään huomiota siihen, miten minimointi on vaikuttanut aineiston kulttuuriperintöarvoon.

Aineiston anonymisointi on niin merkittävä toimenpide, että se vaikuttaa aineistojen kulttuuriperintö- ja jatkokäyttöarvoon, joten SKS:n arkisto ei lähtökohtaisesti ota vastaan anonymisoituja aineistoja.

Sosiaalisen median alustat (kuten Facebook, Twitter, Instagram) eivät sovellu SKS:n arkistolle luovutettavaksi tarkoitettujen aineistojen keräämiseen, sillä some-alustojen liiketoimintamalli ja siihen perustuvat käyttöehdot eivät pääsääntöisesti salli aineistojen arkistointia.

Hankintapäätös ja käyttörajoitukset

Lopullisen päätöksen aineiston hankinnasta SKS:n arkisto tekee vasta, kun aineisto on kerätty ja valmis luovutettavaksi. Ennen vastaanottopäätöstä varmistamme, että luovutettava aineisto on SKS:n arkiston hankintakriteerien mukaista ja että aineiston keruuta varten laaditut kirjoituskutsu ja arkistointiin tarvittavat suostumuslupatekstit ovat käytäntöjemme mukaiset. Aineiston luovuttamisen yhteydessä tarkistamme, että luvat ja suostumukset ovat kunnossa ja teemme luovuttajan kanssa luovutussopimuksen. Mikäli haastateltavat tai vastaajat haluavat rajata sitä, milloin ja kenelle aineistoa saa luovuttaa, käyttörajoitusten on oltava määräaikaisia ja yksiselitteisesti tulkittavia. Luovutussopimuksessa on mahdollisuus sopia määräaikaisesta käyttörajoituksesta.

Teksti- ja puheaineistojen sijoittaminen Kielipankkiin Ankkurilinkki ikoni

Mietta Lennes (viittausohje)

Eri alojen tutkijat ja tutkimusryhmät voivat sijoittaa keräämiään aineistoja ja kehittämiään työkaluja Kielipankkiin (Avautuu uuteen välilehteen) säilytettäviksi ja edelleen välitettäviksi. Kielipankki ottaa vastaan digitaalisia aineistoja, jotka sisältävät tekstiä tai puhetta jollakin luonnollisella kielellä ja jossakin käyttökelpoisessa muodossa. Tarkemmista käyttöehdoista sovitaan aineistokohtaisesti.

Aineistojen sijoittaminen Kielipankkiin kannattaa

Tutkimusta varten tarvittavan teksti- tai puheaineiston (korpuksen) kerääminen, järjestäminen, esikäsittely ja dokumentointi on usein työlästä ja sama korpus saattaa sopia moniin erilaisiin tutkimusaiheisiin. Aineistoon perustuvan tutkimuksen toistaminen onnistuu varmemmin, kun aineisto on helposti löydettävissä ja saatavilla Kielipankin kautta.

Kielipankissa kaikille aineistoille kirjataan julkisesti näkyvät kuvailutiedot. Yksittäisen aineiston jokainen versio saa oman pysyvän tunnisteen ja viittausohjeen, joiden avulla aineisto löytyy myös jatkossa ja aineiston koostaja saa asianmukaisen kunnian tekemästään työstä. Luettelo Kielipankkiin talletetuista aineistoista on saatavilla Kielipankin verkkosivuilta.

Miten aineistot syntyvät?

Kielipankkiin sopivia aineistoja voi syntyä monella tavalla. Aina ei tarvitse luoda kokonaan uutta aineistoa, sillä myös olemassa olevasta korpuksesta voidaan tehdä uusia versioita. Tutkija saattaa esimerkiksi annotoida jonkin aiemmin julkaistun aineiston tai sen osan uudelleen toisella tavalla tai tehdä vaikkapa puhekorpuksen litteraatteihin tai muihin annotointeihin merkittävän määrän korjauksia ja täydennyksiä. Annotaatio tarkoittaa dokumenttien osiin liittyvää järjestelmällistä merkkausta, joka helpottaa ja nopeuttaa sisällön tutkimista. Tällöin ensisijaisen aineiston alkuperäiset näytteet eivät muutu, mutta niihin liitetään uusia tai paranneltuja ja kenties rikkaampia kuvauksia. Aiemmin julkaistua aineistoa voidaan myös laajentaa tai kartuttaa uusilla osioilla, jotka on kerätty ja annotoitu samoilla periaatteilla vaikkapa seurantatutkimuksen kuluessa.

Avoin vai rajoitettu aineisto?

Kielipankin tavoitteena on tuoda aineistot saataville niin avoimesti kuin mahdollista. Joissakin tilanteissa aineisto ei kuitenkaan voi olla julkisessa käytössä. Teksti- ja puheaineistot saattavat sisältää henkilötietoja, joiden käsittely on tietosuojan vuoksi rajoitettua. Ne voivat sisältää myös tekijänoikeuksien alaista materiaalia, jota ei ole lisensoitu avoimeen käyttöön. Uuden aineiston kerääjän on tärkeää varmistua siitä, että aineiston edelleen välittämiseen on riittävät oikeudet, sillä tilanteen selvittely ja lupien pyytäminen jälkikäteen voi olla vaikeaa.

Yksittäisiä aineistoja voidaan suojata Kielipankissa eri tavoin, jos käyttöehdot sitä edellyttävät. Pääsy aineistoon voidaan esimerkiksi rajata vain korkeakoulujen myöntämillä käyttäjätunnuksilla kirjautuneille käyttäjille tai aineiston käyttöoikeuksia voidaan myöntää yksitellen henkilökohtaisten hakemusten perusteella. Käyttöoikeushakemukset käsitellään sähköisesti Kielipankin oikeudet -palvelussa.

Henkilötietojen käsittelyssä tulee ensisijaisesti noudattaa oman yliopiston tai kotiorganisaation antamia ohjeita. Ennen aineiston keräämistä kannattaa tutustua myös Tietoarkiston julkaisemaan Aineistonhallinnan käsikirjaan sekä Kielipankin ohjeisiin (Avautuu uuteen välilehteen) . Tarvittaessa on hyvä olla suoraan yhteydessä Kielipankkiin jo ennen keruun aloittamista.

Aineiston valmistelu

Kielipankkiin toimitettavassa aineistossa voi olla mukana esimerkiksi tekstitiedostoja, ääni- ja videotiedostoja ja niihin liitettyjä annotaatiotiedostoja sekä muita aineiston ymmärtämisen kannalta tarpeellisia dokumentteja. Niin aineiston kuin annotaatioidenkin tallentamiseen kannattaa alusta lähtien pyrkiä käyttämään vain hyvin kuvattuja ja tunnettuja, arkistointiin suositeltuja tiedostomuotoja. Näihin ja muihin teknisiin seikkoihin liittyviä tarkempia ohjeita on saatavilla Kielipankin tukisivuilta.

Kielipankkiin toimitettavan aineiston ei tarvitse olla annotoitua. Ääntä tai videota sisältävien puheaineistojen osalta tallenteiden litterointi eli kirjoittaminen tekstimuotoon kuitenkin parantaa merkittävästi korpuksen käyttömahdollisuuksia. Jos aineisto on tarkoitus litteroida, teksti kannattaa mahdollisuuksien mukaan samalla kohdistaa ääni- tai videotiedostojen vastaaviin ajallisiin kohtiin. Se onnistuu parhaiten puheen annotointiin ja tutkimiseen tarkoitetuilla työkaluilla (esim. ELAN tai Praat). Näytteisiin kohdistettujen litteraattien avulla on myöhemmin helppo löytää kulloinkin tarvittavat kohdat alkuperäisistä tallenteista ja analysoida niitä tarkemmin.

Litteroiminen on hidasta ja rasittavaakin työtä. Mikäli kokonaan litteroimatonta puheaineistoa on runsaasti, työn pohjaksi voi kokeilla myös automaattista puheentunnistusta. Tunnistustulos riippuu kuitenkin paljolti aineiston teknisestä laadusta ja puhuttavasta kielestä, joten litteraatti on yleensä tarkastettava ja tarvittaessa korjattava käsin.

Kielipankin verkkosivuilta löytyy lisätietoja esimerkiksi tekstin tai puheen annotointiin ja tutkimiseen sopivista työkaluista sekä ohjeita ja vinkkejä niiden käyttöön.