Kvalitatiivisen datan käsittely

Kvalitatiiviset tutkimusaineistot voivat sisältää monenlaista tutkimusmateriaalia, esimerkiksi haastattelulitteraatioita, kirjoituksia, valokuvia, etnografisia kenttäpäiväkirjoja sekä ääni- ja videotallenteita.

Tietoarkistoon arkistoidaan pääasiassa tekstimuotoista aineistoa, kuten anonymisoituja haastattelulitteraatioita ja erilaisia kirjoitusaineistoja. Lisäksi arkistoimme esimerkiksi tutkimuksen empiiriseksi aineistoksi otettuja valokuvia, mikäli arkistointiin on valokuvaajan ja kuvissa mahdollisesti esiintyvien henkilöiden lupa. Kopioston kanssa tehdyn sopimuksen mukaisesti Tietoarkisto voi arkistoida myös teossuojaa saavia tutkimusaineistoja, esim. lehtiartikkeleita, kuvia, kirjojen kuvituksia ja sarjakuvia.

Tietoarkisto ei arkistoi videoaineistoja, pl. mahdollisesti aineistonkeruun apuna käytetyt lyhyet videonäytteet ja videomuotoiset tutkimuskutsut. Audiovisuaalisten tallenteiden säilytyksestä ja jatkokäytöstä huolehtii kielitieteisiin erikoistunut Kielipankki. Mikäli suunnittelet jatkokäyttöön soveltuvan av-aineiston keruuta tai sinulla on olemassa av-aineisto, jonka haluaisit tallentaa muiden käyttöön, ota yhteyttä Kielipankkiin.

» Kielipankki: Käyttäjäksi

Lähtökohtaisesti Tietoarkisto ei arkistoi myöskään haastatteluäänitteitä, arkistoitavaksi otetaan vain haastattelujen anonymisoidut litteraatiot. Haastatteluäänitteiden arkistointi voi tulla kysymykseen joissakin poikkeustapauksissa (esim. tietynlaiset asiantuntijahaastattelut), jos haastattelujen arkistointiin tunnistetietoineen on haastateltavan kirjallinen lupa.

Tämän luvun ohjeiden tarkoitus on lisätä kvalitatiivisen aineiston keränneen tutkijan omaa aineistonhallintaa aineiston myöhempi arkistointi ja jatkokäyttö huomioiden.

Litterointi Ankkurilinkki ikoni

Kirjoitusaineistojen ohella yleisimpiä kvalitatiivisen tutkimusaineistojen muotoja ovat erilaiset haastattelu- ja keskusteluaineistot. Haastattelu- ja keskusteluaineistot tallennetaan yleensä teknisesti esimerkiksi äänittämällä tai videoimalla, jonka jälkeen ne puretaan kirjalliseen muotoon litteroimalla. Äänitallenteiden purkaminen kirjalliseen muotoon on tyypillisin tapa käsitellä puheaineistot analysoitavaan muotoon, mutta esimerkiksi kielen ja vuorovaikutuksen tutkimuksessa analysoidaan yleisesti myös itse ääni- tai äänikuvatallenteita.

Tietoarkistoon arkistoidaan ainoastaan valmiiksi litteroituja haastattelu- tai keskusteluaineistoja. Litteroinnin taso riippuu aina alkuperäisen tutkijan tai tutkimusryhmän päätöksestä ja aineistolleen asettamista tavoitteista. Usein tutkijoiden päätökseen vaikuttavat käytettävissä olevien resurssien määrä. Ideaalitapauksessa tutkijat näkevät keräämänsä aineiston arvon myös oman tutkimuksensa ulkopuolella ja käyttävät voimavaroja myös litterointiin. Litterointi on hyvä tehdä mahdollisimman kattavasti, eikä puheesta kannata jättää litteroimatta kohtia, jotka eivät tunnu litterointihetkellä omalle tutkimukselle relevanteilta. Jatkokäyttäjän näkökulmasta myös nämä kohdat saattavat olla kiiinnostavia.

Litterointia suunniteltaessa on hyvä huomioida myös aineiston myöhempi arkistointi ja sen mahdollisesti edellyttämä anonymisointitarve. Myös mahdollisissa rahoitushakemuksissa rahoitusta kannattaa hakea litteroinnin ohella myös anonymisoinnin suunnitteluun ja toteutukseen. Nykyään rahoittajat usein suosittelevat tai jopa vaativat rahoittamiensa aineistojen arkistointia, ja anonymisointi on yksi tutkimusaineistojen arkistoinnin edellytyksistä. Anonymisointi on usein helpointa toteuttaa jo litteroinnin yhteydessä, kunhan anonymisointi on hyvin ennalta suunniteltu (kts. anonymisoinnin ohjeet ). Vaadittavaan anonymisoinnin tasoon vaikuttaa keskeisesti se kuinka haastateltavia on informoitu aineiston käytöstä ja käsittelystä (kts. tutkittavien informoinnin ohjeet ). Litteroinnin ja mahdollisen anonymisoinnin voi tehdä joko itse tai sen voi tilata ulkopuoliselta palveluntarjoajalta. Tietoarkisto ei tarjoa litterointipalveluja.

Erilaisten litteraatiotasojen nimitykset ja määritelmät eivät ole vakiintuneita. Ne kuitenkin noudattelevat läheisesti toistensa peruslinjoja. Yleistä onkin, että litteraatiota ei tehdä vain jotain tiettyä valmiiksi määriteltyä litteraatiotasoa noudattaen, vaan pikemminkin niitä omien tarpeidensa mukaisesti yhdistellen. Oli litteroinnin taso mikä tahansa, tärkeintä on aina noudattaa valittua litterointitarkkuutta ja litteroinnin logiikkaa systemaattisesti läpi koko aineiston.

Erilaiset litteraation tasot on mahdollista luokitella esimerkiksi seuraavalla tavalla:

 • Referoiva litterointi: Haastatteluäänitteet puretaan vain suurpiirteisesti muistiinpanoiksi esimerkiksi ranskalaisia viivoja käyttäen ja vain satunnaisia suoria lainauksia tai puheen osia ylös kirjoittaen. Litteroijan tulkinnalla suuri rooli, koska litteroija päättää mikä on puheesta on litteroinnin arvoista.
  Voidaan käyttää esimerkiksi purettaessa haastatteluja lehtiartikkeleiksi. Ei mahdollista haastattelun tms. syvällistä analyysiä eikä tue aineiston monipuolista jatkokäyttöä.

 • Peruslitterointi: Puhe litteroidaan sanatarkasti puhekieltä noudattaen, mutta siitä jätetään pois täytesanat (esim. tota, niinku), toistot, keskenjäävät tavut ja yksittäiset äännähdykset. Myös selvästi kontekstiin liittymätön puhe voidaan harkitusti jättää litteroimatta. Puheen lisäksi litteroidaan merkitykselliset tunneilmaisut (esim. nauru, liikuttuminen, tms.).
  Voidaan käyttää silloin, kun halutaan analysoida pääasiallisesti vain puheen asiasisältöä. Jatkokäyttöä ajatellen litteroinnin suositeltava vähimmäistaso.

 • Sanatarkka eli eksakti litterointi: Litteroidaan yleensä kaikki puhe jättämättä mitään pois. Puhe litteroidaan sanatarkasti puhekieltä noudattaen ja käyttäen yleisimpiä litteraatiomerkkejä. Litteraatioon sisällytetään myös täytesanat (esim. tota, niinku), toistot, keskenjäävät tavut ja yksittäiset äännähdykset. Myös tunteen ilmaukset (esim. nauru, liikuttuminen, tms.) ja erilaiset painotukset kirjataan. Puheen lisäksi kirjataan tauot ja niiden pituudet, sekä mahdolliset haastattelutilannetta häiritsevät ulkoiset tekijät.
  Voidaan käyttää silloin, kun halutaan analysoida asiasisällön ohella jossain määrin myös ilmaisua ja keskustelijoiden välistä vuorovaikutusta. Mahdollistaa aineiston monipuolisen jatkokäytön.

 • Keskusteluanalyyttinen litterointi: Puhe litteroidaan monipuolista litterointimerkistöä käyttäen mahdollisimman tarkasti puhekieltä noudattaen. Litteraatioon sisällytetään kaikki sanat, taukojen pituudet sekunnin murto-osien tarkkuudella, äänenpainot, äänteet ja äännähdykset, tunteenilmaukset sekä lisäksi myös esimerkiksi eleitä ja ilmeitä.
  Tarkin mahdollinen litteraation taso. Tavoitteena on koko puhetilanteen mahdollisimman yksityiskohtainen kirjaaminen tekstimuotoon. Käytetään usein yhdessä ääni- ja kuvatallenteiden kanssa.

Niin oman tutkimuksen kuin myös jatkokäytön kannalta litteraatio saa aina mieluummin olla liian tarkka kuin vajavainen. Jos esimerkiksi haastattelunauhat on purettu muistiinpanotyyppisesti vain ranskalaisia viivoja käyttäen, voi ongelmia tulla jo oman tutkimuksen analyysivaiheessa. Aineistojen jatkokäytön kannalta suositeltava litteraation vähimmäistaso on peruslitterointi. Jatkokäyttömahdollisuudet monipuolistuvat edelleen, jos litteroinnissa on noudatettu sanatarkkaa eli eksaktia litterointia. Tätä yksityiskohtaisemmaksi menevän litteraatiotason tarpeellisuutta on harkittava suhteessa oman tutkimuksen tavoitteisiin ja käytössä oleviin resursseihin.

Litteroinnin erikoismerkkejä käytettäessä on hyvä muistaa, että tekstinkäsittelyohjelmien omat symbolimerkit saattavat muuttua, kun tiedostoja konvertoidaan eri ohjelmiin. Myös muotoilut, alaviitteet ja linkit toisiin dokumentteihin saattavat hävitä konvertoinnissa. Litterointiin ei siksi tule koskaan merkitä sisällöllistä tai rakenteellista informaatiota muotoilulla (eli lihavoinnilla, kursivoinnilla, alleviivauksella, värein, sisentäen jne). Varminta on käyttää yksinomaan näppäimistöstä löytyviä merkkejä.

Litteroinnissa käytettävä merkistö on tärkeää kirjoittaa auki ja tallentaa osaksi aineistoa. Näin voidaan litteraatiota tehtäessä varmistua siitä, että valittua merkistöä käytetään samalla systemaattisella tavalla läpi koko aineiston. Jatkokäytössä paljon litterointimerkkejä sisältävän haastattelulitteraation tulkitseminen on myöhemmin käytännössä mahdotonta, ellei tiedetä mitä alkuperäinen tutkija on kullakin litteraatiomerkillä tarkoittanut. Käytettäessä ulkopuolista litteraatiomerkistöä, riittää yleensä viittaus alkuperäislähteeseen.

Jotta litteroidun puheen luettavuus parantuu ja aineiston myöhempi koneellinen käsittely mahdollistuu, on litteraation sisältämien puheenvuorojen vaihtuminen merkittävä säännönmukaisella tavalla. Puhujan vaihtuminen kirjataan litteraatioon aloittamalla toisen uusi puheenvuoro aina uudelta riviltä. Rivin alkuun kirjataan selkeä puhujatunniste ja kaksoispiste (:). Puhujatunniste voi olla esimerkiksi puhujan nimi, nimen alkukirjaimet tai peitenimi.

Esimerkki puheenvuorojen vaihtumisen merkitsemisestä:

Haastattelija: Mites sitten tää teidän koulun keskeytys, kun sanoitte jotain että?
Haastateltava2: No joo mulla tähän vaikutti se kotitilanne kuitenkin että jos ois ollu enemmän normaalii nii en kai sitten olis olis keskeyttäny.
Haastateltava1: Mulla taas kaikki johtui ihan omasta ittestä. Ei vaan huvittanut. Kotona kaikki oli ihan kunnossa.

Aineiston sisältämien datatiedostojen organisointi Ankkurilinkki ikoni

Kun aineisto on kerätty ja saatettu analysoitavaan muotoon, on seuraavaksi hyvä kiinnittää huomiota aineiston organisointiin. Keruussa syntyneet aineistot tallennetaan datatiedostoiksi, jotka sijaitsevat datakansiossa. Jos samassa tutkimushankkeessa (esim. Media vallankäyttäjänä ja vallankäytön välineenä 2007-2010) on kerätty useampia selvästi itsenäisiä aineistoja (esim. Hoitajien palkkakiista ja media 2007-2008 ja Innovaatioyliopiston perustaminen ja media 2008), kannattaa kullekin aineistolle luoda oma erillinen datakansio.

Datatiedostoja järjestettäessä on pohdittava aina tapauskohtaisesti millä tavalla järjestettynä kutakin aineistoa on helpointa hallita. Aineiston datakansioihin tulee tallentaa kaikki kyseiseen aineistoon kuuluva materiaali. On tärkeä muistaa, että aineistoa ei ole yksinomaan kerättävä tutkimusaineisto, vaan myös aineiston keräämiseen ja muokkaamiseen vaikuttanut pohjamateriaali. Aineiston pohjamateriaalia voi olla esimerkiksi:

 • haastattelurunko
 • mahdollinen virikemateriaali
 • kirjoituskutsu
 • havainnoinnin ohjeistus
 • litterointisäännöt
 • kirjoitusohjeet

Aineistosta ja sen määrästä riippuen yhteen datatiedostoon voidaan sisällyttää joko yksi tai useita aineistoyksikköjä. On tilanteita, joissa oman tutkimustyön kannalta voi olla kätevämpää tallentaa esimerkiksi useita lyhyitä kilpailukirjoituksia (=aineistoyksiköitä) samaan datatiedostoon sen sijaan, että tallentaisi jokaisen kirjoituksen omaksi datatiedostokseen (kts. esimerkki 1). Myös jos tekstiaineisto on kokonaisuudessaan pieni, voi oman tutkimustyön kannalta olla hyödyllisempää tallentaa kaikki aineistoyksiköt samaan datatiedostoon.

Esimerkki 1

Esimerkkiaineisto 2013
Kilpailukirjoitukset 13kpl.rtf

Suurimmaksi osaksi pidempiä kirjoituksia (yli 1 sivu) sisältävät aineistot on kuitenkin yleensä parasta tallentaa erikseen kukin omana datatiedostonaan eikä peräkkäin yhteen ja samaan datatiedostoon (kts. esimerkki 2).

Esimerkki 2

Esimerkkiaineisto 2013
kirjoitus1.rtf
kirjoitus2.rtf
kirjoitus3.rtf
kirjoitus4.rtf
kirjoitus5.rtf
kirjoitus6.rtf
kirjoitus7.rtf
kirjoitus8.rtf
kirjoitus9.rtf
kirjoitus10.rtf
kirjoitus11.rtf
kirjoitus12.rtf
kirjoitus13.rtf

Jos aineisto koostuu useammista erilaisista aineistotyypeistä (esim. sekä ryhmä- että yksilöhaastatteluista) tai samassa yhteydessä kerätyistä useammista erilaisista datatiedostoista (esim. haastattelulitteraatioita, valokuvia, ääninauhoja jne.) on hyvä sijoittaa kunkin aineisto- tai datatyypin tiedostot omiin alakansioihinsa (kts. tuonnempana esimerkki 3).

Datatiedostojen nimeäminen Ankkurilinkki ikoni

Oman tiedonhallinnan ja erityisesti arkistoinnin ja jatkokäytön helpottamiseksi datatiedostot on hyvä nimetä systemaattisesti. Oman tutkimustyön kannalta datatiedostojen hallintaa ja löydettävyyttä voi parantaa nimeämällä tiedostot kuvailevasti. Kuvaileva nimeäminen tarkoittaa sitä, että tiedostonimeen sisällytetään aineistoyksikön taustatietoja (esim. päivämäärä, vastaajan sukupuoli ja ikä). Arkistoinnin ja aineistojen jatkokäytön kannalta kuvailevaan nimeämiseen liittyy kuitenkin tiettyjä ongelmia, jotka on tärkeä huomioida kuvailevaa nimeämistapaa käytettäessä.

Tiedostojen kuvailevan nimeämisen vaarana on, että tiedostonimeen säilötään tärkeitä taustatietoja vastaajasta (esim. sukupuoli, ikä, asuinpaikka) niin tiiviisti koodattuna, että sen tulkitseminen on ulkopuoliselle hankalaa tai jopa mahdotonta. Tämän vuoksi on tärkeää, että aineiston pääkansioon luodaan tekstiasiakirja, jossa selitetään tiedostojen nimeämistapa (kts. esimerkki 4). Taustatietoja ei myöskään koskaan suositella kirjattavaksi pelkästään datatiedoston nimeen, vaan sen tulee olla ainoastaan tietojen toissijainen säilöntäpaikka. Arkistointivaiheessa tiedostonimet harmonisoidaan arkiston nimeämiskäytännön mukaisesti, jolloin kaikki tiedostonimeen tallennettu informaatio häviää.

Kun systemaattinen nimeäminen on tehty harkiten, on siitä hyötyä myös silloin, kun täytyy yhdistää yhdestä keruutapahtumasta (esim. haastattelu) syntyneitä useampia datatiedostoja toisiinsa. Samaan tapahtumaan liittyvät datatiedostot (kuten ääninauha, sen litteraatio ja haastateltavan ottamat valokuvat) kytketään toisiinsa ensisijaisesti tiedostonimien perusteella.

Datatiedostojen kytkentä toisiinsa on luontevinta tehdä tiedostonimen alkuosan avulla siten, että samaan tapahtumaan liittyvät datatiedostot alkavat kaikki samalla alkuosalla, jonka jälkeen nimen loppuosa on yksilöllinen ja tarkentaa, mistä tarkemmin ottaen on kysymys (esim. onko kyseessä ääninauha, litteraatio tai kuva). Esimerkiksi datatiedostot 20130311_Haast2_audio.wav ja 20130311_Haast2_lit.rtf ovat samaan tapahtumaan, "20130311_Haast2" liittyviä tiedostoja. Loppuosa kertoo tarkemmin tiedoston tarkoituksesta; tässä tapauksessa pääte "audio" tarkoittaa ääninauhaa ja pääte "lit" tarkoittaa ääninauhan litteraatiota (kts. myös esimerkki 3).

Kun aineistojen nimeäminen ja organisointi on hoidettu tutkimusvaiheessa asianmukaisesti, on aineiston arkistointi myöhemmin ongelmatonta ja myös tutkijan oma aineistonhallinta helpottuu.

Esimerkki 3. Aineistokansion rakenne.
Esimerkkitapauksessa aineisto on monipuolinen ja sisältää haastattelulitteraatioita, haastatteluäänitteitä, haastateltaville näytettyä virikemateriaalia ja haastateltavien itse tuottamaa kuvamateriaalia.

Taiteilijan arki 2013
Tiedostojen_nimeamisperiaate.rtf
Dataluettelo.txt
Audiotallenteet
Dataluettelo_audiotallenteet.txt
20130122_Haast1N38Oulu_audio.wav
20130124_Haast2M23Tampere_audio.wav
20130205_Haast3M44Turku_audio.wav
Litteraatio
Dataluettelo_litteraatiot.txt
20130122_Haast1N38Oulu_lit.rtf
20130124_Haast2M23Tampere_lit.rtf
20130205_Haast3M44Turku_lit.rtf
Kuvat
Dataluettelo_kuvat.txt
20130122_Haast1N38Oulu_kuva1.jpg
20130122_Haast1N38Oulu_kuva2.jpg
20130122_Haast1N38Oulu_kuva3.jpg
20130124_Haast2M23Tampere_kuva1.jpg
20130124_Haast2M23Tampere_kuva2.jpg
20130205_Haast3M44Turku_kuva1.jpg
Virikemateriaali
Dataluettelo_virikemateriaali.txt
Haastattelukysymykset_hahmotelma.rtf
Haastattelukysymykset_lopullinen.rtf
Virike_kuva1.jpg
Virike_kuva2.jpg
Virike_kuva3.jpg

Esimerkki 4. Tiedostojen nimeämistavan selittäminen.

Datatiedostojen nimet ovat muotoa
<päivämäärä><tyyppi><jarj.nro1><sukup><ika><kunta>_<tarkenne><jarj.nro2>,
jossa
<päivämäärä> on aineistonkeruupäivämäärä ja vuosi,
<tyyppi> on aineisto- tai tapahtumatyyppi, esim. "haast", "ryhma" tai "virike",
<jarj.nro1> on aineiston keruutapahtumien järjestysnumero,
<sukup> on haastateltavan sukupuoli
<ika> on haastateltavan ikä,
<kunta> on haastateltavan asuinpaikkakunta,
<tarkenne> on haastattelutapahtumaan liittyvän aineistomuodon tarkenne, esim.
"lit" tarkoittaa litteraatiota, "audio" tarkoittaa ääninauhaa, "kuva" tarkoittaa kuvaa.
<jarj.nro2> on järjestysnumero, jota käytetään esimerkiksi samaan
haastattelutapahtumaan liittyvän usean kuvan erotteluun toisistaan.

Taustatietojen kirjaamistavat Ankkurilinkki ikoni

Kuten mainittua, aineiston taustatietojen eli metadatan liittäminen yksinomaan tiedoston nimeen ei ole arkistoinnin ja jatkokäytön näkökulmasta paras ratkaisu. Ensinnäkin tiedostonimeen liitettynä taustatietojen tulkitseminen voi olla ulkopuoliselle hankalaa tai jopa mahdotonta. Toiseksi, arkistointivaiheessa aineistosta tehdään html-hakemisto, jota varten taustatiedot on pystyttävä keräämään aineistosta koneellisesti. Tiedostonimiin koodattuja taustatietoja ei kyetä poimimaan nykymenetelmin automaattisesti talteen, koska niissä käytetyt taustatietojen esitystavat ovat hyvin aineisto- ja tutkijakohtaisia. Kolmanneksi, datatiedostot nimetään arkistointivaiheessa uudelleen tietoarkiston nimeämiskäytäntöjä vastaaviksi, jolloin tärkeitä taustatietoja saattaa kadota, ellei niitä ole kirjattu muualle kuin tiedoston nimeen.

Kirjattavat aineistoyksikkökohtaiset taustatiedot vaihtelevat aineistoittain. Se mitä taustatietoja tallennetaan on lopulta tutkijan itsensä päätettävissä. Aineistoyksikkökohtaisia taustatietoja ovat esimerkiksi tutkimushenkilöiden taustatiedot, aineistonkeräystilannetta koskevat tiedot ja tutkijan huomautukset. Keräystilannetta kuvaavat tiedot ovat tyypillisesti haastattelupäivämäärä, -paikka, haastattelijan nimi sekä mahdollinen muu keräystilannetta koskeva informaatio. Tutkittavia koskevat tiedot voivat olla esimerkiksi sukupuoli, ikä, asuinpaikkakunta, ammatti tai koulutus .

On hyvä tiedostaa, että omalle tutkimukselle vähämerkityksisten taustatietojen tallettamisesta voi olla suuri hyöty kun arkistoitua aineistoa tulevaisuudessa lähestytään eri näkökulmasta. Jatkokäytön, ja usein myös oman tutkimustyön, kannalta onkin parempi kirjata taustatietoja keräysvaiheessa liikaa kuin liian vähän. Taustatietoja on aina helpompi myöhemmin tarvittaessa poistaa, kuin täydentää. Vaikka taustatietojen tulisi olla mahdollisimman informatiivisia, on tutkimushenkilöihin liittyviä taustatietoja kirjattaessa hyvä pitää mielessä myös se, minkä tasoisten tunnistetietojen tallentamisen tutkimushenkilön kanssa tehty tutkimuslupa mahdollista.

On olemassa kaksi eri mahdollisuutta kirjata taustatiedot tavalla, joka helpottaa aineistojen arkistointia ja varmistaa taustatietojen säilyvyyden aineistoa muokattaessa. Se kumpaa kirjaamismenetelmää käytetään, riippuu aineiston muodosta.

» Tarkista myös anonymisoinnin ohjeet
» Tarkista myös tutkittavien informoinnin ohjeet

Taustatietojen kirjaaminen datatiedostojen sisälle Ankkurilinkki ikoni

Arkistoinnin yhteydessä kustakin arkistoitavasta tekstiaineistosta tuotetaan tietoarkistossa erillinen html-hakemisto, jonka avulla aineiston sisältämiä yksittäisiä haastatteluja, kirjoituksia, yms. on helppo käsitellä. Html-hakemiston avulla voidaan aineistosta helposti etsiä vain halutut aineistoyksiköt erilaisten taustatietojen, esimerkiksi sukupuolen, iän, ammatin tai asuinpaikan, perusteella. Html-hakemiston laatimiseksi on tärkeää, että aineistoyksikkökohtaiset taustatiedot voidaan lukea arkistointivaiheessa koneellisesti talteen. Koneellinen luku onnistuu, kun taustatiedot on kirjattu erikseen kunkin aineistoyksikön (esim. haastattelulitteraation) alkuun seuraavaksi esiteltävällä systemaattisella merkintätavalla.

» Esimerkki tietoarkiston tuottamasta arkistoidun tekstiaineiston html-hakemistonäkymästä

Esimerkki 5. Yksilöhaastattelun taustatiedot
Esimerkissä 5 on esitelty tyypillisin haastattelulitteraatio, jossa haastateltavia on vain yksi ja kukin useamman sivun mittaisista haastattelulitteraatioista on tallennettu omana tiedostonaan esim. RTF- tai Microsoft Word –muodossa (kts. kohta Aineiston sisältämien datatiedostojen organisointi, esimerkki 2). Tällöin taustiedot kirjataan esitetyllä tavalla kunkin litteraatiotiedoston alkuun ensimmäisen sivun yläosaan.

Haastattelupvm: 08.02.2013
Haastattelija: Timo Tutkija
Haastateltavan pseudonimi: Mikko
Haastateltavan ammatti: Opettaja
Haastateltavan ikä: 32
Haastateltavan sukupuoli: Mies

H: Aluksi haluaisin kysyä hieman sinun ammatinvalinnastasi? Kerrotko hieman siitä, miten ja milloin päätit ryhtyä opettajaksi?
V: No kato kaikki alkoi siitä, kun olin ala-asteella ja meillä oli sellainen kiva opettaja joka...

Esimerkki 6. Ryhmähaastattelun taustatiedot
Esimerkissä 6 tilanne on muutoin vastaava kuin esimerkissä 5, mutta nyt kyseessä on ryhmähaastattelu eli haastateltavia on useita. Tämän vuoksi jokaiselle haastateltavalle on keksitty oma puhujatunniste (V1, V2 jne.) jonka perusteella heidän puheensa on voitu identifioida. Taustatietokentässä kunkin haastateltavan taustatiedot voidaan yksilöidä esimerkissä osoitetulla tavalla. Myös muut yksilöintitavat (esim. koko nimi tai pseudonyymin käyttö) ovat mahdollisia. Tärkeintä on että yksilöintitapa on systemaattinen läpi koko aineiston.

Haastattelupvm: 08.02.2013
Haastattelija: Timo Tutkija
Haastateltavan pseudonimi: Mikko (V1), Merja (V2), Toivo (V3)
Haastateltavan ammatti: Opettaja (V1), Rehtori (V2), Talonmies (V3)
Haastateltavan ikä: 32 (V1), 49 (V2), 62 (V3)
Haastateltavan sukupuoli: Mies (V1), Nainen (V2), Mies (V3)

H: Aluksi haluaisin kysyä hieman teidän kaikkien ammatinvalinnasta? Kerrotteko hieman siitä, että mitkä tekijät johtivat siihen, että nyt olette siinä ammatissa missä olette?
V1: No kato mulla kaikki alkoi siitä, kun olin ala-asteella ja meillä oli sellainen kiva opettaja joka...

Esimerkki 7. Taustatiedot aineston ollessa yhdessä tiedostossa
Esimerkissä 7 vastaajaa on pyydetty kirjoittamaan yksi sananlasku, mikä on ollut hänen elämässään merkityksellinen. Vastata sai nimettömänä, mutta tiettyjä taustatietoja pyydettiin. Yhteensä esimerkkiaineisto sisältää yli 40 sivua ja sananlaskuja yli 100 vastaajalta. Koska vastaukset ovat lyhyitä mutta aineisto on kokonaisuudessaan kuitenkin varsin suurikokoinen, on kaikki kerätyt sananparret ollut helpointa tallentaa yhteen ja samaan tiedostoon (kts. kohta Aineiston sisältämien datatiedostojen organisointi, esimerkki 1). Tällaisessa tapauksessa taustatietokentät merkitään kunkin tekstin alkuun, josta ne pystytään poimimaan koneellisesti html-hakemistoa varten.

Ammatti: Opettaja
Ikä: 32
Sukupuoli: Mies
Asuinkunta: Helsinki

"Kun kissa on poissa niin hiiret tanssivat pöydällä."

Ammatti: Hevosmies
Ikä: 60
Sukupuoli: Mies
Asuinkunta: Kälviä

"Hyvä antaa vähästänsä, paha ei paljostansakaan."

Ammatti: Psykiatri
Ikä: 49
Sukupuoli: Nainen
Asuinkunta: Tampere

"Aika parantaa haavat."

Ammatti: Metsuri
Ikä: 46
Sukupuoli: Mies
Asuinkunta: Iisalmi

"Metsä on suomalaisen kirkko."

Keskeistä taustatietokentän otsakkeiden kirjaamisessa koneluettavaan muotoon on, että ne ovat läpi aineiston identtisesti kirjoitettu ja ne ovat aina samassa järjestyksessä verrattuna toisiinsa. Otsakkeiden on myös aina päätyttävä kaksoispisteeseen jota seuraa välilyönti. Lisäksi taustatietokenttä on erotettava kokonaisuudessaan muusta tekstistä rivinvaihdolla (’enter’). Jotta taustatietokentän otsakkeiden kirjoitusvirheet voidaan minimoida ja järjestyksen yhdenmukaisuus varmistaa, kannattaa otsakkeet kopioida ensin tyhjänä pohjana kunkin aineistoyksikön alkuun. Tällöin täytettäväksi jää enää taustatietojen sisältö, joiden suhteen kirjoitusasun yhdenmukaisuutta ei enää vaadita.

Haastattelupvm:
Haastattelija:
Haastateltavan pseudonimi:
Haastateltavan ammatti:
Haastateltavan ikä:
Haastateltavan sukupuoli:

Dataluettelo ja taustatietokenttien kirjaaminen listana Ankkurilinkki ikoni

On olemassa aineistoja, joissa tiedostomuoto ei mahdollista taustatietojen kirjaamista datatiedoston sisälle aineistoyksikköjen alkuun. Tällaisia aineistoja ovat esimerkiksi ääni- ja kuvatallenteet sekä kirjoitussuojatut pdf-muotoiset tiedostot. Tällöin on suositeltavaa käyttää taustatietojen ensisijaisena tallennuspaikkana joko manuaalisesti luotavaa dataluetteloa tai erillistä tekstitiedostoa, johon kirjataan peräkkäin listana kunkin aineistoyksikön taustatietokentät.

Manuaalisesti tehtävässä dataluettelossa taustatiedot kirjataan valmiiksi taulukkomuotoon esimerkiksi Microsoft Excelillä tai Open Office Calc -ohjelmalla (esimerkki 8). Erilliseen tekstitiedostoon kirjattavista taustatiedoista sen sijaan tuotetaan koneellisesti selattava html-hakemisto vasta arkistointivaiheessa. html-hakemistonavulla on helppo selata esimerkiksi audiovisuaalisia ja pdf-aineistoja. Jotta html-hakemiston koneellinen tuottaminen onnistuu, on taustatietokenttien oikeaan kirjaamistapaan kiinnitettävä erityistä huomiota (kts. esimerkki 9).

Molemmissa tapauksissa taustatietoihin kirjataan tiedostojen nimet, tutkimushenkilöiden taustatiedot sekä aineistonkeräystilannetta koskeva informaatio. Audiovisuaalista materiaalia sisältävän aineiston dataluettelossa voi tuoda mahdollisuuksien mukaan esille myös aineiston tallennusmuotoon liittyvää teknistä taustatietoa, kuten kuvauksessa käytetyn kameran merkki ja malli sekä videon kesto. Teknistä taustatietoa voi haluttaessa liittää taustatietoihin myös laajemmin. Pääsääntöisesti tekniset taustatiedot on luettavissa koneellisesti av-tiedostojen sisältä, eikä niitä tarvitse kirjata taustatietoihin manuaalisesti.

Taustatietojen järjestelmällinen kirjaaminen joko erilliseen dataluetteloon tai tekstitiedostoon auttaa tiedostojen hallintaa tutkimuksenteon eri vaiheissa sekä säilyttää olennaista aineistonkeruuseen liittyvää informaatiota arkistoinnin ja jatkokäytön kannalta.

Esimerkki 8. Dataluettelo
Esimerkissä 8 dataluettelo on tehty manuaalisesti taulukkolaskentaohjelmalla videoiduista haastatteluista. Dataluettelo sisältää taustatiedot koskien haastateltavaa ja haastattelutilannetta. Teknisenä taustatietona on mainittu käytetyn kameran merkki ja malli, sekä videon kesto minuutteina.

Manuaalisesti tehty dataluettelo videoaineistolle

Esimerkki 9. Dataluettelo listana
Esimerkissä 9 samat taustatiedot on kirjattu erilliseen tekstitiedostoon peräkkäin listana. Peräkkäin sijoitettavat taustatietokentät ovat muuten vastaavia kuin aineistoyksikköjen alkuun kirjattaessa (kts. esimerkit 5, 6 ja 7), mutta nyt kunkin taustatietokentän alkuun tulee @-alkuinen tunniste, joka liittää taustatiedot oikeaan tiedostoon. Tunniste kirjoitetaan muotoon @tiedostonimi.tiedostomuoto (esim. @Pekka_1.avi). Taustatietokentät tulee erottaa toisistaan vähintään yhdellä rivinvaihdolla [enter].

@Pekka_1.avi
Haastattelun pvm: 12.4.2012
Haastattelija: Timo Tutkija
Haastateltavan nimi: Pekka Petolampi
Haastateltavan ikä: 65
Haastateltavan sukupuoli: Mies
Haastateltavan ammatti: Kahvilayrittäjä
Kuvauksessa käytetty kamera: Panasonic HC-V10
Videon kesto: 2:45

[enter]

@Pekka_2.avi
Haastattelun pvm: 12.4.2012
Haastattelija: Timo Tutkija
Haastateltavan nimi: Pekka Petolampi
Haastateltavan ikä: 65
Haastateltavan sukupuoli: Mies
Haastateltavan ammatti: Kahvilayrittäjä
Kuvauksessa käytetty kamera: Panasonic HC-V10
Videon kesto: 5:05

[enter]

@Niklas.avi
Haastattelun pvm: 14.4.2012
Haastattelija: Timo Tutkija
Haastateltavan nimi: Niklas Uspesk
Haastateltavan ikä: 55
Haastateltavan sukupuoli: Mies
Haastateltavan ammatti: Opettaja
Kuvauksessa käytetty kamera: Canon XF305
Videon kesto: 12:23

[enter]

@Stefanie.avi
Haastattelun pvm: 15.4.2012
Haastattelija: Timo Tutkija
Haastateltavan nimi: Stefanie di Cario
Haastateltavan ikä: 23
Haastateltavan sukupuoli: Nainen
Haastateltavan ammatti: Kirjailija
Kuvauksessa käytetty kamera: Panasonic HC-V10
Videon kesto: 7:52

[enter]

Lehtiaineistot Ankkurilinkki ikoni

Tietoarkisto on tehnyt Kopioston kanssa sopimuksen, jonka mukaisesti Tietoarkisto voi arkistoida myös teossuojaa saavia tutkimusaineistoja, esim. lehtiartikkeleita, kuvia, kirjojen kuvituksia ja sarjakuvia (ks. tarkemmin Kopioston jäsenjärjestöt ). Arkistoitavaksi otetaan vain digitaalisessa muodossa olevat aineistot, jotka ovat olleet tutkimuksen kohteena.

Verkkolehdistä kerättävät aineistot

Kun tiettyä tutkimusta varten kerää aineistokseen artikkeleita verkkolehdistä, niiden pysyvyys internetosoitteissaan vaihtelee. Jotta aineistoksi kerätyt artikkelit saadaan arkistoitua digitaalisina, ne tulisi kopioida tekstinkäsittelyohjelmaan. Jos kopioidun artikkelin tietoihin ei tule automaattisesti mukaan tekijä- ja teostietoja, ne tulee lisätä artikkelin alkuun. Sen jälkeen artikkeli on hyvä muuntaa pdf-tiedostoksi.

Kirjaa tekijä- ja teostiedot

Kun tutkimusta varten kerätään lehtiartikkeleita, kuvia tai vastaavia, tulee niiden viitetiedot kirjata ylös huolella. Esimerkiksi lehtiartikkeleista tulee kirjata

 • Tekijä(t)
 • Artikkelin nimi
 • Lehden nimi
 • Julkaisupäivämäärä ja vuosi
 • Artikkelin verkko-osoite (jos verkkolehti)
 • Verkkolehden artikkelin viittauspäivämäärä
 • Erillinen maininta, jos kyseessä on pääkirjoitus, lehden lukijoiden kirjoittama kannanotto tai mielipidekirjoitus.

Esimerkit lehtiartikkeleista, joille on mainittu henkilötekijä:

Esimerkit uutisartikkeleista, joille ei ole mainittu henkilötekijää:

 • Yhdysvaltojen talous kutistui alkuvuonna. Helsingin Sanomat 25.6.2015.
 • Mies tuomittiin kissojen jättämisestä yksin asuntoon. Aamulehti 26.6.2015.

Jos analysoitavaksi on valittu artikkeleita tiedelehdistä, tulee tieteen normaalien viitekäytäntöjen mukaisesti edellä mainittujen lisäksi kirjata teostietoihin

 • Analysoidun artikkelin sivunumerot
 • Lehden nimi
 • Lehden vuosikerran numero
 • Lehden numero vuosikerrassa

Jos analysoitavat tutkimusartikkelit on valittu toimitetuista teoksista, niihin tulee lisätä

 • Teoksen toimittajan/toimittajien nimi/nimet
 • Koko teoksen nimi
 • Analysoidun kirjoituksen sivunumerot
 • Sarjan nimi, teoksen numero sarjassa
 • Julkaisijan nimi
 • Julkaisijan kotipaikka

Laadi luettelo tutkimuksessa analysoiduista artikkeleista

Tietoarkistoon arkistoitavista sähköisistä lehtiartikkeleista tulee toimittaa erillinen listaus. Listaus laaditaan tekijä- ja teostiedoista. Listan voi järjestää aakkosittain tai aikajärjestyksessä. Listan järjestys voi noudattaa myös tutkimuksen analyysin ja tutkimuksen sisällön järjestystä. Olennaisinta on, että tekijä- ja teostiedot on kirjattu yhdenmukaisesti. Tietoarkisto toimittaa arkistoitavien aineistojen teoslistat Kopiostolle arkistoinnin yhteydessä.

Analoginen arkistoaineisto digikuvina Ankkurilinkki ikoni

Humanististen alojen tutkimuksessa käytetään usein jo valmiiksi arkistoitua paperimuotoista aineistoa, jonka säilyttämisestä vastaavat Arkistolaitos ja muut arkistot. Jo arkistoidusta aineistosta tuotetut digitaaliset aineistot on erityistapauksissa mahdollista arkistoida Tietoarkistoon. Kansallisarkiston ja Tietoarkiston välisen sopimuksen mukaan tutkijan itsensä tutkimustarkoituksiin ottamat digitaaliset valokuvat Kansallisarkiston asiakirja-aineistosta on mahdollista arkistoida Tietoarkistoon.

Arkistolaitoksen (Kansallisarkisto ja maakunta-arkistot) paperiaineistoista tutkijan digikameralla ottamat valokuvat voidaan tietyin edellytyksin arkistoida Tietoarkistoon.

1. Tietoarkistoon arkistoitava aineisto ei saa kuulua jo digitoituihin Kansallisarkiston aineistoihin.

2. Kuvat on otettu tutkimuksessa analysoitavaksi aineistoksi.

3. Kuvia koskevat viitetiedot ovat riittävät.

Kunkin kuvan viitetiedot tulee ilmaista samalla tavalla kuin vastaavan paperiaineiston viitetiedot. Asiakirjasta riippuen viitetietoja ovat esimerkiksi

 • arkiston nimi (so. viranomainen, yhteisö, yksittäinen henkilö) tai kokoelma
 • asiakirjasarjan nimi
 • arkistoyksikön vuosiluku
 • arkistoyksikön numero tai muu tunnus
 • säilyttävä arkisto
 • paikkakunta
 • valintaperusteet ja selitys, jos asiakirjasta vain osa on kuvattu

Esimerkkejä viittaamisesta:

 • SN-Seuran vuosikertomus 1944, sivu 11, Kansallisarkisto (KA)
 • Turun ja Porin läänin jalkaväkirykmentti, saapuneet kirjeet 1723-1811, kirje 12.11.1799, Kansallisarkisto (KA)

Digikuvien arkistointi käytännössä:

Tallenna kukin kuva nimellä, joka ilmentää lähdemateriaalin viitetietoja. Esimerkiksi Kansallisarkistoon arkistoitu Viipurin läänin henkikirja vuodelta 1823 voitaisiin tallentaa nimellä Henkirja_VI_1823_KA.jpg. Mikäli asiakirjakokonaisuus muodostuu useasta perättäisestä valokuvasta, kuvat nimetään juoksevalla numeroinnilla Henkirja_VI_1823_KA_01.jpg, Henkirja_VI_1823_KA_02.jpg, jne.

Toimita Tietoarkistoon kuvat jpg-tiedostoina ja liitä mukaan tiedostolistaus, josta ilmenee kunkin kuvan sisältämän arkistoaineiston viitetiedot.

Mikäli noudatat arkistolaitoksen digitoinnin laatukriteereitä, voit tarjota aineistosi arkistoitavaksi arkistolaitoksen Digitaaliarkistoon.

Arkistolaitoksen Digitaaliarkisto: