Kvalitatiivisen datan käsittely

Kvalitatiiviset tutkimusaineistot voivat sisältää monenlaista tutkimusmateriaalia, esimerkiksi haastattelulitteraatioita, kirjoituksia, valokuvia, etnografisia kenttäpäiväkirjoja sekä ääni- ja videotallenteita.

Tietoarkistoon arkistoidaan pääasiassa tekstimuotoista aineistoa, kuten anonymisoituja haastattelulitteraatioita ja erilaisia kirjoitusaineistoja. Lisäksi arkistoimme esimerkiksi tutkimuksen empiiriseksi aineistoksi otettuja valokuvia, jos kuvat eivät sisällä tunnistetietoja ja arkistointiin on valokuvaajan lupa (kts. oikeuksien siirrosta sopimisesta (Avautuu uuteen välilehteen) ). Kopioston kanssa tehdyn sopimuksen mukaisesti Tietoarkisto voi arkistoida myös teossuojaa saavia tutkimusaineistoja, esim. lehtiartikkeleita, kuvia, kirjojen kuvituksia ja sarjakuvia.

Tietoarkisto ei arkistoi videoaineistoja, pl. mahdollisesti aineistonkeruun apuna käytetyt lyhyet videonäytteet ja videomuotoiset tutkimuskutsut. Audiovisuaalisten tallenteiden säilytyksestä ja jatkokäytöstä huolehtii kielitieteisiin erikoistunut Kielipankki. Mikäli suunnittelet jatkokäyttöön soveltuvan av-aineiston keruuta tai sinulla on olemassa av-aineisto, jonka haluaisit tallentaa muiden käyttöön, ota yhteyttä Kielipankkiin.

Kielipankki: Käyttäjäksi (Avautuu uuteen välilehteen)

Lähtökohtaisesti Tietoarkisto ei arkistoi myöskään haastatteluäänitteitä, arkistoitavaksi otetaan vain haastattelujen anonymisoidut litteraatiot. Haastatteluäänitteiden arkistointi voi tulla kysymykseen joissakin poikkeustapauksissa (esim. tietynlaiset asiantuntijahaastattelut), jos haastattelujen arkistointiin tunnistetietoineen on haastateltavan kirjallinen lupa.

Tämän luvun ohjeiden tarkoitus on lisätä kvalitatiivisen aineiston keränneen tutkijan omaa aineistonhallintaa aineiston myöhempi arkistointi ja jatkokäyttö huomioiden.

Litterointi Ankkurilinkki ikoni

Kirjoitusaineistojen ohella yleisimpiä kvalitatiivisen tutkimusaineistojen muotoja ovat erilaiset haastattelu- ja keskusteluaineistot. Haastattelu- ja keskusteluaineistot tallennetaan yleensä teknisesti esimerkiksi äänittämällä tai videoimalla, jonka jälkeen ne puretaan kirjalliseen muotoon litteroimalla. Äänitallenteiden purkaminen kirjalliseen muotoon on tyypillisin tapa käsitellä puheaineistot analysoitavaan muotoon, mutta esimerkiksi kielen ja vuorovaikutuksen tutkimuksessa analysoidaan yleisesti myös itse ääni- tai äänikuvatallenteita.

Tietoarkistoon arkistoidaan ainoastaan valmiiksi litteroituja haastattelu- tai keskusteluaineistoja. Litteroinnin taso riippuu aina alkuperäisen tutkijan tai tutkimusryhmän päätöksestä ja aineistolleen asettamista tavoitteista. Usein tutkijoiden päätökseen vaikuttavat käytettävissä olevien resurssien määrä. Ideaalitapauksessa tutkijat näkevät keräämänsä aineiston arvon myös oman tutkimuksensa ulkopuolella ja käyttävät voimavaroja myös litterointiin. Litterointi on hyvä tehdä mahdollisimman kattavasti, eikä puheesta kannata jättää litteroimatta kohtia, jotka eivät tunnu litterointihetkellä omalle tutkimukselle relevanteilta. Jatkokäyttäjän näkökulmasta myös nämä kohdat saattavat olla kiinnostavia.

Litterointia suunniteltaessa on hyvä huomioida myös aineiston myöhempi arkistointi ja sen mahdollisesti edellyttämä anonymisointitarve. Myös mahdollisissa rahoitushakemuksissa rahoitusta kannattaa hakea litteroinnin ohella myös anonymisoinnin suunnitteluun ja toteutukseen. Nykyään rahoittajat usein suosittelevat tai jopa vaativat rahoittamiensa aineistojen arkistointia, ja anonymisointi on yksi tutkimusaineistojen arkistoinnin edellytyksistä. Anonymisointi on usein helpointa toteuttaa jo litteroinnin yhteydessä, kunhan anonymisointi on hyvin ennalta suunniteltu (kts. anonymisoinnin ohjeet ). Vaadittavaan anonymisoinnin tasoon vaikuttaa keskeisesti se kuinka haastateltavia on informoitu aineiston käytöstä ja käsittelystä (kts. tutkittavien informoinnin ohjeet ). Litteroinnin ja mahdollisen anonymisoinnin voi tehdä joko itse tai sen voi tilata ulkopuoliselta palveluntarjoajalta. Tietoarkisto ei tarjoa litterointipalveluja.

Erilaisten litteraatiotasojen nimitykset ja määritelmät eivät ole vakiintuneita. Ne kuitenkin noudattelevat läheisesti toistensa peruslinjoja. Yleistä onkin, että litteraatiota ei tehdä vain jotain tiettyä valmiiksi määriteltyä litteraatiotasoa noudattaen, vaan pikemminkin niitä omien tarpeidensa mukaisesti yhdistellen. Oli litteroinnin taso mikä tahansa, tärkeintä on aina noudattaa valittua litterointitarkkuutta ja litteroinnin logiikkaa systemaattisesti läpi koko aineiston.

Erilaiset litteraation tasot on mahdollista luokitella esimerkiksi seuraavalla tavalla:

  • Referoiva litterointi: Haastatteluäänitteet puretaan vain suurpiirteisesti muistiinpanoiksi esimerkiksi ranskalaisia viivoja käyttäen ja vain satunnaisia suoria lainauksia tai puheen osia ylös kirjoittaen. Litteroijan tulkinnalla suuri rooli, koska litteroija päättää mikä puheesta on litteroinnin arvoista.
    Voidaan käyttää esimerkiksi purettaessa haastatteluja lehtiartikkeleiksi. Ei mahdollista haastattelun tms. syvällistä analyysiä eikä tue aineiston monipuolista jatkokäyttöä.
  • Peruslitterointi: Puhe litteroidaan sanatarkasti puhekieltä noudattaen, mutta siitä jätetään pois täytesanat (esim. tota, niinku), toistot, keskenjäävät tavut ja yksittäiset äännähdykset. Myös selvästi kontekstiin liittymätön puhe voidaan harkitusti jättää litteroimatta. Puheen lisäksi litteroidaan merkitykselliset tunneilmaisut (esim. nauru, liikuttuminen, tms.).
    Voidaan käyttää silloin, kun halutaan analysoida pääasiallisesti vain puheen asiasisältöä. Jatkokäyttöä ajatellen litteroinnin suositeltava vähimmäistaso.
  • Sanatarkka eli eksakti litterointi: Litteroidaan yleensä kaikki puhe jättämättä mitään pois. Puhe litteroidaan sanatarkasti puhekieltä noudattaen ja käyttäen yleisimpiä litteraatiomerkkejä. Litteraatioon sisällytetään myös täytesanat (esim. tota, niinku), toistot, keskenjäävät tavut ja yksittäiset äännähdykset. Myös tunteen ilmaukset (esim. nauru, liikuttuminen, tms.) ja erilaiset painotukset kirjataan. Puheen lisäksi kirjataan tauot ja niiden pituudet, sekä mahdolliset haastattelutilannetta häiritsevät ulkoiset tekijät.
    Voidaan käyttää silloin, kun halutaan analysoida asiasisällön ohella jossain määrin myös ilmaisua ja keskustelijoiden välistä vuorovaikutusta. Mahdollistaa aineiston monipuolisen jatkokäytön.
  • Keskusteluanalyyttinen litterointi: Puhe litteroidaan monipuolista litterointimerkistöä käyttäen mahdollisimman tarkasti puhekieltä noudattaen. Litteraatioon sisällytetään kaikki sanat, taukojen pituudet sekunnin murto-osien tarkkuudella, äänenpainot, äänteet ja äännähdykset, tunteenilmaukset sekä lisäksi myös esimerkiksi eleitä ja ilmeitä.
    Tarkin mahdollinen litteraation taso. Tavoitteena on koko puhetilanteen mahdollisimman yksityiskohtainen kirjaaminen tekstimuotoon. Käytetään usein yhdessä ääni- ja kuvatallenteiden kanssa.

Niin oman tutkimuksen kuin myös jatkokäytön kannalta litteraatio saa aina mieluummin olla liian tarkka kuin vajavainen. Jos esimerkiksi haastattelunauhat on purettu muistiinpanotyyppisesti vain ranskalaisia viivoja käyttäen, voi ongelmia tulla jo oman tutkimuksen analyysivaiheessa. Aineistojen jatkokäytön kannalta suositeltava litteraation vähimmäistaso on peruslitterointi. Jatkokäyttömahdollisuudet monipuolistuvat edelleen, jos litteroinnissa on noudatettu sanatarkkaa eli eksaktia litterointia. Tätä yksityiskohtaisemmaksi menevän litteraatiotason tarpeellisuutta on harkittava suhteessa oman tutkimuksen tavoitteisiin ja käytössä oleviin resursseihin.

Litteroinnin erikoismerkkejä käytettäessä on hyvä muistaa, että tekstinkäsittelyohjelmien omat symbolimerkit saattavat muuttua, kun tiedostoja konvertoidaan eri ohjelmiin. Myös muotoilut, alaviitteet ja linkit toisiin dokumentteihin saattavat hävitä konvertoinnissa. Litterointiin ei siksi tule koskaan merkitä sisällöllistä tai rakenteellista informaatiota muotoilulla (eli lihavoinnilla, kursivoinnilla, alleviivauksella, värein, sisentäen, jne). Varminta on käyttää yksinomaan näppäimistöstä löytyviä merkkejä.

Litteroinnissa käytettävä merkistö on tärkeää kirjoittaa auki ja tallentaa osaksi aineistoa. Näin voidaan litteraatiota tehtäessä varmistua siitä, että valittua merkistöä käytetään samalla systemaattisella tavalla läpi koko aineiston. Jatkokäytössä paljon litterointimerkkejä sisältävän haastattelulitteraation tulkitseminen on myöhemmin käytännössä mahdotonta, ellei tiedetä mitä alkuperäinen tutkija on kullakin litteraatiomerkillä tarkoittanut. Käytettäessä ulkopuolista litteraatiomerkistöä, riittää yleensä viittaus alkuperäislähteeseen.

Jotta litteroidun puheen luettavuus parantuu ja aineiston myöhempi koneellinen käsittely mahdollistuu, on litteraation sisältämien puheenvuorojen vaihtuminen merkittävä säännönmukaisella tavalla. Puhujan vaihtuminen kirjataan litteraatioon aloittamalla toisen uusi puheenvuoro aina uudelta riviltä. Rivin alkuun kirjataan selkeä puhujatunniste ja kaksoispiste (:).

Esimerkki puheenvuorojen vaihtumisen merkitsemisestä:

Haastattelija: Mites sitten tää teidän koulun keskeytys, kun sanoitte jotain että?
H2: No joo mulla tähän vaikutti se kotitilanne kuitenkin että jos ois ollu enemmän normaalii nii en kai sitten olis olis keskeyttäny.
H1: Mulla taas kaikki johtui ihan omasta ittestä. Ei vaan huvittanut. Kotona kaikki oli ihan kunnossa.

Aineiston sisältämien datatiedostojen organisointi ja nimeäminen Ankkurilinkki ikoni

Oman aineistonhallinnan parantamiseksi ja mahdollisen myöhemmän arkistoinnin helpottamiseksi aineiston sisältämät datatiedostot on tärkeä järjestää ja nimetä systemaattisesti. Datatiedostoja organisoitaessa on pohdittava aina tapauskohtaisesti millä tavalla järjestettynä ja nimettynä kutakin aineistoa on helpointa hallita.

Aineiston datakansioihin tulee tallentaa kaikki kyseiseen aineistoon kuuluva materiaali. Datatiedostot kannattaa tallentaa yleisesti tunnetuissa muokkauksen sallivassa muodossa, jotta niiden käsittely ja myöhempi arkistointi olisi ongelmatonta (kts. sopivat tallennusmuodot ). On hyvä muistaa, että aineistoa ei ole yksinomaan kerättävä tutkimusaineisto, vaan myös aineiston keräämiseen ja muokkaamiseen vaikuttanut ja niitä kuvaava materiaali. Tällaista materiaalia voivat olla esimerkiksi:

  • Tutkimuskutsu
  • Tutkittavan informointiteksti
  • Arkistointilupalomake
  • Haastattelurunko
  • Litterointimerkkien selitykset
  • Anonymisointilinjausten kuvailu
  • Virikemateriaali

Aineistosta ja sen määrästä riippuen yhteen datatiedostoon voidaan sisällyttää joko yksi tai useita aineistoyksikköjä (esim. haastattelulitteraatiot tai kirjoitukset). Yleensä on selkeintä tallentaa keruussa syntyneet aineistoyksiköt erillisiksi datatiedostoiksi, jotka sijaitsevat aineiston pääkansiossa (datakansio). Tällöin yksi tiedosto sisältää esimerkiksi yhden haastattelulitteraation (kts. esimerkki 1).

Esimerkki 1

  • Kansio ikoni Työmatkapyöräilijoiden haastattelut 2018
    • Kansio ikoni Litteraatiot
      • Word-tiedoston ikoni Haastattelu_01.odt
      • Word-tiedoston ikoni Haastattelu_02.odt
      • Word-tiedoston ikoni Haastattelu_03.odt
      • Word-tiedoston ikoni Haastattelu_04.odt
      • Word-tiedoston ikoni Haastattelu_05.odt
      • Word-tiedoston ikoni Haastattelu_06.odt
      • Word-tiedoston ikoni Haastattelu_07.odt
      • Word-tiedoston ikoni Haastattelu_08.odt
    • Kansio ikoni Keruudokumentit
      • Word-tiedoston ikoni Haastattelurunko.odt
      • Word-tiedoston ikoni Tutkimuskutsu.odt
      • Word-tiedoston ikoni Arkistointilupalomake.odt
      • Word-tiedoston ikoni Anonymisoinnin kuvaus.odt

On kuitenkin myös tilanteita, joissa ei ole perusteltua tallentaa kaikkia aineistoyksiköitä erillisiksi tiedostoiksi. Esimerkiksi jos kerätty aineisto koostuu lukuisista muutaman rivin mittaisista teksteistä, voi olla kätevämpää tallentaa kaikki aineistoyksiköt yhteen ja samaan datatiedostoon (kts. esimerkki 2).

Esimerkki 2

  • Kansio ikoni Suomalaiset sananlaskut 2013
    • Word-tiedoston ikoni Sananlaskut 137kpl.odt
    • Word-tiedoston ikoni Keruulomake.odt
    • Word-tiedoston ikoni Keruukutsu.odt
    • Word-tiedoston ikoni Arkistointilupalomake.odt

Datatiedostojen hallintaa ja löydettävyyttä parantaa tiedostojen nimeäminen kuvailevasti siten, että nimestä käy ilmi onko kyseessä esimerkiksi haastattelulitteraatio, kirjoitus vai valokuva. Tiedostojen nimiin ei kuitenkaan kannata sisällyttää taustatietoja tai muuta metadataa. Arkistointivaiheessa tiedostojen nimet ja tiedostomuodot konvertoidaan koneellisesti Tietoarkiston käytäntöjä vastaaviksi, jolloin kaikki tiedostonimeen tallennettu informaatio häviää. Lisäksi tiedostonimiin tiiviisti koodattujen taustatietojen tulkitseminen voi olla ulkopuoliselle, ja myöhemmin jopa aineiston tekijälle itselleen, hankalaa tai jopa mahdotonta. Suositeltu ja jatkokäytön huomioiva tapa on kirjata taustatiedot haastattelulitteraatioissa litteraation alkuun ja esimerkiksi kuva- tai sanomalehtiaineistoissa erilliseen tiedostoluetteloon (kts. taustatietojen kirjaamistavat ).

Datatiedostojen systemaattisesta nimeämisestä on erityistä hyötyä silloin, kun yhdestä keruutapahtumasta (esim. haastattelu) on syntynyt useampia erilaisia tiedostotyyppejä (esim. ääninauha, sen litteraatio ja esimerkiksi haastateltavan ottamat valokuvat). Jos aineisto koostuu useammista erilaisista aineistotyypeistä eli samassa yhteydessä kerätyistä erilaisista datatiedostoista on hyvä sijoittaa kunkin aineisto- tai tiedostotyypin tiedostot omiin alakansioihinsa. Eri datatiedostojen kytkentä toisiinsa on luontevinta tehdä yhdenmukaisen tai muuten harkitusti muodostetun tiedostonimen avulla. Esimerkiksi datatiedostojen ’Haastattelu1.mp3’ ja ’Haastattelu1.odt’ nimistä ja tiedostopäätteestä käy helposti ilmi, että kyseessä saman haastattelun äänite ja litteraatio. Huomaathan kuitenkin, että haastatteluäänitteiden arkistointi on mahdollista vain poikkeustapauksissa (esim. tietynlaiset asiantuntijahaastattelut), jos haastattelujen arkistointiin nimitietoineen on tutkittavien kirjallinen lupa (kts. tutkittavien informointi henkilötietojen käsittelystä ja arkistoinnista ). Esimerkkiaineistoon kuuluvien kuvien kytkökset haastatteluihin taas on selitetty kuvakansiosta löytyvässä tiedostoluettelossa. (kts. esimerkki 3)

Esimerkki 3

  • Kansio ikoni Kaupunginarkkitehtien haastattelut 2019
    • Kansio ikoni Litteraatiot
      • Word-tiedoston ikoni Haastattelu_01.odt
      • Word-tiedoston ikoni Haastattelu_02.odt
      • Word-tiedoston ikoni Haastattelu_03.odt
      • Word-tiedoston ikoni Haastattelu_04.odt
    • Kansio ikoni Audiotallenteet
      • Audiotiedoston ikoni Haastattelu_01.mp3
      • Audiotiedoston ikoni Haastattelu_02.mp3
      • Audiotiedoston ikoni Haastattelu_03.mp3
      • Audiotiedoston ikoni Haastattelu_04.mp3
    • Kansio ikoni Kuvat
      • Word-tiedoston ikoni tiedostoluettelo_kuvien taustatiedot.odt
      • Kuvatiedoston ikoni Kuva_01.jpg
      • Kuvatiedoston ikoni Kuva_02.jpg
      • Kuvatiedoston ikoni Kuva_03.jpg
      • Kuvatiedoston ikoni Kuva_04.jpg
      • Kuvatiedoston ikoni Kuva_05.jpg
      • Kuvatiedoston ikoni Kuva_06.jpg
    • Kansio ikoni Keruudokumentit
      • Word-tiedoston ikoni Haastattelurunko.odt
      • Word-tiedoston ikoni Tutkimuskutsu.odt
      • Word-tiedoston ikoni Arkistointilupalomake.odt

Jos samassa tutkimushankkeessa on kerätty useampia selvästi itsenäisiä aineistokokonaisuuksia (esim. kyselyaineisto ja haastatteluaineisto, tai aineistoja eri kohderyhmiltä), kannattaa jokaiselle aineistokokonaisuudelle luoda oma erillinen datakansio. Arkistointivaiheessa eri aineistokokonaisuudet arkistoidaan pääsääntöisesti erillisinä aineistoina siten, että ne ovat kuitenkin helposti yhdistettävissä toisiinsa.

Taustatietojen kirjaaminen Ankkurilinkki ikoni

Aineistoyksiköihin (esim. haastattelulitteraatio, lehtileike, valokuva, kirjoitus) liittyy aina taustatietoa, joka tekee niistä tutkijalle ymmärrettäviä. Usein taustatiedot ovat merkittävässä roolissa myös aineistoa analysoitaessa. Taustatietojen järjestelmällinen tallentaminen onkin tärkeä osa aineistonhallintaa ja siitä on hyötyä niin aineiston keränneelle primaaritutkijalle kuin myös aineiston jatkokäyttäjälle. Kun taustatiedot on kerätty harkitusti ja kirjattu ohjeistuksen mukaisesti aineiston tekovaiheessa, säilyttää aineisto tutkimuksellisen arvonsa myös primaarikäytön jälkeen.

Aineistoyksikkökohtaisia taustatietoja ovat esimerkiksi tutkittavien taustatiedot, aineistonkeräystilannetta kuvaavat tiedot ja tutkijan huomautukset. Esimerkiksi haastatteluaineiston kohdalla tutkittavia koskevia taustatietoja voivat olla haastateltavan sukupuoli, ikäryhmä, sekä ammatti tai koulutus, ja keräystilannetta kuvaavia tietoja esimerkiksi haastattelupäivämäärä, haastattelupaikka, haastattelijan nimi sekä mahdollinen muu keräystilannetta koskeva informaatio.

Tallennettavat aineistoyksikkökohtaiset taustatiedot vaihtelevat aineistoittain. Se mitä taustatietoja tallennetaan, on lopulta tutkijan itsensä päätettävissä. On kuitenkin hyvä muistaa, että omalle tutkimukselle vähämerkityksisten taustatietojen tallentamisesta voi olla suuri hyöty, kun arkistoitua aineistoa tulevaisuudessa lähestytään eri näkökulmasta. Jatkokäytön, ja usein myös oman tutkimustyön, kannalta onkin parempi kirjata taustatietoja keräysvaiheessa liikaa kuin liian vähän. Taustatietoja on aina helpompi myöhemmin tarvittaessa poistaa ja karkeistaa, kuin täydentää. Samalla on kuitenkin tärkeä muistaa, minkä tasoisten tunnistetietojen tallentamisesta tutkimushenkilön kanssa on sovittu. Myös EU:n tietosuoja-asetus kieltää tutkimuksen kannalta tarpeettomien henkilötietojen keruun (kts. kerättävien tunnistetietojen minimoinnista). Kerättävien taustatietojen suunnittelussa ja luokittelussa voit käyttää apunasi Tietoarkiston valmiiksi luokiteltuja esimerkkejä taustatietokysymyksiksi.

On olemassa kaksi vaihtoehtoista tapaa kirjata aineistoyksikkökohtaiset taustatiedot tavalla, joka helpottaa aineistojen arkistointia ja varmistaa taustatietojen säilyvyyden aineistoa muokattaessa. Tekstitiedostojen kohdalla (esim. haastattelulitteraatiot ja kirjoitusaineistot) suosittelemme, että taustatiedot kirjataan datatiedoston sisälle tekstin alkuun. Muissa tiedostomuodoissa (esim. lehtiartikkelit, valokuva-aineistot, pdf-dokumentit) taustatiedot kannattaa kirjata erilliseen tiedostoon.

Taustatietojen kirjaaminen tekstin alkuun datatiedostojen sisälle Ankkurilinkki ikoni

Tietoarkistoon arkistoitavista tekstiaineistoista tuotetaan arkistoinnin yhteydessä erillinen html-hakemisto, jonka avulla aineiston sisältämiä yksittäisiä haastatteluja, kirjoituksia, tms. on helppo selailla. Html-hakemiston avulla voidaan aineistosta helposti etsiä vain halutut aineistoyksiköt erilaisten taustatietojen, esimerkiksi sukupuolen, iän tai ammatin, perusteella. Lisäksi html-hakemisto mahdollistaa sanahaun kohdistamisen aineiston ja hakemiston sisältöön. Html-hakemiston laatimiseksi on tärkeää, että aineistoyksikkökohtaiset taustatiedot voidaan arkistointivaiheessa lukea koneellisesti talteen. Koneellinen luku onnistuu, kun taustatiedot on kirjattu erikseen kunkin aineistoyksikön (esim. haastattelulitteraation) alkuun seuraavaksi esiteltävällä systemaattisella merkintätavalla.

Esimerkki tietoarkiston tuottamasta arkistoidun tekstiaineiston html-hakemistonäkymästä (Avautuu uuteen välilehteen)

Esimerkissä 4 on esitelty tyypillisin haastattelulitteraatio, jossa haastateltavia on vain yksi ja kukin useamman sivun mittaisista haastattelulitteraatioista on tallennettu omana tiedostonaan jossakin yleisesti käytetyssä muokkauksen sallivassa tallennusmuodossa (esim. odt, txt, docx. Kts. kohta Aineiston sisältämien datatiedostojen organisointi ja nimeäminen, esimerkki 1). Tällöin taustiedot kirjataan esitetyllä tavalla kunkin litteraatiotiedoston alkuun ensimmäisen sivun yläosaan.

Esimerkki 4. Yksilöhaastattelun taustatiedot

Haastattelupvm: 08.02.2013
Haastateltavan sukupuoli: Mies
Haastateltavan ammatti: Opettaja
Haastateltavan ikä: 32
Haastattelija: Timo Tutkija (TT)

TT: Aluksi haluaisin kysyä hieman sinun ammatinvalinnastasi? Kerrotko hieman siitä, miten ja milloin päätit ryhtyä opettajaksi?
H: No kato kaikki alkoi siitä, kun olin ala-asteella ja meillä oli sellainen kiva opettaja joka...

Esimerkissä 5 tilanne on muutoin vastaava kuin esimerkissä 4, mutta nyt kyseessä on ryhmähaastattelu eli haastateltavia on useita. Tämän vuoksi jokaiselle haastateltavalle on annettu oma puhujatunniste (H1, H2, jne.) jonka perusteella heidän vastauksensa on voitu identifioida. Taustatietokentässä kunkin haastateltavan taustatiedot voidaan yksilöidä esimerkissä osoitetulla tavalla. Myös muut yksilöintitavat, esim. keksitty peitenimi, ovat mahdollisia. Jos peitenimeä käytetään, kannattaa se lisätä taustatietoihin omaksi erilliseksi riviksi. Tärkeintä on että yksilöintitapa on systemaattinen läpi koko aineiston.

Esimerkki 5. Ryhmähaastattelun taustatiedot

Haastattelupvm: 08.02.2013
Haastateltavan sukupuoli: Mies (H1), Nainen (H2), Mies (H3)
Haastateltavan ammatti: Opettaja (H1), Rehtori (H2), Talonmies (H3)
Haastateltavan ikä: 32 (H1), 49 (H2), 62 (H3)
Haastattelija: Timo Tutkija (TT)

TT: Aluksi haluaisin kysyä hieman teidän kaikkien ammatinvalinnasta? Kerrotteko hieman siitä, että mitkä tekijät johtivat siihen, että nyt olette siinä ammatissa missä olette?
H1: No kato mulla kaikki alkoi siitä, kun olin ala-asteella ja meillä oli sellainen kiva opettaja joka...

Esimerkissä 6 vastaajaa on pyydetty kirjoittamaan yksi sananlasku, mikä on ollut hänen elämässään merkityksellinen. Yhteensä esimerkkiaineisto sisältää yli 40 sivua ja sananlaskuja yli 100 vastaajalta. Koska vastaukset ovat lyhyitä mutta aineisto on kokonaisuudessaan kuitenkin varsin suurikokoinen, on kaikki kerätyt sananparret ollut helpointa tallentaa peräkkäin yhteen ja samaan tiedostoon (kts. kohta Aineiston sisältämien datatiedostojen organisointi ja nimeäminen, esimerkki 2). Tällaisessa tapauksessa taustatietokentät merkitään kunkin vastauksen alkuun, josta ne pystytään poimimaan koneellisesti html-hakemistoa varten.

Esimerkki 6. Taustatiedot, kun useamman vastaajan vastaukset tallennettu yhteen datatiedostoon

Ammatti: Opettaja
Ikä: 32
Sukupuoli: Mies
Asuinkunnan sijainti: Uusimaa

"Kun kissa on poissa niin hiiret tanssivat pöydällä."

Ammatti: Hevosmies
Ikä: 60
Sukupuoli: Mies
Asuinkunnan sijainti: Pirkanmaa

"Hyvä antaa vähästänsä, paha ei paljostansakaan."

Ammatti: Psykiatri
Ikä: 49
Sukupuoli: Nainen
Asuinkunnan sijainti: Kymenlaakso

"Aika parantaa haavat."

Ammatti: Metsuri
Ikä: 46
Sukupuoli: Mies
Asuinkunnan sijainti: Etelä-Karjala

"Metsä on suomalaisen kirkko."

Keskeistä taustatietokentän otsakkeiden kirjaamisessa koneluettavaan muotoon on, että otsakkeet (esim. 'Haastattelupvm:', 'Ikä:') ovat läpi aineiston identtisesti kirjoitettu ja samassa järjestyksessä. Otsakkeiden on myös aina päätyttävä kaksoispisteeseen, jota seuraa välilyönti. Lisäksi taustatietokenttä on erotettava kokonaisuudessaan muusta tekstistä vähintään yhdellä rivinvaihdolla (’enter’). Jotta taustatietokentän otsakkeiden kirjoitusvirheet voidaan minimoida ja järjestyksen yhdenmukaisuus varmistaa, kannattaa otsakkeet kopioida ensin tyhjänä pohjana kunkin aineistoyksikön alkuun. Tällöin täytettäväksi jää enää taustatietojen sisällöt, joiden kirjoitusasun yhdenmukaisuutta ei enää vaadita.

Haastattelupvm:
Haastateltavan sukupuoli:
Haastateltavan ammatti:
Haastateltavan ikä:
Haastattelija:

Taustatietojen kirjaaminen erilliseen tiedostoon Ankkurilinkki ikoni

On olemassa aineistoja, joissa tiedostomuoto ei mahdollista taustatietojen kirjaamista datatiedoston sisälle aineistoyksikköjen alkuun. Tällaisia aineistoja ovat esimerkiksi kuvia, ääntä tai kirjoitussuojattuja pdf-tiedostoja sisältävät aineistot. Tällöin on suositeltavaa käyttää taustatietojen ensisijaisena tallennuspaikkana joko manuaalisesti luotavaa tiedostoluetteloa tai erillistä tekstitiedostoa, johon kirjataan peräkkäin listana kunkin aineistoyksikön taustatietokentät. Taustatietojen järjestelmällinen kirjaaminen joko erilliseen tiedostoluetteloon tai tekstitiedostoon auttaa tiedostojen hallintaa tutkimuksenteon eri vaiheissa sekä säilyttää olennaista aineistonkeruuseen liittyvää informaatiota arkistoinnin ja jatkokäytön kannalta.

Manuaalisesti tehtävässä tiedostoluettelossa taustatiedot kirjataan valmiiksi taulukkomuotoon esimerkiksi Microsoft Excelillä tai Open Office Calc -ohjelmalla (esimerkki 7). Erilliseen tekstitiedostoon kirjattavista taustatiedoista sen sijaan tuotetaan koneellisesti selattava html-hakemisto vasta arkistointivaiheessa. Html-hakemiston avulla on aineiston tiedostoja ja tiedostoihin liittyviä taustatietoja on helppo selata. Jotta html-hakemiston koneellinen tuottaminen onnistuu, on taustatietokenttien oikeaan kirjaamistapaan kiinnitettävä erityistä huomiota (kts. esimerkki 8).

Molemmissa tapauksissa taustatietoihin kirjataan tiedostojen nimet ja aineistoyksiköitä koskevat taustatiedot. Haluttaessa esimerkiksi ääntä tai kuvaa sisältävän aineiston tiedostoluettelossa voi tuoda esille myös aineiston tallennustapaan tai -muotoon liittyvää teknistä taustatietoa. Pääsääntöisesti tekniset taustatiedot ovat kuitenkin luettavissa koneellisesti audio- ja kuvatiedostojen sisältä, eikä niitä tarvitse kirjata taustatietoihin manuaalisesti.

Esimerkissä 7 tutkija on valokuvannut seinäkirjoituksia ja -tarroja kahdessa suomalaisessa kaupungissa. Valokuva-aineiston tiedostoluettelo on tehty manuaalisesti taulukkolaskentaohjelmalla. Tiedostoluettelo sisältää jokaisen kuvatiedoston tiedot kuvauspäivästä, kuvaajasta, kuvauspaikasta sekä tarkemman selitteen kuvan sisällöstä.

Esimerkki 7. Tiedostoluettelo
Manuaalisesti tehty tiedostoluettelo kuva-aineistolle

Esimerkissä 8 samojen tiedostojen tiedot on kirjattu erilliseen tekstitiedostoon peräkkäin listana. Peräkkäin sijoitettavat taustatietokentät ovat muuten vastaavanlaisia kuin aineistoyksikköjen alkuun kirjattaessa (kts. esimerkit 5, 6 ja 7), mutta nyt kunkin taustatietokentän alkuun on kirjattu yhtenä taustatietona sen tiedoston nimi, johon kyseisen kentän taustatiedot liittyvät. Koneellinen luku onnistuu, jos jokaiseen aineistotiedostoon viittaavat taustatieto-otsakkeet ovat samat, identtisesti kirjoitettu ja samassa järjestyksessä. Otsakkeiden on myös aina päätyttävä kaksoispisteeseen, jota seuraa välilyönti. Taustatietokentät tulee erottaa toisistaan vähintään yhdellä rivinvaihdolla [enter].

Esimerkki 8. Taustatiedot listana

Tiedoston nimi: kuva_01.jpg
Kuvauspäivämäärä: 13.5.2018
Kuvaaja: Tuija Tutkija
Kuvauspaikka: Pispalan valtatie, Tampere
Kuvan selite: Seinäkirjoitus alikulkutunnelissa

[enter]

Tiedoston nimi: kuva_02.jpg
Kuvauspäivämäärä: 13.5.2018
Kuvaaja: Antti Apulainen
Kuvauspaikka: Tamperen keskusta
Kuvan selite: Seinäkirjoitus sähkökaapissa

[enter]

Tiedoston nimi: kuva_03.jpg
Kuvauspäivämäärä: 15.5.2018
Kuvaaja: Tuija Tutkija
Kuvauspaikka: Tampereen yliopisto (Päätalo)
Kuvan selite: Tarra katuvalaisinpylväässä

[enter]

Tiedoston nimi: kuva_04.jpg
Kuvauspäivämäärä: 16.5.2018
Kuvaaja: Tuija Tutkija
Kuvauspaikka: Pasilan asema, Helsinki
Kuvan selite: Tarra roskapöntön kyljessä

[enter]

Tiedoston nimi: kuva_05.jpg
Kuvauspäivämäärä: 14.5.2018
Kuvaaja: Antti Apulainen
Kuvauspaikka: Pasilan asema, Helsinki
Kuvan selite: Seinäkirjoitus asemalaiturilla

[enter]

Lehtiaineistot Ankkurilinkki ikoni

Tietoarkisto on tehnyt Kopioston kanssa sopimuksen, jonka mukaisesti Tietoarkisto voi arkistoida myös teossuojaa saavia tutkimusaineistoja, esim. lehtiartikkeleita, kuvia, kirjojen kuvituksia ja sarjakuvia (ks. tarkemmin Kopioston jäsenjärjestöt (Avautuu uuteen välilehteen) ). Arkistoitavaksi otetaan vain digitaalisessa muodossa olevat aineistot, jotka ovat olleet tutkimuksen kohteena.

Verkkolehdistä kerättävät aineistot

Kun tiettyä tutkimusta varten kerää aineistokseen artikkeleita verkkolehdistä, niiden pysyvyys internetosoitteissaan vaihtelee. Jotta aineistoksi kerätyt artikkelit saadaan arkistoitua digitaalisina, ne tulisi kopioida tekstinkäsittelyohjelmaan. Jos kopioidun artikkelin tietoihin ei tule automaattisesti mukaan tekijä- ja teostietoja, ne tulee lisätä artikkelin alkuun. Sen jälkeen artikkeli on hyvä muuntaa pdf-tiedostoksi.

Kirjaa tekijä- ja teostiedot

Kun tutkimusta varten kerätään lehtiartikkeleita, kuvia tai vastaavia, tulee niiden viitetiedot kirjata ylös huolella. Esimerkiksi lehtiartikkeleista tulee kirjata

  • Tekijä(t)
  • Artikkelin nimi
  • Lehden nimi
  • Julkaisupäivämäärä ja vuosi
  • Artikkelin verkko-osoite (jos verkkolehti)
  • Verkkolehden artikkelin viittauspäivämäärä
  • Erillinen maininta, jos kyseessä on pääkirjoitus, lehden lukijoiden kirjoittama kannanotto tai mielipidekirjoitus.

Esimerkit lehtiartikkeleista, joille on mainittu henkilötekijä:

Esimerkit uutisartikkeleista, joille ei ole mainittu henkilötekijää:

  • Yhdysvaltojen talous kutistui alkuvuonna. Helsingin Sanomat 25.6.2015.
  • Mies tuomittiin kissojen jättämisestä yksin asuntoon. Aamulehti 26.6.2015.

Jos analysoitavaksi on valittu artikkeleita tiedelehdistä, tulee tieteen normaalien viitekäytäntöjen mukaisesti edellä mainittujen lisäksi kirjata teostietoihin

  • Analysoidun artikkelin sivunumerot
  • Lehden nimi
  • Lehden vuosikerran numero
  • Lehden numero vuosikerrassa

Jos analysoitavat tutkimusartikkelit on valittu toimitetuista teoksista, niihin tulee lisätä

  • Teoksen toimittajan/toimittajien nimi/nimet
  • Koko teoksen nimi
  • Analysoidun kirjoituksen sivunumerot
  • Sarjan nimi, teoksen numero sarjassa
  • Julkaisijan nimi
  • Julkaisijan kotipaikka

Laadi luettelo tutkimuksessa analysoiduista artikkeleista

Tietoarkistoon arkistoitavista sähköisistä lehtiartikkeleista tulee toimittaa erillinen listaus. Listaus laaditaan tekijä- ja teostiedoista. Listan voi järjestää aakkosittain tai aikajärjestyksessä. Listan järjestys voi noudattaa myös tutkimuksen analyysin ja tutkimuksen sisällön järjestystä. Olennaisinta on, että tekijä- ja teostiedot on kirjattu yhdenmukaisesti. Tietoarkisto toimittaa arkistoitavien aineistojen teoslistat Kopiostolle arkistoinnin yhteydessä.

Analoginen arkistoaineisto digikuvina Ankkurilinkki ikoni

Humanististen alojen tutkimuksessa käytetään usein jo valmiiksi arkistoitua paperimuotoista aineistoa, jonka säilyttämisestä vastaavat Arkistolaitos ja muut arkistot. Jo arkistoidusta aineistosta tuotetut digitaaliset aineistot on erityistapauksissa mahdollista arkistoida Tietoarkistoon. Kansallisarkiston ja Tietoarkiston välisen sopimuksen mukaan tutkijan itsensä tutkimustarkoituksiin ottamat digitaaliset valokuvat Kansallisarkiston asiakirja-aineistosta on mahdollista arkistoida Tietoarkistoon.

Arkistolaitoksen (Kansallisarkisto ja maakunta-arkistot) paperiaineistoista tutkijan digikameralla ottamat valokuvat voidaan tietyin edellytyksin arkistoida Tietoarkistoon.

1. Tietoarkistoon arkistoitava aineisto ei saa kuulua jo digitoituihin Kansallisarkiston aineistoihin.

2. Kuvat on otettu tutkimuksessa analysoitavaksi aineistoksi.

3. Kuvia koskevat viitetiedot ovat riittävät.

Kunkin kuvan viitetiedot tulee ilmaista samalla tavalla kuin vastaavan paperiaineiston viitetiedot. Asiakirjasta riippuen viitetietoja ovat esimerkiksi

  • arkiston nimi (so. viranomainen, yhteisö, yksittäinen henkilö) tai kokoelma
  • asiakirjasarjan nimi
  • arkistoyksikön vuosiluku
  • arkistoyksikön numero tai muu tunnus
  • säilyttävä arkisto
  • paikkakunta
  • valintaperusteet ja selitys, jos asiakirjasta vain osa on kuvattu

Esimerkkejä viittaamisesta:

  • SN-Seuran vuosikertomus 1944, sivu 11, Kansallisarkisto (KA)
  • Turun ja Porin läänin jalkaväkirykmentti, saapuneet kirjeet 1723-1811, kirje 12.11.1799, Kansallisarkisto (KA)

Digikuvien arkistointi käytännössä:

Tallenna kukin kuva nimellä, joka ilmentää lähdemateriaalin viitetietoja. Esimerkiksi Kansallisarkistoon arkistoitu Viipurin läänin henkikirja vuodelta 1823 voitaisiin tallentaa nimellä Henkirja_VI_1823_KA.jpg. Mikäli asiakirjakokonaisuus muodostuu useasta perättäisestä valokuvasta, kuvat nimetään juoksevalla numeroinnilla Henkirja_VI_1823_KA_01.jpg, Henkirja_VI_1823_KA_02.jpg, jne.

Toimita Tietoarkistoon kuvat jpg-tiedostoina ja liitä mukaan tiedostolistaus, josta ilmenee kunkin kuvan sisältämän arkistoaineiston viitetiedot.

Mikäli noudatat arkistolaitoksen digitoinnin laatukriteereitä, voit tarjota aineistosi arkistoitavaksi arkistolaitoksen Digitaaliarkistoon.