Kvalitatiivisen datan käsittely
Kvalitatiiviset tutkimusaineistot voivat sisältää monenlaista tutkimusmateriaalia, esimerkiksi haastattelulitteraatioita, kirjoituksia, valokuvia, etnografisia kenttäpäiväkirjoja sekä ääni- ja videotallenteita.
Tietoarkistoon arkistoidaan pääasiassa tekstimuotoista aineistoa, kuten anonymisoituja haastattelulitteraatioita ja erilaisia kirjoitusaineistoja. Lisäksi arkistoimme esimerkiksi tutkimuksen empiiriseksi aineistoksi otettuja valokuvia, jos kuvat eivät sisällä tunnistetietoja ja arkistointiin on valokuvaajan lupa (kts. oikeuksien siirrosta sopimisesta (Avautuu uuteen välilehteen) ). Kopioston kanssa tehdyn sopimuksen mukaisesti Tietoarkisto voi arkistoida myös teossuojaa saavia tutkimusaineistoja, esim. lehtiartikkeleita, kuvia, kirjojen kuvituksia ja sarjakuvia.
Tietoarkisto ei arkistoi videoaineistoja, pl. mahdollisesti aineistonkeruun apuna käytetyt lyhyet videonäytteet ja videomuotoiset tutkimuskutsut. Audiovisuaalisten tallenteiden säilytyksestä ja jatkokäytöstä huolehtii kielitieteisiin erikoistunut Kielipankki. Mikäli suunnittelet jatkokäyttöön soveltuvan av-aineiston keruuta tai sinulla on olemassa av-aineisto, jonka haluaisit tallentaa muiden käyttöön, ota yhteyttä Kielipankkiin.
Kielipankki: Käyttäjäksi (Avautuu uuteen välilehteen)
Lähtökohtaisesti Tietoarkisto ei arkistoi myöskään haastatteluäänitteitä, arkistoitavaksi otetaan vain haastattelujen anonymisoidut litteraatiot. Haastatteluäänitteiden arkistointi voi tulla kysymykseen joissakin poikkeustapauksissa (esim. tietynlaiset asiantuntijahaastattelut), jos haastattelujen arkistointiin tunnistetietoineen on haastateltavan kirjallinen lupa.
Tämän luvun ohjeiden tarkoitus on lisätä kvalitatiivisen aineiston keränneen tutkijan omaa aineistonhallintaa aineiston myöhempi arkistointi ja jatkokäyttö huomioiden.
Litterointi
Kirjoitusaineistojen ohella yleisimpiä kvalitatiivisen tutkimusaineistojen muotoja ovat erilaiset haastattelu- ja keskusteluaineistot. Haastattelu- ja keskusteluaineistot tallennetaan yleensä teknisesti esimerkiksi äänittämällä tai videoimalla, jonka jälkeen ne puretaan kirjalliseen muotoon litteroimalla. Äänitallenteiden purkaminen kirjalliseen muotoon on tyypillisin tapa käsitellä puheaineistot analysoitavaan muotoon, mutta esimerkiksi kielen ja vuorovaikutuksen tutkimuksessa analysoidaan yleisesti myös itse ääni- tai äänikuvatallenteita.
Tietoarkistoon arkistoidaan ainoastaan valmiiksi litteroituja haastattelu- tai keskusteluaineistoja. Litteroinnin taso riippuu aina alkuperäisen tutkijan tai tutkimusryhmän päätöksestä ja aineistolleen asettamista tavoitteista. Usein tutkijoiden päätökseen vaikuttavat käytettävissä olevien resurssien määrä. Ideaalitapauksessa tutkijat näkevät keräämänsä aineiston arvon myös oman tutkimuksensa ulkopuolella ja käyttävät voimavaroja myös litterointiin. Litterointi on hyvä tehdä mahdollisimman kattavasti, eikä puheesta kannata jättää litteroimatta kohtia, jotka eivät tunnu litterointihetkellä omalle tutkimukselle relevanteilta. Jatkokäyttäjän näkökulmasta myös nämä kohdat saattavat olla kiinnostavia.
Litterointia suunniteltaessa on hyvä huomioida myös aineiston myöhempi arkistointi ja sen mahdollisesti edellyttämä anonymisointitarve. Myös mahdollisissa rahoitushakemuksissa rahoitusta kannattaa hakea litteroinnin ohella myös anonymisoinnin suunnitteluun ja toteutukseen. Nykyään rahoittajat usein suosittelevat tai jopa vaativat rahoittamiensa aineistojen arkistointia, ja anonymisointi on yksi tutkimusaineistojen arkistoinnin edellytyksistä. Anonymisointi on usein helpointa toteuttaa jo litteroinnin yhteydessä, kunhan anonymisointi on hyvin ennalta suunniteltu (kts. anonymisoinnin ohjeet ). Vaadittavaan anonymisoinnin tasoon vaikuttaa keskeisesti se kuinka haastateltavia on informoitu aineiston käytöstä ja käsittelystä (kts. tutkittavien informoinnin ohjeet ). Litteroinnin ja mahdollisen anonymisoinnin voi tehdä joko itse tai sen voi tilata ulkopuoliselta palveluntarjoajalta. Tietoarkisto ei tarjoa litterointipalveluja.
Erilaisten litteraatiotasojen nimitykset ja määritelmät eivät ole vakiintuneita. Ne kuitenkin noudattelevat läheisesti toistensa peruslinjoja. Yleistä onkin, että litteraatiota ei tehdä vain jotain tiettyä valmiiksi määriteltyä litteraatiotasoa noudattaen, vaan pikemminkin niitä omien tarpeidensa mukaisesti yhdistellen. Oli litteroinnin taso mikä tahansa, tärkeintä on aina noudattaa valittua litterointitarkkuutta ja litteroinnin logiikkaa systemaattisesti läpi koko aineiston.
Erilaiset litteraation tasot on mahdollista luokitella esimerkiksi seuraavalla tavalla:
-
Referoiva litterointi:
Haastatteluäänitteet puretaan vain suurpiirteisesti muistiinpanoiksi esimerkiksi ranskalaisia viivoja käyttäen ja vain satunnaisia suoria lainauksia tai puheen osia ylös kirjoittaen. Litteroijan tulkinnalla suuri rooli, koska litteroija päättää mikä puheesta on litteroinnin arvoista.
→ Voidaan käyttää esimerkiksi purettaessa haastatteluja lehtiartikkeleiksi. Ei mahdollista haastattelun tms. syvällistä analyysiä eikä tue aineiston monipuolista jatkokäyttöä. -
Peruslitterointi:
Puhe litteroidaan sanatarkasti puhekieltä noudattaen, mutta siitä jätetään pois täytesanat (esim. tota, niinku), toistot, keskenjäävät tavut ja yksittäiset äännähdykset. Myös selvästi kontekstiin liittymätön puhe voidaan harkitusti jättää litteroimatta. Puheen lisäksi litteroidaan merkitykselliset tunneilmaisut (esim. nauru, liikuttuminen, tms.).
→ Voidaan käyttää silloin, kun halutaan analysoida pääasiallisesti vain puheen asiasisältöä. Jatkokäyttöä ajatellen litteroinnin suositeltava vähimmäistaso. -
Sanatarkka eli eksakti litterointi:
Litteroidaan yleensä kaikki puhe jättämättä mitään pois. Puhe litteroidaan sanatarkasti puhekieltä noudattaen ja käyttäen yleisimpiä litteraatiomerkkejä. Litteraatioon sisällytetään myös täytesanat (esim. tota, niinku), toistot, keskenjäävät tavut ja yksittäiset äännähdykset. Myös tunteen ilmaukset (esim. nauru, liikuttuminen, tms.) ja erilaiset painotukset kirjataan. Puheen lisäksi kirjataan tauot ja niiden pituudet, sekä mahdolliset haastattelutilannetta häiritsevät ulkoiset tekijät.
→ Voidaan käyttää silloin, kun halutaan analysoida asiasisällön ohella jossain määrin myös ilmaisua ja keskustelijoiden välistä vuorovaikutusta. Mahdollistaa aineiston monipuolisen jatkokäytön. -
Keskusteluanalyyttinen litterointi:
Puhe litteroidaan monipuolista litterointimerkistöä käyttäen mahdollisimman tarkasti puhekieltä noudattaen. Litteraatioon sisällytetään kaikki sanat, taukojen pituudet sekunnin murto-osien tarkkuudella, äänenpainot, äänteet ja äännähdykset, tunteenilmaukset sekä lisäksi myös esimerkiksi eleitä ja ilmeitä.
→ Tarkin mahdollinen litteraation taso. Tavoitteena on koko puhetilanteen mahdollisimman yksityiskohtainen kirjaaminen tekstimuotoon. Käytetään usein yhdessä ääni- ja kuvatallenteiden kanssa.
Niin oman tutkimuksen kuin myös jatkokäytön kannalta litteraatio saa aina mieluummin olla liian tarkka kuin vajavainen. Jos esimerkiksi haastattelunauhat on purettu muistiinpanotyyppisesti vain ranskalaisia viivoja käyttäen, voi ongelmia tulla jo oman tutkimuksen analyysivaiheessa. Aineistojen jatkokäytön kannalta suositeltava litteraation vähimmäistaso on peruslitterointi. Jatkokäyttömahdollisuudet monipuolistuvat edelleen, jos litteroinnissa on noudatettu sanatarkkaa eli eksaktia litterointia. Tätä yksityiskohtaisemmaksi menevän litteraatiotason tarpeellisuutta on harkittava suhteessa oman tutkimuksen tavoitteisiin ja käytössä oleviin resursseihin.
Litteroinnin erikoismerkkejä käytettäessä on hyvä muistaa, että tekstinkäsittelyohjelmien omat symbolimerkit saattavat muuttua, kun tiedostoja konvertoidaan eri ohjelmiin. Myös muotoilut, alaviitteet ja linkit toisiin dokumentteihin saattavat hävitä konvertoinnissa. Litterointiin ei siksi tule koskaan merkitä sisällöllistä tai rakenteellista informaatiota muotoilulla (eli lihavoinnilla, kursivoinnilla, alleviivauksella, värein, sisentäen, jne). Varminta on käyttää yksinomaan näppäimistöstä löytyviä merkkejä.
Litteroinnissa käytettävä merkistö on tärkeää kirjoittaa auki ja tallentaa osaksi aineistoa. Näin voidaan litteraatiota tehtäessä varmistua siitä, että valittua merkistöä käytetään samalla systemaattisella tavalla läpi koko aineiston. Jatkokäytössä paljon litterointimerkkejä sisältävän haastattelulitteraation tulkitseminen on myöhemmin käytännössä mahdotonta, ellei tiedetä mitä alkuperäinen tutkija on kullakin litteraatiomerkillä tarkoittanut. Käytettäessä ulkopuolista litteraatiomerkistöä, riittää yleensä viittaus alkuperäislähteeseen.
Jotta litteroidun puheen luettavuus parantuu ja aineiston myöhempi koneellinen käsittely mahdollistuu, on litteraation sisältämien puheenvuorojen vaihtuminen merkittävä säännönmukaisella tavalla. Puhujan vaihtuminen kirjataan litteraatioon aloittamalla toisen uusi puheenvuoro aina uudelta riviltä. Rivin alkuun kirjataan selkeä puhujatunniste ja kaksoispiste (:).
Esimerkki puheenvuorojen vaihtumisen merkitsemisestä:
H2: No joo mulla tähän vaikutti se kotitilanne kuitenkin että jos ois ollu enemmän normaalii nii en kai sitten olis olis keskeyttäny.
H1: Mulla taas kaikki johtui ihan omasta ittestä. Ei vaan huvittanut. Kotona kaikki oli ihan kunnossa.
Aineiston sisältämien datatiedostojen organisointi ja nimeäminen
Oman aineistonhallinnan parantamiseksi ja mahdollisen myöhemmän arkistoinnin helpottamiseksi aineiston sisältämät datatiedostot on tärkeä järjestää ja nimetä systemaattisesti. Datatiedostoja organisoitaessa on pohdittava aina tapauskohtaisesti millä tavalla järjestettynä ja nimettynä kutakin aineistoa on helpointa hallita.
Aineiston datakansioihin tulee tallentaa kaikki kyseiseen aineistoon kuuluva materiaali. Datatiedostot kannattaa tallentaa yleisesti tunnetuissa muokkauksen sallivassa muodossa, jotta niiden käsittely ja myöhempi arkistointi olisi ongelmatonta (kts. sopivat tallennusmuodot ). On hyvä muistaa, että aineistoa ei ole yksinomaan kerättävä tutkimusaineisto, vaan myös aineiston keräämiseen ja muokkaamiseen vaikuttanut ja niitä kuvaava materiaali. Tällaista materiaalia voivat olla esimerkiksi:
- Tutkimuskutsu
- Tutkittavan informointiteksti
- Arkistointilupalomake
- Haastattelurunko
- Litterointimerkkien selitykset
- Anonymisointilinjausten kuvailu
- Virikemateriaali
Aineistosta ja sen määrästä riippuen yhteen datatiedostoon voidaan sisällyttää joko yksi tai useita aineistoyksikköjä (esim. haastattelulitteraatiot tai kirjoitukset). Yleensä on selkeintä tallentaa keruussa syntyneet aineistoyksiköt erillisiksi datatiedostoiksi, jotka sijaitsevat aineiston pääkansiossa (datakansio). Tällöin yksi tiedosto sisältää esimerkiksi yhden haastattelulitteraation (kts. esimerkki 1).
Esimerkki 1
- Työmatkapyöräilijoiden haastattelut 2018
-
- Litteraatiot
-
- Haastattelu_01.odt
- Haastattelu_02.odt
- Haastattelu_03.odt
- Haastattelu_04.odt
- Haastattelu_05.odt
- Haastattelu_06.odt
- Haastattelu_07.odt
- Haastattelu_08.odt
-
- Keruudokumentit
-
- Haastattelurunko.odt
- Tutkimuskutsu.odt
- Arkistointilupalomake.odt
- Anonymisoinnin kuvaus.odt
On kuitenkin myös tilanteita, joissa ei ole perusteltua tallentaa kaikkia aineistoyksiköitä erillisiksi tiedostoiksi. Esimerkiksi jos kerätty aineisto koostuu lukuisista muutaman rivin mittaisista teksteistä, voi olla kätevämpää tallentaa kaikki aineistoyksiköt yhteen ja samaan datatiedostoon (kts. esimerkki 2).
Esimerkki 2
- Suomalaiset sananlaskut 2013
-
- Sananlaskut 137kpl.odt
- Keruulomake.odt
- Keruukutsu.odt
- Arkistointilupalomake.odt
Datatiedostojen hallintaa ja löydettävyyttä parantaa tiedostojen nimeäminen kuvailevasti siten, että nimestä käy ilmi onko kyseessä esimerkiksi haastattelulitteraatio, kirjoitus vai valokuva. Tiedostojen nimiin ei kuitenkaan kannata sisällyttää taustatietoja tai muuta metadataa. Arkistointivaiheessa tiedostojen nimet ja tiedostomuodot konvertoidaan koneellisesti Tietoarkiston käytäntöjä vastaaviksi, jolloin kaikki tiedostonimeen tallennettu informaatio häviää. Lisäksi tiedostonimiin tiiviisti koodattujen taustatietojen tulkitseminen voi olla ulkopuoliselle, ja myöhemmin jopa aineiston tekijälle itselleen, hankalaa tai jopa mahdotonta. Suositeltu ja jatkokäytön huomioiva tapa on kirjata taustatiedot haastattelulitteraatioissa litteraation alkuun ja esimerkiksi kuva- tai sanomalehtiaineistoissa erilliseen tiedostoluetteloon (kts. taustatietojen kirjaamistavat ).
Datatiedostojen systemaattisesta nimeämisestä on erityistä hyötyä silloin, kun yhdestä keruutapahtumasta (esim. haastattelu) on syntynyt useampia erilaisia tiedostotyyppejä (esim. ääninauha, sen litteraatio ja esimerkiksi haastateltavan ottamat valokuvat). Jos aineisto koostuu useammista erilaisista aineistotyypeistä eli samassa yhteydessä kerätyistä erilaisista datatiedostoista on hyvä sijoittaa kunkin aineisto- tai tiedostotyypin tiedostot omiin alakansioihinsa. Eri datatiedostojen kytkentä toisiinsa on luontevinta tehdä yhdenmukaisen tai muuten harkitusti muodostetun tiedostonimen avulla. Esimerkiksi datatiedostojen ’Haastattelu1.mp3’ ja ’Haastattelu1.odt’ nimistä ja tiedostopäätteestä käy helposti ilmi, että kyseessä saman haastattelun äänite ja litteraatio. Huomaathan kuitenkin, että haastatteluäänitteiden arkistointi on mahdollista vain poikkeustapauksissa (esim. tietynlaiset asiantuntijahaastattelut), jos haastattelujen arkistointiin nimitietoineen on tutkittavien kirjallinen lupa (kts. tutkittavien informointi henkilötietojen käsittelystä ja arkistoinnista ). Esimerkkiaineistoon kuuluvien kuvien kytkökset haastatteluihin taas on selitetty kuvakansiosta löytyvässä tiedostoluettelossa. (kts. esimerkki 3)
Esimerkki 3
- Kaupunginarkkitehtien haastattelut 2019
-
- Litteraatiot
-
- Haastattelu_01.odt
- Haastattelu_02.odt
- Haastattelu_03.odt
- Haastattelu_04.odt
- Audiotallenteet
-
- Haastattelu_01.mp3
- Haastattelu_02.mp3
- Haastattelu_03.mp3
- Haastattelu_04.mp3
- Kuvat
-
- tiedostoluettelo_kuvien taustatiedot.odt
- Kuva_01.jpg
- Kuva_02.jpg
- Kuva_03.jpg
- Kuva_04.jpg
- Kuva_05.jpg
- Kuva_06.jpg
- Keruudokumentit
-
- Haastattelurunko.odt
- Tutkimuskutsu.odt
- Arkistointilupalomake.odt
Jos samassa tutkimushankkeessa on kerätty useampia selvästi itsenäisiä aineistokokonaisuuksia (esim. kyselyaineisto ja haastatteluaineisto, tai aineistoja eri kohderyhmiltä), kannattaa jokaiselle aineistokokonaisuudelle luoda oma erillinen datakansio. Arkistointivaiheessa eri aineistokokonaisuudet arkistoidaan pääsääntöisesti erillisinä aineistoina siten, että ne ovat kuitenkin helposti yhdistettävissä toisiinsa.
Taustatietojen kirjaaminen
Aineistoyksiköihin (esim. haastattelulitteraatio, lehtileike, valokuva, kirjoitus) liittyy aina taustatietoa, joka tekee niistä tutkijalle ymmärrettäviä. Usein taustatiedot ovat merkittävässä roolissa myös aineistoa analysoitaessa. Taustatietojen järjestelmällinen tallentaminen onkin tärkeä osa aineistonhallintaa ja siitä on hyötyä niin aineiston keränneelle primaaritutkijalle kuin myös aineiston jatkokäyttäjälle. Kun taustatiedot on kerätty harkitusti ja kirjattu ohjeistuksen mukaisesti aineiston tekovaiheessa, säilyttää aineisto tutkimuksellisen arvonsa myös primaarikäytön jälkeen.
Aineistoyksikkökohtaisia taustatietoja ovat esimerkiksi tutkittavien taustatiedot, aineistonkeräystilannetta kuvaavat tiedot ja tutkijan huomautukset. Esimerkiksi haastatteluaineiston kohdalla tutkittavia koskevia taustatietoja voivat olla haastateltavan sukupuoli, ikäryhmä, sekä ammatti tai koulutus, ja keräystilannetta kuvaavia tietoja esimerkiksi haastattelupäivämäärä, haastattelupaikka, haastattelijan nimi sekä mahdollinen muu keräystilannetta koskeva informaatio.
Tallennettavat aineistoyksikkökohtaiset taustatiedot vaihtelevat aineistoittain. Se mitä taustatietoja tallennetaan, on lopulta tutkijan itsensä päätettävissä. On kuitenkin hyvä muistaa, että omalle tutkimukselle vähämerkityksisten taustatietojen tallentamisesta voi olla suuri hyöty, kun arkistoitua aineistoa tulevaisuudessa lähestytään eri näkökulmasta. Jatkokäytön, ja usein myös oman tutkimustyön, kannalta onkin parempi kirjata taustatietoja keräysvaiheessa liikaa kuin liian vähän. Taustatietoja on aina helpompi myöhemmin tarvittaessa poistaa ja karkeistaa, kuin täydentää. Samalla on kuitenkin tärkeä muistaa, minkä tasoisten tunnistetietojen tallentamisesta tutkimushenkilön kanssa on sovittu. Myös EU:n tietosuoja-asetus kieltää tutkimuksen kannalta tarpeettomien henkilötietojen keruun (kts. kerättävien tunnistetietojen minimoinnista). Kerättävien taustatietojen suunnittelussa ja luokittelussa voit käyttää apunasi Tietoarkiston valmiiksi luokiteltuja esimerkkejä taustatietokysymyksiksi.
On olemassa kaksi vaihtoehtoista tapaa kirjata aineistoyksikkökohtaiset taustatiedot tavalla, joka helpottaa aineistojen arkistointia ja varmistaa taustatietojen säilyvyyden aineistoa muokattaessa. Tekstitiedostojen kohdalla (esim. haastattelulitteraatiot ja kirjoitusaineistot) suosittelemme, että taustatiedot kirjataan datatiedoston sisälle tekstin alkuun. Muissa tiedostomuodoissa (esim. lehtiartikkelit, valokuva-aineistot, pdf-dokumentit) taustatiedot kannattaa kirjata erilliseen tiedostoon.
Taustatietojen kirjaaminen tekstin alkuun datatiedostojen sisälle
Tietoarkistoon arkistoitavista tekstiaineistoista tuotetaan arkistoinnin yhteydessä erillinen html-hakemisto, jonka avulla aineiston sisältämiä yksittäisiä haastatteluja, kirjoituksia, tms. on helppo selailla. Html-hakemiston avulla voidaan aineistosta helposti etsiä vain halutut aineistoyksiköt erilaisten taustatietojen, esimerkiksi sukupuolen, iän tai ammatin, perusteella. Lisäksi html-hakemisto mahdollistaa sanahaun kohdistamisen aineiston ja hakemiston sisältöön. Html-hakemiston laatimiseksi on tärkeää, että aineistoyksikkökohtaiset taustatiedot voidaan arkistointivaiheessa lukea koneellisesti talteen. Koneellinen luku onnistuu, kun taustatiedot on kirjattu erikseen kunkin aineistoyksikön (esim. haastattelulitteraation) alkuun seuraavaksi esiteltävällä systemaattisella merkintätavalla.
Esimerkissä 4 on esitelty tyypillisin haastattelulitteraatio, jossa haastateltavia on vain yksi ja kukin useamman sivun mittaisista haastattelulitteraatioista on tallennettu omana tiedostonaan jossakin yleisesti käytetyssä muokkauksen sallivassa tallennusmuodossa (esim. odt, txt, docx. Kts. kohta Aineiston sisältämien datatiedostojen organisointi ja nimeäminen, esimerkki 1). Tällöin taustiedot kirjataan esitetyllä tavalla kunkin litteraatiotiedoston alkuun ensimmäisen sivun yläosaan.
Haastattelupvm: 08.02.2013
TT: Aluksi haluaisin kysyä hieman sinun ammatinvalinnastasi? Kerrotko hieman siitä, miten ja milloin päätit ryhtyä opettajaksi?
|
Esimerkissä 5 tilanne on muutoin vastaava kuin esimerkissä 4, mutta nyt kyseessä on ryhmähaastattelu eli haastateltavia on useita. Tämän vuoksi jokaiselle haastateltavalle on annettu oma puhujatunniste (H1, H2, jne.) jonka perusteella heidän vastauksensa on voitu identifioida. Taustatietokentässä kunkin haastateltavan taustatiedot voidaan yksilöidä esimerkissä osoitetulla tavalla. Myös muut yksilöintitavat, esim. keksitty peitenimi, ovat mahdollisia. Jos peitenimeä käytetään, kannattaa se lisätä taustatietoihin omaksi erilliseksi riviksi. Tärkeintä on että yksilöintitapa on systemaattinen läpi koko aineiston.
Haastattelupvm: 08.02.2013
TT: Aluksi haluaisin kysyä hieman teidän kaikkien ammatinvalinnasta? Kerrotteko hieman siitä, että mitkä tekijät johtivat siihen, että nyt olette siinä ammatissa missä olette?
|
Esimerkissä 6 vastaajaa on pyydetty kirjoittamaan yksi sananlasku, mikä on ollut hänen elämässään merkityksellinen. Yhteensä esimerkkiaineisto sisältää yli 40 sivua ja sananlaskuja yli 100 vastaajalta. Koska vastaukset ovat lyhyitä mutta aineisto on kokonaisuudessaan kuitenkin varsin suurikokoinen, on kaikki kerätyt sananparret ollut helpointa tallentaa peräkkäin yhteen ja samaan tiedostoon (kts. kohta Aineiston sisältämien datatiedostojen organisointi ja nimeäminen, esimerkki 2). Tällaisessa tapauksessa taustatietokentät merkitään kunkin vastauksen alkuun, josta ne pystytään poimimaan koneellisesti html-hakemistoa varten.
Ammatti: Opettaja
|
Ammatti: Hevosmies
|
Ammatti: Psykiatri
|
Ammatti: Metsuri
|
Keskeistä taustatietokentän otsakkeiden kirjaamisessa koneluettavaan muotoon on, että otsakkeet (esim. 'Haastattelupvm:', 'Ikä:') ovat läpi aineiston identtisesti kirjoitettu ja samassa järjestyksessä. Otsakkeiden on myös aina päätyttävä kaksoispisteeseen, jota seuraa välilyönti. Lisäksi taustatietokenttä on erotettava kokonaisuudessaan muusta tekstistä vähintään yhdellä rivinvaihdolla (’enter’). Jotta taustatietokentän otsakkeiden kirjoitusvirheet voidaan minimoida ja järjestyksen yhdenmukaisuus varmistaa, kannattaa otsakkeet kopioida ensin tyhjänä pohjana kunkin aineistoyksikön alkuun. Tällöin täytettäväksi jää enää taustatietojen sisällöt, joiden kirjoitusasun yhdenmukaisuutta ei enää vaadita.
Haastateltavan sukupuoli:
Haastateltavan ammatti:
Haastateltavan ikä:
Haastattelija:
Taustatietojen kirjaaminen erilliseen tiedostoon
On olemassa aineistoja, joissa tiedostomuoto ei mahdollista taustatietojen kirjaamista datatiedoston sisälle aineistoyksikköjen alkuun. Tällaisia aineistoja ovat esimerkiksi kuvia, ääntä tai kirjoitussuojattuja pdf-tiedostoja sisältävät aineistot. Tällöin on suositeltavaa käyttää taustatietojen ensisijaisena tallennuspaikkana joko manuaalisesti luotavaa tiedostoluetteloa tai erillistä tekstitiedostoa, johon kirjataan peräkkäin listana kunkin aineistoyksikön taustatietokentät. Taustatietojen järjestelmällinen kirjaaminen joko erilliseen tiedostoluetteloon tai tekstitiedostoon auttaa tiedostojen hallintaa tutkimuksenteon eri vaiheissa sekä säilyttää olennaista aineistonkeruuseen liittyvää informaatiota arkistoinnin ja jatkokäytön kannalta.
Manuaalisesti tehtävässä tiedostoluettelossa taustatiedot kirjataan valmiiksi taulukkomuotoon esimerkiksi Microsoft Excelillä tai Open Office Calc -ohjelmalla (esimerkki 7). Erilliseen tekstitiedostoon kirjattavista taustatiedoista sen sijaan tuotetaan koneellisesti selattava html-hakemisto vasta arkistointivaiheessa. Html-hakemiston avulla on aineiston tiedostoja ja tiedostoihin liittyviä taustatietoja on helppo selata. Jotta html-hakemiston koneellinen tuottaminen onnistuu, on taustatietokenttien oikeaan kirjaamistapaan kiinnitettävä erityistä huomiota (kts. esimerkki 8).
Molemmissa tapauksissa taustatietoihin kirjataan tiedostojen nimet ja aineistoyksiköitä koskevat taustatiedot. Haluttaessa esimerkiksi ääntä tai kuvaa sisältävän aineiston tiedostoluettelossa voi tuoda esille myös aineiston tallennustapaan tai -muotoon liittyvää teknistä taustatietoa. Pääsääntöisesti tekniset taustatiedot ovat kuitenkin luettavissa koneellisesti audio- ja kuvatiedostojen sisältä, eikä niitä tarvitse kirjata taustatietoihin manuaalisesti.
Esimerkissä 7 tutkija on valokuvannut seinäkirjoituksia ja -tarroja kahdessa suomalaisessa kaupungissa. Valokuva-aineiston tiedostoluettelo on tehty manuaalisesti taulukkolaskentaohjelmalla. Tiedostoluettelo sisältää jokaisen kuvatiedoston tiedot kuvauspäivästä, kuvaajasta, kuvauspaikasta sekä tarkemman selitteen kuvan sisällöstä.
Esimerkissä 8 samojen tiedostojen tiedot on kirjattu erilliseen tekstitiedostoon peräkkäin listana. Peräkkäin sijoitettavat taustatietokentät ovat muuten vastaavanlaisia kuin aineistoyksikköjen alkuun kirjattaessa (kts. esimerkit 5, 6 ja 7), mutta nyt kunkin taustatietokentän alkuun on kirjattu yhtenä taustatietona sen tiedoston nimi, johon kyseisen kentän taustatiedot liittyvät. Koneellinen luku onnistuu, jos jokaiseen aineistotiedostoon viittaavat taustatieto-otsakkeet ovat samat, identtisesti kirjoitettu ja samassa järjestyksessä. Otsakkeiden on myös aina päätyttävä kaksoispisteeseen, jota seuraa välilyönti. Taustatietokentät tulee erottaa toisistaan vähintään yhdellä rivinvaihdolla [enter].
Tiedoston nimi: kuva_01.jpg
|
Tiedoston nimi: kuva_02.jpg
|
Tiedoston nimi: kuva_03.jpg
|
Tiedoston nimi: kuva_04.jpg
|
Tiedoston nimi: kuva_05.jpg
|
Lehtiaineistot
Tietoarkisto on tehnyt Kopioston kanssa sopimuksen, jonka mukaisesti Tietoarkisto voi arkistoida myös teossuojaa saavia tutkimusaineistoja, esim. lehtiartikkeleita, kuvia, kirjojen kuvituksia ja sarjakuvia (ks. tarkemmin Kopioston jäsenjärjestöt (Avautuu uuteen välilehteen) ). Arkistoitavaksi otetaan vain digitaalisessa muodossa olevat aineistot, jotka ovat olleet tutkimuksen kohteena.
Verkkolehdistä kerättävät aineistot
Kun tiettyä tutkimusta varten kerää aineistokseen artikkeleita verkkolehdistä, niiden pysyvyys internetosoitteissaan vaihtelee. Jotta aineistoksi kerätyt artikkelit saadaan arkistoitua digitaalisina, ne tulisi kopioida tekstinkäsittelyohjelmaan. Jos kopioidun artikkelin tietoihin ei tule automaattisesti mukaan tekijä- ja teostietoja, ne tulee lisätä artikkelin alkuun. Sen jälkeen artikkeli on hyvä muuntaa pdf-tiedostoksi.
Kirjaa tekijä- ja teostiedot
Kun tutkimusta varten kerätään lehtiartikkeleita, kuvia tai vastaavia, tulee niiden viitetiedot kirjata ylös huolella. Esimerkiksi lehtiartikkeleista tulee kirjata
- Tekijä(t)
- Artikkelin nimi
- Lehden nimi
- Julkaisupäivämäärä ja vuosi
- Artikkelin verkko-osoite (jos verkkolehti)
- Verkkolehden artikkelin viittauspäivämäärä
- Erillinen maininta, jos kyseessä on pääkirjoitus, lehden lukijoiden kirjoittama kannanotto tai mielipidekirjoitus.
Esimerkit lehtiartikkeleista, joille on mainittu henkilötekijä:
- Kaisu Mikkola: Mikä tahansa tuska? Kaleva 19.1.1983.
- Kirsikka Moring: Ovatko naiset teatterikansaa? Helsingin Sanomat 24.1.2003.
- Hanna Gråsten: Näin Kreikan kriisi vaikuttaa Suomeen. Iltalehti 29.6.2015. http://www.iltalehti.fi/uutiset/2015062919946575_uu.shtml (Avautuu uuteen välilehteen) . Viitattu 30.6.2015.
- Anneli Koivunen: Lapsettoman eläkeläisen hätähuuto. Turun Sanomat 28.6.2015. Lukijoilta –osasto. http://www.ts.fi/mielipiteet/lukijoilta/787727/Lapsettoman+elakelaisen+hatahuuto (Avautuu uuteen välilehteen) . Viitattu 30.6.2015.
Esimerkit uutisartikkeleista, joille ei ole mainittu henkilötekijää:
- Yhdysvaltojen talous kutistui alkuvuonna. Helsingin Sanomat 25.6.2015.
- Mies tuomittiin kissojen jättämisestä yksin asuntoon. Aamulehti 26.6.2015.
Jos analysoitavaksi on valittu artikkeleita tiedelehdistä, tulee tieteen normaalien viitekäytäntöjen mukaisesti edellä mainittujen lisäksi kirjata teostietoihin
- Analysoidun artikkelin sivunumerot
- Lehden nimi
- Lehden vuosikerran numero
- Lehden numero vuosikerrassa
Jos analysoitavat tutkimusartikkelit on valittu toimitetuista teoksista, niihin tulee lisätä
- Teoksen toimittajan/toimittajien nimi/nimet
- Koko teoksen nimi
- Analysoidun kirjoituksen sivunumerot
- Sarjan nimi, teoksen numero sarjassa
- Julkaisijan nimi
- Julkaisijan kotipaikka
Laadi luettelo tutkimuksessa analysoiduista artikkeleista
Tietoarkistoon arkistoitavista sähköisistä lehtiartikkeleista tulee toimittaa erillinen listaus. Listaus laaditaan tekijä- ja teostiedoista. Listan voi järjestää aakkosittain tai aikajärjestyksessä. Listan järjestys voi noudattaa myös tutkimuksen analyysin ja tutkimuksen sisällön järjestystä. Olennaisinta on, että tekijä- ja teostiedot on kirjattu yhdenmukaisesti. Tietoarkisto toimittaa arkistoitavien aineistojen teoslistat Kopiostolle arkistoinnin yhteydessä.
Analoginen arkistoaineisto digikuvina
Humanististen alojen tutkimuksessa käytetään usein jo valmiiksi arkistoitua paperimuotoista aineistoa, jonka säilyttämisestä vastaavat Arkistolaitos ja muut arkistot. Jo arkistoidusta aineistosta tuotetut digitaaliset aineistot on erityistapauksissa mahdollista arkistoida Tietoarkistoon. Kansallisarkiston ja Tietoarkiston välisen sopimuksen mukaan tutkijan itsensä tutkimustarkoituksiin ottamat digitaaliset valokuvat Kansallisarkiston asiakirja-aineistosta on mahdollista arkistoida Tietoarkistoon.
Arkistolaitoksen (Kansallisarkisto ja maakunta-arkistot) paperiaineistoista tutkijan digikameralla ottamat valokuvat voidaan tietyin edellytyksin arkistoida Tietoarkistoon.
1. Tietoarkistoon arkistoitava aineisto ei saa kuulua jo digitoituihin Kansallisarkiston aineistoihin.
2. Kuvat on otettu tutkimuksessa analysoitavaksi aineistoksi.
3. Kuvia koskevat viitetiedot ovat riittävät.
Kunkin kuvan viitetiedot tulee ilmaista samalla tavalla kuin vastaavan paperiaineiston viitetiedot. Asiakirjasta riippuen viitetietoja ovat esimerkiksi
- arkiston nimi (so. viranomainen, yhteisö, yksittäinen henkilö) tai kokoelma
- asiakirjasarjan nimi
- arkistoyksikön vuosiluku
- arkistoyksikön numero tai muu tunnus
- säilyttävä arkisto
- paikkakunta
- valintaperusteet ja selitys, jos asiakirjasta vain osa on kuvattu
Esimerkkejä viittaamisesta:
- SN-Seuran vuosikertomus 1944, sivu 11, Kansallisarkisto (KA)
- Turun ja Porin läänin jalkaväkirykmentti, saapuneet kirjeet 1723-1811, kirje 12.11.1799, Kansallisarkisto (KA)
Digikuvien arkistointi käytännössä:
Tallenna kukin kuva nimellä, joka ilmentää lähdemateriaalin viitetietoja. Esimerkiksi Kansallisarkistoon arkistoitu Viipurin läänin henkikirja vuodelta 1823 voitaisiin tallentaa nimellä Henkirja_VI_1823_KA.jpg. Mikäli asiakirjakokonaisuus muodostuu useasta perättäisestä valokuvasta, kuvat nimetään juoksevalla numeroinnilla Henkirja_VI_1823_KA_01.jpg, Henkirja_VI_1823_KA_02.jpg, jne.
Toimita Tietoarkistoon kuvat jpg-tiedostoina ja liitä mukaan tiedostolistaus, josta ilmenee kunkin kuvan sisältämän arkistoaineiston viitetiedot.
Mikäli noudatat arkistolaitoksen digitoinnin laatukriteereitä, voit tarjota aineistosi arkistoitavaksi arkistolaitoksen Digitaaliarkistoon.