Aineiston kuvailu ja metadata
Tutkimusaineiston sisällön, keruun ja muuttujien huolellinen kuvailu on edellytys aineiston käyttökelpoisuuden säilymiselle. Ilman kuvailevaa tietoa eli metadataa tutkimusaineisto on vain merkityksetön kokoelma yksittäisiä tiedostoja, numeroita ja merkkejä. Lisäksi hyvin tehty kuvailu helpottaa tutkimusaineiston löytämistä. Tutkimusaineiston perustietojen huolellinen ja kattava kuvaus (esimerkiksi julkaisun liitteessä) on tärkeä luotettavuuden osoitus myös tutkimustulosten raportoinnissa.
Tietoarkistoon tallennettujen aineistojen kuvailut julkaistaan sekä tietoarkiston omassa aineistoluettelossa että eurooppalaisten arkistojen yhteisluettelossa. Kun aineisto on luetteloitu, siihen voi helposti myös viitata.
Tutkimusaineiston kuvailussa on muistettava keskittyä nimenomaan itse aineiston eikä siitä tehtyjen johtopäätösten tai julkaisujen kuvailuun.
Metadatan tallennus
Jokaiselle tutkimusaineistolle kannattaa luoda oma hakemisto, johon tallennetaan sekä itse tutkimusaineistot että kuvailutiedot. Osa kuvailutiedosta sisältyy yleensä myös varsinaiseen datatiedostoon (esimerkiksi kvantitatiivisen aineiston muuttujien selitteet tai kvalitatiivisen aineiston aineistoyksikön tiedot). Kuvailutiedot voi tallentaa esimerkiksi tekstitiedostona kirjaamalla dokumenttiin alla jäsennellyt aineiston perustiedot. Toinen vaihtoehto on valita oman aineiston kuvailuun soveltuva metadataformaatti.
Erityisesti silloin, kun kuvailtavia aineistoja tai kuvailutietoja on paljon, metadata kannattaa tallentaa jonkun metadataformaatin mukaisesti tietokantaan. Tietokantamuotoinen metadata mahdollistaa nopeat haut ja erilaiset raportoinnit. Pitkäaikaissäilytykseen kannattaa valita rakenteistettu xml-tiedosto.
Tutkimusaineistosta tallennetaan soveltuvin osin seuraava metadata:
- tutkimuksen toteutuksen kuvailu
- aineistonkeruuinstrumentti
- tiedostojen kuvailu
- muuttujien kuvailu
- saatavuustiedot
- kontekstitiedot ja paradata
Lisäksi tallennetaan aineiston kerääjille ja käsittelijöille (esimerkiksi haastattelijoille, tallentajille, koodaajille tai litteroijille) annetut ohjeet ja muut dokumentit. Ne voi tallentaa esimerkiksi tekstitiedostoina tai pdf-tiedostoina.
Tutkimuksen toteutuksen kuvailu
Olennaisia tietoja ovat on aineiston alkuperäinen käyttötarkoitus, tekijät, tuottajat, perusjoukon ja havaintoyksikköjen valintaperusteet sekä aineistonkeruun tiedot. Seuraavat tiedot tallennetaan sekä kvalitatiivisista että kvantitatiivisista tutkimusaineistoista:
Alkuperäinen käyttötarkoitus: Tiedot tutkimuksesta, jota varten aineisto on kerätty, teoreettisesta viitekehyksestä ja käytetyistä operationalisoinneista.
Julkaisut: Lista julkaisuista, joissa aineistoa on käytetty ja/tai kuvailtu.
Tekijät: Aineiston tekijöitä ovat henkilöt, jotka ovat vastuussa aineiston varsinaisesta ajatuksellisen sisällön kehittelystä, useimmiten siis tutkimushankkeen vetäjät. Lisäksi merkitään muistiin aineiston kerääjät (voi olla myös ulkopuolinen organisaatio), tallentajat ja käsittelijät (esimerkiksi kvantitatiivisen aineiston koodaajat ja tallentajat tai kvalitatiivisen aineiston litteroijat) sekä henkilöiden taustaorganisaatiot.
Tuottajat: Kirjataan, kuka on rahoittanut tai tilannut aineistonkeruun tai tutkimusprojektin, jota varten aineisto on kerätty.
Perusjoukko: Kuvataan aineiston kattama populaatio eli se ihmis- tai asiaryhmä, joka on tutkimuksen kohteena tai johon tutkimuksen tulokset viittaavat. Esimerkiksi: 18-79-vuotiaat Suomessa vakituisesti asuvat henkilöt.
Havaintoyksikkö: Kuvataan aineiston havaintoyksikkö eli kohde, josta tutkimuksessa tehdään empiirisiä havaintoja. Se voi olla esimerkiksi henkilö, kunta, tapahtuma tai lehtiartikkeli. Vaikka tutkimuksessa olisi haastateltu henkilöitä, havaintoyksikkö voi olla jotain muutakin, esimerkiksi organisaatio, jota henkilö edustaa.
Aineistoyksikkö: Kvalitatiivisesta aineistosta luetellaan kaikki kerätyt aineistot. Ne voivat olla haastatteluja, vuorovaikutuksen tallenteita, päiväkirjoja, kenttämuistiinpanoja, lehtileikkeitä jne. Aineistoyksikkökohtaiset tiedot kirjataan huolella. Esimerkiksi lehtijutuissa niitä ovat lehti, päivämäärä, jutun sijainti lehdessä, kirjoittaja ja aihe/otsikko. Haastatteluissa niitä ovat haastateltavan taustatiedot ja muut taustatiedot. Perustiedot aineistoyksiköistä on hyvä olla kunkin yksikön yhteydessä, esimerkiksi haastattelulitteraatin alussa, ja myös erillisenä listauksena.
Havainto- tai aineistoyksikköjen valintaperusteet: Kuvaus otantamenetelmästä ja/tai muista havainto- tai aineistoyksikköjen valitsemisessa käytetyistä keinoista. Kvalitatiivisesta aineistosta kerrotaan aineistoyksiköiden valinnan perusteet eli selitetään, miten esimerkiksi haastateltavat tai lehtijutut on valittu tai valikoituneet. Kvantitatiivisesta aineistosta selitetään otannan tyyppi ja rakenne, jota on käytetty valittaessa vastaajat edustamaan tutkimuksessa koko populaatiota, siis ketä tutkija on halunnut tutkimuksellaan tavoittaa. Samalla voidaan kertoa myös kohdepopulaation koko ja otannan osuus populaatiosta.
Aineistonkeruu: Tallennetaan aineistonkeruun alkamis- ja päättymispäivät ja kuvaus tiedonkeruun menetelmästä (esimerkiksi puhelinkysely, tietokoneavusteinen käyntikysely, internet-kysely, ohjattu lomakekysely, audiotallenne, audiovisuaalinen tallenne tai kirjoituspyyntö). Kvantitatiivissa aineistoissa tallennetaan tiedot mahdollisista karhukierroksista ja katoanalyysi, kvalitatiivisissa aineistoissa keinot, joita tutkittavien tavoittamiseksi ja aineiston kartuttamiseksi on käytetty. Myös haastattelijan tiedoilla (esimerkiksi ikä, sukupuoli, koulutus, ammatti) voi olla merkitystä, samoin haastattelupaikalla, ajankohdalla ja erilaisilla tilannekohtaisilla tekijöillä. Kvantitatiivisissa aineistoissa haastattelijan ja haastatteluhetken tiedot tallennetaan havaintomatriisiin, kvalitatiivisissa aineistoissa aineistoyksikköjen perustietojen yhteyteen.
Lähdeaineistot: Jos kyseessä ei ole kysely- tai haastatteluaineisto, tallennetaan tiedot lähdeaineistoista: luetellaan esimerkiksi kirjat, artikkelit ja rekisteritiedot, jotka ovat olleet aineiston lähteenä.
Aineistonkeruuinstrumentti
Kirjoituspyyntö (esim. lehdissä tai verkkosivuilla julkaistu), haastattelukysymykset, kyselylomake tai haastattelurunko, saatekirje ja mahdolliset haastattelijan ohjeet tallennetaan samaan hakemistoon aineiston ja kuvailutiedon kanssa.
Aineistonkeruuinstrumentista tallennetaan kaikki eri kieliversiot. Sähköisten versioiden lisäksi tallennetaan yksi blanco paperinen kyselylomake, jos sellainen on olemassa.
Tietokoneavusteisissa kyselyissä, joissa ei ole varsinaista kyselylomaketta, kysymykset ja vastausvaihtoehdot sekä kysymysten esitysjärjestys voidaan tallentaa tekstitiedostona.
Tiedostojen kuvailu
Tutkimusaineisto voi koostua yhdestä tai useammasta tiedostosta. Kvantitatiivisissa aineistoissa yksi tiedosto sisältää tyypillisesti kymmeniä tai satoja muuttujia. Kvalitatiivisissa aineistoissa yksi tiedosto sisältää usein yhden aineistoyksikön, esimerkiksi yhden henkilön haastattelun.
Kaikkien yksittäisen tiedostojen ominaisuudet kuvaillaan. Jokaisesta tiedostosta kirjataan ylös:
- tiedoston nimi
- missä tiedosto sijaitsee (tiedostopolku)
- tiedoston koko
- tiedostoformaatti
- millä ohjelmalla tiedosto on tuotettu
- milloin tiedosto on tuotettu
- kuka tiedoston on tuottanut
- tiedoston versio
- tiedoston käyttöoikeudet
Monet näistä tiedoista saadaan helposti listattua tietokoneen komentorivin (command prompt) dir-komennolla, joka tuo näytölle listan hakemiston tiedostoista ja alihakemistoista. Esimerkiksi komento
C:\> dir Aineisto /S >tiedostolistaus.txt
luo uuden tiedoston nimeltään tiedostolistaus.txt, joka sisältää listan kaikista hakemiston Aineisto sisältämistä tiedostoista ja alihakemistoista tiedostoineen.
- Lisätietoa tiedostoformaateista
- Tiedostojen nimeäminen ja hallinta
- Ohjeita komentorivin käyttöön (Avautuu uuteen välilehteen) (Paavo Nieminen, Jyväskylän yliopisto 2007)
Muuttujien kuvailu
Kvantitatiivisen aineiston muuttujista tallennetaan seuraavat tiedot:
- muuttujien ja havaintoyksikköjen lukumäärä
- muuttujalista, jossa luetellaan kunkin muuttujan nimi, selite ja sijainti tiedostossa sekä muuttujien saamat arvot ja niiden selitteet
- muuttujien suorat jakaumat
- tiedot käytetyistä luokituksista, esimerkiksi "ammattiluokituksessa käytettiin ISCO-88:n pääluokkia" tai "maakoodit: kolminumeroinen ISO 3166".
- käytettyjen lyhenteiden selitykset
- puuttuvien tietojen koodaukset
- konstruoitujen muuttujien tiedot (esimerkiksi painomuuttujien laskentakaavat, summamuuttujien muodostamisperiaatteet)
- uudelleenluokittelut, muuttujien standardoinnit
- tietosuojatoimenpiteet
Jos muuttujat tai muuttujien saamat arvot tai selitteet poikkeavat kyselylomakkeen kysymyksistä tai vastausvaihtoehdoista, on poikkeavuudet selitettävä.
Lisäksi kirjataan tiedot dataan prosessoinnin yhteydessä tehdyistä muutoksista ja muokkauksista (esimerkiksi duplikaattien poistot, poikkeavien havaintojen poistot). Osa edellä mainituista kuvailutiedoista voidaan kirjata suoraan datatiedostoon.
Kvantitatiivisen datatiedoston käsittely
Saatavuustiedot
Aineiston kuvailun tulee sisältää tieto aineiston saatavuudesta. Kuvailussa kerrotaan, missä aineistoa säilytetään, miten sen voi saada käyttöönsä, onko aineiston käytölle asetettu erityisehtoja ja kuka antaa lisätietoja.
Kontekstitiedot ja paradata
Kontekstitiedoilla tarkoitetaan tutkimusaineiston tiedonkeruuhetkellä vallinneita ulkoisia olosuhteita ja tapahtumia, jotka ovat voineet vaikuttaa havaintoyksiköihin.
Esimerkiksi talouden tila, poliittiset tapahtumat, yleinen mielipide ja erilaiset yhteiskunnalliset muutokset tutkimusaineiston keruuaikana samoin kuin (äkilliset) luonnonmullistukset ja onnettomuudet voivat vaikuttaa tutkittavien asenteisiin, vastauksiin ja ajatuksiin tutkimushetkellä.
Tilastot tarjoavat yleistä makrotason tietoa yhteiskunnasta tutkimushetkellä. Yksittäisistä tapahtumista voi pitää tapahtumapäiväkirjaa aineistonkeruun ajalta, kirjata muistiin esimerkiksi pääuutisaiheet ja tutkimuksen teemaan liittyvät uutiset.
Paradatalla tarkoitetaan empiiristä tietoa aineiston keruuprosessista. Paradataa ovat esimerkiksi haastattelun alkamis- ja päättymisajankohta, haastattelun tai sen eri osa-alueiden kesto, vastausviive eri kysymyksiin, haastattelijan visuaaliset havainnot ja mielipiteet haastattelutilanteesta. Paradataa syntyy erityisen runsaasti tietokoneavusteisissa kyselyissä ja internet-kyselyissä. Kvantitatiivisissa aineistossa paradatamuuttujat voidaan tallentaa varsinaisten tutkimusmuuttujien kanssa samaan tai eri tiedostoon. Kvalitatiivisissa aineistoissa paradata voi olla kunkin aineistoyksikön alussa tai erillisessä tiedostossa (esimerkiksi maininnat tutkimustilanteissa olleista tai niihin kesken tulleista muista henkilöistä).
Metadataformaatit
Metadatan voi tallentaa tavallisena tekstitiedostona. Halutessaan voi kuitenkin käyttää apuna erilaisia metadataformaatteja ja -tallennuspohjia.
Data Documentation Initiative (DDI) (Avautuu uuteen välilehteen) on erityisesti tutkimusaineistojen kuvailuun kehitetty kansainvälinen metadataformaatti. Yhteiskuntatieteellisessä tietoarkistossa metadata tallennetaan DDI Codebook 2.5 -muodossa xml-tiedostoina. Rakenteistettu xml-tiedosto sopii pitkäaikaissäilytykseen ja siitä voidaan helposti tuottaa erilaisia dokumentteja eri tarkoituksiin. Saatavilla on myös koko aineiston elinkaaren huomioiva DDI Lifecycle (DDI3).
Kvantitatiivinen aineisto FSD2248 ISSP 2006: valtion tehtävät IV: Suomen aineisto
Kvalitatiivinen aineisto FSD1306 Yksi päivä mediaa 2001
Kaikki tietoarkiston tuottamat kuvailut ovat saatavilla DDI XML-muodossa. Linkki kunkin aineiston DDI-muotoiseen kuvailuun on aina aineiston kuvailusivun lopussa. Lisäksi kuvailut ovat saatavilla yhtenä zip-pakettina.
Tietoarkiston aineistokuvailut DDI Codebook 2.5 -formaatissa
Metadataformaatteja tutkimusaineistoille
- Data Documentation Initiative (DDI) Lifecyle ja Codebook (Avautuu uuteen välilehteen)
- CESSDA Metadata Model (CMM) (Avautuu uuteen välilehteen)
- TTA-minimimetatietomalli (Avautuu uuteen välilehteen) PDF pitää sisällään kymmenen kaikille aineistoille yhteistä kenttää riippumatta tieteenalasta tai kuvailun formaatista.
- Text Encoding Initiative (TEI) (Avautuu uuteen välilehteen) on käytössä varsinkin tekstidokumenttien koodaamiseen.
- Statistical Data and Metadata Exchange (SDMX) (Avautuu uuteen välilehteen) on tilastollisen tiedon ja metatiedon siirtoformaatti.
- Ecological Metadata Language (EML) (Avautuu uuteen välilehteen) on tarkoitettu ekologisten tutkimusaineistojen dokumentointiin.
Muita metadataformaatteja
- Dublin Core Metadata Initiative (DCMI) (Avautuu uuteen välilehteen) Dublin Core on erityisesti digitaalisten julkaisujen kuvailuun kehitetty metadataformaatti. Kansalliskirjasto ylläpitää sen suomenkielistä versiota (Avautuu uuteen välilehteen) .
- Metadata Encoding and Transmission Standard (METS) (Avautuu uuteen välilehteen) on digitaalisten (kirjastojen) sähköisten aineistojen kuvailuun suunniteltu standardi, jolla voidaan paketoida yhteen kuvailuun, hallinnointiin ja rakenteeseen liittyvää metadataa.
- PREMIS (Avautuu uuteen välilehteen) (Preservation Metadata: Implementation Strategies) määrittelee sähköisten aineistojen pitkäaikaissäilyttämisen metatietoja.
- EAD (Avautuu uuteen välilehteen) (Encoded Archival Description) määrittelee arkistojen kokoelmatietojen hakuvälineiden metatietoja sähköisissä ympäristöissä.