FSD Bulletin

Numero 17 (2/2005)
13.6.2005

ISSN 1795-5254

etusivu
uusimmat aineistot
aikaisemmat lehdet
toimitus

» uusin lehti

Tietoarkisto on FSD:n verkkotiedotuslehti, jonka syksyn erikoisnumero ilmestyy myös painettuna. Lehdessä on artikkeleita ja uutisia tutkimus- ja arkistotoiminnan eri alueilta. Tietoarkiston ilmestymisestä tiedotetaan sähköpostilistallamme. Painetun Tietoarkisto-lehden voi tilata maksutta osoitteesta fsd@tuni.fi.


FSD

Yhteiskuntatieteellinen
tietoarkisto
s-posti: fsd@tuni.fi

Tietosuoja


DDI 3.0 julkaistaan ensi vuonna

Tutkimusaineistojen kuvailuformaatti DDI laajenee

Mari Kleemola 13.6.2005

Tutkimusaineistojen arkistoinnin tarkoituksena on sekä säilyttää aineistot käyttökuntoisina että lisätä aineistojen jatkokäyttöä. Jatkokäyttäjä on yleensä joku muu kuin aineiston kerääjä. Aineistoa saatetaan myös käyttää eri tarkoitukseen kuin alkuperäisessä tutkimuksessa. Aineistojen käyttökelpoisuuden varmistamiseksi onkin varsinaisen datatiedoston lisäksi tallennettava runsaasti aineistoa kuvailevaa metatietoa muun muassa aineistonkeruusta, havaintoyksiköiden valinnasta ja muuttujista.

Yhteiskuntatieteelliseen tietoarkistoon arkistoidut tutkimusaineistot kuvaillaan tietoarkistojen kansainvälisen yhteistyön tuloksena syntyneellä DDI-formaatilla (Data Documentation Initiative). Ensimmäinen tietoarkistossa käytetty versio oli DDI:n betaversio vuodelta 1999. Nykyään aineistot kuvaillaan vuonna 2003 julkaistun DDI 2.0:n mukaan.

Vaikka version numero on vaihtunut, DDI on pysynyt rakenteeltaan ja keskeisiltä osiltaan muuttumattomana. Data-arkistojen tarpeet ja kuvailuformaattiin kohdistamat odotukset ovat kuitenkin kasvaneet. Lisäksi DDI:n käyttäjäkunta on laajentunut data-arkistomaailmasta muun muassa datan tuottajiin ja tilastolaitoksiin. Nykyinen DDI soveltuu hyvin yksittäisten survey-aineistojen metatietojen tallentamiseen. Ongelmia on luvassa, jos kuvailtavana on esimerkiksi paneeliaineistoja, sarja-aineistoja tai kansainvälisiä vertailututkimuksia.

Ensi vuonna julkaistava DDI 3.0 tarjoaa ratkaisun sekä monimutkaisten aineistojen kuvailuun että tutkimusaineiston koko elinkaaren hallintaan. DDI 3.0 on sisällöltään laajempi ja rakenteeltaan erilainen kuin DDI 2.0. Vertailuaineistojen ja aineistosarjojen kuvailua sekä aineistojen koko elinkaaren hallintaa varten formaattiin lisätään uusia elementtejä. Rakenne muuttuu selkeästi modulaariseksi, esimerkiksi aineistonkeruuvälineen kuvailuun, aineistosarjojen kuvailuun ja aggregaattidatan kuvailuun tehdään omat osionsa. Käyttäjä voikin tulevaisuudessa valita DDI:stä entistä helpommin vain tarvitsemansa osat ja jättää muut osat huomiotta.

DDI-kuvailut tehdään XML-kielellä. DDI:n versiossa 2.0 sallitut elementit ja niiden väliset suhteet, järjestys ja toistettavuus on määritelty dokumenttityyppimäärittelyssä eli DTD:ssä. Kolmosversiossa siirrytään käyttämään XML-skeemaa. Skeemalla on kaikki DTD:n ominaisuudet, mutta niiden lisäksi se mahdollistaa dokumentin rakenteiden laajemman kuvaamisen, esimerkiksi elementtien ja attribuuttien tarkan tyypittämisen.

Formaattia kehittävässä DDI-allianssissa on asiantuntijoita data-arkistojen ja yliopistojen lisäksi tilasto- ja aineistonkeruuohjelmistoja tuottavista organisaatioista sekä Yhdysvalloista että Euroopasta. Allianssin asiantuntijaryhmä kokoontui viimeksi Edinburghissa 22. - 23.5.2005. Kokouksessa työskenneltiin pääosin kolmosversion kimpussa. Tarkoitus on myös kehittää DDI:hin perustuvia sovelluksia, joita tutkijat voisivat hyödyntää aineiston keräämis-, muokkaus- ja käyttövaiheessa ja tietoarkistot arkistointivaiheessa.

Lisätietoja

»Aineistojen kuvailu tietoarkistossa
»Lisätietoa DDI:stä tietoarkiston sivuilla
»DDI-allianssi
»XML 10 kohdan tiivistelmänä (W3C:n Suomen toimisto)