Aineistokuvailun DDI-formaatti

DDI alkoi tietoarkistojen yhteistyöprojektina

Aineistojen arkistoinnin ja uudiskäytön tärkeimpiä edellytyksiä on aineistojen riittävä dokumentointi, nk. metadata. Ensimmäisen kerran kansainvälisestä tutkimusaineistojen kuvailuformaatista sovittiin jo 1970-luvulla, mutta eri arkistojen erilaisista kuvailutarpeista, tiedonkäsittelyvälineistä ja -tavoista johtuen siitä kehittyi hyvin paljon paikallisia "murteita", eikä käytännössä voitu puhua yhdenmukaisesta kuvailusta.

Tähän epäkohtaan puututtiin vuonna 1995, kun ICPSR (Avautuu uuteen välilehteen) (Inter-university Consortium for Political and Social Research) perusti komitean kehittämään standardia yhteiskuntatieteellisen data-aineiston kuvailua ja koodikirjojen tekoa varten. Komitean jäsenet edustivat laajaa asiantuntemusta yhteiskuntatieteellisen tutkimuksen ja dokumentoinnin alueella. Komitean ehdotus uudeksi formaatiksi sai nimekseen DDI (Data Documentation Initiative).

Nykyään DDI-formaattia ylläpitää ja kehittää kansainvälinen DDI-allianssi (Avautuu uuteen välilehteen) (DDI Alliance), jota isännöi Michiganin yliopisto. Allianssin jäseninä on data-arkistoja, yliopistoja ja tilasto- ja aineistonkeruuohjelmistoja tuottavia organisaatioita ympäri maailmaa. Jokaisella jäsenellä on yksi edustaja allianssin asiantuntijaryhmässä, joka kokoontuu kerran vuodessa. DDI-formaatti on vapaasti kenen tahansa saatavilla, mutta vain allianssin jäsenet voivat vaikuttaa sen sisältöön. DDI:tä kehitettäessä tehtiin ja tehdään vertailuja muihin kuvailustandardeihin, mm. MARC:iin, ISO690-2:een, SDMX:ään ja Dublin Coreen.

DDI-kuvailut tehdään XML-kielellä

DDI-formaatin mukaiset aineistonkuvailut tehdään XML-kielellä. XML (Extensible Markup Language) (Avautuu uuteen välilehteen) on dokumenttirakenteiden määrittely- ja esitystapakieli, joka on tarkoitettu rakenteisen informaation tallennukseen ja jakeluun verkossa. XML tarjoaa laitteisto- ja ohjelmistoriippumattoman menetelmän tietojen hallintaan. Yksittäisessä XML-dokumentissa sallitut elementit (dokumentin osat, esimerkiksi otsikot, listat jne.) ja niiden väliset suhteet, järjestys ja toistettavuus määritellään dokumenttityyppimäärittelyssä eli DTD:ssä (Document Type Definition) tai skeemassa (schema).

Tietoarkistossa käytössä DDI-Codebook

Kaikki tietoarkiston aineistot on kuvailtu käyttäen DDI-Codebook-formaattia, joka soveltuu hyvin yksittäisten kyselyaineistojen metatietojen pitkäaikaissäilyttämiseen. DDI Codebookin kolmisensataa tietoelementtiä jakautuvat viiteen osaan:

Document Description
mm. bibliografiset tiedot itse kuvailusta (eli "koodikirjasta")
Study Description
data-aineiston kuvailu, muun muassa tekijät, asiasanat, abstrakti, otannan kuvaus, tutkimusaineiston keruun kuvaus, havaintoyksiköt, perusjoukko, saatavuus, käyttöehdot
Data Files Description
tiedostojen kuvailu, muun muassa tiedoston rakenne, muuttujien määrä, tiedostojen koko, ohjelmistot
Variable Description
muuttujien kuvailu, esimerkiksi selitteet ja kysymystekstit
Other Study-Related Material
data-aineistoon liittyvät tiedot, joita ei ole kuvailtu formaatin muissa osissa

Tietoarkisto käyttää kuvailussaan noin kolmasosaa DDI-Codebookin sisältöelementeistä. Formaatin kaikki tietoelementit käyttöohjeineen on koottu nk. Tag Libraryyn (Avautuu uuteen välilehteen) .

Tietoarkiston tuottamat DDI:n mukaiset kuvailut ovat saatavilla myös XML-tiedostoina.

DDI mahdollistaa tehokkaat haut

DDI:n mukaiset, XML-kielellä tehdyt rakenteiset aineistokuvaukset mahdollistavat tehokkaat, kohdennetut haut ja hyvät hakutulokset. Lisäksi XML-lähdetiedostoista voidaan tuottaa helposti erilaisia julkaisuja, esimerkiksi Internet-sivustoja tai painettuja aineistoluetteloita.

DDI-Lifecycle aineistojen elinkaaren hallintaan

DDI-Lifecycle (Avautuu uuteen välilehteen) tarjoaa ratkaisuja vertailu-, paneeli- ja sarja-aineistojen dokumentointiin ja pitkäaikaissäilytykseen sekä tutkimusaineistojen koko elinkaaren hallintaan. DDI-Lifecycle on sisällöltään hyvin paljon laajempi ja rakenteeltaan täysin erilainen kuin DDI-Codebook. Tietoarkisto on valmistellut DDI-Lifecyclen käyttöönottoa osana Tietoarkisto 2015 -hanketta.