Aineistokuvailun DDI-formaatti
DDI alkoi tietoarkistojen yhteistyöprojektina
Aineistojen arkistoinnin ja uudiskäytön tärkeimpiä edellytyksiä on aineistojen riittävä dokumentointi, nk. metadata. Ensimmäisen kerran kansainvälisestä tutkimusaineistojen kuvailuformaatista sovittiin jo 1970-luvulla, mutta eri arkistojen erilaisista kuvailutarpeista, tiedonkäsittelyvälineistä ja -tavoista johtuen siitä kehittyi hyvin paljon paikallisia "murteita", eikä käytännössä voitu puhua yhdenmukaisesta kuvailusta.
Tähän epäkohtaan puututtiin vuonna 1995, kun ICPSR (Avautuu uuteen välilehteen) (Inter-university Consortium for Political and Social Research) perusti komitean kehittämään standardia yhteiskuntatieteellisen data-aineiston kuvailua ja koodikirjojen tekoa varten. Komitean jäsenet edustivat laajaa asiantuntemusta yhteiskuntatieteellisen tutkimuksen ja dokumentoinnin alueella. Komitean ehdotus uudeksi formaatiksi sai nimekseen DDI (Data Documentation Initiative).
Nykyään DDI-formaattia ylläpitää ja kehittää kansainvälinen DDI-allianssi (Avautuu uuteen välilehteen) (DDI Alliance), jota isännöi Michiganin yliopisto. Allianssin jäseninä on data-arkistoja, yliopistoja ja tilasto- ja aineistonkeruuohjelmistoja tuottavia organisaatioita ympäri maailmaa. Jokaisella jäsenellä on yksi edustaja allianssin asiantuntijaryhmässä, joka kokoontuu kerran vuodessa. DDI-formaatti on vapaasti kenen tahansa saatavilla, mutta vain allianssin jäsenet voivat vaikuttaa sen sisältöön. DDI:tä kehitettäessä tehtiin ja tehdään vertailuja muihin kuvailustandardeihin, mm. MARC:iin, ISO690-2:een, SDMX:ään ja Dublin Coreen.
DDI-kuvailut tehdään XML-kielellä
DDI-formaatin mukaiset aineistonkuvailut tehdään XML-kielellä. XML (Extensible Markup Language) (Avautuu uuteen välilehteen) on dokumenttirakenteiden määrittely- ja esitystapakieli, joka on tarkoitettu rakenteisen informaation tallennukseen ja jakeluun verkossa. XML tarjoaa laitteisto- ja ohjelmistoriippumattoman menetelmän tietojen hallintaan. Yksittäisessä XML-dokumentissa sallitut elementit (dokumentin osat, esimerkiksi otsikot, listat jne.) ja niiden väliset suhteet, järjestys ja toistettavuus määritellään dokumenttityyppimäärittelyssä eli DTD:ssä (Document Type Definition) tai skeemassa (schema).
Tietoarkistossa käytössä DDI-Codebook
Kaikki tietoarkiston aineistot on kuvailtu käyttäen DDI-Codebook-formaattia, joka soveltuu hyvin yksittäisten kyselyaineistojen metatietojen pitkäaikaissäilyttämiseen. DDI Codebookin kolmisensataa tietoelementtiä jakautuvat viiteen osaan:
- Document Description
- mm. bibliografiset tiedot itse kuvailusta (eli "koodikirjasta")
- Study Description
- data-aineiston kuvailu, muun muassa tekijät, asiasanat, abstrakti, otannan kuvaus, tutkimusaineiston keruun kuvaus, havaintoyksiköt, perusjoukko, saatavuus, käyttöehdot
- Data Files Description
- tiedostojen kuvailu, muun muassa tiedoston rakenne, muuttujien määrä, tiedostojen koko, ohjelmistot
- Variable Description
- muuttujien kuvailu, esimerkiksi selitteet ja kysymystekstit
- Other Study-Related Material
- data-aineistoon liittyvät tiedot, joita ei ole kuvailtu formaatin muissa osissa
Tietoarkisto käyttää kuvailussaan noin kolmasosaa DDI-Codebookin sisältöelementeistä. Formaatin kaikki tietoelementit käyttöohjeineen DDI-Codebook 2.5 -määrittelyssä (Avautuu uuteen välilehteen) DDI-Allianssin sivuilla.
Tietoarkiston tuottamat DDI:n mukaiset kuvailut ovat saatavilla myös XML-tiedostoina.
DDI mahdollistaa tehokkaat haut
DDI:n mukaiset, XML-kielellä tehdyt rakenteiset aineistokuvaukset mahdollistavat tehokkaat, kohdennetut haut ja hyvät hakutulokset. Lisäksi XML-lähdetiedostoista voidaan tuottaa helposti erilaisia julkaisuja, esimerkiksi Internet-sivustoja tai painettuja aineistoluetteloita.
DDI-Lifecycle aineistojen elinkaaren hallintaan
DDI-Lifecycle (Avautuu uuteen välilehteen) tarjoaa ratkaisuja vertailu-, paneeli- ja sarja-aineistojen dokumentointiin ja pitkäaikaissäilytykseen sekä tutkimusaineistojen koko elinkaaren hallintaan. DDI-Lifecycle on sisällöltään hyvin paljon laajempi ja rakenteeltaan täysin erilainen kuin DDI-Codebook. Tietoarkisto valmisteli DDI-Lifecyclen käyttöönottoa osana Tietoarkisto 2015 -hanketta.