FSD - EtusivuFSD neWWWs
OOO


 

Etusivulle

Numero 7 (1/2002)

Aineistojen käsittely tietoarkistossa

Ari Eronen 5.3.2002

Yhteiskuntatieteellinen tietoarkisto saa jatkuvasti monenlaisia kvantitatiivisia yhteiskuntatieteellisiä tutkimusaineistoja. Teemme ensimmäiseksi aineistoille joitakin tarkistuksia sekä tarvittaessa täydennämme ja korjaamme niitä. Näiden toimenpiteiden jälkeen ne ovat valmiita arkistoitavaksi ja luovutettavaksi uudiskäyttöön.

Aineiston tarkistaminen

Tietoarkisto käsittelee alkuperäisestä datatiedostosta ottamaansa kopiota. Alkuperäiseen datatiedostoon ei tehdä muutoksia, vaan se arkistoidaan sellaisenaan. Kopiota käytetään pohjana laadittaessa uudiskäyttöön tarkoitettu arkistoversio. Kopion tarkistamisen, muutosten ja korjausten tavoitteena on saada arkistoversio vastaamaan mahdollisimman tarkasti tutkimuksen alkuperäistä tietosisältöä. Tämän selvittämiseen käytetään kyselylomaketta, alkuperäistä havaintomatriisia sekä muita luovuttajalta saatuja dokumentteja.

Tarkistamisen perusteella aineistoon tehdään muutoksia, korjauksia ja täydennyksiä. Muuttujat nimetään uudelleen. Muuttujien nimien ja luokkien selitteet ("labelit") laaditaan kyselylomakkeen perusteella. Havaitut virheet korjataan. Kaikki tämä tapahtuu yhtenäisen käytännön mukaisesti.

Muuttujien poistaminen, säilyttäminen ja lisääminen

Data-aineiston käsittelyn tavoitteena on saada aineisto vastaamaan mahdollisimman tarkasti sen alkuperäistä tietosisältöä. Tähän tavoitteeseen pääsemiseksi voidaan joutua poistamaan, säilyttämään tai lisäämään muuttujia. Aineistojen tarkistamiseen ja muokkaamiseen käytettävän SPSS-ohjelman syntaksiin kirjoitetaan kaikki aineistoon tehdyt muutokset.

Jos muuttujaa ei voida tunnistaa, se pudotetaan pois arkistoversiosta. Muuttuja voidaan poistaa myös tietosuojaan liittyvistä syistä. Aineistossa mukana olevat jälkeenpäin konstruoidut muuttujat (esimerkiksi yhdistetyt muuttujat ja summamuuttujat) pääsääntöisesti pudotetaan pois.

Aineiston käyttökelpoisuuden kannalta olennaiset konstruoidut muuttujat, erityisesti painomuuttujat, säilytetään, jos niitä koskeva luovuttajalta saatu dokumentaatio on riittävän selkeää. Aineistoon lisätään uusia muuttujia yleensä vain, jos aineiston käytettävyys sitä vaatii.

Filtterimuuttujat

Kyselylomakkeessa on usein kysymyksiä, joihin pyydetään vastaamaan vain tietyn ehdon täyttäviä henkilöitä ja muita siirtymään johonkin osoitettuun myöhempään kysymykseen. Aineiston käsittelyn yhteydessä tarkastetaan tällaisten filtteriehtojen täyttyminen. Jos vastauksia löydetään ehtoa täyttämättömiltä, ne luokitellaan puuttuviksi tiedoiksi.

Tietosuojan kannalta ongelmalliset muuttujat

Tietosuojan turvaamiseksi aineistossa mahdollisesti olevat yksittäisiä henkilöitä koskevat tiedot poistetaan. On toivottavaa, että aineiston luovuttaja poistaa tällaiset tiedot (nimet, osoitteet, syntymäajat jne.) jo ennen aineiston luovuttamista tietoarkistoon.

Tietosuojan kannalta ongelmallisia ovat myös vastaajien asuin- tai toimipaikkakuntaa koskevat muuttujat. Toisaalta niihin liittyy riski yksittäisten henkilöiden ja tahojen tunnistamisesta, toisaalta niiden poistaminen heikentää mahdollisuuksia käyttää aineistoa alueperusteisiin vertailuihin etenkin, jos aineistossa ei ole mukana muita aluemuuttujia.

Yleensä paikkakuntamuuttujat poistetaan. Ne on kuitenkin tarvittaessa palautettavissa aineistoon. Paikkakuntaa suurempia alueyksiköitä (maakuntaa, lääniä) koskevat muuttujat säilytetään.

Myös aineiston uudiskäyttäjä on vastuussa tietosuojasta. Saadessaan aineiston hän sitoutuu allekirjoittamansa käyttöehtositoumuksen mukaisesti huolehtimaan niiden henkilöiden ja tahojen tietosuojasta, joita koskevia tietoja aineisto sisältää.

Lopuksi aineisto kuvaillaan ja kuvailu siirretään arkiston tietokantoihin.

Sivun alkuun | Tietosuoja