Aineistojen käsittely tietoarkistossa
Ari Eronen 5.3.2002
Yhteiskuntatieteellinen tietoarkisto saa jatkuvasti monenlaisia
kvantitatiivisia yhteiskuntatieteellisiä tutkimusaineistoja. Teemme ensimmäiseksi aineistoille joitakin tarkistuksia sekä tarvittaessa täydennämme ja korjaamme niitä. Näiden toimenpiteiden jälkeen ne ovat valmiita arkistoitavaksi ja luovutettavaksi uudiskäyttöön.
Aineiston tarkistaminen
Tietoarkisto käsittelee alkuperäisestä datatiedostosta ottamaansa kopiota.
Alkuperäiseen datatiedostoon ei tehdä muutoksia, vaan se arkistoidaan sellaisenaan.
Kopiota käytetään pohjana laadittaessa uudiskäyttöön tarkoitettu arkistoversio. Kopion
tarkistamisen, muutosten ja korjausten tavoitteena on saada arkistoversio vastaamaan
mahdollisimman tarkasti tutkimuksen alkuperäistä tietosisältöä. Tämän selvittämiseen
käytetään kyselylomaketta, alkuperäistä havaintomatriisia sekä muita luovuttajalta saatuja
dokumentteja.
Tarkistamisen perusteella aineistoon tehdään muutoksia, korjauksia ja täydennyksiä.
Muuttujat nimetään uudelleen. Muuttujien nimien ja luokkien selitteet ("labelit")
laaditaan kyselylomakkeen perusteella. Havaitut virheet korjataan. Kaikki tämä tapahtuu
yhtenäisen käytännön mukaisesti.
Muuttujien poistaminen, säilyttäminen ja lisääminen
Data-aineiston käsittelyn tavoitteena on saada aineisto vastaamaan mahdollisimman
tarkasti sen alkuperäistä tietosisältöä. Tähän tavoitteeseen pääsemiseksi voidaan joutua
poistamaan, säilyttämään tai lisäämään muuttujia. Aineistojen tarkistamiseen ja muokkaamiseen
käytettävän SPSS-ohjelman syntaksiin kirjoitetaan kaikki aineistoon tehdyt muutokset.
Jos muuttujaa ei voida tunnistaa, se pudotetaan pois arkistoversiosta. Muuttuja voidaan
poistaa myös tietosuojaan liittyvistä syistä. Aineistossa mukana olevat jälkeenpäin
konstruoidut muuttujat (esimerkiksi yhdistetyt muuttujat ja summamuuttujat) pääsääntöisesti
pudotetaan pois.
Aineiston käyttökelpoisuuden kannalta olennaiset konstruoidut muuttujat, erityisesti
painomuuttujat, säilytetään, jos niitä koskeva luovuttajalta saatu dokumentaatio on riittävän selkeää.
Aineistoon lisätään uusia muuttujia yleensä vain, jos aineiston käytettävyys sitä vaatii.
Filtterimuuttujat
Kyselylomakkeessa on usein kysymyksiä, joihin pyydetään vastaamaan vain tietyn ehdon
täyttäviä henkilöitä ja muita siirtymään johonkin osoitettuun myöhempään kysymykseen.
Aineiston käsittelyn yhteydessä tarkastetaan tällaisten filtteriehtojen täyttyminen. Jos
vastauksia löydetään ehtoa täyttämättömiltä, ne luokitellaan puuttuviksi tiedoiksi.
Tietosuojan kannalta ongelmalliset muuttujat
Tietosuojan turvaamiseksi aineistossa mahdollisesti olevat yksittäisiä henkilöitä koskevat tiedot
poistetaan. On toivottavaa, että aineiston luovuttaja poistaa
tällaiset tiedot (nimet, osoitteet, syntymäajat jne.) jo ennen aineiston luovuttamista tietoarkistoon.
Tietosuojan kannalta ongelmallisia ovat myös vastaajien asuin- tai toimipaikkakuntaa
koskevat muuttujat. Toisaalta niihin liittyy riski yksittäisten henkilöiden ja tahojen
tunnistamisesta, toisaalta niiden poistaminen heikentää mahdollisuuksia käyttää aineistoa
alueperusteisiin vertailuihin etenkin, jos aineistossa ei ole mukana muita aluemuuttujia.
Yleensä paikkakuntamuuttujat poistetaan. Ne on kuitenkin tarvittaessa palautettavissa
aineistoon. Paikkakuntaa suurempia alueyksiköitä (maakuntaa, lääniä) koskevat muuttujat
säilytetään.
Myös aineiston uudiskäyttäjä on vastuussa tietosuojasta. Saadessaan aineiston hän
sitoutuu allekirjoittamansa käyttöehtositoumuksen mukaisesti huolehtimaan niiden
henkilöiden ja tahojen tietosuojasta, joita koskevia tietoja aineisto sisältää.
Lopuksi aineisto kuvaillaan ja kuvailu siirretään arkiston tietokantoihin.
Sivun alkuun | Tietosuoja
|