Uuden havaintoaineiston määritteleminen ja syöttäminen
Ihmisiä ja yhteiskuntaa koskeva tutkimus kerää havaintoaineistoja ja tallentaa niitä sähköiseen muotoon monin eri tavoin. Kvantitatiivisessa tutkimuksessa tiedot pyritään yleensä muuntamaan numeroiksi ja tallentamaan datamatriisiksi. Usein kyselyistä tallennetaan dataan jonkin verran myös tekstimuotoista tietoa, kuten vastauksia avoimiin kysymyksiin. Tavallisesti datamatriisin kukin rivi sisältää tiedot yhdestä havaintoyksiköstä eli kyselyissä vastaajasta. Havaintoyksikköä koskevat tiedot eritellään muuttujina matriisin sarakkeilla siten, että kunkin kysymyksen, alakysymyksen tai kohdan tiedot tallennetaan omaan muuttujaan.
Tämä osio kokoaa survey-aineiston tiedontallennuksen pääperiaatteita ja esittelee lomaketutkimuksella saatujen tietojen tallentamista SPSS-ohjelmistolla. Koska teksti on suunnattu opiskelijoille, asiaa tarkastellaan näkökulmasta, jossa käyttäjä syöttää itse tiedot paperimuotoisesta kyselylomakkeesta numerotiedostoon. Osiota kannattaa käyttää tietokoneelle avatun SPSS-ohjelmiston rinnalla.
Uuden aineiston tallennusprosessi voidaan jakaa muutamaan päävaiheeseen: fyysisen (lomake)aineiston saattaminen tallennuskuntoon, tallennustiedoston määrittely ja kuvailu, tiedontallennus sekä tallennuksen tarkistaminen ja varmuuskopioiden ottaminen. Prosessia käsitellään seuraavassa vaiheittain.
Aineiston saattaminen käyttökuntoon
Palautuneista lomakkeista seulotaan pois täysin tyhjät lomakkeet. Tallennettavat lomakkeet numeroidaan juoksevalla numerolla vastauslomakkeiden ja datamatriisin havaintoyksikköjen linkittämiseksi. Mahdolliset avokysymykset luokitellaan ja tarvittaessa koodataan aineistoon [ks. avokysymysten koodaus]. Ennen tallentamista kannattaa myös tarkistaa vastausten tekninen oikeellisuus; epäselvät merkinnät arvioidaan ja niitä selvennetään mahdollisuuksien mukaan. Mikäli vastaukset eivät ole yksikäsitteisiä tai vastausohjeiden mukaisia, mutta niistä on kuitenkin maalaisjärjellä pääteltävissä jokin perusteltu arvo vastaukselle, päätetään epäselvien kohtien tarkoituksenmukaisesta tallentamisesta (ks. myös puuttuvien tietojen koodaus jäljempänä).
Aineiston käyttökuntoon saattamiseen kuuluu myös keskeisten aineistokeruutietojen dokumentointi erilliseen tekstitiedostoon. Laaditaan siis muistilista keskeisistä aineiston keruuseen liittyneistä yksityiskohdista, esimerkiksi keruuajankohdista sekä lähetettyjen ja palautuneiden lomakkeiden määrästä, jotta tutkimusaineiston raportointi ja arkistointi sujuvat mutkattomasti. Vinkkejä muistilistan sisältöön saa tietoarkiston Aineistonhallinnan käsikirjasta ja aineistokuvauksista.
Tallennustiedoston määrittely ja kuvailu
Tallennettava aineistotiedosto määritellään SPSS-ohjelmistossa eri ikkunassa kuin missä aineisto syötetään. Määrittelyssä ja kuvailussa käytetään ohjelmiston muuttujaikkunaa eli muuttujanäkymää (Variable View) ja tallennuksessa dataikkunaa eli numeronäkymää (Data View).
Tallennustiedosto määritellään ja kuvaillaan muuttujanäkymässä. Yleensä kannattaa aloittaa aineiston identifikaatiomuuttujan teknisen muuttujanimen kirjoittamisella ensimmäisen rivin ensimmäiseen sarakkeeseen (rivi 1, sarake Name). Olkoon se ID ja kirjoitetaan se mainittuun kohtaan. Jos käyttäjä painaa tämän jälkeen oikeaa nuolinäppäintä, hän näkee ohjelmiston oletusarvot muuttujanäkymässä mahdollisesti tallennettaville tiedoille. Yleensä oletusmäärittelyt soveltuvat numeromuuttujille sellaisinaan, jos muuttujan puuttuvat tiedot ovat tavanomaisia. Voi hyvin riittää, että teknisen muuttujanimen lisäksi aineistoon määritellään vain muuttujaa ja sen vastausvaihtoehtoja koskevat tunnukset (Label ja Values). Tällöin siis muuttujalle annetaan tallennustiedostoa määriteltäessä tekninen muuttujanimi sekä kuvailutietoina muuttujaa kuvaileva tunnus (variable label) ja vastausvaihtoehtoja kuvaavat tunnukset (value labels), ja muut muuttujanäkymän sarakkeet säilyvät oletusarvoisina. Tekstimuotoinen muuttuja on määriteltävä merkkimuotoiseksi (string) Type-sarakkeessa.
Tavallisesti kyselylomakkeen yhtä kysymystä vastaa datamatriisissa yksi muuttuja. Poikkeuksia yksi kysymys / yksi muuttuja -sääntöön on tosin runsaasti. Jos kysymysrakenne sisältää pääkysymyksen ja siihen liittyviä alakysymyksiä, kuten asenneväittämistä koostuvan kysymyspatteriston, jokaista alakysymystä eli tässä väittämää kohden koodataan aineistoon oma muuttuja.
Monivastauskysymyksissä vastaajat voivat puolestaan valita tai arvioida useita luetteloon kuuluvia kohtia. Näissä vastaukset tallennetaan joko samaan määrään muuttujia kuin vastaajaa on pyydetty arvioimaan tai valitsemaan, tai sitten jokaisesta valinnan tai arvioinnin kohteena olevasta kohdasta laaditaan tiedostoon oma muuttuja. Esimerkkejä mainituista tavoista löytyy runsaasti Tietoarkistoon tallennettujen aineistojen muuttujakuvauksista (esimerkiksi muuttujat Q21A_1 – Q21A_17 FSD2653 Eduskuntavaalitutkimus 2011 -aineistossa ja muuttujat p19_1 – p19_6 FSD3067 Eduskuntavaalitutkimus 2015 -aineistossa ). Samat vaihtoehtoiset tallennustavat koskevat myös avokysymyksiä.
Kaikissa tapauksissa sekä aineiston muuttujarakenteen että niitä kuvailevien tietojen tulee olla ymmärrettäviä ja riittävän helppokäyttöisiä. Muuttujanäkymän Name-sarakkeeseen tallennettavien teknisten muuttujanimien on syytä olla lyhyitä. Niiden on suotavaa linkittyä selvästi tutkimuslomakkeiden kysymysnumerointiin. Suositeltavia ovat lyhyet kirjain-numero -yhdistelmät tai kirjain-numero-alanumero -yhdistelmät (q1 q2 q3 jne.; q11_1 q11_2 q11_3 jne.). Teknisen muuttujanimen pitää alkaa kirjaimella, eikä nimessä tule käyttää välilyöntejä, erikoismerkkejä tai pisteitä. Tutkijoiden aineistoissa tyypillisimpiä poikkeuksia kirjain-numero -merkintätapaan ovat tutuimmista taustamuuttujista käytettävät lyhenteet, kuten sp, syntv, koul jne. Joillakin aloilla kuvailevia, lyhyitä kirjainyhdistelmiä on tapana käyttää laajemminkin.
Teknisen muuttujanimen lyhyen (kirjain-numero) merkintätavan etuna on, että lyhyt nimi näkyy paremmin sarakkeessa eikä saraketta ole tarvetta leventää muuttujan koko nimen saamiseksi näkyviin. Tilasto-ohjelmistot tarjoavat mahdollisuuden myös muuttujan yksityiskohtaisempaan tekstimuotoiseen kuvailuun. SPSS-ohjelmiston muuttujanäkymässä selitteen voi kirjoittaa muuttujanäkymän Label-sarakkeeseen. Tietoarkiston arkistoimissa aineistoissa muuttujanimien kuvailu on yksityiskohtaista ja jos kuvailu sisältää sekä pää- että alakysymyksen, selite muodostuu usein hyvin pitkäksi. Tutkijan ja opiskelijan työtiedostoissa kuvailu voi olla lyhyempää, kunhan käyttäjä itse pysyy kärryillä muuttujistaan ja kuvailuistaan. Yleensähän ohjelmistojen tuottamat tulostiedostot eivät kuitenkaan tuota automaattisesti julkaisukelpoisia taulukoita ja kuvioita vaan ne on laadittava erikseen.
Kysymysten vastausvaihtoehdot tallennetaan SPSS-ohjelmiston muuttujanäkymän Values-sarakkeen kautta. Ensin hiirellä aktivoidaan ao. kohta, jonka jälkeen taulukkosolun harmaan painikkeen painallus tuo esiin Value Labels -ikkunan. Siinä kullekin muuttujan arvolle (Value) annetaan kuvaileva tunnus (Label), joka siirretään Add-painikkeella Value Labels -ikkunan alimpaan kenttään. Kun kaikki arvot on kuvailtu ja siirretty, hyväksytään koodien selitteet vielä OK-painikkeella.
Muuttujan nimen ja sen arvojen tunnuksia ei ole pakko syöttää joka kerta uudelleen, jos ne ovat samoja tai samankaltaisia muiden muuttujien kanssa. Kopiointi onnistuu aktivoimalla ensin näkymän kohta, johon määrittelyt on jo tehty. Sitten klikataan hiiren oikeanpuoleista painiketta, valitaan kopiointi (Copy), ja sijoitetaan määrittelyt hiiren oikeanpuoleisen painikkeen esiintuomalla sijoituskomennolla (Paste) haluttuihin sarakkeiden soluihin.
Kaikkia aineiston muuttujia ei tarvitse kuvailla varsinkaan muuttujien arvojen osalta. Tällaisia ovat numeroinformaatioltaan itsensä selittävät muuttujat, kuten identifikaatiotunnus, vastaajan ikä tai syntymävuosi ja luokittelemattomina tallennettavat jatkuvat, kvantitatiiviset muuttujat.
Muuttujanäkymän tallennustiedosto laaditaan huolellisesti ja sitä tarkistetaan jo työn kuluessa. Mikäli muuttujalle on tarpeen määritellä jo tallennusvaiheessa jokin ohjelmiston oletusarvosta eli pisteestä poikkeava puuttuva tieto, se voidaan tehdä Missing-sarakkeessa. Kaikista muuttujanäkymän sarakkeista löytyy lisätietoa SPSS-ohjelmiston ohjeista (pudotusvalikon kohta 'Help'). Määrittelyn ja kuvailun edetessä tiedosto tallennetaan määräajoin File - Save -komennolla sopivaan kansioon. Kun tallennuspohja on valmis kaikkien tallennettavien muuttujien osalta, on hyvä vielä kerran tarkistaa kaikki määrittelyt sekä korjata virheet ja puutteet.
Tietojen tallentaminen ja puuttuvien tietojen koodaaminen
Varsinainen tiedon tallennus on verraten yksinkertaista mutta tarkkuutta vaativaa ja suurissa aineistoissa myös puuduttavaa työtä. Aineiston reliabiliteetin kannalta on ensiarvoisen tärkeää, että tiedot tallennetaan huolellisesti. Tiedot tallennetaan numeronäkymässä (Data View), johon siirrytään valitsemalla kyseinen välilehti ohjelmiston ikkunan vasemmassa alakulmassa. Datanäkymän ensimmäisen rivin ensimmäiseen sarakkeeseen tallennetaan ensimmäisen muuttujan arvo, jonka jälkeen siirrytään oikealla nuolinäppäimellä seuraavaan sarakkeeseen (muuttujaan) ja tallennetaan sen arvo, siirrytään taas oikealle jne. Viimeisen muuttujan jälkeen palataan seuraavan rivin alkuun ja tallennetaan seuraavan havaintoyksikön tiedot. Tiedosto tallennetaan File - Save -komennolla aika ajoin. Jatketaan, kunnes kaikki tiedot on tallennettu.
Jos muuttujaan ei voida tallentaa mitään tietoa, tieto jää puuttuvaksi. Tällöin kohtaan ei tallenneta mitään vaan siirrytään nuolinäppäimellä seuraavaan muuttujaan; ohjelmisto merkitsee automaattisesti kohtaan pisteen puuttuvan tiedon merkiksi. Huomattakoon, että nolla ei ole numeroaineistoissa sama asia kuin puuttuva tieto. Nolla tai sitä vastaava "ei kertaakaan" -vastaus täytyy tallentaa nollana aina kun se on sisällöltään oikea vastaus.
Vastaajien itse täyttämien kyselylomakkeiden tallentamisessa tulee lähes aina vastaan tilanteita, joissa kysymyksiin ei ole vastattu teknisesti toivotulla tavalla. Vastausohjeita ei ole luettu tai niitä ei ole noudatettu, tai joskus itse kysymykseenkin on saattanut jäädä jokin epäselvyys. Tällaisissa tapauksissa muuttujaan jää puuttuva tieto tai sitten tallentajan on sovellettava jotakin systemaattista toimintatapaa perustellun tiedon tallentamiseksi.
Tyypillisimpiä pulmia ovat epäselvät tai korjatut merkinnät, liian monta valintaa monivastauskysymyksissä sekä annetun skaalan rajat ylittävät vastaukset. Tilanteita ei ole tässä mahdollista käsitellä yksityiskohtaisesti, mutta joitakin yleisperiaatteita voidaan mainita. Yleensä on tarkoituksenmukaista
- välttää puuttuvan tiedon tallentamista aina kun se on mahdollista
- tallentaa voimakkainta tai suurinta ilmaisua vastaava tieto, silloinkin kun annettu vastaus ylittää annetun vaihtoehto- tai numeroskaalan
- tallentaa tiedot niissäkin tapauksissa, jolloin sitä on annettu ohjeistusta enemmän (esimerkiksi valittu listasta viisi kohta kolmen sijaan); monivastauskysymyksissä on kuitenkin pidettävä huolta siitä, ettei lueteltujen kohtien järjestys vaikuta joidenkin kohtien suosioon; listalla ensiksi mainittuja kohtia ei saa aina tallentaa ensin vaan on käytettävä jotakin satunnaistettua tai muuta tasapainottavaa tallennustapaa.
Harjaantuessaan tallentajat oppivat tunnistamaan lomakkeelle ominaiset ongelmakohdat ja toimimaan niissä erityisen tarkasti. Tallennusvirheiden minimoimiseksi kannattaa jo tallennuksen kuluessa etsiä mahdollisuuksia tallentaa ja tarkistaa tietoja luontevissa jaksoissa. Tämä takaa hyvän tallennusrytmin ja auttaa vähentämään tallennusvirheitä.
Tallennuksen tarkistaminen ja varmuuskopioiden ottaminen
Aineiston määrittelyn, kuvailun ja tallentamisen jälkeen havaintomatriisin sisältämät tiedot on vielä syytä tarkistaa. Pienissä aineistoissa tallennuksen tarkistamisen voi tehdä lomakkeiden kanssa, mutta suurissa aineistoissa on tavanomaista etsiä ja poistaa kohtuutyöllä havaittavat virheet ja puutteet. Niitä ovat selvästi erottuvat lyöntivirheet ja arvot, jotka eivät sijoitu muuttujan vaihteluvälille. Myös ns. filtterimuuttujien tallennuksen oikeellisuutta voidaan testata ristiintaulukoinnein ja ehtolausekkein.
Tavanomaisen kyselyaineiston perustarkistamisen tueksi kaikista aineiston muuttujista ajetaan ns. suorat jakaumat SPSS-komennolla Analyze - Descriptive Statistics - Frequencies. Kunkin muuttujan kohdalla tarkistetaan, että tallennetut arvot ovat valideja (esimerkiksi vastaajan ikä -muuttujassa ei voi olla vaikkapa arvoa 190). Mikäli epävalideja arvoja löytyy, selvitetään korjattavien havaintoyksikköjen identifikaationumerot ja tehdään tarvittavat korjaukset palaamalla lomakkeisiin ja korjaamalla virheelliset tallennukset.
Tarkistetusta ja täysin valmiista aineistosta tulee ottaa riittävästi varmuuskopiota, mielellään erilaisille tallennusvälineille. Varsinaisessa analyysivaiheessa käytetään aineistokopioita siten, että alkuperäinen tiedosto on aina varmasti tallessa muuttumattomana. Samalle varmuuskopiotallenteelle on hyvä sijoittaa tiedostot, jotka kuvailevat lopullisen aineiston sisältöä (kyselylomake), tai joihin on kirjattu aineiston keruuta ja rakennetta sekä sitä koonnutta hanketta koskevat perustiedot. Näin tutkimusaineiston kaikki keskeiset tiedostot ovat vaivatta aineiston kokoajan saatavilla ja aineisto voidaan myöhemmin arkistoida muidenkin tutkimushankkeiden käyttöön.
Tallennusesimerkki kuvitteellisella aineistolla
Tässä esimerkissä määritellään kuvitteelliselle aineistolle muuttujat ja syötetään uusi havaintoaineisto SPSS-ohjelmaan. Aineisto perustuu kysymyslomakkeelle, jonka yliopisto-opiskelijat täyttävät ilmoittautumisen yhteydessä. Lomakkeessa tiedustellaan vastaajan syntymävuotta, sukupuolta, pääainetta sekä asennoitumista opiskeluun.
Avaa SPSS-ohjelma ja aloita muuttujien määritteleminen ja kuvailu muuttujanäkymässä (Variable View). Name-sarakkeen ruutuun kirjoitetaan ensimmäisen muuttujan tekninen muuttujanimi. Olkoon nimi ID, joka kuvaa identifikaatiomuuttujana lomakenumeroa. Klikkaa seuraavaksi Label-sarakkeen ruutua ja kirjoita siihen Lomakenumero. Values-sarake voidaan jättää määrittelemättä, koska muuttujan arvot ovat itsensä selittäviä. Muita määrityksiä ei tarvita. Poiketen laajemmalle kyselylle soveltuvasta kirjain-numero -merkintätavasta (k1, k2, jne.), teknisinä muuttujaniminä käytetään jatkossakin kuvailevia lyhenteitä.
Syntymävuosi määritellään Variable-näkymän toiselle riville vastaavasti kuin lomakenumero. Anna muuttujalle nimeksi syntv ja selitteeksi "Syntymävuosi". Kolmannelle riville kirjataan sukupuolimuuttuja. Anna sille tekninen muuttujanimi sp ja selite "Sukupuoli". Klikkaa seuraavaksi sp-muuttujan Values-ruutua. Klikkaamalla aivan solun oikeaan reunaan määrittelyikkuna avautuu suoraan. Mikäli määrittelyikkuna ei avautunut klikkaa vielä sinistä painiketta. Value Labels -määrittelyikkunassa annetaan arvoille selitteet. Kirjoita Value-kenttään 1 ja Label-kenttään seliteteksti "Mies". Klikkaa sen jälkeen Add-painiketta, jolla määritys vahvistetaan. Tehty määritys tulee näkyviin alimpaan kenttään. Tee vastaava koodille 2 ("Nainen"). Sitten Add ja hyväksy koodien selitteet vielä OK-painikkeella.
Määritellään pääainetta kuvaava muuttuja neljännelle riville. Annetaan Name-sarakkeella nimeksi paine ja selitteeksi Label-sarakkeella "Pääaine". Tämän jälkeen muuttujan arvojen selitteet merkittäisiin Values-sarakkeella edellä mainitulla tavalla. Kaikkien pääaineiden määrittelyn jälkeen painetaan OK-painiketta ja siirrytään seuraavaan muuttujaan.
Oletetaan, että asennoitumista opiskeluun on arvioitu kolmella väittämällä:
- Opiskelen, koska ei ole muutakaan vaihtoehtoa
- Olen erittäin kiinnostunut opiskelemistani aineista
- Pyrin opiskelemaan mahdollisimman hyvin arvosanoin
Näihin väittämiin vastaaja on voinut valita vastauksen seuraavalta asteikolta:
1 = Täysin samaa mieltä
2 = Jokseenkin samaa mieltä
3 = Jokseenkin eri mieltä
4 = Täysin eri mieltä
Muutetaan nyt hieman määrittelyjen etenemistapaa, eikä tehdä koko riviä kerralla valmiiksi. Kirjoitetaan viidenneltä riviltä alkaen ensin kunkin kolmen muuttujan nimet Name-ruutuun ja selitteet Label-ruutuun. Name- ja Label-sarakkeisiin merkittäisiin
k1_1 | Opiskelen, koska ei ole muuta vaihtoehtoa
k1_2 | Olen erittäin kiinnostunut opiskelemistani aineista
k1_3 | Pyrin opiskelemaan mahdollisimman hyvin arvosanoin
Avataan sitten k1_1-muuttujan Value Labels -taulu sekä kirjoitetaan ja lopuksi hyväksytään koodien selitteet. Seuraavaksi kopioidaan samat määritykset toisiin asennemuuttujiin (k1_2 ja k1_3). Paina hiiren oikeanpuoleista painiketta k1_1-muuttujan Values-ruudun kohdalla, jolloin saat ponnahdusikkunassa kopiointikomennon näkyviin. Klikkaa Copy.
Siirry k1_2-muuttujan vastaavaan ruutuun ja valitse nyt hiiren oikean painikkeen toiminnolla Paste. Jatka edelleen k1_3-muuttujan vastaavaan ruutuun ja siirrä määritykset Paste-toiminnolla myös siihen. Suuremmalle alueelle määritykset voi kopioida valitsemalla hiirellä ensin kaikki halutut ruudut Values-sarakkeesta ja käyttämällä sitten Paste-komentoa.
Kun kaikki määrittelyt ovat valmiit ja ne on tarkistettu ja mahdollisesti korjattu, siirrytään aineiston tallentamiseen numeronäkymässä. Klikkaa kuvaruudun vasemmassa alakulmassa olevaa Data View -välilehteä, joka avaa tyhjän havaintomatriisin. Sille tallennetaan lomakkeiden tiedot oppaassa mainittujen ohjeiden ja periaatteiden mukaan.
Aineisto tallennetaan määräajoin tallennuksen kuluessa. Lopuksi aineisto tarkistetaan ja siitä otetaan tarvittavat varmuuskopiot.