Kvantitatiivisen datatiedoston käsittely
Kvantitatiivisen tutkimusaineiston datatiedosto on tyypillisesti havaintomatriisi, joka koostuu riveistä ja sarakkeista. Havaintomatriisissa yksi rivi vastaa yhtä havaintoyksikköä ja yksi sarake yhtä muuttujaa. Datan analysointiin tarvitaan tilasto-ohjelmisto ja vähintään perustiedot tilastotieteestä ja kvantitatiivisista menetelmistä. (Lisätietoja, ks. esim. Holopainen, Martti & Pulkkinen, Pekka (2012). Tilastolliset menetelmät.)
Yhteiskuntatieteissä empiiriset kvantitatiiviset aineistot kerätään yleensä erilaisina kyselyinä, esimerkiksi posti-, puhelin-, käynti- tai internet-kyselyllä. Tällöin havaintoyksikkönä (tilastoyksikkönä) on useimmiten henkilö, ja havaintomatriisin muuttujat edustavat näiden henkilöiden antamia kyselyvastauksia. Havaintomatriiseja kutsutaan joskus myös mikrodataksi tai numeeriseksi dataksi.
Esimerkki SPSS-ohjelmiston data- ja muuttujanäkymistä
Havaintomatriisin tallennus
Keruutapa ja keruuinstrumentti vaikuttavat siihen, miten aineisto tallennetaan sähköiseen muotoon eli "syötetään koneelle". Internet-kyselyissä vastaukset tallentuvat suoraan ja tietokoneavusteisessa käynti- tai puhelinkyselyssä kukin haastattelija tallentaa vastaukset kyselyn kuluessa. Postikyselylomakkeilta tiedot voidaan lukea optisesti tai syöttää käsin. Kaikissa tallennustavoissa aineistoon syntyy todennäköisesti virheitä. Tutkimusaineiston laatua voi varmistaa seuraavilla toimenpiteillä:
- tarkasta ja korjaa vaihteluvälien ulkopuoliset arvot
- valitse tietojen tallentamisen jälkeen satunnaisesti joitakin lomakkeita ja tarkista, että niistä syötetyt tiedot ovat matriisissa oikein
- tarkasta havaintorivien pituudet ja muuttujien lukumäärä
- älä luokittele muuttujia uudelleen aineiston syöttämisen yhteydessä, näin alkuperäinen tieto säilyy tallessa
- kun havaintoaineisto on syötetty, tee siitä välittömästi sekä varmuuskopio että erillinen työkopio
- muuttujia uudelleen luokiteltaessa käytä tilastollisen aineiston käsittelyyn soveltuvaa tietokoneohjelmistoa ja, mikäli mahdollista, tee luokitukset käyttämällä tilasto-ohjelman syntaksia
- määrittele puuttuvat tiedot ja päätä, miten 'ei osaa sanoa' -vastauksia käsitellään
- tarkasta muuttuja- ja luokkafrekvenssien oikeellisuus
- dokumentoi kaikki aineistoon tehtävät muokkaukset, kuten anonymisointitoimenpiteet, luokitukset, uudet muuttujat ja duplikaattien poistot esimerkiksi syntaksiin
Muuttujien nimet ja selitteet
Nimeä muuttujat yhdenmukaisesti. Suosi lyhyitä nimiä, jotka vastaavat tutkimusaineiston keräämisessä käytetyn instrumentin numerointia. Esimerkkejä:
- Tutkimuskysymyksiin liittyvät muuttujat: Hyvä nimi muuttujalle, johon tallennetaan kyselylomakkeen ensimmäisen kysymyksen vastaukset, on q1. Jos yhdessä kysymyksessä on useita alakysymyksiä (esimerkiksi ns. kysymyspatterit) voi käyttää muuttujanimille muotoa q2_1, q2_2, q2_3, ...
- Taustakysymyksiin liittyvät muuttujat: Usein kyselylomakkeissa on varsinaisten tutkimuskysymysten lisäksi vastaajan taustaa kartoittavia kysymyksiä, joille ei ole annettu kysymysnumerointia. Taustamuuttujat tulee nimetä johdonmukaisesti, esimerkiksi bv1, bv2, bv3, ...
- Muut muuttujat: Aineisto voi sisältää tietoa, joka ei liity suoraan keruuinstrumenttiin, esimerkiksi havaintonumero, vastauspäivämäärä ja vastaamiseen käytetty aika. Verkkolomakkeilla kerätyt aineistot sisältävät usein myös teknistä informaatiota, esimerkiksi käytetty selainohjelmisto, vastausaika ja vastaajan ip-osoite. Näihin liittyvät muuttujat tulee myös nimetä johdonmukaisesti, esimerkiksi t1, t2, ... . Jos muuttujien lukumäärä on vähäinen, voi käyttää myös kuvaavia nimiä, esimerkiksi id, pvm, aika, ip, selain, ...
Jos tutkimusaineisto koostetaan useista eri lähteistä tai osa-aineistoista, kannattaa muuttujat nimetä niin, että nimistä näkee suoraan mistä osa-aineistosta ko. muuttujat ovat lähtöisin. Eri osa-aineistot voi nimetä esimerkiksi kirjaimin a, b, c, jne., jolloin muuttujien nimiä voisivat olla esimerkiksi a1, a2_1, a2_2, b1_1 tai a_q1, a_q2_1, b_q1_1 jne.
Vältä pitkiä muuttujanimiä, vaikka jotkut tilasto-ohjelmat niitä sallivatkin, sillä ne voivat aiheuttaa ongelmia tiedostomuotoa muutettaessa. Vältä myös muuttujien nimeämistä niiden sisällön mukaan, sillä se tarkoittaa käytännössä erilaisten lyhenteiden käyttöä. Lyhenteiden merkitys saattaa olla monitulkintainen, jolloin muuttujan yhteys keruuinstrumenttiin on vaarassa kadota. Myös ääkkösten ja erikoismerkkien käyttöä muuttujanimissä kannattaa välttää.
Muuttujan selite tarkoittaa muuttujan sisällön kuvausta. Jos tilaa on, kannattaa tähän yleensä kirjoittaa koko kysymysteksti. Eri tilasto-ohjelmat ja aineistoformaatit rajoittavat muuttujan selitteen pituutta. Jos selitettä joudutaan lyhentämään, tulee selitteestä käydä ilmi muuttujan olennainen sisältö. Suositeltavinta on lyhentää johdattelevia esitekstejä tai sisällön kannalta merkityksettömämpiä sisältöjä. Lyhennetty selite on syytä kirjoittaa käyttäen alkuperäisen kysymyksen sanoja ja termejä. Kysymyksen ja vastausvaihtoehtojen tulee vastata toisiaan, eli arvojen selitteiden tulee 'vastata' siihen kysymykseen, joka muuttujan selitteessä on esitetty. Aineistosta tehdyn taulukon pitäisi itsessään muodostaa eheä kokonaisuus, eli siinä esitetyn asian pitäisi käydä selville taulukkoa tarkastelemalla. Jatkuvissa muuttujissa muuttujan selitteestä tulee käydä ilmi, missä mittayksikössä numeerinen arvo on annettu, esimerkiksi onko se tuntia, euroa, metriä, kertaa päivässä tms.
Muuttujan arvot ja niiden selitteet
Muuttujan saamat arvot kannattaa koodata vastaamaan keruuinstrumentin, kuten esimerkiksi kyselylomakkeen vastausvaihtoehtojen numerointia ja järjestystä, esimerkiksi
Täysin eri mieltä | 1 |
Jokseenkin eri mieltä | 2 |
Ei samaa eikä eri mieltä | 3 |
Jokseenkin samaa mieltä | 4 |
Täysin samaa mieltä | 5 |
Muuttujien arvojen selitteet tulisi muotoilla tilasto-ohjelmistossa samoin kuin tutkimusinstrumentissa. Selitteen pituus riippuu ohjelmistosta ja tiedostoformaatista. Usein selitteen pituutta on rajoitettu. Jos selitettä joudutaan lyhentämään, se kirjoitetaan käyttäen hyväksi keruuinstrumentin sanoja ja termejä siten, että selitteen olennainen sisältö säilyy.
Lisätietoa mittaamisesta ja muuttujien ominaisuuksista
Muuttujien muunnokset
Analyysissa tarvitsee usein luokitella muuttujia uudestaan tai muodostaa niiden pohjalta kokonaan uusia muuttujia. Esimerkiksi kyselylomakkeessa kysytään usein syntymävuotta, mutta tulokset raportoidaan ikäryhmittäin. Kaikki tällaiset muuttujien muunnokset tulee dokumentoida hyvin.
Lisätietoa muuttujien muunnoksista
Puuttuva tieto
Lähes kaikissa aineistoissa on havaintoyksikköjä, joista ei ole saatu kaikkien muuttujien arvoja eli vastaaja ei ole vastannut jokaiseen kysymykseen. Jos tällaiset puuttuvia tietoja sisältävät havaintoyksiköt poistetaan analyysista, pienenee havaintoyksikköjen määrä ja saatujen tulosten tarkkuus voi kärsiä. Puuttuvat tiedot saattavat vääristää analyysin tuloksia merkittävästikin, jos ne eivät ole jakautuneet satunnaisesti havaintoyksikköjen kesken. Puuttuvien havaintojen käsittelyyn kannattaakin perehtyä ennen varsinaisen analyysin aloittamista.
Puuttuvien havaintojen koodi valitaan niin, että se eroaa selkeästi muuttujan saamista 'oikeista' arvoista. Usein puuttuvan havainnon koodina käytetään arvoja 9, 99 tai 999. Myös negatiivisia arvoja tai nollaa käytetään usein, mutta tällöin '0' ei saa olla sisällöllisesti hyväksyttävä tieto. Puuttuvan tiedon käsittelyssä voi myös hyödyntää aineiston käsittelyssä käytettävän ohjelmiston puuttuvan tiedon määrittelyjä. Kyselytutkimuksissa vaihtoehdot 'en osaa sanoa', 'en halua sanoa' tai 'en tiedä' eivät lähtökohtaisesti ole puuttuvaa tietoa, vaan tutkimusongelman kannalta mielenkiintoista tietoa.
Lisätietoa puuttuvan tiedon käsittelystä ja koodaamisesta
Painomuuttujat
Jos aineistossa on systemaattisia vinoutumia, havaintoja voi olla tarkoituksenmukaista painottaa. Painomuuttujien avulla voidaan tasapainottaa otannan myötä tapahtuneita vääristymiä esimerkiksi vastaajien ikä-, sukupuoli- tai alueellisissa jakaumissa. Painomuuttujien laskentakaavat ja painotusmenetelmät tulee dokumentoida hyvin, jotta myös aineiston jatkokäyttäjillä on selkeä käsitys tutkimusprosessin yhteydessä luotujen muuttujien taustoista.
Lisätietoa kyselyaineiston havaintojen painottamisesta
Syntaksin käyttö
Useimmissa aineistonkäsittelyyn tarkoitetuissa tilasto-ohjelmissa on mahdollisuus työstää aineistoa ja tehdä analyysejä komentokielen eli syntaksin avulla. Usein ohjelmien tehokkaimmat ominaisuudet saadaan käyttöön vain syntaksikomentojen avulla, vaikka perusanalyysit onnistuvatkin valikoiden kautta. Syntaksilla annetut komennot voi tallentaa erilliseen tiedostoon (syntaksitiedostoon).
Aineiston muokkaus kannattaa aina tehdä syntaksilla eikä valikoiden kautta. Syntaksista nähdään, mitä muutoksia aineistoon on tehty, ja miten. Tällöin aineiston laadun valvonta, mahdollisten virheiden etsintä sekä korjausten ja muutosten teko on helpointa. Syntaksi nopeuttaa myös usein käytettävien komentojen suorittamista. Lisäksi monissa ohjelmistoissa on rajapinta yhteen tai useampaan ohjelmointikieleen, joilla käyttäjä voi luoda omia uusia toimintoja tai analyysejä.
Syntaksitiedostoa pitää kommentoida eli kirjoittaa komentojen yhteyteen kommenttiriveille, miksi jokin komento suoritetaan, esimerkiksi miksi muuttuja luokitellaan uudelleen.
Lisätietoa SPSS-ohjelmiston syntaksieditorin käytöstä
Tiedostojen nimeäminen ja hallinta
Hakemistot ja tiedostot nimetään yksiselitteisesti ja loogisesti. Tiedostojen perustiedot tallennetaan kuvailutietojen yhteyteen. Nykyohjelmat mahdollistavat pitkätkin tiedostonimet, joten nimeen kannattaa sisällyttää ainakin projektin lyhenne, vuosi, tiedoston luonne ja tiedoston versio. Esimerkiksi vuonna 2017 kerätty European Values Survey -kyselyaineiston alkuperäinen SPSS-tiedosto voisi olla nimeltään evs2017_data_alkup.por ja aineistonkeruussa käytetty kyselylomake puolestaan evs2017_kyselylomake_suomi.odt. Jos aineistolle on annettu yksilöivä tunniste, se kannattaa sisällyttää kaikkiin aineistoon liittyvien tiedostojen nimiin.
Esimerkki : Aineiston FSD2248 ISSP 2006: valtion tehtävät IV: Suomen aineisto tiedostoja Yhteiskuntatieteellisessä tietoarkistossa:
Directory of X:\Data\FSD2248 | cbF2248.pdf | meF2248.xml | mef2248e.xml | quF2248_fin.pdf | quF2248_sve.pdf | vaf2248.xml | +---Data | daF2248.csv | daF2248.por | labF2248.html | syF2248.SPS | \---Original ISSP06_FSDdata.sas7bdat ISSP06_FSDdata.sav ISSP06_jakaumat.xls ISSP06_labfor.sas ISSP06_muuttujalistaus.lst ISSP06_questionnaire_fin.pdf ISSP06_questionnaire_swe.pdf ISSP06_study_description.doc ISSP_vastaus%_2002-06.xls
Tässä esimerkissä aineistolle on luotu oma hakemisto, jonka nimi on FSD2248 ja joka perustuu aineiston yksilöivään identifikaatiotunnukseen. Tiedostonimen kaksi ensimmäistä merkkiä kertovat, mistä aineiston osasta on kysymys:
- cb = koodikirja
- da = datatiedosto
- sy = syntaksitiedosto
- lab = selitetiedosto
- me = kuvailutiedosto
- qu = kyselylomake
- va = muuttujien kuvaus
Fnnnn on aineiston id-tunnus ja tiedoston nimen lopussa on tietoa tiedoston kielestä. Data-kansio sisältää saman datan kahdessa eri tiedostomuodossa (.csv ja .por), jotta eri tilasto-ohjelmien hyödyntäminen on helpompaa. Html-tiedosto sisältää csv-datatiedostoon kuuluvat selitteet. Original-hakemistossa ovat alkuperäiset tiedostot sellaisina, kuin tutkimushanke on ne Tietoarkistolle toimittanut. Kun aineiston käsittely Tietoarkistossa on päättynyt, original-kansio sisältöineen poistetaan.