Posti- ja verkkokyselyaineiston kokoaminen

Lukuaika noin 15 min

Satunnaisesti valittuihin vastaajaotoksiin perustuvia joukkohaastattelututkimuksia on tehty yli sadan vuoden ajan. Tällaisten tutkimusten suosio kasvoi merkittävästi 1900-luvun puolivälin jälkeen. Tähän vaikutti tietokoneiden keksiminen ja käyttöönotto mm. markkinatutkimusten ja myös yhteiskunta- ja käyttäytymistieteiden apuvälineenä.

Joukkohaastattelututkimukset ovat alusta saakka enimmäkseen perustuneet malliin, jossa otokseen kuuluvat henkilöt vastaavat kohtuullisen haastatteluajan puitteissa valmiiksi laadittuihin kysymyksiin niiden vastausvaihtoehtojen pohjalta. Rakenteensa vuoksi niiden tiedonkeruutapaa voidaan kutsua strukturoiduksi. Englannin kieltä mukaillen alan tutkimusta on nimitetty suomeksi 'survey-tutkimukseksi', jonka käypiä vastineita ovat ainakin kysely- tai lomaketutkimus. Nämä termit ovat suositeltavia myös siksi, että sosiaalitutkimuksessa 'haastattelu'-termi yhdistetään nykyisin vahvasti laadullisiin tutkimusmenetelmiin.

Yhteiskunta- ja käyttäytymistieteellisessä tutkimuksessa toteutetaan strukturoituja kyselyjä monin eri tekniikoin. Niistä yleisimpiä ovat käynti-, puhelin-, posti- ja Internet-kyselyt. Usein tekniikoita myös yhdistellään vastaajien ajan ja tiedonkeruun kustannusten säästämiseksi. Yksi metodologisesti tärkeä ero koskee sitä, vastataanko kysymyksiin konkreettisessa haastattelijan ja haastateltavan välisessä vuorovaikutustilanteessa (käyntikyselyt, muut "face-to-face" -kyselyt ja esimerkiksi puhelinkyselyt) vai antaako vastaaja kyselyvastauksensa omatoimisesti (self completion).

Tiedonkeruutekniikka vaikuttaa paljon siihen, millaisia kysymyksiä kyselyssä voidaan esittää ja millaiset tekijät vaikuttavat vastauksiin ja tutkimustulosten luotettavuuteen. Haastattelijan ja haastateltavan vuorovaikutuksesta on etua tietopohjaisia kysymyksiä esitettäessä mutta kontakti saattaa vääristää esimerkiksi arkaluonteisiin kysymyksiin annettuja vastauksia. Tällaisia voivat olla alkoholin käyttöön, terveystietoihin tai seksuaaliseen käyttäytymiseen liittyvät aiheet. Käynti- ja puhelinkyselyjä kustannuksiltaan edullisemmissa posti- ja Internet-kyselyissä epävarmuustekijät liittyvät muun muassa siihen, että haastattelija ei ole avustamassa ja valvomassa vastaamista. Joihinkin kysymyksiin ei tällöin ehkä osata vastata teknisesti oikealla tavalla, niihin voidaan jättää vastaamatta kokonaan tai saatetaan valita herkästi 'en osaa sanoa' -vaihtoehto. Aina vastaajana ei myöskään täysin varmasti ole tarkoitettu henkilö.

Menetelmäopetuksen tietovarannossa ei toistaiseksi tarkastella vertailevasti erilaisille tiedonkeruutekniikoille ominaisia ratkaisuja kysymysten ja vastausvaihtoehtojen laadinnassa. Koska tietovaranto on suunnattu erityisesti opiskelijoille, on tarkoituksenmukaista keskittyä edullisimpiin ja tekniseltä toteutukseltaan yksinkertaisimpiin tiedonkeruutapoihin. Tästä syystä tietovaranto keskittyy kyselyjen toteuttamista ja lomakesuunnittelua koskevissa osuuksissa ja niiden esimerkeissä lähinnä Internet- ja postikyselyihin. Niitä koskeva ohjeistus on kuitenkin sovellettavissa varsin yleisesti muihinkin kyselyjen toteuttamistekniikoihin.

Tutkimusongelmien hahmottaminen ja esitutkimus Ankkurilinkki ikoni

Kuten mikä tahansa tieteellinen tutkimus, kyselytutkimus alkaa aikaisempaan tutkimukseen perehtymisellä. Alaan liittyvien julkaisujen ohella kannattaa perehtyä tutkimuksissa käytettyihin aineistoihin niiltä osin kuin tietoa on saatavissa. Tietoarkiston aineistoluettelossa on satoja arkistoitujen data-aineistojen kyselylomakkeita.

Aiheeseen perehtyminen auttaa hahmottamaan ja kehittämään tutkimuksen ongelmanasettelua sekä asetettavien kysymysten ratkaisun edellyttämiä operationalisointeja. Mikäli tutkimuksen pääkysymyksiin vastaaminen edellyttää uuden kyselyaineiston keräämistä, on määritettävä aineiston perusjoukko, havaintoyksikkö ja mahdolliset otokseen tai näytteeseen liittyvät yksityiskohdat. Edelleen on eriteltävä tutkimusongelmiin liittyviä selitettäviä ja selittäviä tekijöitä siten, että ne voidaan ottaa kattavasti huomioon tutkimuslomakkeen varsinaisten sisältökysymysten ja vastaajien taustatietoja koskevien muuttujien laatimisessa. Etenkin uusien tutkimuskysymysten kohdalla tämä saattaa vaatia pitkäaikaistakin esitutkimusta aikaisempaan sivuavaan tutkimukseen perehtymisen ohella. Jo tutkimuksen alussa kannattaa pohtia myös oman tutkimusaineiston hallintaa sen elinkaaren eri vaiheissa.

Esitutkimuksen voi toteuttaa monin eri tavoin. Yleensä on suositeltavaa kerätä jonkinlainen esiaineisto testaamalla ideoita kyselylomaketta varten. Tällöin on usein paikallaan esittää myös avoimia kysymyksiä niistä aihealueista, joita tutkimuksen on määrä koskea. Luokittelemalla esitutkimuksesta saatuja vastauksia tutkimuksen tekijä voi arvioida erilaisten kysymysrakenteiden mahdollisuuksia ja vastausvaihtoehtojen alaa (ks. avointen kysymysten koodaus alla.) Esitutkimusvaiheessa saatu palaute voi myös nostaa havaittujen virheiden lisäksi esiin joitakin tutkijalta unohtuneita tärkeitä kysymyksiä ja aihealueita.

Kyselylomakkeen laatiminen ja viimeistely Ankkurilinkki ikoni

Riittävän aihepiiriin perehtymisen jälkeen alkaa kyselylomakkeen luonnostelu versio version jälkeen. Tarvetta suunnittelun huolellisuuteen ja kiireettömyyteen ei voi ylikorostaa: kyselytutkimuksissa lomakkeen suunnittelu on korvaamattomin osa koko tutkimusprosessia. On aivan tavanomaista, että asiantuntijoidenkin suunnittelemaa lomaketta joudutaan vielä "viilaamaan". Tämän vuoksi kyselylomakkeen suunnittelua käsitellään laajasti erillisenä kokonaisuutenaan.

Lomakkeen eri versioita on hyvä antaa luettavaksi tutkimuksen ohjaajille tai muille alaa tunteville henkilöille. Lisäksi lopulliseksi arvioitu lomake kannattaa täyttää itse ja antaa se vielä pienen koevastaajajoukon vastattavaksi, ja tehdä tarpeen vaatimat viimeiset muutokset ja täydennykset.

Saatteiden laatiminen ja vastausprosentti Ankkurilinkki ikoni

Kyselytutkimuksiin liittyvien saatekirjeiden laatiminen voi pikaisesti ajatellen tuntua välttämättömältä pahalta silloin kun kysymyslomake on vihdoin saatu valmiiksi ja on yleensä kiire lähettää se "kentälle". Erilliselle paperille, kyselylomakkeeseen tai verkkolomakkeen alkuun liitetty saate on kuitenkin suunnattoman tärkeä dokumentti tutkimuksen onnistumisen ja myös aineiston mahdollisen uudiskäytön kannalta.

Jäljempänä esitettävien saatteiden laatimisen muistilistojen huomioon ottaminen vaikuttaa suoraan kyselyjen vastausprosentteihin. Monet kohdat liittyvät vastaajien motivointiin, mutta joukossa on myös lainsäädännön kannalta tärkeitä näkökohtia. Tietojen kerääjä on nimittäin velvollinen selittämään tutkimuksen kohteelle syyt tietojen keräämiseen. Lisäksi hänen on selvitettävä kokoamiensa tietojen käyttötarkoitus.

Tieteellinen kyselytutkimus tuleekin toteuttaa aineiston suunnittelusta tulosten raportointiin ja aineiston säilyttämiseen saakka tutkimuseettisesti kestävällä tavalla. Tämä edellyttää

  • täsmällisesti muotoiltua ja tutkimuseettisesti hyväksyttävää tutkimus- ja aineistonkäyttöstrategiaa (tietojen ja aineiston käyttötarkoitus),
  • kustannustehokkuutta (kerätään järkevästi vain tarvittavat tiedot mahdollisimman tehokkaasti ja pienin kustannuksin) sekä
  • tietojen luovuttajien riittävää informointia ja motivointia, jotta suuren henkilömäärän oikeudet turvataan eikä vastaajia vaivata turhaan.

Tärkeiden periaatteiden soveltaminen käytäntöön ei suinkaan ole aina helppoa. Kyselyn huolellisesta suunnittelusta huolimatta suuri osa otoksiin kuuluvista henkilöistä ei syystä tai toisesta halua tai ehdi osallistua tutkimuksiin.

Posti- ja Internet-kyselyissä joudutaan normaalisti lähettämään myös vastausmuistutuksia ja/tai ns. "karhulomakkeet" otokseen kuuluville henkilöille, koska ensimmäiseen kyselykierrokseen vastanneiden määrä ei tavallisesti kohoa tarpeeksi suureksi. Kohtuullinen tai tyydyttävä vastausprosentti riippuu paljolti vastaajajoukosta ja kyselyn aihepiiristä. Näin ollen ei ole mahdollista määrittää yleispätevästi riittävää kyselyn vastausprosenttia. Valtakunnallisissa aikuisväestön otoksiin perustuvissa postikyselyissä joudutaan nykyisin tyytymään jo alle 50 prosentin vastausprosentteihin.

Saatekirjeiden sisältöön, ulkoasuun ja kieleen kannattaa siis kiinnittää erityistä huomiota. Saatteen tulee herättää luottamusta ja vastausmotivaatiota, eikä se saa olla liian pitkä. Lisäksi sen pitää selvittää ainakin seuraavat asiat:

Ensimmäisen kyselykierroksen saate:

  1. mikä kysely/tutkimus
  2. kuka tekee tutkimuksen, kuka teettää (jos teettäjä), keihin kysely kohdistuu (ei välttämättä kannata mainita, kuinka moneen henkilöön kohdistuu)
  3. tutkimuksen tarpeellisuuden perustelu
  4. maininta tutkimustulosten ja -aineiston käytöstä sekä vastaajien anonymiteetin säilymisestä
  5. jokaisen vastaajan vastausten tarpeellisuus tutkimuksen onnistumiseksi
  6. milloin lomake on viimeistään palautettava takaisin (ei 1-2 viikkoa pidempää vastausaikaa lomakkeen saamisesta, ellei erityisen painavaa syytä)
  7. etukäteiskiitokset vastauksista/yhteistyöstä
  8. tekijän ja teettäjän edustajan nimet ja allekirjoitukset (opinnäytteissä käytetään teettäjän edustajana usein työn ohjaajan nimeä)

Esimerkki ensimmäisen kyselykierroksen saatteesta PDF (Aineiston kuvaus: FSD3331 ISSP 2018: uskonto IV: Suomen aineisto).

Lisäesimerkki käyntikyselyn etukäteen lähetetystä saatteesta ja tutkimusesitteestä PDF (Aineiston kuvaus: FSD3282 Juomatapatutkimus 2016).

Muistutuskierroksen saate:

  1. mikä ja kenen tutkimus, milloin edellinen lähetys lähetettiin
  2. miksi lähetetään muistutuskortti vastaamattomille tai kokonainen muistutuskierros uusine lomakkeineen: (aina ei ole tiedossa, ketkä ovat vastanneet ja ketkä eivät)
  3. hyvin näkyvä maininta siitä, että kyselyyn jo vastanneiden ei tarvitse enää vastata uudelleen
  4. vetoomus vastaamisen ja kyselyn onnistumisen puolesta
  5. vastausten viimeinen palautuspäivämäärä väljästi määriteltynä (esim. viikon kuluessa)
  6. mahdollisesti uudestaan tekijöiden ja teettäjien nimet ja allekirjoitukset; lisäksi mahdollisia uusia suosituksia ja suosittelijoita

Esimerkki muistutuskierroksen saatteesta PDF (Aineiston kuvaus: FSD3083 Vapaa-ajan asuminen Suomessa: väestökysely 2012).

Muistutuskierros tulee toteuttaa mahdollisimman pian ensimmäisen vastauskierroksen vastausajan umpeuduttua. Joissakin tapauksissa karhukierroksia toteutetaan useampia kuin yksi, mutta jos muistutukset lähetetään lomakkeineen kaikille, kustannus-/hyötysuhde voi jäädä pieneksi.

Todettakoon lisäksi, että joissakin kyselyissä vastaajien tunnistamattomuutta ei ole tarpeen suojella niin voimakkaasti, että ensimmäisen kyselykierroksen jälkeen ei tiedetä kuka on jo vastannut kyselyyn. Näin voi olla tapauksissa, joissa kerättävät tiedot eivät ole mitenkään arkaluonteisia, tietojen kerääjä ja luovuttajat tuntevat toisensa, vastaaminen on esim. sopimuksiin perustuvaa "virkatyötä", vastaajat toimivat julkisissa tehtävissä jne. Mikäli tieto jo vastanneista on käytössä, se tietenkin säästää työtä ja muistutuskierroksen kustannuksia, kun jo vastanneille ei tarvitse lähettää uudestaan vastausmateriaalia.

Tutkittavien informointia käsitellään tarkemmin aineistonhallinnan käsikirjassa.

Kyselyn lähettäminen ja karhuaminen Ankkurilinkki ikoni

Lopullisen lomakkeen ja saatteen valmistuttua alkaa lähetysvaihe. Verkkolomakkeen lähettäminen vastaajille on helppoa ja edullista. Sen kohdalla on kuitenkin pohdittava toimitustapaa. Rajatulle otokselle on yleensä järkevintä toimittaa yksilölliset vastauslinkit kyselyyn sähköpostitse, jotta kaikki otokseen valitut tavoitetaan. Jos kyselyn vastaajia ei ole rajattu ja kerätään pikemminkin harkinnanvarainen näyte kuin otos, lomake voi olla vapaasti täytettävissä verkkosivulla. Tällöin voi kuitenkin olla vaikea kontrolloida, kuka kyselyyn vastaa ja että jokainen kävijä vastaa vain kerran. Verkkokyselyn kohdalla kannattaa myös huomioida kyselyn kohdejoukko, sillä verkkokysely voi helposti vinouttaa vastajajoukkoa suosimalla Internetiä enemmän käyttäviä.

Vähänkään suuremmissa, ainakin tuhansien vastaajien, postikyselyissä lomakkeen monistamiseen kannattaa käyttää kirjapainopalveluja. Muistutuskierrokseen varautumisen vuoksi lomakkeita, lähetyskirjekuoria ja palautuskirjekuoria painetaan tavallisesti, edellä mainittuja esimerkkejä lukuun ottamatta, ainakin kaksi kertaa niin paljon kuin otokseen kuuluu vastaajia. Ensimmäisellä keruukierroksella mahdollisesti tarvittavaa erillistä saatetta painetaan yhteen keruukertaan riittävä määrä, sillä karhu- eli muistutuskierrokselle on tehtävä oma saate, muistutuskortti tai vastaava. Kirjekuorien osalta kannattaa ottaa selvää postin lähettämistä ja palauttamista helpottavista painatus- ja lähetysmahdollisuuksista välittömien tutkimuskustannusten ja tutkijan työajan minimoimiseksi. Vastaajille on annettava mahdollisuus vastauslomakkeen maksuttomaan palauttamiseen lähetyskirjeeseen liitettävällä kirjekuorella.

Vastauspalkkioiden, kuten arvontojen, käyttöön yhteiskuntatieteellisissä tutkimuksissa on suhtauduttu varauksella, koska ne saattavat vinouttaa otoksen rakennetta. Toisaalta kannustin voi joskus auttaa saamaan vastauksia esimerkiksi vaikeasti tavoitettavalta kohderyhmältä.

Aineiston saattaminen käyttökuntoon Ankkurilinkki ikoni

Yleistä lomakkeiden koodauksesta

Useimmat verkkokyselytyökalut ja -alustat mahdollistavat kyselyvastausten viemisen suoraan taulukkolaskenta- tai tilasto-ohjelmaan, jolloin tutkijan tarvitsee käyttää vain vähän, jos lainkaan, aikaa vastausten koodaamiseen. Niin Internet- kuin postikyselyn kohdalla on kuitenkin syytä käydä lomakkeiden palautuksen ja karhuamisen jälkeen palautetut lomakkeet läpi ja poistaa joukosta kokonaan tyhjät tai liian puutteellisesti täytetyt lomakkeet. Tässä vaiheessa on syytä pitää kirjaa hyväksymisen ja hylkäämisen kriteereistä ja määristä, koska niitä koskevia tietoja tarvitaan tutkimuksen raportoinnissa käsiteltäessä otoksen rakennetta ja kato-ongelmia.

Aineiston ulkopuolelle jättämisen kriteereitä on mahdotonta määritellä yleispätevästi, koska jo muutamiin kysymyksiin vastaaminen saattaa joskus olla, aineiston koosta riippuen, vahva aineistoon mukaan ottamisen peruste. (Sinänsä joidenkin tyhjähköjen lomakkeiden puuttuvien tietojen tallentaminen havaintomatriisiin puuttuviksi tiedoiksi ei ole ongelma, koska toimenpide ei muuta tutkimuksen tuloksia tai johtopäätöksiä.)

Tallennettavaksi hyväksyttyihin paperilomakkeisiin on ehdottomasti merkittävä juokseva numerointi esimerkiksi etusivun yläreunaan. Käsin merkitty tai tarkoitukseen soveltuvalla leimasimella tehty lomakenumero tallennetaan myöhemmin havaintomatriisiin havaintoyksiköt toisistaan erottavaksi tunnistemuuttujaksi. Sen avulla aineiston havaintoyksiköt voidaan myöhemmin yhdistää lomakkeisiin, mikä on välttämätöntä mm. virheellisesti syötettyjen tietojen korjaamiseksi. Lisäksi havaintoyksikköjen lomakkeet identifioiva muuttuja mahdollistaa erilaisten lisätietojen liittämisen havaintomatriisiin jälkikäteen.

Lomakkeiden numeroinnin jälkeen seuraa varsinainen koodausvaihe, jonka kesto riippuu paljon koodausta vaativien muuttujien määrästä ja laadusta. Lisäksi asiaan vaikuttaa se, onko osa koodausvaiheeseen normaalisti kuuluvasta tarkistustyöstä siirrettävissä yhtäaikaisesti tallennuksen kanssa suoritettavaksi. Jos aineiston tallentaja on kokematon tai kyseessä on pienikokoinen aineisto, on kaikkien lomakkeiden kaikki vastausmerkinnät yleensä syytä tarkistaa ja tarpeen vaatiessa koodata etukäteen ennen tallennusta. Suurissa aineistoissa tai kokeneiden tallentajien tapauksessa strukturoitujen kysymysten vastausmerkintöjä ei välttämättä tarvitse tarkistaa ennen tallennusta.

Viimeistään tallennusvaiheessa on kuitenkin siis päätettävä matriisiin tallennettavasta informaatiosta. On suositeltavaa tarkistaa ennen tallennusta kaikki vastaukset ja koodata merkinnät vastausohjeiden mukaisiksi. Usein tietokoneohjelmissa on mahdollista etukäteen määritellä hyväksyttävien koodien joukko, mikä pienentää koodauksesta mahdollisesti seuraavaa virhettä.

Jos aineiston tallennuksessa käytetään kaikille muuttujille yhteistä puuttuvan tiedon koodia, esimerkiksi pistettä tai nollaa, on ainakin tästä linjasta poikkeavat puuttuvan tiedon koodit syytä kirjoittaa lomakkeisiin. Kaikissa kysymyksissä esimerkiksi nollaa ei välttämättä voi käyttää puuttuvan tiedon merkkinä, koska se voi olla jonkin muuttujan validi arvo.

Työllistävin luokittelu ja koodaus liittyy usein avoimiin kysymyksiin annettujen vastausten muuntamiseen numerokoodeiksi. Avoimiin kysymyksiin annetut vastaukset voidaan tallentaa myös tekstimuotoisesti, mutta mm. tietosuojanäkökohtien kannalta voi olla tarkoituksenmukaista koodata ja tallentaa avoimet kysymykset pelkästään numerokoodein.

Avointen kysymysten koodaus

Avoimiin kysymyksiin annetut vastaukset saattavat olla useista virkkeistä koostuvia tarinoita, ranskalaisille viivoille tiivistettyjä vastauksia tai vain tärkeintä asiaa kuvaavia yksittäisiä sanoja. Vastaukset ovat yleensä myös sisällöltään hyvin kirjavia eikä niiden luokitteleminen numerokoodausta varten ole useinkaan helppoa. Lomaketutkimuksissa tutkijan tehtävänä on kuitenkin "pakottaa" vastauksia erikseen päätettäviin sisältöluokkiin. Luokitus voi olla ennalta määrätty, mutta tavanomaisinta on laatia luokitus avoimeen kysymykseen saatujen vastausten pohjalta.

Tällöin on ensiksi muodostettava vastauksiin sopiva sisältöluokitus, jonka jälkeen vastaukset voidaan koodata sen mukaan. Tämän ns. luokitusrungon vaihtoehdot numeroidaan juoksevalla numerolla. Käytännössä luokitus muodostetaan siten, että aluksi kirjataan lomakkeista yksittäisiä vastauksia ja hahmotellaan vähitellen niiden pohjalta vastausluokkia. Vastausten sisältöä voi pyrkiä jakamaan eri luokkiin käyttäen apuna esimerkiksi tukkimiehen kirjanpitoa. Työtä jatketaan niin kauan, kunnes uudentyyppisiä vastauksia ja tarvetta uusiin vastausluokkiin ei enää kerry merkittävässä määrin.

Sisältöluokitusta laadittaessa on hyvä pitää mielessä, että kyse ei ole tutkimuksessa käytettävästä lopullisesta luokittelusta ja että yhtä avointa kysymystä kohden voidaan luoda ja koodata useita vastausten sisältöä kuvaavia muuttujia.

Muun muassa koodaustapojen vaihtelevuuden vuoksi avoimen kysymyksen sisältöluokitukselle ei ole mahdollista antaa yleispäteviä onnistuneisuuskriteereitä. Laatu riippuu sekä asiasisällön rakenteesta että tutkijan tavoitteista luokituksen suhteen. Luokituksille ja koodaustyölle on silti mahdollista asettaa käytännön kokemuksen kautta joitakin perusperiaatteita.

Näistä tärkein liittyy tietojen yksityiskohtaisen tallentamisen yleisperiaatteeseen. Sekä aineiston kerääjä että sen mahdollinen jatkokäyttäjä saattavat myöhemmin käyttää luokiteltavia tietoja muihinkin kuin tiedonkeruuvaiheessa tunnistettuihin käyttötarkoituksiin. Tästä syystä sisältöluokituksen ja sen mukaisen koodauksen tulee olla riittävän hienojakoinen. Yksityiskohtaisia tietoja on sitten mahdollista myöhemmin luokitella eri tavoin vaihteleviin tarkoituksiin.

Toisaalta melkein jokaiselle asialle oman koodin antaminen voi johtaa siihen, että monet vastauskategoriat keräävät hyvin pieniä vastausosuuksia. Kooltaan täysin mitättömiä vastausluokkia kannattaa välttää, ellei niiden käyttöön ole painavia sisällöllisiä syitä.

Koodausteknisistä syistä luokitusrungon viimeisenä vastausluokkana kannattaa käyttää 'jokin muu' -ryhmää. Siihen koodattavien vastausten osuuden ei tulisi nousta liian suureksi (esim. korkeintaan 10-20 %).

Lopuksi on päätettävä kutakin avointa kysymystä varten koodattavien muuttujien lukumäärästä. Siihenkin on mahdotonta antaa yleispäteviä sääntöjä. Yhden avoimen kysymyksen koodaukseen kannattaa käyttää useita muuttujia, jos suuri osa vastauksista näyttää sisältävän monia aspekteja.

Laajimmassa koodaustavassa kunkin vastausluokan voi koodata omaksi muuttujakseen, jolloin muuttujaan koodataan dikotominen tieto siitä, mainitsiko vastaaja asian vastauksessaan vai ei (koodataan esimerkiksi 0=puuttuva tieto, 1=kyllä ja 2=ei). Tällaisen koodaustavan käyttö on perusteltua lähinnä silloin, kun vastausten sisältöalue on suppea.

Usein on tarkoituksenmukaisempaa koodata vastaukset esim. yhdestä kolmeen muuttujaan, joihin vastaukset tallennetaan luokitusrungon luokkia vastaavin numeroin. Vastausta kuvaavat numerokoodit merkitään tavallisesti lomakkeen jompaankumpaan reunaan. Huomattakoon, että ns. tyhjät vastaukset tulee merkitä puuttuvan tiedon koodilla.

Käytännössä monet eivät vastaa avoimiin kysymyksiin lainkaan. Myös monissa avoimiin kysymyksiin vastanneiden lomakkeissa saadaan jotakin luokiteltua vastaussisältöä vastaava koodi vain osaan kysymyksen koodaukseen varatuista muuttujista. Tulosten raportointivaiheessa käytetään usein vain ensimmäiseen muuttujaan koodattuja vastauksia, mutta kaikista kysymystä varten koodatuista muuttujista saadut tiedot voidaan myös yhdistää yhdeksi kokonaisjakaumaksi. Tämä voidaan toteuttaa tilasto-ohjelmistojen soveltuvilla komennoilla.

Vastaajien antamien tietojen tarkistus ja korjaus

Tutkijan on tarpeellista kaikin puolin varmistua lomakkeiden täytön ja koodauksen moitteettomuudesta, jotta tallennusvaihe sujuu kitkatta. Nämä rutiinit ovat aina tärkeitä tutkimuksen reliabiliteetin kohottamiseksi. Erityisen tärkeitä ne ovat pienehköissä kyselyissä.

Parhaatkaan vastausohjeet eivät nimittäin poista sitä ongelmaa, että osa vastaajista vastaa paperilomakkeen kysymyksiin teknisesti väärällä tavalla. Vaikka heitä on ohjattu rengastamaan mieleisiään vaihtoehtoja vastaavat numerot, jotkut käyttävät tästä huolimatta "rukseja" tai ympyröivät vastausvaihtoehdon tekstin. Tämänkaltaiset virheet eivät ole tutkimuksen kannalta ongelmallisia, joskin ne saattavat lisätä tallennusvaiheen virheitä. Hankalampaa on sen sijaan koodata teknisesti oikeaan muotoon sellaisia vastauksia, joissa annettu vastaus ei lainkaan vastaa annettuja ohjeita tai vaihtoehtoja. Joskus kyselyn laatija jopa jää osaavan vastaajan koukkuun ja huomaa laatineensa selvästi epäonnistuneen kysymyksen.

Useissa tapauksissa sellaisenaan tallennettavaksi kelpaamattomat vastaukset voidaan kuitenkin koodata tallennukseen kelpaaviksi muuttamalla niitä suurimman sisällöllisen hyödyn ja varsinaisten sisältövaihtoehtojen tasapuolisen kohtelun periaatteiden mukaisesti. Esimerkiksi strukturoiduissa kysymyksissä vastaajat saattavat joskus merkitä vastauksensa kahden tarjotun vastausvaihtoehdon väliin. Tällaiset vastaukset voitaneen sijoittaa vahvempaa mielipidettä/toimintaa/tms. kuvaavaan luokkaan, koska koodaamalla vastauksen puuttuvaksi tiedoksi menetettäisiin tietoa. Tällaiset tapaukset on syytä käsitellä johdonmukaisesti ja raportoida ne huolellisesti. Yleensä ne ovat kuitenkin melko harvinaisia.

Toinen postikyselyjen tavallinen ongelma koskee monivastauskysymyksiä, joissa vastaajia on pyydetty nimeämään korkeintaan niin ja niin monta kohtaa tai esimerkiksi asettamaan joitakin asioita tai ominaisuuksia tärkeysjärjestykseen. Jos vastauksia on liikaa, yksi hyvä tapa on esimerkiksi tallentaa tällaiset muuttujat ylhäältä alas parillisella lomakenumerolla, ja alhaalta ylös parittomalla lomakenumerolla. Tällöin lomakkeessa viimeisinä mainitut kohdat eivät kärsi suhteettomasti sijoittumisestaan listan loppupäähän.

Järjestyssijoja hyödyntävissä monivalintakysymyksissä on ongelmana se, että pieni osa vastaajista ei noudata vastausohjeita tarkkaan, vaan mainitsee vain esim. kolme tärkeintä asiaa, mutta ei aseta niitä tärkeysjärjestykseen. Tällaisessa tapauksessa kaikki kohdat voinee koodata niihin ykkössijaa vastaavalla koodilla tai arvotuilla järjestysnumeroilla, sen sijaan että kaikki tiedot koodattaisiin puuttuvan tiedon koodilla.

Verkkokyselyissä ei yleensä esiinny vastaavanlaisia lomakkeen täyttämiseen liittyviä virheitä, sillä vastaamisen yhdenmukaisuus voidaan varmistaa teknisesti. Tästä huolimatta myös verkkokyselyn vastaukset ja koodaus on syytä vielä tarkistaa suunnitteluvaiheessa tapahtuneiden virheiden varalta.

Havaintoaineiston tarkistus, varmuuskopiointi ja arkistointi

Toisaalla käsiteltävän aineiston syöttämisen ja tallentamisen jälkeen havaintomatriisin sisältämät tiedot on vielä syytä tarkistaa. Näitä rutiineja esitellään erikseen tietovarannon SPSS-osiossa. Tarkistetusta aineistosta tulee ottaa riittävästi varmuuskopiota, mielellään erilaisille tallennusvälineille. Sama pätee aineistosta tuotettaviin uusiin versioihin, jotka sisältävät aineistosta tuotettuja uusia muuttujia.

Erityisen tärkeää on tallentaa kaikki aineistonkeruuvaiheen keskeiset sähköiset dokumentit (data-aineisto, kyselylomakkeiden ja saatteiden tekstitiedostot yms.) kootusti johonkin hakemistoon/kansioon ja ottaa siitä varmuuskopiot. Tämä palvelee paitsi tutkijaa itseään myös aineiston mahdollista arkistointia myöhemmässä vaiheessa. Aineistonhallinnan käsikirja ohjeistaa tarkemmin sähköisen tutkimusaineiston hallintaan sen elinkaaren eri vaiheissa.