Kyselyaineiston havaintojen painottaminen

Lukuaika noin 5 min

Kyselyaineiston havaintoja voi olla tarkoituksenmukaista painottaa, mikäli otoksen edustavuutta tutkiva katoanalyysi osoittaa aineistosta systemaattisia vinoutumia. Katoanalyysissa vertaillaan otoksen ja perusjoukon vastaavuutta niiden keskeisten rakennetekijöiden osalta, joista tiedot ovat saatavilla. Henkilöaineistoissa tällaisia ovat yleensä vastaajien sukupuoli, ikä, asuinpaikka-/alue sekä koulutustaso tai ammatti. Lisäksi katoanalyysiin on tarpeen ja mahdollisuuksien mukaan sisällytettävä vertailuja sellaisten tekijöiden suhteen, joilla tiedetään olevan merkittävää vaikutusta tutkittaviin aihealueisiin.

Otosaineiston sosiodemografinen poikkeavuus perusjoukosta ei silti välttämättä merkitse sitä, että tutkittavia aiheita koskevat tulokset eivät olisi yleistettävissä perusjoukkoon. Saattaa olla, että otoksessa yli- tai aliedustetut ryhmät eivät poikkea merkittävästi keskimääräisistä tuloksista kiinnostuksen kohteena olevien ilmiöiden osalta.

Usein joidenkin ryhmien ali- tai yliedustus otoksessa kuitenkin on ongelma tulosten yleistettävyydelle. Asian ratkaisemiseksi voidaan käyttää ns. jälkiositusta (post-stratification), joka on yleinen painottamistekniikka kyselytutkimuksissa. Siinä tutkimuksen muuttujia painotetaan populaation jakaumalla.

Milloin painottaa aineistoa? Ankkurilinkki ikoni

Esimerkiksi suuri vastauskato, väärä otosasetelma tai puuttuvien havaintojen määrä voivat aiheuttaa kyselytutkimuksissa vinoutumia otosaineiston jakaumaan. Systemaattisten vinoutumien vuoksi otos ei enää ole satunnainen. Tällöin aineistoa voidaan painottaa, jotta otosaineisto kuvaisi paremmin otospopulaatiota. Kyselytutkimus on saatettu tehdä esimerkiksi niin, että otospopulaatio on jaettu ryhmiin ja näistä ryhmistä on valittu sama määrä vastaajiksi. Jos tiedetään tutkittavan populaation jakauma ennalta (esim. ikä-, sukupuoli- ja ammattirakenne), on suotavaa, että jo aineiston keruuvaiheessa otetaan huomioon otospopulaation rakenne (ks. otantamenetelmät) ja valitaan vastaajien määrät populaation rakenteen mukaisesti. Jos aineisto on jo kerätty, muuttujien jakaumavirhettä voi korjata painottamalla aineistoa niin, että se kuvaa mahdollisimman tarkasti ennakoitua jakaumaa. Aineiston painottaminen ja painojen käyttäminen analyyseissä estää tiettyjen ryhmien yli- tai aliedustukset.

Oletetaan, että suomalainen valtakunnallinen henkilöaineisto on kerätty vuonna 2019 haastattelemalla 15–64 vuotiaita miehiä ja naisia neljässä eri ikäryhmässä (15–19, 20–34, 35–49, 50–64). Jokaisen ryhmän koko on 50 henkilöä (15–19-vuotiaita miehiä on 50, 15–19-vuotiaita naisia on 50 jne.) eli koko aineistossa on yhteensä 400 havaintoa. Aineisto ei kuvaa suomalaisen väestön oikeaa ikä- ja sukupuolirakennetta, koska ko. ikä- ja sukupuoliryhmien osuudet suomalaisessa 15–64-vuotiaassa väestössä eivät ole yhtä suuria. Suomalaisten ikä- ja sukupuolirakenne vuonna 2019 saadaan laskettua esimerkiksi Tilastokeskuksen Suomi lukuina (Avautuu uuteen välilehteen) : väestö -taulukon (Avautuu uuteen välilehteen) avulla. (Tilastokeskus tarjoaa sivuillaan uusimmat tiedot, vuoden 2019 tiedot ovat saatavilla alempana tällä sivulla harjoitustehtävien yhteydessä.)

Ikäryhmä Mies Nainen Yhteensä
15–19 4,4 % 4,2 % 8,7 %
20–34 15,4 % 14,4 % 29,8 %
35–49 15,3 % 14,5 % 29,8 %
50–64 15,8 % 15,9 % 31,7 %
Yhteensä 50,9 % 49,1 % 100,0 %

Kuinka painot lasketaan Ankkurilinkki ikoni

Jos aineistoa painotetaan vain yhden muuttujan perusteella, lasketaan ensin aineistosta ko. muuttujan frekvenssijakauma. Lisäksi täytyy tietää koko aineiston havaintojen lukumäärä ja luonnollisesti myös tutkittavan populaation jakauma. Esimerkkiaineiston perusteella sukupuolijakauma on siis 50 % miehiä (n=200) ja 50 % (n=200) naisia. Tilastokeskuksen mukaan sukupuolijakauma tutkittavalle populaatiolle olisi 50,9 % miehiä ja 49,1 % naisia. Painot \(w{_i} \) w i saadaan laskettua kaavalla:

$$w{_i} = {NK{_i}\over n{_i} }$$
Painojen laskemisen kaava

missä \(N\) N on koko tutkimusaineiston havaintojen lukumäärä \(K{_i}\) K i on toivottu jakauma ryhmässä \(i\) i (esim. 34 %/100 = 0.34)
\(n{_i}\) n i on havaintojen lukumäärä ryhmässä \(i\) i .

Seuraavasta taulukosta ilmenee laskenta esimerkkitapaukselle.

Painotettava ryhmä Aineiston koko (N) Toivottu jakauma (Ki) N * Ki Havaittu jakauma (ni) Paino (wi)
Mies 400 0.509 203,6 200 1.02
Nainen 400 0.491 196,4 200 0.98

Sukupuolijakauma aineistossa on lähellä oikeaa, joten myös painokertoimet ovat lähellä arvoa 1.

Useamman muuttujan tapauksessa painotettaville ryhmille lasketaan jakaumat aineistosta ristiintaulukoinnin avulla. Esimerkiksi painotus sukupuolen ja ikäryhmien mukaan olisi seuraava:

Painotettava ryhmä Aineiston koko (N) Toivottu jakauma (Ki) N * Ki Havaittu jakauma (ni) Paino (wi)
Mies 15–19 400 0,044 17,6 50 0,352
Mies 20–34 400 0,154 61,6 50 1,232
Mies 35–49 400 0,153 61,2 50 1,224
Mies 50–64 400 0,158 63,2 50 1,264
Nainen 15–19 400 0,042 16,8 50 0,336
Nainen 20–34 400 0,144 57,6 50 1,152
Nainen 35–49 400 0,145 58 50 1,160
Nainen 50–64 400 0,159 63,6 50 1,272

Painokertoimien käyttö Ankkurilinkki ikoni

Kuvatulla menetelmällä painokertoimet voi laskea vain sellaisille havainnoille, joissa painotettavia ryhmiä kuvaavat muuttujat eivät saa puuttuvia arvoja. Havainnot, joiden painokerroin on puuttuva, poistetaan analyyseista. Mikäli haluat kiertää tämän rajoitteen, tutustu kehittyneempiin painotusmenetelmiin lisätiedoissa mainituissa artikkeleissa.

Painokertoimia voi käyttää kaikissa aineistoon liittyvissä analyyseissä. Kun painokertoimet on laskettu painomuuttujiin käytössä olevalla tilasto-ohjelmalla, voidaan aineiston painotus ottaa käyttöön. Tämä tapahtuu eri tavalla eri tilasto-ohjelmissa. Tutustu SPSS-harjoitukseen 1, jossa painokertoimet otetaan käyttöön.

Jos havainto saa lukua yksi suuremman painokertoimen (w > 1), on ryhmä, jota tämä havainto edustaa, aliedustettu aineistossa. Vastaavasti jos painokerroin on lukua yksi pienempi (w < 1), on havainnon edustama ryhmä yliedustettu.

Tarkastelussa on laskettu ns. analyysipainokertoimet, joiden summa aineistossa on havaintojen lukumäärä. Kertomalla analyysipainokerroin sopivalla luvulla (populaation koko jaettuna havaintojen lukumäärällä) saadaan ns. korottava paino. Tällöin korottavien painokertoimien summa on perusjoukon koko.

Harjoituksia

Laske ISSP 2019 -aineistoon uudet painomuuttujat, joissa painot on laskettu seuraavilla Suomen vuoden 2019 väestöjakaumilla. Käytä apuna Tilastokeskuksen ikä- ja sukupuolijakaumataulukkoa XLSX sekä maakuntataulukkoa XLSX (Taulukot ovat Excel-muodossa. Jos selaimesi ei osaa avata niitä oikein, tallenna ne ensin kiintolevylle ja avaa MS Excel-yhteensopivalla taulukkolaskentaohjelmalla.)

  1. sukupuoli
  2. ikäluokka (15–19, 20–34, 35–49, 50–64, 65–74), sukupuoli
  3. ikäluokka (15–19, 20–34, 35–49, 50–64, 65–74), sukupuoli, maakunta

ISSP 2019 -aineiston alkuperäiset painokertoimet (bv5, bv6) on laskettu kalibrointimenetelmällä käyttäen apuna seuraavia väestöjakaumia:

  1. sukupuoli,
  2. ikäluokka (15–24, 25–34, ..., 65–74),
  3. NUTS3-alueet siten, että Suur-Helsingin aluetta käsiteltiin erillisenä ja
  4. kuntatyyppi (kaupunki - kaupunkimainen maaseutu - maaseutu).