Kyselyaineiston havaintojen painottaminen
Kyselyaineiston havaintoja voi olla tarkoituksenmukaista painottaa, mikäli otoksen edustavuutta tutkiva katoanalyysi osoittaa aineistosta systemaattisia vinoutumia. Katoanalyysissa vertaillaan otoksen ja perusjoukon vastaavuutta niiden keskeisten rakennetekijöiden osalta, joista tiedot ovat saatavilla. Henkilöaineistoissa tällaisia ovat yleensä vastaajien sukupuoli, ikä, asuinpaikka-/alue sekä koulutustaso tai ammatti. Lisäksi katoanalyysiin on tarpeen ja mahdollisuuksien mukaan sisällytettävä vertailuja sellaisten tekijöiden suhteen, joilla tiedetään olevan merkittävää vaikutusta tutkittaviin aihealueisiin.
Otosaineiston sosiodemografinen poikkeavuus perusjoukosta ei silti välttämättä merkitse sitä, että tutkittavia aiheita koskevat tulokset eivät olisi yleistettävissä perusjoukkoon. Saattaa olla, että otoksessa yli- tai aliedustetut ryhmät eivät poikkea merkittävästi keskimääräisistä tuloksista kiinnostuksen kohteena olevien ilmiöiden osalta.
Usein joidenkin ryhmien ali- tai yliedustus otoksessa kuitenkin on ongelma tulosten yleistettävyydelle. Asian ratkaisemiseksi voidaan käyttää ns. jälkiositusta (post-stratification), joka on yleinen painottamistekniikka kyselytutkimuksissa. Siinä tutkimuksen muuttujia painotetaan populaation jakaumalla.
Milloin painottaa aineistoa?
Esimerkiksi suuri vastauskato, väärä otosasetelma tai puuttuvien havaintojen määrä voivat aiheuttaa kyselytutkimuksissa vinoutumia otosaineiston jakaumaan. Systemaattisten vinoutumien vuoksi otos ei enää ole satunnainen. Tällöin aineistoa voidaan painottaa, jotta otosaineisto kuvaisi paremmin otospopulaatiota. Kyselytutkimus on saatettu tehdä esimerkiksi niin, että otospopulaatio on jaettu ryhmiin ja näistä ryhmistä on valittu sama määrä vastaajiksi. Jos tiedetään tutkittavan populaation jakauma ennalta (esim. ikä-, sukupuoli- ja ammattirakenne), on suotavaa, että jo aineiston keruuvaiheessa otetaan huomioon otospopulaation rakenne (ks. otantamenetelmät) ja valitaan vastaajien määrät populaation rakenteen mukaisesti. Jos aineisto on jo kerätty, muuttujien jakaumavirhettä voi korjata painottamalla aineistoa niin, että se kuvaa mahdollisimman tarkasti ennakoitua jakaumaa. Aineiston painottaminen ja painojen käyttäminen analyyseissä estää tiettyjen ryhmien yli- tai aliedustukset.
Oletetaan, että suomalainen valtakunnallinen henkilöaineisto on kerätty vuonna 2019 haastattelemalla 15–64 vuotiaita miehiä ja naisia neljässä eri ikäryhmässä (15–19, 20–34, 35–49, 50–64). Jokaisen ryhmän koko on 50 henkilöä (15–19-vuotiaita miehiä on 50, 15–19-vuotiaita naisia on 50 jne.) eli koko aineistossa on yhteensä 400 havaintoa. Aineisto ei kuvaa suomalaisen väestön oikeaa ikä- ja sukupuolirakennetta, koska ko. ikä- ja sukupuoliryhmien osuudet suomalaisessa 15–64-vuotiaassa väestössä eivät ole yhtä suuria. Suomalaisten ikä- ja sukupuolirakenne vuonna 2019 saadaan laskettua esimerkiksi Tilastokeskuksen Suomi lukuina (Avautuu uuteen välilehteen) : väestö -taulukon (Avautuu uuteen välilehteen) avulla. (Tilastokeskus tarjoaa sivuillaan uusimmat tiedot, vuoden 2019 tiedot ovat saatavilla alempana tällä sivulla harjoitustehtävien yhteydessä.)
Ikäryhmä | Mies | Nainen | Yhteensä |
15–19 | 4,4 % | 4,2 % | 8,7 % |
20–34 | 15,4 % | 14,4 % | 29,8 % |
35–49 | 15,3 % | 14,5 % | 29,8 % |
50–64 | 15,8 % | 15,9 % | 31,7 % |
Yhteensä | 50,9 % | 49,1 % | 100,0 % |
Kuinka painot lasketaan
Jos aineistoa painotetaan vain yhden muuttujan perusteella, lasketaan ensin aineistosta ko. muuttujan frekvenssijakauma. Lisäksi täytyy tietää koko aineiston havaintojen lukumäärä ja luonnollisesti myös tutkittavan populaation jakauma. Esimerkkiaineiston perusteella sukupuolijakauma on siis 50 % miehiä (n=200) ja 50 % (n=200) naisia. Tilastokeskuksen mukaan sukupuolijakauma tutkittavalle populaatiolle olisi 50,9 % miehiä ja 49,1 % naisia. Painot \(w{_i} \) w i saadaan laskettua kaavalla:

missä \(N\)
N
on koko tutkimusaineiston havaintojen lukumäärä
\(K{_i}\)
K i
on toivottu jakauma ryhmässä \(i\)
i (esim. 34 %/100 = 0.34)
\(n{_i}\)
n i
on havaintojen lukumäärä ryhmässä \(i\)
i
.
Seuraavasta taulukosta ilmenee laskenta esimerkkitapaukselle.
Painotettava ryhmä | Aineiston koko (N) | Toivottu jakauma (Ki) | N * Ki | Havaittu jakauma (ni) | Paino (wi) |
Mies | 400 | 0.509 | 203,6 | 200 | 1.02 |
Nainen | 400 | 0.491 | 196,4 | 200 | 0.98 |
Sukupuolijakauma aineistossa on lähellä oikeaa, joten myös painokertoimet ovat lähellä arvoa 1.
Useamman muuttujan tapauksessa painotettaville ryhmille lasketaan jakaumat aineistosta ristiintaulukoinnin avulla. Esimerkiksi painotus sukupuolen ja ikäryhmien mukaan olisi seuraava:
Painotettava ryhmä | Aineiston koko (N) | Toivottu jakauma (Ki) | N * Ki | Havaittu jakauma (ni) | Paino (wi) |
Mies 15–19 | 400 | 0,044 | 17,6 | 50 | 0,352 |
Mies 20–34 | 400 | 0,154 | 61,6 | 50 | 1,232 |
Mies 35–49 | 400 | 0,153 | 61,2 | 50 | 1,224 |
Mies 50–64 | 400 | 0,158 | 63,2 | 50 | 1,264 |
Nainen 15–19 | 400 | 0,042 | 16,8 | 50 | 0,336 |
Nainen 20–34 | 400 | 0,144 | 57,6 | 50 | 1,152 |
Nainen 35–49 | 400 | 0,145 | 58 | 50 | 1,160 |
Nainen 50–64 | 400 | 0,159 | 63,6 | 50 | 1,272 |
Painokertoimien käyttö
Kuvatulla menetelmällä painokertoimet voi laskea vain sellaisille havainnoille, joissa painotettavia ryhmiä kuvaavat muuttujat eivät saa puuttuvia arvoja. Havainnot, joiden painokerroin on puuttuva, poistetaan analyyseista. Mikäli haluat kiertää tämän rajoitteen, tutustu kehittyneempiin painotusmenetelmiin lisätiedoissa mainituissa artikkeleissa.
Painokertoimia voi käyttää kaikissa aineistoon liittyvissä analyyseissä. Kun painokertoimet on laskettu painomuuttujiin käytössä olevalla tilasto-ohjelmalla, voidaan aineiston painotus ottaa käyttöön. Tämä tapahtuu eri tavalla eri tilasto-ohjelmissa. Tutustu SPSS-harjoitukseen 1, jossa painokertoimet otetaan käyttöön.
Jos havainto saa lukua yksi suuremman painokertoimen (w > 1), on ryhmä, jota tämä havainto edustaa, aliedustettu aineistossa. Vastaavasti jos painokerroin on lukua yksi pienempi (w < 1), on havainnon edustama ryhmä yliedustettu.
Tarkastelussa on laskettu ns. analyysipainokertoimet, joiden summa aineistossa on havaintojen lukumäärä. Kertomalla analyysipainokerroin sopivalla luvulla (populaation koko jaettuna havaintojen lukumäärällä) saadaan ns. korottava paino. Tällöin korottavien painokertoimien summa on perusjoukon koko.
Harjoituksia
Laske ISSP 2019 -aineistoon uudet painomuuttujat, joissa painot on laskettu seuraavilla Suomen vuoden 2019 väestöjakaumilla. Käytä apuna Tilastokeskuksen ikä- ja sukupuolijakaumataulukkoa XLSX sekä maakuntataulukkoa XLSX (Taulukot ovat Excel-muodossa. Jos selaimesi ei osaa avata niitä oikein, tallenna ne ensin kiintolevylle ja avaa MS Excel-yhteensopivalla taulukkolaskentaohjelmalla.)
- sukupuoli
- ikäluokka (15–19, 20–34, 35–49, 50–64, 65–74), sukupuoli
- ikäluokka (15–19, 20–34, 35–49, 50–64, 65–74), sukupuoli, maakunta
ISSP 2019 -aineiston alkuperäiset painokertoimet (bv5, bv6) on laskettu kalibrointimenetelmällä käyttäen apuna seuraavia väestöjakaumia:
- sukupuoli,
- ikäluokka (15–24, 25–34, ..., 65–74),
- NUTS3-alueet siten, että Suur-Helsingin aluetta käsiteltiin erillisenä ja
- kuntatyyppi (kaupunki - kaupunkimainen maaseutu - maaseutu).