KvantiMOTV on päivitetty Kvantitatiivisen tutkimuksen verkkokäsikirjaksi. Lue päivitetty artikkeli Kyselyaineiston havaintojen painottaminen.
Kyselyaineiston havaintojen painottaminen
Milloin painottaa aineistoa?
Kuinka painot lasketaan
Painokertoimien käyttö
Kyselyaineiston havaintoja voi olla tarkoituksenmukaista painottaa, mikäli otoksen edustavuutta tutkiva katoanalyysi osoittaa aineistosta systemaattisia vinoutumia. Katoanalyysissa vertaillaan otoksen ja perusjoukon vastaavuutta niiden keskeisten rakennetekijöiden osalta, joista tiedot ovat saatavilla. Henkilöaineistoissa tällaisia ovat yleensä vastaajien sukupuoli, ikä, asuinpaikka-/alue sekä koulutustaso tai ammatti. Lisäksi katoanalyysiin on tarpeen ja mahdollisuuksien mukaan sisällytettävä vertailuja sellaisten tekijöiden suhteen, joilla tiedetään olevan merkittävää vaikutusta tutkittaviin aihealueisiin.
Otosaineiston sosiodemografinen poikkeavuus perusjoukosta ei silti välttämättä merkitse sitä, että tutkittavia aiheita koskevat tulokset eivät olisi yleistettävissä perusjoukkoon. Saattaa olla, että otoksessa yli- tai aliedustetut ryhmät eivät poikkea merkittävästi keskimääräisistä tuloksista kiinnostuksen kohteena olevien ilmiöiden osalta.
Usein joidenkin ryhmien ali- tai yliedustus otoksessa kuitenkin on ongelma tulosten yleistettävyydelle. Asian ratkaisemiseksi voidaan käyttää ns. jälkiositusta (post-stratification), joka on yleinen painottamistekniikka kyselytutkimuksissa. Siinä tutkimuksen muuttujia painotetaan populaation jakaumalla.
Milloin painottaa aineistoa?
Esimerkiksi suuri vastauskato, väärä otosasetelma tai puuttuvien havaintojen määrä voivat aiheuttaa kyselytutkimuksissa vinoutumia otosaineiston jakaumaan. Systemaattisten vinoutumien vuoksi otos ei enää ole satunnainen. Tällöin aineistoa voidaan painottaa, jotta otosaineisto kuvaisi paremmin otospopulaatiota. Kyselytutkimus on saatettu tehdä esimerkiksi niin, että otospopulaatio on jaettu ryhmiin ja näistä ryhmistä on valittu sama määrä haastateltaviksi. Jos tiedetään tutkittavan populaation jakauma ennalta (esim. ikä-, sukupuoli- ja ammattirakenne), on suotavaa että jo aineiston keräämisvaiheessa otetaan huomioon otospopulaation rakenne (ks. otantamenetelmät) ja valitaan haastateltavien määrät populaation rakenteen mukaisesti. Jos aineisto on jo kerätty, muuttujien jakaumavirhettä voi korjata painottamalla aineistoa niin, että se kuvaa mahdollisimman tarkasti ennakoitua jakaumaa. Aineiston painottaminen ja painojen käyttäminen analyyseissä estää tiettyjen ryhmien yli- tai aliedustukset.
Oletetaan, että suomalainen valtakunnallinen henkilöaineisto on kerätty vuonna 2000 haastattelemalla 15-64 vuotiaita miehiä ja naisia eri ikäryhmissä (15-19, 20-29, 30-49, 50-64). Jokaisen ryhmän koko on 50 henkilöä (15-19 vuotiaita miehiä on 50, 15-19 naisia on 50, ..) eli koko aineistossa on yhteensä 400 havaintoa. Aineisto ei kuvaa suomalaisen väestön oikeaa ikä- ja sukupuolirakennetta, koska ko. ikä- ja sukupuoliryhmien osuudet suomalaisessa 15-64-vuotiaassa väestössä eivät ole yhtä suuria. Suomalaisten ikä- ja sukupuolirakenne vuonna 2000 saadaan laskettua esimerkiksi Tilastokeskuksen Suomi lukuina: väestö -taulukon avulla. (Tilastokeskus tarjoaa sivuillaan uusimmat tiedot, vuoden 2000 tiedot ovat saatavilla alempana tällä sivulla harjoitustehtävien yhteydessä.)
Ikäryhmä | Mies | Nainen | Yhteensä |
15-19 | 4.9 % | 4.7 % | 9.6 % |
20-29 | 9.3 % | 8.9 % | 18.3 % |
30-49 | 22.1 % | 21.4 % | 43.5 % |
50-64 | 14.2 % | 14.5 % | 28.7 % |
Yhteensä | 50.5 % | 49.5 % | 100.0 % |
Kuinka painot lasketaan
Jos aineistoa painotetaan vain yhden muuttujan perusteella, lasketaan ensin aineistosta ko. muuttujan frekvenssijakauma. Lisäksi täytyy tietää koko aineiston havaintojen lukumäärä ja luonnollisesti myös tutkittavan populaation jakauma. Esimerkkiaineiston perusteella sukupuolijakauma on siis 50 % miehiä (n=200) ja 50 % (n=200) naisia. Tilastokeskuksen mukaan sukupuolijakauma tutkittavalle populaatiolle olisi 50.5 % miehiä ja 49.5 % naisia. Painot wi saadaan laskettua kaavalla:
missä N on koko tutkimusaineiston havaintojen lukumäärä
Ki on toivottu jakauma ryhmässä i (esim. 34 %/100 = 0.34)
ni on havaintojen lukumäärä ryhmässä i
Seuraavasta taulukosta ilmenee laskenta esimerkkitapaukselle.
Painotettava ryhmä | Aineiston koko (N) | Toivottu jakauma (Ki) | N * Ki | Havaittu jakauma (ni) | Paino (wi) |
Mies | 400 | 0.505 | 202 | 200 | 1.01 |
Nainen | 400 | 0.495 | 198 | 200 | 0.99 |
Sukupuolijakauma aineistossa on lähellä oikeaa, joten myös painokertoimet ovat lähellä arvoa 1.
Useamman muuttujan tapauksessa painotettaville ryhmille lasketaan jakaumat aineistosta ristiintaulukoinnin avulla. Esimerkiksi painotus sukupuolen ja ikäryhmien mukaan olisi seuraava:
Painotettava ryhmä | Aineiston koko (N) | Toivottu jakauma (Ki) | N * Ki | Havaittu jakauma (ni) | Paino (wi) |
Mies 15 - 19 | 400 | 0.049 | 19.6 | 50 | 0.392 |
Mies 20 - 34 | 400 | 0.093 | 37.2 | 50 | 0.744 |
Mies 35 - 49 | 400 | 0.221 | 88.4 | 50 | 1.768 |
Mies 50 - 64 | 400 | 0.142 | 56.8 | 50 | 1.136 |
Nainen 15 - 19 | 400 | 0.047 | 18.8 | 50 | 0.376 |
Nainen 20 - 34 | 400 | 0.089 | 35.6 | 50 | 0.712 |
Nainen 35 - 49 | 400 | 0.212 | 84.8 | 50 | 1.696 |
Nainen 50 - 64 | 400 | 0.145 | 58.0 | 50 | 1.160 |
Painokertoimien käyttö
Kuvatulla menetelmällä painokertoimet voi laskea vain sellaisille havainnoille, joissa painotettavia ryhmiä kuvaavat muuttujat eivät saa puuttuvia arvoja. Havainnot, joiden painokerroin on puuttuva, poistetaan analyyseista. Mikäli haluat kiertää tämän rajoitteen, tutustu kehittyneempiin painotusmenetelmiin lisätiedoissa mainituissa artikkeleissa.
Painokertoimia voi käyttää kaikissa aineistoon liittyvissä analyyseissä. Kun painokertoimet on laskettu painomuuttujiin käytössä olevalla tilasto-ohjelmalla, voidaan aineiston painotus ottaa käyttöön. Tämä tapahtuu eri tavalla eri tilasto-ohjelmissa. Tutustu SPSS harjoitukseen 1, jossa painokertoimet otetaan käyttöön.
Jos havainto saa lukua yksi suuremman painokertoimen (w > 1), on ryhmä, jota tämä havainto edustaa, aliedustettu aineistossa. Vastaavasti jos painokerroin on lukua yksi pienempi (w < 1), on havainnon edustama ryhmä yliedustettu.
Tarkastelussa on laskettu ns. analyysipainokertoimet, joiden summa aineistossa on havaintojen lukumäärä. Kertomalla analyysipainokerroin sopivalla luvulla (populaation koko jaettuna havaintojen lukumäärällä) saadaan ns. korottava paino. Tällöin korottavien painokertoimien summa on perusjoukon koko.
Harjoituksia
Laske ISSP 2000 aineistoon uudet painomuuttujat, joissa painot on laskettu seuraavilla Suomen vuoden 2000 väestöjakaumilla. Käytä apuna Tilastokeskuksen ikä- ja sukupuolijakaumataulukkoa sekä maakuntataulukkoa (Taulukot ovat Excel-muodossa. Jos selaimesi ei osaa avata niitä oikein, tallenna ne ensin kiintolevylle ja avaa MS Excel-yhteensopivalla taulukkolaskentaohjelmalla.)
- sukupuoli
- ikäluokka (15-19, 20-34, 35-49, 50-64, 65-74), sukupuoli
- ikäluokka (15-19, 20-34, 35-49, 50-64, 65-74), sukupuoli, maakunta
ISSP 2000 aineiston alkuperäiset painokertoimet (weight, weight_2) on laskettu kalibrointimenetelmällä käyttäen apuna seuraavia väestöjakaumia:
- sukupuoli,
- ikäluokka (15-19, 20-24, ..., 64-69, 70-74),
- kunta ja
- kuntatyyppi (kaupunki - maaseutu).