Puuttuvat havainnot - SPSS-harjoitus 1
Jos olet ensimmäistä kertaa aloittamassa SPSS-harjoitusta, on ennen varsinaisen harjoituksen tekemistä syytä tutustua opiskeluohjeisiin.
Tässä harjoituksessa käytetään R-ohjelmistosta löytyvää aineistoa säästämisasteista eri maissa vuosina 1960–1970 (LifeCycleSavings). Aineistoon on esimerkin vuoksi luotu puuttuvuutta kahteen muuttujaan. Lisätietoa alkuperäisestä aineistosta löytyy lisätietoa R Datasets Packagen aineistokuvailusta. Havaintoaineiston hakemisesta SPSS-ohjelmaan on erilliset ohjeet.
Harjoituksessa on käytetty IBM SPSS Statistics ohjelmiston versiota 22.0
Puuttuvuuden rakenne
Puuttuvuuden rakennetta voi hahmottaa ristiintaulukoimalla muuttujakohtaisia puuttuvuusindikaattoreita. SPSS:ssä tämä löytyy valikosta Analyze - Multiple Imputations - Analyze Patterns...
Seuraavassa ikkunassa valitaan muuttujat, joiden puuttuvuuden rakennetta halutaan tarkastella ja siirretään ne oikealle puolelle kohtaan Analyze Across Variables.
Valitse ja siirrä kaikki muuttujat. Painamalla OK saadaan alla oleva tuloste.
Taulussa Overall Summary of Missing Values esitetään, kuinka monessa prosentissa muuttujista, havaintoriveistä ja havainnoista puuttuvutta on.
Taulu Missing Value Patterns kertoo, minkälaisia havaintorivejä datasta löytyy. Punainen suorakulmio kertoo sen, että dataa puuttuu. Esimerkin tilanteessa havaintorivejä on kolmea eri tyyppiä: puuttuvutta ei ole missään muuttujassa, puuttuvuutta on vain ddpi-muuttujassa, puuttuvuutta on vain sr-muuttujassa. Alimmassa kuviossa näkyy myös, montako prosenttia kunkin tyyppisiä rivejä on. Tässä esimerkissä eniten on rivejä, joilta ei puutu tietoa (pylväs 1) ja toiseksi eniten rivejä, joilta puuttuu arvo muuttujasta sr (pylväs 3).
Lineaarinen regressio ja puuttuvat havainnot
Täydellisten havaintorivien ja käytettävissä olevien havaintojen analyysi voidaan toteuttaa lineaariselle regressiolle valitsemalla ensin normaalin tapaan Analyze - Regression - Linear ja painalla avautuvasta ikkunasta kohtaa Options...
Täydelliset havaintorivit saadaan valitsemalla Exclude cases listwise ja käytettävissä olevien havaintojen analyysi valitsemalla Exclude cases pairwise. Tehdään molemmat peräjälkeen, ensin listwise:
Klikkaa Continue. Siirrä sr riippuvaksi muuttujaksi ja muut riippumattomiksi. Jos halutaan tulostaa myös korrelaatiomatriisit, valitaan Statistics -valikosta kohta Part and partial correlations ja sen jälkeen Continue. Tämän jälkeen painetaan vielä lopuksi OK.
Syntaksina sama voidaan toteuttaa seuraavasti:
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA ZPP
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT sr
/METHOD=ENTER pop15 pop75 dpi ddpi.
Saadaan tulokseksi korrelaatiomatriisit ja lineaarisen regressioanalyysin tulokset.
Käytettävissä olevien havaintojen analyysi saadaan samalla tavalla, mutta valitsemalla Exclude cases pairwise.
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING PAIRWISE
/STATISTICS COEFF OUTS BCOV R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT sr
/METHOD=ENTER pop15 pop75 dpi ddpi.
Syntaksissa kohta Missing listwise viittaa täydellisiin havaintoriveihin ja Missing pairwise käytettävissä oleviin havaintoriveihin. Huomataan, että täydellisten havaintorivien tapauksessa otoskoko on kaikille sama, mutta käytettävissä olevien havintojen analyysin tapauksessa otoskoko vaihtelee. Tässä esimerkissä regressiokertoimien estimaattien erot ovat pieniä.