Puuttuvat havainnot - SPSS-harjoitus 1

Jos olet ensimmäistä kertaa aloittamassa SPSS-harjoitusta, on ennen varsinaisen harjoituksen tekemistä syytä tutustua opiskeluohjeisiin.

Tässä harjoituksessa käytetään R-ohjelmistosta löytyvää aineistoa säästämisasteista eri maissa vuosina 1960–1970 (LifeCycleSavings). Aineistoon on esimerkin vuoksi luotu puuttuvuutta kahteen muuttujaan. Lisätietoa alkuperäisestä aineistosta löytyy lisätietoa R Datasets Packagen aineistokuvailusta. Havaintoaineiston hakemisesta SPSS-ohjelmaan on erilliset ohjeet.

Harjoituksessa on käytetty IBM SPSS Statistics ohjelmiston versiota 22.0

Puuttuvuuden rakenne Ankkurilinkki ikoni

Puuttuvuuden rakennetta voi hahmottaa ristiintaulukoimalla muuttujakohtaisia puuttuvuusindikaattoreita. SPSS:ssä tämä löytyy valikosta Analyze - Multiple Imputations - Analyze Patterns...

pattern-valikko

Seuraavassa ikkunassa valitaan muuttujat, joiden puuttuvuuden rakennetta halutaan tarkastella ja siirretään ne oikealle puolelle kohtaan Analyze Across Variables.

pattern-valikko 2

Valitse ja siirrä kaikki muuttujat. Painamalla OK saadaan alla oleva tuloste.

puuttuvien muuttujien kuvailu

missing patterns

missing patterns 2

Taulussa Overall Summary of Missing Values esitetään, kuinka monessa prosentissa muuttujista, havaintoriveistä ja havainnoista puuttuvutta on.

Taulu Missing Value Patterns kertoo, minkälaisia havaintorivejä datasta löytyy. Punainen suorakulmio kertoo sen, että dataa puuttuu. Esimerkin tilanteessa havaintorivejä on kolmea eri tyyppiä: puuttuvutta ei ole missään muuttujassa, puuttuvuutta on vain ddpi-muuttujassa, puuttuvuutta on vain sr-muuttujassa. Alimmassa kuviossa näkyy myös, montako prosenttia kunkin tyyppisiä rivejä on. Tässä esimerkissä eniten on rivejä, joilta ei puutu tietoa (pylväs 1) ja toiseksi eniten rivejä, joilta puuttuu arvo muuttujasta sr (pylväs 3).

Lineaarinen regressio ja puuttuvat havainnot

Täydellisten havaintorivien ja käytettävissä olevien havaintojen analyysi voidaan toteuttaa lineaariselle regressiolle valitsemalla ensin normaalin tapaan Analyze - Regression - Linear ja painalla avautuvasta ikkunasta kohtaa Options...

regressio

Täydelliset havaintorivit saadaan valitsemalla Exclude cases listwise ja käytettävissä olevien havaintojen analyysi valitsemalla Exclude cases pairwise. Tehdään molemmat peräjälkeen, ensin listwise:

Klikkaa Continue. Siirrä sr riippuvaksi muuttujaksi ja muut riippumattomiksi. Jos halutaan tulostaa myös korrelaatiomatriisit, valitaan Statistics -valikosta kohta Part and partial correlations ja sen jälkeen Continue. Tämän jälkeen painetaan vielä lopuksi OK.

linearinen regressio Options

Syntaksina sama voidaan toteuttaa seuraavasti:

REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA ZPP
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT sr
/METHOD=ENTER pop15 pop75 dpi ddpi.

Saadaan tulokseksi korrelaatiomatriisit ja lineaarisen regressioanalyysin tulokset.

listwise korrelaatiot

listwise regressio

Käytettävissä olevien havaintojen analyysi saadaan samalla tavalla, mutta valitsemalla Exclude cases pairwise.

REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING PAIRWISE
/STATISTICS COEFF OUTS BCOV R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT sr
/METHOD=ENTER pop15 pop75 dpi ddpi.

pairwise korrelaatiot
pairwise regressio

Syntaksissa kohta Missing listwise viittaa täydellisiin havaintoriveihin ja Missing pairwise käytettävissä oleviin havaintoriveihin. Huomataan, että täydellisten havaintorivien tapauksessa otoskoko on kaikille sama, mutta käytettävissä olevien havintojen analyysin tapauksessa otoskoko vaihtelee. Tässä esimerkissä regressiokertoimien estimaattien erot ovat pieniä.

Creative Commons -lisenssi (Avautuu uuteen välilehteen)