Frekvenssijakauma, keski- ja hajontaluvut - SPSS-harjoitukset 2 (tehtävät 1-3)

Jos olet ensimmäistä kertaa aloittamassa SPSS-harjoitusta, on ennen varsinaisen harjoituksen tekemistä syytä tutustua opiskeluohjeisiin.

Näissä kolmessa harjoituksissa tarkastellaan eri mittaustason muuttujien jakaumia ja näiden kohdalla huomioonotettavia erityispiirteitä. Huomaa, että esimerkit on tehty toisiaan tukemaan; tehtävät kannattaa tehdä annetussa järjestyksessä, jottei mikään tärkeä seikka jäisi huomioimatta. Turhaa toistoa on pyritty välttämään niin ohjeistuksessa kuin tulkinnassakin.

Tässä harjoituksessa käytetään havaintoaineistona osaa vuoden 2019 ISSP-tutkimuksen Suomen aineistosta, osaISSP. Huomaa, että harjoituksissa käytetään painotettua aineistoa (ks. havaintojen painottaminen).

Havaintoaineiston hakemisesta SPSS-ohjelmaan on erilliset ohjeet.

Tehtävä 1 Ankkurilinkki ikoni

Tutkitaan vastaajien äänestysinnokkuutta kyselyhetkeä edeltäneissä vuoden 2019 eduskuntavaaleissa.

Tarkastellaan seuraavaa muuttujaa:

k50 Jotkut ihmiset jättävät nykyään syystä tai toisesta äänestämättä. Äänestitkö viime eduskuntavaaleissa huhtikuussa 2019?

Vastausvaihtoehtoina on 1 = Kyllä, 2 = En ja 3 = Minulla ei ollut äänioikeutta.


Mikä on muuttujan mittaustaso?

Mittaustaso määrittää sen, millaisia ominaisuuksia (frekvenssit, keski- ja hajontaluvut) muuttujasta on mielekästä tutkia ja raportoida.

Tutkittavaksi valittu muuttuja k50 on luokitteluasteikollinen eli nominaalinen. Millaisia keski- ja hajontalukuja tällaisesta muuttujasta kannattaa tutkia?


Avaa SPSS:stä ikkuna, jonka avulla pääset katsomaan perustunnuslukuja komennolla Analyze - Descriptive Statistics - Frequencies...

Frequences-ylävalikko

Aluksi kannattaa klikata Reset -painiketta, jotta mahdolliset aikaisemmin tehdyt määritykset nollauntuvat.

Etsi sitten vasemmanpuoleisesta valikosta muuttuja k50, ja siirrä se nuolen avulla Variable(s)-laatikkoon.

Frequences-valikko

Klikkaa Statistics-kohtaa. Täältä voit määrittää aikaisemmin miettimäsi keski- ja hajontaluvut.

Koska kyseessä on luokitteluasteikollinen muuttuja, ainoa mielekäs keskiluku on moodi (Central Tendency - Mode), joten valitaan tämä. Hajontaluvuista ainut mahdollinen olisi variaatiosuhde, mutta tämä täytyy jättää käsin laskettavaksi.

Frekvenssit-statistics

Paina sitten Continue palataksesi päävalikkoon.


Valikossa on oletusarvoisesti valittuna Display frequency tables. Tämä kannattaa klikata pois vain siinä tapauksessa, että tarkastelun alla on sellainen jatkuva muuttuja, joka saa niin paljon eri arvoja, että jokaisen yksittäisen luvun esittäminen taulukossa ei ole enää mielekästä.

Charts -kohtaa painamalla pääset halutessasi valitsemaan muuttujan arvoja havainnollistavan graafisen esityksen.


Klikkaa sitten OK, ja siirry Outputiin tarkastelemaan tuloksia.

Ensin tutkitaan Statistics-taulukkoa. Saitko samanlaisen?

Statistics-taulukko

Tästä nähdään seuraavat asiat:

  • 951 henkilöä vastasi kysymykseen, ja puuttuvia vastauksia on 40
  • Moodi eli tyyppiarvo on 1. Tämä tarkoittaa siis sitä, että suurin osa vastaajista äänesti edellisissä eduskuntavaaleissa

Puuttuvien vastausten määrä kannattaa aina tarkistaa jokaisesta tutkittavasta muuttujasta; suuri vastauskato voi esimerkiksi kertoa tutkittavan asian epäonnistuneesta operationalisoinnista. Tällöin saatua tulosta ei voi pitää luotettavana.

Seuraavana näytöllä on frekvenssitaulukko.

Frekvenssitaulukko

Tästä näemme esim. seuraavat asiat:

  • 745 henkilöä eli 75,2 % kaikista havainnoista tai 78,4 % kaikista kysymykseen vastanneista äänesti vuoden 2019 eduskuntavaaleissa
  • 93,5 % vastanneista oli tuolloin äänioikeutettuja

Kyseisissä vaaleissa Suomessa asuvien osalta äänestysprosentti oli Tilastokeskuksen mukaan 72,1 %. Jos ilman äänioikeutta olleet jätetään pois laskuista, on käsiteltävän aineiston vastaajien joukossa äänestysprosentti huomattavasti tätä korkeampi, 83,9 % (=100*(745/(745+143))). Mistä ero aineiston ja perusjoukon välillä voisi johtua?

Aineistossa ei ensinnäkään tarkastella koko äänestysikäistä väestöä, vaan enintään 74-vuotiaita. Aineistossa on myös katoa (vastausprosentti on 39,6) ja siihen on saattanut valikoitua keskimääräistä aktiivisempia äänestäjiä. Lisäksi äänestämisaktiivisuutta tarkastelevissa kysymysten kohdalla on havaittu, että osa vastaajista on taipuvaisia vastaamaan niihin todellista myönteisemmin, koska äänestämättä jättämistä ei aina pidetä hyväksyttävänä.


Tehtävä 2 Ankkurilinkki ikoni

Tutkitaan vastaajien mielipiteitä siitä, ovatko tuloerot Suomessa liian suuret.

Tarkastellaan seuraavaa muuttujaa:

k27a Mitä mieltä olet seuraavista väittämistä? Tuloerot ovat Suomessa liian suuret

Vastausvaihtoehtoina ovat 1 = Täysin samaa mieltä, 2 = Samaa mieltä, 3 = En samaa enkä eri mieltä, 4 = Eri mieltä, 5 = Täysin eri mieltä ja 8 = En osaa sanoa.


Mikä on tällä kertaa muuttujan mittaustaso?

Tutkittavaksi valittu muuttuja on nyt järjestys- eli ordinaaliasteikollinen, joten siitä voi tutkia useampia tilastollisia tunnuslukuja kuin tehtävän 1 tapauksessa. Mitkä nämä tunnusluvut ovat?


Yleensä mielipidemuuttujia tutkittaessa "en osaa sanoa" -vaihtoehto asetetaan puuttuvaksi tiedoksi, jotta vältettäisiin tunnuslukujen vääristyminen.

Aseta vastausvaihtoehto 8 puuttuvaksi klikkaamalla SPSS:n Variable View -välilehden Missing -sarakkeen sinistä ruutua muuttujan k27a kohdalla.

Puuttuvien arvojen määrittäminen

Valitse uudesta ikkunasta Discrete missing values ja kirjoita luku 8 tämän alla olevaan kenttään. Paina lopuksi OK.

Puuttuvat arvot

Mene valikkoon Analyze - Descriptive Statistics - Frequencies... ja klikkaa Reset-painiketta.

Etsi sitten vasemmanpuoleisesta valikosta muuttuja k27a ja siirrä se nuolen avulla Variable(s)-laatikkoon.

Mene seuraavaksi määrittämään tarvittavat keski- ja hajontaluvut Statistics-valikosta.

Koska kyseessä on järjestysasteikollinen muuttuja, voidaan keskilukuina tutkia sekä moodia että mediaania (Median). Vaihteluväli voidaan tarkastaa katsomalla muuttujan saamaa pienintä ja suurinta arvoa (Dispersion - Minimum ja Maximum).

Frekvenssit-statistics

Paina sitten Continue palataksesi päävalikkoon.


Voit myös käydä valitsemassa esimerkiksi pylväskuvion Charts-valikosta.

Klikkaa sitten OK ja siirry Outputiin tarkastelemaan tuloksia. Huomaa, että tässä esitetyt tulokset ovat painotetusta aineistosta.

Ensin tutkitaan Statistics-taulukkoa. Saitko samanlaisen?

Statistics-taulukko

Tästä nähdään mm. seuraavat asiat:

  • Mediaani on 2, joten enemmistö pitää tuloeroja liian suurina
  • Myös yleisin yksittäinen vastausvaihtoehto on 2, ja jokainen arvo välillä 1-5 on saanut havaintoja tuekseen

Seuraavaksi siirrytään katsomaan frekvenssitaulukkoa.

Frekvenssitaulukko

  • Vain 30 vastaajaa eli 3,0 % kaikista havainnoista tai 3,1 % kaikista mielipiteensä arvoilla 1-5 ilmaisseista on täysin eri mieltä esitetyn väitteen kanssa
  • Eri mieltä tai täysin eri mieltä olevien osuus vastanneista on 15,2 %
  • 68,8 % vastanneista pitää tuloeroja liian suurina


Tehtävä 3 Ankkurilinkki ikoni

Viimeisessä harjoituksessa tutkitaan vastaajien ilmoittamia bruttokuukausituloja, joita kysyttiin muuttujassa

k54 Kuinka suuret keskimäärin ovat omat kuukausitulosi veroja vähentämättä (=bruttotulot) mukaan lukien pääomatulot ja kaikki sosiaalietuudet? (euroa kuukaudessa)

Kyseessä on numeerinen muuttuja, mutta onko se välimatka- vai suhdeasteikollinen?

Käytännön kannalta ei ole juurikaan väliä, kumpaa tyyppiä muuttuja on, sillä yleisimmin käytetyt tunnusluvut voidaan laskea millaiselle tahansa numeeriselle muuttujalle. Kuitenkin erot näiden välillä on hyvä tuntea, jos suorittaa esimerkiksi vaativampia tilastollisia tarkasteluja.


Pääset nopeasti oikeaan valikkoon myös Dialog Recall -pikakuvakkeen Dialog Recall-pikakuvake kautta klikkaamalla sitä kerran ja valitsemalla ylimmäisenä olevan Frequencies -toiminnon.

Nollaa aikaisemmin tehdyt määritykset ja valitse muuttuja k54 tarkastelun alle, ja siirry sitten Statistics-kohtaan.

Tutkittavana on siis suhdeasteikollinen muuttuja, joten olisi periaatteessa mahdollista valita kaikki ikkunan esittämät tunnusluvut. Valitaan kuitenkin nyt näistä käytetyimmät ja jätetään loppujen käyttö ja tulkinta vapaaehtoiseksi tehtäväksi.

Valitaan kvartiilit (Percentile Values - Quartiles). Halutessasi voit myös määrittää vaihtoehtoisia prosenttiosuuksia näytettäväksi Percentile(s)-kohdassa tai jakaa aineiston tiettyyn määrään havainnoiltaan yhtä suureen osaan Cut points for: _ equal groups -kohdassa. Keskilukuihin valitaan edellisten lisäksi keskiarvo (Mean). Hajontalukuihin otetaan mukaan keskihajonta (Std. deviation). Varianssi (Variance) kertoo samasta asiasta, mutta keskihajonta on helpompi tulkita. Range eli vaihteluväli on pienimmän ja suurimman arvon erotus, ja tämä voi olla hyödyllinen tuloerojen havainnollistamisessa.

Characterize Posterior Distribution -otsikon alla olevat tunnusluvut mittaavat jakauman vinoutta sekä huipukkuutta. Näitä voisi olla tarpeen katsoa, jos haluttaisiin esim. tutkia jakauman normaalijakautuneisuutta.

Frekvenssit-statistics

Palaa sitten päävalikkoon, paina OK ja siirry Outputiin tulosten pariin.

Ensisijaisena mielenkiinnon kohteena on nyt Statistics-taulukko. Kuten tehtävässä 1 mainittiin, jatkuvien ja lukuisia eri arvoja saavien muuttujien kohdalla frekvenssitaulukot eivät ole kovin mielekkäitä tutkittavia. Ehkä eniten näissä taulukoissa hyötyä on kumulatiivisista prosenteista (Cumulative Percent). Esimerkiksi tässä tapauksessa voimme sanoa, että 16,8 % vastaajista ilmoittaa kuukausituloikseen tuhat euroa tai alle.

Statistics-taulukko

Statistics-taulukosta nähdään muun muassa seuraavat asiat:

  • Keskiarvo on 2713,92 €, ja keskihajonta 1876,19 €. Vastaukset poikkeavat keskiarvosta siis keskimäärin 1876 euron verran. Käytännössä tulot eivät tässä voi alittaa nollaa, joten suuri keskihajonta tarkoittaa tässä sitä, että aineistossa on suuria arvoja, jotka kasvattavat hajontaa voimakkaasti.
  • Mediaani, 2400 €, on alle keskiarvon, joten suuret arvot ovat vaikuttaneet myös keskiarvoon suhteessa enemmän kuin pienet. Jakauma on näiden tietojen valossa epäilemättä jonkin verran oikealle vino.
  • 75 %:lla havainnoista kuukausittaiset tulot ovat 3500 € tai alle
  • Huomaa, että mediaani ja 50 % persentiili ovat sama asia: taulukoita muotoillessa kannattaa jättää vain toinen näkyviin (suosituksena mediaani) turhan toiston välttämiseksi
  • Ero pienimmän ja suurimman kuukausitulon välillä on 15 000 €. Muista, että huomiota herättäviin ääriarvoihin on syytä suhtautua aina varauksella. Joskus selvästi poikkeavan havainnon voi sulkea tarkastelujen ulkopuolelle, jos vastauksen "oikeellisuutta" on syytä epäillä. Toisaalta taas poikkeavat havainnot voivat edustaa tärkeitä, valtavirrasta poikkeavia yksilöitä, ja näiden sisällyttäminen tutkimukseen voi antaa arvokasta uutta tietoa mitattavasta asiasta tai ilmiöstä.

Jos haluttaisiin tutkia suomalaisten keskituloja, olisi syytä jättää tarkastelujen ulkopuolelle alle 18-vuotiaat tai perus- ja toisen asteen kouluja käyvät, jotteivät nuorimpien oletettavasti pienet tulot vääristä tuloksia.

Tällaisiin toimenpiteisiin voit käydä tutustumassa harjoituksessa, jossa lasketaan ikä syntymävuosimuuttujasta. Voit myös itsenäisesti kokeilla datan rajaamista Data - Select Cases -toiminnolla.