Tilastot tutkimuksessa

Lukuaika noin 9 min

Marja Alastalo & Noora Ellonen (viittausohje)

Vaikka tilastot eivät usein tule ensimmäisenä aineistovaihtoehtona mieleen opinnäytettä tai tutkimusta suunniteltaessa, tarjoavat tilastot monia mahdollisuuksia tutkimukselle. Avaamme tässä tekstissä aluksi hieman sitä, mitä tilastot ovat ja miten tilastojen tieto muodostuu. Käsittelemme myös, millaista aineistoa tilastot tarjoavat tutkijoille sekä miten niitä on käytetty tutkimuksessa. Lopuksi kerromme, miten tutkija löytää tilastojen ja niitä koskevan lisätiedon äärelle.

Mitä tilastot ovat? Ankkurilinkki ikoni

Tilastot ovat kvantitatiiviseen aineistoon pohjautuvia yhteiskunnallisten ilmiöiden kuvauksia, jotka esitetään taulukon tai kuvion muodossa. Mikä tahansa kvantitatiivista aineistoa tiivistävä taulukko ei kuitenkaan ole tilasto. Tilastot ovat aikaan sidottuja, säännöllisesti toistuvia ja ajantasaisia. Ne siis kuvaavat jotain ilmiötä, kuten vaikkapa väestörakennetta, tiettynä ajankohtana, yleensä kalenterivuoden viimeisenä päivänä, määräajoin eli useimmiten vuosittain ja mahdollisimman ajantasaisesti.

Tilastojulkistukset sisältävät myös niin kutsuttua metatietoa. Metatiedoilla tarkoitetaan selostusta tilaston muodostamisessa käytetyistä käsitteistä, luokituksista ja menetelmistä. Laatuselosteella tarkoitetaan kuvausta tilastossa käytettyjen tietojen luotettavuudesta, tarkkuudesta ja mahdollisista virhelähteistä. Laatuselosteet sisältävät myös yksityiskohtaisen menetelmäkuvauksen, jossa kerrotaan esimerkiksi otoksesta, tiedonkeruumenetelmästä ja vastausasteesta.

Tilastot ovat välttämättömiä demokraattisen yhteiskunnan toiminnalle. Tilastot tuottavat monista yhteiskunnassa tärkeäksi nähdyistä asioista tilannekuvan, jota voidaan hyödyntää eri tarkoituksiin. Esimerkiksi Suomen EU-jäsenmaksu määräytyy tilastotiedon, muun muassa kansantalouden tilinpitotilaston bruttokansantulolaskelman, perusteella. Kun kuluneen vuoden aikana poliisille ilmoitetut rikokset raportoidaan vuosittaisissa rikostilastoissa, viranomaiset käyttävät tietoa rikollisuuden ennaltaehkäisyssä. Tilastojen toistuvuus mahdollistaa ilmiöiden ennustamisen. Tästä tutuin esimerkki lienee väestöennuste, jota käytetään muun muassa kunnallisessa palvelujen suunnittelussa ja mitoittamisessa. Tilastotietoja käytetään myös toimenpiteiden vaikutusten arvioinnissa tuottamalla kuvauksia tilanteesta ennen ja jälkeen muutoksen. Lisäksi tilastot kiinnostavat mediaa tiedonvälittäjänä.

On tärkeää huomata, että vaikka tilastoja voidaan hyödyntää moneen poliittisesti relevanttiin kysymykseen, tilastointi itsessään on riippumatonta politiikasta. Tilastojen laadinta perustuu tilastoammatilliseen professionalismiin, jonka kulmakiviä ovat ammatillinen riippumattomuus ja tilastollisten menetelmien hallinta sekä tietolähteiden ja eettisen sääntelyn tuntemus. Vertailukelpoisuuden takaamiseksi tilastot noudattavat kansallisia ja kansainvälisiä suosituksia ja standardeja. Lisäksi tilastointia säätelee kansallinen ja Suomen tapauksessa myös EU-tasoinen lainsäädäntö (Tilastolaki 280/2004). Myös joistakin yksittäisistä Euroopan unionin tilastoista säädetään lailla, kuten esimerkiksi EU:n väestötilastoinnista, työvoimatutkimuksesta ja EU:n tulo ja elinolot -tilastosta (EU 1260/2013; EY 577/98; EY 1177/2003).

Mistä tilastot kertovat? Ankkurilinkki ikoni

Tilastot jaetaan usein sisällön perusteella kolmeen ryhmään: väestö- ja sosiaalitilastoihin, taloustilastoihin ja ympäristötilastoihin. Suomen virallinen tilasto (Avautuu uuteen välilehteen) (SVT) on yhteiskunnan kehitystä ja tilaa kuvaavien tilastojen kattava kokoelma. Siihen kuuluu lähes kolmesataa tilastoa 26 aiheesta, joita ovat muun muassa asuminen, koulutus, työmarkkinat, oikeus ja väestö. Terveyden ja hyvinvoinnin laitos (Avautuu uuteen välilehteen) (THL) tilastoi puolestaan tietoja sosiaali- ja terveyspalvelujen käytöstä sekä tietoja lapsisista, nuorista, perheistä jne. (ks. THL: Tilastot aiheittain (Avautuu uuteen välilehteen) ).

Suomessa tilastotoimi koostuu 13 virastosta tai laitoksesta, joista suurin osa tuottaa tilastoja Suomen viralliseen tilastoon (SVT). Tilastolaki jaottelee tilastotoimen organisaatiot kolmeen ryhmään: 1) tilastoviranomaiset, 2) tilastoja laativat viranomaiset ja 3) muut tilastontuottajat.

Tilastolain määrittelemät neljä tilastoviranomaista ovat valtion tilastotoimen yleisviranomainen Tilastokeskus, Luonnonvarakeskus, Terveyden ja hyvinvoinnin laitos (THL) sekä Tulli. Tilastoviranomaisilla on oikeus kerätä tietoja tilastotarkoituksiin laissa säädetyn tiedonantovelvollisuuden perusteella. Tiedonantovelvollisuus tarkoittaa sitä, että esimerkiksi valtion viranomaiset ja kunnat ovat velvollisia antamaan tilastoviranomaiselle tilastojen laatimisen kannalta välttämättömät tiedot salassapitosäännösten estämättä. Tilastoja laativia viranomaisia ovat ilmatieteen laitos, Liikenne- ja viestintävirasto Traficom, maanmittauslaitos, Maahanmuuttovirasto, Suomen ympäristökeskus ja työ- ja elinkeinoministeriö. Muita tilastontuottajia ovat Eläketurvakeskus, Kansaneläkelaitos ja Työterveyslaitos.

Myös muut kuin tilastolaissa mainitut instituutiot julkaisevat tilastoja. Näin tekevät esimerkiksi ammattiliitot, työnantajajärjestöt ja muut etujärjestöt.

Mihin tilastot perustuvat? Ankkurilinkki ikoni

Suomessa tilastot perustuvat sekä viranomaisrekistereihin että kyselyaineistoihin. Tilastolaki velvoittaa tilastoviranomaiset käyttämään tilastoja laatiessaan ensisijaisesti "hyväksi julkishallinnon tehtävien hoitamisessa kertyneitä sekä elinkeinon- ja ammatinharjoittajien, yhteisöjen ja säätiöiden tavanomaisen toiminnan seurauksena syntyneitä tietoja." (Tilastolaki (280/2004, 4§).

Tilastokeskus on esittänyt, että tilastojen datasta 95 prosenttia on peräisin rekistereistä ja loput viisi prosenttia kyselyaineistoista. Tilastot perustuvat monentyyppisiin rekistereihin. Rekisterit ovat tietovarantoja, jotka voi jaotella viranomaisten ylläpitämiin hallinnollisiin ja tilastorekistereihin sekä tilastoviranomaisten ylläpitämiin tilastorekistereihin. Vaikka rekisterit ovat keskeisin tilastojen aineistolähde, myös kyselyaineistot ovat tärkeitä. Monet väestö- ja sosiaalitilastot perustuvat sekä rekisteri- että kyselyaineistoon, koska kaikkea tietoa ei ole mahdollista saada rekistereistä. Vastaustaakan pienentämiseksi kyselyaineistoihin yhdistetään tietoja rekistereistä henkilötunnuksen avulla. Lisäksi Tilastokeskus julkaisee Kokeelliset tilastot (Avautuu uuteen välilehteen) -otsikolla tilastoja, joista osa perustuu uusiin datalähteisiin, kuten asuntojen myynti- ja vuokrailmoituksiin.

Tilastot tutkimuksessa Ankkurilinkki ikoni

Tilastoja voi käyttää tutkimuksessa monella tavalla. Ensinnä tilastotauluista poimittujen lukujen avulla voi kontekstualisoida eli taustoittaa tutkimuskohdetta. Paikantamalla tilastojen avulla esimerkiksi ajallisia muutoksia voi perustella tutkimuksen kohteen valintaa. Tällöin tilastotieto toimii taustatietona, ja varsinainen empiirinen aineisto on jokin muu määrällinen tai laadullinen aineisto, jota sitten analysoidaan tutkimuksessa. Esimerkiksi Pasi Pyöriä on taustoittanut ihmisten etätyön kokemuksia käsittelevää tutkimustaan Tilastokeskuksen tilastoilla etätyön yleisyydestä, mutta tutkimuksen varsinainen empiirinen osa perustuu teemahaastatteluaineiston laadulliseen analyysiin (Pyöriä, 2003).

Toiseksi tutkija voi koostaa tutkimuksensa empiirisen aineiston tilastojulkistuksista tai tilastoviranomaisten tietokantatauluista. Tilastot tarjoavat mahdollisuuksia muun muassa maiden väliseen vertailuun, joka muunlaisella aineistolla voi olla hankalaa. Esimerkiksi Eriikka Oinonen (2004) on käyttänyt useita eurooppalaisia tilastoja, kuten Eurostatin (Avautuu uuteen välilehteen) ja YK:n (Avautuu uuteen välilehteen) tuottamia tilastoja tutkiessaan perheenmuodostamista Suomessa ja Espanjassa. Noora Ellonen kumppaneineen (2015) ovat puolestaan vertailleet lastensurmia 28 teollisuusmaassa käyttäen aineistona WHO: n tilastoja (WHO Mortality database (Avautuu uuteen välilehteen) ).

Edellä mainitut esimerkit perustuvat tilastojulkistuksista kerätyistä tiedoista koostettuihin aineistoihin. Tilastojulkaisulla tarkoitetaan tiettynä ajankohtana julkaistua tilastoa tai tilastokoostetta, joka sisältää vain julkaisuhetkellä siihen sisällytetyt tiedot. Nykyään tilastojulkaisujen rinnalle on muodostettu tilastotietokantoja, joista tutkija voi rajatusta muuttujajoukosta itse määritellä, mitä tietoja haluaa omaan aineistoonsa. Esimerkiksi Juha Kääriäinen (2019) on tutkinut rangaistuskäytäntöjen alueellista yhtenäisyyttä kahdeksassa rikoslajissa käyttäen tällaista tietokantaa.

Kolmanneksi tutkija voi käyttää aineistonaan tilastointia varten tuotettua mikro- eli yksikkötason aineistoa. Esimerkiksi Eurostat tuottaa tilastoaineistoista mikroaineistoja tutkimuskäyttöä varten. Ne perustuvat jäsenvaltioiden tilastoviranomaisten EU-harmonisoituja tilastoja varten keräämiin kyselyaineistoihin yksilöistä, kotitalouksista tai yrityksistä. Tällaisia aineistoja on mahdollista käyttää tutkimuksissa tunnisteellisena hakemalla käyttölupaa Eurostatilta. Esimerkiksi Stine Rasmussen kumppaneineen (2019) on tutkinut epätyypillisiä työsuhteita käyttäen työvoimatutkimuksen (European Union Labour Force Survey, EU-LFS) mikroaineistoa.

Mitä tutkijan on syytä muistaa? Ankkurilinkki ikoni

Tilastoja tutkimuksessa käyttävän on syytä aina muistaa, että tilastot ovat tilastoviranomaisten koostamia ja usein viranomaisrekistereihin perustuvia, eikä niitä siten ole koottu ensisijaisesti tutkimustarkoituksiin. Tämän seurauksena tilastoista voi puuttua tietoja, jotka tutkimuksessa olisi tärkeä huomioida.

Koska monet tilastot kuvaavat nimenomaan viranomaistoimintaa, esimerkiksi ajalliset muutokset voivat selittyä ilmiössä tapahtuneen muutoksen sijasta muutoksilla lainsäädännössä, hallinnonalan käytännöissä tai tietojärjestelmissä ja tiedonkeruun tavoissa.

Myös kulttuurin ja yhteiskunnan muutokset voivat vaikuttaa tilastojen pohjalla oleviin aineistojen muutoksiin ja siten tilastoihin. Esimerkiksi viharikoksia koskevat tilastot perustuvat poliisille tehtyihin rikosilmoituksiin, jotka poliisi on luokitellut poliisien tietojärjestelmässä viharikokseksi. Teon päätyminen tilastoon edellyttää siis ensinnäkin teon tunnistamisen rikokseksi ja siitä ilmoittamisen sekä toiseksi poliisin toimintaa, jossa hän luokittelee rikoksen juuri tähän kategoriaan liittyväksi. Tekojen viharikokseksi tunnistamisen herkkyyteen puolestaan vaikuttavat monet seikat kuten esimerkiksi asian esillä olo julkisuudessa.

Tilastojen aikajänne selittyy usein lainsäädännöllisillä tai muilla hallinnollisilla muutoksilla. Kun esimerkiksi rikoslain rikosnimikkeet ja niiden määrittelyt muuttuvat, se näkyy suoraan ilmiön tilastoinnissa. Lastensuojelutilaston aikajännettä puolestaan selittävät lastensuojelulainsäädännön muutokset. Lastensuojelutilasto alkoi vuonna 1937, jolloin Suomen ensimmäinen lastensuojelulaki tuli voimaan. Tiedonkeruu ja tilasto katkesivat, kun uusi lastensuojelulaki tuli voimaan 1983 ja sen myötä viranomaiset alkoivat tehdä uudenlaisia toimenpiteitä. Tiedonkeruu käynnistettiin uudelleen vuonna 1991, mikä onkin monien nykyisten aikasarjojen ensimmäinen vuosi. Myös myöhemmät lakiuudistukset, etenkin vuoden 2008 uusi lastensuojelulaki, ovat vaikuttaneet tilastointiin. Tämä näkyy muun muassa uusina tilastotauluina.

Tilastoja aineistonaan käyttävän on syytä tuntea nämä instituutioiden, lainsäädännön ja viranomaiskäytäntöjen muutokset sekä pyrkiä tunnistamaan niiden lisäksi myös laajempien yhteiskunnallisten ja kulttuuristen muutosten vaikutus tilastointiin. Tämä on välttämätöntä, jotta voi välttyä virhepäätelmiltä.

Lisäksi tilastojen käyttäjän on aiheellista kiinnittää huomiota siihen, kuka on tilaston tuottanut. Kuten aiemmin jo mainitsimme, tilastoja tuottavat ja julkaisevat esimerkiksi monet etujärjestöt, joiden tilastotuotantoa ei säätele lainsäädäntö eikä se myöskään välttämättä noudata tilastoalan ammatillisia ja eettisiä periaatteita. Myös niiden tuottamaa aineistoa on mahdollista käyttää tutkimuksessa, mutta se edellyttää erityistä huolellisuutta käytettyjen käsitteiden ja menetelmien suhteen.

Mistä tilastoja saa? Ankkurilinkki ikoni

Helpointa on etsiä tilastoja tilastoviranomaisten verkkosivuilta, josta niitä saa maksutta käyttöönsä. Tilastojulkistukset voivat olla laajoja raportteja tai lyhyehköjä tekstejä, joihin on koottu keskeiset asiat taulukoihin ja kuvioihin. Kuten edellä on jo käynyt ilmi, julkistukset sisältävät usein tietokantataulukoita, joiden avulla käyttäjä voi tehdä haluamiaan taulukoita annetuilla muuttujilla.

Tämän lisäksi tilastoviranomaisten ylläpitämiä rekisteri- ja muita yksikkötason aineistoja on mahdollista saada tutkimuskäyttöön maksullisista tutkimuspalveluista.

Vaikka tilastoja haetaan usein verkkosivuilta ja myös niiden kautta on saatavissa myös aikasarjoja, on syytä muistaa, että joissain tilanteissa (etenkin historiallisessa tutkimuksessa) painetut tilastolliset vuosikirjat voivat olla korvaamaton lähde.

Tilasto- ja datavarantoja Ankkurilinkki ikoni

Tilastokeskus
Tilastokeskus (Avautuu uuteen välilehteen) on valtion tilastotoimen yleisviranomainen, joka tuottaa ja julkaisee tilastoja. Sen verkkosivuilla löytyvät kaikki Tilastokeskuksen tuottamat tilastot ja lisäksi linkit Suomen virallisen tilaston tuottajien tilastoihin. Tilastokeskus luetteloi tilastot aakkosissa, asiasanoittain, aihealueittain ja tuottajittain. Kunkin tilaston yhteydessä on tuorein julkistus taulukoineen, liite- ja tietokantataulukoineen. Tietokantataulukoiden avulla on mahdollista muokata omia taulukoita annettujen muuttujien ja aineiston avulla.

Tilastokeskuksella on myös maksullinen tutkijapalvelu, josta voi hankkia yksikkötason aineistoja tutkimuksiin ja selvityksiin. Aineistojen hinnat löytyvät Tilastokeskuksen verkkosivuilta (Avautuu uuteen välilehteen) .

Terveyden ja hyvinvoinnin laitos, THL
Tilasto- ja rekisteriviranomaisena THL (Avautuu uuteen välilehteen) tarjoaa maksutta laajasti tilastoja ja aineistoja sosiaali- ja terveydenhuollon eri aihealueilta päätöksenteon, kehittämisen ja tutkimuksen tueksi. THL julkaisee tilastoraportteja, taulukko- ja kuviokoosteita sekä tietokantataulukoita. Lisäksi THL ylläpitää tilasto- ja indikaattoripankki Sotkanetia (Avautuu uuteen välilehteen) , joka sisältää tilastotietoa väestön terveydestä ja hyvinvoinnista sekä palvelujärjestelmän toiminnasta.

Findata
Findata (Avautuu uuteen välilehteen) on sosiaali- ja terveysalan tietolupaviranomainen, joka toimii THL:n yhteydessä. THL:n salassapidettäviin aineistoihin lupa haetaan Findatan kautta.

Opetushallituksen tilastopalvelu Vipunen
Vipunen (Avautuu uuteen välilehteen) on opetushallinnon tilastopalvelu, jonka sisällöstä vastaavat yhdessä opetus- ja kulttuuriministeriö ja Opetushallitus. Vipunen sisältää tilasto- ja indikaattoritietoa muun muassa eri sektoreiden koulutuksesta ja koulutuksen jälkeisestä sijoittumisesta, korkeakouluissa tehdystä tutkimuksesta sekä väestön koulutusrakenteesta ja opiskelijoiden sosioekonomisesta taustasta. Tilastot perustuvat paitsi Opetushallituksen omiin, myös Tilastokeskuksen ja opetus- ja kulttuuriministeriön keräämiin tietoihin ja rekistereihin.

Eurostat
Eurostat (Avautuu uuteen välilehteen) on Euroopan komission alainen tilastotoimisto, joka tuottaa ja julkaisee tilastoja Euroopan unionin tarpeisiin jäsenvaltioiden kansallisten viranomaisten toimittaman datan pohjalta. Eurostatin tehtäviin kuuluu myös tilastoluokitusten ja -menetelmien yhdenmukaistaminen.

Tutkija voi hakea Eurostatin kautta valmiiksi taulukoitua tilastotietoa. Parhaimmillaan sivuilta löytää yhdenmukaisilla käsitteillä tuotettua tietoa kaikista jäsenvaltioista ja usein myös joistain muista maista kuten Islannista, Norjasta, Sveitsistä ja Turkista.

Valmiiden tilastotaulukoiden lisäksi Eurostatin kautta on saatavilla myös kansallisten viranomaisten EU:n tilastointia varten keräämiä mikrodatoja. Tunnetuimpia ja varsin paljon tutkimuksessa käytettyjä ovat esimerkiksi Labour Force Survey (LFS) ja The European Union Statistics on Income and Living Conditions (EU-SILC). EU:n työllisyystilastot perustuvat pääosin ensiksi mainittuun kyselyaineistoon. Jälkimmäinen taas keskittyy tulonjakoon ja sen perusteella tuotetaan tulonjakoa koskevaa tilastoa ja keskeisiä köyhyysindikaattoreita (kuten AROPE). Esimerkiksi työvoimatutkimuksen aineiston julkinen versio on kenen tahansa ladattavissa Eurostatin sivuilta, mutta siitä on myös laajempi tutkimuskäyttöön tarkoitettu mikrodata, joka edellyttää käyttöluvan hakemista.

Jos kiinnostuit tilastoista ja tilastoinnista, voit opiskella lisää Tilastokeskuksen tilastokoulusta (Avautuu uuteen välilehteen) , jossa on monia tilastointia käsitteleviä kursseja.