Graafinen esitys (kuviot)

Lukuaika noin 13 min

Kuviot ovat visuaalinen tapa havainnollistaa ilmiöitä. Niiden tarkoituksena on helpottaa oleellisen informaation hahmottamista. Tässä esitetyt esimerkkikuviot on laadittu pääosin SPSS 26:n kuviotyökalua käyttäen. SPSS:llä onnistuu monimutkaistenkin kuvioiden toteuttaminen, mutta varsinkin käsittelemättömien SPSS-kuvioiden käyttämiseen julkaisuissa tai opinnäytteissä saatetaan suhtautua varauksella. SPSS:n Chart Builder -toiminnolla saa kuitenkin hieman aikaa käyttämällä aikaseksi lähes minkälaisia kuvioita tahansa.

Muutama esimerkki on tehty MS Excel 2019:llä. Tavanomaisimpien kuvioiden luominen Excelillä on suhteellisen yksinkertaista ja ne ovat yhteensopivia muiden usein käytettyjen ohjelmistojen kanssa. Toisaalta tietojen vieminen Exceliin vaatii lisätyötä ja vaativampien kuvioiden toteuttaminen voi olla aikaa vievää. Excel on kelpo vaihtoehto SPSS:lle, mutta sen käyttöä ei käsitellä tässä käsikirjassa sen enempää. Graafiseen esitykseen voi tietenkin käyttää myös varta vasten datan visualisointiin suunniteltuja ohjelmistoja.

Kuvioiden tekemisen taustalla on tietty näkökulma ja tarkasteltavat muuttujat, joiden jakaumia kuvataan, ovat luonteeltaan erilaisia. Ne asettavat kuviolle tiettyjä vaatimuksia, joiden huomioiminen lisää kuvioiden pätevyyttä. On olemassa vaara, että rutinoidutaan käyttämään yhtä kuviotyyppiä kaikissa tilanteissa. Tyypillisimpiä graafisia esitystapoja ovat pylväsdiagrammi ja viivadiagrammi. Joskus pylväsdiagrammi voidaan korvata sektoridiagrammilla ja joskus voi olla informatiivisempaa käyttää laatikko-jana -esitystä tai korrelaatiodiagrammia. Analysointivaiheessa luonnollisesti tutkitaan muuttujien välisiä yhteyksiä useilla eri tavoilla, mutta julkaistavaksi valitaan kuvio, joka on luonteenomaisin ja selkein kussakin tilanteessa.

Yksiulotteisen jakauman eli yhden muuttujan arvojen jakautumisen tarkasteluun liittyy oleellisesti jakauman sijainnin ja hajonnan kuvaaminen. Kahta muuttujaa tarkasteltaessa ollaan yleensä kiinnostuneita niiden yhteisjakaumasta, ts. halutaan tietää, onko muuttujien välillä keskinäistä riippuvuutta. Tutkittavana voi olla esimerkiksi, millainen yhteys näyttäisi tuloilla olevan mielipiteeseen siitä, kuinka paljon henkilö on valmis käyttämään kunnan rahoja omaishoidon tukeen. Riippuvuutta voidaan tarkastella pylväs-, viiva- ja laatikko-jana -kuviolla sekä korrelaatiodiagrammilla.

Kahden muuttujan tilanteessa näkökulma voi olla myös se, että toinen muuttuja jakaa aineiston osa-aineistoiksi ja toisen muuttujan jakaumaa tarkastellaan näissä osa-aineistoissa. Verrataan esimerkiksi eri kuntien asukkaiden mielipiteitä: eroavatko tamperelaisten ja oululaisten asenteet suhteessa omaishoidon tukeen. Tällöin verrataan asennemuuttujien absoluuttisia tai prosenttijakaumia tai vertailua tehdään tunnusluvuilla. Mikäli käytetään pylväskuvioita, muuttujien jakauma- tai tunnuslukupylväät (esim. keskiarvopylväät) voidaan tehdä vierekkäin samaan kuvioon tai ne voivat olla erillisinä kuvioina.

Näiden kahden em. näkökulman raja ei selviä aina suoraan muuttujien perusteella, mutta tutkija voi itse valita näkökulman. On tärkeää tiedostaa tietyn näkökulman esille nostaminen myös kuviossa. Esimerkkikuvioiden kohdalla esitetään joitakin vaihtoehtoisia näkökulmia.

Pylväskuvio
Kuvio 1. Kahden muuttujan absoluuttisten jakaumien vertailun mahdollistava pylväskuvio. (Suomalaisten luottamus eri instituutioihin, EVS 2017.)
Keskiarvokuvio
Kuvio 2. Jopa kymmenen eri muuttujan sijainnin vertailu onnistuu keskiarvokuviolla. (Suomalaisten luottamus eri instituutioihin, EVS 2017.)

Kolmea muuttujaa tarkasteltaessa voidaan myös valita kahden eri näkökulman välillä. Yhtäältä muuttujien väliset suhteet voidaan nähdä siten, että halutaan tarkastella kahden, yleensä taustamuuttujien, yhdysvaikutusta kolmanteen muuttujaan. Tässä voidaan hyödyntää ns. typologioiden muodostamista. Esimerkiksi iän ja sukupuolen ollessa taustamuuttujia ja asennemuuttujan riippuva muuttuja, saadaan selvitettyä nuorten naisten, vanhojen naisten, nuorten miesten ja vanhojen miesten välisten asenteiden eroja ja samanlaisuuksia, vaikkapa laatikko-jana -kuvioilla. Konkreettisesti typologiat saadaan muodostamalla tilasto-ohjelmassa uusi muuttuja, joka on yhdistelmä kahdesta muuttujasta: esimerkin tapauksessa tämän uuden muuttujan arvoja ovat 'nuoret naiset', 'vanhat naiset', 'nuoret miehet' ja 'vanhat miehet'. Tällöin palataan kuvioiden tekemisessä kahden muuttujan tilanteeseen.

Toisaalta voi olla tilanne, jossa yksi muuttuja jakaa tarkasteltavan aineiston ryhmiin, osa-aineistoihin, ja näissä ryhmissä vertaillaan kahden muuttujan riippuvuuksia. Verrataan esimerkiksi Tampereella ja Oulussa iän ja asenteiden välisiä riippuvuuksia. Jos riippuvuuksia halutaan verrata kahdessa tai useammassa osajoukossa, vertailuja voidaan tehdä suoraan jakaumakuvioilla tai tunnuslukukuvioilla (esim. keskiarvo tai mediaani, kvartiilit). Tällöin voidaan esimerkiksi verrata eri ryhmille (tamperelaisille ja oululaisille) tehtyjä 100 %:n pylväskuvioita toisiinsa.

Kuten kahta muuttujaa yhtä aikaa tarkasteltaessa, myös kolmen muuttujan tilanteessa voidaan käyttää samojakin kuvioita sekä osa-aineisto- että yhdysvaikutusnäkökulmasta katsottaessa. Myös osa-aineistotarkasteluissa voidaan käyttää mm. typologioita, esimerkiksi nuoret tamperelaiset, vanhat tamperelaiset ja nuoret oululaiset ja vanhat oululaiset. Jos halutaan korostaa osa-aineistoja, niille tehdään erilliset kuviot.

Kahden tai useamman muuttujan kuvioiden tulkintaa helpottaa, jos vaaka-akselilla on taustamuuttuja tai riippumaton muuttuja, mikäli tällainen asetelma muuttujien välillä on mahdollinen. Samoin prosenttiosuudet on syytä määritellä taustamuuttujan tai riippumattoman muuttujan ryhmissä. Näissä ryhmissä kussakin prosenttien summa on 100. Vaikka muuttujien välillä ei varsinaisesti voi määritellä, kumpi on taustamuuttuja, kysymyksen asettelu määrää, miten prosenttiosuudet lasketaan: Ollaanko kiinnostuneita ikäjakaumista sukupuolittain vai sukupuolista ikäluokittain. On myös tilanteita, joissa prosenttiosuus kokonaismäärästä on sisällöllisesti paras vaihtoehto.

Kuvion informatiivisuutta ajatellen siihen ei ole syytä laittaa liikaa tietoa – ei siis liian monta muuttujaa eikä liian useita luokkia. Julkaisuun valinnassa kannattaa erityisesti pohtia, onko kuviolla todella sille kuuluva erityismerkitys, jolla se palvelee lukijaa. Myös kuvioihin liittyvillä muotoseikoilla voidaan parantaa luettavuutta. Esimerkiksi keskenään vertailtaviksi tarkoitettujen kuvioiden asteikkojen on oltava samoja tai mahdollisimman vertailukelpoisia. On myös olemassa joitakin vakiintuneita ja hyväksi havaittuja käytäntöjä, kuten se, että kuvioiden otsikot kirjoitetaan julkaisuissa kuvioiden alapuolelle. (Ks. aiheesta luettavaa lisätiedoista.)

Seuraavassa muutamia pohdintoja erilaisiin kuvioihin liittyen sekä harvinaisemman laatikko-jana -kuvion tulkinnasta.

Sektoridiagrammi vai pylväskuvio? Ankkurilinkki ikoni

Kun mietitään sektoridiagrammia ja pylväskuviota vaihtoehtoisina yksiulotteisen jakauman kuvaajina, voidaan huomioida seuraavia seikkoja. Pylväsdiagrammissa korostuu muuttujien arvojen järjestys enemmän kuin sektoridiagrammissa. Siinä on selvästi ensimmäinen ja viimeinen pylväs – olemmehan tottuneet lukemaan vasemmalta oikealle. Sektoridiagrammissa ei sen sijaan ole selvää alku- ja loppukohtaa. Pylväsdiagrammiin voidaan valita joko lukumäärät tai prosentit, mutta sektoridiagrammissa korostuvat prosenttiosuudet. Luokittelutasoiselle muuttujalle käytetään usein sektoridiagrammia, erityisesti silloin, kun halutaan korostaa prosenttiosuuksia: ympyrän koko ala on koko aineisto, 100 %, ja sen sektorien pinta-alat kuvaavat tarkasteltavan muuttujan arvojen jakautumista. Mikäli luokkia on kovin paljon, pylväskuvio on selkeämpi kuin sektoridiagrammi. Vaikka sektoridiagrammia käytetään edelleen paljon, sen havainnollisuutta on kyseenalaistettu ja pylväskuvion käyttö voi usein olla perustellumpaa silloinkin, kun luokkia on vähän.

Sektoridiagrammi
Kuvio 3. Sektoridiagrammi soveltuu kuvaamaan sellaista muuttujaa, joka ei saa kovin paljon eri arvoja ja silloin, kun arvojen järjestystä ei haluta erityisesti korostaa. (Suomalaisten kuuluminen ammattiliittoon, ISSP 2019).

Pylväskuvio vai viivakuvio? Ankkurilinkki ikoni

Mikäli halutaan kuvata kumulatiivisia eli summautuvia lukumääriä tai prosentteja, voidaan käyttää joko pylväskuviota tai viivakuviota. Pylväskuviota voidaan pitää näyttävämpänä, mutta viivoja paksuntamalla myös viivakuvioon saadaan voimaa. Muuttujan muutosta ajassa luonnehtii paremmin viivakuvio kuin pylväskuvio, sillä aika on ilmiönä jatkuva. Mittaukset, joihin kuvio perustuu, on luonnollisesti tehty tiettyinä ajanhetkinä. Jatkuvaa muuttujaa voi jatkuvuuden korostamiseksi myös kuvata yhteen liitetyillä pylväillä, joista käytetään nimitystä histogrammi. Erillisiä pylväitä käytettäessä aika ikään kuin pysähtyy tiettyinä ajanhetkinä. Kuvien tekemiseen käytettävä ohjelmisto voi kuitenkin asettaa rajoituksia esim. luokitusten tekemisessä histogrammiin.

Pylväsdiagrammi
Kuvio 4. Kumulatiivinen pylväsdiagrammi soveltuu muuttujalle, joka saa useita arvoja järjestysasteikolla. Se korostaa muuttujan diskreettisyyttä ja muuttujan arvojen järjestystä. (Suomalaisten itsesijoittuminen huono- ja hyväosaisiin, ISSP 2019).

Kumulatiivisten kuvioiden ideana on se, että vasemmalta oikealle siirryttäessä lukumäärä tai prosentti sisältää myös vasemmalla puolella olevat määrät. Voidaan esimerkiksi ilmoittaa, että että asteikolla huono-osaisimmista hyväosaisimpiin n. 25 % suomalaisista sijoittaa itsensä ensimmäiseen viiteen luokkaan (kuvio 4). Tällaisesta kuviosta ei ole päätarkoitus nähdä, kuinka suuri osuus vastaajista sijoittaa itsensä yksittäiseen luokkaan, vaan se, kuinka suuri vastaajien kertynyt yhteismäärä on kunkin luokan kohdalla.

Kahden muuttujan välistä riippuvuuden tarkastelua voidaan havainnollistaa prosenttipylväillä, joko 100 %:n pylväskuvioina tai erillisistä prosenttipylväistä koostuvilla pylväiköillä. Tällöin vertaillaan toisen muuttujan luokissa toisen muuttujan prosenttijakaumia, esimerkiksi ikäluokittaisia asennejakaumia. Jakaumien vertaaminen lukumäärien avulla on hankalaa erityisesti silloin, kun ryhmittelevän muuttujan luokissa, esimerkiksi ikäluokissa on hyvin eri määrät tapauksia. Koska kahden muuttujan pylväsdiagrammissa on luettavuuden säilyttämiseksi oltava kohtuullinen määrä eri luokkia, paljon eri arvoja saavat muuttujat, esim. ikä, luokitellaan pylväsdiagrammin tekemistä varten.

Pylväskuvio
Kuvio 5. Kaksi vaihtoehtoista pylväskuviota prosenttijakaumien vertailuun. (Suomalaisten miesten ja naisten poliittinen kiinnostus, EVS 2017.)

Keskiarvo-, mediaani- ja moodipylväillä nähdään helposti jakaumien keskisijainti. Näistä käytetyin ja kuvaavin on keskiarvokuvio. Vaikka tilastollisessa mielessä sitä ei voitaisi hyväksyä järjestystasoisille muuttujille, on kuitenkin todettava, että kuvattava ilmiö tulee yleensä paremmin esille keskiarvokuviossa kuin mediaani- tai moodikuviossa. Tästä syystä keskiarvo on yleisesti hyväksytty yhteiskuntatieteellisissä tutkimuksissa kuvaamaan järjestystasoisten muuttujien jakaumien sijaintia.

Viivakuvio ja pylväskuvio
Kuvio 6. Samojen muuttujien keskiarvot kuvattuna viivakuviona ja pylväskuviona. (Suomalaisten itsesijoittuminen huono- ja hyväosaisiin, ISSP 2019). Asteikkoa on kohdeltu jatkuvana, vaikka se voi saada vain arvoja 1-10. Vaaka-akselilla on vastaajan syntymävuosi.
Pylväskuvio
Kuvio 7. Sijoittuminen huono-osaiset – hyväosaiset -asteikoilla mediaanilla kuvattuna (ISSP 2019). Tätä kuviota verrattaessa edelliseen voi pohtia keskiarvon ja mediaanin antaman informaation eroja.

Korrelaatiodiagrammi vai pylväskuvio? Ankkurilinkki ikoni

Korrelaatiodiagrammissa näkyy kahden muuttujan arvojen yhteisjakauma. Kutakin tilastoyksikköä vastaa yksi piste. Isossa aineistossa useat pisteet menevät päällekkäin. Korrelaatiodiagrammissa tarkastellaan nimenomaan muuttujien alkuperäisiä jakaumia, jolloin esim. ikää ei luokitella. Korrelaatiodiagrammia kannattaa käyttää ennen kaikkea suhdeasteikollisten muuttujien tarkasteluun. Myös järjestysasteikollisten muuttujien tarkastelu korrelaatiodiagrammilla voi joskus olla perusteltua. Jos järjestysasteikollisessa muuttujassa on kuitenkin paljon havaintoja ja vain vähän luokkia, pisteet menevät kuviossa päällekkäin eikä kuvio ole järin havainnollinen. Silloin on usein tarpeen muuttaa kuvion esitystapaa tai harkittava jotakin muuta keinoa kuvata muuttujien välistä riippuvuutta.

Järjestystason muuttujia korrelaatiodiagrammilla esittäessä on hyvä muistaa, että mittayksikköä ei todellisuudessa ole olemassa. Näin ollen korrelaatiodiagrammissa suoraviivaiselta, lineaariselta näyttävä järjestystasoisten muuttujien välinen riippuvuus voidaan yhtä asteikkoväliä pidentämällä muuttaa käyräviivaiseksi, joka saattaakin paremmin vastata todellisuutta. Tilasto-ohjelmalla piirretyssä korrelaatiodiagrammissa kaikki asteikkovälit ovat samanpituisia, ja jos niitä muutettaisiin erimittaisiksi, muutosten täytyisi perustua muuttujan arvoihin.

Korrelaatiodiagrammi antaa kuitenkin suuntaa muuttujien välisestä riippuvuudesta. Aina muuttujien välinen yhteys ei tule selkeästi esille, mikä saattaa johtua useista päällekkäisistä pisteistä tai riippuvuuden luonteesta. Tällöin kannattaa harkita jotakin muuta tapaa kuvata muuttujien välistä riippuvuutta. Joskus korrelaatiodiagrammi paljastaa mielenkiintoisesti muuttujien välisen riippuvuuden. Vaikka korrelaatiokertoimen arvo on likipitäen nolla, saattaa korrelaatiodiagrammista paljastua selkeä riippuvuus, joka on esimerkiksi alas- tai ylöspäin aukeavan paraabelin muotoista.

Esitystapa riippuu paljolti käytössä olevasta tiedosta, siitä tehdyistä päätelmistä ja kuvion suunnitellusta yleisöstä. Mitä tarkemmin tieto on kerätty tai mitattu, sitä enemmän esitystapoja on käytettävissä, koska esimerkiksi suhdeasteikollista tietoa voi aina tarvittaessa luokitella uudelleen.

Korrelaatiodiagrammi ja 100%:n pylväskuvio
Kuvio 8. Miesten painojen ja pituuksien riippuvuutta riippuvuutta on kuvattu sekä korrelaatiodiagrammilla että 100 %:n pylväskuviolla (ESS 2014). Lukijan tehtäväksi jää arvioida kuvioiden sopivuutta ja informatiivisuutta.

Laatikko-jana -kuvio Ankkurilinkki ikoni

Laatikko-jana -kuvio on hyvin havainnollinen esitystapa tarkasteltaessa muuttujan jakauman sijaintia ja hajontaa. Se perustuu järjestysasteikon tasoisiin tunnuslukuihin ja sopii erityisesti silloin, kun muuttuja saa paljon eri arvoja. Esimerkiksi asenneväittämistä muodostettu summamuuttuja voi olla tällainen.

Laatikko-jana -kuvio sopii erityisesti jakaumien vertailuun. Vertailu tapahtuu toisen muuttujan ryhmissä, esim. asenteita tarkastellaan sukupuolittain. Ryhmitteleviä muuttujia voi olla kaksikin, jolloin voidaan tarkastella yhdysvaikutusta. Myös erillisten muuttujien kuvaaminen vierekkäisillä laatikko-janoilla on mahdollista. Tällöin helpottuu samaan ilmiöön liittyvien muuttujien jakaumien keskinäinen vertaaminen. Muutoksen tarkastelu esim. paneelitutkimuksissa on laatikko-jana -kuvioilla helppoa: samaa asiaa eri ajankohtina mittaavista muuttujista tehdään vierekkäiset laatikko-janat.

Kuviossa 9 tarkastellaan laatikko-jana -kuviolla naisten ja miesten ikäjakaumia vuoden 2017 European Values Study -aineistossa. Laatikko-janat ovat hyvin samankaltaiset, mikä kertoo, että naisten ja miesten ikäjakaumissa ei ole suurta eroa. Tämän tuttuihin muuttujiin liittyvän esimerkkikuvion avulla perehdytään laatikko-jana -kuvioon.

Laatikko-jana -kuvio perustuu tunnuslukuihin, jotka jakavat tarkasteltavan ryhmän neljään yhtä suureen joukkoon. Tunnusluvut ovat siten minimi, alakvartiili, mediaani, yläkvartiili ja maksimi. Kuvion avulla voidaan ensin hahmottaa hajontaa minimien ja maksimien vertailulla. Yksinkertaisimmillaan laatikko-jana -kuviossa janojen päät kertovat minimin ja maksimin. Tilasto-ohjelma voi merkitä todelliset minimit ja maksimit erityismerkillä, kun arvo poikkeaa muista oleellisesti. Kuviosta näkee, että sekä miehistä että naisista nuorimmat ovat 18-vuotiaita (kyselyn alaikäraja), vanhin mies tai vanhimmat miehet ovat 88-vuotiaita ja vanhin nainen tai naiset ovat 96-vuotiaita.

Ikäjakauman sijainnista kertoo tiivistetysti mediaani, joka on merkitty viivalla ja sijaitsee yleensä laatikon sisällä. Joskus se on sama kuin ala- tai yläkvartiili. Miesten keski-ikä mediaanilla ilmoitettuna on 58 vuotta, ts. vähintään puolet miehistä on alle 59-vuotiaita. Naisten keski-ikä mediaanilla ilmoitettuna on 57.

Miesten alakvartiili-ikä on 39 vuotta eli vähintään 25 % miehistä on 39-vuotiaita tai nuorempia. Vastaavasti naisista on vähintään neljännes 38-vuotiaita tai nuorempia. Yläkvartiili miehillä on 68 vuotta ja naisilla 69 vuotta. Ala- ja yläkvartiilin rajoittama laatikko kertoo sekä jakauman sijainnista että hajonnasta.

Laatikko-jana -kuvio
Kuvio 9. Naisten ja miesten ikäjakaumat laatikko-jana -kuviolla esitettynä (EVS 2017).
Laatikko-jana -kuvio
Kuvio 10. Kolmiulotteinen laatikko-jana -kuvio. (Miesten ja naisten luottamus instituutioihin sosiaalisen luottamuksen mukaan, EVS 2017).

Laatikko-jana -kuvioon voidaan ottaa kaksi taustamuuttujaa, joiden muodostamissa typologioissa tarkastellaan kolmannen muuttujan jakaumaa (kuvio 10). Tässä esimerkissä taustamuuttujiksi on valittu sukupuoli ja se, voiko vastaajan mukaan useimpiin ihmisiin luottaa vai eikö voi olla liian varovainen. Näiden muuttujien muodostamissa ryhmissä tarkastellaan luottamusta julkisen vallan instituutioihin. Kuvion perusteella näyttää siltä, että muihin ihmisiin luottavat miehet ja naiset luottavat herkemmin myös julkisiin instituutioihin. Toisaalta muihin ihmisiin vähemmän luottavien kohdalla institutionaalisen luottamuksen hajonta on suurempaa kuin luottavaisten. Miesten ja naisten välillä ei ole huomattavia eroja siinä, luottavatko he instituutioihin vai eivät.

Jos julkaistavan laatikko-jana -kuvion oletetaan olevan lukijakunnalle outo, on ensimmäisen kuvion yhteydessä syytä kirjoittaa alaviite, jossa kerrotaan kuvion tulkinnasta yleisesti.