Faktorianalyysi - SPSS-harjoitus 1
Jos olet ensimmäistä kertaa aloittamassa SPSS-harjoitusta, on ennen varsinaisen harjoituksen tekemistä syytä tutustua opiskeluohjeisiin.
Tässä harjoituksessa käytetään vuoden 2017 European Values Study -tutkimuksen Suomen osa-aineistoa, osaEVS.
Havaintoaineiston hakemisesta SPSS-ohjelmaan on erilliset ohjeet.
Faktorianalyysi
Faktorianalyysiä käytetään sellaisten muuttujien korrelaatiorakenteen analysointiin, joita ei voida suoraan havaita. Faktorianalyysissa muuttujista tehdään normaalisuusoletus sekä hypoteesi muuttujien välisestä korrelaatiorakenteesta. Tässä havaitut muuttujat saavat sisältää mittausvirhettä (populaatiolle ominaisen vaihtelun lisäksi). Lisäksi faktorianalyysissä otoskoon on oltava riittävä (mieluiten > 200).
Faktorianalyysia voidaan käyttää joko muuttujien korrelaatiorakenteen selittämiseen (exploratory factor analysis) tai testata faktorien lukumäärää ja faktorilatauksia koskevia hypoteeseja (confirmatory factor analysis).
Faktorianalyysi on syytä aloittaa alkuperäisten muuttujien korrelaatioiden tarkastelulla. Mikäli korrelaatiokertoimien itseisarvot ovat hyvin pieniä, on selvää, ettei löydy faktoreita, joille muuttujien vaihtelut keskittyisivät.
Faktorianalyysin periaatteet ovat helpoimmin ymmärrettävissä esimerkin avulla. Esimerkki on sama kuin käsikirjan teoriaosuudessa. Seuraavassa tehdään faktorianalyysi (exploratory) aineiston yhdestä kysymyspatterista (muuttujat q44_1 – q44_15), joka koostuu 15 asiasta, joiden hyväksyttävyyttä vastaajat arvioivat yksittäin. Kysymys kuului: Ovatko seuraavat asiat mielestäsi aina hyväksyttäviä, ei koskaan hyväksyttäviä vai jotain siltä väliltä. Käytä asteikkoa 1–10 välillä. Arvo 1 tarkoitti ei koskaan hyväksyttävää ja arvo 10 aina hyväksyttävää.
Ennen faktorianalyysia on analyysiin valittavien muuttujien arvot 88 'En osaa sanoa' ja 99 'Ei vastausta' koodattava puuttuviksi tiedoiksi. Tämä tehdään Data Editor -ikkunan Variable View -välilehdellä. Klikkaa Missing-saraketta valittavan muuttujan kohdalla ja siitä edelleen sinistä neliötä ja lisää arvot Discrete missing values -kenttiin. Tehtyäsi tämän yhdelle muuttujalle voit kopioida ja liittää samat missing-arvot muille.
SPSS ohjelmistossa faktorialyysi aloitetaan valikosta Analyze - Dimension Reduction - Factor....
Avautuvassa ikkunassa valitaan faktoroitavat muuttujat (q44_1 - q44_15) ja siirretään ne nuolella Variables: -laatikkoon.
Klikkaamalla Extraction... -painiketta, voimme valita faktorianalyysin parametrien estimointimenetelmän sekä ehdon faktoreiden määrälle. Oletuksena muodostetaan ne faktorit, joiden ominaisarvo (latausten neliöiden summa) on suurempi kuin yksi. Vaihtoehtoisesti voidaan tarkastella Cattelin scree plot-kuvaajaa ja valita ne faktorit, mistä alkaen ominaisarvot putoavat olennaisesti. Tavallisimmat estimointimenetelmät ovat:
- Principal components - pääkomponenttianalyysi
- Principal axis factoring - pääakselifaktorointi
- Maximum likelihood - suurimman uskottavuuden menetelmä
Ensimmäinen näistä, (joka on oletusmenetelmä), ei ole varsinainen faktorointimenetelmä lainkaan. Menetelmät voivat tuottaa hyvinkin erilaisen ratkaisun. Usein kaikki menetelmät eivät saa ratkaisua aikaan lainkaan. Lue lisää menetelmien eroista kirjallisuudesta. Käytetään tässä harjoituksessa Unweighted least squares -menetelmää.
Klikkaamalla Continue ja edelleen Rotation... voimme valita faktoreiden rotaatiomenetelmän. Saatua faktoriratkaisua pyritään yleensä "rotatoimaan" tulkinnan helpottamiseksi, esim. nk. Varimax-rotaatiolla pyritään ratkaisuun, jossa muuttujien lataukset faktoreilla ovat mahdollisimman suuria tai pieniä. Muita rotaatiomenetelmiä ovat mm. quartimax, equamax ja oblimin.
Klikkaamalla Continue ja OK saamme faktorianalyysin tulokset. Oheisia tulostaulukoita on muokattu hiukan tilan säästämiseksi.
Ensimmäisessä taulukossa esitetään kommunaliteetit ennen ja jälkeen faktoriratkaisun. Olemme erityisesti kiinnostuneita ’Extraction’-sarakkeen sisällöstä. Esimerkiksi sairausvakuutuksen tai sosiaaliturvan väärinkäyttöä, lahjusten ottamista, itsemurhaa ja poliittista väkivaltaa koskevien muuttujien kommunaliteetit ovat melko alhaisia, alle 0,3. Näiden muuttujien latauksiin kannattaa kiinnittää erityistä huomiota Rotated factor matrix -taulukossa.
Total Variances Explained -taulukossa luetellaan faktorit, niiden ominaisarvot ja selitysosuudet. Tässä ollaan kiinnostuneita arvoista rotaation jälkeen, eli sarakkeesta 'Rotation Sums of Squared Loadings'. Ominaisarvon 1,0 ylittävät neljä faktoria selittävät yhteensä n. 42 % muuttujien varianssista.
Myös faktoriratkaisun tulkinta tulee tehdä rotatoidusta faktorimatriisista. Ensimmäisellä faktorilla suuria latauksia saavat sellaiset muuttujat, jotka kuvaavat vastaajien suhtautumista yhteiskunnallisiin ja uskonnollisväritteisiin arvokysymyksiin: abortti, avioero, eutanasia, homoseksuaalisuus ja keinohedelmöitys. Ensimmäistä faktoria voitaisiin kutsua esimerkiksi 'perinteisiksi arvokysymyksiksi'. Toisessa faktorissa suuria latauksia saavien muuttujien voidaan katsoa liittyvän yksilönvapauteen liittyviin, tuoreempiin arvokysymyksiin, joskin suhtautuminen satunnaisiin seksisuhteisiin latautuu melko voimakkaasti myös ensimmäiselle faktorille. Toisen faktorin sisältöä voisi olla syytä vielä pohtia kriittisesti, mutta kutsutaan sitä tässä nimellä 'uudet arvokysymykset'.
Kolmannelle faktorille latautuu vahvemmin (>0,5) vain kaksi muuttujaa. Usein suositellaan, että faktoreille latautuisi vähintään kolme muuttujaa. Jos kahden muuttujan sisällyttämiselle on teoreettisia perusteita, asialle ei välttämättä tarvitse tehdä mitään. Tässä tapauksessa verovilpille ja julkisessa kulkuneuvossa maksamatta jättämiselle on kuitenkin hankala löytää yhteistä piilomuuttujaa, varsinkin kun kaksi muuta vilpilliseen käyttäytymiseen liittyvää muuttujaa (sosiaaliturvan väärinkäyttö ja lahjusten ottaminen) eivät saa yhtä vahvoja latauksia.
Neljännelle faktorille latautuu vahvasti vain kuolemanrangaistuksen hyväksyttävyyttä tiedusteleva muuttuja. Hieman vähemmän vahvoja latauksia saavat eutanasiaa ja poliittista väkivaltaa käsittelevät muuttujat. Näistä voisi ajatella muodostettavan kuolemaa ja väkivaltaa koskevien arvokysymysten faktorin, mutta eutanasiamuuttuja latautuu myös ensimmäiselle faktorille ja selvästi vahvemmin kuin neljännelle. Neljännelle faktorille ei siten saada järin mielekästä tulkintaa.
Muuttujat, joilla oli matala kommunaliteetti saavat myös melko matalia latauksia kaikilla neljällä faktorilla. Sosiaaliturvan väärinkäytön, lahjusten ottamisen, itsemurhan ja poliittisen väkivallan hyväksyttävyyttä tarkastelevat muuttujat olisi perusteltua jättää analyysistä pois.
Kun teet faktorianalyysin uudelleen ilman matalia latauksia saavia muuttujia, huomaat, että jotkut jäljelle jääneet muuttujat saavat myös matalia kommunaliteetteja. Lopullisen tulkinnan helpottamiseksi prosessin voi toistaa, kunnes matalia kommunaliteetteja ei enää ilmaannu. Muuttujien pois jättämisessä ja säilyttämisessä on kuitenkin käytettävä harkintaa ja mietittävä faktoreiden tulkintaa.
Kuvassa on tulokset lopullisesta faktorianalyysistä, josta pudotettiin seitsemän heikkoja kommunaliteetteja ja latauksia saanutta muuttujaa pois. Jäljelle jäi kaksi aiemmin havaittua faktoria, joista ensimmäisen voidaan katsoa keskittyvän perinteisiin arvokysymyksiin ja toisen uudempiin arvokysymyksiin.
Faktorilatauksista voidaan muodostaa kullekin havainnoille faktoripistemäärä eli muodostaa itse faktorimuuttujat. Nämä voidaan edelleen tallettaa pysyviksi muuttujiksi havaintotiedostoon jatkotarkasteluja varten. Tallentaminen ja menetelmä, jolla faktoripistemäärät lasketaan, valitaan Factor Analysis -ikkunan Scores... -painikkeen kautta avautuvasta jatkolomakkeesta.
Faktorimuuttujat tulevat muuttujalistauksen loppuun nimillä FAC1_1 ja FAC2_1, kun faktorianalyysi ajetaan. Näitä muuttujia voi käyttää eri ryhmien, kuten sukupuolten tai ikäluokkien erojen tarkasteluun. Usein voi olla havainnollisempaa käyttää faktoriin sisältyneistä muuttujista muodostettua summamuuttujaa, sillä faktoripistemäärien eroja ei ole yhtä helppoa tulkita.