Sosiaalinen media tutkimusaineistona

Salla-Maaria Laaksonen (viittausohje)

Lukuaika noin 5 min

Sosiaalisen median aineistot näyttäytyvät houkuttelevana tutkimuskohteena ihmistieteistä luonnontieteisiin. Ne ovat aidoissa tilanteissa syntynyttä aineistoa, joka heijastelee ihmisten näkemyksiä, käyttäytymistä ja yhteiskunnallisia keskustelunaiheita. Aineistoa on paljon: viestejä lähetetään pelkästään suomeksi kymmeniä tuhansia joka päivä. Vaikka aineisto on näennäisesti helposti saatavilla, vaatii sosiaalisen median tutkimuskäyttö kuitenkin perusteltuja rajauksia ja valintoja, aineiston siivoamista ja käsittelyä sekä tutkimuseettistä harkintaa.

Sosiaalisen median aineistoa voidaan analysoida laadullisin, määrällisin tai laskennallisin menetelmin. Periaatteessa se on kuin mitä tahansa tekstidataa, johon voidaan tarttua vaikkapa diskurssianalyysin tai teemoittelun keinoin. Sosiaalisen median viesteissä on usein kuitenkin myös rakenteellista metatietoa, jota voidaan analysoida määrällisesti tai laskennallisesti. Esimerkiksi muiden käyttäjien maininnat tai aihetunnisteet mahdollistavat aineiston tarkastelun kuvailevien tilastojen avulla. Niitä voidaan myös käyttää apuna aineiston identifioimisessa ja rajaamisessa.

Tutkija ei yleensä vaikuta sosiaalisen median aineiston syntyyn omalla toiminnallaan, eli se on niin sanottua luonnollista aineistoa. Siksi se on usein laadultaan varsin vaihtelevaa, eikä sen avulla ole helppo vastata suoraan tutkimuskysymykseen. Joukossa on niin yksityishenkilöiden kuin organisaatioiden lähettämiä viestejä ja mahdollisesti myös automaattisesti tuotettua sisältöä. Aineiston rajaaminen on syytä tehdä huolella ja tutustua myös kontekstiin, jossa aineisto on syntynyt. Yksi erinomainen lähestymistapa on yhdistää sosiaalisen median aineistojen analyysiin ja keruuseen verkkoetnografiaa eli tutkittavan ympäristön ja ilmiön seuraamista havainnoinnin keinoin.

Aineiston hakeminen ja rajaaminen Ankkurilinkki ikoni

Sosiaalisen median aineiston avulla tehtävä tutkimus voi alkaa tutkijan tunnistamasta kiinnostavasta verkkoilmiöstä tai -keskustelusta (esimerkiksi tietty Facebook-ryhmä), tai pyrkimyksestä tarkastella jonkin ilmiön esiintymistä sosiaalisen median alustoilla (vaikka vaalikampanjointi). Kummassakin tapauksessa aineistot ovat usein varsin suuria, ja lopullinen tutkimusaineisto täytyy rajata hakusanoilla tai muilla yksiselitteisillä kriteereillä. Rajaus voi kohdistua hakusanojen (esim. "kissa", "#metoo") lisäksi myös tiettyihin tileihin (esim. hallituksen ministerit) tai tiettyyn aikajaksoon (esim. koronakevät). Toisinaan tutkittavaksi voi rajautua paljon pienempikin aineisto, jos se heijastelee hyvin tutkimusongelmaa: vaikkapa yksi pitkä keskusteluketju keskustelufoorumilla. Mahdollisten aineistojen tunnistamisessa auttaa keskusteluihin tutustuminen havainnoimalla.

Sosiaalisen median julkisiin aineistoihin pääsee helpoiten käsiksi käyttämällä palveluiden omia hakuja (esimerkiksi Twitterin tarkennettu haku (Avautuu uuteen välilehteen) ). Niiden avulla voi kokeilla, mikä hakusana parhaiten tavoittaisi tutkittavan ilmiön. Haut kuitenkin tuottavat tyypillisesti tuloksia, jotka algoritmi on järjestänyt, eivätkä kaikkia hakulausekkeeseen sopivia viestejä aikajärjestyksessä. Historiallisen aineiston kerääminen jälkikäteen on siksi hankalaa. Esimerkiksi Twitterin haku ei välttämättä näytä kuin muutaman viikon takaisia viestejä. Sosiaalisen median tutkijan on siis hyvä olla ajoissa liikkeellä.

Jos tutkittava ilmiö on suhteellisen pienimuotoinen, voi aineiston muodostaa suoraan selaimesta tulostamalla tai tallentamalla. Virallisin tapa sosiaalisen median aineistojen, varsinkin suurten aineistojen keräämiseen on käyttää ohjelmakoodia ja ohjelmointirajapintoja (Application Programming Interface, API), joihin anotaan käyttöoikeus alustalta. Ohjelmointirajapintaan tehdään käytännössä ohjelmallisesti sama kysely kuin selaimen hakukenttään, mutta aineisto latautuu automaattisesti tiedostoon suoraan palvelun tietokannasta.

Sosiaalisen median aineistoja löytyy myös koottuna erilaisiin tietokantoihin ja datapankkeihin. Kielipankin Korp-palvelusta (Avautuu uuteen välilehteen) löytyy esimerkiksi Suomi24-keskustelufoorumin aineistoa lähes kahdenkymmenen vuoden ajalta. Myös monet kaupalliset palveluntarjoajat keräävät sosiaalisen median aineistoja. Niitä kannattaa hyödyntää, jos tutkimuksen kohteena on historiallinen tapahtuma tai ajanjakso.

Tiedostomuodot ja analyysiohjelmat Ankkurilinkki ikoni

Sosiaalisen median aineistot sisältävät usein paitsi tekstiä, myös kuvia tai muita visuaalisia elementtejä. Tyypillisesti aineistoon kuuluu palvelussa näkyvän varsinaisen viestin lisäksi myös sisältöä kuvailevaa ja määrittelevää metadataa. Näitä ovat esimerkiksi tieto lähettäjän käyttämästä laitteesta tai kyseisen viestin keräämien reaktioiden määrä. Metadataa voidaan myös käyttää aineiston rajaamisen kriteereinä. Ehkä tutkija haluaa perehtyä vain kaikkein kommentoiduimpiin viesteihin?

Aineistoja tallennetaan ja käsitellään erilaisissa digitaalisissa tiedostomuodoissa. Pienehkön aineiston voi tallentaa suoraan selaimesta html- tai pdf-muodossa, joita voi käsitellä esimerkiksi laadullisen aineiston analyysiin tarkoitetulla ohjelmistolla (Atlas.TI, NVivo). Myös tekstin kopiointi tekstinkäsittelyohjelmaan on mahdollista, jos aineisto on kohtuullisen pieni.

Jos aineisto ladataan palveluiden ohjelmointirajapinnoista, se on yleensä rakenteistetussa json-muodossa (Java Script Object Notation). Jsonia voi käsitellä ohjelmallisesti koodin avulla tai kääntää sen taulukkomuotoon esimerkiksi Open Refine -ohjelmalla. Pienten tai keskisuurten sosiaalisen median aineistojen analysoinnissa pääsee melko pitkälle taulukkolaskentaohjelman avulla.

Tutkimusetiikka Ankkurilinkki ikoni

Vaikka aineisto olisi avoimesti saatavilla, sen käyttö ei ole välttämättä tutkimuseettisesti hyväksyttävää. Verkkotutkimuksen tutkimuseettisissä pohdinnoissa keskiössä ovat tutkimuksen mahdollisesti aiheuttamat seuraamukset ja harmi (franzke ym. 2019). Mitä haittaa tutkimuksestani voi olla tutkittaville, heidän edustamalleen yhteisölle tai verkkopalvelulle? Miten voin minimoida näitä haittoja?

Sosiaalisen median aineistot ovat useimmiten henkilödataa, millä on juridisia ja eettisiä seuraamuksia. Ihmistieteiden eettisen ohjeistuksen mukaan tutkittavalla on oikeus saada tietää olevansa tutkimuskohteena. Myös EU:n tietosuoja-asetus GDPR kehottaa henkilödatan käsittelijää informoimaan henkilöitä, joita datankäsittely koskee, kuitenkin mainiten poikkeuksena tilanteet, joissa aineistoa on paljon ja henkilöiden tavoittaminen on hankalaa. (Ks. myös Tutkimusetiikka ihmistieteissä ja Aineiston hallinnan käsikirjan luku Informointi henkilötietojen käsittelystä.)

Eettiset kysymykset ovatkin aina sidoksissa tutkimuksen kokonaisuuteen ja kontekstiin. Mitä pienempi ryhmä ja suljetumpi alusta, sitä tärkeämpää on kysyä tutkimuslupa. Avoimessakin verkkoryhmässä hyvä tutkimuseettinen käytäntö on esimerkiksi käydä jättämässä ryhmään viesti, jossa kertoo tutkimusprojektistaan ja antaa omat yhteystietonsa sekä mahdollisuuden vetäytyä tutkimuksesta. Tutkijan on usein vaikea arvioida, kuinka julkiseksi ihmiset verkkotilan kokevat.

Julkisesti saatavilla olevan aineiston kohdalla myös tutkimustulosten raportointiin ja lainausten käyttöä on pohdittava etiikan näkökulmasta. Tutkijan täytyy arvioida, onko alkuperäinen kirjoittaja jäljitettävissä ja aiheutuuko tästä viestin lähettäjälle mahdollisesti jotain haittaa. Jos aiheutuu, on harkittava luvan kysymistä, aineiston sanallista kuvailua tai aineistolainausten muokkaamista niin, ettei alkuperäistä viestiä löydä haulla (ns. fabrikointi, Markham 2012).

Sosiaalisen median aineistot tuovat paljon mahdollisuuksia tutkimukselle, mutta niiden käyttö vaatii huolellista pohdintaa ja ennakkovalmisteluja. Sosiaaliseen mediaan kannattaakin sukeltaa kokemuksen kautta: tutkijalle on paljon hyötyä tutkittavan alustan ja sen kulttuurien tuntemisesta sekä tutkimuksen pätevyyden että etiikan näkökulmista. Juuri siksi esimerkiksi yllä mainitun etnografisen otteen yhdistäminen sosiaalisen median aineistojen käyttöön on hedelmällistä.