Teksti: Katja Fält, kuva: Kaisa Järvelä

Someaineistojen arkistointi ja jatkokäyttö kaatuvat useimpien alustojen käyttöehtoihin

Sosiaalisen median käyttö tutkimustarkoituksissa lisääntyy kasvavien käyttäjämäärien myötä. Somedatan analysointiin ja arkistointiin on kuitenkin vasta hiljattain ryhdytty pohtimaan soveltuvia metodologioita ja käytäntöjä. Somedatan pitkäaikaissäilytyksen suurimpia hidasteita ovat alustojen kaupallisuus ja käyttöehdot, jotka ainakin toistaiseksi useimmiten estävät arkistoimisen.

Somedata on osoittautumassa arvokkaaksi digitaaliseksi kulttuuriperinnöksi. Se sisältää tietoa muun muassa 2000-luvun keskustelu- ja kommunikointikulttuurista, sosiaalisista verkostoista, tiedon leviämisestä sekä monesta muusta yhteiskuntaan ja ihmisten käytökseen liittyvästä seikasta. Käyttäjien somessa reaaliaikaisesti tuottamaa aineistoa on myös vaivatonta käsitellä nopeasti koneluettavassa muodossa.

Sosiaalisen median alustojen sopimusehdot ovat ristiriidassa avoimen datan vaatimusten kanssa.

Sosiaalisen median datan tutkimuskäyttö ei kuitenkaan ole ongelmatonta ja moni tutkija kamppailee erilaisten eettisten ja käytännöllisten kysymysten parissa. Lisähaastetta tuovat useiden rahoittajien, esimerkiksi Suomen Akatemian, vaatimukset tutkimusaineistojen avaamisesta jatkokäyttöön.

Tutkija, jonka aineisto koostuu sosiaalisen median datasta, saa kyllä käyttää aineistoa, muttei arkistoida tai jakaa sitä. Tässä suhteessa sosiaalisen median alustojen sopimusehdot ovat merkittävässä ristiriidassa rahoittajien avoimen datan vaatimuksen kanssa. Akateemiset ja aineistoja arkistoivat tahot ovatkin enenevässä määrin kehittämässä toimivia infrastruktuureja ja keinoja, jotka mahdollistaisivat somesta kerätyn datan tallentamiseen ja säilyttämiseen.

Strategioita somen sisällön tallentamiseen

Sosiaalisen median sisältöjen kerääminen tutkimuskäyttöön käy tehokkaimmin APIen kautta. API (Application Programming Interface) on rajapinta, jonka avulla eri ohjelmat voivat tehdä pyyntöjä ja vaihtaa tietoja eli keskustella keskenään.

Sosiaalisen median kontekstissa API toimii rajapintana sosiaalisen median alustan ja somedatan käyttäjän välillä. API mahdollistaa kontrolloidun pääsyn sosiaalisten medioiden alustojen toiminnoille ja datalle tai esimerkiksi tiettyjen käyttäjien tuottamaan dataan.

APIn avulla metadataa sisältävää raakadataa voi suodattaa suoraan sosiaalisen median alustalta esimerkiksi JSON- (JavaScript Object Notation) tai XML- (Extensible Markup Language) formaatissa. JSON on yksinkertainen avoimen standardin tiedostomuoto ja XML-kieli rakenteellinen kuvauskieli, jolla voidaan jäsennellä laajoja tietomassoja ja kuvailla tiedon rakennetta.

Toinen keino saada haltuunsa somedataa on hyödyntää datan jälleenmyyjiä. Tällaisia jälleenmyyjiä ovat tyypillisesti yhtiöt, jotka tarjoavat APIen pohjalta kerättyyn dataan pohjaavia palveluita ja tuotteita.

Osa jälleenmyyjistä, kuten Gnip, toimii tiettyjen alustojen virallisina jälleenmyyjinä ja tarjoaa eksklusiivisen pääsyn sellaiseen somedataan, jota ei ole mahdollista kerätä suoraan sosiaalisen median alustojen kautta. Tällainen data on yleensä ”historiallista”, toisin sanoen dataa, joka ei ole reaaliaikaista.

Jälleenmyyjien tarjoama data suodattuu alustojen APIen kautta ja on siten alustojen säätelyn alaista. Tämä rajoittaa datan julkaisemista ja jakamista. Jälleenmyyntipalveluiden ostajia ovatkin lähinnä yritykset, eivät yksittäiset tutkijat tai tutkimusorganisaatiot.

Somedataa tarvitseva voi myös tehdä sopimuksen suoraan valitun sosiaalisen median alustan kanssa. Useat organisaatiot tarjoavat sosiaalisen median arkistointia osana verkkoarkistointipalveluitaan tai pääasiallisena palvelunaan. Kaupallisia palveluita tarjoavat muun muassa ArchiveSocial, MirrorWeb, Erado ja Gwava, joiden kanssa esimerkiksi kulttuuriperintöorganisaatiot voivat tehdä yhteistyötä. Lisäksi The Internet Memory Foundation (IMF) ja The International Internet Preservation Consortium (IIPC) tarjoavat tukea arkistoidun sosiaalisen median datan hallintaan.

Harmina kolmannen osapuolen palveluiden käytössä on niiden kallis hinta, joka koostuu muun muassa osaavan henkilökunnan palkkakuluista. Yksittäisen tutkijan käyttöön ne siten harvoin soveltuvat.

Viimeinen, varteenotettava tapa tallentaa sosiaalisen median sisältöjä on hyödyntää sosiaalisen median alustojen itsearkistointipalvelua. Osalla alustoista kuten Facebookilla, Googlella ja Twitterillä on varmuuskopiointitoimintona itsearkistointi, joka mahdollistaa sen, että käyttäjät voivat ladata dataa tileiltään koneluettavassa muodossa.

Näiden alustojen arkistoima data on kuitenkin sangen rajoittunutta. Esimerkiksi Facebook arkistoi vain sellaista dataa, jonka käyttäjä on ladannut itse tililleen. Itsearkistointipalvelu voi kuitenkin olla hyvinkin kätevä vaikkapa sellaisille organisaatioille, jotka haluavat säilyttää oman organisaationsa julkaisemat sosiaalisen median julkaisut.

Somedatan ominaispiirteet tulisi osata huomioida

Sosiaalisen median sisällöt ovat pitkälti käyttäjiensä tuottamia ja reaaliaikaiseen sosiaaliseen vuorovaikutukseen perustuvia. Sisällöissä on usein keskeistä keskustelu, ei ainoastaan yksittäinen julkaisu. Tällainen sosiaalisen median ”keskustelu”, joka on tyypillisesti luonteeltaan hyvin amorfista, asettaa haasteita aineiston keräämisen valintakriteereille.

Facebookissa ja Twitterissä on usein vaikea tietää, missä yksi keskustelu loppuu ja toinen alkaa. Tutkijan voikin olla hankalaa määrittää, miten aineisto on mahdollista rajata siten, että kaikki olennainen päätyy mukaan.

Ongelmallista on myös se, että somedataa keräävät tahot hyödyntävät sen tallentamisessa, hoivaamisessa ja säilyttämisessä edelleen pitkälti analogiseen aineiston käsittelyyn pohjautuvaa kokemusta. Tutkijoilta ja muilta sosiaalisen median kerääjätahoilta puuttuvat vakiintuneet ohjeet ja käytännöt nettisisältöjen ja vauhdilla virtaavien datamassojen säilyttämiseen.

Somen sisällöt vaativat kuitenkin perinteisistä arkistointitavoista poikkeavia ratkaisuja säilyäkseen ymmärrettävässä ja saavutettavassa muodossa. On tärkeää esimerkiksi varmistaa, että linkitettyä tai sisältöön upotettua informaatiota on mahdollista käyttää myös myöhemmin, sillä puuttuva tai toimimaton linkki voi tehdä koko talletetun keskustelun merkityksettömäksi. Sosiaaliseen mediaan sisällytetty ulkopuolinen sisältö (esim. URLit) onkin talletettava samanaikaisesti varsinaisen sisällön kanssa, mikäli ulkopuoliseen sisältöön viittaava linkkaus halutaan säilyttää.

Myös aineiston ymmärtämiseen tarvittava toissijainen informaatio eli metadata on kyettävä säilyttämään. Metadataa on kaikki sosiaalisen median sisältöön liitetty toissijainen informaatio kuten käyttäjiin liittyvät tiedot (esimerkiksi ikä, kansallisuus, ammatti, paikka), käyttäjien käyttäjäkohtaiset numerot eli ID:t ja joidenkin alustojen julkaisujen yksilökohtaiset numerot. Metadata voi sisältää tietoa myös datan keräämiseen, järjestämiseen ja analysointiin liittyvien työnkulkujen ja prosessien kuvailuista.

Datan ymmärtäminen vaatii tietoa siitä, miten se on luotu, puhdistettu, muokattu ja analysoitu. Työnkulkujen ja toimintojen dokumentointi tukee sosiaalisen median datan lyhytaikaista säilyttämistä tapauksissa, joissa varsinaista alkuperäistä lähdedataa ei voida jakaa. Lisäksi varsinkin ei-tekstuaalisen arkistoidun sisällön kuten valokuvien tai videopätkien ymmärtämisessä metadata voi tarjota erityisen merkittävää tietoa datasta.

Palveluiden ehdot rajoittavat aineiston käyttöä

Merkittävä ongelma sosiaalisen median datan arkistoinnissa on useimpien sosiaalisen median alustojen liiketoimintamalli, joka perustuu taloudellisen hyödyn maksimointiin datan hyödyntämisessä.

Alustojen rajapintoihin liittyvät kehittäjien toimintaperiaatteet ja sopimukset rajoittavat voimakkaasti datan jakamista ja jatkokäyttöä, sillä kehittäjälinjausten mukaan APIen kautta hankittua dataa ei pääsääntöisesti saa jakaa.

Tutkijat tarvitsevat usein suuren määrän dataa pystyäkseen havaitsemaan merkittäviä trendejä tai hahmottamaan laajempia kokonaisuuksia aineistomassoista. Moni sosiaalisen median alustoista kuitenkin rajaa pyydettävän datan määrää tai jopa pitää pyynnöistä kirjaa estääkseen valtaisat datapyynnöt. Osa alustoista sallii tutkimustarkoituksissa pääsyn dataan, mutta kieltää datasettien avoimen jakamisen digitaalisissa säilytyspaikoissa.

Tiukan tulkinnan mukaan esimerkiksi Twitter-datan siirtäminen pilvipalveluun ei onnistu. Kuvioita monimutkaistaa vielä se, että alustojen käyttöehdot voivat muuttua jopa vuosittain. Tämä hankaloittaakin pitkän tähtäimen toimintamallien laatimista sen suhteen, kuinka luparajoitteita käsitellään sosiaalisen median arkistoinnissa. Käyttöehtojen rajoittavassa aallokossa seilaaminen on haastavaa etenkin sellaisille tutkijoille ja kerääjätahoille, jotka keräävät sisältöä useilta eri alustoilta ja jotka joutuvat huomioimaan jokaisen alustan käyttöehdot.

Ovatko tietoni somessa suojassa?

Sosiaalisen median datan pitkäaikaissäilytystä mutkistavat osaltaan myös yksityisyys- ja tietosuojaongelmat. Somedata sisältää paljon käyttäjätietoa, joka saattaa paljastaa henkilökohtaista tietoa erityisesti silloin, jos se yhdistetään muuhun dataan.

Sosiaalisen median alustat omistavat usein oikeuden ostaa ja myydä käyttäjiensä tuottamaa sisältöä ilman ennakkovaroitusta. Esimerkiksi Facebook, Google ja LinkedIn pidättävät käyttäjädatan omistusoikeuden käyttöehtojensa pohjalta.

Somen käyttäjillä onkin hälyttävän vähän sananvaltaa siihen, mitä heidän tuottamalleen sisällölle tapahtuu sen jälkeen, kun se on julkaistu. Käyttäjät eivät usein tiedä, että heidän datansa saattaa päätyä monenkin eri tahon käytettäväksi: tutkimukseen, kaupallisiin tarkoituksiin, kulttuuriperintökokoelmien, journalismin ja muun ei-kaupallisen käytön tarkoituksiin. Käyttäjien tuottaman datan pitkäaikaissäilyttäminen on lisäksi ristiriidassa EU:n lainsäädännön kanssa, jonka mukaan henkilöllä on oikeus tietyissä tapauksissa poistaa henkilökohtaiset tietonsa internetin hakukoneista.

Eettiset ja tietosuojaongelmat todennäköisesti kasvavat tulevaisuudessa jatkuvasti lisääntyvän käyttäjädatan myötä, jos alustojen käyttäjät eivät saa lisää sananvaltaa siihen, kuinka heidän tietojaan ja julkaisujaan käytetään.

Rikonko tekijänoikeutta?

Sosiaalisen median alustojen käyttöehdot pääsääntöisesti estävät vakavimmat tekijänoikeusrikkomukset, koska ne rajoittavat datan kopiointia ja jakamista. Somedatan kerääminen ja käsittely itsessään ei myöskään yleensä loukkaa tekijänoikeutta. Osa somessa julkaistavasta aineksesta voi kuitenkin sisältää tekijänoikeudella suojattua materiaalia kuten valokuvia.

Kuvien julkaiseminen esimerkiksi akateemisissa tutkimusjulkaisussa ei yleensä ole mahdollista. Tekijänoikeusasiat tulevatkin ajankohtaisiksi laadullisessa tutkimuksessa usein silloin, kun tutkija haluaa julkaista tai jakaa esimerkiksi yksittäisiä Twitter-julkaisuja tai jakaa datassa olevaa tekijänoikeudella suojattua aineistoa kuten kuvaa tai ääntä.

Sosiaalisen median käyttäjädatan arkistoiminen ja säilyttäminen sen sijaan ei itsessään loukkaa tekijänoikeuksia. Jatkossa sosiaalisen median käyttäjien tarpeiden ja toiveiden kartoittaminen on tärkeää, kun laaditaan päätöksiä siitä, mitä on mahdollista tallentaa, miten paljon ja missä muodossa.

Somedatan arkistoinnin tulevaisuudennäkymiä

Sosiaalisen median arkistoinnin ja jatkokäytön käytäntöjen luomisessa on tärkeää, että tutkimusorganisaatioiden ja tutkijoiden välinen yhteistyö toimii alusta asti. Myös eri organisaatioiden, kuten yliopistojen ja kulttuuriperintötoimijoiden kannattaa toimia yhteistyössä ja jakaa keskenään esimerkiksi käytäntöjen tai teknisten ratkaisujen luomisesta johtuvia kuluja. Yhteistyö voi parhaimmillaan laajentaa pääsyä arvokkaisiin datasetteihin tai mahdollistaa teknisen infrastruktuurin luomisen.

Yhteistyönä voisi luoda myös jonkinlaisen keskitetyn infrastruktuurin, joka neuvottelisi sosiaalisen median alustojen kanssa ja sitoisi tiukemmin yhteen tutkimusstandardeja ja -vaatimuksia, laillisia talletusstandardeja sekä sosiaalisen median käyttösopimuksia. Sen avulla saattaisi olla mahdollista myös harmonisoida sosiaalisen median keräämispolitiikkaa ja standardeja.

Yhteistyötä tarvitaan myös sosiaalisten alustojen kanssa. Tähän mennessä ainoastaan Twitter on aktiivisesti tallentanut käyttäjädataa luotettavan arkistoinstituution haltuun ja neuvotellut sopimuksia yksityisten tutkimusinstituuttien kanssa tukeakseen akateemista tutkimusta. Kaikki Twitterin arkistoitu ja reaaliaikainen data on lahjoitettu Library of Congressiin pitkäaikaissäilytykseen. Tämän lisäksi on hyvin vähän ennakkotapauksia sosiaalisen median alustojen ja arkistointilaitosten suhteista.

Library of Congressin Twitter-arkistokin onnahtelee vielä, sillä datan käsittely ja järjestäminen ovat osoittautuneet aikaa vieviksi, eivätkä tutkijat vielä pysty hyödyntämään aineistoa. Prosessin hitaus ei ole ihme, sillä Twitter-julkaisujen määrä metadatoineen lähentelee puolta triljoonaa. Ongelmista huolimatta Twitterin lahjoitus on kaupallisen yrityksen ihailtava pyrkimys tehdä yhteistyötä kulttuuriperintösektorin kanssa ja tukea epäkaupallista tutkimusta.

Tällä hetkellä suuri ongelma somedatan pitkäaikaissäilytyksessä on alustojen kaupallisuus, erityisesti se, että alustat voivat myydä käyttäjiensä tietoja kolmansille osapuolille. Alustoja kiinnostaa siten ensisijaisesti datan taloudellinen hyödyntäminen ja myynnin lisääminen.

Tutkija- ja kerääjätahojen sekä päättäjien kannattaisikin suunnitella vaihtoehtoinen liikemalli, joka helpottaisi tutkijoiden pääsemistä dataan käsiksi ilman, että heidän tarvitsee sekaantua yritysmyynnin liikevaihtoon. Ei-kaupallisen datakäytön ei tarvitse estää käyttäjädatan kaupallista hyödyntämistä. Pääsyä dataan ei-kaupallisissa tarkoituksissa voisi jopa rahoittaa, joko palkitsemalla yrityksiä, jotka jakavat datansa epäkaupallisten tahojen kanssa tai tarjoamalla erityisiä etuja niille, jotka lahjoittavat dataa tutkimukseen.

Yhtenä mahdollisena vaihtoehtoina voisi lisäksi olla tutkimusinfrastruktuurien rahoituksen hyödyntäminen. Sen avulla olisi mahdollista perustaa pitkäaikainen sopimus halukkaiden alustojen kanssa ja täten siirtää tietty määrä dataa tutkimukseen tai kulttuuriperintökokoelmiin.

Joka tapauksessa sosiaalisen median datan arkistoinnissa tarvitaan myös avoimuutta ja läpinäkyvyyttä. Aineistojen keräämiseen, järjestämiseen ja analysointiin liittyvien linjanvetojen ja käytäntöjen kehittäminen sekä niiden julkistaminen selventäisi sosiaalisen median käyttäjille, kuinka heidän tuottamaansa sisältöä käytetään

Läpinäkyvyys datan keräämisessä, järjestämisessä ja analyysissä antaa merkittävää tietoa datan alkuperästä sitä säilyttäville arkistoille. Se myös tukee oikeuksien hallintaa ja varmistaa, että tiettyyn datakokonaisuuteen liittyvät oikeudet ovat tutkijoiden saavutettavissa.

Ensisijainen lähde

Thomson, Sara Day (2016).Preserving Social Media. DPC Technology Watch Report 16-01 February 2016. Digital Preservation Coalition.

Muut lähteet

Kiviniemi, Pekka. Kuinka käytän sosiaalisen median palveluja oikein? Koulutus Tampereen Yliopistossa 18.3.2016.
Zimmer, Michael (2015). The Twitter Archive at the Library of Congress: Challenges for Information Practice and Information Policy. First Monday 20 (7), 2015

Tietoarkisto

Tietoarkisto-lehti

Ajankohtaista tietoarkistossa

Tutustu palveluihimme

Someaineistojen arkistointi ja jatkokäyttö kaatuvat useimpien alustojen käyttöehtoihin

Strategioita somen sisällön tallentamiseen

Somedatan ominaispiirteet tulisi osata huomioida

Palveluiden ehdot rajoittavat aineiston käyttöä

Ovatko tietoni somessa suojassa?

Rikonko tekijänoikeutta?

Somedatan arkistoinnin tulevaisuudennäkymiä

Ensisijainen lähde

Muut lähteet

Lehdet

Ajankohtaista

Palvelut

Yhteystiedot

Postiosoite

Käyntiosoite

Yhteydenotot

Redflow Inc.