Tiedostoformaatit ja ohjelmistot

Tiedostoformaatit (tiedostomuodot) ja ohjelmistot, joilla tiedostoja käsitellään, muuttuvat. Ohjelmistojen ikääntyessä niihin liittyvät tiedostoformaatit voivat jäädä unohduksiin. Yleiskäyttöisille tiedostoformaateille voi ilmestyä uusia versioita tai korvaavia tiedostomuotoja. On mahdotonta sanoa, että jokin yksittäinen tiedostoformaatti tai ohjelma olisi kaikkia muita parempi tai pysyvämpi. Digitaalisen tiedon säilymistä voi kuitenkin edistää harkituilla tiedostomuotovalinnoilla.

Ainakin yksi tiedostokopio kannattaa aina tallentaa jossain sellaisessa formaatissa, joka on yleisesti käytössä ja jota useat eri ohjelmistot tukevat tai joka on kokonaan riippumaton (kaupallisista) ohjelmistoista. Tämä edistää aineiston jatkokäyttöä ja todennäköisyys sille, että tiedosto pystytään lukemaan ja ymmärtämään tulevaisuudessakin, kasvaa. Erityisen haavoittuvia ovat tiedostoformaatit, jotka ovat sidoksissa vain yhteen ohjelmistoon ja joiden dokumentaatiota ei ole julkaistu avoimesti. Pahimmassa tapauksessa tiedostojen avaaminen muuttuu mahdottomaksi, jollei ohjelmaa tai sitä tukevaa käyttöjärjestelmää tai laiteympäristöä ole saatavilla. Tiedoston arkistokopio ja käyttökopio voivat olla eri tiedostoformaateissa.

Tallennettaessa tiedostoja myöhempää käyttöä varten on myös tarpeen huolehtia siitä, että tiedoston sisällön tai rakenteen esittämiseen liittyvät muut, ulkoiset tiedostot tallennetaan. Esimerkiksi Excel-taulukko voi lukea tietoa ulkoisesta lähteestä, yleensä toisesta Excel-tiedostosta. PDF-asiakirja voi nojata tietokoneella käytössä oleviin kirjaisimiin ja tallennettu verkkosivu erilliseen tyylitiedostoon. Aineiston analysointiin käytettävät skriptit, ohjelmakoodit tai syntaksit voidaan myös nähdä samanlaisina aineiston tai sen analyysin kannalta oleellisia ulkoisina tiedostoina.

Ajantasaisia suosituksia digitaaliseen pitkäaikaissäilytykseen sopivista säilytys- ja siirtokelpoisista formaateista on annettu kansallisen pitkäaikaissäilytyspalvelun julkaisemissa määrityksissä. Ohjeet eivät yksityiskohtaisesti kata tilasto-ohjelmien tiedostoformaatteja, mutta suosituksia kannattaa noudattaa myös tutkimustyössä aina kun se on mahdollista. Erityisesti digitoitava aineisto on suositeltavaa tallentaa suoraan johonkin suositeltuun tiedostomuotoon, jotta vältytään tarpeettomilta tiedostomuunnoksilta myöhemmin. Myös perusmetatiedot aineiston tuottamiseen sekä käsittelyyn käytetyistä laitteista ja ohjelmistoista sekä niiden versioista on syytä merkitä muistiin.

Tietoarkiston vastaanottamat, säilyttämät ja jakelemat tiedostoformaatit

Säilytys- ja siirtokelpoiset tiedostomuodot (digitalpreservation.fi) (Avautuu uuteen välilehteen) PDF

Tiedostojen konvertointi Ankkurilinkki ikoni

Konvertoitaessa eli siirrettäessä tiedostoja yhden ohjelmiston käyttämästä tiedostomuodosta toiseen informaatiota katoaa tai se vääristyy helposti. Tietoa voi kadota myös konversiossa saman ohjelmiston eri versioiden välillä. Siksi pelkästään tiedoston tallentaminen jatkokäyttöä ajatellen suositeltavampaan tiedostoformaattiin ei yksin riitä ymmärrettävyyden takaamiseen. Jotta tietoa menetettäisiin konversiossa mahdollisimman vähän tai ei lainkaan, konversion yhteydessä tulee tutustua eri tiedostoformaattien ja ohjelmistojen rajoituksiin.

Useissa ohjelmistoissa on tarjolla Export- tai Save as -toiminto, jolla aineisto voidaan tallentaa eri tiedostoformaateissa. Nämä toiminnot eivät kuitenkaan aina konvertoi täydellisesti alkuperäistiedoston sisältämää informaatiota. Esimerkiksi tilastollisissa ohjelmissa puuttuvan tiedon määrittelyt saattavat kadota, vaikka kohdeformaatti niitä tukisikin. Tekstinkäsittelyohjelmasta toiseen siirryttäessä tekstin muotoilu tai taulukoiden ja kuvien asettelu voi muuttua tai kadota. Konversiossa pitääkin arvioida, onko täydellinen konversio tarpeen ja minkä verran muutosta voidaan sallia. Edellä mainittu puuttuvan tiedon määrittelyn katoaminen muuttaa aineistoa, ellei sitä havaita. Toisaalta taas litteroidun haastattelutekstin kirjasimen muuttuminen toiseksi ei välttämättä lainkaan haittaa aineiston ymmärrettävyyttä.

Erilaisten tiedostoformaattien väliseen konversioon on tarjolla myös ohjelmistoja, joissa eri formaattien ominaisuudet on otettu kattavasti huomioon. Tietoarkistossa käytetään kvantitatiivisten tutkimusaineistojen konvertointiin StatTransfer-ohjelmaa.

Tutkimusaineiston digitointi Ankkurilinkki ikoni

Paperisten teksti- ja kuva-aineistojen muuntaminen digitaaliseen muotoon tutkimustarkoitusta varten onnistuu nykyään helposti kuvaamalla, tasoskannerilla tai tulostimiin sisältyvällä skannauslaitteella ja -ohjelmalla. Digitoinnin laatukriteerit riippuvat tarpeesta. Tutkimuskäytössä voi riittää vaatimattomampi taso kuin alkuperäisen asiakirjan digitoinnissa painettavaa julkaisua varten. Myös tarve digitoidun aineiston jatkomuokkaukselle vaikuttaa digitointitapaan ja vaadittavaan laatuun. Yleistäen voi sanoa, että kannattaa pyrkiä parhaaseen mahdolliseen laatuun käytettävissä olevien resurssien valossa. Uudelleendigitointi on yleensä vaivalloisempaa ja kalliimpaa, erityisesti jos digitoitavana on ollut paljon aineistoa.

Jos tarkoitus on säilyttää sähköisessä muodossa vain teksti, skannerin kuvaama/lukema teksti muutetaan tekstitiedostoksi tekstintunnistusohjelmalla (OCR, Optical Character Recognatization), jollainen kuuluu usein jo skannereiden vakio-ohjelmiin. Erityisesti tekstintunnistukseen tarkoitettujen ohjelmistojen ohella esimerkiksi Google, Microsoft ja Adobe tarjoavat omissa sovelluksissaan tekstintunnistusta kuvasta. Eri ohjelmien kyky tulkita tekstiä virheettömästi vaihtelee ja riippuu suuresti alkuperäisen tekstin laadusta, asettelusta ja kielestä. Tunnistetun tekstin oikeellisuus pitää tarkistaa.

Jos halutaan säilyttää paperidokumentin ulkoasu tai esimerkiksi siihen käsin kirjatut merkinnät, tallennetaan ja säilytetään skannattu tiedosto kuvatiedostona samalla tavalla kuin kuva-aineistot. Tällaisenkin dokumentin teksti voidaan tunnistaa, jolloin sitä voi kopioida tai kohdistaa siihen sanahakuja.

PDF (Portable Document Format) (Avautuu uuteen välilehteen) on käytännössä vakiintunut tallennusmuoto paperidokumenttien digitaalisten versioiden levittämiseksi ja säilyttämiseksi. Sen avulla dokumentit voidaan tulostaa niin, että tekstin ja kuvien alkuperäinen asettelu säilyy. Dokumenteille, joiden tulee säilyä muuttumattomina, suositellaan standardoitua PDF/A-tiedostomuotoa. Se on arkistointiin ja pitkäaikaissäilytykseen tarkoitettu tiedostomuoto, joka sallii vain osan PDF:n ominaisuuksista ja varmistaa, että kaikki dokumentin näyttämiseen tarvittavat asiat paketoidaan osaksi jaettavaa asiakirjaa. Nykyiset toimisto-ohjelmat osaavat tallentaa PDF/A-tiedostoja.

PDF ei kuitenkaan aina ole käytettävin muoto tekstidokumentille. Sen muokkaaminen käsin tai koneellisesti on monimutkaista eikä tekstin kopiointi aina onnistu ongelmitta. Esimerkiksi avoimesti standardoitu OpenDocument Text (Avautuu uuteen välilehteen) voi olla käytännöllisempi vaihtoehto.

Vanhat VHS-nauhoilla olevat äänikuvatallenteet voi muuntaa digitaalisiksi käyttäen VHS-nauhuria ja erillistä tietokoneeseen liitettävää laitetta käyttäen. Vastaavasti muiden vanhoilla medioilla (avokelat, c-kasetit, kaitafilmit) olevien äänitallenteiden digitointiin löytyy laitteita tai digitointipalveluita. Näiden medioiden käytyä yhä harvinaisemmiksi, on myös laitetarjonta kaventunut. Kirjastot tarjoavat itsepalveluita erilaisten medioiden digitointiin. Digitointipalveluja tarjoavat monet alalle erikoistuneet yritykset, jotka osaavat digitoinnissa huomioida erilaiset nauhan ikään ja alkuperäisen tallenteen käyttökertojen määrään liittyvät seikat. Digitoitujen ääni- ja kuvatallenteiden tiedostoformaatti kannattaa valita niin, että laatu ja formaatti mahdollistavat aineiston jatkokäsittelyn.

Havaintomatriisit ja tilasto-ohjelmistot Ankkurilinkki ikoni

Kvantitatiivinen aineisto on tyypillisesti havaintomatriisi, joka koostuu riveistä ja sarakkeista ja jossa yksi rivi vastaa yhtä havaintoa ja yksi sarake yhtä muuttujaa. Havaintomatriisin solut sisältävät numeerista tai tekstimuotoista informaatiota. Matriisia käsitellään tilasto-ohjelmistolla.

Useimmat tilasto-ohjelmistot tallentavat aineistoon havaintomatriisin lisäksi metadataa eli tietoa, joka kuvaa havaintomatriisin solujen sisältöä. Tyypillisesti tällaista informaatiota ovat muuttujien nimet ja selitteet, muuttujien arvojen selitteet ja puuttuvan tiedon määrittelyt.

Kvantitatiivisen aineiston käsittelyyn on tarjolla lukuisia erilaisia ohjelmistoja. Eri ohjelmistot tarjoavat erilaisia analyysimahdollisuuksia tai ovat erikoistuneita tieteenalakohtaiseen käyttöön. Ne käsittelevät eri tavoin muun muassa muuttujien ja vastausvaihtoehtojen selitteitä, puuttuvia tietoja ja muuttujaformaatteja. Myös saman ohjelmiston eri versioiden välillä voi olla huomattaviakin eroja. Tiedoston konvertointi eri formaatteihin ja siten käyttö eri ohjelmien välillä toimii verrattain hyvin, mutta virhemahdollisuus pitää tiedostaa.

Yhteiskuntatieteissä käytetyimmät tilastollisen aineistonkäsittelyn ja analysoinnin ohjelmistot ovat SPSS, Stata, SAS ja R. Tarjolla on myös laaja valikoima muita maksullisia tai avoimen lähdekoodin tilasto-ohjelmistoja (esimerkiksi PSPP, Matlab, gretl, Statistica). Lisäksi taulukkolaskentaohjelmistoja (esimerkiksi Excel) käytetään tutkimusaineistojen muokkaukseen ja analysointiin. Tutkimusaineisto voidaan myös tallentaa ja analysoida relaatiotietokannoissa (kuten MySQL).

Tietoarkistoon aineiston voi toimittaa esimerkiksi SPSS-, SAS-, Stata- tai Excel-tiedostona tai CSV-tiedostona. Aineistojen huolellinen dokumentointi säilyttää aineiston käyttökelpoisuuden tiedostoformaatista, ohjelmistosta tai versiosta riippumatta.

Tilasto-ohjelmistot ja niiden tiedostoformaatit

SPSS (IBM SPSS Statistics)

SPSS:n ensimmäinen versio julkaistiin jo 1968. Saatavilla ovat versiot Windows-, Linux- ja Mac OS X -käyttöjärjestelmille. Yleiskäyttöinen tilasto-ohjelma, jota käytetään valikoiden tai komentokielen (syntaksin) avulla. SPSS Portable -formaatti oli pitkään hyvin suosittu tutkimusaineistojen pitkäaikaissäilytyksessä.

Tiedostopääte: *.sav, *.por

Stata

Vuonna 1985 julkaistu yleiskäyttöinen tilastollinen ohjelmisto, versiot Windows-, Linux- ja Mac OS X -käyttöjärjestelmille.

Tiedostopääte: *.dta

SAS/STAT

Ensimmäinen versio julkaistiin jo 1960-luvulla, versiot Windows-, IBM mainframe-, Unix/Linux- ja OpenVMS Alpha -käyttöjärjestelmille. Monipuolisen tilastollisten osien lisäksi SAS sisältää paketit grafiikasta, optimoinnista ja matriisilaskennasta. Käytetään pääasiallisesti komentokielen avulla, mutta myös valikoiden kautta.

Tiedostopääte: *.sd2, *.sd7, *.sas7dbat, *.ssd01, *.sas7dcat

R

Nopeasti suosiota saanut avoimen lähdekoodin tilastollinen ohjelmistoympäristö/ohjelmointikieli, josta on versiot Windows-, Linux ja Mac OS X -käyttöjärjestelmille. R julkaistiin avoimena 1990-luvun loppupuolella. R on itsessään komentokielipohjainen, mutta sille on saatavissa runsaasti laajennuksia ja visuaalisia käyttöliittymiä.

Tiedostopääte: *.r, *.rdata, *.rds, *.rda

Muut yleiset havaintomatriisien tiedostomuodot

Comma Separated Values, CSV

Tekstitiedosto, jossa tiedot (muuttujien saamat arvot) on erotettu toisistaan pilkulla ja rivinvaihdoilla. Käytössä laajasti, myös datan siirtämisessä sovellusten välillä ja pitkäaikaisarkistomuotona.
Tiedostopääte: *.csv

Sarkainerotettu tiedosto (Tab Delimited)

Tekstitiedosto, jossa tiedot erotettu toisistaan sarkaimella.
Tiedostopääte: *.dat, *tab, *.txt

Kiinteäkenttäinen tiedosto (Fixed width)

Tekstitiedosto, jossa jokaiselle tiedolle on varattu tietty määrä merkkejä. Jos tieto on varattuja merkkejä lyhyempi, käytetään esimerkiksi välilyöntiä täyttämään "tyhjä osuus".
Tiedostopääte: *.dat, *.txt

OpenDocument Spreadsheet

Avoin, standardoitu XML-pohjainen tiedostoformaatti, joka kuuluu toimisto-ohjelmissa muokattavien asiakirjojen tiedostoformaattiperheeseen. Vastaa ominaisuuksiltaan pitkälti Excelin uudempaa tiedostoformaattia ja Excel kykenee avaamaan ja tallentamaan OpenDocument-tiedostoja.
Tiedostopääte: *.ods

Tekstiaineistot Ankkurilinkki ikoni

Valtaosa Tietoarkistoon arkistoiduista kvalitatiivisista aineistoista on tekstitiedostoja. Aineistot voivat olla esimerkiksi päiväkirjamerkintöjä tai ääni- ja videotallenteista litteroituja tekstitiedostoja. Usein aineistoon liittyy myös kirjoitus- tai transkriptointiohjeita. Tekstiaineistoja voidaan käsitellä tekstinkäsittelyohjelmilla tai nimenomaan kvalitatiiviseen aineiston käsittelyyn suunnitelluilla ohjelmilla (esimerkiksi Atlas.ti, NVivo).

Myös tutkimusaineistoa kuvailevan metadatan voi säilyttää tekstitiedostona. Erilaiset rakenteiset dokumentit ovat myös käytännössä tekstitiedostoja. Nämä merkintäkieltä käyttäen tehdyt dokumemtit (esimerkiksi XML-tiedostot tai HTML-tiedostot) voivat sisältää aineiston kuvauksen mutta myös itse tekstuaalisen datan. Rakenteisen dokumentin etuna on, että aineiston rakenne ja esitystapa voidaan kuvata tarkasti sekä koneellisesti käsiteltävässä muodossa.

Tietoarkistoon laadullisen aineiston voi toimittaa missä tahansa yleisessä tekstitiedostoformaatissa tai rakenteisena dokumenttina.

Tavallisimmat tekstitiedostoformaatit

Puhdas teksti (Plain text)

Muotoilemattomana eli puhtaana tekstinä tallennettavien tiedostojen nimet ovat tyypillisesti muotoa asiakirjannimi.txt, joskaan tiedostopääte ei sinällään ole merkitsevä. Esimerkiksi read.me voisi olla tekstitiedosto. Joskus puhutaan ASCII-tallenteista, jolla tarkoitetaan samaa asiaa. Muotoilematon txt-tallenne on hyvä ratkaisu pitkäaikaissäilytykseen, sillä tiedostot avautuvat kaikilla tekstinkäsittelyohjelmilla ja tekstieditoreilla. Suositus on käyttää Unicode-pohjaista merkistöä (UTF-8 tai 16).

Tiedostopääte: usein *.txt

OpenDocument Text

OpenDocument Text on XML-pohjainen avoin tiedostomuoto tekstille. Se perustuu avoimen lähdekoodin toimisto-ohjelmisto OpenOfficen ODF-tiedostomuotoon ja on ISO-standardoitu. Kuten Word-dokumentit ODT-tiedostot voivat sisältää huomattavan monimutkaisia muotoiluja, taulukoita, grafiikkaa ja kuvia. Avoimuuden ja järjestelmäriippumattomuuden vuoksi ODT-formaattia pidetään soveltuvana pitkäaikaissäilytykseen.

Tiedostopääte: *.odt, *.fodt

Microsoft Word DOCX (DOC)

Microsoft Word -tiedostot voivat sisältää huomattavan monimutkaisia muotoiluja (eri tekstityylejä, palstoja, otsikkotasoja ja värejä) sekä tekstin lomaan tallennettuja taulukoita, grafiikkaa ja kuvia. Tiedostot aukeavat varmimmin oikein vain Word -ohjelmalla, mutta XML-pohjaisen DOCX-formaatin tuki muissa tekstinkäsittelyohjelmissa on sangen hyvä. Ohjelmistoriippuvuuden vuoksi formaatti ei kuitenkaan ole suositeltava tallennemuoto pitkäaikaissäilytykseen.

Tiedostopääte: *.docx, *.doc

Rich Text Format

Jo iäkäs Rich Text Format on ohjelmistoriippumaton vaihtoehto. Myös se on ASCII-tiedosto ja toimii eri käyttöjärjestelmissä. Esimerkiksi siirtyminen Windows-käyttöjärjestelmästä Linuxiin ei yleensä muuta tiedostojen sisältöä tai muotoilua. Tekstin lisäksi RTF-tallenteet sisältävät tietoa marginaaleista ja fontista. Tiedostoformaattia ei kuitenkaan ole hyväksytty pitkäaikaissäilytykseen. Kuvia sisältävät RTF-tiedostot ovat lisäksi tiedostokooltaan erittäin suuria.

Tiedostopääte: *.rtf

Kuva-aineistot Ankkurilinkki ikoni

Tutkimusaineisto voi koostua kuvatiedostoista tai sisältää niitä. Esimerkiksi keskustelun tueksi tai virikkeeksi on voitu näyttää erilaisia kuvia, tai tutkimuksessa on analysoitu lehden kansikuvia. Joissakin tapauksissa tutkittavia kohteita on kuvattu osaksi aineistoa.

Digitaalikuvien tiedostoformaatit tunnetaan pitkälti niiden tiedostopäätteiden lyhenteillä. Monet yleiset kuvaformaatit ovat jo hyvin vanhoja. Kuvankäsittelyyn tarkoitetut ohjelmistot osaava avata valtavan joukon kuvaformaatteja, samoin kuin nykyaikaiset selaimet. Jatkokäsittelytarpeen ohella on hyvä olla tietoinen siitä, miten kuvaformaatti pakkaa kuvan informaatiota. Pakkaamattoman kuvan tiedostokoko on helposti erittäin suuri. Siksi kuvainformaatiota tiivistetään joko häviöllisesti tai häviöttömästi. Häviöllinen pakkaus voi johtaa kuvan tarkkuuden heikkenemiseen.

Kuvien yleisimmät tiedostoformaatit

JPEG

JPEG (Joint Photographic Experts Group) sopii sekä verkossa julkaistavien kuvien että valokuvien ja muiden sävykuvien tallennusmuodoksi, koska se kykenee tallettamaan yli 16 miljoonaa värisävyä. JPEG on hyvä käyttöformaatti valokuva-aineistoille, sillä kuva ei vie paljon tilaa. Pakkaus kuitenkin perustuu siihen, että kuvasta häviää yksityiskohtia. Tietoarkiston tekstiaineistoihin liittyvät kuvat välitetään asiakkaille useinmiten JPEG-muodossa. Sukulaisformaatti JPEG 2000 tarjoaa häviöttömän pakkausvaihtoehdon.

Tiedostopääte: *.jpg, *.jpeg, *.jfif, *.jpe

TIFF

TIFF (alun perin sanoista Tagged Image File Format) säilyttää kaiken informaation kuvasta sekä sen väreistä ja on järjestelmäriippumaton. Nämä ominaisuudet tekevät siitä hyvän pitkäaikaissäilytysformaatin, silloin kun digitoidun kuvan pitää vastata mahdollisimman tarkasti alkuperäistä. TIFF-kuvat vievät paljon tilaa, mutta niiden pakkaamiseen on olemassa erilaisia häviöttömiä menetelmiä. TIFF tukee myös kuvatasoja, ja siitä on olemassa myös paikkatiedon esittämiseen soveltuva yhteensopiva GeoTIFF-formaatti.

Tiedostopääte: *.tiff, *.tif

PNG

PNG (Portable Network Graphics) on suunniteltu verkossa julkaistaville kuville ja erityisesti grafiikalle, kuvioille ja kaavioille. Se pakkaa kuvainformaatiota häviöttömästi ja tukee läpinäkyvyyttä. PNG-formaatti on standardoitu ja patentiton ja soveltuu vapaasti käytettäväksi myös osana toisia sovelluksia.

Tiedostopääte: *.png

GIF

GIF (Graphics Interchange Format) on vanha ja vain 256 väriä tukeva tiedostoformaatti, jonka suosiota kuitenkin edelleen selittää soveltuvuus pienten verkossa esitettävien animaatioiden luomiseen. Formaatti pakkaa tiedostokoot häviöttömästi pienemmiksi. Formaattia ei ole tarkoitettu pitkäaikaissäilytykseen.

Tiedostopääte: *.gif

SVG

SVG (Scalable Vector Graphics) on yleinen sekä selainten että toimisto-ohjelmien tukema XML-pohjainen vektorikuvien formaatti. Vektorigrafiikan etu on, että sitä voidaan skaalata ilman, että kuvan laatu heikkenee lainkaan. Edellä mainitut muut kuvaformaatit ovat bittikarttakuvia. SVG on standardoitu ja pitkäaikaissäilytykseen sopiva kuvaformaatti. SVG-kuvien tiedostokoko on yleensä hyvin pieni ja niitä voidaan pakata häviöttömästi.

Tiedostopääte: *.svg, *.svgz

Ääni- ja äänikuvatallenteet Ankkurilinkki ikoni

Tutkimusaineistot sisältävät enenevässä määrin esimerkiksi nauhoitettuja tai videoituja haastatteluita. Ääni- ja äänikuvatallennemuodot (audio- ja audiovisuaaliset tallennemuodot) ovat usein järjestelmäriippuvaisia, vaikkakin aiempaa yhdenmukaisempia. Tutkimustyössä ääni- ja äänikuvataltiointivälineiden omat tiedostomuodot ovat usein käyttökelpoisia, mutta pitkäaikaissäilytykseen ne käytännössä aina konvertoidaan.

Kuten muidenkin digitaalisten tiedostojen kohdalla, tiedoston aiottu käyttö ja jatkokäsittely ratkaisee paljon formaatin valinnassa. Osa tiedostomuodoista käyttää häviöllistä pakkausta. Laadultaan huonompi (äänen näytteenottotaajuus tai videon kuvatarkkuus) tallenne ei mahdollista monipuolista jälkikäsittelyä. Puhetta tallennettaessa esimerkiksi litteroitavaa aineistoa varten, äänenlaadulla ei ole välttämättä kovin suurta merkitystä. Sen sijaan musiikin tai tilaäänien tallentaminen vaatii laadukkaamman tallenteen.

Yleisiä ääni- ja äänikuvatallenneformaatteja

WAV

WAV (Windows Wave) on pakkaamaton äänitallennemuoto, joka vie paljon tilaa, mutta säilyttää äänen, jos näytteenottotaajuudessa ja erottelutarkkuudessa käytetään suurta bittimäärää. WAV on suositeltava äänitiedostojen pitkäaikaissäilytyksen tallennemuoto, jos äänenlaatu halutaan säilyttää hyvin korkeatasoisena. Täysin pakkaamattomana se vaatii kuitenkin suurta säilytyskapasiteettia ja tiedostojen siirto voi olla hidasta. Käyttökopioformaattina WAV on harvinaisempi.

Tiedostopääte: *.wav

FLAC

FLAC (Free Losseless Audio Codec) on nimensä mukaisesti patentiton ja lisenssimaksuton häviötön äänenpakkausmenetelmä. Ääni-informaatio säilyy alkuperäistä vastaavana kuten WAV-tiedostossakin, mutta kooltaan tiedosto on merkittävästi pienempi. FLAC on hyvä valinta pitkäaikaissäilytykseen ja myös tutkimuskäyttöön, vaikka tiedostot ovat häviöllisiä formaatteja käyttäen pakattuja tiedostoja suurempia. Tietoarkiston äänitiedostot säilytetään FLAC-formaatissa.

Tiedostopääte: *.flac, *.fla

MP3

MP3 (MPEG-1 Audio Layer 3) pakkaa ääntä voimakkaasti ja tiedostot ovat paljon pienempiä kuin vastaavat WAV- tai FLAC-tiedostot. Pakkaus hävittää lähinnä sellaisia ääniä, joita ihmiskorva ei muutenkaan kuulisi. Tallenteessa käytetty bittinopeus vaikuttaa kuitenkin tallenteen äänenlaatuun. MP3-tallennemuoto suosittu ja laajasti tuettu. Se sopii ääntä sisältävien tutkimusaineistojen tallennemuodoksi. Formaatti on nykyään patenttivapaa ja soveltuu rajoitetusti myös pitkäaikaissäilytykseen.

Tiedostopääte: *.mp3

AAC

AAC (Advanced Audio Coding) on suunniteltu korvaamaan MP3-tiedostot. AAC pakkaa ääntä häviöllisesti, mutta tarjoaa paremman äänenlaadun kuin vastaava MP3-tiedosto. Formaatti on standardoitu ja patentoitu. Se soveltuu pitkäaikaissäilytykseen.

Tiedostopääte: *.m4a

Videon pakkaus ja säiliömuodot

Äänikuvatallenteet tarjoillaan käyttäjille "kääreissä", ts. säiliömuodoissa, jotka sisältävät eri standardien mukaan pakattua ääntä ja videota. MPEG-4 on joukko laadukkaita äänen ja kuvan pakkaamistapoja, joita voidaan käyttää mm. digitaalisessa videossa ja interaktiivisessa multimediassa. Formaatti on nykyisin monien videokameratallenteiden pakkaustapa. MPEG-4 AVC (H.264) on standardoitu, yleisesti käytetty häviöllinen videonpakkausstandardi. Siten esimerkiksi H.264-pakatun videon parina voi olla MP3-muotoista ääntä esimerkiksi MP4-, Matroska-, QuickTime- tai AVI-kääreessä. Videotiedostojen tiedostopäätteet ovat säiliöformaatin tiedostopäätteitä. Äänikuvatallenteita konvertoitaessa pitkäaikaissäilytykseen tulee huomioida ja kuvata sekä äänen että videon pakkausstandardit.

Vanhempi MPEG-2 on DVD-tallenteista tai teräväpiirtotelevisioista tunnettu pakkausstandardi, joka soveltuu sekä yksinomaan ääntä että HDTV-tasoista videota sisältävien tutkimusaineistojen tallenneformaatiksi.

Tietoarkisto tallentaa videoaineiston ensisijaisesti käyttäen H.264-pakkausta, jolloin se sopii pitkäaikaissäilytykseen. FFV1 (FF Video Codec 1) on pitkäaikaissäilytykseen sopiva avoimen lähdekoodin häviötön pakkausmenetelmä, jonka etuna on suorituskyky ja tehokkuus verrattuna muihin häviöttömiin pakkausstandardeihin.