Yhteiskuntatieteellisen tietoarkiston arkistonmuodostussuunnitelma Liite 6: Formaattitaulukko

Taulukossa on esitetty Tietoarkistotyössä käytettävät tiedostoformaatit eri aineistotyypeille (5.10.2015, päivitetty 21.3.2016).

PAS (FSD) tarkoittaa Tietoarkistossa säilytettävän tiedoston pitkäaikaissäilytyksen formaattia.
Jakelu tutkijalle tarkoittaa Ailan kautta välitettävää tiedostomuotoa.

Tiedostomuotojen jaottelu aineistotyypin mukaan ei ole tiukka, vaan suositeltuja tiedostomuotoja voi käyttää kaikille aineistotyypeille tarpeen mukaan.

Aineistotyypit ja tiedostomuodot Tietoarkistossa

Aineiston tyyppi Hyväksyttävät sisäänottoformaatit PAS (FSD) Jakelu tutkijalle Huom.
Havaintomatriisi Ei rajoitettu.
Suositus: SPSS Portable (.por) tai tilasto-ohjelmien tiedostot (esim. SAS, Stata, Excel, csv)
por (SPSS Portable), CSV, (ods) por (SPSS Portable), (CSV, ods) Poikkeustapauksissa jakelu myös muissa formaateissa (esim. sav, csv).
OpenDocument-tiedostomuotoa (od*) voidaan käyttää PAS-formaattina, jos datassa on merkityksellisiä muotoiluja, joiden säilyminen on ymmärrettävuuden kannalta oleellista. CSV-muotoa voidaan käyttää, jos se on matriisin hyödyntämisen kannalta parempi.
Tietoarkisto tiedostaa SPSS-ohjelman rajoitukset ja seuraa alan kehitystä ja muiden maiden ratkaisuja havaintomatriisien formaattien valinnoissa. Terveystieteen aineistojen arkistointi voi edellyttää formaattien valinnan uudelleenarviointia.
Teksti, esim. haastattelulitteraatiot tai avokysymysten vastaukset Ei rajoitettu.
Suositus: puhdas teksti tai yleiset toimistoformaatit (esim. docx)
UTF-8 enkoodattu TXT tai CSV, xml, html/xhtml, od* UTF-8 enkoodattu TXT tai CSV, xml, html/xhtml, od* Csv-tiedostoissa voidaan käyttää muutakin kenttäerotinta kuin pilkkua (esim. tabulaattori).
Jos ymmärrettävyyden säilymiseksi aineiston muotoilu tai siihen liittyvät kuvat pitää säilyttää, niin suositellaan PDF/A:n tai OpenDocument-formaatin käyttöä.
Humanististen aineistojen arkistointi voi edellyttää tiedostomuotojen uudelleenarviointia.
Sisäisen käsittelyprosessin dokumentaatio - UTF-8 enkoodattu TXT tai CSV, PDF/A, od* - Tiedostopääte asetetaan käytetyn ohjelmiston mukaan (esim. syntakseille .sps, python-ohjelmakoodille .py jne.)
Jos dokumentaatiossa on muotoiluja, jotka ymmärtämisen helpottamiseksi tulee säilyttää, käytetään PDF/A- tai OpenDocument-formaattia.
Kuva Ei rajoitettu
Suositus: JPEG, PNG, TIFF
JPEG, PNG, TIFF, (DNG) JPEG, PNG Poikkeustapauksissa myös DNG on PAS-kelpoinen. Kun tietoarkisto tekee digitoinnin, PAS-formaatteja ovat TIFF tai DNG.
Tietoarkisto ottaa huomioon Kansallisarkiston laatimat digitointisuositukset.
GIF-animaatiot voidaan joko konvertoida videoformaattiin tai purkaa yksittäisiksi PNG-kuviksi.
Ääni (audio) Ei rajoitettu
Suositus: FLAC, WAV
FLAC, (MP3) FLAC, MP3 Äänitallenteiden formaattisuositusten kehitystä seurataan ja muutoksia tehdään, kun tarve tulee.
MP3 käy PAS-formaattina vain, jos alkuperäinen vastaanotettu materiaali on MP3-formaatissa.
Video Ei rajoitettu
Suositus: MPEG-4 H.264
MPEG-4 H.264 MPEG-4 H.264 Videon osalta tilanne elää tällä hetkellä. Käytettävät formaatit arvioidaan uudelleen heti, jos tarvetta tulee.
Videon pakkaustaso ratkaistaan tapauskohtaisesti. Arkistokopion ja käyttökopion pakkaustaso ja resoluutio voivat poiketa toisistaan.