Versie 1.1 (september 2010)
1.
Woord vooraf
Belang
Om de lange termijn leesbaarheid van digitale documenten te verzekeren is het aangewezen om zoveel mogelijk gestandaardiseerde bestandsformaten te gebruiken. Standaarden spelen een belangrijke rol in de digitale bewaarstrategieën voor digitale archiefdocumenten zoals emulatie en migratie. Standaard bestandsformaten hebben hun status te danken aan (officiële) standaardiseringsinitiatieven of aan de grootschalige verspreiding.
Voordelen
Standaard bestandsformaten hebben het voordeel dat ze compatibel zijn met meerdere softwaretoepassingen. Wanneer één applicatie niet meer beschikbaar is, moeten de computerbestanden dus niet onmiddellijk omgezet worden. Een aantal conversiestappen worden bijgevolg vermeden. De interne bestandsstructuur van veel standaard bestandsformaten is publiekelijk verspreid zodat het in principe mogelijk is om ten allen tijde nieuwe viewers te maken. Het bewaren van informatie in bestandsformaten met de status van standaard dringt zich ook op om uitwisseling mogelijk te maken. Officiële standaarden of specificaties zijn niet afhankelijk van één producent, maar worden beheerd door standaardiseringsinitiatieven. Hierdoor wordt niet alleen een stukje stabiliteit gewaarborgd, de standaarden kunnen pas na het doorlopen van een hele procedure worden gewijzigd.
Parameters Bij de meeste bestandsformaten kunnen verschillende parameters en opties worden ingesteld. Vanuit archiveringsperspectief is het belangrijk om de nodige aandacht te en opties
besteden aan deze parameters en opties. Het technisch profiel en de mate waarin de digitale objecten geschikt zijn voor langetermijnarchivering worden immers sterk bepaald door de gehanteerde instellingen bij opslag. Volgende uitgangspunten zijn hierbij belangrijk en keren terug bij de meeste archiveringsformaten:
Wrappers en codecs
hanteer de Unicode (evt. ASCII) tekenset bij het inbedden van metadata
zorg ervoor dat de digitale objecten zo zelfvoorziening mogelijk zijn en zo weinig mogelijk afhankelijk van externe bronnen: alle elementen die nodig zijn voor een getrouwe reconstructie van het documenten worden maximaal aan de digitale objecten toegevoegd
kies een ASCII-opslagmethode waar mogelijk: dit maakt uitwisseling tussen meerdere applicaties doorgaans gemakkelijker
let op bij het toepassen van compressie: compressie kan resulteren in ongewenst gegevensverlies of tot softwareafhankelijkheid
Het hanteren van gestandaardiseerde bestandsformaten voor duurzame digitale archivering is belangrijk, maar is niet het enige aandachtspunt bij het kiezen van een
F. BOUDREZ - Standaarden voor bestandsformaten - 1
duurzaam opslagformaat voor gedigitaliseerde en digitale archiefdocumenten. Veel bestandsformaten zijn immers zogenaamde ‘wrappers’ of envelopformaten. Met andere woorden, deze formaten ondersteunen meerdere profielen en/of encodings en laten veel variaties toe. Zo ondersteunt het TIFF-formaat zowel LZW als JPEG compressie voor afbeeldingen. Een WAVE-bestand kan zijn geluidsdata in MP3-encoding bevatten. Een XML-document kan XML-dialect of een weinig semantisch documentmodel bevatten. Niet elk profiel of elke encoding is geschikt voor langetermijnarchivering zodat op voorhand goed moet worden afgewogen welk soort TIFF-, WAVE- of XML-bestanden worden samengesteld. Ook voor deze profielen en encodings worden bij voorkeur zo veel mogelijk standaarden gebruikt. In deze richtlijn wordt bij de wrapperformaten vermeld welke profielen of encodings aangewezen zijn.
Wanneer omzetten?
De digitale documenten kunnen op verschillende tijdstippen naar een standaard bestandsformaat worden omgezet. 1. Bewaar digitale documenten zoveel mogelijk van bij de creatie in het passende standaard bestandsformaat. Dit is vooral aangewezen bij audio-visuele documenten die je nog vele jaren nodig hebt. Bij tekstuele documenten is dit echter niet altijd mogelijk. Bijv. foto’s TIFF; audio WAV 2. Zet de bestanden om wanneer hun onmiddellijk nut voorbij is. Bijv. MS WORD PDF/A, ODF of TIFF 3. Zet de bestanden om terwijl de oorspronkelijke software nog operationeel is. Zorg eerst voor de omzetting, alvorens de software te vervangen. Bijv. AutoCAD DXF of PDF/E 4. De omzetting dient ten laatste voor overdracht naar de archiefdienst te gebeuren.
2.
Tekstdocumenten
FORMAAT XML
VERSIE
PARAMETERS en OPTIES
GEBRUIKEN VOOR
bij archiefdocumenten waarvan de lay-out belangrijk is: XSL-stylesheet opstellen
bij archiefdocumenten waarvan de structuur belangrijk is: XML Schema (of DTD) opstellen
baseer de granulariteit van het XMLdocument op de interne structuur van het archiefdocument en de gewenste zoekmogelijkheden
kies semantische XML-tags
zorg ervoor dat de XML-documenten leesbaar zijn voor meerdere applicaties
kies voor een XML-formaat dat vrij is van patentrechten die implementatie door derden in de weg staan of bemoeilijken
1.0/1.2
indien gewenst, vul metadata in de voorziene velden in of maak eigen metadatavelden aan. De metadata worden opgeslagen in het bestand (‘meta.xml’)
5.2.0
duidelijke veldscheidingstekens gebruiken
documenteer de velden in het Unicodebestand
documenteer de encoding en de linebreaks
1.0/1.1
eXtensible Markup Language
ODF Open-Document Format
Unicode
e-mails tekstdocumenten inhoud websites databanken metadata spreadsheets
tekstdocumenten met grafieken en afbeeldingen spreadsheets presentaties databanken logbestanden
F. BOUDREZ - Standaarden voor bestandsformaten - 2
PDF/A Portable Document Format for Archiving
TIFF Tagged Image File Format
gebaseerd op PDF 1.4
moeten bevatten:
6.0
alle fonts apparaatonafhankelijke kleuren XMP-metadata …
mogen niet bevatten: encryptie, beveiliging LZW-compressie ingebedde bestanden (audio, video, exe’s) transparantie …
level A: bedoeld voor digital born documenten. Het volledige document is conform PDF/A (incl. tags en Unicodemapping van alle karakters)
level B: bedoeld voor gedigitaliseerde en digital born documenten. Bevat enkel die elementen die nodig zijn om de visuele verschijningsvorm te garanderen.
scans: controleer of alles goed leesbaar is
tekstdocumenten met grafieken en afbeeldingen powerpointpresentaties ingescande documenten
websites nieuwsbrieven
veel gebruikte resolutie: 300 dpi
bitdiepte: zwart-wit: 1 bit grijswaarden: 8 of 16 bits kleur: 24 of 48 bits
bij voorkeur compressieloos bewaren
enkel baseline en vastgelegde TIFFuitbreidingen toepassen: pas het TIFFformaat niet intern aan
RGB: afbeelding op scherm (sRGB: IEC 61966-2-1)/ CYMK: drukwerk
byte volgorde (IBM of MacIntosh): vrij te kiezen
kapsel metadata in de TIFF-header in:
tekstdocumenten met grafieken en afbeeldingen scans powerpointpresentaties drukwerk
269: DocumentName 270: ImageDescription 271: Make 272: Model 305: Software 306: DateTime 315: Artist 316: HostComputer 33432: CopyRight (X)HTML (eXtensible) HyperText Markup Language
HTML 4.01 (ISO-15445) of XHTML 1.0
(X)HTML-syntaxregels respecteren geen afgekeurde of nietgestandaardiseerde tags en attributen
F. BOUDREZ - Standaarden voor bestandsformaten - 3
gebruiken
leg bestandsgegevens (metadata) expliciet in de XHTML-header vast (zie: Digitaal Archiveren: Richtlijn 5. Websitesbeheer voor archivering.)
3.
Afbeeldingen
3.1
Rasterafbeeldingen
FORMAAT
PARAMETERS en OPTIES
GEBRUIKEN VOOR
idem als bij tekstuele documenten
layers als afzonderlijke lagen in het TIFFbestand bewaren
luchtfoto’s: geografische referenties (coördinaten, projectie informatie, enz.) kunnen worden opgenomen in de geo-tags die GeoTIFF (versie 1.8.2, december 2000) voorziet.
Joint Pictures Experts Group
bepaal de parameters in functie van de bestandsgrootte en de beeldkwaliteit
gebruik EXIF om metadata in te kapselen
JPEG2000
JPEG2000
Joint Pictures
lossy compressie voor werkkopieën toepassen
bewaar de afbeelding in een JPEG2000bestand (.jp2), en niet als codestream (.jpc, .j2k). Gebruik de uitbreidingen op het JPEG2000-formaat (.jpx) enkel wanneer de afbeelding een kleurenprofiel nodig heeft dat niet in het gewone JPEG2000-formaat wordt ondersteund.
de afbeelding kan in meerdere resoluties in hetzelfde bestand worden opgeslagen
gebruik XML of XMP om metadata in te kapselen
gebruik GML om JPEG2000-afbeeldingen te georefereren (GMLJP2)
1.0
keuze tussen 8-bit en 24-bit
89
beperking op aantal kleuren =
TIFF
VERSIE 6.0
Tagged Image File Format
JPEG
JPEG
Experts Group
PNG
lossless of “visual lossless” compressie voor moederkopieën toepassen
digitale foto’s in JPEGformaat foto’s in websites werk- of raadplegingskopieën ingescande documenten luchtfoto’s (in MrSidformaat) opmerking: JPEG2000 wordt niet algemeen ondersteund door webbrowsers
Portable Network Graphics
GIF
digitale foto’s in RAWformaat ingescande documenten moederkopieën luchtfoto’s (in MrSidformaat)
afbeeldingen (in websites) afbeeldingen met paletkleuren (8 bit) of grijswaarden (24 bit) opmerking: PNG past altijd compressie toe cartoons (met animatie)
F. BOUDREZ - Standaarden voor bestandsformaten - 4
Graphics Interchange Format
informatieverlies LET OP: Voor de creatie van GIF-bestanden dient men in principe te beschikken over een Unisyslicentie.
3.2
logo's zwart-wit afbeeldingen afbeeldingen met paletkleuren en grote vlakken afbeeldingen in websites
Vectorafbeeldingen
FORMAAT
VERSIE
PARAMETERS en OPTIES
GEBRUIKEN VOOR
CGM
pas indien mogelijk een profiel toe
Computer
gebruik het WebCGM-profiel voor dynamische CGM-afbeeldingen met hyperlinks
2 dimensionele vector afbeeldingen
gebruik de ASCII-opslagmethode
in hoogst mogelijk versie bewaren
kan animatie en interactieve elementen bevatten metadata kan in XML-vorm aan de afbeeldingen worden toegevoegd
Graphics Metafile
DXF
25.1.01
Drawing eXchange Format
SVG
1.2
Scalable Vector Graphics
PDF/E
1
Engineering document format using PDF
4.
gebaseerd op PDF versie 1.6 moeten bevatten: fonts apparaatonafhankelijke kleuren XMP-metadata
2 en 3 dimensionele CAD/CAM-tekeningen
2 dimensionele afbeeldingen
flowcharts
animaties
2 dimensionele CAD/CAM tekeningen
Geluid
FORMAAT PCM Pulse Code Modulation
WAVE
VERSIE
PARAMETERS en OPTIES
GEBRUIKEN VOOR
sample-rate en bitdiepte kiezen in functie digitale moederkopieën van de kwaliteit van de analoge bron
DAT-bestand bijleveren waarin de samplerate en sample–resolutie expliciet zijn vastgelegd
sample-rate en bitdiepte kiezen in functie digitale moederkopieën of van de kwaliteit van de analoge bron. CD- uitwisseling kwaliteit is 44,1 KHz en 16 bit/sample.
codecs:
Waveform Audio File Format
master/moederkopie: lineaire pulse code modulation
uitwisseling/streaming: MP3-codec
gebruik ‘WAVE_FORMAT_EXTENSIBLE’ wanneer:
een hogere bitdiepte dan 16
F. BOUDREZ - Standaarden voor bestandsformaten - 5
bits/sample nodig is
MP3
5.
1.0
het aantal kanalen hoger is dan 2: Wave Format Extensible ondersteunt max. 18 kanalen. de mapping van kanalen naar speakers moet worden vastgelegd
gebruik BWF/RF641 wanneer:
de bestandsomvang groter is dan 4 GB.
het aantal kanalen hoger is dan 2: zie Wave Format Extensible
bepaal de parameters frequentie, bitrate en aantal kanalen in functie van de gewenste kwaliteit en bestandsgrootte
uitwisseling van geluidsbestanden via netwerken. Gebruik van streaming MP3 is mogelijk.
Beeld en geluid
FORMAAT MXF
VERSIE 1.0
PARAMETERS en OPTIES
GEBRUIKEN VOOR
MXF heeft diverse ‘operational patterns’. MXF OP1A is de aangewezen pattern om de beeld- en geluidsinformatie samen te bewaren (SMPTE 378M-2004: Operational Pattern 1a (Single Item, Single Package)).
hoge resolutie digitale moederkopieën (essence + metadata) die nog editeerbaar moeten zijn
MXF is een zgn. wrapperformaat en kan beeld- en geluidsinformatie (de ‘essence’) in diverse encodings bevatten. Volgende encodings zijn aangewezen voor: videobanden: losslees Motion JPEG2000 analoge masters:
Material Exchange Format
beeld: uncompressed YUV 4:2:2 met hoge bitdiepte (8 of 10)
geluid: uncompressed PCM (48 KHz en 24 bits bitdiepte) digitale masters: video: uncompressed YCbCr, 4:2:2 of 4:4:4 met hoge bitdiepte (8 of 10) geluid: uncompressed PCM (48 KHz en 24 bits bitdiepte)
1
De European BroadCasting Union legde het Broadcast Wave Format (BWF) als uitwisselingsformaat voor audio vast. BWF is een verfijning van het algemene WAVE-formaat. BWF voorziet een extra ‘chunk’ voor de opslag van specifieke metadata (chunknaam ‘bext’). BWF ondersteunt enkel lineaire PCM en MPEG als audiocodec. Het standaard BWF-profiel is lineaire PCM, 16 bits/sample en 48 KHz. RF64 biedt de mogelijkheid om BWF-bestanden groter dan 4 GB en met multichanneling op te slaan.
F. BOUDREZ - Standaarden voor bestandsformaten - 6
MJPEG2000
1.0
Inkapselen van beschrijvende en technische metadata in XML
MJPEG2000 Simple Profile:
Motion JPEG2000
MPEG
6.
opslag: in een MXF-wrapper, of rechtstreeks in MJPEG2000 als 1 digitaal object die alle metadata, video- en audio informatie bevat als meerdere digitale objecten: het MJPEG2000 metadata-bestand verwijst naar de afbeeldingen (bijv. JPEG2000) en het audiobestand (bijv. WAV).
compressie: lossless of visual lossless
voeg metadata in XML-vorm toe
1.0
bepaal het aantal frames (bijv. 30), de kleurdiepte (8, 16, 24) en de resolutie (origineel, 160 x 120, 320 x 240, 640 x 480) in functie van de gewenste kwaliteit en bestandsgrootte
distributie van bewegende computerbeelden met/zonder geluid (VHSkwaliteit)
2.0
idem als bij MPEG 1.0
digitale televisie, multimedia (DVD-kwaliteit).
Moving Pictures Experts Group
MPEG (*.m2v)
hoge resolutie digitale 1 videotrack: max. 30 frames/seconde moederkopieën die niet of max 1 geluidtrack: max. 48Khz, 8 of 16 slechts uitzonderlijk editeerbaar hoeven te zijn bits, 1 of 2 kanalen, PCM-codec geen externe bronnen of referenties: alle gegevens zijn in het bestand opgeslagen
? Vragen ? Suggesties ? Met al uw vragen en suggesties kan u terecht bij eDAVID: mailto:
[email protected] Meer info: F. Boudrez, Standaarden voor digitale archiefdocumenten, (http://www.edavid.be/davidproject).
F. BOUDREZ - Standaarden voor bestandsformaten - 7