1. Preservatie van audiovisuele media: problematiek en uitdagingen 1.1. Situering "[...] the rewards for safeguarding and preserving our television and video heritage are immeasurable. No one can fully understand who we are as a people and what we have become as a society without having access to the recordings created by television and video production during the last 50 years." James H. Billington, Library of Congress1 Audiovisuele media representeren een belangrijk deel van ons cultureel erfgoed. Televisie, radio, cinema en multimedia groeiden in de loop van de twintigste eeuw uit tot de grote motors van cultuur, communicatie en commercie, toegankelijk voor welhaast iedereen en voortdurend onderhevig aan technologische vernieuwing. De resultaten van de opeenvolgende technologische evoluties accumuleerden in nieuwe types archieven, die werden gecreëerd voor de opslag van deze media. Het archiveren impliceert de opslag van de dragers waarop de content is ingeschreven, maar ook het bijhouden en onderhouden van de afspeelapparatuur, want zonder de bemiddeling van deze machines is de informatie niet direct toegankelijk. Audiovisuele media worden bewaard in verschillende archieven en collecties, heterogeen zowel in status als in grootte: culturele en commerciële instellingen, omroepen, onderzoeksinstituten, bibliotheken, musea, … . In enkele decennia tijd zijn deze archieven uitgegroeid tot opslagplaatsen van een breed spectrum aan dragers en apparatuur, met verschillende analoge en digitale formaten die idealiter op een consistente manier beschreven en beheerd worden. Unesco schat dat er op wereldvlak 200 miljoen uren aan audiovisueel materiaal is opgeslagen, waarvan ongeveer 50 miljoen in Europa. Het belang van het audiovisuele erfgoed werd onder andere erkend door de Raad van Europa, die in 2001 een European Convention for the Protection of the Audiovisual Heritage opstelde. Dat document stelt dat “… moving image material is a form of cultural expression reflecting contemporary society … it is an excellent means of recording everyday events, the basis of our history and a reflection of our civilisation” 2. Deze stelling verwijst enkel naar bewegend beeld, maar er zijn reeds verschillende definities gegeven aan de term ‘audiovisuele media’, en nog veel meer assumpties. Oppervlakkig beschouwd, kan de term verschillende domeinen omsluiten: bewegend beeld, opgenomen geluid in verschillende formaten, radio en televisie, fotografie en grafiek, videogames, multimediale toepassingen zoals CD5rom's en eigenlijk alles wat op een scherm vertoond of geprojecteerd worden. Terwijl het gros van de gebruikte definities ingebed zijn in een juridische context en een zo breed mogelijke bepaling geven, geeft Edmondson in zijn UNESCO5rapport A Philosophy of Audiovisual Archiving een ‘professioneel’ gerichte definitie, die uitgaat van de huidige realiteit van audiovisuele archieven3. “AV media are works comprising reproducible images and/or sounds embodied in a carrier, whose + recording, transmission, perception and comprehension usually requires a technological device + visual and/or sonic content has linear duration + purpose is the communication of that content, rather than use of the technology for other purposes” Deze definitie omsluit klankopnames, bewegend beeld, video’s en omroepprogramma’s, al dan niet uitgezonden of gepubliceerd, in alle formaten. Tekstmateriaal wordt hierbij uitgesloten, alhoewel het onderscheid, zeker naar de toekomst toe, eerder conceptueel gegrond is dan technologisch. Tussen deze twee groepen bevinden zich een
1
Television and video preservation + hearing, 26 maart, 1996, Washington,DC EUROPEAN CONVENTION FOR THE PROTECTION OF THE AUDIOVISUAL HERITAGE, European Treaty Series 5 No. 183; Strasbourg, 8.XI.2001. (http://www.ebu.ch/departments/legal/pdf/leg_ref_coe_convention_heritage_protocole_081101.pdf) 3 Edmondson, R., A Philosophy of Audiovisual Archiving, UNESCO, 1998 (revisie mei 2004). (http://unesdoc.unesco.org/images/0013/001364/136477e.pdf) 2
6
spectrum van materialen en formaten die, afhankelijk van de invalshoek en de noden, voldoen aan bovenstaande definitie: videogames, multimedia, mechanische muziek, slides en foto’s. Meer duidelijkheid over deze twee groepen in het kader van audiovisuele archivering wordt gegeven in Edmondson’s definitie van ‘audiovisueel erfgoed’. “The AV heritage includes, but is not limited to, the following: (a) Recorded sound, radio, film, television, video or other productions comprising moving images and/or recorded sounds, whether or not primarily intended for public release (b) Objects, materials, works and intangibles relating to the AV media, whether seen from a technical industrial, cultural, historical or other viewpoint; this could include material relating to the film, broadcasting and recording industries, such as literature, scripts, stills, posters, advertising materials, manuscripts, and artefacts such as technical equipment or costumes. (c) Concepts such as the perpetuation of obsolescent skills and environments associated with the reproduction and presentation of these media. “ Uit deze definitie blijkt dat audiovisueel erfgoed –waartoe ook de kunsten behoren5 ook documentatiemateriaal omsluit, voor zover die gerelateerd zijn met de audiovisuele media. Ook de term ‘audiovisueel archief’ heeft verschillende bijklanken, van de brede opvatting van het archief als een plaats waar oud materiaal wordt bewaard, tot de meer officiële betekenis die in het discours van de archiefwetenschappen een professionele en juridische relevantie kregen. Audiovisuele archieven ressorteren onder een breed gamma van labels, inclusief phonothèque, cinemathèque, videothèque, museum of bibliotheek. Edmondson geeft de volgende definitie: “An AV archive is an organisation or department of an organisation which is focussed on collecting, managing, preserving and providing access to a collection of AV media and the AV heritage.” Binnen deze definitie zijn er verschillende types te duiden. Sommige audiovisuele archieven specialiseren zich in individuele media 5 film, radio, television, klankopnames5 terwijl anderen verschillende media bewaren. Ook de inhoudelijke focus verschilt per archief. De definitie omvat publieke en private organisaties, non5profit of commercieel gericht. Hierbij dient vooral de functie beschouwd te worden, niet de beleidsaspecten. Binnen de archiveringspraktijk moet een onderscheid gemaakt worden tussen het bewaren van filmmateriaal en het behoud en beheer van audiovisuele informatie op elektronische en digitale dragers. Er zijn wel degelijk overlappingen te vinden tussen de praktijken, vooral naar digitalisering toe, maar terwijl film – in essentie chemisch 5 nog steeds als een relatief stabiel medium wordt aanzien, is het bewaren van andere – elektronische en digitale 5 beeld5 en geluidsdragers problematischer. De prevalerende praktijk bij het conserveren van elektronische audio5 en videosignalen van de jaren 1960 tot het begin van de jaren 1990 was het bewaren van en, indien nodig en mogelijk, kopiëren naar analoge magnetische tape, waarna ze bijgezet werden in een rekkensysteem. Maar analoge tapes bleken tegen de verwachtingen in al snel voor problemen te zorgen, door hun tijdsgebonden natuur en hun verrassend korte levensduur, zelfs al opgeslagen onder de beste condities. Vanaf de jaren 1980 werden digitale magnetische en even later optische formaten geïntroduceerd, vanaf midden 1990 werd in het archiefwezen ook gemigreerd naar digitale dragers: voor video werd Digital Betacam (Sony) vanaf 1994 algemeen aangewezen als een geldig archiveringsformaat, terwijl een groot aantal archieven hun audiomateriaal intussen hebben gereformateerd op compact disk, soms in een CD5audio formaat, soms als WAVE files. De opkomst van deze digitale formaten zorgde voor opluchting: met de mogelijkheid van migratie van analoog naar digitaal leek een langdurige oplossing in de maak. Deze twee misleidende opvattingen, enerzijds dat analoge magnetische tape een lange levensduur beschoren was, anderzijds dat digitalisering het probleem van het verval van analoge tapes zou oplossen, zorgden ervoor dat de conserveringsproblemen steeds werden uitgesteld. In het licht van recente technologische verschuivingen en de status en omvang van audiovisuele archieven worden verschillende archiefinstellingen, onafhankelijk van sector, nu geprangd door een aantal acute vragen, problemen
7
en uitdagingen. De volgende hoofdstukken zijn dan ook gefocust op video en in mindere mate audio4. Film komt in een apart hoofdstuk aan bod.
1.2. Preservatie ‘Preservatie’ van audiovisueel materiaal omsluit alle activiteiten en functies die zorgen voor een efficiënte en veilige context voor langetermijnbewaring en toegang van collecties, met een garantie op maximale integriteit. Dit slaat zowel op het opmaken van de nodige businessmodellen, het regelen van de juridische aspecten, het catalogiseren, verwerken, onderhouden, documenteren en ontsluiten van de documenten in de collecties. De term ‘conservering’ duidt op een nauwer aspect van het preservatieprogramma: het implementeren van geschikte onderhoud, beheer en opslagprocedures die zorgen voor een maximale levensduur en beschikbaarheid5. Hieronder worden de belangrijkste stappen van het een preservatieproces geduid, die op hun beurt onlosmakelijk samenhangen met beslissingen over financiële en beleidskwesties.
Inventarisatie (metadata 1)
selectie
Uitklaren van de rechten - conversie + archivering - ontsluiting
Bepalen van preservatiestrategie
restauratie reiniging validatie
Produceren van metadata 2
Opslag overdracht
archiefmanagement
Ontsluiting
Figuur 1: preservatieschema
1.2.1. Inventarisatie 6 Behoud en beheer van audiovisueel materiaal vereist een duidelijk overzicht van het bestaande corpus in een collectie. De realiteit van audiovisuele collecties is immers maar al te vaak dat de verschillende materialen doorheen de tijd op verschillende plaatsen zijn beland, om verschillende redenen: uitlening, gebrek aan identificatie, .. . Een belangrijke reden voor het registreren is het feit dat audiovisuele documenten op zich geen 4
zie ook Glossary of Preservation Terms: http://gondolin.rutgers.edu/MIC/text/how/preservation_glossary.htm Wheeler, J., Videotape Preservation Handbook, 2002. (http://www.amianet.org/publication/resources/ guidelines/WheelerVideo.pdf) 6 Een groot deel van deze informatie hierover werd overgenomen uit een rapport dat volgde op het project videoconservering van het SMAK. Delaere, Robbie, Meul, Mathieu, Conservering en Archivering van Videobanden, rapport 2003. (http://www.packed.be/docs/EindrapportVideoInventarisProject.rtf) 5
8
unieke objecten zijn en dupliceerbaarheid als tweede natuur hebben. Het inventariseren is een noodzakelijke stap voor een kwantitatief en (tot op een zekere hoogte) kwalitatief overzicht van audiovisuele collecties en archieven en als basis voor selectie – het zoeken naar de beste kopieën 5 en valorisatie – het identificeren van verschillende inhoudelijke versies van een werk en hun juridische status. In veel gevallen wordt echter slechts de band als identificator gezien, terwijl moet aangenomen worden dat identificatie moet gebeuren over de grenzen van de verschillende kopieën en technische dragers heen. Een inventaris moet dus opgemaakt worden op twee niveaus: 1. Inhoudelijk niveau een audiovisueel document moet geïdentificeerd worden als een afgeronde eenheid, niet fysiek, maar in een soort theoretisch model met informatie geldende voor alle kopieën. Dit model omvat de basisidentificatie: auteur, titel, data, categorie…, alsook een inhoudsbeschrijving en contextuele en auteursrechterlijke informatie. 2. objectniveau De kopie moet gesitueerd worden op een bepaalde formaat (zie verder), of onder een bepaalde vorm. Dit is vooral belangrijk vanuit het oogpunt van het generatiebeheer, voor het bepalen van de geschiedenis van het document en de technische karakteristieken. Elke kopie moet dus over een unieke identificatiecode of label beschikken en de status moet bepaald worden 5 MASTER: het origineel 5 DUBMASTER of SUBMASTER: een eerste generatie copie van de master 5 PROTECTION MASTER: een gerestaureerde of gereinigde tape (geen kopie) 5 RESTORATION MASTER: een eerste copie van de protection master 5 KOPIE: al de andere videocopies Dit niveau omvat bvb. ook het videosignaalsysteem, waarvan de meest voorkomende: 5 PAL = afkorting voor Phase Alternating Line. Een in Duitsland ontwikkelde norm voor kleuren televisie en in gebruik in vele Europese en niet Europese landen. 5 NTSC = National Television Standards Committee. Amerikaanse televisie norm voor het coderen en decoderen van kleuren. Wordt ook gebruikt in Japan. 5 SECAM = Sequential Couleur Avec Mémoire. Franse televisie standaard. Wordt ook in voormalige Oostbloklanden gebruikt.
NTSC
PAL
SECAM
525
625
625
Frame Rate (per sec)
30 (29.97)
25
25
Field Rate (per sec)
59.94
50
50
4805496
576
576
858
864
864
640 ´ 480
768 ´ 576
768 ´ 576
YIQ
YUV
YDRDB
4:02:02
4:02:02
4:02:02
4:03
4:03
4:03
Lijnen/frame
Actieve lijnen Horizontale sampling rate Pixels color coding & sampling aspect ratio
Figuur 2: de belangrijkste (Standard Definition) video signaal standaarden
Intussen krijgen overigens ook de High Definition systemen voet aan de grond. Na Azië en de V.S. lijkt nu ook Europa overstag te gaan. Zie hoofdstuk 1.2.6.1.
9
Voor een gestructureerde opbouw van deze gegevens en descriptoren wordt meestal gewerkt op basis van internationaal geldende normen uit de archiefwereld en het bibliotheekwezen, zoals opgemaakt door organisaties als IFLA, FIAF en (voor klank) IASA7. Dergelijke inventarisinformatie krijgt ook steeds meer een plaats in bredere metadatamodellen, die enerzijds intern beheer mogelijk maken en anderzijds ook informatie5uitwisseling en publieke ontsluiting (zie 1.2.4).
1.2.2. Selectie Op basis van de inventaris van een collectie moet een selectie gemaakt worden op basis van: 5 de historische waarde 5 de leeftijd 5 het origineel signaal (moederband) 5 de kwaliteit van het beeld 5 juridische realiseerbaarheid 5 technische realiseerbaarheid 5 ethische normen De werken worden geselecteerd met het oog op conservering en/of restauratie Conserveren = het origineel videosignaal transfereren binnen de beste technische configuratie (= naargelang het origineel videosignaal) naar een bewaartechnisch stabielere drager en de archivering van die drager. Restaureren = het videosignaal corrigeren en trachten te verwerken als zijnde het origineel signaal en overbrengen naar een naar een bewaartechnisch stabielere drager. Bij de selectie moet worden rekening gehouden met het gegeven dat de preservatie van een audiovisueel document technologieafhankelijk is. In sommige gevallen is de technologie om zijn inhoud te ontsluiten niet meer beschikbaar of laat de fysieke staat van de band niet meer toe om te conserveren. Dergelijke evoluties houden geen rekening met de inhoudelijke of historische waarde. Op dit niveau wordt dus reeds een onherroepelijke selectie gemaakt, gedicteerd door toeval en natuurlijke degradatie. Voor de banden die in een aanvaardbare staat verkeren, worden archivarissen, curatoren en conservators echter ook voor belangrijke keuzes gesteld: hoe moeten de prioriteiten worden bepaald en ook: wie bepaalt die? Daarvoor kunnen geen eenduidige antwoorden worden gegeven. Het FIAT/IFTA (Internationale des Archives de Télévision) handboek8 is een van de enige bronnen die dergelijke ethische richtlijnen vooropstelt. In het document wordt erkend dat het selectiebeleid en de –criteria zullen verschillen per instelling, afhankelijk van hun structuur en doelstellingen, en dat financiële, operationele en technische beperkingen een grote invloed hebben op de hoeveelheid en de aard van het weergehouden materiaal. De korte levensduur van elektronisch en digitaal materiaal geeft echter een eng tijdskader, die – zoals we verder zullen zien 5 steeds nauwer wordt. Documenten die niet geselecteerd worden, zullen onherroepelijk verdwijnen. De vraag moet ook gesteld worden wat precies moet gepreserveerd worden op het niveau van het object. De traditionele conserveringsdeontologie stelt dat het ‘origineel’ moet behouden worden, een denkbeeld die in het geval van reproduceerbare media zoals video en audio herdacht moet worden. Een tape bestaat grofweg uit drie delen: signaal, bindmiddel en grondlaag (zie ook verder). Het signaal kan slechts worden geïnterpreteerd met behulp van een machine of software. Alle componenten zijn noodzakelijk voor het afspelen, maar het signaal bevat de informatie en moet prioritair behouden worden, wat een transfer impliceert naar andere tapes, andere media, van analoog naar digitaal. De drager zelf kan echter het signaal bevatten zoals die door de maker bedoeld was, bepalend voor de ‘look & feel’. Dit is een ethisch vraagstuk die vooral in de kunstsector speelt. Bovendien duiken tijdens de valorisering van unieke stukken steeds opnieuw ethische vraagstellingen op. Laat je stukken band
7
Een overzicht van de IASA Cataloguing Rules vind je hier: www.iasa5web.org/icat/ ‘Recommended standards and procedures for selection for preservation of television programme material’, FIAT/IFTA Handbook, FIAT Programming and Production Commission 1995. (http://www.unesco.org/webworld/ramp/html/r9704e/r9704e0q.htm)
8
10
die niet te bekijken zijn door een slechte skew9 of dropout10 bestaan of verwijder je ze? Drijf je het geluidsniveau sterk op als het onhoorbaar is of pas je het lichtjes aan zodat het beeld niet al te indringend wordt? Preservatie is allesbehalve een exacte wetenschap, maar een subjectieve kwestie. Dergelijke vragen mogen bovendien niet enkel binnen een tech(nolog)isch kader worden beschouwd, maar moeten ook geëvalueerd worden binnen een economische en culturele context.
1.2.3. Auteursrechtelijke formaliteiten Na de selectie van de werken binnen het archief moeten een aantal juridische kwesties worden geregeld, vooraleer kan overgegaan worden tot (digitale) archivering of ontsluiting. De intellectuele eigendomsrechten (geregeld binnen nationale wetgevingen) bieden een exclusieve juridische bescherming aan creaties en producties en beschermen zowel het industriële als het artistieke eigendom. Dat laatste impliceert dat zowel voor de conservering als het toegankelijk maken van een document de toestemming van auteur(s) of /en rechthebbenden moet worden gevraagd of via een licentie vastgelegd, tenzij een uitzondering is ingeschreven in de wetgeving (wat bijvoorbeeld het geval is voor het Belgisch Filmarchief). Ook al beheert de archiverende instelling de rechten op het document, dan nog kunnen er conflicten ontstaan met makers of producenten, bijvoorbeeld als kunstenaars bepalen dat de inherente efemere kwaliteit en het gradueel bederf van hun audiovisueel werkstuk deel uitmaakt van het opzet (zie 4.7). Anderzijds moeten de archiverende instellingen ook garanderen dat de documenten niet door derden kunnen gebruikt worden zonder toestemming, iets wat met de opkomst van computernetwerken en het internet een grote uitdaging is geworden. Het Internet is immers een ideaal platform om cultureel erfgoed beschikbaar te maken voor het publiek, maar daarmee komt de auteursrechterlijke bescherming van het werk in gedrang. Het klassieke spanningsveld tussen de belangen van de producent/maker enerzijds en het belang van openbaarheid van culturele uitingen anderzijds komt hiermee sterk naar voren.11 Voor een overzicht van de auteursrechten die gelden voor audiovisuele archieven, kunnen we verwijzen naar het rapport Auteursrechten Audiovisuele Archieven van het Stadsarchief Antwerpen12. Overigens wordt in het huidige Belgische auteursrecht geen onderscheid gemaakt tussen verschillende audiovisuele dragers (film, analoge of digitale video). Zie verder 2.6 en 4.7.
1.2.4. Metadata 1.2.4.1. algemeen Metadata (“data over data”) is een term die tegenwoordig ten pas en ten onpas wordt gebruikt in de archiefwereld, vooral in het licht van de voortschrijdende digitalisering. In praktijk is metadata geen nieuw concept: zelfs in de analoge wereld was er informatie over archiefdocumenten, zoals de titel, de auteur, de duur etc., beschikbaar op een label of een steekkaart. Tegenwoordig wordt metadata voornamelijk beschouwd als noodzakelijk element voor het opbouwen van een productief en dynamisch digitaal archief, waarbij metadata steeds meer en systematisch samen met het document worden opgeslagen in een enkel bestand. In praktijk hangt de complexiteit en de kwaliteit van metadata natuurlijk af van de noden van de instelling en de sector – bibliotheken zullen bijvoorbeeld andere data gebruiken dan musea.
9
Distortie van een beeld, zichtbaar door verkeerd georiënteerde horizontale of vertikale lijnen bovenaan of onderaan het beeld. Dit wordt meestal veroorzaakt omdat het afspeelapparaat niet de correcte spanning uitvoert op de tape. 10 Dropout verschijnt op het beeld als witte puntjes of strepen. Dit kan veroorzaakt zijn door de fysieke regressie van de tape zelf of vervuiling. Het resulteert in signaalverlies omdat de koppen die de tape lezen ook vervuild en geblokkeerd worden. 11 Fauconnier, S., Auteursrecht: ontwikkelingen en problematiek, 2002. (http://deaf.V2.nl) 12 Leysen, A., Auteursrechten Audiovisuele Archieven – Film+ en geluidsarchieven, Stadsarchief Antwerpen, 2001.
11
Hierbij moet ook een onderscheid worden gemaakt tussen de metadata, gericht op preservatie en die gericht op ontsluiting, waarbij vooral data nodig is om het zoeken en selecteren te vergemakkelijken, enerzijds voor de beheerders, anderzijds voor het publiek. Bij ontsluiting is in ieder geval het gebruik van thesauri aangewezen, zoals het vaakgebruikte AAT (Art & Architecture Thesaurus), een gestructureerd vocabularium voor het beschrijven en indexeren van visuele kunsten en architectuur, die voortdurend wordt uitgebreid met ondersteuning van het Getty en aanverwante instituten13. Metadata worden dan ook steeds vaker beheerd via een OPAC (On line Public Access Catalogue), waar zowel metadata voor preservatie als voor ontsluiting kunnen ingeschreven worden. Vanuit het oogpunt van preservatie is de uitwisseling van informatie tussen producenten, beheerders en conservators immers essentieel voor het lokaliseren van alle mogelijke kopieën en rechtenhouders– iets wat idealiter via een gestandaardiseerd online metadatasysteem verloopt (zie 2.8). Hierbij stellen zich ook belangrijke vragen omtrent de auteursrechtelijke bescherming van data. Vooral in de grote media industrieën wordt dan ook gezocht naar efficiënte Digital Rights Management (DRM) systemen, die kunnen ingeschreven worden in de metadata, op een manier dat, via hardwaresleutels of authentificatie5tools, een balans kan gevonden worden tussen de eisen van de rechthebbenden en het gemak en de rechten van de consument. In praktijk echter dient een dergelijk systeem vooral de belangen van de exploitanten, niet zozeer de belangen van auteurs. (zie ook 1.4.4). Metadata hebben dus niet enkel een descriptieve en administratieve functie, maar vormen tegelijk het hart van het managementsysteem die de digitale informatiestroom kan opvolgen en ontsluiten. Vooral in de broadcasting industrie is metadata een belangrijk element in het productie5 en distributieproces geworden: op termijn zal het hele proces immers gebaseerd zijn op bits en bytes, die door metadata georganiseerd worden binnen een content management systeem. De industrie schuift dan ook verschillende modellen naar voren om dit proces te vergemakkelijken. Momenteel is nog geen sprake van standaardisering of compatibiliteit: over het algemeen heeft iedere instelling, zelfs binnen een enkele sector, zijn eigen systeem, met eigen velden, semantiek en beschrijvingstools, aangepast aan de individuele noden. Op internationaal vlak is inmiddels wel een stap gezet naar de gestandaardiseerde identificatie van audiovisuele documenten door middel van ISAN (Standard Audiovisual Number)14 5 naar analogie van ISBN en ISSN. Afgezien van de louter duidende en bibliografische informatie, is de beschrijving van complexe audiovisuele of multimediale objecten nog steeds problematisch. In tegenstelling tot tekstuele informatie kunnen audio en video immers niet op zichzelf onderzocht worden als rauwe bron. Metadata standaarden zoals Dublin Core leveren wel een beperkt niveau van interoperabiliteit tussen systemen om simpele informatiebronnen te raadplegen en recente initiatieven zoals METS (Metadata Encoding and Transmission Standard)15, MPEG5716 en de SMPTE Metadata Dictionary17 definiëren metadata die tijdsgebaseerde multimediale content kunnen beschrijven en indexeren, maar er zijn nog heel wat lacunes op het vlak van betrouwbaarheid, subjectiviteit, authenticiteit en interoperabiliteit van syntax, semantiek, vocabularium en onderliggende modellen. Zie verder 1.4.4.
1.2.4.2. XML18 De ontwikkeling van een annotatiesysteem berust niet enkel op conceptuele metadatamodellen, maar ook op een formeel formaat, dat die modellen kan uitdrukken. Dat kan bijvoorbeeld een databasefile zijn, maar heel wat modellen (zoals bvb METS) gebruiken tegenwoordig XML (Extensible Markup Language) als het expressieformaat of syntax. XML is een zogenaamde ‘markup5taal’, dat de structuur van een document beschrijft. Het wordt
13
http://www.getty.edu/research/conducting_research/vocabularies/aat/ International Standards Organisation. 15706, Information and documentation + International Standard Audivisual Number (ISAN). Geneva: ISO, 2002. v, 12 p. 15 http://www.loc.gov/rr/mopic/avprot/metsmenu2.html 16 http://www.chiariglione.org/mpeg/standards/mpeg57/mpeg57.htm 17 http://www.smpte5ra.org/mdd . SMPTE (Society of Motion Picture and Television Engineers) is gericht op de valorisatie van standaarden voor de beeldindustrie. 18 Meer info: Stroet, J.G., Digitale archivering en XML, 2002 (http://www.xs4all.nl/~jgstroet/PDF/Digitale%20archivering%20en%20XML.pdf) en Boudrez, F. (DAVID project), XML en Digitaal Archiveren, Stadsarchief Antwerpen, 2003 (http://www.antwerpen.be/david/website/teksten/DAVIDbijdragen/XML_digitaalarchiveren.pdf) 14
12
beheerd en gepubliceerd door het prestigieuze World Wide Web Consortium (W3C), dat ook onder andere verantwoordelijk is voor de ontwikkeling van de taal HTML en het protocol HTTP. Terwijl het verwante HTML beperkt blijft tot een verzameling tags gericht op de weergave van webdocumenten, beschrijft XML ook de structuur van de elementen in een document. Bovendien is XML uitbreidbaar en in staat om data uit verschillende typen databases te halen en consistent te presenteren. XML wordt door deze eigenschap een semi5 gestructureerde metadatataal genoemd. Door XML verdwijnt het onderscheid tussen document5 (opslag van documenten) en transactie5geörienteerde (uitwisseling van informatie) applicaties. XML speelt hierdoor een grote rol bij de uitwisseling van gestructureerde data tussen verschillende systemen over het Internet. Een voorbeeld hiervan is het tegenwoordig overal opduikende op XML gebaseerde RSS formaat, dat dient om content te syndiceren en o.a. veelvuldig wordt toegepast bij weblogs. Naast de vermelde eigenschappen zijn er nog een drietal redenen waarom XML aangewezen is als basis van metadatamodellen: Gestandaardiseerd in die zin dat de specificaties niet beheerd worden door een privaat orgaan. Iedere instelling of sector kan dus zijn eigen XML schema, instrument of technologie ontwikkelen. XML is bovendien platformonafhankelijk en staat volledig los van specifieke software– of hardware omgevingen. Dit impliceert voordelen voor interoperabiliteit en preservatiedoeleinden. Transparantie XML kan als natuurlijke teksttaal ook gemakkelijk geïnterpreteerd worden door de mens. Er is dus geen complexe processing nodig door een machine, maar tegelijk zijn enkele ‘hooks’ geïntegreerd die behulpzaam zijn in een computeromgeving. Beide niveaus van betekenis en bruikbaarheid worden dus ondersteund, met behulp van simpele tekst. Schaalbaarheid XML ondersteunt verschillende niveaus van complexiteit en implementatie en kan zelf ook uitgebreid worden met gerelateerde standaarden zoals RDF (Resource Description Framework). XML kan voor verschillende doeleinden gebruikt worden, voor uiteenlopende content of functies. Het wordt door archiefbeheerders gebruikt om documenten of metadata over collecties op te bouwen, waardoor ze gemakkelijker doorzoekbaar zijn. De e5commerce industrie maakt er temporary files mee die transacties mogelijk en traceerbaar maken. Wanneer een XML5schema voldoende navolging en consensus krijgt, wordt het zelf een de5 facto standaard (zoals het geval is voor het METS schema, ontwikkeld door the Library of Congress).
1.2.5. Reinigen en restaureren Bij elke geselecteerde video5 of audioband, bestemd voor overdracht en archivering stellen zich telkens andere problemen: technische, esthetische en ethische. Het is niet omdat twee banden op dezelfde plank naast elkaar werden bewaard dat ze in dezelfde staat zijn als ze moeten worden afgespeeld. Problemen bij de weergave kunnen het resultaat zijn van heel wat factoren, waaronder intrinsieke productiewaarden en de kwaliteit van het videosignaal bij de eerste opname. Een veelgebruikt voorbeeld is dat van de eerste generatie van draagbare 1/2" open reel5camera's. De verschillende types camera's produceerden licht verschillende videosignalen, tekens van een lage resolutie. Sommige vroege experimentatoren in de videokunst veranderden het videosignaal opzettelijk om speciale effecten te verkrijgen. De banden werden bovendien steeds opnieuw gebruikt omdat in die periode het proces belangrijker geacht werd dan het product. Vroege montagetechnieken hielden in dat de band letterlijk geknipt en aaneengekleefd werd, wat een 'storing' (een tijdelijk verlies van beeld en geluid) veroorzaakt. In die eerste periode experimenteerden bedrijven ook met de chemische en fysische samenstelling van de banden en sommige samenstellingen hebben het uiteindelijk beter overleefd dan andere. Bovendien zijn bepaalde formaten nooit ontwikkeld voor broadcastingkwaliteit of montage, waardoor de signalen een upgrade moeten ondergaan vooraleer ze kunnen voldoen aan de specificaties van de moderne apparatuur. Dit proces wordt nog complexer door de intieme relatie tussen de tape en de playbackapparatuur. In tegenstelling tot de meeste audiotaperecorders die een snelheid hebben die onafhankelijk is van de gebruikte tapes, is de snelheid van videotapes cruciaal. Een vertraging van
13
microseconden kan betekenen dat een tape niet afgespeeld kan worden19. Moderne afspeelapparatuur verwerkt signalen niet op dezelfde manier als oudere toestellen, die een andere skew en tijdscodemogelijkheden opleveren en zo beter resultaat bekomen met oude, licht krom getrokken banden. Ook de omstandigheden waarin de banden worden opgeslagen zijn bepalend: temperatuur, vochtigheidsgraad, horizontale of verticale stand en de staat van de windingen (hoe de band op de spoel gewonden is). De grootste boosdoener is wellicht de vochtigheid, want daardoor verandert de chemische samenstelling van de band. Door een band op zijn zij te bewaren kunnen de opeenvolgende windingen uiteenschuiven waardoor er schade ontstaat aan de randen. Er ontstaat drop5out wanneer deeltjes van de magnetische laag afschilferen van de polyester onderlaag van de band. Dat heeft een onherstelbaar verlies van informatie tot gevolg (zie 1.2.6.3). Sommige problemen, zoals een slechte skew (een gevolg van de rekking van de band) kunnen worden opgelost door het signaal bij het afspelen te stabiliseren met een time+base corrector (TBC), een toestel dat in se de timing van een videosignaal controleert en synchroniseert. In de audiowereld worden analoge mastertapes bij de overdracht niet onderworpen aan noisereductie of equalisatie, vooral in de veronderstelling dat de technologie om signalen te verwerken in de loop van de tijd zullen veranderen en verbeteren. In de videowereld, waar andere parameters gelden, wordt in praktijk altijd een time5base en kleurcorrectie doorgevoerd om het signaal zo dicht mogelijk bij zijn originele conditie terug te brengen. Voor de correctie worden de kleurbalken als referentie gebruikt, indien beschikbaar. Indien niet, moet de tape worden afgespeeld om een idee te krijgen van de te verwachten minimum en maximum niveaus. Bij eventuele klankcorrectie geldt de 1000 Hz toon, die tijdens het afspelen van de kleurbalk te horen is, als referentie. In de meeste gevallen worden de tapes ook vooraf gepolijst en aan beide zijden met ‘cleaning tissues’ behandeld. Elk formaat vergt daarbij een eigen machine. Uitzonderlijk kan een magneetband aan elkaar blijven plakken, in die gevallen wordt de band ‘gebakken’, op een temperatuur waarbij de tape loskomt (54,4°C). Daarna wordt onmiddellijk een kopie genomen in een afspeelapparaat dat op dezelfde temperatuur opereert. Deze procedure is evenwel niet zonder risico’s: de master kan evengoed voorgoed vernietigd worden, wat deze remedie hoogst bevraagbaar en zeker te vermijden maakt. Bij teveel dropfouten, storingen of tekortkomingen wordt vaak gekozen voor een restauratie, zoals een beeld per beeld restauratie of een hermontage van het origineel, waarbij stukken waar de ‘drops’ te sterk doorwegen, verwijderd of gehermonteerd worden. Dergelijke alteraties moeten gebeuren op basis van een zo getrouw mogelijke kopie – of verscheidene kopieën. Het doel van het restauratieproces is niet zozeer het verbeteren van de kwaliteit van het originele signaal, maar wel het maken van een restoration master die elektronisch superieur is, zonder te raken aan de visuele kwaliteiten en de historiciteit van het materiaal zelf. Zoals Jim Lindner stelt: “It is important not to preserve 1970’s visual content with 1990’s eyes.”20 Daardoor wordt ook de weg opengelaten naar de mogelijkheden van de toekomstige conserverings5 en restauratietechnologieën. Door het verwijderen van hoge frequentie noise, kun je bijvoorbeeld wel een beter beeld en klank verkrijgen, maar wordt evengoed informatie verwijderd die voor een toekomstige reconstructie noodzakelijk zou kunnen zijn. Er worden, vooral voor grote archieven, steeds meer geautomatiseerde systemen aangekocht voor de stabilisatie van het beeldsignaal. De meest gebruikte, zoals het Archangel Ph.C systeem van Snell & Willcox bieden een uitgebreide filterset voor realtime digitale restauratie van film5 en videoarchieven, met ingebouwd controle en monitoring. De VRT gebruikt het systeem om hun filmcollectie te restaureren en over te zetten op digital Betacam21 en ook het Brusselse postproductiebedrijf Studio l'Equipe heeft de apparatuur aangekocht. Maar menselijke tussenkomst blijft onontbeerlijk: veel aspecten van het conserveringsproces van magnetische tapes zijn immers gebaseerd op ‘ambachtelijke’ praktijkervaring, die zowel technische als ethische beslissingen richting geven.
1.2.6 Overdracht en opslag Traditioneel bestaat het conserveringsproces uit twee stappen: 19
Lindner, J., ‘Magnetic Tape Deterioration: Tidal Wave at Our Shores’, Video Magazine, februari 1996. (http://palimpsest.stanford.edu/byauth/lindner/tidal.html) 20 Ibid. 21 zie http://www.snellwilcox.com/knowledgecenter/casestudies/studies/vrt_archangel.html. Zie ook Kienzle, C., Film Restoration: What's old is new again; Demand for better picture and sound is driving the need, 2002. (http://www.findarticles.com/p/articles/mi_m0HNN/is_2_17/ai_83034530)
14
Actieve conservering: de overdracht van de content naar een technisch evenredig maar nieuwere en stabielere drager (en/of formaat), zodat in ieder geval de technische kenmerken van de content zo goed mogelijk behouden blijven. Daarbij moet gebruik worden gemaakt van geschikte hardware om de deterioratie van het signaal 5 wat meestal inherent is aan de overdracht 5 te minimaliseren. Passieve conservering: de opslag en bewaring van de nieuwe drager (inclusief het signaal) en indien mogelijk, ook de originele drager. Tijdens dit proces moeten zowel de originele drager/formaat als het nieuwe archiveringsformaat beschouwd worden. In praktijk impliceert dit tegenwoordig een overgang van het analoge naar het digitale domein, van het mediagebonden naar het media+less en tape+less tijdperk. Tegenwoordig wordt vooral onderzoek geleverd naar digitale formaten en systemen, maar het is belangrijk om te wijzen op de nood aan kennis van de oorspronkelijke analoge opnameformaten en –apparatuur. Elk formaat heeft immers zijn specifieke mechanische afspeelparameters. Het is dan ook van belang dat de apparatuur – indien nog beschikbaar 5 onderhouden wordt en correct wordt geijkt.
1.2.6.1 Het analoge domein #analoog?# Analoog verwijst naar de traditionele opname+ of transmissiemethodes waarbij audio, licht en kleur geregistreerd worden in directe proportie tot de originele bron. De resulterende signalen vormen dus een letterlijk ‘analoge’ representatie, maar die kunnen beïnvloed worden door verschillende parameters zoals de resolutie, de granulariteit en het bereik van het medium. Dit kan zowel ruis als distorsie veroorzaken en de bandbreedte limiteren. Analoge media zijn zowel film (wat we hier niet behandelen), magnetisch als elektromechanisch. a. analoge videoformaten Analoge magnetische videotape werd ontwikkeld in de jaren 1950 voor professioneel gebruik door de televisieomroepen, die toen nog grotendeels berustten op live5uitzendingen en film. Door de introductie van de eerste videotapes – Quadruplex, een tweeduims open5reel formaat was als eerste commercieel beschikbaar – werd het mogelijk om, net als in de radio5industrie, de live5opnames te registreren en distribueren. De eerste draagbare videocamera was de Portapak, die in 1964 werd geïntroduceerd door Sony. Deze camera luidde volgens de overlevering de geboorte van de videokunst in, toen die door Nam June Paik gebruikt werd om opnames te maken van een optocht in New York’s Fifth Avenue. Diezelfde avond werd zijn footage vertoond in het Cafe A Go Go, wat voor brede navolging zou zorgen, onder andere door choreografen, muzikanten, performance artiesten, theatergezelschappen en documentairemakers. Niet enkel was video goedkoper dan film, de apparatuur was ook een stuk praktischer. In 1975 kwam de Betamax (Sony) op de markt, het eerste formaat dat gericht was op een brede consumentenmarkt. De populariteit zorgde voor een evolutie in de video5industrie, alhoewel Betamax op termijn zijn marktaandeel integraal zou verliezen aan VHS, tot op heden het meest succesvolle analoge videotapeformaat voor thuisgebruik. Tot de jaren 1990 was de productie en opslag van videotapes bijna integraal analoog, van consumentgeoriënteerde systemen tot dure broadcastformaten. De meeste analoge formaten zijn nu haast volledig van de markt verdwenen, aangezien de fabricatie en opvolging van de nodige apparatuur is stopgezet. Het grote nadeel van analoge consumentenformaten was het feit dat ze slechts naar een of twee volgende generaties konden gekopieerd worden vooraleer de beeldkwaliteit haast onbekijkbaar werd, terwijl professionele formaten het eerder vier of vijf generaties overleefden. De kwaliteit van de tapeformaten wordt voornamelijk bepaald door hun breedte en snelheid. Grote en snelle formaten verspreiden hun magnetisme over een groter gebied, waardoor ook het gevaar op drop5outs of andere fouten kleiner wordt. De opnamemethode is ook een belangrijke kwaliteitsbepalende factor. Audiosignalen hebben een bandbreedte22 van 22
bandbreedte is het frequentiebereik dat een circuit, component, kabel of een volledig systeem aankan wanneer de gereproduceerde, getransmiteerde of versterkte frequenties in het slechtste geval half zo sterk zijn als de maximaal bekomen frequenties. Ondanks het veelvuldige gebruik van de term is bandbreedte van videoapparatuur of 5systemen heel moeilijk correct te bepalen. Zie
15
ongeveer 20 kHz en kunnen ononderbroken en lineair worden opgenomen op magnetische tape die relatief langzaam over de koppen passeert. Videosignalen daarentegen, met een bandbreedte tot 6MHz hebben een veel grotere scanningsnelheid nodig om te kunnen opnemen en afspelen. Dit leidde tot de ontwikkeling van de helical scan techniek, ook wel “diagonaalregistratie" genoemd. Daarbij wordt de video5informatie in schuine sporen op de band opgenomen. De effectieve lengte van het spoor ligt aanzienlijk boven de lengte van de conventionele, lineaire registratie. De tape beweegt langs een sneldraaiende drum met meerdere opname5 en afspeelkoppen. Gevolg van het verschil in registratiemethode tussen audio en video is dat (analoge) videotape met zijn methode van helical scan gevoeliger is voor fysieke dimensieveranderingen dan (analoge) audiotape. Door die kan informatieverlies optreden. Overigens maken ook digitale video5 en audiorecorders en verschillende IT opslagsystemen van deze techniek gebruik. Hieronder wordt een (zeker niet uitputtend) overzicht gegeven van de meest gebruikte analoge videoformaten23. Open Reel formaten Voor de opkomst van de videotapes, werd in de eerste plaats opgeslagen op film. Ook de eerste videosystemen vertoonden qua transport heel wat gelijkenissen met het productieproces van film of, nog accurater, met de gigantische reel to reel audiosystemen. Niet alleen was dit duur, maar ook helemaal niet afgesteld op veldopnames. Het tweeduimsformaat van Sony werd het eerst geïntroduceerd eind de jaren 1950 en bleef de standaard voor tv5productie tot de tweede helft van de jaren 1970, toen de eenduimsbanden (type C.) op de markt kwamen. In 1969 werd het eerste open reel VTR model geïntroduceerd, dat gebruik maakte van de helical scan methode. Ook het gebruik van deze eenduimsbanden – tot een eind in de jaren 1990 5 was beperkt tot studio opname, transmissie en postproductie in broadcasting, voor veldopnames werd vnl. film of Betacam gebruikt. ¾” U9Matic De U5matic werd in 1971 geïntroduceerd door Sony, maar had slechts een resolutie van 250 lijnen, in vergelijking met de 525 lijnen voor NTSC en 625 voor PAL, die algemeen beschouwd worden als de standaardkwaliteit voor broadcasting. Het formaat was door zijn breedte qua kwaliteit iets beter dan VHS. De grote vernieuwing was de ontwikkeling van draagbare tapedecks wat ertoe leidde dat de U5Matic voor nieuwsgaring en industriële commercials een soort van vervolg was op de 16mm film (met minder kwaliteit maar praktischer). Er bestaan drie verschillende versies: LowBand (LB), HighBand (HB) en SpecialPerformance (SP), die verschillende frequenties hebben voor de registratie van luminantie en chrominantie. HB had in vergelijking met LB een hogere kleurresolutie, terwijl in de SP variant zowel chroma als luma frequenties werden verhoogd. VHS Staat officieel voor Video Home System, maar was in eerste instantie de afkorting van Vertical Helical Scan, naar de gebruikte scantechniek. Het is ironisch dat VHS, door JVC op de markt gebracht in 1976 als concurrent van Sony’s Betamax, als tapeformaat met de laagste kwaliteit (240 lijnen) ook de meest succesvolle en verspreide was. Het was dan ook het eerste praktische en goedkope video5opnamesysteem voor thuisgebruik. Super VHS en Hi8 Deze tapes, respectievelijk geïntroduceerd door JVC en Sony, zijn eigenlijk hoge kwaliteitsversies van VHS en 8mm video. Met een resolutie van ongeveer 400 horizontale lijnen waren deze formaten vooral bedoeld voor low budget makers en industriële en educationale doeleinden. S5VHS is door zijn grootte van ½” iets beter bestand tegen fouten dan de Hi8 ( ¼”) Betacam en Betacam SP Pas in 1982 werd de eerste portable camrecorder met zogenaamde ‘broadcastkwaliteit’ op de markt gebracht: de Betacam van Sony. Betacam SP – de upgrade versie met metalen partikels –verscheen in 1986 en werd met een resolutie van 500 lijnen de standaard voor veldopnames. Terwijl Betacam slechts een dikte had van ½ duim, was
http://members.aol.com/ajaynejr/bandwid.htm#Advertising en de Video Bandwidth Estimator (http://sorenson5 usa.com/vbe/) 23 Voor een uitgebreider overzicht, zie o.a. http://www.ultimatewebdesigning.com/articles/formats.html
16
de kwaliteit gelijkwaardig met die van de eenduimsband, door de componentbehandeling van het videosignaal. #Composite vs. Component# Component video betekent dat het kleursignaal wordt opgedeeld in drie kanalen (luminantie en twee kleursignalen , Y+Pb+Pr(analoge standaard) of Y+Cb+Cr (digitale standaard), in tegenstelling tot de composite methode, waarbij het signaal werd opgenomen als een enkel kanaal. Het scheiden van chroma en luma in component video resulteert in betere beeldkwaliteit. Het moet opgemerkt worden dat er verschillende kleurruimtes (mathematische representaties van kleursystemen) bestaan. Voor het gros van de analoge televisie+uitzendingen wordt de luma+ chroma kleurruimte gebruikt ( YUV voor PAL, YIQ voor NTSC), maar kleurbeelden worden opgenomen met de rood/groen/blauw kleurruimte (RGB), dat ongeveer anderhalf keer meer bandbreedte nodig heeft dan om dezelfde subjectieve kwaliteit te bekomen24. In het RGB signaal wordt de luminantie immers drie keer getransporteerd. Bij YUV (U=R+Y, V=B+Y) wordt de luminantie (Y) onttrokken van de rood, groene en blauwe componenten door middel van de formule 30% R, 59% G en 11% B. Het R+Y signaal wordt bereikt door het R signaal te verminderen met het Y signaal. Idem voor het B+Y signaal. Een G+Y component voor groen is niet nodig omdat alle informatie in de overige signalen zit. Het RGB signaal moet voor TV dus geconverteerd worden. Andere kleurruimtes zijn bijvoorbeeld CMY (Cyan/Magenta/Yellow) dat gebruikt wordt door printers of HSI (Hue/Saturation/Intensity), dat aangewend voor voor kleurcorrectie25. b. analoge audioformaten De eerste min of meer commercieel beschikbare vorm van klankregistratie was de fonograaf, rond 1877 ontwikkeld door Edison. De fonograaf bestond uit een cilinder die werd omgeven door zacht materiaal zoals aluminium of was. Een naald, loodrecht bevestigd op het vlak van een trilplaat, prikte in de cilinder. De grammofoon, een tiental jaar later gepatenteerd door Emile Berliner, registreerde niet op een cilinder, maar op een roterende schijf: de grammofoonplaat. Terwijl bij de fonograaf de diepte van de groeven varieerde (verticaal), werd nu eerder in de breedte opgenomen (horizontaal). Het materiaal van de plaat bestond in eerste instantie uit schellak, maar werd later vinyl, terwijl de snelheid evolueerde van 78 toeren per minuut naar 45 en 33⅓ tpm. Het eerste magnetische opnamemiddel was de magnetische draad, vanaf de jaren 1940 opgevolgd door de magnetische tape, die lange tijd gebruikt werd door zowel de radio, de opname5industrie als onafhankelijke muzikanten, componisten, wetenschappers etc.. De open reel ¼ duimstapes werden het eerst geïntroduceerd, eerst op papier, later ook op acetaat en uiteindelijk op polyester. In de jaren 1960 werd de audiocassette op de markt gekatapulteerd. Zoals alle magnetische media, is ook audiotape gevoelig voor natuurlijke degeneratie. De levensduur hangt af van de kwaliteit van de stock, de kwaliteit van de opnames zelf en natuurlijk de opslagcondities. Overdracht en restauratie van audio zijn niet zo complex en tijdsopslorpend als video en kan tegenwoordig ook quasi volledig met software. MECHANISCH Fonograaf cilinders In de eerste plaats gebruikt in de academische wereld en later ook industrieel geproduceerd voor de entertainmentindustrie, als concurrent van de grammofoon. Hoewel de industrieel productie stopte in 1920 werden ze nog tot in 1950 gebruikt voor veldopnames. De meeste zijn gemaakt van was, andere ook van celluloid. De cilinders zijn heel fragiel, maar de meeste gekende collectie zijn reeds overgezet naar andere media26. Schellakken schijven De zogenaamde grammofoonplaten of 78 toerenplaten was het meest geproduceerde audioformaat in de eerste helft van de 20ste eeuw. De schijven bestaan uit verschillende minerale stoffen die samengehouden worden door schellak of gelijkaardige materialen. Behoorlijk stabiel formaat, alhoewel ze bijna zeker breken als je ze laat vallen. 24
http://www.hut.fi/~iisakkil/videoformats.html. Voor meer info over kleurruimtes: http://www.rmbwoc.com/vidpage/color_faq.html 26 zie o.a. Paul messier’s Guide to Audio Formats (http://paulmessier.com/VideoID/audio) en The History of Sound Recording Technology (http://www.recording5history.org) 25
17
Instantschijven Zo genoemd omdat ze meteen na opname kunnen worden afgespeeld. De grootste groep, de acetaat schijven, zijn echter enorm kwetsbaar, voornamelijk door hydrolyse Vinyl De zogenaamde LP’s bestaan voornamelijk uit polyvinylchloride. De stabiliteit op lange termijn is onbekend.
MAGNETISCH Draadrecorders Geluid wordt opgeslagen op een magnetische draad. De recorders werden vooral gebruikt als dictafoon en konden slechts in mono opnemen. Open Reel tapes Het open5reel formaat werd gebruikt in de vroegste taperecorders. De goedkope consumentenversies werden al vlug van de markt verdreven door de cassettes, maar voor professioneel gebruik werden bepaalde formaten gebruikt tot in de jaren 1990 Compact Cassette De Compact cassette werd in 1963 geïntroduceerd door Philips. Oorspronkelijk was de tape ontwikkeld voor dicteermachines, maar de praktische grootte ervoor dat het formaat ook ingang vindt in de muziekindustrie en homerecording. De cassette bestond uit magnetische tape met twee stereosporen (A en B zijde), ingekapseld in een plastieken hoes. Er waren andere cartridges op de markt, maar die konden niet op tegen de marktkracht van Philips. In gebruik waren de cassettes veel praktischer dan de open reel formaten, maar door de limitaties van de grootte (1/8 duim) en de snelheid (meestal 95.25 of 190.5 mm/s) was de geluidskwaliteit veel minder. Om de fideliteit op te drijven werd Dolby B noise reductie gebruikt. De Microcassette was van dezelfde familie als de Compact Cassettes, maar veel kleiner. Het formaat werd vooral gebruikt voor dictafoons. 49track en 89track Vooral gebruikt in de jaren 1970 en 1980, thuis en in de auto, maar nu volledig van de markt verdwenen.
1.2.6.2 Het digitale domein a. digitale videoformaten Sinds het eind van de jaren 1980 worden steeds vaker digitale opname5 en postproductietechnieken aangewend, die in ijltempo de bestaande analoge apparatuur vervangen hebben. Op die manier is een belangrijke verandering opgetreden in de filosofie van elektronische archivering: bij digitaal kopiëren treedt er immers nauwelijks of geen regressie op, afhankelijk van de compressie. De opkomst van de digitale recorders heeft echter geen halt geroepen aan de concurrentiestrijd tussen de verschillende producenten, zodat tot op heden verschillende incompatibele formaten in gebruik zijn. Dit wordt nog gecompliceerder door de snelle ontwikkeling van nieuwe compressietechnologieën en de evolutie naar High Definition Television (HDTV, zie verder). Terwijl het algemeen aanvaard wordt dat alle digitale formaten, van het DV consumentenformaat tot de professionele formaten, min of meer ‘broadcastkwaliteit’ bereiken, zijn er toch nog aantoonbare verschillen in kwaliteit, gebaseerd op compressie, snelheid en grootte. #Over bit, byte, megabyte, gigabyte….# Een bit is de kleinste eenheid van informatie, namelijk een symbool of signaal dat twee waarden kan aannemen: aan of uit, ja of nee, hoog of laag. In het binaire talstelsel worden deze waarden gerepresenteerd met 1 en 0. Er zijn 8 bits in een Byte. Door het gebruik van prefixen die vooral bekend zijn in het decimale stelsel, wordt vaak aangenomen dat bijvoorbeeld een megabyte (MB) en een megabit (Mb) respectievelijk een miljoen bytes en bits
18
inhouden. Echter, omdat het laagste niveau waarop het digitale niveau van een computer opereert waarde 2 heeft, moet een opeenvolgende prefix niet met 1000, maar met 1024 ((210) worden vermenigvuldigd. Om de verwarring compleet te maken, werden in 1999 nieuwe prefixen geïntroduceerd: kibi5, mebi5, gibi5, tebi5, pebi5, exbi5,etc. om specifiek binaire veelvouden aan te duiden. Totnogtoe worden deze nieuwe prefixen echter zelden gebruikt.
Naam
Symbool
Waarde (in binair stelsel)
Kilo
k or K
210 = 1 024
Mega
M
220 = 1 048 576
Giga
G
230 = 1 073 741 824
Tera
T
240 = 1 099 511 627 776
Peta
P
250 = 1 125 899 906 842 624
Exa
E
260 = 1 152 921 504 606 846 976
Zetta
Z
270 = 1 180 591 620 717 411 303 424
yotta
Y
280 = 1 208 925 819 614 629 174 706 176
Figuur 3: bits & bytes
Bij sommige IT toepassingen worden de gekende prefixen nog steeds gebruikt in de decimale context. Dit is bijvoorbeeld het geval voor de kloksnelheid (per seconde, in Hertz), de opslagcapaciteit van harde schijven en de bitrate (bits/s). De bitrate is de snelheid waarmee data overgebracht wordt van een bron naar een bestemming. Het wordt opgemeten als bits per seconde (bps) of Bytes per seconde (Bps). Hogere datarates zorgen ervoor dat meer beeldinformatie doorgelaten kan worden en zodus een hogere beeldresolutie bekomen wordt. DVCPro50 (50 Mbps of 50.000.000 bits per seconde) heeft bvb. een dubbele snelheid dan de andere DV formaten, maar wordt op zijn beurt voorbijgestoken door Digital Betacam (90 Mbps) en D+1 (270 Mbps). Elektronisch geheugen zoals RAM en ROM gebruiken dan weer de binaire versies. De capaciteit van een CD wordt gegeven in binaire eenheden, van een DVD daarentegen in decimale eenheden. Van analoog naar digitaal Video is extreem intensief op het gebied van opslag en bandbreedte. Ongecompresseerde video impliceert datarates rond 1425270 Mbps27, wat aan aanzienlijke tape5 en bandbreedte en complexe dataprocessing hardware vergt. Ongecompresseerde digitale video neemt zowat 1,2GB in per minuut28. Een klassieke connectie via het internet bijvoorbeeld gebruikt een 56 kbps modem (wat in realiteit een gemiddelde van ongeveer 34 kbps bereikt). Om een video via het net te kunnen bekijken, moet de datarate dus verminderd worden met zowat 47353%. Om dat mogelijk te maken wordt compressie toegepast, waardoor digitale informatie weggefilterd wordt en de data meer werkbaar wordt voor opslag en distributie. Compressie wordt dus toegepast om waardevolle ressources uit te sparen: opslagruimte, bandbreedte, tijd en kosten. Er zijn echter heel wat misverstanden over compressie. Om te beginnen is ‘compressie’ geen eenduidig begrip – ook in de vakliteratuur zijn er heel wat afwijkende versies en zelfs tegenstrijdigheden terug te vinden. Het is niet onbelangrijk om op te merken dat er ook in de analoge wereld reeds vormen van ‘compressie’ werden toegepast in het productieproces. Het interlacing proces bijvoorbeeld, waarbij beeldsignalen eigenlijk 25 keer per seconde (30 voor NTSC) in twee delen worden verstuurd 5 eerst de oneven lijnen, vervolgens alle daartussen liggende even lijnen – is een duidelijke vorm van compressie die verschillende soorten artefacten veroorzaakt, net als de kleurruimtes (YUV en YIQ) die voor PAL en NTSC verstuurd worden zorgen voor een zekere compressie (4:2:2 sampling). De bandbreedtecompressie die wordt toegepast door zowat alle analoge systemen, zowel component als composite, zorgt zelfs voor nog meer informatieverlies. Televisieomroepen gebruiken, ook in de toenemend digitale wereld, in alle takken van het productieproces compressie: de acquisitie, de productie en post5productie, distributie en transmissie. Dit is vooral mogelijk door de limitaties van het menselijk zicht: redundante elementen kunnen 27
Ook dit is niet altijd eenduidig. Zie o.a. http://www.drastictech.com/wp_compression.html Jim Wheeler geeft getallen aan van 256 GB voor twee uur NTSC video, 310 GB PAL video. Zie Wheeler, J., Digital Oasis and Active Archive – New Ways to Archive Video, 26 juni 2004. (http://www.f2.fhtw5 berlin.de/f5/restaur/frameset/stundenplan/WheelerDigitalOasis.pdf)
28
19
verwijderd worden zonder dat het visueel merkbaar is. ‘Ongecompresseerd’ is dus een heel relatief begrip. In het geval van video verwijst het begrip naar de industriële standaard CCIR5601 (nu ITU BT.601), die bepaalt hoe analoge (PAL en NTSC) videosignalen digitaal moeten geëncodeerd worden (4:2:2 sampling)29. Op zich treden er bij de overgang van analoog (kleur, licht, geluid zijn in se analoog) naar digitaal dus reeds vormen van compressie op. Digitalisering is immers een manier om de oneindige variaties van analoge videosignalen te representeren al een gelimiteerd aantal binaire waarden. De digitalisering van continue media – zowel video als audio 5 kan globaal gezien worden opgedeeld in een tweetal stappen Sampling Hierbij wordt de input stream (YCrCb) gelezen op gezette intervallen. De samplerate of bitrate verwijst naar de frequentie waarmee het analoge signaal gemeten wordt. Hoe groter die frequentie, hoe beter het ‘origineel’ benaderd zal worden. De meest gebruikte sampling ratio’s voor video zijn 4:2:2:, 4:2:0 en 4:1:130. Typisch wordt de luma voor iedere pixel geregistreerd, maar de kleursignalen worden minder frequent gesampeld. 4:2:2, dat door de standaard ITU BT.601 wordt vooropgesteld, betekent dat de samplerate voor de kleursignalen de helft is van de frequentie van de luminantie. Bij 4:1:1 zal dat ¼ zijn. Een 4:2:0 sampling impliceert dat de sampling van de twee kleursignalen iedere lijn wordt afgewisseld. De Y5R (roodwaarden) wordt lijn per lijn gesampled, vervolgens Y5B (blauwwaarden) op de volgende. Voor beide signalen worden de samples om de pixel genomen. Aliasing is het verschijnsel waarbij verschillende signalen bij sampling tot dezelfde sample leiden. Het gevolg is dat uit de sample niet eenduidig het oorspronkelijke signaal teruggevonden kan worden. Aliasing doet zich vooral voor als de samplerate niet minstens twee maal zo hoog is als de hoogste frequentiecomponent in het signaal – het zogenaamde theorema van Nyquist 31. Om dit te voorkomen, moet ieder samplingsysteem voorzien zijn van een ''anti5aliasing filter''. Kwantisering De gesamplede waarden worden vertaald naar de dichtstbijzijnde binaire waarden. De sampleresolutie of bitdepth verwijst naar de hoeveelheid verschillende waarden die de sample kan aannemen. Ook hier geldt: hoe hoger de resolutie, hoe accurater de representatie van de sample. De meeste video formaten hebben een resolutie van 8 bit per sample, maar bij zogenaamd hogekwaliteits formaten zoals bijvoorbeeld Digital Betacam of D55 is dat 10 bit, met een hogere helderheid, een betere signaal5noise ratio en meer egaal beeld als gevolg. Het feit dat slechts een gelimiteerd aantal waarden wordt herkend limiteert natuurlijk de digitale representatie van het originele analoge signaal. Door kwantisering kunnen er afrondingsfouten ontstaan. Deze fouten vormen een onregelmatig patroon wat ruis veroorzaakt32. We kunnen dan ook, analoog aan taperecorders, spreken van de signaal5ruis verhouding, signal to noise ratio (SNR), die de verhouding tussen de ruis en het signaal opmeet. 4:4:4 sampling
29
Mullen, S., ‘Uncompressed Digital Video’, Videosystems, 01.03.2004. (http://videosystems.com/mag/video_uncompressed_digital_video) 30 Info : Naser Refaat, Sony. http://www.itu.int/ITU5D/pdf/38885015en.pdf 31 Het samplingheorema van Nyquist5Shannon luidt dat wanneer een analoog signaal naar een discreet signaal wordt geconverteerd, de samplingfrequentie minstens tweemaal zo hoog moet zijn als de hoogste in het signaal aanwezige frequentie om het origineel zonder fouten te kunnen reproduceren. Als de samplingfrequentie lager is dan deze limiet zullen frequenties in het oorspronkelijke signaal die hoger zijn dan de ''halve'' samplingfrequentie in het gedigitaliseerde signaal optreden met frequenties die lager zijn dan de samplingfrequentie. Deze fout wordt aliasing genoemd. Om dit te voorkomen, moet ieder samplingsysteem voorzien zijn van een ''anti5aliasing filter''. 32 Robin, M., Understanding Digital Video, 2001. (http://advertisers .broadcastengineering.com/ar/broadcasting_understanding_digital_video/)
20
4:2:2 sampling
4:1:1 sampling
4:2:0 sampling
21
Figuur 4: videosampling33
Binnen de industrie wordt de term “4:2:2 uncompressed” vaak gebruikt om te verwijzen naar video die gebruik maakt van 4:2:2 chroma subsampling, maar geen andere compressiemethodes gebruikt. Het begrip ‘compressie’5 en hier treden de meeste misverstanden op 5 wordt dan gerelateerd aan het gebruik van algoritmes en methodes om de bitrate te reduceren. Die worden ontwikkeld aan de hand van parameters voor veroorloofde niveaus van signaalverlies, zodat juist voldoende informatie wordt verwijderd om het voor het menselijk oog de illusie te creëren van een coherente en consistente beeld5 en klankstroom. Op een abstract niveau kun je de ontwikkelde systemen opdelen naargelang ze gebaseerd zijn op temporele en/of ruimtelijke redundantie, wat een impact heeft op de beeldframes en 5field: Intra9Frame/field Compressie Compressie binnen individuele frames of fields, om de duplicatie van data in ieder beeld te minimaliseren (ruimtelijke redundantie). JPEG is het meest bekende intra5frame algoritme. De DV formaten maken gebruik van een intra5frame compressie. Inter9Frame/field Compressie Compressie tussen frames of fields, om overbodige data in opeenvolgende beelden te minimaliseren (temporele redundantie). MPEG2 maakt bijvoorbeeld gebruik van inter5frame compressie34. Een typische inter5frame codering maakt gebruik van drie frames: 1. Intra (I) frames, die onafhankelijk gecodeerd worden van andere beelden 2. Predicted (P) frames die gecodeerd worden met gebruik van bewegingscompensatie van een vorig beeld. 3. Bidirectionally predicted (B) frames gebruiken interpolatie van een vorig en een volgend beeld. Een I5frame en alle P5 en B5frames die tussen de volgende I5frame komen, worden een Group Of Pictures (GOP) genoemd. Hoe meer P5 en B5frames in een GOP, hoe groter de compressie. Een lange GOP kan evenwel een vertraging veroorzaken bij het herstellen van een transmissiefout. Dat kan ook o.a. problemen veroorzaken voor montage, aangezien de videostroom enkel kan gemanipuleerd worden via I5frames.
33
Naser Refaat, Sony. http://www.itu.int/ITU5D/pdf/38885015en.pdf Mullen, S., ‘Compression Refresher’, Videosystems, 01.04.2004. (http://videosystems.com/mag/video_compression_refresher/) 34
22
Figuur 5: intra9frame en inter9frame codering35 Hieronder volgt een greep uit de meest gebruikte compressietechnieken voor video. Compressiestandaarden zoals JPEG of MPEG gebruiken een combinatie van verschillende methodes. Discrete Cosine Transform (DCT) De basis van de meest gebruikte compressiestandaarden: JPEG, MPEG, H.261 en H.263. Een beeld wordt opgedeeld in kleine blokjes van 8x8 pixels. Op de resulterende frequentie matrix wordt kwantisering toegepast en gecodeerd volgens een Huffman schema. De kwantisering geldt vooral voor de kleurwaarden en de hoge frequentiedetails, aangezien het menselijk zicht voor die factoren minder gevoelig is. Aangezien DCT gebaseerd is op blokjes van 8x8, is de compressielimiet theoretisch gezien 64:1 Vector kwantisering (VQ) VQ is minder gebaseerd op de kwantisering van kleurwaarden dan DCT, maar is eerder gericht op de verwijdering van beweging op de randen van snelbewegend beeld. Het idee is dat een vectorruimte wordt gecodeerd in waarden van een subruimte van een lagere dimensie. O.a. MPEG4 maakt gebruik van een VQ variant Fractale compressie komt erop neer dat in het te coderen beeld wordt gezocht naar groepen pixels die min of meer gelijkend op andere groepen pixels kunnen worden afgebeeld. Men comprimeert dan het beeld door de gevonden transformaties in code vast te leggen. Hiermede ligt ook vast, hoe het beeld later weer wordt opgebouwd. Decompressiestart vanuit een willekeurig beginbeeld dat steeds verder wordt gedetailleerd. Nadeel is dat compressie, in tegenstelling tot decompressie, relatief veel tijd vergt. Discrete Wavelet Transform (DWT) In tegenstelling tot DCT, die werkt op kleine pixelblokken, opereert DWT op het volledige beeld. Daardoor worden ook geblokte artefacten geëlimineerd. Een beeld wordt gedeconstrueerd in frequentie componenten. Het resultaat is een hiërarchische representatie van een beeld, waarbij iedere laag een frequentieband representeert. De intra5 frame compressie van Motion5JPEG2000 bvb. is gebaseerd op DWT. Een verwerkingsintensieve methode, maar de compressie kan tot 500:1 bedragen.
35
Ook voor andere schema’s, zie http://www.techonline.com/community/related_content/20027
23
Variable Length Coding (VLC) Er wordt ook wel eens naar verwezen als Huffman of entropy codering. Het principe is eenvoudig: gegeven een serie symbolen, waarvan er sommige meer kans hebben voor te komen dan andere, is het mogelijk om door voor de veel voorkomende symbolen een kortere code te kiezen dan voor de weinig voorkomende de gehele rij op een kortere manier te schrijven. Dit alles resulteert in drie vormen van compressie: a. Lossy compressie Via algoritmes wordt informatie onherroepelijk weggewerkt, waardoor de output geen exacte representatie is van het originele. Veel opnameformaten, zoals de DV varianten zijn lossy en gaan van een compressie van 3.3:1 (DVCPRO50) tot 5:01 (DV en DVCPRO). Lossy compressie wordt algemeen aanvaard door de professionele markt, voornamelijk de broadcastingindustrie. Het is immers mogelijk om visueel aanvaardbare beelden te genereren met lossy compressieratio’s tot 40:1, waardoor video gemakkelijk kan gedistribueerd kan worden. b. Lossless compressie Vaak duiken misverstanden op over de betekenis van ‘lossless’ doordat de noties van ‘visueel lossless’ en ‘mathematisch lossless’ door elkaar worden gebruikt. Veelgebruikte formaten als DVCPRO 50 of Digital Betacam, die ook gebruikt worden voor postproductie worden ook soms aangewezen als ‘lossless’, maar zijn wel degelijk ‘lossy’: ook hier treedt informatieverlies op (o.a. door het gebruik van het DCT algoritme), al is dat echter optisch niet zichtbaar is. Dit verlies impliceert echter wel dat er kwaliteitsverlies of artefacten zichtbaar kunnen zijn als ze met andere systemen worden geanalyseerd (chroma key, ‘computerized image analysis’, etc.) én bovendien kan de verloren data niet opnieuw gegenereerd worden. Formaten die ‘mathematisch’ lossless zijn gebruiken een compressietechniek die de file verkleint, maar na decodering opnieuw een exacte replica genereert. Een bekend voorbeeld is het .zip formaat, dat meestal wordt gebruikt binnen het Windows systeem. Lossless compressie levert echter niet enkel een beperkt compressieratio op – veel minder dan lossy technieken 5 maar vergt bovendien enorm veel verwerkingskracht en dus –tijd, wat voor veel toepassingen onefficiënt blijkt. Dit is vooral het geval voor real time5applicaties waarbij informatie beschikbaar moet zijn op strak bepaalde intervallen om een mooi gesynchroniseerd beeld te bekomen. Vanuit preservatieoogpunt biedt lossless echter enorm veel perspectieven, ondanks het feit dat er nog steeds veel opslagcapaciteit nodig is en de decompressieafhankelijkheid 5 een extra reconstructieschakel. Lossless compressietechnieken voor video zijn echter heel beperkt. Recent wordt de aandacht gevestigd op de nieuwe JPEG2000 standaard, dat de optie openlaat voor lossless compressie met een ratio van ongeveer 3:1. Uit onderzoek van Media Matters36 blijkt deze belofte, in tegenstelling tot eerdere, ook waarheid. Het formaat is overigens ook schaalbaar, wat openingen laat voor ontsluiting en distributie. Een domper op de euforie is echter het – voorlopige 5 gebrek aan hardware om compressie en decompressie in real time te laten verlopen. c. Ongecompresseerd ’Ongecompresseerd’ is zoals gezegd een relatief begrip. Formaten zoals D1 of D5 voor Standard Definition Television en D6/Voodoo of D5 HD voor High Definition Television zijn volgens universele digitale broadcasting standaarden zoals CCIR5601/ITU5R 601 “4:2:2 uncompressed”. Dit is echter een oxymoron: chroma subsampling is immers ook een vorm van lossy compressie. Lossy compressie is echter standaard binnen videoproductie en –distributie. Uit onderzoek van Marco Solorio van One River Media37 blijkt echter dat zelfs codecs die geadverteerd worden als ‘4:2:2 uncompressed’ kwaliteitsverlies genereren na tien compressie5 decompressie cyclussen. Volgens vele archivarissen is digitale 4:4:4 ongecompresseerde opslag van video, alhoewel technisch veeleisend en dus heel duur, het enige mogelijk preservatieformaat.
36
Digital Video Preservation Reformatting, rapport opgesteld door Media Matters, LLC voor het Dance Heritage Coalition project, juni 2004. (http://www.danceheritage.org/preservation/Digital_Video_Preservation_Report.doc) 37 OneRiver Media codec resource site (http://codecs.onerivermedia.com)
24
De gevaren van compressie zijn:38 5 Decompressie is een extra reconstructieschakel die botst met het principe om afhankelijkheden zoveel mogelijk te vermijden 5 Op documenten in oudere formaten staat in veel gevallen zoveel ruis, dat compressie de kwaliteit nog veel zou verminderen 5 het verwerken van gecomprimeerde bitstreams is complexer, zeker in het licht van toekomstig gebruik, waarbij grotere eisen zullen gesteld worden 5 gecomprimeerde digitale documenten zijn kwetsbaarder dan ongecomprimeerde documenten. Een fout in een gecomprimeerd bestand leidt sneller tot onherstelbaar verlies 5 Bij lossy compressie gaat informatie en kwaliteit verloren. Voor audiovisuele archiefdocumenten wordt het kwaliteitsverlies, de ruis en/of de vervormingen gemakkelijk auditief of visueel waarneembaar wanneer verschillende opeenvolgende compressiealgoritmes worden toegepast. De compressienoodzaak vloeit meestal voort uit technologische beperkingen (verwerking, opslag, transmissie). Deze restricties zullen ten gevolge van de technologische vooruitgang en de kostendaling heel snel, zoals verder duidelijk wordt, soepeler worden of zelfs helemaal verdwijnen. Die hernieuwde aandacht voor ‘uncompressed’ video laat zich ook merken in videosoftware zoals Final Cut pro en Xpress Pro, die in recente versies opties hebben gecreëerd om te werken met 85bit of 105bit ongecompresseerde video. Bovendien worden steeds meer ongecompresseerde harddisk recorders voor High Definition op de markt gebracht, waardoor de discussie over compressed vs. uncompressed binnen industriële fora opnieuw hoog is opgelaaid39. Hieronder wordt een overzicht gegeven van de belangrijkste digitale (voornamelijk Standard Definition) tapeformaten van, met de bedenking dat enkele formaten slechts worden gebruikt in postproductie. D91, D92, D93, D95, D96 D51 werd in 1987 geïntroduceerd door Sony als het eerste component (4:2:2) digitaal formaat met een datarate van 270 Mbps video en een bitrate van 8 bits per seconde. Het jaar na D51 werd een composite versie uitgegeven, D52, die zowel qua aankoop als gebruik heel wat goedkoper uitviel. Ook hier was de breedte ¾ “, met een datarate van 243 Mbps, 8 bit bitrate en een 4:0:0 samplingrate. D53 is gelijkaardig aan D52, maar ½ “. D55 is het standard Definition formaat met de hoogste resolutie, met een 10 bit signaal, 4:2:2, 170 Mbps, ½ “. D55 wordt samen met D56 ook gebruikt voor HDTV. Deze formaten, van D51 tot D55 zijn ongecompresseerd, met hoge datarates als gevolg. Ze zijn heel duur en worden enkel gebruikt voor postproductie. Digital Betacam/SX/IMX Het eerste component digitale camcorder formaat, in 1993 door Sony op de markt gebracht als de opvolger van de succesvolle Betacam SP. Met een milde 2:1 compressie, een 10 bit, 90 Mbps datarate en een 4:2:2 samplingratio is Digital Betacam tot op heden het kwalitatief hoogste acquisitieformaat. Dit formaat wordt door de broadcasting industrie aanvaard als een defacto digitale standaard en wordt mede daardoor ook in archiveringsmiddens gezien als een goeie conserveringsoplossing. Jongere broertjes Beta SX en IMX van de digitale ½ duimsfamilie gebruiken een zwaardere MPEG2 4:2:2P compressie (50 Mbps). Digital9S en DVC9Pro50 Ook gekend als D59. Digital5S gebruikt een 3.3:1 compressie, een 8 bit, 50 Mbps datarate en een 4:2:2 samplingratio. Net als het verwante DVC5Pro50 (een versie van het populaire DVCPro) wordt een relatief milde compressie bekomen door het gebruik va twee codecs. Beide formaten mikken op een compromis tussen
38
Boudrez, F., Dekeyser, H., DAVID. Digitaal Archiveren in de praktijk. Een handboek, Stadsarchief Antwerpen/ICRI, Antwerpen/Leuven, 2003. (http://www.antwerpen.be/david/c_bestandsformaten.htm) 39 Zie Turner, B., ‘Uncompressed vs. Compressed’, Videosystems, 01.08.2004 (http://videosystems.com/mag/video_uncompressed_vs_compressed), Turner, B., ‘Uncompressed vs. Compressed II’, Videosystems, 01.09.2004 (http://videosystems.com/mag/video_uncompressed_vs_compressed_2/),
25
kwaliteit en kosten, zeker in vergelijking met het duurdere Digital Betacam, dat echter wel meer geschikt is voor postproductiewerk als chroma keying en compositing. DV formaten Alle DV (¼”) formaten gebruiken in essentie dezelfde compressietechnieken, een ratio van 5:1, 25 Mbps, 8 bit en zowel 4:1:1 als 4:2:0. Deze formaten zijn gericht op consumenten en semi5professionele applicaties. DVCPro (Panasonic) en DVCam (Sony) zijn eerder professionele extensies van deze consument DV formaten, met hogere snelheid, bredere tracks, metalen partikels en 4:1:1 sampling. Laserdisc (LD) en DVD video (zie verder)
Figuur 6: digitale videoformaten40
HD D5 en de HDCAM zijn slechts twee voorbeelden van High5Definition formaten, die momenteel de broadcasting markt overspoelen, met bijvoorbeeld ook HDCAM en XDCAM, dat niet5lineaire tapeless acquisitie mogelijk maakt. Met de ontwikkeling van deze nieuwe technologieën stevent de industrie opnieuw af op een nieuwe formatenoorlog. De gebruikte media en technieken zijn immers vaak bedrijfsgebonden en niet interoperatibel41. HD wordt naar alle waarschijnlijkheid de nieuwe norm in de internationale broadcastingindustrie, maar een eenduidige standaard is er nog niet en dat geldt zowel voor de opnamemedia als het formaat. Voor een technische vergelijking van de hoge5kwaliteits HD formaten HDCAM, DVCPRO HD en Avid DNxHD, zie de site van Avid42. #SDTV vs. HDTV# High Definition Televisie (HDTV)43 heeft een veel hogere resolutie dan een Standard Definition televisie+signaal 40
zie ook http://kensystem.com/kensys/vtr.htm#d9 en http://www.maxell.co.jp/e/products/industrial/metal_tech/digital_VTR.pdf 41 Zie Mullen, S.,’Digital Format Wars Redux’, Videosystems, 01.04.2004. (http://videosystems.com/mag/video_digital_format_wars) 42 http://www.avid.com/DNxHD/index.asp 43 Op de ATSC5site staan alle standaards die in SMPTE verband zijn aangenomen: http://www.atsc.org/guide_default.html
26
(SDTV) en een grotere verhouding tussen de breedte en de hoogte van het beeld. High Definition heeft tenminste 720 beeldlijnen, breedbeeldformaat (16:9, in vergelijking met het traditionele 4:3) en meerkanaalsgeluid. De introductie van HDTV valt min of meer samen met digitale televisie – wat overigens voor heel wat verwarring zorgt +, alhoewel het onderzoek naar HDTV systemen reeds stamt uit de jaren 1970, in een toen nog analoge wereld. Het was Japan die in de vroege jaren 1990 de eerste (analoge) HDTV signalen uitzond met een (interlaced) resolutie van 1035 lijnen. Intussen is men in Japan overgeschakeld naar een digitaal HDTV system. Momenteel is de research daar vooral gefocust op UHDV, die een resolutie van 7280x4320 pixels en 4000 horizontale lijnen belooft. Ter vergelijking: voor Standard Definition is dat voor respectievelijk NTSC en PAL 640 × 480/768 × 576 en 525/625. UHDV gebruikt een framerate van 60 frames/sec, voor PAL en NTSC is dat 25 en 30 frames. Ook het klanksysteem is veelbelovend. Die standaard is voorlopig enkel mogelijk op grote projectieoppervlakken en schrokt bovendien heel wat opslagruimte en bandbreedte op. Toekomstmuziek, dus. Momenteel zijn er twee verschillende HDTV standaarden in gebruik44: 1080i: HDTV+standaard met 1.080 lijnen en 1.920 beeldpunten per lijn, gebruik makend van de interlaced techniek, mogelijk met 50 of 60 Hz (i = geïnterlinieerd = scanning zoals bij het huidige televisiesysteem). 720p: HDTV+standaard met 720 lijnen en 1.280 beeldpunten per lijn, volgens de progressive scan techniek (in tegenstelling tot interlaced worden per beeldwissel steeds alle lijnen tegelijkertijd overgedragen). Deze techniek is mogelijk met 24, 25, 50 of 60 Hz. (p = progressieve scanning = scanning zoals op het computerscherm) Er is wereldwijd heel wat deining over de keuze tussen deze twee standaarden: zowel in de V.S. als Japan, waaruit de wereldwijde transitie naar HDTV wordt voortgestuwd, lijken tal van fabrikanten de voorkeur te geven aan het 1080i HDTV+model. Tegenstanders, vooral in Europa dan, verklaren echter dat 720p technisch superieur is en de interlaced techniek vroeg of laat zal verdwijnen ten voordele van progressive scan, dat op bepaalde vlakken meer aansluit bij verschillende IT ontwikkelingen. In Europa is er dus nog steeds geen officiële HDTV+ standaard, maar de Europese omroepen voelen wel steeds feller de hete adem van HDTV (en digitale TV) in hun nek. Ondanks een ambigue voorgeschiedenis (het analoge HD MAC HDTV systeem ging eerder in Europa de mist in) en de onzekerheid over de consumentenbehoeftes wordt steeds meer richting HDTV gestuurd, zowel aan de productie+ (normconversie) als aan de ontvangstkant (meer normen ontvangers). HD apparatuur wordt nu reeds gebruikt, in Vlaanderen bijvoorbeeld voor programma’s zoals Aspe en de Koningin Elisabethwedstrijd. HDTV uitzenden en daartoe tot in de huiskamer over de nodige bandbreedte beschikken is wel nog een ander paar mouwen. De televisie+transmissietechnologie is de laatste jaren wel in een stroomversnelling geraakt, getuige o.a. DVB (Digital Video Broadcast), een digitale transmissietechniek voor onder andere kabel (DVB+C), satelliet (DVB+S) en antenne (DVB+T). De HD+variant werd intussen in Australië, Japan, Korea en de VS aangeboden, maar Europese omroepen aarzelen. Intussen werd in januari 2004, op experimentele basis, Euro1080 boven de doopvont gehouden, een Pan+Europese HDTV zender (een initiatief van het Vlaamse bedrijf Alfacam) die HD programma’s uitzendt via satelliet. Om de kanalen te kunnen bekijken heb je naast een satellietschotel ook apparatuur nodig die HDTV ondersteunt: enerzijds een aangepaste DVB+S+settopbox, anderzijds een geschikt plasma+ of LCD+scherm, wat een grote investering impliceert. Het valt op hoe de andere vernieuwingsgolven van de voorbije jaren zich enten op HDTV, of vice versa. Dit is vooral merkbaar op het vlak van compressiestandaarden. Microsoft ontwikkelde quasi parallel het Microsoft TV avontuur IPTV (Internet Protocol Television), waarmee ze hun opmars in het gebied van digitale televisie, HDTV en video+on+demand verderzetten. De kern van het systeem wordt gevormd door de op Windows Media Video 9 gebaseerde codec VC+1. Bij concurrent Apple wordt de op MPEG4 gebaseerde codec AVC (Advanced Video Coding / H.264) naar voren geschoven. Sinds initiatiefnemers Sony, Panasonic en Philips met de AVC alliantie van start gingen, hebben diverse partijen de rangen vervoegd, onder andere de Japanse omroepen45. De meeste van bovenstaande videoformaten worden door Amerikaanse video5ingenieur Adam Wilt geëvalueerd 44
Voor meer info, zie o.a. Worldwide TV Standards 5 A Web Guide (http://www.ee.surrey.ac.uk/Contrib/WorldTV/index.html) 45 Hanssens, P., ‘Eindelijk Europese hoge definitie televisie?’, Video & Audio Report, januari 2004 (http://www.hd5 tv.nl/artikel/53/). Hanssens, P., ‘Hoe vroeger, hoe beter HDTV?’, Video & Audio Report, november 2004 (http://www.hd5tv.nl/artikel/88/)
27
op basis van datarates, compressie en samplingratio's. Hij komt tot het volgende resultaat46: D55 (105bit uncompressed digital) D51 (85bit uncompressed digital) Digital Betacam, Ampex DCT D59 (Digital5S), DVCPRO50 DV, DVCAM, DVCPRO, Digital8 MII, Betacam SP 1” Type C 3/4” SP 3/4” U5Matic, Hi8, SVHS Video 8, Betamax VHS EIAJ Type 1, Fisher5Price Pixelvision
10 9.9 9.7 9.6 9 8.9 8.7 6.5 5 4 3 1
Een studie van het EBU en de SMPTE47 op basis van viewingtests van verschillende generaties van videoformaten, kwam tot gelijkaardige conclusies, al werd ook bevonden dat Betacam SP betere kwaliteit opleverde dan DV, DVcam en DVCPro, te minste tot en met de zevende generatie, waar de digitale kenmerken van de laatste formaten wel duidelijk een verschil maakten op het vlak van degradatie. Ook Digital Betacam en DVCpro550 werden getest en alhoewel deze veel betere bleken dan Betacam SP, werd ook hier kwaliteitsverlies waargenomen bij de zevende generatie (zie figuur).
Figuur 5: generatieverlies Bij Digital Betacam, DV en Betacam SP
a. digitale audioformaten Digitale audio heeft zijn oorsprong in de telefonie5industrie, waarbij telefoonconversaties gecompresseerd werden om de beschikbare bandbreedte efficiënter te kunnen gebruiken. De klankkwaliteit was dan ook voornamelijk gefocust op herkenbaarheid, niet op detail. Diezelfde technieken werden naderhand ook gebruikt voor de digitale registraties van hogekwaliteits audio. De vroegste experimenten werden ondernomen in Japan, maar Sony ontdekte dat enkele kenmerken van videoregistratie 5 met name een roterende kop en de helical scan techniek 5 ook konden toegepast worden op digitale klankopnames. Op basis daarvan werden in de jaren 1980 de digitale audiotape ontwikkeld. Het duurde haast een decennium vooraleer de CD de marktplaats van de 46
http://www.adamwilt.com SMPTE/EBU Task Force for Harmonized Standards for the Exchange of Program Material as Bitstreams, Final Report: Analyses and Results, 1998. Zie o.a. http://www.adamwilt.com/EBU5DV.html
47
28
cassette innam, in de jaren 1990 werd de CD het meest populaire consumentenformaat. Er waren toen verschillende variaties op de digitale tape en de CD, waar weinigen overleefden het decennium. Recordable CD’s werden vanaf 2000 en groot succes. Vandaag wordt het CD formaat uitgedaagd door de DVD en andere optische technologieën, maar vooral door media5less audiotechnologieën zoals MP3, MPEG4 en zovele anderen. van analoog naar digitaal Net als bij video, treedt ook in de analoge audiowereld compressie op. Bij analoge opslag en transmissie van microfoon tot luidspreker degradeert het signaal bij iedere tussenstap, voornamelijk door ruis en distortie. Bij versterkers en regelapparatuur valt dit mee maar bij het analoog opslaan op magneetband of vinyl en radio5 uitzendingen gaat er behoorlijk wat informatie verloren. Bij het transponeren of opslaan van een digitaal signaal treedt er daarentegen weinig of geen degradatie. Net als bij video zijn – naast het aantal kanalen: mono of stereo 5 de samplingrate en de sampleresolutie de belangrijkste parameters waar rekening mee moet worden gehouden in het digitaliseringproces. Sampling Bij het samplen wordt de amplitude of de sterkte van het signaal in intervallen opgemeten. De samplingfrequentie van audio wordt meestal uitgedrukt in kilohertz + een waarde van 44,1 KHz geeft bijvoorbeeld aan dat men 44.100 metingen per seconde uitvoert. Kwantisering In een tweede stap worden de metingen omgezet in numerieke digitale data. De sampleresolutie bij audio is meestal 8, 16 of 24 bits. Een hogere sampleresolutie resulteert vooral in een betere omzetting van lage toonsignalen. Informatieverlies is het kleinst bij een zo groot mogelijke samplingrate en sampleresolutie. Zo neemt een één minuut durend gedigitaliseerd 16 bits stereosignaal (2 kanalen) aan CD kwaliteit (44,1Khz) ongeveer 10Mb opslagruimte in. De standaardmethode om iedere audiosample een waarde toe te wijzen wordt Pulse Code Modulation (PCM) genoemd. De ongewone samplingrate van 44.1kHz, die gebruikt wordt voor CD’s, heeft zijn ontstaan in een methode om digitale audio te converteren naar een videotape, wat tijdens de ontwikkelingsfase van de cd de goedkoopste oplossing was om digitaal op te slaan. Deze technologie kon drie samples opslaan in een horizontale lijn. Een NTSC signaal bijvoorbeeld heeft 245 bruikbare lijnen per field en een fieldrate van 60, Voor PAL is dat 245 lijnen en 50 fields/sec, wat 44100 samples/seconde oplevert. Dit systeem kon 14bit samples opslaan met foutencorrectie, of 16 bit zonder. Uiteindelijk werd voor dat laatste gekozen. De eerste CD masteringmachines waren dus in essentie verhakkelde U5Matic VCR’s. Een PCM codering hoeft echter niet het eindpunt te zijn, zoals nieuwe formaten zoals DVD5audio en SACD bewijzen. De kwaliteit van het resulterende audiosignaal kan verbeterd worden door de frequentie en de resolutie te verhogen tot, bijvoorbeeld, 192 kHz en 245bit voor DVD5 Audio. Bij PCM zijn filters nodig: een decimatiefilter aan de opnamezijde en een oversampling filter aan de afspeelzijde. Deze filters verminderen enigszins de geluidskwaliteit en beperken ze de mogelijke resolutie die men met PCM kan behalen. Bij DSD (Direct Stream Digital), dat door SACD (Super Audio CD) wordt gebruikt treedt er bijvoorbeeld geen modulatie meer op zoals bij PCM. De hoge sampling frequentie (2,8224 mhz) genereert zeer grote bestanden, maar nieuwe media beschikken over voldoende opslagruimte (voor DVD en SACD is dat 4,7 GB per zijde). De evoluties in opslagtechnologie bepalen dus eigenlijk nieuwe kwaliteitsstandaarden, die veel hoger liggen dan CD5kwaliteit. Net zoals bij HDTV, wordt natuurlijk ook het aanbod van de industrie aangepast aan die vernieuwingen, bijvoorbeeld op het vlak van afspeelapparatuur. Bij het overzetten van analoog naar digitaal moet rekening worden gehouden met een aantal factoren, zoals de signal+to+noise ratio (S/N) en het dynamisch bereik. Terwijl het eerste de verhouding tussen de achtergrondruis, die principieel optreedt tijdens de kwantisering, en een willekeurig signaal op een kanaal opmeet, peilt het dynamisch bereik naar de verhouding met het grootste onvervormd signaal. Iedere additionele bit in het kwantiseringsproces kan de S/N, of het equivalente dynamische bereik verminderen. Het dynamisch bereik is voor 8 en 16 bit respectievelijk 48 en 96 dB – een dB zijnde de minimum hoorbare verandering in geluidsdruk onder de best mogelijke condities. Om wat perspectief te geven: 25dB is het minimum geluidsniveau in een
29
typische studioruimte, 25dB het geluid in een stil huis en 120dB het niveau net voor de pijngrens48. Andere belangrijke foutenparameters zijn de niet5lineariteit van de A/D convertor, de schaalfactor van de converter (de Gain error) en de stabiliteit van de temperatuur. Bij compressie van audio worden verschillende technieken gebruikt, die vaak gebaseerd op zijn op dezelfde principes als voor grafische data of video. De bepalingen zijn natuurlijk minder streng dan in het geval van video: de datarate is immers veel kleiner 5 maar nog steeds te groot voor de huidige internetconnecties (een song van drie minuten met CD kwaliteit neemt ongeveer 31MB in). Bovendien zullen die bepalingen afhangen van het soort klank: spraak, muziek, omgevingsgeluiden etc. Gezien de complexiteit en onvoorspelbaarheid van klank is lossless compressie, net als voor video, in ieder geval heel moeilijk. Vandaar dat de meeste standaardtechnieken lossy zijn. Hieronder worden de belangrijkste technieken aangehaald. Algoritmes zoals LPC (linear predictive coding), CELP (coded excited linear prediction) A+Law en Mu+Law, die specifiek voor spraaksignalen en telefonie zijn ontwikkeld, worden buiten beschouwing gelaten. DPCM (Differential pulse+code modulation) Encodeert de PCM waarden als verschillen tussen de volgende en vorig waarde. Omdat DPCM slechts 4 bits per kanaal gebruikt om die verschillen op te slaan i.p.v. 8 bit, zal een 165bit PCM 4:1 gecompresseerd worden. Dit type is gekend als lossy. ADPCM (Adaptive DPCM) Een variant op DPCM dat de grootte van de kwantiseringsstap varieert. Niet geschikt voor complexe klankbestanden. G.721, een derivatieve van ADPCM maakt gebruik van subband coding, waarbij het signaal voor de sampling wordt opgedeeld en apart gecodeerd: 50 Hz 5 3.5 kHz (lower subband signal) 3.5 kHz 5 7 kHz (upper subband signal) Perceptuele Codering Net als bij video zijn er manieren om data die niet menselijk gepercipieerd kunnen worden te situeren en overboord te gooien. Dergelijke compressietechnieken voor audio zijn echter veel meer ontwikkeld dan voor video. Die technieken zijn gebaseerd op het psychoakoestisch model, die de limitaties van het menselijk oor verkent. Vaststaat dat bepaalde hoge of lage frequentieklanken niet hoorbaar zijn. In compressiealgoritmes wordt gebruik gemaakt van het masking principe, dat o.a. inspeelt op het gegeven dat luide tonen gelijktijdige lagere tonen kunnen verdoezelen. Digitale Compact Cassette en mini5disc maken gebruik van een masking algoritme. MPEG standaarden gebruiken dit soort compressie onder andere voor de klanksporen van video. MP3 5 MPEG1 Layer 3 audio – komt op die manier tot een 10:1 compressie. Hieronder wordt een overzicht gegeven van de belangrijkste dragers voor digitale audio. Compact Disc (CD) Een optische schijf die reeds in 1979 werd ontwikkeld door Philips en Sony. In de eerste plaats was de schijf bedoeld voor audio, maar tegenwoordig wordt een cd ook gebruikt als CD5rom voor dataopslag (zie verder). Er bestaan verschillende versies van de cd, maar de meest voorkomende is 120 mm in diameter en heeft een capaciteit van ongeveer 650 MB (74 minuten audio), alhoewel 700 MB steeds meer voorkomt. Een ander formaat, de mini5cd is 80 mm en kan 184MB aan. Het dataformaat van de cd is vooral bekend als de 'Red Book’, met ondersteuning van tweekanaals stereo, 165bit PCM (Pulse Code Modulation) en codering aan een 44.1kHz sampling rate. Er is een foutencorrectie (de zgn. Reed5Solomon) waardoor de cd tot op een zekere hoogte bekrast worden, zonder hoorbare degradatie. Ook de voorganger van de CD, de Laserdisc (LD) werd gebruikt voor audio (zie verder).
48
Yen Pan, D., ‘Digital Audio Compression’, Digital Technical Journal, Vol. 5, No. 2, 1993. (http://das.iocon.com/res/docs/pdf/Digital_Audio_Compression_01oct1993DTJA03P8.pdf)
30
Digital audio tape (DAT) Geïntroduceerd door Sony in 1987, vooral voor professioneel en semi5professioneel gebruik. 1/8" Magnetische tape, maar half de grootte van een compact audio cassette. DAT gebruikt geen compressie. De DAT standaard maakt vier vormen van sampling mogelijk: 32 kHz aan 12 bits en 32 kHz, 44.1 kHz of 48 kHz aan 16 bits. Bij enkele merken is zelfs 96 kHz en 24 bits mogelijk. Tweekanaals stereo is ondersteund. De DAT wordt ook gebruikt voor backup van data. MiniDisc (MD) Door Sony op de markt gebracht als vervanging van de analoge cassettes. Het schijfje kan in principe ook data opslaan (de MD Data versie), maar wordt vooral gebruikt voor audio. Gepremasterde MD’s gebruiken een vergelijkbaar masteringproces en optisch playbacksysteem als CD, wat hen fysiek verschillend maakt van opneembare MD’s. De datastructuur is dan weer vergelijkbaar met een harde schijf. Audio op een MD wordt gecompresseerd volgens het ATRAC (Adaptive TRansform Acoustic Coding) formaat, waarvan reeds verschillende versies zijn verschenen. The bitrate is verschillend voor de verschillende versies: de standaardversie, de SP gebruikt 292 kb/s, de MDLP gebruiken ook 32 kb/s en 66 kb/s. Digital Compact Cassette (DCC) Door Philips gepositioneerd als concurrent van de MD om een vorm van achterwaartse compabiliteit te leveren voor de analoge cassettes, maar geen lang leven beschoren. In tegenstelling tot DAT werden vaste koppen gebruikt, waardoor meer bandbreedte nodig was en compressie werd gebruikt (gelijkaardig met MPEg51, 4:1) Alesis Digital Audio Tape (ADAT) Wordt professioneel gebruikt voor simultane opname van 8 kanalen (of meer, door het synchroniseren van verschillende machines) op Super VHS tape. De versies volgen elkaar op: de eerste generatie gebruikte 16 bits/sample, een volgende 20 bits/sample, beide met verschillende samplingmogelijkheden, o.a 44.1kHz en 48kHz. ADAT wordt nu door velen vervangen door een computergebaseerde Digital Audio Workstation (DAW) systeem. Super Audio CD (SACD) Een relatief nieuw formaat met dezelfde grootte als een CD, maar maakt geen gebruik van PCM maar van DSD (Direct Stream Digital), met een veel bredere dynamisch bereik en frequentieresonantie. De hybride SACD bestaat uit twee lagen: naast de sacd5laag is er ook een gewone cd5laag, waardoor je de disc in je gewone cd5 of dvd5 speler kunt afspelen. SACD's zijn sterk tegen kopiëren beveiligd. In essentie maakt SACD gebruik van DVD technologie, er woedt momenteel dan ook een formaatoorlogje met DVD5audio (zie verder). Er zijn veel vragen en discussies over de gebruikte bitrates en compressie bij de huidige geluidsformaten, daarom werden voor het gemak en ter vergelijking door www.dvd5home.nl op een rijtje te zetten.
31
Figuur 7: bitrates en compressie bij audioformaten49. Afkortingen: Compact Disc (CD), Cinema Digital Sound (CDS), Laser Disc (LD), Pulse Code Modulation (PCM), Liniar Pulse Code Modulation (LPCM), Digital Versatile Disc (DVD), DVD5Audio (DVD5A), Super Audio CD (SACD), Direct Stream Digital (DSD), Dolby Digital (DD), Digital Theatre Systems (DTS), Sony Dynamic Digital Sound (SDDS).
1.2.6.3. Digitale dataopslag De evolutie van de opslagtechnologieën en compressietechnologieën heeft recent ook de aandacht gevestigd op servers en digitale tapebibliotheken als archiveringsmedia voor audio en video. Hierbij treedt een belangrijke paradigmashift op: het is niet langer de drager die prioritair moet bewaard worden, maar wel de essence, zijnde het signaal dat gedigitaliseerd is in datavorm. Er is aldus een separatie opgetreden tussen drager en formaat: compressie, codeersysteem etc. zijn niet meer gebonden aan het fysieke ondersteuningsmedium en de
49
http://www.dvd5home.nl/artikel/bitrates.htm
32
bijhorende apparatuur. Er moet nu dus, zoals voor alle andere digitale documenten, zowel gekozen worden voor een bestandsformaat en de bijhorende specificiteiten – bitstream codering, resolutie, sampling frequentie, bitdepth 5 als een ondersteunend opslagsysteem – magnetische tape of optische schijven. Bijkomende noodzakelijke factoren zijn de software, de plug5ins en het OP systeem, nodig om de data te kunnen lezen. a. FORMATEN Een geschikt digitaal archiveringsformaat voldoet volgens de DAVID richtlijnen 50 aan volgende vereisten • gestandaardiseerd: gedocumenteerd, stabiel en niet afhankelijk van één producent wijdverspreid en voldoende marktpenetratie • uitwisselbaar: onafhankelijk van bepaalde besturingssystemen, netwerkprotocollen en applicaties • voorziet een robuust foutopsporing5 en verbeteringsmechanisme: fouten in bitopslag zijn herstelbaar • mogelijkheid tot systematische en geautomatiseerde validatie • goed gestructureerde opslag van informatie • opslag zonder informatieverlies • mogelijkheid tot insluiten van (zelfgedefinieerde) metadatavelden • in staat om de essentiële eigenschappen van het archiefdocument in tijd over te brengen • bewaren van de authenticiteit van de archiefdocumenten • autonoom en zelfvoorzienig • drager en apparaat onafhankelijke opslag mogelijk • gebruiksvriendelijk. Zoals we verder zullen zien bestaan er momenteel geen algemeen deontologisch aanvaarde bestandsformaten voor de archivering van video – alhoewel dat op kort termijn kan veranderen. Voor klank wordt algemeen gewezen op het gebruik van het WAV (WAVEform Audio) formaat voor archiveringsdoeleinden. WAV is een container, waarin verschillende codecs, sample5rates (gaande van 6kHz tot 192kHz) en sample5resoluties kunnen worden gebruikt. Aangeraden wordt om de ongecomprimeerde PCM codec te gebruiken (zie 3.1.1). Zowel voor audio als video bestaan tal van formaten, die vooral gericht zijn op transmissie en distributie, al dan niet via breedband. Dit geldt bijvoorbeeld voor RealNetworks, Apple QuickTime en Microsoft Windows Media die zowel voor audio als video lossy compressie toepassen, voornamelijk voor streamingapplicaties. Daarnaast is er een brede en groeiende waaier aan MPEG formaten beschikbaar. MPEG staat voor een verzameling van open standaarden, die ontwikkeld werden door de Moving Picture Experts Group in samenwerking met de ISO (International Standards Organisation). Deze standaarden hebben een uiteenlopende finaliteit maar worden parallel met elkaar ontwikkeld. De op dit moment meest gebruikte zijn MPEG1, vooral bekend als de compressiestandaard voor MP3 muziekbestanden en het kwalitatief hoogstaandere MPEG2. Dit formaat wordt in de broadcastingworkflow zowel gebruikt voor opslag (op DVD’s), opname (in HDV (High Definition Video) camera’s als Betacam SX en IMX) als voor transport (voor digitale tv5uitzendingen, wireless en PDA’s). Ook het opkomende MPEG4, de standaard voor multimedia – audio én video5 voor netwerkgebruik, wordt aangewend in tal van applicaties (de HDCAM SR bvb. neemt op in MPEG4). Ieder formaat maakt verschillende variaties mogelijk. MP3 bijvoorbeeld– voluit MPEG 1 Audio layer 3 – is het meest complexe van de drie compressieschema’s die binnen MPEG 1 voor audio zijn ontwikkeld. MP3 kent een variabele compressie ratio gaande van 1:1 tot 12:1. Een 10MB PCM gecodeerde bitstream kan daardoor omgezet worden naar ca. 1MB MP3 bitstream, wat vooral praktisch is voor internetverdeling. Ook bij het veelgebruikte MPEG251 kan gekozen worden tussen verschillende opties om compressietypes toe te passen op framesets of om te encoderen via een vaste of variabele bit rate. MPEG2 en MPEG4 beschikken ook over conformance points, die bitstreams met verschillende karakteristieken definiëren, de zogenaamde levels en profiles52. Levels hebben te maken met beeldgrootte en datarates, de profiles met de encodingtools en de resulterende complexiteit in compressie. In professionele broadcastingmiddens wordt
50
Boudrez, F., Digitale archivering: bruggen bouwen op technologisch drijfzand, Studiedag 'Video in Vraag: van analoge naar digitale beeldconservering', SMAK, 19 maart 2004 (http://www.antwerpen.be/david/website/teksten/Presentaties/ Abstract_Technologisch_Drijfzand.pdf) 51 http://jehoo.netian.com/tech%20brief/brief%201/Tektronix/Mpeg52/ 52 Voor een overzicht van MPEG4 profiles en levels: http://www.m4if.org/resources/profiles
33
tegenwoordig bvb. vooral het profiel 422P@ML (4:2:2MainProfile@MainLevel) gebruikt, met een compressie van 4:2:0 of 4:2:2 en een maximum bitrate van 50Mbps53.
Figuur 8: de MPEG formaten
Figuur 9: relatie tussen MPEG formaten op het gebied van representatie54
Ondertussen worden ook de volgende MPEG generaties op de markt gekatapulteerd: MPEG7 (standaard voor beschrijven van en zoeken naar audiovisuele content) en MPEG21 (voor een allesomvattend "Multimedia Framework") (zie 1.4.4). In tegenstelling tot deze MPEG formaten is het Motion JPEG2000 formaat wel een mogelijke kandidaat voor archiveringsdoeleinden. MJPEG2000 is immers in staat lossless te comprimeren via intra5frame coding55. Zoals we verder zullen zien wordt ook gewezen op enkele nieuwe wrapperformaten die zowel lossless als ongecompresseerde opslag ondersteunen en eventueel een oplossing kunnen bieden voor de preservatie van videomateriaal. De Digital Formats Web site van het Library of Congress biedt een uitgebreid overzicht van digitale audio5 en videoformaten56. b. OPSLAGMEDIA Voor een uitgebreid studierapport over digitale dataopslag vanuit archiveringsoogpunt, verwijzen we naar de projecten DAVID en c5DAVID, die uitgebreid onderzoek deden naar digitale archivering57. Hier houden we het bij een kort overzicht van de beschikbare (fysieke) types en de te gebruiken keuzeparameters. We zullen hier ook niet dieper ingaan op de logische standaarden, die betrekking hebben op de bestandssystemen, die de data logisch structureren, toegankelijk en uitwisselbaar maken voor besturingssystemen en applicaties. De logische standaarden worden vaak uit het oog verloren, maar zijn essentieel bij het selecteren van archiveringsdragers.
53
http://viswiz.gmd.de/DVP/Public/deliv/deliv.211/mpeg/
[email protected] http://www.m4if.org/resources/techretreat2002/Gaggioni.pdf 55 http://www.xs4all.nl/~brw/ds_products/hot_math.html 56 http://www.digitalpreservation.gov/formats/fdd/sound_fdd.shtml en http://www.digitalpreservation.gov/formats/fdd/video_fdd.shtml 57 http://www.digitaalerfgoed.be 54
34
Optische schijven58 Op een optische schijf worden bits vastgelegd door kuiltjes op een spirale groef in het policarbonaat oppervlak te branden. De gegevens op de schijf worden gelezen door een laserstraal op een snel draaiende schijf te richten, waardoor het kuiltjespatroon wordt gereflecteerd en gecodeerd. De eerste ontwikkelde optische schijf was de laserdisc, die reeds gedurende de jaren 1960 werd ontwikkeld, maar pas een tiental jaren later op de markt werd gebracht. Video werd op een LD opgeslagen als een analoog signaal (PAL of NTSC), terwijl audio zowel in analoge als digitale formaten kon worden geregistreerd. De dubbelzijdige schijven hadden een diameter van 30 cm, waren zowel zwaar als fragiel en beperkt in opslagmogelijkheden (30 of 60 minuten per kant). Veel laserdiscs, waarvan er verschillende versies op de markt zijn verschenen, worden nu, mede door slordigheden in fabricatie, aangetast door zware oxidatie. In de jaren 1990 werd de LD quasi volledig van de markt verdreven door de DVD. In tegenstelling tot de LD wordt video op een DVD wel gecompresseerd, als lossy MPEG2, wat dus de kans op artifacten vergroot. Er is in gespecialiseerde kringen nog steeds een verwoede en quasi oneindige discussie tussen DVD5 en LD voorvechters – en breder: analoog vs. digitaal. Het debat vervaagt echter steeds meer, zeker met de nieuwe evoluties op het vlak van optische schijftechnologie. Na de CD en DVD (allebei met rode laser) – met de varianten CD5Rom, DVD5Rom, CD5R, DVD5R, DVD+R, CD5RW, DVD5RW, DVD+R, DVD5RAM 5 is ook de bestendiger glazen Century Disk op de markt verschenen en liggen binnenkort ook opvolgers zoals de Blu5ray schijf (BD), de HD5DVD (of AOD – Advanced Optical Disc) en PDD (Professional Disc for Data) 5 allen met blauwe laser 5 in de rekken. Deze schijfjes, die respectievelijk een capaciteit beloven van 27 GB, 15 GB en 23,7 GB, zullen vooral inspelen op de markt van de HDTV. De XDCamcorders van Sony zijn bijvoorbeeld gebaseerd op de PDD technologie. De video5informatie wordt als data geregistreerd op een optische schijf en kan versneld overgespeeld worden naar een server. Alle formaten zijn compatibel met de DVD (achterwaartse compabiliteitsprincipe) maar – history repeating – niet met elkaar. En de kandidaten blijven aanstromen, o.a. de Chinese EVD (Enhanced Video Disc). Ook de gebruikte compressiemethodes zijn incompatibel: er wordt o.a. gebruik gemaakt van MPEG52, VC1 en H.264. Ondertussen wordt wel nog geteerd op de DVD. Een DVD kan zowel data, audio (steeds meer gebruikt als drager voor hogekwaliteitsaudio, maar beconcurreerd door SACD) als video (met verschillende regioncodes) opslaan en bestaat in verschillende – gedeeltelijk incompatibele 5 versies: o o o o o o
DVD5ROM (read only, gelijkaardig geperst als CD) DVD5R (Recordable once) DVD5RW (ReWritable) DVD+R/RW (R=Recordable once, RW = ReWritable) DVD5R/RW (R=Recordable once, RW = ReWritable) DVD5RAM (random access rewritable, in cartridge vorm)
Het is aan de markt om te beslissen welk formaat of formaten overleven. Een schijf kan in ieder geval een of twee zijden hebben, en een of twee lagen per zijde. Hun aantal bepaalt de opslagcapaciteit. Dubbelgelaagde DVD5R’s en DVD+R’s (meestal goudkleurig) zijn in 2004 verschenen op de markt, maar eerder schaars en duur.
58
Voor meer info, zie Byers, F., Care and Handling of CD’s and DVD’s, Council on Library and Information Ressources, 2003. (http://www.itl.nist.gov/div895/carefordisc/ CDandDVDCareandHandlingGuide.pdf). Byers, F., Lu, R., Slattery, O., Zheng, J., Tang, X., ‘Stability Comparison of Recordable Optical Discs : a Study of Error Rates in Harsh Conditions’, Journal of Research of the National Institute of Standards and Technology, Vol. 109, nr 5 September5October 2004, pp. 5175524 (http://nvl.nist.gov/pub/nistpubs/jres/109/5/j95sla.pdf). Labriola, D., ‘DVD ot or not?’, PC Magazine, mei 2004 (http://www.pcmag.com/print_article/0,1761,a=126783,00.asp). Bennett, H., Understanding Recordable & Rewritable DVD, 2004 (http://www.osta.org/technology/pdf/dvdqa.pdf). Digital Data Preservation Program : CD and DVD Archiving : Quick Reference Guide for Care and Handling, NIST (National Institute of Standards and Technology), 2004 (http://www.itl.nist.gov/div895/carefordisc/disccare.html).
35
• DVD55: single sided, single layer (4.7 GB) • DVD59: single sided, double layer (8.5 GB) • DVD510: double sided, single layer on both sides (9.4 GB) • DVD514: double sided, double layer on one side, single layer on other (13.2 GB) • DVD518: double sided, double layer on both sides (17.1 GB) Er is een fundamenteel verschil tussen DVD en CD in die zin dat een DVD, ongeacht zijn inhoud, steeds data zal opslaan in een enkel bestandsysteem (UDF, Universal Disk Format), terwijl voor het Cd formaat verschillende standaarden voorhanden zijn, beschreven in zogenaamde colorbooks, o.a.:
• • • • • •
CD5DA, Digital Audio 5 Red Book CD5ROM, Read5Only Memory 5 Yellow Book CD5R, Recordable 5 Orange Book CD5I 5 Green Book CD5EXTRA, Enhanced Music 5 Blue Book Video CD 5 White Book
Aangenomen wordt dat de opslagcapaciteit van optische schijven steeds onder die van de magnetische technologieën zullen blijven en de kosten (voorlopig) hoger. Toch wordt de CD aangeraden als archiveringsdrager voor audio, onder andere wegens de uitwisselbaarheid, foutencorrectie etc. Dit werd o.a. uitgebreid onderzocht door de DAVID en c5DAVID projecten59. DVD is momenteel een algemeen aanvaard en vaak gebruikt medium voor het vertonen van videomateriaal, maar is niet geschikt voor archivering, vooral wegens het gebrek aan een eenduidig standaardformaat60. Het is belangrijk om op te merken dat de kwaliteit van optische schijfjes verschilt per producent, aangezien er nog geen standaardkwaliteit werd vastgelegd. Als wordt verkozen om beschrijfbare optische schijven te gebruiken voor archiveringsdoeleinden, moet de kwaliteit in ieder geval geëvalueerd worden. De Bibliothèque Nationale de France geeft aan dat een CD5R conform moet zijn aan enkele ISO normen voor logische standaarden (m.n. ISO/IEC 9660, ISO/IEC 10149 en ISO 18927) en een Bler (Block Error Rate5 het aantal blokken per seconde die een fout bevatten) test moet ondergaan. De maximale Bler van schijfje en speler mag niet groter zijn dan 50, de gemiddelde Bler niet groter dan 1061. Er worden regelmatig uitgebreide CD5R test uitgevoerd, o.a. door het Nederlandse bedrijf NOB (Cross media facilities)62. Magnetische datatape Er bestaan verschillende types magnetische dragers voor de opslag van computerdata: cartridges (DLT, SAIT) en cassettes (Exabyte, DAT, DDS), maar ook diskettes, zips en harde schijven (zie volgend stuk) 63. Datatapes – cartridges en cassettes 5 zijn in gebruik sinds de productie van industriële computers in de jaren 1950 en worden momenteel het meest gebruikt voor massaopslag, voor archivering of back5up van digitale data, vooral door banken en omroepen. Tape is als opslagdrager dus veel ouder dan discs, maar lijkt nog niet ten dode opgeschreven. De voorbije jaren is tape, mede door de introductie van de automatische tape library, technologisch ontzettend geëvolueerd, terwijl ook de prijzen naar beneden gingen. Globaal gezien een onderscheid kan worden gemaakt tussen twee methodes om data te lezen en te schrijven op datatapes, zijnde lineair (bvb. DLT en LTO) en helical scan (bvb. DAT en Exabyte). De helical scan methode – die ook voor de meeste videosystemen wordt gebruikt 5 heeft vanuit archiveringsoogpunt echter behoorlijk wat nadelen: niet alleen vormt de techniek een zwaardere belasting voor de tape waardoor deze een kortere levensduur heeft, maar bovendien wordt data met een grotere densiteit op het tapeoppervlak opgeslagen wat de kans op fouten vergroot. Een magnetische datatape 59
zie o.a. Vandermaesen, L., Baaten, L., Digitaal geluidsarchief. Krachtlijnen digitalisering: Standaarden, formaten en dragers, Antwerpen, Stadsarchief Antwerpen, 2004. (http://www.antwerpen.be/david/cdavid/TechnischRapport_DigtaalGeluidsarchief.pdf) 60 zie o.a. http://www.dvddemystified.com/dvdfaq.html en http://www.dvdrhelp.com/faq 61 http://www.bnf.fr 62 Grimm, E., ‘CD5R test NOB’, Pro Audio Visie, juni 2000. (http://www.proaudiovisie.nl/downloads/200006cdrtestnob.pdf) 63 Voor een uitgebreid overzicht: Boudrez, F., Magnetische dragers voor het archief, Stadsarchief Antwerpen, Antwerpen, 2002. (http://www.antwerpen.be/david/website/teksten/DAVIDbijdragen/Magnetische_dragers.pdf)
36
kan een levensduur hebben van 10 tot 30 jaar indien bewaard in optimale omstandigheden. Nie alleen zijn datatapes stukken goedkoper dan optische schijven, maar gedendaagse veelgebruikte formaten kunnen in vergelijking een grotere hoeveelheid data op een kleiner oppervlakte opslaan, met een grotere datarate. Een huidige SAIT1 tape kan bijvoorbeeld tot 500 GB opslaan (met een snelheid van 30 MBps) en zelfs, met compressie, tot 1,3 TB (met 78 MBps). De gemiddelde toegangstijd is 70 seconden, de oplaadtijd 23 sec.64 Deze tapes kunnen worden opgeslagen in geautomatiseerde bibliotheken (de zogenaamde ‘near5line’ systemen), die via ‘robots’ de tapes kunnen opladen en lezen. Vooral binnen grote opslagfaciliteiten is dit systeem standaard geworden: het biedt in vergelijking met manuele handeling immers een goede betrouwbaarheid aan lage operationele kosten. Sony ontwierp bijvoorbeeld op basis van de SAIT technologie het PetaSite systeem, dat een geautomatiseerde dataopslag tot 1,2 Petabytes, met 2.88 gigabytes (GB) per seconde aankan. Deze voordelen wegen echter nauwelijks op tegen het feit dat tapes minder duurzaam zijn dan optische schijven 5 ze werden immers ontworpen om goedkoop back5ups te maken, niet om data op lange termijn te bewaren. Een groter probleem wordt echter gevormd door de snelle veroudering van hardware. Een oplossing is de data op tijd overzetten naar nieuwe dragers. Daarvoor werden door de meeste fabrikanten migratiepaden uitgetekend, waardoor migratie over verschillende generaties wordt ondersteund (zie de figuur voor het SAIT pad). Om de platformonafhankelijkheid van tapes te garanderen, zodat de informatie ongeacht het gebruikte besturingssysteem kan ingelezen worden, kan enerzijds een logische standaard voor de bestandsstructuur toegepast worden, anderzijds kan de tape ook gelabeld worden, waarbij gegevens over de data (bestandsnamen, opnamemethode etc.) worden geregistreerd op de tape zelf. Voor archiefdoeleinden wordt de voorkeur gegeven aan deze laatste oplossing. Bij de meeste tapes, zoals DLT en LTO, wordt hardwarematige datacompressie toegepast. Aangezien compressie wordt afgeraden, moet er bij het aanschaffen van lees5 en schrijfapparatuur voor gezorgd worden dat dit uitgeschakeld kan worden. Last but not least moeten de tapes in optimale omstandigheden worden bewaard. Net als analoge of digitale audio5 of videotapes zijn datatapes immers magnetisch en dus onderhevig aan degradatie (zie verder).
Figuur 10: migratiepad van SAIT tapes65
64 65
http://www.aittape.com/sait5tape5backup5comparison.html http://www.qualstar.com/
37
Figuur 11: overzicht van datatapeformaten66
Harde Schijven Schijf of disk is de meest dominante en populairste opslagtechnologie, gebruikt voor data die snel toegankelijk moeten zijn (de zogenaamde ‘on5line’ systemen). Ook harde schijven zijn in essentie magnetisch en dus kwetsbaar en beperkt levensvatbaar. In tegenstelling tot tapes laten schijven bovendien ze geen platformonafhankelijke opslag toe, waardoor ze voor archiveringsdoeleinden in principe niet aan te raden zijn. Het potentieel is er wel: door de enorme groei van de capaciteit en de datarate, samen met de dalende kosten zijn deze dragers de laatste jaren ook vatbaar geworden voor opslag van audio en video. De kostprijs per bit van harddisk is in 2003 in de buurt gekomen van die op tape. Dat de prijs van harde schijven verder zal dalen is zeer waarschijnlijk67. De zogenaamde IDE/ATA (Integrated Drive Electronic / Advanced Technology Attachment)) schijven zijn daarbij tot de helft goedkoper dan SCSI (Small Computer System Interface, spreek uit: 'skoezie') schijven met dezelfde capaciteit. Een doorsnee PC beschikt meestal over een ATA schijf, maar SCSI is wel geschikter voor multitasking, is ontwikkeld voor gebruik in netwerken en wordt als dusdanig vooral gebruikt in professionele workstations en server systemen. Momenteel (begin 2005) zijn reeds harde schijven beschikbaar van 1TB, terwijl met behulp van de RAID (Redundant Array of Inexpensive Disks, zie verder) verschillende schijven in een enkel netwerk kunnen samengevoegd worden, resulterend in een grotere snelheid en betrouwbaarheid. Over de betrouwbaarheid van HD’s is trouwens nog veel discussie. David Seubert van de UCSB universiteit heeft vastgesteld dat er zelfs met RAID5 (zie verder) een simultane crash van verschillende HD’s kan optreden68. Alle HD’s zijn geëvalueerd met een MTBF (Mean Time Between Failures), wat betekent dat alle schijven in ieder geval een beperkte levensduur hebben. Ondertussen blijft de technologie aan een snelle tred evolueren: Binnen afzienbare tijd zal de HD technologie opnieuw grote verschuivingen ondergaan (‘perpendicular recording’69, zelf5
66
http://www.vinastar.com/ Laven, P., ‘The death of tape?’, EBU Technical Review, (294), April 2003. (http://www.ebu.ch/trev_2945 editorial.html) 68 http://sul2.stanford.edu/byform/mailing5lists/arsclist/2004/01/msg00073.html 69 Nieuwe verticale opslagtechnologie, waarmee de bitdichtheid kan worden vergroot. Bij de huidige manier van opslaan (Parrallel Recording) worden its horizontaal op het oppervlak van de disk vastgelegd 67
38
organiserende media, ..). Bovendien zullen in de toekomst ook holografische technieken, nanotechnologie70 en de zogenaamde MEMS (Micro Electro Mechanical Systems71) technologie gebruikt worden voor dataopslag.
Figuur 12: vergelijking van digitale opslagmedia
Totnogtoe werd voor bewaring van data voornamelijk magnetische datatape gebruikt 5 voornamelijk door omroepen en IT departementen – omdat dit de goedkoopste oplossing bleek. Nu harde schijven steeds goedkoper worden72 5 maar nog steeds relatief duurder dan tape – wordt verwacht dat heel wat opslagsystemen zullen overschakelen. Het gebruik van datatape heeft immers nogal wat nadelen. Niet alleen moet de opslag van de tapes zelf gebeuren in een omgeving met gecontroleerde temperatuur en luchtvochtigheid, maar ook het beheer en de ontsluiting vergt complexe en dure systemen. Een tape werkt ook langzamer omdat je ze helemaal moet doorspoelen om de gegevens te vinden die je zoekt. Met on5line opslag kan de gebruiker veel gemakkelijker door de archieven browsen en kunnen de migraties sneller gebeuren. Anderzijds zijn harde schijven zoals gezegd onderhevig aan crashes, waardoor de beheersystemen moeten uitgerust worden met automatische foutenredundantie en zijn op IT gebaseerde systemen veelal afhankelijk van soft5 en hardware van verschillende producenten, wat interoperabiliteitsproblemen kan opleveren. Maar zeker voor de omroepen, voor wie de snelheid van datadoorstroming minstens even belangrijk is als een veilige archivering, is een evolutie naar HD merkbaar – ondanks de technische onvolkomenheden. Zoals Philip Laven van de EBU (European Broadcasting Union) stelt: “We can be confident that IT+based systems will eventually mature and deliver what the suppliers promise! Until then, large networked IT+based production systems must be classified as a high+risk investment73.” Een tussenoplossing die door veel gebruiksarchieven wordt gebruikt is het Hierarchical Storage Management (HSM), een dataopslagsysteem dat automatisch weinig gebruikte data migreert van (dure) media met een hoge snelheid – harde schijven – naar tragere, maar meer stabiele media – optische schijven of magnetische tapes. HSM systemen zijn gebaseerd op de verwachte levenscyclus van data (zie figuur) en slaan het grootste deel van de bedrijfsdata op via tapes en kopiëren bestanden naar harde schijven wanneer nodig, als een soort van caches. Sony heeft bvb. een systeem uitgedokterd dat zowel gebruik maakt van een PetaSite, gebaseerd op SAIT tapes, voor lange termijnopslag als een PetaServe voor toegang met hoge snelheid. In een petasite systeem kunnen tot 3.000 SAIT cartidges worden opgeslagen, met een capaciteit tot 1,5 PB.
70
IBM voorziet om met nanotechnolgie datatapes te kunnen ontwikkelen van maar liefst 100 terabyte!!! (http://storage.itworld.com/4652/041217ibmtape/page_1.html) 71 dataopslag door middle van micro5 en nanotechnologie. Zie o.a. http://www.azonano.com/details.asp?ArticleID=888 72 Vergelijking prijzen datatapes en harde schijven, juni 2004: http://www.horison.com/horison/topics/2004/06/ 73 Laven, P., ‘Computer5based production systems for TV’, EBU Technical Review, (299), juli 2004. (http://www.ebu.ch/trev_2995editorial.html)
39
Figuur 13: de levenscyclus van data74
c. OPSLAGNETWERKEN75 Computers en opslagclusters kunnen via hoge bandbreedte (glasvezelkanalen of Gigabit Ethernet) verbonden worden in digitale opslagnetwerken, die beheerd worden via protocols (de ‘taal’ die door de componenten gebruikt wordt om te communiceren, o.a. TCP5IP76, iSCSI77, iFCP78, zie verder) en software. In de verbindingen tussen opslagapparatuur en computers worden de onderstaande infrastructuur en bijbehorende protocols algemeen gebruikt. Dit zijn de vrij beschikbare industriële standaarden. Ethernet Ethernet is begonnen als medium voor het samenstellen van LAN's in de jaren 1980. Typische bandbreedtes zijn 10 Mbps, 100 Mbps en 1 Gbps. Ethernet is niet alleen de infrastructuur, maar heeft tevens een bijbehorend protocol. Op IP gebaseerde protocollen zoals TCP/IP worden boven op Ethernet uitgevoerd. Fibre Channel
74
Moore, F., Information Lifecycle Management, Horison Information Strategies, 2003 (http://www.horison.com/horison/industry_topics/Lifetime_Data_Management.doc) 75 Alles over netwerken: http://www.diskidee.nl/hardware/cursussen 76 TCP/IP vormt de basis voor het hele internet, en is tegenwoordig in elk modern besturingssysteem (Windows, Unix, Mac OS, Linux, etc) ingebouwd. TCP/IP is een afkorting die in feite twee protocols samenvat: TCP (Transmission Control Protocol) is verantwoordelijk voor de besturing en controle van het gegevenstransport. IP (Internet Protocol) is verantwoordelijk voor het transport van gegevens van computer naar computer. 77 Eenvoudig gezegd is i5SCSI weinig meer dan het SCSI protocol transporteren over IP netwerken. Het belangrijkste voordeel dat i5SCSI biedt is niet zozeer gelegen in snelheden, maar veel meer in connectiviteit en het overbruggen van afstanden die met traditionele (SCSI of Fibre Channel) technieken niet mogelijk of kostbaar zijn. Met i5SCSI is het relatief eenvoudig om een SAN te bouwen en tegen veel lagere kosten dan een Fibre Channel SAN. 78 Het Internet Fibre Channel Protocol (iFCP) is een protocol waarmee Fibre Channel transport services via een TCP/IP5netwerk zijn te transporteren. Net zoals bij het iSCSI5protocol wordt SCSI5data in een IP5pakket ingekapseld en via een IP5netwerk verstuurd. iFCP is een gateway5to5gateway protocol dat de mogelijkheid biedt om Fibre Channel devices rechtstreeks via een IP5netwerk met elkaar te verbinden.
40
Fibre Channel is een technologie die in de jaren 1990 is ontwikkeld en die steeds populairder wordt als verbinding tussen opslagapparatuur en computers. De bandbreedte is veelal 100 Mbps, maar tegenwoordig is ook 6000 Mbps mogelijk. Parallel SCSI (Small Computer Systems Interface) Parallel SCSI is een uitstervende technologie die zijn oorsprong vindt in de jaren 1980. Typische bandbreedtes zijn 40 Mbps (ook wel UltraSCSI genoemd), 80 Mbps (ofwel Ultra2 SCSI) en 160 Mbps (ofwel Ultra160 SCSI). Parallel SCSI is beperkt tot relatief korte afstanden en is dus geschikt voor rechtstreekse aansluitingen 5 wanneer opslagapparatuur en computers zich in dezelfde behuizing bevinden 5 maar is minder geschikt voor netwerken. SSA (Serial Storage Architecture) SSA is een technologie die bedoeld is voor hoge performance en wordt gebruikt voor de verbinding tussen de schijven binnen een enkel schijfsysteem. De huidige bandbreedte is 160 Mbps. Recent ontwikkelen zich ook nieuwe seriële systemen voor digitale opslag: SATA (Serial+advandced Technology Architecture) en SAS (Serial attached SCSI). Beide beloven een hogere bandbreedte, prestatie, schaalbaarheid, data5integriteit en betere connectiviteitseigenschappen (grotere kabellengtes) dan de bestaande parallel5bus technieken. SSA en FibreChannel, ook al seriële interfaces zijn al langere tijd beschikbaar, maar brengen hoge kosten met zich mee. SAS producten krijgen daarentegen een kostenplaatje dat vergelijkbaar zal zijn met de huidige Ultra160 SCSI apparatuur. Opvallend is het feit dat de fysieke interface voor SAS dezelfde is als voor SerialATA. Met een enkel platform voor SCSI en SATA worden de kosten voor IT management en de lasten voor implementatie en beheer verminderd. Zo kunnen bijvoorbeeld near5line toepassingen gebruik maken van goedkope SATA drives terwijl SAS gebruikt kan worden voor mainstream en kritische toepassingen, allemaal in hetzelfde datanetwerk.
Figuur 14: vergelijking, SATA, SCSI en FC79
Met een RAID (Redundant Array of Inexpensive Disks) opstelling, aangedreven door software of ondersteund door speciale hardware, kunnen verschillende schijven in een enkel netwerk samengevoegd worden, resulterend in een grotere snelheid en betrouwbaarheid. Er bestaan verschillende RAID levels; elke level heeft zijn eigen
79
Bron: Horison Information Strategies (http://www.horison.com/horison/topics/2004/09/)
41
karakteristieken, voordelen, nadelen en toepassingen. Het is belangrijk te weten dat levels onderling elkaar niet beconcurreren; level "X+1" is niet beter dan level "X"80. Bij RAID 0 (ook bekend als "striping") wordt data over verschillende, parallel gekoppelde, schijven verdeeld. Dit komt de snelheid ten goede, maar biedt geen foutencorrectie.Wanneer één van de harde schijven in de set faalt gaat alle data verloren. Hierdoor wordt RAID 0 vooral gebruikt voor performante systemen waarin verlies van data niet kritiek is. Bij RAID 1 (ook bekend als "mirroring"). De data wordt volledig en exact gekopieerd op een tweede harde schijf, waardoor de data beschermd is tegen het falen van een disk. RAID 1 is zeer betrouwbaar, maar voegt niet veel toe aan de performantie van het systeem. Lezen gaat mogelijk iets sneller (elk van de harde schijven kan simultaan zijn eigen onafhankelijk lees5operatie uitvoeren, wanneer er geen schrijf5operatie actief is), maar schrijven op de set zal bij de meeste RAID 1 sets trager gaan omdat ieder bestand 2 maal weggeschreven dient te worden. Niettemin blijft RAID 1 de beste prestatie leveren, vergeleken met de andere redundante array types (RAID 1 t/m RAID 5). Het grootste nadeel van RAID 1 is echter dat de opslagcapaciteit niet efficiënt gebruikt wordt, alle data moet immers voor 100% gekopieerd worden naar de mirror5disk. RAID 1 zal daarom vooral gebruikt worden voor systemen waarbij datacontinuïteit primeert boven een efficiënt gebruik van de opslagcapaciteit. RAID92 gebruikt striping aangevuld met een Error Correct Code (ECC), bedoeld voor schijven die geen eigen fout correctie hebben (alle moderne disks hebben dit wel). RAID93 werkt bijna hetzelfde als RAID52 met het verschil dat men een disk gebruikt voor het opslaan van een berekende pariteit. Als een disk uitvalt, kan men terug berekenen wat de verloren byte had moeten zijn. Door deze pariteit kan een dergelijk systeem vaak niet gelijktijdig schrijven en lezen. Daarom is RAID 3 eigenlijk alleen maar geschikt voor systemen bestemd voor Single5User/Single5Tasking systemen. RAID94 is identiek aan RAID53 maar nu wordt de pariteit niet per byte maar per data blok berekend. Hierdoor kan gelijktijdig geschreven en gelezen worden mits er geen overlapping plaats vindt.De RAID 4 architectuur biedt geen noemenswaardige voordelen over andere redundante array types (RAID 1 t/m RAID 5), waardoor RAID 4 weinig of niet wordt gebruikt. RAID95 werkt identiek aan RAID54, met het verschil dat de pariteitdata niet op een enkele schijf opgeslagen wordt maar verdeeld over de verschillende schijven. RAID55 is geoptimaliseerd voor kleine bestanden en kan het beste in een netwerk omgeving gebruikt worden. Er wordt tegemoetgekomen aan zowel eisen omtrent fouttolerantie, performantie en efficiënt gebruik van de opslagcapaciteit, waardoor RAID 5 tot op vandaag de meest gebruikte RAID5architectuur is. RAID96 is een aanvulling op RAID55. RAID 6 voorziet een extreem hoge fouttolerantie en kan het falen van meerdere disks tegelijk aan, maar boet in aan performantie 5 door het berekenen van de dubbele pariteit – en efficiëntie wat betreft het gebruik van de opslagcapaciteit. RAID 7 is een geregistreerde toepassing van Storage Computer Corporation en geen algemene standaard. RAID 10 is een combinatie van RAID 0 en RAID 1. De data wordt eerst gemirrord (RAID 1) en vervolgens ge5 striped (RAID 0). RAID 10 wordt vooral gebruikt voor databases die een hoge fouttolerantie en performantie eisen. RAID levels die gebruik maken van een mirror worden relatief snel hersteld: er dient enkel een kopie gemaakt te worden van de data. Een gefaalde harde schijf herstellen in RAID levels die gebruik maken van een ECC neemt iets meer tijd in beslag: de gefaalde harde schijf dient opnieuw opgebouwd te worden aan de hand van veeleisende berekeningen die door de RAID
80
Jonkers, H., Raid en Backup, een theoretische inleiding, 2003. (http://users.pandora.be/mydotcom/download/cvobasis/raidbackup.pdf)
42
controller dienen uitgevoerd te worden. In beide gevallen zal de performantie van het systeem tijdens het herstellen tijdelijk afnemen, maar alles gebeurt online. RAID systemen worden dus vooral gebruikt voor het toegankelijk maken en houden van data – niet voor archivering. Daarnaast kunnen die gegevens worden gekopieerd naar offline opslagmedia – meestal datatapes 5 om te beschermen tegen menselijke fouten of omgevingsfactoren. Een tape back5up systeem bestaat uit tapedrives die geïntegreerd zijn in de servers, of taperobots die via een netwerk (glasvezel of ethernet) verbonden zijn met een “dedicated” server. Hiervoor is ook de MAID (Massive Array of Inactive Disks) technologie ontwikkeld, die vooral bedoeld is voor ‘slapende’ archieven. Het grootste verschil met RAID is dat het grootste deel van de schijven kan uitgeschakeld blijven, als die niet of weinig gebruikt worden, waardoor heel wat bespaard kan worden op energieverbruik en schijffouten in grote mate kunnen vermeden worden. Deze ontwikkelingen worden vooral in de broadcastingsector fel bejubeld: dankzij technologieën als SATA en MAID wordt de kloof tussen tape (traditioneel goedkoop maar traag) en schijfopslag (duur maar snel en beveiligd) steeds sneller gedicht. 81 Men kan een onderscheid maken tussen 4 soorten netwerkarchitecturen. DAS, Direct Attached Storage. Hierbij wordt de opslag d.m.v. SCSI of point5to5point glasvezel interfaces rechtstreeks aangesloten op een server. De aanschafkosten zijn relatief laag maar de mogelijkheden tot uitbreiding zijn beperkt. Bij een omvangrijker serverpark zal het beheer van verspreide opslagvolumes een steeds groter probleem worden. Voor netwerken met een beperkte hoeveelheid servers is DAS nog steeds de meest verantwoorde keuze.
Figuur 15: DAS
NAS, Network Attached Storage. Het gaat hier om schrijfruimte die niet op de server aanwezig is, maar ergens door middel van een eigen netwerkadres bereikbaar is op het netwerk. NAS systemen zijn appliances, d.w.z. apparaten die maar één taak verrichten en daarvoor geoptimaliseerd zijn 5 NAS appliances hebben de specifieke taak om opslagcapaciteit aan te bieden aan de gebruikers van een netwerk. Met NAS wordt de relatie tussen applicatieservers en opslag ontkoppeld waardoor beschikbaarheid van data en uitbreiding van opslagcapaciteit niet langer afhankelijk zijn van de server(s). Daardoor wordt het gebruik ook sneller. Elke bestandsaanvraag wordt door de server doorgestuurd naar het NAS. De NAS zelf bestaat uit een of meer harde schijven die opgenomen zijn in een RAID5systeem. Daarnaast moet er software aanwezig zijn die in staat is de aanvragen voor bestanden op de servers door te sturen naar het SAN device. Er zijn wel beperkingen op het gebied van beveiliging en beheer. Daarentegen zal door de specifieke taak en geoptimaliseerde hard5 en software, de performance van NAS appliance een stuk hoger liggen dan bij toepassing van DAS of SAN technologie.
81
meer info en figuren: http://www.horison.com
43
Figuur 16: NAS
SAN, Storage Area Networking. Bij NAS gaat het om een geheel afzonderlijk netwerk dat bestaat uit verschillende opslagmedia die door snelle glasvezel of ethernetverbindingen aan elkaar en aan een aantal servers verbonden zijn. Meerdere servers kunnen gebruik maken van één of meerdere RAID systemen, waarvan de totale capaciteit over de servers wordt verdeeld. In het SAN zelf kunnen alle technieken gebruikt worden die ook op normale servers gebruikt kunnen worden. Denk daarbij aan disk mirroring, speciale voor het SAN ingerichte back5upsystemen, datamigratie van het ene naar het andere device of subnetwerken met NAS systemen erin.De investeringen voor een SAN systeem zijn betrekkelijk hoog, maar echter is naar uitbreiding toe goedkoper dan voorgaande oplossingen. Ook de beheerskosten zullen in verhouding sterk dalen.
Figuur 17: SAN
DAS is tot op heden de meest gebruikte RAID architectuur. Echter, een verschuiving van DAS naar NAS en vooral SAN is sinds 2000 goed waarneembaar82. Parallel wordt ook gewerkt aan nieuwe opslagprotocols die de NAS en SAN concepten dichter bij elkaar brengen. Voor de informatieoverdracht tussen servers en de centrale opslagapparatuur bestaat er immers nog geen duidelijke eenduidige standaard, zoals IP dat is voor een netwerk. Traditioneel wordt vooral Fibre Channel (FC) gebruikt maar de IP (Internet Protocol)5technologie, in de vorm van technologieën zoals FC5IP (Fibre Cannel over TCP/IP), iFCP (Internet Fiber Channel protocol) of iSCSI (Internet SCSI), krijgt geleidelijk meer voet aan de grond in de wereld van netwerkopslag. Een belangrijk voordeel van IP5 Storage zit in het gebruik van bestaande infrastructuren en de algemeen beschikbare kennis over het gebruik van IP. Met IP als drager voor iSCSI en andere protocols is met relatief eenvoudige en betaalbare middelen een
82
http://www.computable.nl/artikels/archief3/d26jb3ae.htm
44
uitstekend opslagnetwerk te bouwen dat de afstanden tussen servers, opslagapparatuur en clients gemakkelijk kan overbruggen. FC9IP is een 'tunneling'5procédé waarmee SAN5glasvezelnetwerken onderling over grote afstanden verbonden kunnen worden. Het komt er op neer dat de beheerssoftware geen onderscheid maakt tussen een lokale en een verafgelegen SAN. iFCP is een aanpassing op FC/IP die gebruikt moet worden om Fibre Channel data over IP5netwerken te verplaatsen door gebruik te maken van iSCSI5protocollen, waardoor SAN’s afzonderlijk worden beheerd. Op deze wijze wordt het beste van twee werelden gecombineerd. iFCP veronderstelt net als FC5IP een Fibre Channel infrastructuur. iSCSI is de IP5variant van SCSI (Small Computer Systems Interface). Deze standaard zorgde er jaren geleden al voor dat data sneller konden worden vervoerd en dat er een groot aantal randapparaten konden worden aangesloten aan een PC. iSCSI is een initiatief dat SCSI5verkeer over een TCP/IP en Ethernetnetwerk verstuurt. Dit protocol is de laatste jaren volwassen geworden en biedt enkele voordelen ten opzichte van FC: - iSCSI maakt gebruik van de bestaande Gigabit Ethernet LAN, voor Fibre Channel is een apart fibernetwerk nodig. Vanzelfsprekend is voor het gebruik van een iSCSI5netwerk SAN ook apparatuur als speciale host5 busadapters en interface kaarten nodig, maar het maakt wel gebruik van de bestaande infrastructuur. - De host5busadapters van een Fibre Channel SAN moeten direct aan de SAN5switch worden bevestigd, terwijl de iSCSI host5bus adapter op een storage router overal op de gigabit Ethernet SAN kan worden aangesloten. Dit vergroot de flexibiliteit van de SAN bij het opbouwen van een complexe SAN. - iSCSI is een razendsnel protocol: snelheden van 40 Gbps worden verwacht, terwijl Fibre Channel nog steeds probeert snelheid te winnen. Verder staat Ethernet bekend om de goede interoperabiliteit, iets waar Fibre Channel nogal mee sukkelt. end devices
fabric services
iSCSI
iSCSI/IP
Internet Protocol
FC5IP
Fibre channel
Fibre channel
iFCP
Fibre channel
Internet Protocol
Figuur 18: iSCSI, FC5IP, iFCP. ‘End devices’ zijn o.a. de opslag5apparaten, ‘fabric services’ de routing, management, authentificatie en inter5switch communicatie.
IP5Storage verenigt eigenlijk voordelen van NAS en SAN. Zowel Fibre Channel als iSCSI hebben zo hun voor5 en nadelen.Een FC SAN is duur en vergt heel wat extra kennis, maar heeft het grote voordeel dat het reeds jarenlang gebruikt wordt door bedrijven. iSCSI combineert het beste van twee werelden. Enerzijds wordt gebruik gemaakt van het vertrouwde SCSI, maar de SCSI5commando’s die nodig zijn om de verschillende devices aan te sturen worden verstuurd over IP netwerken. Voorspeld wordt dat kleine en mediumgrote organisaties die nog geen FC SAN geïmplementeerd hebben wel eens zouden kunnen gaan kiezen voor iSCSI. Andere technologieën, zoals InfiniBand, beloven een alternatief voor de PCI5gebaseerde I/O5bus83, met gevoelig hogere snelheden. Ondertussen leveren bedrijven zoals IBM, ADIC als Apple op maat gemaakte SAN systemen. Vooral die laatste lijkt met het XSan systeem een betaalbare oplossing te bieden, dat bovendien interoperabiliteit met andere besturingssystemen toelaat84. Het eerder vermelde Petasitesysteem van Sony85 zit ook in de lift en wordt o.a. gebruikt door het Nederlandse instituut voor Beeld en Geluid86. Jerome McDonough van de bibliotheek van de
83
Peripheral Component Interconnect: de huidige standaard die de de computer bus specificeert voor het koppelen van externe apparatuur aan het moederbord. 84 http://www.apple.com/xsan/videoworkflow.html 85 http://www.storagebysony.com/ 86 Voor afbeeldingen, zie: http://www.dedigitalevoorziening.nl/wwwdata/pages/nieuwsitem40.html
45
New York University geeft drie criteria op waar videoarchieven rekening mee moeten houden bij de keuze van opslagarchitectuur:87 1. De bestanden op eender welke opslagmedia kunnen corrupt worden, vandaar de nood aan automatische foutendetectie. Software is beschikbaar, maar er moet rekening gehouden worden dat deze applicatie de performantie van een systeem kan aantasten. 2. Elke architectuur zal op termijn vervangen moeten worden en alle bestanden gemigreerd. Er bestaan systemen die de nodige transfers van tera5 en petabytes informatie ondersteunen, maar die zijn te vinden in de hogere prijsklasse. Er moet in ieder geval een ‘ontsnappingsroute’ verzekerd worden. 3. Er moet ook rekening gehouden worden (ook voor de configuratie) met de maximum toegelaten bestandsgrootte binnen het systeem. Een uur ongecompresseerde standaardvideo vergt al 140 GB, voor HDTV is dat 840 GB!
1.2.6.4. Opslagomgevingen Alle dragers voor video of audio, zelfs film zijn kwetsbaar. Om de levensduur zo lang mogelijk te maken, moeten zowel de dragers als de apparatuur in optimale omstandigheden worden bewaard. De belangrijkste factoren voor alle dragers zijn de temperatuur en vochtigheid. Die bepalen immers de snelheid van chemische reacties. Het is dus belangrijk dat de voorgeschreven gradaties worden gehanteerd en, belangrijker, dat grote schommelingen worden vermeden. Studio’s, die gebruik maken van bewaringsmateriaal, moeten dus dezelfde klimatologische condities hebben als de opslagruimte. a. MECHANISCHE DRAGERS Mechanische dragers, zoals vinyl of fonograafschijven, zijn relatief langlevend. De apparatuur is meestal nog voorhanden. Instantschijven en cilinders zijn uitzonderingen. Verscheidene klankarchieven hebben echter zelf cilinderapparatuur geconstrueerd met excellente kwaliteit, zodat de meeste reeds overgezet zijn naar nieuwere dragers. Acetaat instantschijven zijn volgens een studie van Unesco echter in grote nood. Volgens datzelfde rapport zijn de voornaamste risicofactoren de volgende88: Vochtigheid en temperatuur Schimmel is een veelvoorkomend gevaar. Instantschijven hebben last van hydrolyse. Mechanische vervorming o.a. door krassen veroorzaakt door de afspeelapparatuur. Stof en vuil Mechanische dragers temperatuur ±/24u ±/jaar Relatieve ±/24u ±/jaar vochtigheid °C
°C
°C
%
%
%
preservatie opslag
5 – 10
±1
±3
30
±5
±5
toegangsopslag
Ca. 20
±1
±3
40
±5
±5
87
McDonough, J.P., Preservation+Worthy Digital Video, or How to Drive Your Library into Chapter 11, paper voor de Electronic Media Group, 2004. (http://aic.stanford.edu/sg/emg/pdfs/McDonough5EMG2004.pdf) 88 The Safeguarding of the Audio Heritage : Ethics, Principles and Preservation Strategy, IASA, 1997 (revisie 2004). (http://www.iasa5web.org/tc04/tc04.htm)
46
Figuur 19: aangewezen temperatuur en vochtigheid voor mechanische dragers89
b. MAGNETISCHE DRAGERS Magnetische tape is opgebouwd uit een kunststof grondlaag, met daarop een emulsie van magnetiseerbaar materiaal. Die twee delen worden samengehouden door een smeermiddel, ook wel binder genoemd. Die laatste is het zwakste onderdeel van een tape: al na enkele jaren kan de kwaliteit door hydrolyse (het zogenaamde Sticky Shed syndroom) zo afnemen, dat de magnetische laag, die de informatie bevat, wordt aangetast. In sommige gevallen komen de magnetische deeltjes los of vervallen letterlijk tot stof. De emulsie is gevoelig voor stof, UV5 straling, vochtigheid, temperatuurwisselingen en magnetische velden. Ook de grondlaag is kwetsbaar, vooral voor druk van buitenaf, slechte windingen en klimatologische invloeden. Videotape is nog iets gevoeliger dan audiotape, voornamelijk omdat (analoge) audio longitudinaal – lineair en ononderbroken – wordt geregistreerd en video meestal via een zogenaamde helical scan – diagonaal en schroefvormig. De voornaamste risicofactoren zijn: Vochtigheid en temperatuur magneetbanden zijn onderhevig aan chemische degradatie, zoals oxidatie en hydrolyse. Temperatuur verandert niet alleen de fysieke dimensies van de tapes, maar bepaalt ook de snelheid van de chemische processen. Mechanische vervorming Mechanische integriteit wordt vaak ondergewaardeerd, maar is essentieel voor het correct lezen van de informatie op magnetische tapes. Apparatuur moet dus steeds correct worden gebruikt en bewaard. Daarnaast moeten alle magnetische tapes zoveel mogelijk rechtopstaand bewaard worden, om een plat oppervlak te garanderen. Stof en vuil Kunnen het contact met de afspeelkoppen bemoeilijken. Stof kan zelfs crashes van harde schijven veroorzaken. Magnetische velden Wellicht het grootste gevaar voor magnetisch opgenomen materiaal. O.a. luidsprekers, magneten en dynamische microfoons vormen een bedreiging. Analoge klankopnames, inclusief audiokanalen op videotapes zijn van natuur het meest gevoelig voor magnetische velden. Het houden van een afstand van 10 tot 15 cm is meestal afdoende om de magnetische kracht tot een laag niveau te houden. Magnetische dragers temperatuur
±/24u
±/jaar
Relatieve vochtigheid
±/24u
±/jaar
°C
°C
°C
%
%
%
Preservatie opslag
Ca. 8
±1
±2
Ca. 25
±5
±5
toegangsopslag
Ca.20
±1
±2
40
±5
±5
Figuur 20: aangewezen temperatuur en vochtigheid voor magnetische dragers
90
c. OPTISCHE DRAGERS risicofactoren: Vochtigheid en temperatuur
89 90
http://webworld.unesco.org/safeguarding/en/all_meca.htm http://www.amianet.org/publication/resources/guidelines/videofacts/environment.html
47
Net als bij andere dragers een gevaarlijke factor. Hydrolyse kan immers de beschermingslaag, bij uitbreiding alle metaalcomponenten aantasten. Ook de dimensies kunnen worden gecorrodeerd, wat vooral van belang is bij veelgelaagde media. Mechanische vervorming Dit is vooral van belang voor de CD5familie, die gevoelig is voor krassen, vingerafdrukken en dergelijke die het aflezen door de laser kunnen belemmeren. Stof en vuil Idem Licht Kan de bovenste laag van recordable Cd’s aantasten. Magnetische velden Van belang voor magneto5optische schijven Optische dragers temperatuur
±/24u
±/jaar
RV
±/24u
±/jaar
Ca. 20°C
±1°C
±3°C
40%
±5°C
±5°C
Figuur 21: aangewezen temperatuur en vochtigheid voor optische dragers91
Add.: Film moet dan weer in volledig andere condities bewaard worden, afhankelijk van zwart5wit of kleurfilm en het gebruikte materiaal. Zie o.a. http://webworld.unesco.org/safeguarding/en/all_phot.htm
1.2.7. Ontsluiting Conservering is noodzakelijk om permanente toegang van collecties te garanderen, maar conservering mag geen doel op zich zijn. Zonder het objectief van ontsluiting is het preservatieproces quasi nutteloos. De laatste decennia zijn heel wat ontwikkelingen gebeurd op het vlak van metadatamodellen en databasesystemen voor het beheren van collecties, met de komst van het internet is echter een hernieuwde nadruk komen te liggen op publieke ontsluiting. De groei van breedband heeft ook voor audio en video het internet aannemelijk gemaakt als ontsluitingstool, naast het beschikbaar stellen via plaatselijke data servers, CD’s of DVD’s in een mediatheek, via publicaties, vertoningen en tentoonstellingen. Terwijl een ISDN lijn met een 56kbps een real5time streaming service van ongeveer 45kbps mogelijk maakt, kan een breedband connectie via ADSL of kabelmodem nu 250kbps aan, wat minstens MPEG1 streaming mogelijk maakt. Bovendien worden communicatie technologieën zoals ATM (Asynchronous Transfer Mode92), IP (Internet Protocol), glasvezel en satellietcommunicatie steeds meer gebruikt voor professionele doeleinden in de audiovisuele industrie, met name vooral voor digitale televisie en – in de toekomst – D5cinema. De mogelijkheden worden steeds groter: internet en digitale televisie zullen in de nabije toekomst een breed venster op audiovisuele productie openen, met steeds groter wordende kwaliteit. Wereldwijd worden steeds meer kleine, persoonlijke collecties, maar ook grote archieven openbaar gemaakt via het internet: vanaf 1994 werden klankcollecties ontsloten zoals die van de ARD Archivarbeitsgruppe van de, later volgden videocollecties zoals die van British Pathé93, het Moving Images Collections (MIC)94 project van het Amerikaanse Library of Congress en de Association of Moving Image Archivists (AMIA), het verwante Open Video project95 en
91
http://webworld.unesco.org/safeguarding/en/all_opti.htm Protocol voor datacommunicatie via netwerken. Een breedbandige, hogesnelheiddatacommunicatie5techniek, geschikt voor transmissie van analoge data en digitale data. Moderne variant van TCP. 93 http://www.britishpathe.com 94 http://mic.imtc.gatech.edu/ 95 http://www.open5video.org 92
48
het Internet Archive, dat zowel teksten, audio, video en internetsites archiveert en toegankelijk maakt, o.a. in samenwerking met the Library of Congress en het Smithsonian. De voornaamste doelstelling van het Internet Archive bestaat in het aanmoedigen van de "widespread use of moving images in new contexts by people who might not have used them before"96. Voor deze instellingen is digitale ontsluiting een onontbeerlijke constituent van de preservatie van cultureel erfgoed en moeten audiovisuele collecties net als literatuur opengesteld worden voor consultatie, onderzoek en verder gebruik: “open and free access to literature and other writings has long been considered essential to education and to the maintenance of an open society”97. Het MIC project wijst op de voordelen van samenwerking tussen instellingen om archiefmateriaal middels een bredere stroom tot de aandacht te kunnen brengen. Zoals steeds, gaan opportuniteiten samen met vraagstukken: hier rijst o.a. de vraag hoe een balans kan gemaakt worden tussen de rechten van de rechthebbenden en het belang van openbaarheid en hoe nieuwe distributietechnologieën en eventuele pay5on5demand systemen efficiënt kunnen worden uitgebouwd. (voor streaming en peer5to5peer, zie 3.3.4, voor ontsluiting van AV archieven, zie 4.9)
1.3 De problemen met audiovisuele archieven ”There isn't one standard for archiving magnetic media. There is no format in use today that does not have some disadvantage. There is only the realization that there is a lot of material at risk and the best way to deal with it at this point is to move it to the most robust medium (or media) available, until a stable, archival format is developed. Preservation today is basically a stopgap.”98 a. Fragiliteit Door de hoge datatransfersnelheid die nodig is bij opnames van video en audio was magnetische tape in eerste instantie het uitgelezen medium voor video en audioformaten. Magnetische tape was echter nooit bedoeld als archiveringsmedium. De archieven en bewaarbibliotheken, die uiteindelijk de oude tapes erven, kopen zelf weinig tapes, waardoor de producenten veel minder aandacht hebben besteed aan resistentie dan ook het gebruiksgemak bij het opnemen, afspelen en kopiëren. Magnetische tape is, net als film trouwens, kwetsbaar bij gebruik (vervuiling, zonlicht en vloeistof, overtapen…), opslag (thermale condities, magnetisatie, …) en afspelen (krassen, incorrecte mechanische en elektronische alignement). Jammergenoeg is het afspelen van archiveringsmasters in praktijk schering en inslag. In de meeste gevallen hebben archiefinstellingen immers ook een ontsluitingsmissie, zodat masters worden gebruikt voor het maken van toegangskopieën of – erger – zelf worden ontleend of uitgewisseld. b. Degradatie Zoals in 1.2.6.3 blijkt zijn alle dragers onderhevig aan chemische degradatie, zoals oxidatie en hydrolyse. Magnetische tape, waarop het gros van de hedendaagse videodocumenten bewaard worden, heeft volgens recente studies van het Amerikaanse Media Laboratory een verwachte levensduur van 10 tot 30 jaar, afhankelijk van de afspeelapparatuur, het formaat en de opslagcondities99.
96
http://www.archive.org/movies/movies.php http://www.archive.org 98 http://www.hi5beam.net/fw/fw23/0104.html 99 Van Bogart , J.W.C., Magnetic Tape Storage and Handling, 1995. (http://www.clir.org/pubs/reports/pub54 zie ook http://palimpsest.stanford.edu/byform/ mailing5lists/amia5l/2000/10/msg00201.html) 97
49
Vervorming van de koolstof grondlaag
Figuur 22: samenstelling van een magnetische tape en de degradatieproblemen
De omvang van het probleem van verouderende magnetische media wordt langzaam in zijn volle omvang duidelijk. Geen enkele tape is veilig. De complete mediaverzameling van 1960 tot 1980, variërend van videokunst tot opnames van het nieuws van de afgelopen 30 jaar is in gevaar, een evolutie waar door Jim Lindner naar wordt verwezen als "a tidal wave at our shores"100. c. Gelimiteerde levensduur van formaten en afspeelapparatuur: De productie van analoge tapemedia en opname apparatuur is virtueel volledig gestopt. Bij audio en video merken we, zowel bij analoog als digitaal, een continue innovatie – en dus ook veroudering 5 van formaten, gebaseerd op de steeds evoluerende marktvraag naar hogere beeldkwaliteit en gebruiksvriendelijkheid. Het signaal – dat via de bekabeling tussen verschillende apparaten gestuurd wordt en via de monitor ontsloten wordt 5 is gestandaardiseerd. Maar de manier waarop het signaal op een tape wordt ‘geschreven’ is eerder bedrijfsgebonden en varieert van systeem tot systeem. Deze formaten hebben, zoals gezegd, een levensduur van gemiddeld een tot drie decennia. Het U5matic 3/45duim systeem was bijvoorbeeld wijd verbreid onder professionele gebruikers in de jaren 1970 en 1980. Momenteel zijn de machines enkel nog te vinden op de tweedehandsmarkt en kan blanco tape enkel nog via gespecialiseerde kanalen worden aangekocht. Ook videokoppen voor 25duims VTR’s worden enkel op vraag aangemaakt en zijn schrikwekkend duur, net als 1/45 duims audio recorders. Andere formaten zoals Hi58, door vele culturele instellingen gebruikt voor documentatie, worden in sneltempo van de markt geveegd. Zelfs al blijken oudere tapes nog steeds in een goede conditie en kan hun levensduur worden geoptimaliseerd, dan nog is dit gegeven waardeloos als de nodige reproductie technologie niet meer voor handen is. Dit probleem geldt niet enkel voor de reserve5onderdelen, maar ook voor specifieke expertise over het onderhoud, herstel en gebruik van ouder materiaal. Men kan dus stellen dat de houdbaarheid van media5afhankelijke formaten ook afhangt van de levensduur en betrouwbaarheid van de opname5 en playback5apparatuur. Dit probleem wordt echter, zoals verder aan bod komt, niet opgelost met digitalisering: de paradox is dat we een artefact van 2.000 jaar oud kunnen bestuderen in zijn originele vorm, maar dat we een elektronisch bestand op een floppy schijf van amper 20 jaar geleden niet meer kunnen ontcijferen. Digitale technologie evolueert nog veel sneller dan analoge. De zogenaamde reel5tot5reel audiotapes waren meer dan 50 jaar in gebruik, de videotechnologie van de tweeduimsbanden werd gehanteerd gedurende 25 jaar, nu worden we ieder jaar geconfronteerd met nieuwe digitale systemen en software programma’s. Waardoor men op het punt is gekomen dat niet enkel de dragers en de playbackmachines moeten worden bewaard, maar dat ook ernstig moet rekening gehouden worden met de software. Uit surveys, uitgevoerd door de UNESCO in 1995 en 2003 blijkt dat de meest bedreigde audiovisuele dragers niet per se de oudste zijn 101 (acetaatschijven en –tapes en de tweeduimsbanden bleken in de grootste nood). Dit blijkt ook uit de Video Format Identification Guide, waarin de Amerikaanse conservator Paul Messier alle videotape formaten die geïntroduceerd zijn sinds 19555‘56 heeft opgesomd en gerateerd op basis van hun levensduur102. Hij telde meer dan 60 verschillende formaten, waarvan de meeste inmiddels van de markt zijn verdwenen. Hij gebruikte de volgende categorieën:
100
Lindner, J., ‘Magnetic Tape Deterioration: Tidal Wave at Our Shores’, Video Magazine, februari 1996. (http://palimpsest.stanford.edu/byauth/lindner/tidal.html) 101 Boston, G., Survey of Endangered Audiovisual Carriers, UNESCO, Parijs, 2003 (http://portal.unesco.org/ci/en/file_download.php/dfb2ad0ec5e386a5040cf35fc58f029bSurvey+Report.pdf). 102 http://www.paulmessier.com
50
Extinct: Playback machines zijn enkel nog te vinden bij gespecialiseerde laboratoria. Het tapeformaat is meer dan 20 jaar oud. Critically endangered: Er rest maar een kleine hoeveelheid afspeelapparatuur, met weinig technische ondersteuning en kennis. Tapes zijn tussen 40 en 10 jaar oud. Endangered: Er is nog behoorlijk veel apparatuur beschikbaar, maar de aanmaak ervan is gestopt. Technische ondersteuning wordt schraal. De tapes zijn vaak minder duur en onderhevig aan verval. Threatened: Apparatuur is beschikbaar, maar het tapeformaat is onstabiel of heeft minder integriteit dan andere formaten. Mogelijks wordt dit formaat op korte termijn vervangen. Vulnerable: Een veelgebruikt maar bedrijfsgebonden formaat. Lower risk: Wordt gebruikt in de komende vijf jaar Uit deze studie, die dateert uit 1998, blijkt dat heel veel videotapes hoognodig moeten gemigreerd worden, omdat ze hun geschatte levensduur voorbij zijn of de nodige apparatuur moeilijk te vinden is. In praktijk wordt haast geen enkele analoge apparatuur meer geproduceerd, met voorlopig nog de uitzondering van VHS VCR’s – die dan weer van weinig nut zijn in het kader van conservering. Interessant detail: Bij de recente formaten wordt Sony Digital Betacam, die door veel instellingen wordt gebruikt als archiveringsformaat voor video gerateerd als “vulnerable”. Deze vaststellingen worden bevestigd door een studie uit 2004 van het Phonogrammarchiv en de Oostenrijkse Wetenschappelijke Academie, die zowel voor audio als video de beschikbaarheid van apparatuur en de houdbaarheid van formaten onderzochten103. Volgens experts zoals Richard Hess behoort het tijdperk van de tapes dan ook binnen afzienbare tijd tot het verleden: “In fifteen years, I suspect most tape formats alive today will be niche formats like quad and 1" today.” (2004)104 d. Generatieverlies bij het kopiëren van signalen. Het kopiëren van tapes leidt ontegensprekelijk tot generatieverlies. Dit is vooral het geval bij analoge consumentenformaten zoals VHS, die meestal worden gekopieerd zonder corrigerende apparatuur zoals een time5base corrector. Dit geldt overigens ook voor digitale, gecompresseerde formaten. Zelfs hogekwaliteitsformaten, zoals het algemeen aanvaarde Digital Betacam, leiden volgens onderzoek van de RAI en One River Media 105 na zeven generaties al tot waarneembare vervormingen (“cascading compression”). Vooral ervaringen in het veld van digitale audio, waar de extractie van signaalkenmerken van analoge bronnen enkel mogelijk bleek na compressieloze digitalisering, hebben vragen doen rijzen over videocompressie. Een frame5 per5frame analyse door toekomstige videosoftware zou wel eens kunnen gehinderd worden door compressieartefacten. Vandaar dat iedere vorm van compressie afgeraden wordt (zie ook 1.2.6.2). e. Groot aantal verschillende formaten Sinds de opkomst van de magnetische dragers zijn meer dan 50 analoge videoformaten op de markt verschenen – zowel composiet als component: van de verschillende versies van U5Matic tot VHS, Betamax, Hi58, S5VHS en Betacam SP 5 en een 205tal digitale videoformaten, met verschillende compressie: van de D1, D2, ......... reeks, Digi5Beta, Beta SX en IMX tot de DV groep en de streaming formaten.Wat audio betreft zijn na de fonografische cilinders, de wire recordings, de reel5to5reel en magnetische tapes, vinyl, acetaatschijven, compact en microcassettes en de opkomst van de CD ook reeds meer dan 20 verschillende formaten opgedoken, van DAT tot Windows Media en Ogg Vorbis. Voor de mediabedrijven bestaat het benutten van nieuwe marktsegmenten en mogelijkheden vaak uit het introduceren van nieuwe technologie, formaten of subformaten (bvb. VHS5SP, 5EP of –SLP of de verschillende Dolby versies), die nog eens gepositioneerd worden naar specifieke segmenten, met uiteenlopende kwaliteit en compatibiliteit. Er zijn duizenden verschillende permutaties mogelijk. Sommige 103
http://www.erpanet.org/www/products/ vienna/slides/erpaTrainingVienna_Schueller.ppt http://palimpsest.stanford.edu/byform/ mailing5lists/amia5l/2004/08/msg00131.html 105 http://codecs.onerivermedia.com 104
51
formaten worden uit de markt geconcurreerd (BetaMax bvb.), andere raken, al dan niet gepland, na een bepaalde tijd in onbruik. De evolutie van op software gebaseerde formaten verloopt zo mogelijk nog sneller. Dit impliceert niet alleen dat er binnen het archiveringsveld heel wat verschillende afspeelmodaliteiten nodig zijn – zowel analoog als digitaal, apparatuur en software 5 maar dat ook in het huidige productie5 en distributieproces een aanzienlijk aantal verschillende formaten gebruikt worden, zowel de5facto standaarden als bedrijfsgebonden formaten (zie figuur). Als gevolg moeten constant conversies gebeuren, waardoor het gevaar op fouten groot wordt. Er wordt sinds enkele jaren vanuit de broadcasting industrie gezocht naar open en uitbreidbare “universele” formaten, containers (of ‘wrappers’) die niet enkel verschillende digitale dataformaten maar ook metadata kunnen omvatten, zodat efficiënt kan opgeslagen en uitgewisseld kan worden.
VIDEO formaten
PRODUKTIE (en archivering)
ongecompresseerd
D1 D5 DigiBeta
DISTRIBUTIE
gecompresseerd
MPEG2 4:2:2P
DV
BetaSX BetaIMX
DVCPro DVCam
broadcast
MPEG2 MP@ML
streaming
WM9
Real video
MPEG4
AUDIO formaten
ongecompresseerd
AES (EBU) BetaSX BetaIMX
WAV
CD Audio
gecompresseerd
AIFF
Dolby AC3
MPEG1 (layer2)
MP3
CDr, DVDr AIT, SAIT, LTO, ….
Figuur 23: vandaag gebruikte formaten in het productieproces
f. De snelle groei van collecties. Dit alles wordt problematischer in het licht van de grote schaal van mediacollecties. Analoge informatie kan enkel in real time overgezet worden, waardoor het maken van kopieën voor ontsluiting of archivering, wat meestal niet probleemloos verloopt, enorm tijdsrovend is. De kosten van apparatuur, personeel en het aanmaken van gebruikskopieën zijn aanzienlijk groter dan bij niet5AV media. Hoe langer gewacht wordt met migratie naar digitale formaten, hoe meer materiaal verloren kan gaan en hoe strenger de selectie zal worden. Uiteindelijk blijkt tijd de grootste vijand van audiovisuele collecties.
1.4. Nieuwe Ontwikkelingen en opportuniteiten
52
Het contrast tussen media en apparatuur met een gelimiteerde levensduur en de monolithische groei van collecties enerzijds, en de steeds aan belang winnende mogelijkheden én complexiteiten van digitale archivering anderzijds representeren vandaag de dag de grootste uitdaging voor audiovisuele en digitale archieven. De urgentie en de complexiteit van de problematiek zorgen ervoor dat de audiovisuele archiefgemeenschappen – film is evenwel een apart geval 5 er groot belang bij hebben om de uitdagingen van digitale archivering zo snel mogelijk uit te klaren. Sinds kort hebben enkele technologische ontwikkelingen voor nieuwe openingen gecreëerd voor conservering, archivering en ontsluiting van audiovisuele media.
1.4.1. Data opslag (zie ook 1.2.6.2) Vooral de digitale archivering van video stelde de soft5 en hardware5ingenieurs voor grote uitdagingen, gezien de nodige datarate en de complexe samenstelling van de signalen. Om te voldoen aan de grote eisen, werden compressie algoritmes ontwikkeld en geïntroduceerd op de professionele en consumentenmarkt, met groot succes. Voor de meeste applicaties zijn de gebreken die door compressie gegenereerd worden te verwaarlozen: dat bewijst het massale succes van het MPEG2 formaat ten volle. Voor archiveringsdoeleinden wordt compressie echter afgeraden (zie eerder). De evolutie van opslagtechnologieën, onder impuls van de ITC industrie die een steeds grotere en snellere opslagcapaciteit en snelheid aanstuwt, heeft ervoor gezorgd dat, terwijl ook de kosten drastisch zakken, compressie steeds minder een noodzaak wordt. Er werd grote vooruitgang geboekt op het vlak van opnameprocessen, magnetisch materiaal en microtechnologie, met zichtbare gevolgen 5 voornamelijk een spectaculaire uitbreiding van de capaciteit van zowel tapes als harde schijven. In 1997 was de densiteit van magnetische opslagmedia nog gelimiteerd tot ongeveer 36 GB; vandaag overschrijdt een harde schijf op om het even welke PC dat cijfer. Ook nieuwe tapeformaten zorgen voor nieuwe perspectieven: een SAIT1 tape heeft reeds een capaciteit van 500 GB, capaciteiten van meer dan 5 TB (meer dan 10 TB met lossless compressie) worden verwacht. De prijserosie van deze opslagmedia versnelt. Anderzijds nemen de volumes explosief toe en swingen de kosten voor opslagbeheer de pan uit, vooral omdat het een activiteit is die veel mankracht vereist. Maar ook de netwerk5 en serversystemen evolueren aan een snelle tred: de SAN (Storage Area Network) verdringt de DAS (Direct Attached Storage) van de markt en Fibre Channel krijgt concurrentie van het goedkopere iSCI protocol. Bedrijven zoals Apple (Xsan) en Sony (Petasite) bieden nu reeds betaalbare kant en klare opslagnetwerken aan met een capaciteit van ettelijke terabytes. Bovendien is ook hardware op de markt gekomen die over de capaciteiten beschikt om analoge video ongecompresseerd te digitaliseren. Deze hardware, – vnl. een capturekaart en een “breakout box” 5 kan geïmplementeerd worden in een PC die de nodige datarates aankan en is, alhoewel hoge investeringen nodig zijn, goedkoper dan de uitbouw van op D1 of Digital Betacam gebaseerde systemen. De nieuwe 645bit processoren, die vanaf dit jaar standaard zullen worden in computers en servers, beloven een nieuwe impuls voor het beheer van videoarchieven. Dit, samen met de ontwikkeling van nieuwe, ‘open’ formaten in de audiovisuele industrie, zorgt voor een duidelijke tendens naar digitale lossles of ongecompresseerde opslag in de vorm van bestanden, waarbij in tegenstelling tot videotapeformaten zoals Digital Betacam en DVcam een differentie optreedt tussen opslag en codering. Tegelijk zijn ook nieuwe mogelijkheden ontwikkeld voor geautomatiseerde reformattering en opslag (zoals het SAMMA systeem van Media Matters106) en systemen met een hoge capaciteit en performance, zoals de eerder besproken RAID en MAID technologieën. Ondertussen wordt een breed gamma aan nieuwe mogelijkheden bestudeerd, vaak met briljante vooruitzichten, zoals de holografische opslag (volgens berichten zullen holografische schijven van 300 GB reeds in 2005 op de markt komen), de ‘Millipede’ technologie van IBM 107 en de MEMS microelectromechanische systemen, al blijft de vraag of die ook de commerciële realiteit zullen bereiken. Data5opslag bevindt zich momenteel temidden van een technologische revolutie, waarbij niet enkel een spectaculaire groei van capaciteit en transfersnelheid, een daling van de kosten en een betere veiligheid zorgen voor voorheen ongekende mogelijkheden, maar de archiefwereld tegelijk ook voor complexe uitdagingen stelt. Want, zoals we verder zullen zien, het probleem van technologische gedateerdheid zal groter worden dan ooit tevoren.
106 107
http://www.media5matters.net/ nano5ponskaart voor dataopslag
53
Figuur 24: prijzentrends voor digitale data opslag108
1.4.2 Communicatietechnologie (Zie ook 1.2.5.2) Hoge snelheid breedbandopties – via ADSL en kabel 5 zijn in ijltempo verspreid geraakt in Europa, waardoor heel wat mogelijkheden zijn aangereikt voor archivering en ontsluiting van audiovisuele informatie. Netwerken met bit5rates tussen 2Mbps and 155Mbps en zelfs tot 2.5Gbs, worden beschikbaar en steeds meer geïntroduceerd in professionele middens, net als satelliettransmissie. Binnenkort kunnen via de telefoonlijnen beelden uitgezonden worden met een kwaliteit in de buurt van SDTV (Standard Definition Television). Tegelijk wordt in de omroepwereld halsreikend uitgekeken naar de implementatie van HDTV (High Definition Television, met 5 keer hogere resolutie dan bij SDTV) en iDTV (interactieve digitale televisie), die zowel via de kabel als de telefoonlijnen kan verdeeld worden. De ontwikkeling van glasvezeltechnologie heeft geleid tot netwerksystemen zoals SAN (Storage Area Networking) en NAS (Network Attached Storage): high5speed publieke of private netwerken die de transfer van data tussen serversystemen en opslagelementen regelen (zie eerder). Op die manier kan informatie gekloond en gedistribueerd worden naar andere geografische locaties en hardware, met een minimum aan menselijke tussenkomst (‘mirroring’).Een studie uitgevoerd door het Japanse Optoelectronic Industry and Development Association109 voorspelt dat in het jaar 2010 een gemiddeld LAN (Local Area Network) een opslagcapaciteit heeft van 1 tot 100 terabytes en een WAN (Wide Area Network)10 tera5 tot 1 petabytes. Met een dergelijke snelheid kunnen al heel zware gegevens over het net vervoerd worden. Bovendien krijgen ook draadloze applicaties steeds grotere en nieuwe bandbreedtes. Die groei heeft ook een enorme invloed op de distributie van audiovisuele media, via streaming of peer5to5peer (zie 3.2 en verder). Er is een duidelijk tendens naar het online publiceren van catalogi, zoals o.a. British Pathé en het British Film Institute (BFI) gedaan hebben. Ook filmdistributie via breedband wordt stilaan ingeburgerd: via het Amerikaanse Movielink kun je reeds films
108
http://www.screensound.gov.au http://www.nta.org/docs/DataStorageTechAssessment.doc 109 http://www.oida.org/
54
huren, downloaden en bekijken en Films for the Humanities & Sciences, een verdeler van educationele media, biedt nu ook digitale licenties aan voor een deel van zijn producten. Hieruit vloeien vragen rond metadata en Digital Rights Management voort, kwesties waarvoor tot op heden geen normalisatie of standaardisatie in zicht is. Deze snelle evoluties hebben ook de gebruikersverwachtingen aangepast. “The world has changed” vertelde Nicola Manzetti op het afsluitende symposium van het FIRST (Film Restoration and Conservation Strategies) project. Hij gaf het voorbeeld van de leeszaal van het Amerikaanse Library of Congress, waar een vijftal jaar geleden continu mensen moesten geweigerd worden wegens een te grote vraag maar sinds enige tijd halfleeg blijft. Ook professor John Mackenzie Owen wijst op het veranderende informatiegedrag110 en refereert naar onderzoek dat in de V.S. is ondernomen naar de ‘netwerkgeneratie’111, waarbij naar voren werd geschoven dat de komende generaties het digitale domein als preferente informatiebron zullen gebruiken. Zoals een rapport van Digicult uit 2002 stelde: “In the emerging knowledge society, there will be an increasing demand for high quality, enriched digital content112”.
1.4.3. Open standaarden, open source en open content “Does Microsoft need a 70+year copyright protection system?” John Maddog Hall van Linux International113 ”Never in our history have fewer had a legal right to control more of the development of our culture than now” Prof. Lawrence Lessig, de wegbereider van de Creative Commons114 a. Open standaarden Recent zijn heel wat initiatieven opgestart om het bewustzijn over het gebruik van open systemen bij digitale archivering en ontsluiting te vergroten. Bij alle aspecten van preservatie – catalogisering, opslag, data communicatie, toegang en distributie – wordt aangeraden open standaarden te gebruiken, zodat het mogelijk is om op termijn collecties tenminste te migreren van oude representaties naar nieuwe, met zo weinig mogelijk informatieverlies. Hierbij is ook interoperabiliteit tussen producten van verschillende bedrijven essentieel: de lange termijn bewaring van een collectie kan zich immers niet beroepen op oneindige levensverwachtingen van IT leveringsbedrijven. Het programma Open Standaarden en Open Source Software (OSOSS) van de Nederlandse overheid stipt het belang aan van open standaarden en Open Source in het licht van de keuzevrijheid, interoperabiliteit en efficiency van haar informatiesystemen. Voor 'open standaard' worden de volgende criteria gegeven: • • • •
•
De standaarden worden op basis van een open beslissingsprocedure (consensus of meerderheidsbeslissing, etc.) vastgesteld; Het beheer van de standaard ligt bij een non5profit organisatie die een volledig vrij toetredingsbeleid kent; De standaarden zijn gepubliceerd; De kosten voor het gebruik van de standaard zijn laag en vormen geen drempel voor toegang tot de standaard. Eventueel aanwezig intellectueel eigendom dat aan een open standaard ten grondslag ligt, wordt royalty5free ter beschikking gesteld; Er zijn geen beperkende voorwaarden omtrent het hergebruik van een standaard.
110
Owen, J.M., Het document aan het einde van de 20ste eeuw: kanttekeningen bij het documentaire paradigma, 1999. (http://cf.hum.uva.nl/bai/home/jmackenzie/pubs/jmo5dvd.htm) 111 Zie o.a. Tapscott, D., Growing Up Digital, New York, 1998. (http://www.growingupdigital.com) 112 The DigiCULT Report 5 Technological landscapes for tomorrow’s cultural economy 5 Unlocking the value of cultural heritage, Executive summary, Luxembourg: Office for Official Publications of the European Communities, 2002, p.8. (http://www.medicif.org/events/MEDICI_events/Www10/DigiCult%20findings.htm) 113 zie ook http://opensource.mit.edu/papers/joode.pdf 114 Lessig, L., Free Culture: How Big Media Uses Technology and the Law to Lock Down Control Creativity, Penguin Press, 2004. (http://www.free5culture.cc/freecontent)
55
Niet alle zogenaamde standaarden voldoen aan bovenstaande criteria. ‘Open specificaties’ zijn gratis en online beschikbaar maar niet vrij van juridische beperkingen en niet goedgekeurd door een standaardenorganisatie. ‘Vrije specificaties’ hebben die juridische beperkingen op verspreiding en gebruik niet, maar hebben nog steeds het fiat niet gekregen van onafhankelijke standaardenorganisatie. Voorbeelden van open standaarden die aan alle criteria voldoen zijn XML, JPG of WAV.
Figuur 25: actuele voorbeelden van open specificaties, vrije specificaties en open standaarden115
Volgend op de tendens heeft ook de Belgische federale overheid recent (september 2004) een aanzet gegeven om meer gebruik te maken van open standaarden. De betreffende whitepaper116 komt er na een beslissing van de ministerraad in juni 2004 dat de Federale overheidsdiensten in de toekomst enkel nog open standaarden mogen gebruiken voor gegevensuitwisselingen. Op Vlaams niveau bracht de Vlaamse Raad voor Wetenschapsbeleid begin dit jaar al advies uit over het gebruik van open standaarden. De raad meent dat de overheid een zo groot mogelijk publiek moet trachten te bereiken en meent daarom dat open standaarden en vrije formaten moeten aangeboden worden. Een wetgevend initiatief vanuit de Vlaamse overheid blijkt echter niet aan de orde te komen: "Europa is het aangewezen beslissingsniveau inzake het normeren van standaarden117." In de beleidsbrief 20035 2004 van het Vlaamse e5government wordt gemeld dat open standaarden zoveel mogelijk gebruikt moeten worden bij de uitbouw van de infrastructuur. Wanneer er echter sprake is van de uitwisseling van gegevens tussen verschillende IT5diensten wordt er met geen woord gerept over open standaarden (zie ook verder). b.Open Source Voor Open source software (OSS) worden door het OSOSS programma twee belangrijke kenmerken opgegeven: • De broncode van de software is vrij beschikbaar. • In het licentiemodel is het intellectueel eigendom en het (her)gebruik van de software en bijbehorende broncode dusdanig geregeld dat de licentienemer de broncode mag inzien, gebruiken, verbeteren, aanvullen en distribueren. De metafoor die vaak wordt gebruikt om het onderscheid tussen eigendomsrechterlijke software en Open Source te duiden is die van The Cathedral and the bazaar, naar een essay van Eric S. Raymond118. De ‘kathedraal’ staat voor een groot commercieel softwarebedrijf (Microsoft bvb.). Het grote probleem is de grote kloof tussen de oppermachtige ontwikkelaar en de gebruiker, die geen enkele inspraak heeft in de ontwikkeling of compatibiliteit van de softwaretool. Dit in tegenstelling tot Open Source – de ‘bazaar’ – waarbij de software vrij en ad infinitum kan worden aangepast en uitgebreid. De gebruiker wordt ontwikkelaar, het ontwikkelingsproces wordt collectief 115
Jochmans, J., Stirckx, P., Richtlijnen en aanbevelingen voor het gebruik van open standaarden en/of open specificaties bij de federale overheidsbesturen (white paper), Fedict e5gov 2004. (http://ksz5 bcss.fgov.be/documentation/nl/documentation/Pers/OpenstandaardenNL_FEDICT.pdf) 116 Ibid. 117 Vlaamse Raad voor Wetenschapsbeleid, Advies 86: Open Source Software, 22.01.2004 (http://www.vrwb.be/MFiles/advies86.pdf) 118 http://www.catb.org/~esr/writings/cathedral5bazaar/
56
en op die manier betrouwbaarder. ‘Open Source Software’ wordt vaak ook ‘Free Software’ genoemd, maar het woord “free” schept vaak verwarring, omdat velen er enkel de betekenis van “gratis'' in herkennen. “Free” heeft echter in eerste instantie de betekenis van vrij in de zin van eigendom (d.w.z., de software is eigendom van niemand), en pas in tweede instantie van kostprijs (d.w.z., de software is gratis). Het kostprijsaspect is een gevolg van het vrij5zijn, en niet omgekeerd. Richard M. Stallmann, oprichter van de Free Software Foundation, verwoordt het zo: "Free as in free speech, not as in free beer.'' De meest bekende licentie is wellicht de General Public Licence (GPL), gepubliceerd door de Free Software Foundation119, maar er zijn er veel meer in omloop. Om duidelijk te maken wanneer software ‘Open Source’ genoemd mag worden, zijn door de Open Source Initiative120 de belangrijkste voorwaarden opgesomd waaraan een licentie moet voldoen121. Vrije herdistributie: de licentie mag geen enkele partij beperken in het verkopen of weggeven van de software als een component van een softwaredistributie die is samengesteld uit programma's uit meerdere verschillende bronnen. De licentie mag geen aandeel in de opbrengst of andere honorarium eisen voor zo'n verkoop. 2. Broncode: het programma moet de broncode bevatten en moet de distributie van zowel broncode als een gecompileerde vorm toestaan. Als een vorm van het product wordt verspreid zonder broncode, moet er een duidelijke manier worden aangegeven waarop de broncode tegen redelijke kosten kan worden verkregen – bij voorkeur gratis van het Internet te halen. De broncode moet de vorm hebben waarin de programmeur het bij voorkeur zou aanpassen. Opzettelijk vertroebelde broncode is niet toegestaan. Tussenvormen zoals uitvoer van een preprocessor of vertaler zijn niet toegestaan. 3. Afgeleide werken: de licentie moet aanpassingen en derivaten toestaan, en moet toestaan dat deze worden verspreid onder dezelfde voorwaarden als de licentie van de originele software. 4. Integriteit van de broncode van de auteur: de licentie mag de verspreiding van de aangepaste broncode alleen beperken als de licentie de verspreiding van "patch files" toestaat met als doel het programma aan te passen als het gebouwd wordt. De licentie moet verspreiding van software die met aangepaste broncode is gebouwd expliciet toestaan. De licentie kan eisen dat afgeleide werken een andere naam of een ander versienummer dragen dan de originele software. 5. Geen discriminatie van personen of groepen: de licentie mag geen enkel persoon of groep van personen discrimineren. 6. Geen discriminatie van toepassingsgebieden: de licentie mag niemand verbieden het programma te gebruiken voor een bepaald toepassingsgebied. Het mag het gebruik van het programma door bedrijven of voor genetisch onderzoek bijvoorbeeld niet verbieden. 7. Verspreiding van licentie: de rechten die aan het programma zijn verbonden moeten van toepassing zijn voor iedereen naar wie het programma wordt geherdistribueerd, zonder de verplichting voor die partijen om een additionele licentie uit te voeren. 8. Licentie mag niet specifiek zijn voor een product: de rechten die aan het programma zijn verbonden mogen niet afhankelijk zijn van een speciale softwaredistributie waar het programma deel van uitmaakt. Als het programma uit die distributie wordt gehaald en wordt gebruikt of verspreid binnen de voorwaarden van de licentie van het programma, moeten alle partijen naar wie het programma is geherdistribueerd dezelfde rechten hebben als zijn toegekend in combinatie met de originele softwaredistributie. 9. De Licentie mag andere software niet beperken: de licentie mag geen beperkingen plaatsen op andere software die samen met de gelicenseerde software is verspreid. De licentie mag bijvoorbeeld niet eisen dat alle software die op hetzelfde medium wordt verspreid Open Source moet zijn. 10. De licentie moet technologieneutraal zijn: geen provisie van de licentie mag geprediceerd worden aan een individuele technologie, stijl of interface. 1.
119
http://www.fsf.org http://www.opensource.org 121 Eigen vertaling van versie 1.9. Zie http://www.opensource.org/docs/definition.php 120
57
Het Open Source besturingssysteem Linux is het meest bekende voorbeeld. Linux wordt steeds vaker gebruikt nu grafische gebruikersinterfaces zoals KDE en Gnome zijn ontwikkeld, waarmee Linux er desgewenst steeds meer uitziet als Windows. Ook het installatie5 en gebruiksgemak is de laatste jaren en maanden sterk verbeterd. Het succes en de continuïteit van Linux is voor een groot deel te danken aan het aangepaste inkomstenmodel: de producenten van Linux5softwarepakketten halen hun inkomsten niet uit licenties, maar uit complementaire diensten, zoals het leveren van handleidingen en ondersteuning. Momenteel wordt nog gewerkt aan de ondersteuning van hardware: alhoewel voor nieuwe hardware tegenwoordig vaak ook Linux5‘drivers’ worden geleverd, is dat voor oudere hardware nog minder goed geregeld122. Enkele andere gekende Open Source projecten zijn: Apache (dat meer dan 60% van de web5servers wereldwijd aanstuurt), PHP (een scripttaal die voor dynamische web5pagina's zorgt), MySQL en PostgreSQL (de databanken die vaak in combinatie met PHP en Apache achter een webstek zitten), LaTeX (een tekstverwerker van zeer hoge kwaliteit en met talloze modulaire uitbreidingsmogelijkheden, zoals onder andere voor computerpresentaties), Gimp (een veelzijdig bitmap5 en foto bewerkingsprogramma), Mozilla/Firefox (een succesvolle webbrowser) enz.. Die Open Source programma’s zijn vrijwel altijd gebaseerd op breed ondersteunde industriestandaarden en protocollen, on line beschikbaar en vaak geschikt voor de gebruikelijke besturingssystemen zoals Windows 9x, 5NT, 52000, Mac OS en verschillende Unix5versies waaronder Linux. Het toepassingsgebied van Open Source heeft zich de afgelopen jaren sterk ontwikkeld: overheden in Europa (Denemarken, Frankrijk, Zweden, VK), de VS (o.a. Texas en Delaware), Azië (China) en Zuid5Amerika (o.a. Argentinië, Columbia, Peru en Brazilië) hebben reeds initiatieven ondernomen die het gebruik aanmoedigt. In Duitsland bvb. kwam de overheid in 2002 tot een afspraak met IBM dat de publieke sector korting kon krijgen op IBM5computers waarop een Linux5besturingssysteem is geïnstalleerd (zie ook het Open Source Jahrbuch 2004)123. Amper een jaar later maken ruim vijfhonderd lokale overheden en overheidsinstellingen van deze mogelijkheid gebruik. In Frankrijk is de software voor de meeste culturele en overheidsinstellingen in Open Source geschreven. Een studie uit 2002 voor de Europese commissie kwam tot de conclusie dat de publieke organisaties in Europa tot aanzienlijk grotere rendabiliteit zouden kunnen komen met het gebruik en ontwikkelen van Open Source software124. Op initiatief van het IDA5programma (Interchange of Data between Administrators) van de Europese Commissie werden in 2003 de Open Source Migration Guidelines uitgebracht, met aanbevelingen aan lidstaatregeringen voor het migreren van een commerciële naar een open omgeving125. Een studie van ITEA (Information Technology for European Advancement) 5 een Europees strategisch kaderprogramma ter stimulering en ondersteuning van projecten die de Europese industrie een leidende positie moeten verzekeren op het gebied van sofware intensieve systemen126 5 kwam tot de conclusie dat meer en meer bedrijven, ook binnen nationale en Europese kaderprogramma’s OSS als een alternatieve oplossing zien voor software ontwikkeling. Dit blijkt onder andere uit de Open Source ontwikkeling van door industrieel ondersteunde formaten als MXF127 (zie verder) en Dirac128. Het idee is om basis van het ITEA rapport de OSS discussie open te trekken en onderzoek naar OSS5 aspecten die belangrijk zijn voor software intensieve systemen en standaardisatie te stimuleren. De voordelen van open source zijn legio: • Ontwikkeling van internationale standaarden voor data communicatie, opslagformaten en management protocols zonder beperkingen voor (her)gebruik. • Grotere betrouwbaarheid en mogelijkheid tot onderhoud van systemen over lange periodes en aanpassen aan individuele noden, wat onmogelijk is met bedrijfsgebonden software • Open Source kan een basis zijn om binnen de non5profit sectoren expertise uit te bouwen en uit te wisselen • Kosten aankoop, werking en onderhoud zijn laag en vormen geen drempel voor toegang 122
Vlaamse Raad voor Wetenschapsbeleid, Advies 86: Open Source Software, 22.01.2004. (http://www.vrwb.be/MFiles/advies86.pdf) 123 Gehring, R.A., Lutterbeck, B., Open Source Jahrbuch 2004, Zwischen Softwareentwicklung und Gesellschaftsmodell, Lehmanns Media, Berlijn, 2004. (http://www.think5ahead.org) 124 http://europa.eu.int/ISPO/ida/jsps/index.jsp?fuseAction=showDocument&parent=highlights&documentID=550 125 http://www.netproject.com/docs/migoss/v1.0/ 126 http://www.itea5office.org 127 http://sourceforge.net/projects/mxf 128 http://www.scvi.net/dirac.htm, ondersteund door de BBC
58
• Intellectuele eigendom is royalty5free • Keuzevrijheid, interoperabiliteit en efficiency Het is belangrijk om op te merken dat OSS creaties niet volledig naar willekeur te gebruiken zijn. Ze worden immers nog steeds uitgebracht onder een licentie, met dezelfde juridische bescherming door het auteursrecht als commerciële producten. Alleen gaat de inhoud van de OSS licenties uit van een fundamenteel verschillende motivatie, namelijk het promoten van een zo groot mogelijke vrije verspreiding, met enerzijds de juridische garantie dat geen enkel bedrijf of persoon het geproduceerde materiaal kan inpikken of de verspreiding ervan kan belemmeren, en anderzijds de zekerheid dat de creatieve initiatiefnemers steeds de waardering en krediet krijgen waarop ze recht hebben. c. Open Content en Creative Commons Open Content, naar analogie met Open Source, verwijst naar alle soorten creatief werk (zoals tekst, geluid, beeld, internetsites) die worden gepubliceerd onder een niet5restrictieve auteursrechterlijke licentie, in een formaat die het kopiëren van de informatie expliciet toestaat. Het ‘Open Content’ paradigma wordt, vooral aangedreven door de manifestatie van netwerkcultuur, naar voren geschoven als een belangrijk alternatief voor de bestaande modellen van auteursrecht en copyright. Voorbeelden van licenties zijn de Licences Art Libre129 en de GNU Free Documentation Licenses130. Sinds enkele jaren krijgen vooral de Creative Commons licenties (CC)131, ontwikkeld door Professor Lawrence Lessig van de Standford University, internationaal voet aan grond. De CC laten zien welke mogelijkheden er bestaan in de spatie tussen het auteursrecht en het publieke domein. Een van de aanzetten is de stijgende waarde van archiefmateriaal in de context van een on5demand cultuur, geïndividualiseerde toegang en de erkenning van sampling als bouwsteen van de hedendaagse cultuurproductie. Geconfronteerd met bedrijven zoals Bill Gates’ Corbis Corporation, Sony132 en Getty Images133, die de commerciële waarde van archieven onderkennen, grote delen van ons cultureel erfgoed privatiseren en pleiten voor een verstrakking van de juridische eigendomsrechten, ijveren de initiatiefnemers van CC voor de vrijwaring van culturele content. In essentie maken de CC het mogelijk om creatieve werken via het internet vrijer beschikbaar te maken dan onder het traditioneel auteursrecht of copyright, zonder evenwel rechtstreeks te tornen aan de intellectuele rechten. Het project heeft verschillende vrije licenties ontwikkeld die copyrighthouders kunnen gebruiken om bij het verspreiden van informatie problemen te voorkomen die door de huidige auteursrechtwetgeving kunnen optreden. Via een eenvoudige webapplicatie kunnen makers in enkele stappen een van de CC5licenties aan hun werk toevoegen. Het systeem is ontwikkeld voor “mensen die materiaal willen delen, mensen die begrijpen dat innovatie en nieuwe ideeën voortbouwen op bestaand gedachtegoed”134. De vier belangrijkste punten van de CC licenties: 1. Attribution: kopiëren, distributie, vertoning en uitvoering van het werk en afgeleide werken op voorwaarde van het geven van credit 2. Noncommercial: kopiëren, distributie, vertoning en uitvoering van het werk en afgeleide werken alleen voor non5commerciële doelen (over de definitie van “non5commercieel” wordt echter een uitvoerig debat gevoerd. Zijn publieke zenders bvb. te labelen als ‘commercieel’?) 3. No Derivative Works: kopiëren, distributie, vertoning en uitvoering van het werk is toegestaan, maar niet het veranderen van het werk 4. Share Alike: distributie van afgeleide werken is alleen toegestaan onder een zelfde licentie
129
http://artlibre.org http://www.gnu.org/licenses/licenses.html. Voor een overzicht van Open Content Licenties, zie Liang, L., Guide To Open Content Licenses, Piet Zwart Instituut, 2004. (http://pzwart.wdka.hro.nl/mdr/research/lliang/open_content_guide) 131 http://creativecommons.org/ 132 Sony kocht in september 2004 de filmarchieven van MGM 133 Corbis bezit de reproductierechten op zo’n 80 miljoen beelden, waarvan een deel ten gelde wordt gemaakt via www.corbis.com, en is eigenaar van een aanzienlijk aantal fotoarchieven. Getty Images is eigenaar van meer dan 70 miljoen beelden en 30.000 uur film. 134 http://www.creativecommons.nl 130
59
Ruim 3 miljoen werken zijn sinds de oprichting van de Creative Commons in 2002 op deze manier gelicenseerd135. Het aansluitende iCommons project wil de licenties in zo veel mogelijk nationale rechtssystemen beschikbaar te stellen. Nederland werd op 18 juni 2004 na Japan, Brazilië, Finland en Duitsland het vijfde land buiten de VS waar vertaalde licenties beschikbaar werden. In een twintigtal andere landen wordt op dit moment aan de vertalingen gewerkt136. België was aan de beurt op 10 december 2004. Eind mei 2004 werd een grote boost gegeven aan de CC beweging, toen de BBC hun Creative Archive project bekend maakte. Kort gezegd geeft de BBC volgens de CC licenties omroepmateriaal vrij aan internetgebruikers om vrij te downloaden, distribueren en modifiëren. Momenteel wordt gefocust op documentaire materiaal, maar op termijn kunnen volgens de BBC ook documenten uit de domeinen van sport, muziek of drama vrijgegeven worden. Het initiatief heeft bredere ambities om een nieuw paradigma van publieke toegang in de informatiemaatschappij te pionieren en is momenteel op zoek naar collaboraties met andere Britse omroepen en publieke instellingen om een audiovisueel publiek domein te ontwikkelen. Lawrence Lessig is in ieder geval overtuigd van de overredingskracht van het project: "The announcement by the BBC of its intent to develop a Creative Archive has been the single most important event in getting people to understand the potential for digital creativity, and to see how such potential actually supports artists and artistic creativity (…) If the vision proves a reality, Britain will become a centre for digital creativity, and will drive the many markets in broadband deployment and technology that digital creativity will support"137. Met dit initiatief wordt een belangrijk signaal gegeven, dat mogelijks – hopelijk 5 wereldwijd zal opgevolgd worden en zal leiden tot het open en creatief gebruik van archiefmateriaal in een online omgeving. Rupert Gavin, Chief Executive van BBC Worldwide: "It's crucial that we maximize the value of the BBC archive and by using digital technology we will open up our business to its full potential. The overall global market in archive footage is estimated to be worth around £150m per annum and our new service will give us a bigger foothold in this very important market". Simon Gibbs, Managing Director van deze ‘BBC Motion Gallery’ vult aan: "The demand for motion imagery is forecast to grow substantially over the next decade as the expansion of broadband and third generation telephony opens up an increasing number of media outlets. As one of the world's leading media companies, with its access to a vast archive and a substantial global reach, this is a natural market for BBC Worldwide to exploit"138. Rupert Goodwin van ZDNet, tenslotte, geeft een flagrant commentaar: "With the adoption of a Creative Commons+style licence, the Corporation will extend its public service remit far beyond the distribution channels under its direct control, while still protecting its content and without poisoning the commercial environment that drives so much innovation and creativity elsewhere. If you believe that more freedom equals more opportunity, as I do, then everyone wins. 139" d. Het openbare web Het World Wide web werd in eerste instantie bedacht als een systeem waarbij niet alleen door pagina’s gebrowsd kon worden, maar dat die ook aangepast konden worden. Inmiddels hebben de zogenaamde wiki5websites, waarop bezoekers zelf op een eenvoudige manier, zonder toestemming of toegangscode, informatie kunnen
135
http://www.debalie.nl/artikel.jsp?articleid=19329 http://creativecommons.org/projects/international/ 137 http://uk.news.yahoo.com/040527/152/eunor.html 138 http://videosystems.com/pressreleases/BBC_Motion_Gallery_Opens/ 139 http://comment.zdnet.co.uk/rupertgoodwins/0,39020691,39155936,00.htm 136
60
toevoegen of aanpassen, dat idee verwezenlijkt. De wiki’s, als een soort opvolger en alternatief voor de webblogs en internetfora, worden wel eens aangewezen als de kern van het ‘openbare web’concept. “Het Internet heeft een openbaar aspect. Het is een samenstelling van rechtstreekse boodschappen, weblogs, wiki+artikels, e+mail, allerlei zaken. Het bestaat niet uit websites van bedrijven, statische webpagina's of eenrichtingsverkeer. Op het openbare web vind je instellingen, maar het zijn openbare instellingen. Het kan door iedereen aangepast worden. Het verenigt gedachten, brengt mensen bij elkaar en structureert zichzelf. Wiki is de documentenafdeling van het openbare web.140 » Het huidige toonbeeld van dit concept is de Wikipedia141, een gratis en open Internet encyclopedie die volledig ontwikkeld, ingevuld en onderhouden wordt door een wereldwijd netwerk van vrijwilligers. Zowel de software als de content kunnen vrij gebruikt, aangepast en aangevuld worden. Het uitgangspunt is “free knowledge for everyone on the planet”. Op de grootste, Engelstalige versie zijn inmiddels meer dan 100 miljoen termen te vinden, wat meer is dan op Brittanica en Microsoft Encarta samen. Volgens Alexa.com is Wikipedia populairder dan de site van Reuters. Bovendien is er om de drie maanden een verdubbeling van verkeer. De Nederlandstalige Wikipedia heeft intussen meer dan 35.000 artikels, per dag worden 80 artikels opgestuurd142. Om de Wikipedia zelf aan het woord te laten: “Wikipedia is een gemeenschapsproject met als doel in elke taal een vrije encyclopedie vanuit een neutraal standpunt te creëren op het web. Wikipedia is gratis en zonder aanmelding te gebruiken om informatie te zoeken, toe te voegen of te bewerken. Hierdoor kan Wikipedia geen enkele vorm van garantie geven over de juistheid van de aanwezige informatie.” Toch blijkt de ingebouwde kwaliteitscontrole, een systematische ‘peer review’ die opnieuw puur gebaseerd is op de goodwill van de duizenden vrijwilligers uitermate efficiënt te werken. Het NPOV – ‘Neutral Point of View’5 beleid en het sociaal concept van samenwerking die de basis vormen van de werking van Wikipedia (en zijn spin5 offs: de Wiktionary, de Wikiquotes, …) bieden een beloftevolle aanblik op de mogelijkheden van het Internet als ongebreidelde leverancier van kwalitatieve content, als een open digitale omgeving die vertrouwen stelt in de gebruiker en het gebruik, als een afspiegeling van de opmars van een digitaalgebaseerde gift economy. Ward Cunningham, de man die de Wiki5technologie ontwikkelde 5 waarop niet alleen de Wikipedia, maar ontelbare aanverwante applicaties zijn gebaseerd 5 ziet de toekomst van de wiki, als kern van het openbare web5concept, vol vertrouwen tegemoet: ”Ik denk dat wiki een verkleinde versie van de wetenschap is. De wetenschap is een proces om de natuur te structureren en te verklaren. Wiki is een proces om ervaringen te structureren en verklaren. Ik vraag mensen om me hun verhaal te vertellen en mensen vertellen graag verhalen. Het is een natuurlijk, sociaal fenomeen. Wiki levert de uitrusting om die verhalen aan elkaar te breien.''143 Tegelijk lijkt het ‘Open Access’ idee – publieke content moet toegankelijk en bruikbaar zijn voor het publiek 5 steeds meer bijval te krijgen bij de overheden144. In Groot5Brittannië heeft het ’Science and Technology Committee’ van het House of Commons een rapport gepubliceerd waarin Britse universiteiten aangezet worden om het Open Acces model zoveel mogelijk te volgen en dus complementair of ter vervanging van de dure academische of wetenschappelijke tijdschriften zoveel mogelijk geschriften, papers, onderzoeksrapporten etc. gratis online te plaatsen145. Een groot aantal internationale bibliotheekinstellingen zoals het Internet Archive en het
140
Citaat van Lion Kimbro in Turnbull, G., De wonderen van het Wiki Web, De Standaard, 10.08.2004, p. 20521 (vertaling uit The Guardian) (http://www.standaard.be/nieuws/media/index.asp?articleID=GG87UCOS) 141 http://en.wikipedia.org 142 Gegevens door initiatiefnemer Jim Wales verstrekt tijdens een presentatie op de Anmi Summerschool, Amsterdam, 27 augustus 2004. 143 Turnbull, G., De wonderen van het Wiki Web, De Standaard, 10.08.2004, p. 20521 (vertaling uit The Guardian) (http://www.standaard.be/nieuws/media/index.asp?articleID=GG87UCOS) 144 Meer over OA op de site van het Nederlandse SURF (http://www.surf.nl/themas/index2.php?oid=36&inhoud_oid=258) 145 http://www.publications.parliament.uk/pa/cm200304/cmselect/cmsctech/399/39902.htm
61
Library of Congress hebben eind 2004 een pact gesloten om Open Access tekstarchieven te ontwikkelen – dit als een open alternatief op commerciële digitaliseringprojecten zoals die van Google. In een aankondiging van het Internet Archive stond te lezen: "Commercial companies are currently working with libraries to digitise materials as well. We are encouraging these efforts and hope most of these materials will also be available through Text Archives.146" De Nederlandse SURF Stichting, de samenwerkingsorganisatie van het hoger onderwijs en onderzoek op het gebied van netwerkdienstverlening en IT, heeft met het DARE (Digital Academic REpositories) project heeft ook een eerste stap gezet in de goeie richting. DARE verenigt alle Nederlandse universiteiten en academische instellingen in een digitaal netwerk (Op basis van het OAI (Open Archives Initiative) model, zie 1.4.4.6) waarin academische output wordt vrijgegeven147. Inmiddels werd een eerste publieke portaalsite ontwikkeld, DAREnet148.
1.4.4. Ontwikkeling Metadatamodellen en 5formaten Een van de voordelen die bij het digitaliseren van o.a. audiovisuele informatie naar voren wordt geschoven is de mogelijkheid om de data zelf digitaal te beschrijven, wat de identificatie, contextualisering en toegang kan vergemakkelijken. Hierbij komen we op het terrein van de ‘metadata’ dat in essentie niets meer is dan ‘data over data’, die het mogelijk maken om data te herkennen, lokaliseren, beheren, ontsluiten én beschermen. Zonder metadata, of in de digitale wereld, “bits about bits”149, is een digitaal archief van honderden uren een waardeloze opeenhoping van bits en bytes. De meest gebruikte definitie van metadata werd voorgesteld door het SMPTE: content = essence +metadata Met andere woorden: er is geen content zonder metadata. Essence (de eigenlijke informatie) zonder matadata kan niet geïdentificeerd, getraceerd of begrepen binnen de content management systemen. Anne Gilliland5Swetland geeft een brede omkadering van het begrip metadata als "the sum total of what one can say about any information object at any level of aggregation.150" In deze context is een informatieobject alles dat als een discrete entiteit kan geadresseerd of gemanipuleerd worden door mens of machine. Globaal gezien hebben alle informatieobjecten, afgezien van hun fysieke of intellectuele vorm, drie eigenschappen 5 content, context en structuur, die allen kunnen gereflecteerd worden door middel van metadata.
• De content is intrinsiek aan een informatieobject en refereert naar wat het object bevat. • De context is extrinsiek aan een informatieobject en indiceert de wie5wat5wanneer5waarom5hoe aspecten geassocieerd met de creatie van het object.
• De structuur kan zowel intrinsiek als extrinsiek zijn en refereert aan de formele associaties met of binnen informatieobject. Binnen de culturele erfgoedwereld wordt traditioneel vooral gefocust op de context. Metadata wordt in eerste instantie immers nog steeds vooral gebruikt om de toegang tot informatieobjecten te vergemakkelijken via bibliografische informatie: indexen, abstracts, catalogusbestanden etc.. De rol van de structuur is groter geworden met de digitalisering van content en de groeiende mogelijkheden om structuur te gebruiken om objecten te zoeken, manipuleren en relateren. Metadata heeft immers niet enkel een beschrijvende functie, maar kan ook het gedrag, gebruik en functie van objecten documenteren, alsook de onderlinge relaties en de noodzakelijke beheersmethodes. Binnen de context van genetwerkte digitale informatiesystemen hebben al die verschillende 146
Chillingworth, M., ‘Internet Archive to build alternative to Google’, Information World Review, 21.12.2004 (http://www.iwr.co.uk/IWR/1160176) 147 http://www.surf.nl/en/themas/index2.php?oid=7 148 http://www.darenet.nl 149 Negroponte, N., Being Digital, Vintage Books, 1995 150 Gilliland5Swetland A., ‘Setting the Stage’, in: Baca, M. (ed.), Introduction to Metadata, Getty Research Institute. (http://www.getty.edu/research/conducting_research/standards/intrometadata/2_articles/index.html)
62
perspectieven op metadata aan belang gewonnen, wat ook de complexiteit van metadatacreatie en –beheer gevoelig heeft verhoogd.
1.4.4.1 metadata: types en functie In een onderzoeksrapport van het Getty Instituut151 wordt een onderscheid gemaakt tussen vijf soorten metadata, die over verschillende kenmerken beschikken.
Administratief
Definitie
Voorbeelden
Metadata gebruikt bij het beheren en onderhouden van informatiebronnen
5 Informatie over aanwerving 5 Opvolgen van rechten en reproductie 5 Documentering van wettelijke toegangsvereisten 5 Informatie over de locatie 5 Selectiecriteria voor digitalisatie 5 Controle van de versie en onderscheid maken tussen gelijkaardige informatieobjecten 5 Controlesporen aangemaakt door bestandbeheersystemens
Beschrijvend
Metadata gebruikt om informatiebronnen te beschrijven of identificeren
5 Bestanden catalogiseren 5 Hulpmiddelen vinden 5 Gespecialiseerde indexen 5 Hyperlinkrelaties tussen bronnen 5 Aantekeningen door gebruikers 5 Metadata voor bestandbeheersystemens, gegenereerd door de aanmakers van bestanden
Preservatie
Technisch
Gebruik
Metadata i.v.m. het 5 Documenteren van fysieke toestand van bronnen conservatiebeheer 5 Documenteren van acties, ondernomen om fysieke en digitale van versies van bronnen in stand te houden, vb. vernieuwen van data en informatiebronnen migratie Metadata i.v.m. de 5 Documentatie van hardware en software manier waarop een 5 Digitalisatieinformatie, vb. formaten, compressieratio's, systeem schaalvergrotingsroutines functioneert of hoe 5 Bijhouden van de responstijden van systemen een systeem zich 5 Identificatie en veiligheidsgegevens, vb. encryptiesleutels, gedraagt wachtwoorden Metadata i.v.m. het 5 Toonbestanden niveau van de 5 Bijhouden van gebruik en gebruikers informatiebronnen 5 Hergebruik van inhoud en informatie over meerdere versies en de manier waarop ze gebruikt worden
Figuur 26: verschillende Soorten Metadata en Hun Gebruik
Naast de verschillende soorten metadata en bijhorende functies, hebben metadata ook vele verschillende soorten eigenschappen.
Attribuut
Eigenschappen
Voorbeelden
151
Baca, M. (ed.), Introduction to Metadata, Getty Research Institute. (http://www.getty.edu/research/conducting_research/standards/intrometadata)
63
Bronnen voor metadata
Methodes om metadata aan te maken
Interne metadata gegenereerd voor een informatieobject door de oorspronkelijke uitvoerder wanneer het voor het eerst aangemaakt wordt of gedigitaliseerd Externe metadata i.v.m. een informatieobject dat later aangemaakt wordt, vaak door iemand anders dan de oorspronkelijke maker
5 Bestandsnamen en kopinformatie
Automatische metadata gegenereerd door een computer
5 Indexen met een sleutelwoord
5 Folderstructuren 5 Bestandsformaat en compressieschema
5 Registratie5 en categorisatiebestanden
5 Rechten en andere wettelijke informatie
5 Log gebruikerstransacties
Manuele/handgemaakte 5 Beschrijvende vervangingsmiddelen, zoals metadata cataloogbestanden en Dublin Core metadata Soort metadata
Niet5professionele 5 Metatags gemaakt voor een persoonlijke webpagina metadata aangemaakt door iemand geen deskundige is i.v.m. het onderwerp of 5 Persoonlijke klasseersystemen informatie, vaak de oorspronkelijke auteur van het informatieobject Professionele metadata 5 Gespecialiseerde onderwerpcategorieën gemaakt door deskundigen op het 5 MARC bestanden vlak van het onderwerp 5 Hulpmiddelen voor archiefdoeleinden of informatie in het algemeen, vaak niet de oorspronkelijke auteurs van het informatieobject
Status
Statische metadata die ongewijzigd blijven nadat ze aangemaakt werden
5 Titel, herkomst en ontwerpdatum van een informatiebron
Dynamische metadata, die kunnen wijzigen na gebruik of manipulatie van een informatieobject
5 Folderstructuur 5 Log gebruikerstransacties
5 Beeldresolutie
Metadata op lange termijn, noodzakelijk 5 Technisch formaat en informatie i.v.m. de bewerking om het informatieobject 5 Informatie i.v.m. de rechten toegankelijk en bruikbaar te houden 5 Documentatie i.v.m. met conservatiebeheer Metadata op korte termijn, vooral van toepassing voor transacties Structuur
Gestructureerde
5 MARC
64
5 EAD metadata die beantwoorden aan een 5 lokale database formaten voorspelbare, al dan niet gestandaardiseerde structuur Niet5gestructureerde 5 Niet5gestructureerde notitievelden en commentaren metadata die niet conform zijn met een voorspelbare structuur Semantiek
Gecontroleerde 5 AAT metadata die conform 5 ULAN zijn met een 5 AACR2 gestandaardiseerd lexicon of een opgelegd formaat Ongecontroleerde 5 Vrije tekstvelden metadata die niet conform zijn met een 5 HTML metatags gestandaardiseerd lexicon of een opgelegd formaat
Niveau
Collectiemetadata i.v.m. 5 Bestand op collectieniveau, vb. MARC bestand of verzamelingen van zoekmiddel informatieobjecten 5 Gespecialiseerde index Onderwerpsmetadata 5 Omgezette beeldbijschriften en data i.v.m. de individuele informatieobjecten, die 5 Informatie over het formaat vaak deel uitmaken van verzamelingen
Figuur 27: attributen en Eigenschappen van Metadata
1.4.4.2 Descriptieve metadata: van ‘low5level’ naar ‘high5level’ De toegangsdrempels tot audiovisuele collecties vallen langzaam weg. Wordt het traditionele media5archief nu nog beschouwd als een fysieke, moeilijk doordringbare ruimte met een beperkte collectie tastbare filmreels, video5 en audiotapes, dan kan straks iedereen putten uit een rijk virtueel archief, uitstrekkend over tijd en ruimte152. Metadata zullen de bindende componenten vormen voor dit virtueel archief. Metadata voor audiovisuele of multimediale documenten bevinden zich dan ook volop in een transitieperiode. Het gros van de ontwikkelde schema’s of modellen zijn bedrijfs5 of projectgebonden of gemaakt voor industriële doeleinden. Modellen kunnen ontwikkeld zijn voor een specifieke applicatie of ze focussen op het volledige productieproces. Ze kunnen dienen om essence en metadata op een efficiënte manier op te slaan op een server of ze kunnen gericht zijn op de uitwisseling van metadata tussen verschillende systemen. Verschillende professionele mediaorganisaties hebben modellen en thesauri gebouwd, maar bevinden zich in veel gevallen nog in een testfase, vooraleer over te gaan op bredere implementatie. Dit is het geval voor veel metadatmodellen rond mediakunst, zoals het Variable Media of V2 model (zie verder). IT leveranciers hebben ook eigen bedrijfsgebonden oplossingen ontwikkeld, meestal op basis van bestaande standaarden, die aangepast zijn aan de behoeftes van hun klanten.
152
de Jong, A., ‘Het beeld, het woord en de algoritmes. Mogelijkheden en onmogelijkheden van automatische indexering’, Tijdschrift voor Mediageschiedenis, jg. 3, nr. 2, december 2000. (http://www.beeldengeluid.nl/files/pdf/expertise_het5beeld5het5woord5en5de5algoritmen.pdf)
65
De meeste metadata modellen zoals Dublin Core153 en MARC (MAchine+Readable Cataloging record)154, focussen op het vergemakkelijken van de toegang tot digitale bronnen door middel van gestandaardiseerde bronbeschrijvingen. Dublin Core bijvoorbeeld, oorspronkelijk opgemaakt voor tekstuele documenten, heeft voor audiovisuele data wel uitbreidingen ontwikkeld bovenop zijn 15 basisbeschrijvers, maar eigenlijk enkel gericht op bibliografische informatie, niet op de content zelf. De beschrijving van complexe audiovisuele of multimediale objecten is nog steeds problematisch. In tegenstelling tot tekstuele informatie kunnen audio en video immers niet op zichzelf onderzocht worden als rauwe bron: het audiovisuele equivalent van een “full5text” zoekfunctie bestaat (nog) niet. Er komt wel steeds meer en uitgebreidere software op de markt voor het identificeren en indexeren van een aantal formele visuele en auditieve elementen binnen audiovisuele producties. De semantische waarde daarvan is echter niet altijd hoog. Beeldherkenning is bijvoorbeeld mogelijk op basis van kleur, textuur en montagekenmerken155. Spraakherkenning is ook mogelijk, net als tekstherkenning, zowel binnen de zogenaamde open captions (titels, logo’s) als closed captions (tekstuele informatie binnen het materiaal zelf). Dit biedt enorm veel perspectieven, zowel voor het invoeren en raadplegen. Het is evenwel tot op heden niet mogelijk om deze elementen eenduidig te laten benoemen en opdelen in termen van betekenis. Audiovisuele documenten zijn immers samengesteld uit sequentiële en temporele elementen, wat een snel en synthetisch begrip van de inhoud bijzonder moeilijk maakt. De relatie tussen vorm en inhoud is zo complex en de kloof tussen fysieke beschrijvers en de conceptuele (semantische) representaties zo groot, dat voor het aanbrengen van hogere semantiek en contextinformatie steeds menselijk tussenkomst noodzakelijk is. Toch wordt automatisch indexering en ontsluiting van digitaal beeld en –geluidsmateriaal steeds belangrijker geacht en wordt veel onderzoek gewijd aan het optimaliseren van de huidige technologieën en het zoeken naar nieuwe, o.a. voor het herkennen van structuren en het leveren van audiovisuele samenvattingen. MPEG7, een nieuw (en complementair) lid van de MPEG familie, dat omschreven wordt als “the Multimedia Content Description Interface”, biedt alvast enkele mogelijkheden. De inherente tools maken het mogelijk om audiovisuele beschrijvingen te genereren (in XML), gericht het snel en efficiënt opzoeken van informatie uit digitale archieven (“pull applications”) of filtering van gestreamde essence (‘push applications’)156. In het officiële ISO/IEC document over MPEG7 wordt de standaard uitvoerig omschreven: “More and more audiovisual information is available from many sources around the world. The information may be represented in various forms of media, such as still pictures, graphics, 3D models, audio, speech, and video. Audiovisual information plays an important role in our society, be it recorded in such media as film or magnetic tape or originating, in real time, from some audio or visual sensors and be it analogue or, increasingly, digital. While audio and visual information used to be consumed directly by the human being, there is an increasing number of cases where the audiovisual information is created, exchanged, retrieved, and re+used by computational systems. This may be the case for such scenarios as image understanding (surveillance, intelligent vision, smart cameras, etc.) and media conversion (speech to text, picture to speech, speech to picture, etc.). Other scenarios are information retrieval (quickly and efficiently searching for various types of multimedia documents of interest to the user) and filtering in a stream of audiovisual content description (to receive only those multimedia data items which satisfy the user’s preferences)… Audiovisual sources will play an increasingly pervasive role in our lives, and there will be a growing need to have these sources processed further. This makes it necessary to develop forms of audiovisual information representation that go beyond the simple waveform or sample+based, compression+based (such as MPEG+1 and MPEG+2) or even objects+based (such as MPEG+4) representations. Forms of representation that allow some degree of interpretation of the information’s meaning are necessary. These forms can be passed onto, or accessed by, a device or a computer code.”157
153
http://dublincore.org/ http://www.loc.gov/marc/ 155 Voorbeelden van beeldherkenning (content+based image retrieval) vor stilstaand beeld: het QBIC systeem (http://www.hermitagemuseum.org/fcgi5bin/db2www/qbicSearch.mac/qbic?selLang=English) en Cires : (http://amazon.ece.utexas.edu/~qasim/research.htm) en ARTISTE, een Europees project, o.a. met het Louvre en de Britse National Gallery (http://www.artisteweb.org/index1.html) 156 Voor een heldere uitleg, zie Pahwa, A., Godfrey, S., Content Search & Extraction via MPEG+7, NAB 2004 White Paper (http://www.dv5studio.com/PDF/NAB_04_MPEG57_White_Paper.pdf) 157 http://mpeg7.nist.gov/inf/inf_intro.html 154
66
Ook SMIL (Synchronized Multimedia Integration Language)158, ontwikkeld door W3C en gebaseerd op XML, kan in deze context aangehaald worden. SMIL werd ontwikkeld om multimediapresentaties te choreograferen waarbij (digitale) audio, video, tekst en grafiek in real5time kunnen gecombineerd worden. Daardoor kunnen bvb. Technische keuzes van de gebruiker direct in de metadata opgenomen worden. De ontwikkeling van MPEG7, SMIL en aanverwante schema’s illustreren een graduele evolutie naar het gestructureerd organiseren en beschrijven van data. De industrieën evolueren van HTML naar XML, van MPEG 1 naar MPEG 4, MPEG 7 naar MPEG 21 (“Multimedia Delivery Framework”, zie verder), waarbij zich een overgang lijkt af te tekenen van zogenaamde “low5level” metadata (zoals de resolutie of compressieschema van een digitaal videobestand) naar een “high5level” metadata die de structuur van een mediacompositie beschrijft159. De stap naar het semantische web is klein. Via dit concept wordt gezocht naar een manier om content – ook audiovisueel 5 begrijpelijk te maken voor computers, zodat informatie via metadata en ontologieën160 gemakkelijk kan gevonden, gerelateerd en ontsloten worden op het internet. WC3, een van de grootste bepleiters van het semantische web en het Resource Description Framework (RDF)161, gelooft vast in het semantische web als een extensie van het huidige web: "Het semantische web is een visie: het idee is dat de gegevens op het web zodanig gedefinieerd en gelinkt worden dat zij door machines niet alleen gebruikt kunnen worden voor presentatiedoeleinden, maar ook voor automatisering, integratie en hergebruik van gegevens via diverse toepassingen. Het belooft een radicale verbetering van ons vermogen om informatie te vinden, sorteren en classificeren, taken die het merendeel van de tijd in beslag nemen die we on+ en off+line besteden"162. Het onderzoek naar ontologieën, standaarden en instrumenten om multimedia en audiovisuele objecten te incorporeren binnen het semantische web staat momenteel hoog op de agenda’s van verschillende onderzoekslabo’s. Tegelijk zien grote mediabedrijven zoals Google, Yahoo en Microsoft de evolutie van het internet naar een multimediaplatform en ontwikkelen ook hun eigen zoektools voor het zoeken naar audio en video. Dit betekent dat er binnenkort mogelijks systemen zullen ontwikkeld worden die automatisch semantische informatie (kenmerken, relaties, …) uit audiovisuele data kunnen extraheren, die kan gebruikt worden voor het indexeren, ontsluiten en het leggen van relaties tussen data binnen en buiten een archief (expliciete en impliciete data). Rekening houdend met het verbocentrisme van de meeste metadatamodellen, zijn er op het gebied van metadata voor audiovisuele of multimediale documenten, echter nog heel wat lacunes op het vlak van betrouwbaarheid, subjectiviteit, authenticiteit en interoperabiliteit van syntax, semantiek, vocabularium en onderliggende modellen. Bovendien staat nog niet vast of het aanbod van nieuwe mogelijkheden ook automatisch een vraag zal creëren. Ook daar wordt onderzoek naar geleverd. Zo toonde het Europese ECHO (European Chronicles OnLine) project aan dat er bij documentalisten behoorlijk wat reserve is tegenover automatisch gegenereerde metadata163.
158
http://www.w3.org/AudioVideo/ Manovich, L., Metadating the Image. Metadata, Mon Amour, 2002. (http://www.manovich.net/DOCS/metadata.doc) 160 In de filosofie is de ontologie de studie van het bestaande. In de informatiekunde wordt een ontologie vaak gedefinieerd als een formele, expliciete specificatie van een gezamenlijke conceptualisatie. Ontologieën gaan veel verder dan conventionele internetzoekmachines en thesauri. Terwijl de mogelijke relaties in een thesaurus beperkt, informeel en voor verschillende interpretaties vatbaar zijn, is een ontologie bedoeld om concepten en hun onderlinge relaties weer te geven los van de termen die gebruikt worden om die concepten te beschrijven. Die concepten kunnen voorgesteld worden als symbolen in een hiërarchische strucuur, die worden bepaald door een verzameling axioma’s. Op die manier ontstaat een semantisch netwerk waarbij de betekenis wordt vastgelegd door de verschillende relaties tussen de objecten. 161 RDF is een taal die, als aanvulling op XML, bedoeld is om web informatie eenduidig te beschrijven. RDF voorziet in een model om voor www5pagina's gebruik te maken van een ontologie. De daarvoor benodigde extra informatie wordt als metadata toegevoegd aan de HTML pagina's. Op deze manier wordt invulling gegeven aan het idee van het semantische web. 162 http://www.w3.org/2001/sw/ 163 http://pc5erato2.iei.pi.cnr.it/echo/ 159
67
1.4.4.3 Metadata gericht op preservatie In de meeste modellen worden de descriptieve metadata beschouwd als de kern van de annotatie. Alhoewel dergelijke beschrijvers noodzakelijk zijn om een complete informatiechaos te vermijden, kunnen ze geen lange termijn toegang tot digitale bronnen garanderen164. Een aantal initiatieven zijn daarom opgestart om metadata te ontwikkelen die het digitale preservatie proces ondersteunen, zoals het OAIS (Open Archival Information System) referentiemodel 165, CEDARS (CURL Exemplars in Digital Archives project), NEDLIB (Networked European Deposit Library), OCLC/RLG (Online Computer Library Centre/Research Libraries Group), het op XML gebaseerde METS5 schema (Metadata Encoding and Transmission Standard, voor digitale objecten) van het Library of Congress166 en het supplementaire Audio+Visual Prototyping Project, specifiek gericht op audio en video. Ook op het gebied van software voor digitale preservatie wordt een uitgebreid spectrum aan tools ontwikkeld, niet in het minst via SourceForge167, het vlaggeschip van de Open Source community. Deze projecten focussen op de preservatie van zowel het digitale object of de bytestream als van de gedetailleerde metadata zelf, zodat die ook in de toekomst geïnterpreteerd kunnen worden. Die metadata bevatten informatie om lange termijn toegang mogelijk te maken: een beschrijving van de technische omgeving die noodzakelijk is om het werk te zien, de applicaties, decompressie schema’s, monitoring5 en conserveringsrapporten… 5 alle informatie nodig voor een efficiënte archivering en het succesvol implementeren van de nodige bewaarstrategieën. Net als de standaardmodellen voor descriptieve metadata, zijn deze modellen in de meeste gevallen uitbreidbaar of aanpasbaar en worden vaak gecombineerd of gebruikt als basis voor aan instelling5 of sectorgebonden systemen (zie o.a. 4.6.8).
1.4.4.4 Metadata binnen de broadcasting industrie De digitalisering zal een inflatie aan metadata over omroepprogramma’s en andere digitale content teweegbrengen. Evoluties naar digitale en interactieve televisie en local storage – het thuis registreren van programma’s op een harde schijf – zorgen ervoor dat gegevens die traditioneel de archiefmetadata vormen, steeds meer integraal gaan deel uitmaken van het product dat aan de consumenten wordt aangeboden. De meeste inspanningen op het vlak van ontwikkeling van metadatamodellen en 5systemen worden dan ook geleverd vanuit de audiovisuele industrie: producenten zien hun toekomstige productieproces digitaal worden en kijken halsreikend uit naar een manier om dit proces efficiënt te laten verlopen, d.w.z. zonder problemen met compatibiliteit, ontsluiting en uitwisseling van data én zoveel mogelijk geautomatiseerd. MPEG21, de jongste telg van de MPEG familie en momenteel nog volop in ontwikkeling, biedt een zogenaamd “Multimedia Delivery Framework” en voorziet een kader om multimediale bronnen op een transparante manier over verschillende netwerken en hardware te laten werken. "MPEG+21 Multimedia Framework initiative that aims to enable the transparent and augmented use of multimedia resources across a wide range of networks and devices...MPEG+21 is based on two essential concepts: the definition of a fundamental unit of distribution and transaction (the Digital Item) and the concept of Users interacting with Digital Items. The Digital Items can be considered the “what” of the Multimedia Framework (e.g., a video collection, a music album) and the Users can be considered the “who” of the Multimedia Framework...The goal of MPEG+21 can thus be rephrased to: defining the technology needed to support Users to exchange, access,consume, trade and otherwise manipulate Digital Items in an efficient, transparent and interoperable way.”168 Zowel het SMTP (Society of Motion Picture and Television Engineers) als de EBU (European Broadcast Union)
164
Hunter, J., Choudhury, S., Implementing Preservation Strategies for Complex Multimedia Objects, 2003. (http://metadata.net/newmedia/Papers/ECDL2003_paper.pdf) 165 OAIS Resources: http://www.rlg.org/longterm/oais.html 166 METS Metadata Encoding and Transmission Standard: http://www.loc.gov/standards/mets/ 167 http://sourceforge.net/ 168
http://www.chiariglione.org/mpeg/standards/mpeg521/mpeg521.htm
68
hebben de laatste jaren ook verschillende initiatieven ondernomen, gericht op het standaardiseren van metadata, o.a. • De SMPTE Metadata Dictionary is een referentiemodel voor audiovisuele beschrijvers, betrokken op de hele productieketen (pre5productie, postproductie, acquisitie, distributie, transmissie, opslag en archivering). • De Unique Material Identifier (UMI) levert een uniek identificatieformaat voor materialen zoals video en audio. De basis UMID bevat info over het universele label, de lengte, het materiaalnummer etc. De gehandtekende metadata bestaat uit tijdsinformatie, ruimtelijke coördinaten, land en naam van de producent. • P/META (Metadata exchange standards) is complementair met de UMI en de metadata dictionary is is gericht op het standaardiseren van de uitwisseling van alle metadata tussen contentproducent, distributeur en archief. Er word gewerkt naar interoperabiliteit en complementariteit met het SMEF model (Standard Media Exchange Framework) van het BBC en andere EBU projecten zoals P/FTA (Future Television Archives) en P/FRA (Future Radio Archives). • TV+Anytime is een XML standaard voor het beheer van metadata van audiovisuele producties. Deze openplatform, onafhankelijke en interoperabele standaard werd ontwikkeld door een internationaal consortium van bedrijven uit de omroepwereld (BBC, Canal+), hardwareproducenten (Toshiba, Sony, Philips), telecom5 (Nokia, Motorola) en softwarebedrijven (Microsoft, Novell). • De standaardisatie van het Broadcast Wave Format (BWF), dat tegenwoordig binnen broadcastinginstellingen het gangbare formaat is voor audio, heeft duidelijk gemaakt dat ook voor bewegend beeld en multimediale objecten een open standaardformaat nodig is. MXF en AAF, ontwikkeld door de Advanced Authoring Format Association worden nu, na de goedkeuring van het SMTPE en aansluitend op P/Meta, naar voren geschoven als valabele standaarden, met de hulp van giganten zoals Sony, Microsoft, BBC, CNN, het Pro5MPEG Forum en steun van de Europese Gemeenschap (G5FORS project). AAF (Advanced Authoring Format) is een softwarematige containerapplicatie waarin zowel essence (video, audio, MIDI, MPEG…) als metadata kunnen worden in opgeslagen. Het mechanisme om de formaten te beschrijven wordt MXF (Media Exchange Format) genoemd. MXF is bedoeld om afgewerkt materiaal uit te wisselen en voldoet niet aan de voorwaarden van opslag – dat is de rol van AAF. Er is dus heel wat parallelle activiteit op het front van metadata voor broadcasting. Bovendien worden heel wat nieuwe distributiemogelijkheden en –kanalen blootgelegd, als gevolg van de convergentie van IT en broadcasting (zie 3.3).
1.4.4.5 Digital Rights Management (DRM) Volgens het BBC model geldt: Essence + metadata = content content + rights = an asset Met het mogelijk maken van digitale ontsluiting of distributie van content stelt zich ook de vraag naar Digital Rights Management, als onderdeel van het asset management. In een digitale omgeving blijkt het auteursrecht immers niet ideaal of voldoende om de rechten van makers te beschermen. Hoe kun je dan wel garanderen dat de rechten en belangen van de rechthebbenden worden beschermd? Welke soorten rechten moeten worden beschermd – er zijn niet enkel auteursrechten, maar ook bvb. het recht op privacy. Welke gebruikscategorieën zijn er – moet er voor bepaalde instellingen of personen een aangepast gebruik mogelijk gemaakt worden en hoe verloopt de authentificatie? Welke structuur en taxonomie kunnen gehanteerd worden om die rechten te handhaven – encryptie, digitale watermerken of een andere technologie? Zonodig, welke betalingscategorieën en –modaliteiten moeten geïmplementeerd worden? Er zijn verschillende systemen die gebruikt kunnen worden om enerzijds het intellectuele eigendom te identificeren, anderzijds gebruiksbeperkingen op te leggen, alhoewel geen enkele 100% bescherming levert. Ieder systeem heeft zijn zwaktes en altijd zijn er hoge kosten aan verbonden, om maar niet te spreken over de bedrijfsgebondenheid van de meeste systemen. DRM is momenteel vooral een ‘big issue’ in de film5 en muziekindustrie, aangezien van hun materialen, zijnde gedistribueerd via DVD, CD of het internet, valabele kopies kunnen worden gemaakt. De ophef rond het file5sharing fenomeen en de bijhorende crisis van de muziekindustrie, samen met de opkomst van digitale TV en alternatieve filmdistributiemethodes
69
heeft DRM nog hoger op hun agenda gezet. Erfgoedarchieven nemen binnen dit plaatje slechts een kleine plaats in, ook al omdat uit ervaring en onderzoek169 is gebleken dat exploitatie economisch moeilijk haalbaar is. In praktijk worden DRM systemen immers gebruikt in combinatie met contractuele maatregelen. Technologische bescherming roept ook fundamentele kritiek op, niet alleen omdat dergelijke systemen een inbreuk kunnen vormen op de privacy van de consument, maar vooral omdat ze naast het auteursrecht en de contractuele bescherming een derde beschermingslaag vormt. Een laag bovendien, die niet in overeenkomst is met de oorspronkelijke functie en bedoeling van het auteursrecht en vooral de belangen van aanbieders en exploitanten behartigt, niet zozeer de belangen van auteurs. De verspreiding van cultuur en kennis in de samenleving – de oorspronkelijke inzet van vergoeding van auteurs via het auteursrecht – wordt door deze tendens zeker niet gestimuleerd. In een extreem doemscenario wordt auteursrecht door deze 'private' maatregelen zelfs volledig verdrongen, alsook de rol van het publieke domein170. In de Verenigde Staten bestaat er reeds een zeer strikte wetgeving (de Digital Millenium Copyright Act) die het omzeilen van DRM bescherming strafbaar maakt. Ook de Europese Commissie voelt blijkbaar wel iets voor een technische en juridische bescherming van digitale contentdragers tegen kopiëren. Volgens het werkdocument ‘Digital Rights: background, systems, assessment’171 moet de Europese Commissie softwarebedrijven aanmoedigen om DRM5oplossingen te ontwikkelen en deze snel toe te passen. De Europese Commissie subsidieert ook al jaren bedrijven en overheidsinstellingen die DRM5 producten ontwikkelen. Er moet dus, zeker voor de cultuursector en het kunstveld, op zoek gegaan worden naar alternatieve modellen die een evenwicht vinden tussen de toegankelijkheid van informatie in het publieke domein enerzijds en de auteursrechtelijke bescherming en het economische belang anderzijds. Zoals de international gerenomeneerde technologist en "security guru " Bruce Schneier stelt: “Je kunt het kopiëren van digitaal materiaal niet tegengaan, omdat het de natuur van digitaal materiaal is om gekopieerd te worden. Ieder type bescherming van auteursrecht dat tegen deze natuur ingaat zal mislukken. Sommigen hebben mijn mening opgevat als dat ik tegen auteursrechten ben, maar dat is niet waar. Ik geloof alleen niet dat digitaal materiaal op dezelfde manier beschermd kan worden als voorheen. In de digitale wereld moeten we uitvinden hoe geld verdiend kan worden met digitale content terwijl iedereen het kan kopiëren en distribueren.”172
169
In 1997 voerde Howard Besser een onderzoek voor het Getty Instituut naar de haalbaarheid van een zelfonderhoudend systeem voor het publishen van culturele content. Het antwoord was negatief. Zie Besser, H., Yamishita, R., The Cost of Digital Image Distribution: The Social and Economic Implications of the Production, Distribution and Usage of Image Data, School of Information Management & Systems, UC Berkeley, 1998 (http://sunsite.berkeley.edu/Imaging/Databases/1998mellon). In 2002 werd een vervolg ondernomen: Tanner, S., Deegan, M., Exploring Charging Models for Digital Cultural Heritage, HEDS, Andrew W. Mellon Foundation, 2002 (http://heds.herts.ac.uk/mellon/charging_models.html). Het OpenHeritage project, uitgevoerd onder auspiciën van de Europese Unie, werd in 2003 opgericht om nieuwe economische modellen te exploreren, zonder noemenswaardig resultaat. Zie http://www.openheritage.com Een uitzondering is het Canadese AMICO (Art Image Consortium). Zie http://www.amico.org 170 Fauconnier, S., voorbereidende tekst op een expertmeeting rond ‘copyright en digitale cultuur’, Rotterdam, 13 maart 2002. (http://www.virtueelplatform.nl/docs/COPY%20def.pdf) 171 zie http://europa.eu.int/information_society/eeurope/2005/all_about/digital_rights_man/documents/index_en.htm 172 Kuunders, L., Interview met Bruce Schneier, Computers als zesde zintuig, 2001. (http://www.netsecure.nl/pubs/lk_interview_met_bruce_schneier_ib5tekst.htm)
70
Figuur 28: voorbeeld van DRM binnen een asset management systeem173
1.4.4.6 Interoperabiliteit van metadata Het wordt ook steeds meer duidelijk dat interoperabiliteit tussen verschillende metadatamodellen essentieel is binnen de digitale informatiemaatschappij, voor uitwisseling van data enerzijds en gemeenschappelijke ontsluiting anderzijds. Momenteel is nog geen sprake van standaardisering of compatibiliteit: iedere instelling, zelfs binnen een enkele sector, heeft zijn eigen systeem, met eigen velden, semantiek en beschrijvingstools. Het OAI (Open Archives Initiative)174, een in de V.S. gebaseerd initiatief met steun van the Digital Library Federation, the Coalition for Networked Information en de National Science Foundation, heeft recent een op XML gebaseerd protocol (MHP, Metadata Harvesting Protocol) ontwikkeld dat toelaat aan collectiebeheerders om metadata uit te wisselen. In feite gaat het over een aantal afspraken die bepalen hoe de data van de instellingen op gestandaardiseerde manier online toegankelijk en kunnen gemaakt worden. Bij de aanschaf van een collectiebeheersysteem moeten de verantwoordelijken er dus op letten dat het OAI protocol geïntegreerd is binnen het software pakket. Zowel op lokaal als internationaal vlak groeit inmiddels wel het bewustzijn van het belang van interoperabiliteit. (zie verder, 2.8)
1.4.5 “The media independent digital era is here”175 Steeds meer informatie wordt digitaal geboren: tekstdocumenten bijvoorbeeld, maar ook een resem dynamische, actieve en interactieve artefacten: -
Multimediaal: websites, CD5roms, … Dynamisch gegenereerd: kalenders, boekhouding data, … Op aanvraag gegenereerd: op maat gemaakte weerkaarten bvb. Automatisch gegenereerd: Javascript, servelets, .. Actieve presentaties: animatie, simulatie, virtuele realiteit, ..
173
http://www.dcita.gov.au/drm/ http://www.openarchives.org/ Voor de resultaten van een studie rond de organisationele en technische kwesties rond OAI, zie http://www.oaforum.org/documents/ 175 Carl Fleischauer, Library of Congress 174
71
- Databases - Interactief: applets, websites, … Ook in de audiovisuele industrie worden de verschillende onderdelen van het productieproces aangepast aan de digitale mogelijkheden. De volgende generatie videocamera’s bijvoorbeeld zullen tapeless werken, zodat de opgeslagen informatie zonder tussenwegen kan ingeladen worden in een computersysteem voor montage, post5 productie en uitzending. Deze fundamentele veranderingen zullen zich vastzetten in alle aspecten van beeld en geluid – ook in de distributiekanalen en gebruiksverwachtingen. Digitalisering en – bij gevolg 5 digitale archivering is in die zin onvermijdelijk en heeft penetrante gevolgen voor preservatiebeleid en –praktijk: de conventie om een fysiek, ‘afgewerkt’ document te bewaren zal kenteren in een asset5management aanpak waarbij ook de verschillende componenten en metadata, die aan een digitaal object gerelateerd worden, van essentieel belang zullen zijn. Dit alles moet in het perspectief van een nieuw soort archief worden gebracht, zoals Geoffrey Batchen die schetst in The Art of Archiving: ”The archive is no longer a matter of discrete objects (files, books, art works, etc.) stored and retrieved in specific places (libraries, museums, etc.). Now the archive is also a continuous stream of data, without geography or container, continuously transmitted and therefore without temporal restriction (always available in the here and now)." 176 Er zal dus een paradigmawending optreden van wat Carl Fleischauer bestempelt als ‘media5dependent’ naar ‘media5less’. De preservatie van dergelijke ‘digital born’ audiovisuele content zal ongetwijfeld van dezelfde technieken afhangen die ontwikkeld moeten worden voor digitaal gereformeerde content. Kortom: audio5 en videobehoud wordt databehoud.
176
Batchen, G., ‘The Art of Archiving’ in: Deep Storage: collecting, storing, and archiving in art, Munich, Prestel, 1998, p. 46 5 49
72