Elektronische publicaties en gedigitaliseerd erfgoed in de Koninklijke Bibliotheek van België
een bijdrage aan de European Digital Library
student: Pierre Leonavicius promotor: Guido Goedemé presentatie en verdediging: juni 2007 Opleiding: Graduaat in het Bibliotheekwezen en Documentaire Informatiekunde
VOORWOORD Graag een woordje van dank aan mijn promotor, Guido Goedemé en allen die mij gesteund en aangespoord hebben in het tot stand komen van dit werk. Het werk zelf, met eventuele gebreken, is natuurlijk de visie van de auteur.
INHOUDSOPGAVE 1 INLEIDING .............................................................................................................. 9 2 BASISELEMENTEN.................................................................................................. 11 2.1 INLEIDING ....................................................................................................... 11 2.2 SGML .............................................................................................................. 11 2.2.1 HTML......................................................................................................... 13 2.2.2 XML........................................................................................................... 14 2.2.2.1 DTD.................................................................................................................. 15 2.2.2.2 XML-Schema...................................................................................................... 15
2.3 BESTANDSFORMATEN ........................................................................................ 17 2.3.1 Tekstformaten ODF en PDF ........................................................................... 17
2.3.1.1 ODF.................................................................................................................. 17 2.3.1.2 PDF en PDF/A..................................................................................................... 19 2.3.1.3 PDF als archiveringsformaat met XML-metadata ...................................................... 20
2.3.2 Grafische formaten ...................................................................................... 21
2.3.2.1 TIFF.................................................................................................................. 21 2.3.2.2 JPEG ................................................................................................................. 22 2.3.2.3 JPEG 2000 ......................................................................................................... 22
2.3.3 Geluid formaten .......................................................................................... 23 2.3.3.1 2.3.3.2 2.3.3.3 2.3.3.4
WAV ................................................................................................................. 23 MP3 .................................................................................................................. 24 Microsoft WMA ................................................................................................... 25 OGG Vorbis........................................................................................................ 26
2.3.4 Videoformaten ............................................................................................ 26 2.3.4.1 Microsoft, Real Video en Apple .............................................................................. 26 2.3.4.2 Moving Pictures Experts Group ............................................................................. 27 2.3.4.3 DivX ................................................................................................................. 28
3 METADATA EN XML-SCHEMA’S ............................................................................... 29 3.1 INLEIDING ....................................................................................................... 29 3.1.1 Wat is een website? ..................................................................................... 29 3.1.2 Wat is een repository?.................................................................................. 29 3.1.3 Wat zijn metadata?...................................................................................... 30 3.2 DUBLIN CORE ................................................................................................... 31 3.3 METS............................................................................................................... 34 3.4 MODS .............................................................................................................. 35 3.5 RDF EN ‘CROSSWALKS’ ...................................................................................... 37 3.5.1 RDF........................................................................................................... 37 3.5.2 Crosswalks ................................................................................................. 38 4 DE COLLECTIES VAN DE KONINKLIJKE BIBLIOTHEEK VAN BELGIË........................ 39 4.1 INLEIDING ....................................................................................................... 39 4.2 DIGITOOL ........................................................................................................ 39 4.2.1 E-depot...................................................................................................... 39 4.2.1.1 Problematiek...................................................................................................... 39 4.2.1.2 Omgeving.......................................................................................................... 40 4.2.1.3 E-depot technisch bekeken .................................................................................. 41 4.2.1.3.1 Module ‘Resource Discovery’ ....................................................................... 44 4.2.1.3.2 Module ‘Management’................................................................................. 48 4.2.1.4 Deponeringen .................................................................................................... 49 4.2.1.4.1 Module ‘Deposit’ ........................................................................................ 50 4.2.1.4.2 Module ‘Approver’ ...................................................................................... 52 4.2.1.4.3 Module ‘Collection management’ .................................................................. 52 4.2.1.4.4 Deponeren van een monografie ................................................................... 52 4.2.1.5 Publicaties halen op websites................................................................................ 60 4.2.1.5.1 Access tabel en ‘.csv’ bestand...................................................................... 60 4.2.1.5.2 Module ‘Web Ingest’................................................................................... 62
4.2.2 Kaarten...................................................................................................... 62 4.2.2.1 Scanning ........................................................................................................... 63
4.2.2.2 Workflow ........................................................................................................... 63 4.2.2.3 Opslag .............................................................................................................. 64 4.2.2.3.1 Invoer metadata........................................................................................ 65 4.2.2.3.2 Web Ingest ............................................................................................... 66
4.2.3 Prenten...................................................................................................... 66 4.2.3.1 Scanner ............................................................................................................ 67 4.2.3.2 Workflow ........................................................................................................... 68 4.2.3.3 Web Ingest ........................................................................................................ 69
4.2.4 Muziek ....................................................................................................... 76
4.2.4.1 Workflow ........................................................................................................... 76 4.2.4.2 Opslag .............................................................................................................. 76
5 DE EUROPEAN DIGITAL LIBRARY .......................................................................... 77 5.1 INLEIDING ....................................................................................................... 77 5.2 OPZET ............................................................................................................. 78 5.3 REALISATIE EN ORGANISATIE............................................................................. 79 5.4 DE BIJDRAGE VAN DE KONINKLIJKE BIBLIOTHEEK................................................. 81 5.4.1 De catalogi ................................................................................................. 82 5.4.2 De collecties ............................................................................................... 84 6 BESLUIT ................................................................................................................ 87 BRONNEN ................................................................................................................. 89 INDEX....................................................................................................................... 91 AFBEELDINGENLIJST................................................................................................ 93 ABSTRACT ................................................................................................................ 95
1 Inleiding Er zijn momenteel enorm veel elektronische publicaties. Je kan geen gebruiksaanwijzing van een apparaat bedenken of de handleiding is via het internet te vinden voor de gebruiker die ernaar op zoek is. Het domein van elektronische publicaties is zodanig uit zijn voegen gebarsten dat er de nodige aandacht aan dient besteed te worden. Net zoals bij de gedrukte publicaties dringt zich een organisatiemethode op en een systeem voor het terugvinden van de publicaties. Een aandachtspunt van dit werk is dan ook te wijzen waar deze nieuwe ontwikkelingen zich situeren en in welke mate het opportuniteiten zijn voor het bibliotheekwezen, documentatie- of informatiecentra om mee te denken. De gangbare omschrijvingen uit de vakliteratuur heb ik trachten toe te lichten op een eenvoudig niveau. Voorrang werd gegeven aan een ruime basis die geplaatst kan worden in een globaal overzicht. Hierdoor werden de knelpunten, diepere details en uitzonderingen niet geaccentueerd. Als ondersteuning van de theoretische uiteenzetting is de praktische toepassing ervan in de Koninklijke Bibliotheek van België en zijn Europese participatie onder de loep genomen. Een doelstelling was om op begrijpbare wijze leken een zicht op de materie en zijn toepassing te geven. Ook heb ik getracht om de problematiek, veel bestandsformaten en uitwisselingen van metadata, aan het licht te brengen. Er is naar gestreefd om zo actueel mogelijk te zijn en de stand van zaken van medio 2007 onder de loep te nemen. De actualiteit van dit werk verklaart ook waarom er over het onderwerp zeer veel gebruik gemaakt werd van internetbronnen. Het internet is momenteel het snelste verspreidingsgereedschap van recente informatie. Deze scriptie is elektronisch te downloaden op het internet via de ‘Uniform Resource Locator’ http://leonavicius.be
9
10
2 Basiselementen 2.1 Inleiding Omdat mijn werk gaat over elektronische documenten is het belangrijk om even stil te staan bij de begrippen SGML, HTML en XML met de bijhorende DTD techniek en XMLschema techniek. Deze begrippen staan in voor de opmaak van elektronische publicatieomgevingen en verdienen daarom een woordje uitleg. Hierna volgt de uiteenzetting over de verschillende bestandsformaten die momenteel het meest gebruikt worden. Zowel tekstformaten, grafische formaten, geluid formaten als formaten voor stilstaand en bewegend beeld komen aan bod. Er is dan ook speciale aandacht besteed aan het ODF-formaat omdat de Federale Overheid beslist heeft om dit als standaardformaat te gaan gebruiken voor de uitwisseling van haar documenten. Het alom verspreide ‘.doc’ formaat, dat op commerciële leest geschoeid is, wordt bewust van zijn troon gestoten. Als startdatum is gepland 1 januari 2008. België speelt hierin een voortrekkersrol en daarom komt het ODF-formaat hier als eerste aan bod.
2.2 SGML Via de SGML 1 taal kan men de structuur van documenten vastleggen. Met behulp van DTD's 2 wordt de opmaak gedefinieerd en kan een subset van SGML worden gemaakt met een bepaalde syntaxis 3 . SGML is een taal waarin de structuur van een document wordt beschreven, de bekende HTML taal en XML taal zijn afgeleid van SGML. Met SGML kunnen gegevens op gestandaardiseerde wijze worden beschreven, geannoteerd en bewaard. SGML is een zogenaamde metataal en in feite een taal om andere talen mee te maken. XML is een subset van SGML die steeds meer gebruikt wordt. XML heeft een striktere syntax dan SGML en is daarom makkelijker en sneller te verwerken. Ook HTML is gebaseerd op SGML, maar is heel wat minder strikt dan XML. Een SGML-document bestaat uit een hiërarchische structuur. De elementen in deze structuur worden afgebakend met zogeheten tags. Elementen kunnen ook attributen hebben die meer informatie over dat element bevatten. Een tag is een omschrijvende opmaak die de start en het einde van een element afbakent. Het is een hoeveelheid letters omsloten door punthaken, een ‘<‘ en een ‘>‘. Een element bestaat uit het geheel van begintag, tussenliggende elementen en een
1
Standard Generalized Markup Language is sinds 1986 een platformonafhankelijke ISOstandaard
2
Document Type Definition, geeft aan welke tags in een XML document mogen voorkomen. Het is de voorloper van het XML-schema
3
Een informaticaterm, voor een programmeertaal staat het voor de exacte zinsbouw of grammatica regels. Het is een exacte structuurdefinitie en een volgordebepaling van hoe de programmaregels elkaar mogen opvolgen 11
eindtag.
Een voorbeeld van een SGML-element:
inhoud element
Een voorbeeld van een SGML-document: <document> <element attribuut="waarde"> Tekst <subelement>Inhoud van het subelement
12
2.2.1 HTML HTML 4 staat voor een opmaaktaal van documenten en wordt vooral gebruikt op internet en intranet om webpagina’s via browsers te tonen. Het was dan ook in de beginjaren dat er bij elke nieuwe browserversie een nieuwe HTML versie verscheen. De eerste officiële specificatie van HTML door de W3C 5 organisatie was HTML 2.0, geaccepteerd in september 1995. Eerder was er gewerkt aan uitbreiding van de oorspronkelijke specificatie onder de naam HTML+ (gepubliceerd in november 1993). Al vóór de officiële acceptatie van HTML 2.0, werd de volgende specificatie (HTML 3.0) voorbereid. Deze specificatie werd achterhaald door het uitkomen van Netscape versie 3 en het voorstel werd in september 1995 verlaten. Het werk werd voortgezet in HTML versie 3.2, dat de naam ‘Wilbur’ meekreeg. Wilbur werd geaccepteerd in januari 1997. In december 1997 werd de HTML 4.0 specificatie geaccepteerd, waarop nog enkele kleine correcties zijn aangebracht in HTML 4.01 (geaccepteerd in december 1999). In het jaar 2000 werd ISO-HTML, gebaseerd op HTML 4.01 Strict, geaccepteerd als een internationale standaard: ISO/IEC 15445:2000. Technisch gezien is HTML een opmaaktaal 6 , het is een soort tekstcodering die zowel de tekst zelf als details over de structuur en de opmaak van die tekst weergeeft. Een HTML-document bestaat gewoon uit platte tekst 7 die letterlijk door elke computer wordt begrepen. Een ander woord voor specifieke HTML-codes is tags. In HTML wordt bijvoorbeeld een koptekst niet letterlijk in een groot lettertype verzonden, maar wordt er een tag verstuurd, die zegt “let op, de volgende tekst wordt groot weergegeven”. Hierop volgt het uiteindelijke tekstfragment, na afloop wordt de code verzonden die zegt “einde groot lettertype”. De volgende tekst wordt dan weer in het normale lettertype weergegeven. Een HTML-document moet minimaal uit de volgende codes bestaan, om een pagina als HTML-document weer te kunnen geven :
HTML voorbeeld Hier komt het zichtbaar of getoond deel van je HTML-document.
4
HyperText Markup Language
5
World Wide Web Consortium
6
Ook markuptaal of markeertaal genoemd
7
ASCII codes 13
2.2.2 XML Het succes van HTML is te danken aan zijn gebruiksgemak, eenvoud en verdraagzaamheid. HTML doet niet moeilijk over het gebruik van hoofdletters of kleine letters, zelfs het ontbreken van eindtags wordt dikwijls niet als fout aanzien. De eenvoud van HTML beperkt ook zijn kracht. De HTML tags zijn voornamelijk op opmaak gericht en geven geen informatie over de inhoud van een pagina. Hierdoor kan de inhoud moeilijk in een ander verband hergebruikt worden. XML 8 is gebaseerd op dezelfde technologie als HTML, maar het is zo ontworpen dat de informatie beter beheerd kan worden. HTML stelt iedereen in staat iets te doen, maar XML stelt sommigen in staat alles te doen. Van op een afstand bekeken lijkt XML veel op HTML, met tags, attributen en waarden. XML is echter niet zozeer een taal om webpagina’s mee te maken, maar een taal om andere talen mee te maken. Met XML ontwerp je een eigen beschrijvingstaal en vervolgens gebruik je die taal om documenten mee op te maken. Een dergelijke beschrijvingstaal, de zogeheten XML-toepassing, bevat tags die de gegevens erbinnen werkelijk beschrijven. Voorbeeld van een CD cataloog in een XML weergave, waar je ziet dat de tags de inhoud beschrijven die ze omsluiten: − −
− <TITEL>Empire Burlesque Bob Dylan USA Columbia 10.90 <JAAR>1985 − <TITEL>Hide your heart Bonnie Tyler UK CBS Records 9.90 <JAAR>1988 − <TITEL>Greatest Hits Dolly Parton USA RCA 9.90 <JAAR>1982 De kracht van XML ligt nu hierin dat een tag gegevens identificeert zodat deze gegevens beschikbaar worden voor andere activiteiten. Maar zoals altijd, kracht heeft 8
XML: Extensible Markup Language 14
zijn prijs. XML is veel minder toegeeflijk dan HTML. Om het werk van XML-parsers 9 te vergemakkelijken, vereist XML grote precisie bij het gebruik van hoofdletters en kleine letters, aanhalingstekens, eindtags en andere schrijfwijzen die HTML-auteurs kunnen negeren. Dit kieskeurige gedrag van XML zorgt er waarschijnlijk voor dat het geen rol zal spelen bij persoonlijke webpagina’s. Anderzijds geeft XML de webontwerpers wel de middelen in handen voor grootschalig informatiebeheer. XML maakt gebruik van DTD’s 10 of XML-schema’s 11 .
2.2.2.1 DTD Aanroepbare entiteiten zijn definities van verwijzingen of afkortingen die aanroepbaar zijn. Er bestaan diverse soorten entiteiten, maar ze werken allemaal op dezelfde manier. De verschillen liggen in de plaats waar de entiteit wordt gedefinieerd en in het soort informatie dat de entiteit bevat. Entiteiten kunnen in twee hoofdgroepen worden onderverdeeld: • algemene entiteiten: Deze laden gegevens in het XML-document zelf, o interne: worden in de DTD gedefinieerd, o externe: worden in een extern bestand gedefinieerd en kunnen geparseerd 12 of ongeparseerd 13 zijn. • parameterentiteiten: Deze verwijzen naar gegevens voor een DTD, ze worden altijd geparseerd en ze kunnen zowel intern als extern zijn, interne parameterentiteiten hebben echter zoveel beperkingen dat het gebruik ervan wordt afgeraden.
2.2.2.2 XML-Schema DTD’s zijn in feite een soort schema, maar als men in de vakliteratuur spreekt over een schema dan gaat het over de specifieke taal XML-Schema die werd ontwikkeld door het W3C. Een schema definieert: • welke vorm één of meer bij elkaar horende XML-documenten kunnen hebben, 9
Software die XML-gegevens interpreteert, onafhankelijk of binnen een browser
10
DTD: Document Type Definition, de regels zelf noemt men Document Type Declarations
11
XML-schema: Kunnen in tegenstelling tot DTD’s gegevenstypen specificeren zoals datums, integers, tekenreeksen, … Ze geven veel meer controle over een XML-document. 12
Worden geanalyseerd of ontleed (geparseerd) door de XML-parser, deze computersoftware onderzoekt de vastgelegde grammaticale structuur en zet de ingevoerde tekst om in een datastructuur 13
Binaire en niet-tekstuele gegevens worden meestal niet ontleed 15
• •
welke elementen ze bevatten en welke hun volgorde is, wat hun inhoud kan zijn en welke attributen ze bevatten.
DTD’s hebben een aantal nadelen vergeleken met schema’s in XML-Schema. De syntaxis van DTD’s heeft weinig te maken met XML, dat brengt met zich mee dat ze niet kunnen geanalyseerd worden door een XML-parser. Alle declaraties in een DTD zijn globaal, wat met zich meebrengt dat je geen twee verschillende elementen met dezelfde naam kan declareren, ook al komen ze in verschillende contexten voor. Het allerbelangrijkste nadeel is zeker het feit dat DTD’s niet kunnen bepalen wat voor soort informatie een element of attribuut kan bevatten. XML-Schema, geschreven in XML zelf, geeft veel meer controle over de inhoud van een XML-document.
16
2.3 Bestandsformaten 2.3.1 Tekstformaten ODF en PDF 2.3.1.1 ODF Het ODF-formaat 14 komt hier als eerste aan de beurt omdat hiervoor een belangrijke plaats is toegekend door de overheid. ODF wordt de standaard 15 bij de Belgische federale overheid vanaf 2008. De formaten zoals ‘.doc’ en ‘.xls’ zijn eigendom van Microsoft. Alle federale ambtenaren moeten tegen september 2007 tekstdocumenten, brochures en publicaties in het ODF-formaat kunnen uitwisselen en lezen. De ODF-indeling is een open standaard voor het bewaren en/of uitwisselen van tekstbestanden, rekenbladen, grafieken en presentaties. De OpenDocument-standaard werd ontwikkeld door het OAIS-consortium, vertrekkende vanuit de XML-gebaseerde bestandsindeling van OpenOffice.org. Open Document Format is een bestandsformaat, oorspronkelijk ontwikkeld voor de open bron office suite OpenOffice.Org. ODF is gebaseerd op XML en het eerste bestandsformaat voor documenten dat werd doorgelicht door een onafhankelijk organisme 16 . Een ODF-bestand - met extensie .od*, afhankelijk van het type document - is eigenlijk gewoon een gecomprimeerd zip-bestand met een aantal bestanden en mappen. Bij een tekstbestand, met extensie ‘.odt’ staat de inhoud van het document in verscheidene XML-bestanden: • een bestand voor de inhoud zelf, • een bestand voor de opmaak, • een bestand dat meta-informatie bevat zoals de naam van de auteur, de datum en de tijd, enz. • in de map ‘Pictures’ vinden we de gebruikte afbeeldingen. Op 23 juni 2006 heeft de Belgische federale regering dus beslist dat het ODFformaat 17 verplicht moet worden gebruikt in de administratie en mogen de overheden in 2008 alleen nog in dit open formaat onderling documenten uitwisselen. België is het eerste land ter wereld dat de gesloten formaten zal verbieden. Sinds 11 november 2006 is ODF een officieel door ISO 18 gepubliceerde standaard. Deze officiële standaard ISO/IEC 26300 kan voor 340 Zwitserse frank worden aangeschaft op ISO website. Zelfs de Europese Commissie verleent prioriteit aan het gebruik van open standaarden in haar aanbeveling 19 . 14
ODF staat voor ‘Open Document Format’
15
Artikel van de overheid in “Fedramagazine” op pagina’s 17-18 van oktober 2006
16
Open Archival Information System (OAIS) en ook ISO/IEC 26300
17
Open Document Formaat
18
International Organization for Standardization
19
Aanbeveling, art. 2, uit de EU publicatie ISBN 92-894-8389-X 17
Met open standaard bedoelt de commissie: • Een standaard die is goedgekeurd en in stand gehouden wordt door een notfor-profit organisatie. De verdere ontwikkeling gebeurt op basis van een open besluitvormingsprocedure die toegankelijk is voor alle betrokken partijen (consensus van een meerderheidsbeslissing, enz.). • Deze standaard werd gepubliceerd. Het document met de standaardspecificatie is gratis of tegen een symbolische vergoeding beschikbaar. Iedereen moet de kans krijgen om dit document gratis of tegen een symbolisch bedrag te kopiëren, te verdelen en te gebruiken. • De intellectuele eigendomsrechten, m.a.w. mogelijke octrooien, van (een gedeelte van) de norm worden onherroepelijk vrij van royalty’s ter beschikking gesteld.
18
2.3.1.2 PDF en PDF/A PDF 20 is sinds ongeveer 1993 standaard voor de uitwisseling van elektronische documenten en formulieren die in hun oorspronkelijke vorm gereproduceerd moeten kunnen worden. PDF is een universele bestandsindeling waarmee lettertypen, afbeeldingen en lay-out van elk willekeurig brondocument behouden blijven, ongeacht het programma of het platform waarmee het document werd gemaakt, dit in tegenstelling tot bijvoorbeeld HTML. Een voordeel van een PDF-bestand is dat het, in tegenstelling tot bijvoorbeeld een Word-document, op elke printer er hetzelfde uit zal zien. Ook kan een PDF-bestand op alle platformen bekeken of bewerkt worden, het is dus niet platformafhankelijk. Met behulp van het PDF bestandsformaat kun je elk elektronisch document lezen op vrijwel elk computersysteem dat een PDF-lezer ter beschikking heeft. Het maakt helemaal niet uit hoe en waarmee het originele document is gemaakt. PDF-documenten kunnen ook ingedeeld worden in twee grote hoofdgroepen, een image-PDF en een tekst doorzoekbaar PDF-document. Meestal wordt een image-PDF ge-ocr’d en tekst doorzoekbaar gemaakt zonder zijn oorspronkelijke lay-out te verliezen. Veel handleidingen van diverse apparatuur, gaande van elektronica tot keukentoestel, verschijnen in plaats van op duur drukwerk op een CD-ROM of zijn gratis consulteerbaar op het internet. Er staan diverse gratis PDF-lezers ter beschikking, waarvan de bekendste: • Foxit Reader 21 , • Acrobat Reader 22 . In tegenstelling tot de leessoftware is de software van Adobe voor het aanmaken van PDF-bestanden niet altijd gratis. Er zijn echter alternatieven. Microsoft Office 2007 heeft een gratis add-in waarmee documenten kunnen worden opgeslagen en of verstuurd als PDF/A. Een ander alternatief is de Open Source 23 software ‘PDFCreator’ van ‘SourceForge.net’. Van een ‘de facto’ standaard zijn PDF-bestanden, door ISO 19005-1 in 2005, een genormeerde standaard geworden. Er zijn nu al verschillende PDF-soorten gestandaardiseerd.: • PDF/A 24 voor archieven, • PDF/X 25 voor uitwisseling van bestanden, • PDF/UA 26 voor universele toegang, 20
Portable Document Format
21
http://www.foxitsoftware.com/pdf/rd_intro.php
22
http://www.adobe.com/nl/products/acrobat/readstep2.html
23
‘Open source software’ of ‘vrije software’ is de verzamelnaam van alle software waarvan de broncode beschikbaar is en aanpasbaar door iedereen, met meestal als beperking dat die aanpassingen ook vrij beschikbaar moeten zijn voor anderen.
24
“A” staat voor Archiving en heeft diverse subformaten, zoals 1a en 1b
25
“X” staat voor eXchange
26
“UA” staat voor Universally Accessible 19
• •
PDF/H 27 voor gezondheidszorg, PDF/E voor engineering.
Informatiemanagers en archivarissen vinden dat informatiebestanden authentiek, betrouwbaar, niet te wijzigen en compleet dienen te zijn. De informatiebestanden dienen niet alleen vandaag leesbaar te zijn, doch de elektronische systemen dienen ook de integriteit te waarborgen doorheen de tijd. Vereisten in relatie tot PDF-documenten: • Authenticiteit: Het moet mogelijk zijn dat een document laat zien wanneer, wie het opgesteld of verzonden heeft en dat het zijn oorspronkelijke vorm bezit. Dit kan deskundig opgelost worden door het gebruiken van metadata 28 . In het geval van PDF-bestanden kunnen metadata programmatorisch in de PDF-file geïntegreerd worden. Ook het elektronisch ondertekenen van documenten kan de authenticiteit verzekeren. • Betrouwbaar: PDF-documenten worden vanuit de bron zelf gecreëerd. Ze komen vanuit de toepassing zelf. Het zijn eindversies die komen vanuit een database, een tekstverwerker, een rekenblad of andere toepassingen die kunnen printen. • Compleet en ongewijzigd: Het is mogelijk om een bestand te beveiligen tegen ongeoorloofd wijzigen en aanpassingen aan de metadata veranderen niets aan het oorspronkelijk document of bestand. Men kan via plug-ins digitaal ondertekenen via PKI 29 . • Leesbaarheid in de toekomst: Een recent kenmerk om XML metadata te integreren in PDF-bestanden garandeert dat de metadata gegevens leesbaar en toegankelijk blijven in de toekomst. PDF-bestanden zijn ook toegankelijk voor een ‘full-text search’, vele zoekmachines hebben deze mogelijkheid geïntegreerd. Deze mogelijkheid kwam ter beschikking omdat de PDF specificaties en SDK 30 ter beschikking staan en publiek toegankelijk zijn.
2.3.1.3 PDF als archiveringsformaat met XML-metadata PDF/A staat borg dat het 1.4 formaat ondersteund blijft voor lange termijn archivering. Huidige en toekomstige gebruikers zijn en zullen in staat blijven om een document in exact dezelfde weergave te zien als de maker van het document. Door het toevoegen van XML metadata worden twee vliegen in een klap geslagen, wij krijgen een exact document en een toegankelijk document. Veel organisaties scannen papieren documenten in om praktische redenen. De digitale versie van het papieren stuk mag gearchiveerd worden, maar is voor juridische doeleinden vaak onvoldoende. Wanneer een digitaal document geldig gemaakt mag worden, ligt het voor de hand dat het ook geldig in digitale vorm bewaard mag worden. 27
“H” staat voor Healthcare
28
Data over de data, m.a.w. gegevens die gaan over de informatie. Zie ook hoofdstuk 4.
29
Public Key Infrastructure
30
Software Development Kit 20
Bij de vraag of enkel digitaal archiveren volstaat, dient men rekening te houden met twee zaken. Ten eerste dient men te weten of de digitale versie van een document ook een rechtsgeldig document is. Ten tweede moet men zich afvragen of een document uitsluitend in digitale vorm mag bewaard worden.
2.3.2 Grafische formaten 2.3.2.1 TIFF Het TIFF 31 bestandsformaat met als extensie ‘.tif’ is een grafische bestandsindeling die ontwikkeld werd door Aldus en Microsoft in 1986. Aldus was de eigenaar van de specificaties en is later samengesmolten met Adobe Systems die nu eigenaar is van het Copyright van de TIFF specificatie. Deze industriestandaard is ontwikkeld om monochrome en gekleurde bit-map afbeeldingen op te slaan in een hoge resolutie en zonder kwaliteitsverlies. Kleuren worden ondersteund in volgende formaten: • Grayscale, • Pseudocolor (any size), • RGB, • YCbCr, • CMYK, • CIELab. Ondersteunde compressieformaten: • raw uncompressed, • PackBits, • Lempel-Ziv-Welch (LZW), • CCITT Fax 3 & 4, • JPEG (zie verder). Volgende Pixel formaten worden ondersteund: • 1-64 bit integer, signed or unsigned, • 32 or 64 bit IEEE floating point. De grafische bestandsindeling is compatibel met de meeste scanners en software voor het bewerken van afbeeldingen. Het doel van TIFF is afbeeldingen te beschrijven en de gegevens van afbeeldingen te rasteren. De voornaamste kenmerken van het TIFF-formaat samengevat: • Het aankunnen van omschrijvingen voor volgende eigenschappen: monochrome, grijsschalen, paletkleuren en full-color in al zijn variaties. • Het heeft een groot aantal compressieschema’s die ter beschikking staan van ontwerpers.
31
Tagged Image File Format: een tag-gebaseerd bestandsformaat voor de opslag en uitwisseling van gerasterde afbeeldingen 21
• • • •
Het is niet gebonden aan de eigenschappen van specifieke scanners, printers, beeldschermen of andere hardware. Het is portabel en niet gebonden aan specifieke operating systems, bestandsformaten, compilers of processoren. Het is uitbreidbaar voor eventuele noden in de toekomst. Het formaat heeft geen hoeveelheidbeperkingen voor wie private of speciale informatie wenst toe te voegen.
2.3.2.2 JPEG JPEG 32 is een opslagstandaard voor beeldformaten en is een populaire manier om fotografische beelden te comprimeren en op te slaan. Ontstaan in 1986 en gecertificeerd in ISO/IEC IS 10918-1 met ITU-T aanbeveling T.81. Als bestandsextensie wordt ‘.jpg’ en ‘.jpeg’ gebruikt. JPEG kan 24-bit beelden, die bestaan uit miljoenen kleuren, opslaan. Een compressie van 1/10 tot 1/20 van het originele fotobestand is mogelijk zonder zichtbaar kwaliteitsverlies. Veel web-browsers en digitale camera's gebruiken JPEG-beeldcompressie als de standaard bestandsindeling. Het wordt ook veel gebruikt als afbeeldingen formaat in bijlagen van e-mails. De instelbare compressiemethode heeft als nadeel dat er kwaliteitsverlies kan optreden. Dit kwaliteitsverlies treedt vooral op bij niet-realistische afbeeldingen zoals cartoons, pentekeningen of een werk van Picasso. Het compressieverlies, vooral scherpteverlies te opzichte van het origineel, gebeurt doordat het beeld in kleine pixel-blokjes wordt opgedeeld die dan repetitief gehalveerd worden totdat de gewenste compressieverhouding wordt bereikt. Dit onherstelbaar gegevensverlies gebeurt telkens als het beeld wordt bewerkt, gecomprimeerd en opnieuw bewaard wordt. Een goede multimedia freeware, indien niet commercieel gebruikt, is beschikbaar op ‘www.irfanview.com‘. Dit programma ondersteunt reeds diverse delen van de nieuwe JPEG 2000 standaard. Als je de extra informatie of metadata wil zien die je camera in het bestand opslaat, dan moet je de beschikbare EXIF 33 plugin mee downloaden en installeren.
2.3.2.3 JPEG 2000 JPEG 2000 is de laatste nieuwe compressiestandaard van het JPEG comité. De JPEG standaard bestaat al een twintigtal jaren en sindsdien is de computertechnologie exponentieel gegroeid. Het was dan ook tijd om een nieuwe standaard te maken die meer aankon dan simpelweg digitale beeldbestanden inkrimpen. 32
Joint Photographic Experts Group: de groep die deze standaard heeft verwezenlijkt
33
Exchangeable Image File Format wordt nu door de meeste digitale camera’s gebruikt 22
JPEG 2000 kan dan ook 20% meer compressie aanbieden en gebruikt de ‘wavelet’ technologie. Door gebruik te maken van deze techniek kan de informatie van een afbeelding bijgehouden en zonder gegevensverlies of vervorming worden opgeslagen. Het verzenden, naar een ontvanger, van het eerste deel van een JPEG2000-bestand resulteert in de heropbouw van een JPEG-bestand. Naarmate dat de verzending verder gaat, wordt het bestand beter en beter tot dat het origineel beeld weer ter beschikking staat. Deze ‘wavelet’ technologie maakt het dus mogelijk om bestanden in verschillende resoluties op te laden. Toepassingsgebieden voor JPEG 2000 zijn: • internet, • digitale fotografie, • medische beeldvorming, • draadloze beeldvorming, • beeldvorming van documenten, • pre-press, • geografische informatie systemen en ‘remote sensing’, • cultureel erfgoed, • wetenschappelijk en industrieel, • digitale cinema, • beeldarchieven en databases, • bewaking, • printen en scannen, • faxen. JPEG 2000 kan door opeenvolging van de bestanden ook video aan zoals beschreven in ISO/IEC 15444-3:2002/Amd 2:2003 en ISO/IEC 15444-12. Deel 3 van deze norm beschrijft het bestandsformaat MJ2 of MJP2 wat staat voor ‘Motion’ van JPEG 2000 beelden. De ondersteuning voor de bijhorende audio komt er ook aan bod.
2.3.3 Geluid formaten 2.3.3.1 WAV ‘WAV’ 34 of ‘WAVE’ is een Microsoft- en IBM-standaard voor het bewaren van audio op pc's. Als bestandsextensie wordt ‘.wav’ gebruikt. Geluid kan net als een afbeelding in allerlei formaten worden opgeslagen. Het eenvoudigste bestandsformaat is ‘.wav’. Het nadeel van dit formaat is dat het schijfruimte in beslag neemt. De ruimte die in beslag wordt genomen kan gaan tot 4 gigabyte in grootte wat overeen komt met meer dan 6 uur geluid in CD-kwaliteit. Hierdoor krijgt men een maximale kwaliteit, maar is er ook veel schijfruimte nodig.
34
Waveform audio format 23
Omwille van deze laatste reden is de WAV-indeling minder populair op het internet en wordt daar eerder MP3, Ogg Vorbis of AAC gebruikt.
2.3.3.2 MP3 Op internet en in de wereld van portabele muziekspelers is MP3 35 in relatief korte tijd een standaard geworden. Het formaat biedt voor muziek en geluidsbestanden een aangename bestandsgrootte in combinatie met een goede geluidskwaliteit. Voor het uitwisselen van muziek, het aanbieden van geluidsbestanden op een website of het archiveren ervan. MP3 is een compressieformaat, wat betekent dat er zoveel mogelijk van het originele bestandsformaat wordt teruggedrongen met behoud van zoveel mogelijk geluidskwaliteit. Op een normale muziek-CD neemt één minuut stereomuziek, van 44,1Khz en 16 Bit, ongeveer 10Mb data in beslag. Hetzelfde bestand in MP3-formaat is op te slaan in 1Mb per muziekminuut. De kwaliteit van het geluidsbestand boet dan wel in, maar hiertegenover staat dat het verschil op standaard geluidsapparatuur nauwelijks te horen zal zijn. Het Fraunhofer Instituut heeft ook een verbeterde versie van MP3 ontwikkeld met de naam ‘MP3Pro’. Met deze nieuwe standaard is een veel betere geluidskwaliteit te realiseren of eenzelfde kwaliteit als MP3 maar dan in tweemaal zo kleine bestanden. Het nieuwe formaat is niet echt succesvol en de markt blijkt voorlopig meer dan genoeg te hebben aan de kwaliteit van MP3. Het principe van MP3 is gebaseerd op: • De sample rate of monsterfrequentie: Geluid is voor te stellen als een golvende grafiek met een verloop in tijd. Om zulk een analoge golf digitaal voor te stellen moet de curve in 0 en 1 worden vertaald. Daarvoor wordt de hoogte van de curve, een aantal duizend maal per seconde, gemeten en omgezet in digitale informatie. Het aantal keren per seconde dat zulk een analoge geluidsgolf wordt gemeten drukt men uit in ‘sample rate’. Op een normale audio CD wordt het geluid 44.100 keer per seconde gemeten en spreekt men van 44.1 Khz. Hoe vaker het geluid wordt gemeten, hoe hoger de kwaliteit. De nieuwste generatie muziek-DVD’s passen een sample rate van 192 Khz toe. De huidige MP3’s hebben meestal dezelfde sample rate als audio CD’s. • De bitrate: Deze factor bepaalt de kwaliteit van een MP3. Bitrate staat voor het aantal bits per seconde geluid en wordt uitgedrukt in kilobits per seconde of ‘Kbps’. Hoe lager de bitrate, hoe lager de kwaliteit. Drie minuten muziek o 2,3 Mb bij een o 3,1 Mb bij een o 3,9 Mb bij een o 4,7 Mb bij een
levert volgende bestandgrootten op: bitrate van 96 Kbps, bitrate van 128 Kbps, bitrate van 160 Kbps, bitrate van 192 Kbps,
35
Mpeg-1 Audio Layer-3: een compressietechniek die werd ontwikkeld door het “Fraunhofer Instituut” in Duitsland 24
o
•
6,2 Mb bij een bitrate van 256 Kbps.
128 Kbps komt vaak voor bij muziekuitwisseling en is vergelijkbaar met FM stereo. Bij 256 Kbps kunnen zelfs de echte muziekfreaks het verschil niet of nauwelijks horen. De psychoakoestiek: De wetenschap van de psychoakoestiek wordt toegepast om geluidsfragmenten te comprimeren, zonder dat voor het menselijk oor de kwaliteit noemenswaardig verslechtert. Er wordt rekening gehouden met wat een menselijk brein waarneemt. Als een zachte triangel tik wordt overstemd door een harde slag van een basdrum, dan haalt de MP3-aanmaak software de frequentiegebieden van de muziek die minder duidelijk hoorbaar is weg. Ook voegt deze software heel hoge en lage tonen uit de stereokanalen samen. Het muziekstuk wordt zo uitgekleed en dan nog eens met een compressietechniek samengeperst. In een MP3-bestand is sommige informatie van het oorspronkelijke nummer onherstelbaar verdwenen. Het is dan ook vanzelfsprekend dat verwijderde informatie zorgt voor een kleinere bestandsomvang.
Om een MP3-bestand te maken heb je een programma nodig dat een nummer van een audio-CD kan omzetten of coderen. Men spreekt dan ook van een MP3 codec 36 . Je kan zelf geluidsfragmenten comprimeren en omzetten naar diverse bestandsformaten via een open source toepassing ‘CDex’ genaamd. Het is te downloaden via ‘http://cdexos.sourceforge.net/‘. De ‘tag’ informatie zit in het MP3-bestand zelf en kan je dus niet zien in de bestandsnaam van het bestand. Als je MP3 afspeelapparatuur een titel laat zien, komt deze niet uit de bestandsnaam maar uit het bestand zelf. Tag’s aanpassen kan je bijvoorbeeld met het freeware programma MP3TAG dat je kan downloaden via ‘http://www.mp3tag.de/download.html‘.
2.3.3.3 Microsoft WMA WMA 37 is vooral bedoeld voor het streamen op lage bandbreedtes. Het is een compressievorm die door Microsoft is ontwikkeld en standaard met de Windows Media Player software wordt meegeleverd. Het is een gesloten formaat en daardoor geen ideale standaard voor algemene internettoepassingen. Het afspelen van dit formaat is niet altijd onder alle besturingssystemen mogelijk, maar slechts daar waar Microsoft het ondersteunt. Aangezien Microsoft's Windows een groot marktaandeel heeft, is deze codec snel een defacto standaard geworden. WMA komt meestal voor samen met het WMV-formaat dat de video-tegenhanger is van het WMA-formaat.
36
Codec is een afkorting die staat voor compressor/decompressor of coderings/decoderingsmethode 37
Windows Media Audio 25
De werking van WMA is voor een groot deel te vergelijken met die van het MP3formaat. Het maakt ook gebruik van psychoakoestische schema's maar filtert alleen het geluid weg waarvan de frequentie meer dan 20 KHz en minder dan 20 Hz bedraagt. WMA-bestanden zijn wel kleiner dan MP3-bestanden wat als voordeel geeft dat er meer muzieknummers op een walkman of MP3 speler kunnen. Een groot verschil met andere formaten zoals MP3 en OGG Vorbis is het mogelijke gebruik van DRM 38 .
2.3.3.4 OGG Vorbis In tegenstelling tot bijvoorbeeld de audio-indelingen MP3 en Microsofts WMA is ‘Ogg Vorbis’ vrij van patenten. Als bestandsextensie wordt ‘.Ogg’ en ‘.OggS’ gebruikt. Dat er alleen gepatenteerde audio-indelingen bestonden, was voor de ontwikkelaars van openbronsoftware aanleiding om van de grond af een nieuwe multimedia-indeling te definiëren, waarin geen enkel patent zou voorkomen. 'Ogg' staat voor het algemene formaat dat op zich verschillende componenten kan omvatten, zoals Vorbis. Vorbis staat dan voor het audiogedeelte. Ogg-vorbis is een compressietechniek die weinig relevante geluidsinformatie wegfiltert. Hierbij gaat dus net als bij MP3 weliswaar een deel van de geluidsinformatie verloren, maar door gebruik te maken van de fysiologische en psychologische kenmerken van ons gehoor is dat nauwelijks hoorbaar.
2.3.4 Videoformaten 2.3.4.1 Microsoft, Real Video en Apple AVI 39 is een Microsoft bestandsformaat voor het Windows besturingssysteem en is een open standaard. AVI kan dus zowel audio als video bevatten. Het feit dat het een open standaard is betekent dat programmeurs er zelf allerlei compressietechnieken en afspeelmogelijkheden aan kunnen toevoegen. Niet elk AVI-bestand is daarom hetzelfde. Avi kan worden afgespeeld met players als Windows Media Player, Quicktime en RealPlayer. AVI is niet geschikt voor streaming video. Een variatie op AVI is DV-AVI die wordt gebruikt voor digitale camera’s. Beelden kunnen hierdoor zonder verlies worden overgezet van camera naar computer. 38
Digital Rights Management : een controversiële techniek die gebruikers beperkt in de mogelijkheden bestanden te openen, kopiëren als de auteur van die bestanden zulke beperkingen oplegt. 39
Audio-Video Interleaved 26
Quicktime is ontwikkeld door Apple. Een QuickTime-bestand is, net als een AVI-bestand, een multimedia container, die data bevat voor video, geluid en tekst die opgeslagen worden in verschillende tracks. Elke track kan media bevatten die met een codec gecomprimeerd is of een pointer naar media die opgeslagen is in een ander bestand. Bij AVI en ook Quicktime kunnen verschillende codecs worden gebruikt om ze te distribueren en af te spelen. Streaming is een manier om film of video via het internet te tonen. De film wordt tegelijkertijd gedownload en afgespeeld. De film wordt dus niet op de eigen harde schijf opgeslagen om hem te kunnen bekijken. De film begint te spelen als de kijker op spelen klikt. Tijdens het kijken wordt de film verder gedownload. Er zijn 3 bekende soorten commerciële videoformaten die als oplossing kunnen gezien worden voor lage bandbreedtes: • Windows Media gebruikt de bestandsextensie ‘.wmv’ , ‘.asf’ en ‘.asx’ . Doordat Microsoft achter Windows Media zit, is het bijna vanzelfsprekend tot een pseudo-standaard verworden. Van zodra een ‘WMV’ video op een internetpagina wordt geopend begint de film te spelen. • Real Video van het bedrijf Real Networks is een populair formaat voor streaming video op internet. De player voor Real Video heet Real One en als bestandsextensie wordt ‘.ra’ , ‘.ram’ en ‘.rm’ gebruikt. De beeldkwaliteit is laag, zeker als je het vergelijkt met MPEG, maar daar staat tegenover dat de bestanden veel kleiner zijn. De player voor Real Video heet Real One. • Quicktime is een door Apple ontworpen videoformaat dat als bestandsextensie ‘.qt’ en ‘.mov’ gebruikt. Met de Quicktime player kunnen naast Quicktime films ook andere bestandsformaten worden weergegeven.
2.3.4.2 Moving Pictures Experts Group MPEG is een consortium van bedrijven dat zich bezig houdt met de ontwikkeling van niet-commerciële internationale standaarden. De belangrijkste en bekendste compressietechnieken voor audio en video zijn ontwikkeld door de Moving Pictures Experts Group: • MPEG-1 is oorspronkelijk als compressiestandaard ontwikkeld voor VHSvideokwaliteit op CD-rom, ook bekend als video CD of ‘VCD’. Deze standaard is ontwikkeld als een standaard voor opslag op vaste CDschijfjes en werd mede met de CD-i populair. Het is vooral ontworpen voor een halve schermgrootte, bijvoorbeeld 352x288 pixels. • De MPEG-2 standaard is ontwikkeld voor SVCD 40 , DVD, HDTV en digitale tvuitzendingen die gebruik maken van deze codering in 720 x 576 pixels. Toch is MPEG-2 ook niet echt geschikt voor streaming video. De benodigde bitrate en daarmee de eisen aan de verbinding zijn hiervoor te hoog. Net als MPEG-1 is MPEG-2 ontwikkeld voor opslag op vaste schijfjes, zoals dvd.
40
Super Video CD 27
•
•
De MPEG-4 standaard is in 1998 beschikbaar gekomen. Deze standaard biedt een zeer goede compressie waardoor de bestanden kleiner zijn dan bij MPEG-1 en MPEG-2. De MPEG-4-standaard is ontworpen voor gebruik bij lage bandbreedtes, zoals streaming video over het internet. Er zijn verschillende codecs voor MPEG-4. De bekendste is de DivX-codec. De MPEG-7 is een ‘Multimedia Content Description’ interface en standaard die de gebruiker toelaat om snel opzoekingen te laten verrichten. MPEG-7 maakt gebruik van XML om metadata op te slaan en speelt in op codesynchronisatie.
2.3.4.3 DivX DivX begon als een illegale codec die vanwege de grote compressie razend populair werd voor het verspreiden van illegale speelfilms via internet. Tegenwoordig is het een legale codec en Windows Media Player speelt zelfs DivX bestanden probleemloos af. Een codec vereenvoudigt en maakt het transport, de distributie en de weergave van films mogelijk. De codecs worden gebruikt om bijvoorbeeld bestandsformaten zoals AVI en Quicktime te comprimeren en geschikt te maken voor distributie en weergave via het web of netwerken. Het systeem, de player 41 waarin de film wordt afgespeeld dient wel over de juiste codec te beschikken. Er zijn vele soorten codecs zoals: H.261, Sorenson, Indeo, CinePak, DV-PAl, DivX, XviD. Een van de compressietechnieken voor video waar MPEG gebruik van maakt, werkt met overlap in opeenvolgende beelden. Stel dat je de beelden van bijvoorbeeld het televisienieuws comprimeert, dan kun je gebruikmaken van het gegeven dat de achtergrond gelijk blijft. Deze informatie hoeft daarom niet steeds opnieuw doorgegeven te worden, maar slechts als er veranderingen in dit beeld optreden. Dit heet interframe-compressie. Naast deze compressietechniek bestaan er meer manieren om bestanden te verkleinen. Zo kunnen details die mensen niet zien zonder probleem worden weggelaten.
41
zoals bijvoorbeeld Windows Media Player, Real One of Quicktime player 28
3 Metadata en XML-schema’s 3.1 Inleiding Omdat het aantal elektronische publicaties maar steeds in aantal toeneemt en in de toekomst nog verder zal aangroeien is het belangrijk dat deze documenten via een systeem of methode kunnen teruggevonden worden. Via te situeren en te omschrijven waar deze documenten zich bevinden bespreek ik de mogelijkheid om deze documenten te ontsluiten door gebruik te maken van metadata.
3.1.1 Wat is een website? Een website is een serie documenten, die samen een geheel vormen en die via het World Wide Web op het internet te bereiken zijn. Ze zijn dus aanwezig op een WWWserver. Een eenvoudige website kan uit één enkel HTML-document bestaan, een ingewikkelde kan duizenden aparte pagina's en scripts bevatten. Het zijn documenten die producten, diensten 42 of informatie verschaffen. Er bestaan zowel bedrijfswebsites als privé-sites (persoonlijke homepagina) die toegankelijk zijn voor de hele wereld of slechts een beperkt aantal mensen (intranet of extranet sites).
3.1.2 Wat is een repository? Een repository is eigenlijk een centrale plaats waar digitale gegevens worden opgeslagen en onderhouden. Een plaats waar databases en bestanden opgeslagen zijn en van hieruit kunnen verdeeld worden over een aangesloten computer netwerk. Het is ook een locatie die direct toegankelijk is voor de gebruiker. Een repository sluit deels aan bij een digitale bibliotheek, die gelijk een analoge bibliotheek de mogelijkheid biedt om: • collecties te vormen, • catalogiseren, • classificeren, • bewaren, • toegang te verschaffen tot de inhoud zelf. In een Institutionele Repository worden wetenschappelijke documenten en intellectuele output van het instituut in digitale vorm opgeslagen. De meeste repositories volgen de systematiek van het OAI 43 . Het OAI is een poging om een kader van laag-barrière interoperabiliteit voor archieven en digitale bibliotheken, die
42 43
zoals simulaties of berekeningen Open Archive Initiative 29
digitale inhoud bevatten, te bouwen tussen verschillende institutionele bewaarplaatsen. Het staat de dienstverleners toe om metadata, van de data leveranciers, te oogsten. Deze metadata worden gebruikt om een toegevoegde waarde te verlenen, vaak door de verschillende gegevensreeksen te combineren. Het is een initiatief in de ontwikkeling van een technologisch kader en interoperabiliteitsnormen, specifiek voor het verbeteren van toegang tot elektronische archieven. Hierdoor verhoogt de beschikbaarheid en OAI is daarom dicht verwant met de doelstellingen om vrije toegang te verlenen tot elektronische publicaties. Nochtans, zijn de ontwikkelde technologie en de normen toepasselijk in een veel breder domein dan alleen kennis te publiceren. De technische structuur van OAI zoals in het OAI-PMH 44 wordt gespecificeerd, momenteel in versie 2.0, omschrijft voor gegevensleveranciers hoe hun metadata ter beschikking te stellen. Dit protocol eist dat de individuele archieven hun metadata volgens het Dublin Core systeem in kaart brengen. PictureAustralia is een voorbeeld van OAI-PMH. PictureAustralia oogst beeldgegevens van Australische bibliotheken, universiteiten, musea en galerijen. Het maakt dan gebruik van één enkel systeem om tot alle beelden toegang te krijgen. Het OAI komt erop neer dat de gegevens over een document oftewel de metadata, zoals bijv. titel, auteur en zo meer, volgens een gestandaardiseerd stramien worden opgeslagen. Als de inhoud van de gegevens in de repository aan inhoudelijke criteria voldoen – het moet wel wetenschappelijk zijn, bijvoorbeeld – kan een repository centraal worden aangemeld bij OAI. Zodra die aanmelding een feit is, zal het repository ontsloten worden door zogenaamde ‘Harvesters’ 45 .
3.1.3 Wat zijn metadata? Als je informatie organiseert heb je diverse stukken ter beschikking. Deze stukken worden met diverse namen aangesproken, men noemt ze documenten, kunstwerken, munten, websites, elektronische publicaties of objecten. Objecten lijkt mij hier de beste woordkeuze omdat wij ons hier gaan richten op beschrijvingen en het niet altijd gaat over traditionele documenten. Simpelweg zijn metadata gestructureerde informatie of data over objecten. Deze objecten kunnen dus ook gaan over informatie, bijvoorbeeld een werk over hoe je informatie kan zoeken. De metadata bij een bepaald object kan bijvoorbeeld zijn: de auteur, de datum van schrijven, het aantal pagina's of de taal waarin het object is opgesteld. Het expliciet opslaan van metadata bij de data waar het betrekking op heeft, heeft als voordeel dat de data makkelijker gevonden kan worden. Zo kan men in een zoekmachine die gebruik maakt van metadata bijvoorbeeld direct zoeken naar documenten geschreven door een bepaalde auteur. Met full-text zoeken, dus zonder gebruik te maken van metadata, is dit moeilijker doordat ieder document waarin de naam van de auteur voorkomt gevonden wordt. Dit kunnen er veel meer zijn dan de documenten die daadwerkelijk door de persoon 44
Open Archives Initiative Protocol for Metadata Harvesting
45
Programma’s die alle repositories doorzoeken en de gegevens erin ophalen en indexeren. Met de gegevens die een harvester oplevert kunnen internetsites worden ontwikkeld waarmee je uiterst effectief wetenschappelijke informatie kunt doorzoeken. Op deze wijze is er een soort netwerk ontstaan waarin wetenschappelijke informatie wordt gedeeld en effectief kan worden ontsloten. 30
geschreven zijn. Metadata moeten dus bijkomend aan een objectomschrijving toegevoegd worden. Het aantal pagina's ingeven zou automatisch kunnen maar complexere gegevens als het vinden van de auteur in een tekst of trefwoorden toekennen vraagt een menselijke interventie. Het kan niet altijd automatisch gebeuren. Metadata zijn in feite een hulpmiddel dat gemaakt en gebruikt wordt om objecten te kunnen terugvinden. Je kan het vergelijken met het gebruik van een standaard woordenschat. Een van de meest gangbare metadata woordenschatten is het xml-schema ‘Dublin Core’.
3.2 Dublin Core Dublin Core is een set standaarden voor het RDF-dialect 46 van XML. Dublin Core is een werkinstrument dat wordt gebruikt om metadata toe te voegen aan een object. Het is zo genoemd omdat het idee geboren werd op een workshop in 1995 van metadata- en webspecialisten in het dorpje Dublin dat gelegen is in Ohio in de Verenigde Staten. De eerste standaard die werd gepubliceerd is de DCMES 47 V1.1. Deze bestaat uit 15 optionele metadata-elementen die willekeurig kunnen worden herhaald of weggelaten: 1. Titel: Dit is de naam waaronder het object gekend is. 2. Maker: De verantwoordelijke voor de creatie van het object, dit kan een persoon, organisatie of een dienst zijn. 3. Onderwerp: Hieronder vallen trefwoorden, sleutelzinnen of woorden uit een classificatieschema. 4. Beschrijving: Dit element omschrijft een abstract, een inhoudstafel of geeft een vrije tekst weer over het object. 5. Uitgever: De naam van de uitgever, dit kan een persoon, organisatie of een dienst zijn. 6. Medewerker: De naam van de medewerker voor de tot standkoming van het object, dit kan een persoon, organisatie of een dienst zijn. 7. Datum: Een belangrijke datum in het tot standkomen van het object, aanbevolen wordt ISO 8601 te volgen: JJJJ-MM-DD. 8. Type: Geeft het ‘format’ weer, hier is dan ook de aanbeveling om standaardomschrijvingen uit DCMI 48 te gebruiken. 46
Resource Description Framework is een standaard voor een metadatamodel dat gebruikt wordt door het World Wide Web Consortium (W3C)
47
Dublin Core Metadata Element Set
48
Dublin Core Metadata Initiative 31
Om het fysische formaat aan te geven dient men het formaat element te gebruiken. 9. Formaat: Geeft het media-type of de afmetingen weer. Hier mag ook de soft en hardware beschreven worden nodig om het object te consulteren. 10.Identifier: Het ISBN-nummer of URL 49 worden in dit element aangegeven. 11.Bron: Hier mogen de tekens of getal ingevuld, conform het identificatiesysteem. 12.Taal: Twee of drie lettercode, conform ISO639, die de taal van het object weergeeft. 13.Relatie: Geeft de gelijkaardige werken of onderwerpen, aanbevolen is conform het identificatiesysteem te werken. 14.Coverage: Geeft het tijdperk, geografische plaats, of een administratieve entiteit aan. Best gebruik je ook hier een gecontroleerde woordenschat zoals bijvoorbeeld TGN 50 . 15.Rechten: Hier worden de intellectuele rechten of copyright van het object beschreven. Een groot verschil met andere metadatastandaarden voor documenten bestaat erin dat er geen vooraf bepaalde volgorde is om de elementen te gebruiken. In bovenstaande lijst staat het element 'Titel' eerst en 'Rechten' laatst. Maar het kon net zo goed omgekeerd of in een alfabetische volgorde. Er zijn twee manieren om de elementen te gebruiken: met of zonder extensies. Als je ze gebruikt zonder extensies dan gebruik je ‘DC simple‘ of vereenvoudigd Dublin Core. Gebruik je de elementen met extensies dan gebruik je ‘DC qualified’. De extensies worden verfijningen of qualifiers genoemd. Bijvoorbeeld ‘gecreëerd’, ‘geldig’, ‘uitgegeven’ en ‘veranderd’ zijn de aanbevolen verfijningen van het element 'Datum'. Dus, dc.datum.gecreëerd, zou dan de naam zijn voor het element creatiedatum van een document in DC qualified. Verschillende elementen hebben schema's of een gecontroleerd vocabularium. Zo heeft het element 'Type' 12 aanbevolen termen: collectie, dataset, gebeurtenis, beeld, interactieve bron, service, software, geluid, tekst, fysisch object, stilstaand beeld, bewegend beeld. Aangezien het handmatig toevoegen van beschrijvende metadata een tijdrovend werk is, dient dit zoveel mogelijk automatisch te gebeuren. Het automatisch toevoegen van metadata kan zowel binnen een digitaal archief zelf als via diensten van derden plaatsvinden, waarbij deze diensten ook geografisch verspreid kunnen zijn. Dublin Core metadata voor het element 'onderwerp' worden dikwijls automatisch toegevoegd
49
Uniform Resource Locator
50
Thesaurus of Geographic Names 32
aan bronnen of webpagina's. Voor informatie over automatische toevoegingen kan je je informeren bij het Europese project ‘Desire 51 ‘ of het FAST 52 project van OCLC 53 . Ter illustratie volgt hieronder een voorbeeld van een record met zijn elementen gecodeerd in XML-codering. Zoals je kan zien volgt de eigenlijke metadata gedeelte na het ‘header’ deel. oai:arXiv:cs/0112017 2002-02-28 <setSpec>cs <setSpec>math <metadata> Using Structural Metadata to Localize Experience of Digital Content Dushay, Naomi Digital Libraries With the increasing technical sophistication of both information consumers and providers, there is increasing demand for more meaningful experiences of digital information. We present a framework that separates digital object experience, or rendering, from digital object storage and manipulation, so the rendering can be tailored to particular communities of users. Comment: 23 pages including 2 appendices, 8 figures 2001-12-14 e-print http://arXiv.org/abs/cs/0112017 <provenance xmlns="http://www.openarchives.org/OAI/2.0/provenance" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/provenance http://www.openarchives.org/OAI/2.0/provenance.xsd"> http://the.oa.org oai:r2:klik001 2002-01-01 51
http://www.desire.org/html/research/deliverables/D3.5/
52
Faceted Application of Subject Terminology http://www.oclc.org/research/projects/fast/default.htm 53
Online Computer Library Center op http://www.oclc.org/ 33
<metadataNamespace>http://www.openarchives.org/OAI/2.0/oai_dc/
3.3 METS Een digitale bibliotheek met elektronische publicaties onderhouden betekent veelal ook de metadata ervan onderhouden. De metadata nodig voor het succesvol beheer en gebruik van digitale objecten is verschillend van de metadata gebruikt voor het beheer van collecties van geprinte of fysieke materialen. Een bibliotheek kan beschrijvende metadata opslaan over een werk in haar collectie, maar de pagina’s zullen niet uit elkaar vallen als de bibliotheek faalt in het opslaan van de structurele metadata over hoe het boek samengesteld is. Studenten zullen het boek kunnen gebruiken zelfs als de bibliotheek vergeet te vermelden op welke pers of waar het gedrukt werd. Dit gaat echter niet op bij een elektronisch bewaarde versie van datzelfde boek. Zonder structurele metadata zijn de afbeeldingen of teksten van het digitale werk van weinig nut. Zonder de technische metadata die het digitale proces overkoepelen weten de gebruikers niet of de digitale versie wel een juist beeld weergeeft van het origineel. Voor interne beheersdoeleinden en om de actualiteitswaarde van hun objecten te kunnen garanderen moet een bibliotheek toegang hebben tot de technische metadata om periodiek de gegevens te kunnen migreren en te actualiseren. Het MOA2-project 54 speelde hierop in door een codeerformaat te voorzien voor beschrijvende, administratieve, en structurele metadata die kon gebruikt worden voor elektronische publicaties die bestonden uit teksten en gescande digitale weergaven. METS 55 bouwde verder op het werk dat geleverd werd door MOA2 en ontwikkelde een XML-schema om metadata te coderen. Dit XML-schema komt tegemoet aan de beheerseisen van digitale objecten in een repository en het komt ook tegemoet aan de uitwisselingseisen tussen verschillende repositories of tussen repositories en hun gebruikers. Naargelang zijn toepassing, kan een METS-document gebruikt worden in de rol van SIP 56 , AIP 57 of DIP 58 binnen het OAIS 59 referentiemodel. Een METS-document bestaat uit zeven hoofdsecties: 1. METS Header: Deze sectie bevat metadata die het object omschrijft zoals de auteur, uitgever, enz. 54
Making of America II
55
Metadata Encoding and Transmission Standard is een initiatief van Digital Library Federation
56
Submission Information Package
57
Archival Information Package
58
Dessimination Information Package
59
Open Archival Information System 34
2. Descriptive Metadata: Deze kan verwijzen naar externe beschrijvende metadata die buiten het METS document aanwezig is, bijvoorbeeld een MARC-record in een OPAC of in een EAD-zoekmachine 60 op een WWW server. Deze sectie kan ook interne metadata bevatten of een combinatie van beiden. 3. Administrative Metadata: Ook in deze sectie kan de informatie intern opgeslagen worden of ze kan verwijzen naar een extern bestand. De informatie gaat over hoe de bestanden werden gemaakt en opgeslagen en over de intellectuele eigendomsrechten. Relaties tussen hoofdbestand en afgeleid bestand, transformatie en migratiegegevens komen hier aan bod. 4. File Section: Hierin worden alle bestanden opgelijst die betrekking hebben op de digitale inhoud van het beschreven object. elementen mogen gegroepeerd worden in elementen. 5. Structural Map: Dit is het hart van een METS-document. Het omschrijft de hiërarchische structuur van het digitaal object en linkt de elementen uit deze structuur met de content files en hun metadata. 6. Structural Links: Laat de METS makers toe om de hyperlinks uit de structural map te registreren in archiveringwebsites. 7. Behavior: Kan gebruikt worden om uitvoerbare programmacode te laten werken. Het METS schema levert een flexibel mechanisme om beschrijvende, administratieve en structurele metadata van een digitaal object op te stellen. Ook kunnen wij hiermee de complexe links tussen de verschillende metadata vormen coderen. Het kan daarom gebruikt worden als standaard voor de uitwisseling van digitale objecten tussen repositories.
3.4 MODS MODS 61 is een XML-schema dat ontwikkeld werd door ‘Library of Congress Network Development’ en ‘MARC 62 Standards Office’. Het is afgeleid van MARC 21 en kan op zijn eigen bestaan of complementair zijn aan andere metadata standaarden. Het bestaat uit een subset van MARC velden en gebruikt eerder taal gebaseerde tags dan numerische tags. MODS kan gebruikt worden als ZING 63 wat staat voor een uitbreidingsschema van METS dat ondersteund wordt door de ‘Library of Congress’ van de Verenigde Staten van Amerika. Z39.50 is een standaardprotocol uit de jaren 80 dat de uitwisseling van bibliografische informatie tussen verschillende informatiesystemen mogelijk maakt. 60
Encoded Archival Description
61
Metadata Object Description Schema
62
MAchine-Readable Cataloging
63
Z39.50 International Next Generation 35
De norm legt een strikt protocol op in verband met het zoeken en vinden van bibliografische MARC-records die op andere computers opgeslagen zijn. De onderliggende technologie dateert van de pre-web periode en is onderverdeeld in 18 verschillende functies die nodig zijn ter ondersteuning van toepassingen zoals zoeken, grasduinen, retrieval, sorteren en onder andere de, authenticiteit. Er kwam een zekere kritiek op dit algemeen gebruikt en krachtig instrument omdat het een complexe norm en een pre-webprotocol is. Webprotocols zijn gebaseerd op uitwisseling van boodschappen en de Z39.50 toestand is gebaseerd op connecties en sessies. Vroeger was de telecommunicatie vrij duur, zodat de nadruk lag op kleine gecodeerde berichten. ZING gebruikt XML en brengt het aantal functies van 18 terug op 1 en maakt ook gebruik van SRW 64 en SRU 65 . Afgeleiden van ZING zijn ZOOM 66 , Ez39.50 67 en ZEERex 68 . MODS-elementen zijn eenvoudiger dan MARC 21 elementen en zijn rijker dan de DUBLIN CORE elementen. Ze zijn meer compatibel met bibliotheekgegevens dan de DUBLIN CORE elementen. De mogelijkheid in MODS om gedetailleerde objectdelen te beschrijven werkt goed samen met de ‘Structural Map’ sectie van METS in het geval van complexe digitale objectbeschrijvingen. Een voorbeeld van een MODS-Record: <mods> Metadata demystified Brand Amy author text 2003 Bethesda, MD NISO Press 1-880124-59-9
64
Searcg/Retrieve over Web
65
Search/Retrieve using URL’s
66
ZING Object Oriented Method
67
Een eenvoudige implementatiemodule
68
Z39.50 Explain, Explained, ReEngineered, in XML 36
3.5 RDF en ‘Crosswalks’ 3.5.1 RDF Men kan zich de vragen stellen waarom wij zoveel metadatastandaarden nodig hebben en hoe kan de uitwisselbaarheid hiertussen verzekerd worden? De verschillende metadatastandaarden zijn ontstaan door de verschillende behoeften die er bestonden. Een technisch rapport kan een MARC metadatabeschrijving hebben in een online catalogus, in een FGDC 69 beschrijving als deel van het NSDI 70 Clearinghouse mechanisme en in een ingesloten set van Dublin Core elementen. Het RDF 71 is een datamodel voor de bronnen op het web die een mechanisme voorzien voor geïntegreerde, meervoudige metadata schema’s. In een RDF is er een ‘namespace’ voorzien die verwijst naar het gebruikte metadata schema dat te vinden is op het web. Er kunnen zo meerdere ‘namespaces’ gedefinieerd worden die het toelaten om elementen uit meerdere schema’s te combineren tot één enkele objectbeschrijving. Meerdere beschrijvingen, gecreëerd op verschillende tijden voor diverse doeleinden kunnen zo aan elkaar gelinkt worden. RDF wordt over het algemeen in XML uitgedrukt. Als voorbeeld volgt een Dublin Core beschrijving in RDF: Metadata Demystified Brand, Amy Daly, Frank Meyers, Barbara metadata Presents an overview of metadata conventions in publishing. NISO Press The Sheridan Press 2003-07 application/pdf
69
Federal Geographic Data Committee
70
National Spatial Data Infrastructure
71
Resource Description Framework, een ontwikkeling van W3C (World Wide Web Consortium) 37
3.5.2 Crosswalks Het kruislings uitwisselen van metadata is verder vereenvoudigd door het gebruik van metadata crosswalks. In onderstaand crosswalk mapping voorbeeld zie je een eenvoudige recordomschrijving in MARC met de overéénstemmende omschrijving in Dublin Core: 100 a Shakespeare, William d 1564-1616 Shakespeare, William, 1564-1616> 245 a Hamlet Hamlet> 260 a New York: b Penguin Books, c 2003 Penguin Books> 2003> De overeenkomst is hier goed te zien tussen het veld MARC 100, het auteurs veld en tussen het Dublin Core veld . Een volledige MARC naar Dublin Core Crosswalk tabel kan je vinden op volgende url: http://www.loc.gov/marc/marc2dc.html. Een crosswalk laat toe om metadata ontworpen door een gemeenschap te laten gebruiken door een andere groep die een andere metadata standaard gebruikt. Het succes bij een individuele recordomzetting hangt af van de gelijkheid van beide schema’s. De gedetailleerdheid van de elementen in het doelschema tegenover deze van de bron spelen een rol alsook de compatibiliteit van de regels om de elementen op te vullen van elk schema. Crosswalks zijn belangrijk voor virtuele collecties waar een object ontworpen wordt door verschillende bronnen en waar verwacht wordt dat ze handelen als één geheel voor een eenvoudige zoekmachine. Deze crosswalks hebben een sleutelpositie en zijn arbeidsintensief om te ontwerpen en te onderhouden. Vooral het mappen van oudere schema’s met minder elementen naar meer gedetailleerde schema’s met meer elementen is problematisch.
38
4 De collecties van de Koninklijke Bibliotheek van België 4.1 Inleiding In de Koninklijke Bibliotheek van België wordt de catalogus van de gedrukte documenten bijgehouden in het VUBIS 72 bibliotheekbeheer systeem. De gedigitaliseerde collecties staan los van VUBIS en de OPAC 73 . De repository is er dus niet aan gekoppeld. Buiten het opnemen van de elektronische deponeringen van ‘digital born’ documenten werkt de Koninklijke Bibliotheek van België aan de digitalisering van collecties die als object gedigitaliseerd worden. Voor een aantal collecties volgen de beschrijvingen en hoe ze in het DigiTool systeem verwerkt worden. In de figuren die volgen worden soms ‘Print Screen’ schermafdrukken getoond die niet altijd Nederlandstalig zijn. Dit komt door het feit dat ze genomen werden in de testperiode van de DigiTool 2.4 omschakeling naar de versie 3.0.
4.2 DigiTool 4.2.1 E-depot 4.2.1.1 Problematiek Het Wettelijk Depot bij de Koninklijke Bibliotheek van België werd ingesteld door de wet van 8 april 1965 74 en door het Koninklijk Besluit van 31 december 1965 75 . Deze wet definieert de benaming publicatie in ruime zin. Buiten de gedrukte publicaties moeten alle producten van de grafische kunst, met inbegrip van fotografische werken, worden gedeponeerd. Praktisch betekent dit dat onder andere monografieën, tijdschriften, kaarten en plattegronden, kranten en muziekpartituren gedeponeerd worden bij het Wettelijk Depot. De gedeponeerde werken worden vermeld in de Belgische Bibliografie 76 .
72
Ontwikkeld door de Vrije Universiteit Brussel is een compleet en geïntegreerd bibliotheekpakket dat naast catalogiseren en de publiekscatalogus ook modules bevat voor het verwerken van de bestel-, uitleen-, en tijdschriftenadministratie. De programmeertaal is MUMPS
73
Online Public Access Catalog
74
Verschenen in het Belgisch Staatsblad van 18 juni 1965
75
Verschenen in het Belgisch Staatsblad van 18 januari 1966
76
URL: http://www.123.be/catalogues/bibliographies/biblio_belgique/biblio_belg_nl.html 39
In België is er momenteel geen wetgeving voor een depot van elektronische publicaties. Regelmatig worden er elektronische publicaties, als begeleidend materieel bij gedrukte publicaties of als zelfstandige publicaties, gedeponeerd in de vorm van cd-rom’s. Er heerst dan ook enige verwarring hoe de elektronische publicaties aanwezig op het web, zoals nieuwsbrieven of tijdschriften, moeten gedeponeerd worden. In het voorjaar 2003 besliste de Koninklijke Bibliotheek van België om een systeem op te starten voor het verzamelen, opslaan en beschikbaar stellen van publicaties die verschijnen op het web. De publicaties worden opgeslagen op een server en beschikbaar gesteld via het catalogussysteem en de OPAC. Er zijn helaas geen budgetten voorhanden om te voorzien in een systeem dat de beschikbaarheid van deze publicaties binnen 10 of 20 jaar waarborgt. De bewaring op lange termijn vormt een probleem. De technologische markt evolueert zeer snel en dient nauwgezet gevolgd te worden om juiste keuzes te kunnen maken die een beschikbaarheid op lange termijn kunnen garanderen. Gezien er momenteel geen wettelijke deponeringplicht bestaat op elektronische publicaties, wordt aan uitgevers gevraagd om vrijwillig te deponeren. Deze uitgevers worden niet gezocht in het commerciële circuit, maar in de bedrijfswereld, academische wereld en bij de overheid. Publicaties van uitgevers die vrijwillig deponeren worden bewaard en ontsloten. Het elektronisch depot is opgestart en er dient nu gezocht achter de nodige fondsen om deze publicaties voor de volgende generaties te bewaren.
4.2.1.2 Omgeving Als besturingssoftware werd voor Linux gekozen omwille van het open karakter en vanwege de prijs. De gebruikerssoftware moet instaan voor de verwerking en opvraging van elektronische publicaties, de systeemadministratie en voor zijn eigen beheer. Er wordt gewerkt via een elektronische brievenbus waar de uitgever via een wachtwoord op inlogt. Via een aangifteformulier vult hij bibliografische velden in zoals de titel, de auteurs, de uitgever, de publicatiedatum en de reeks waartoe de publicatie behoort. Het elektronische document wordt toegevoegd als bijlage aan dit formulier. Vanuit de elektronische brievenbus worden de elektronische documenten opgeslagen in een databank. Aan elk opgeslagen elektronisch document wordt een toegangsweg toegekend. De bij het document horende metadata worden opgeslagen, gelijktijdig met het document, in een eigen databank. Volgende metadata worden opgeslagen: •
bibliografische metadata, geleverd door de uitgevers en gestructureerd in een aantal velden.
•
de historiek van het opslaan.
•
technische metadata, nodig voor het bewaren op lange termijn.
40
4.2.1.3 E-depot technisch bekeken De Koninklijke Bibliotheek van België heeft tot taak het verwerven, opslaan en beschikbaar stellen van elektronische documenten. Deze doelstellingen worden gerealiseerd via het elektronisch depot. De catalogus van het elektronisch depot is beschikbaar via het internet. De documenten kunnen enkel geraadpleegd worden in de Koninklijke Bibliotheek zelf. De technische realisatie wordt uitgevoerd door Ex Libris, met het product DigiTool. ‘ALEPH’ is niet alleen de eerste letter uit het Hebreeuws alfabet maar staat ook voor het geïntegreerd bibliotheekbeheerssysteem dat door ‘Ex Libris’ werd ontwikkeld in 1980. Hun twintigjarige expertise kwam goed van pas toen in 2000 met de ontwikkeling van het DigiTool pakket werd gestart. Het DigiTool pakket is een middel dat verzekert dat digitale gegevens kunnen verworven, gemanipuleerd, gedeeld, opgezocht en verdeeld worden in overeenstemming met de heersende industriële standaarden. Deze standaarden omvatten: 1. Data structuren: o Dublin Core, o MARC 21 77 , o MAB 78 , o TEI 79 , o EAD 80 , o VRA 81 , o CIMI 82 , o REACH 83 . 2. Data content of paging met inhouden in diverse formaten: o TIFF, o GIF, o JPEG, o PDF, o SGML, o HTML, o XML. 3. Data uitwisseling via: o Z39.50, o SQL 84 , o HTTP, o OAI. 4. Informatie volgens industriële syntax-standaarden: o SGML, 77
MAchine-Readable Cataloging
78
Maschinelles Austauschformat für Bibliotheken
79
Text Encoding Initiative
80
Electronic Archive Description
81
Visual Resources Association
82
Computerized Interchange of Museum Information
83
Records Export for Art and Cultural Heritage
84
Structured Query Language 41
o o o
HTML, XML, RDF.
DigiTool zelf bestaat uit vier hoofdmodules: 1. Een repository met: a. Digitale objecten die in een NFS 85 opgeslagen zijn of zich bevinden op een apart systeem dat bereikbaar is via URL’s. b. Metadata die in een op ORACLE gebaseerde database zijn opgeslagen. 2. Een reeks administratieve modules, ontworpen om de beheerders toe te laten hun vier hoofdactiviteiten uit te voeren: a. Ingesting: behandelt het laden van objecten in de repository, b. Meditor: laat toe om metadata te maken, te wijzigen of te schrappen, c. Collectiemanagement: laat toe om de objecten zodanig te structureren dat de eindgebruiker vlotter kan navigeren, d. Systeem administratie. 3. Een gesofistikeerde opzoekvoorziening die het toelaat om de site te parametriseren en te personaliseren naar de behoeftes van de gebruiker, 4. De deponeringsmodule beheert de digitale uploads volgens een interne databasepatroon in een externe server zoals LDAP 86 . Via de link http://dgtl.kbr.be:8881/main, komt u terecht op volgende pagina:
85
Network File System
86
Lightweight Directory Access Protocol: is een netwerkprotocol dat beschrijft hoe gegevens uit directoryservices benaderd moeten worden over bijvoorbeeld TCP/IP 42
Figuur 1: starten met DigiTool
Hier zijn enkel de modules ‘Resource Discovery’ en ‘Deposit’ toegankelijk voor gebruikers. Via ‘Resource Discovery’ kan u opzoekingen verrichten, deze module is in feite de OPAC van ‘DigiTool 3.0’. Via ‘Deposit’ kunnen elektronische documenten gedeponeerd worden. Om documenten te kunnen deponeren, moet u zich eerst geregistreerd hebben. Registratie gebeurt ook in de module ‘Resource Discovery’. Als lezer kan u opzoekingen verrichten zonder zich aan te melden, in dit geval bent u ‘bezoeker’. U hebt evenwel meer mogelijkheden wanneer u zich registreert.
43
4.2.1.3.1
Module ‘Resource Discovery’
Om zich aan te melden als lezer gaat u naar ‘Resource Discovery’. U krijgt onderstaand scherm te zien:
Figuur 2: eenvoudige opzoeking en taal kiezen
Wanneer u verder wil werken in het Nederlands, klikt u op rechts bovenaan op het wereldbol-icoontje.
44
Een pop-upvenster verschijnt waarin u de taal van uw keuze kan aanklikken:
Figuur 3: taalkeuze
45
Om te registreren, gaat u eerst naar ‘Mijn Ruimte’ en kiest u vervolgens voor ‘Registreer’. U komt dan op volgende pagina:
Figuur 4: registratieaanvraag doorsturen
U vult het formulier in en klikt rechtsboven op ‘Stuur door’. Uw aanvraag wordt nagekeken, en via e-mail ontvangt u bericht wanneer uw registratie aanvaard werd. Via de ‘Resource Discovery’ module kunnen OPAC opzoekingen gedaan worden in de diverse collecties die worden aangeboden, zie het voorbeeld in figuur 5.
46
Figuur 5: overzicht van de toegankelijke databanken
47
Je kan navigeren tot aan een consulteerbaar document zelf zoals getoond in figuur 6.
Figuur 6: consulteerbaar zoekresultaat
4.2.1.3.2
Module ‘Management’
De ‘Management’ module is voorbehouden aan de systeembeheerders en is niet publiek toegankelijk. In deze module gebeurt de manipulatie op: • Objecten: Metadata en objecten kunnen hier verwijderd worden. Indien ze afzonderlijk voorkomen kunnen ze ook afzonderlijk verwijderd worden. Hier kan ook metadataexport gebeuren voor gebruik in andere toepassingen. • Indexen: Er kunnen ‘fulltext’ indexen aangemaakt worden en metadata kunnen geherindexeerd worden. • Grafische objecten: Hier kunnen JPEG 2000 objecten en thumbnails aangemaakt worden. • Meditor: Is een client-programma dat toelaat om objecten manueel toe te voegen in een repository. Het geeft de mogelijkheid om metadata toe te voegen of aan te 48
passen en de toegangsrechten van gebruikers en uitgevers te beheren. Vooropgezette metadata kunnen gebruikt worden en kunnen gecreëerd in Dublin Core of in Marc 21. Via Z39.50 kan bibliografische metadata gekopieerd worden van een server of men kan vertrekken van de gegevens van een ander object.
4.2.1.4 Deponeringen Als uitgever bent u verplicht zich eerst te registeren. U doorloopt eerst de registratie zoals hierboven beschreven. Wanneer u voor de eerste maal een document wil deponeren, gaat u terug naar de startpagina van DigiTool (http://dgtl.kbr.be:8881/main) en kiest daar voor de optie ‘Deposit’. U krijgt een scherm waarin u uw login en wachtwoord ingeeft:
Figuur 7: eerste deponering
Hierna moet u aangeven in welke administratieve eenheid u uw document(en) wenst te deponeren. Ook wordt u gevraagd een korte motivatie te geven alvorens u op ‘Send’ klikt. Nadat u zich als deposant hebt aangemeld, wordt uw aanvraag nagekeken. U ontvangt een bericht wanneer uw registratie aanvaard werd. Vanaf nu kan u documenten deponeren.
49
Figuur 8: ontvangst bevestiging van registratie
4.2.1.4.1
Module ‘Deposit’
Om elektronische documenten te deponeren, kiest u voor optie ‘Deposit’ via link http://dgtl.kbr.be:8881/main . Zich aanmelden kan u met uw gebruikersnaam onder ‘User Name’ en met wachtwoord onder ‘password’ die u zelf gekozen heeft. Elektronische documenten deponeren via DigiTool gebeurt in verschillende stappen. Eerst vult u een aantal velden in, verbindt het formulier met het object en stuurt u alles door. Vervolgens wordt deze deponering door de Koninklijke Bibliotheek van België onderzocht en er zijn drie opties: • Koninklijke Bibliotheek van België keurt uw deponering goed, en u krijgt hiervan een bevestiging. • Koninklijke Bibliotheek van België vraagt om een aanpassing of om extra informatie. Nadien beslissen zij over de goedkeuring. • Uw deponering wordt geweigerd. Zolang de publicaties niet aanvaard zijn, behoudt u als uitgever het overzicht van de publicaties die werden gedeponeerd. 50
Figuur 9: deponering mappen
Zoals u ziet, vertoont dit scherm vele overeenkomsten met een e-mailprogramma. Links ziet u de volgende mappen • Concept: hier worden de deponeringen bewaard die u nog niet hebt doorgestuurd, • Doorgestuurd: na doorsturen komt uw deponering hier terecht, • Teruggekeerd: hier komen de deponeringen terecht waarvan de Koninklijke Bibliotheek van België een aanpassing of extra informatie vraagt, • opnieuw doorgestuurd: bevat de deponeringen die na aanpassing of met extra informatie opnieuw doorgestuurd werden, • geweigerd: bevat de deponeringen die door de Koninklijke Bibliotheek van België geweigerd werden, • goedgekeurd: bevat de deponeringen die door de Koninklijke Bibliotheek van België goedgekeurd werden.
51
4.2.1.4.2
Module ‘Approver’
In deze module, die voorbehouden is aan de bibliothecarissen en beheerders van het e-depot, worden de gedeponeerde objecten verder afgewerkt. De inbox is in feite een brievenbus waar de objecten in terechtkomen. De bibliothecarissen kijken de inbox-inhoud na en hebben de volgende mogelijkheden: • Het gedeponeerde document goedkeuren en laten opnemen in de repository. Hierna verdwijnt het uit de inbox en de uitgever ontvangt een bericht dat het document werd aanvaard. • Het gedeponeerde document terugzenden met de vraag om meer bibliografische metadata te krijgen. • Het gedeponeerde document, mits motivering, weigeren. Via het client programma ‘Meditor’ beheert de bibliothecaris de toegangsrechten van het object en doet een controle op trefwoorden en bibliografische metadata die door uitgever werden aangeboden. De technische metadata worden uit het document gehaald en bewaard.
4.2.1.4.3
Module ‘Collection management’
Ook deze module is exclusief voorbehouden voor de bibliotheekmedewerkers. De module laat toe om objecten die bij elkaar horen samen te brengen. Objecten zoals periodieken, prenten over eenzelfde thema, kaarten van een bepaalde provincie of monografieën.
4.2.1.4.4
Deponeren van een monografie
Om een nieuwe deponering te doen, kiest u linksboven voor ‘Nieuwe Deponeeractiviteit’. Hierna krijgt u diverse keuzemogelijkheden zoals bijvoorbeeld de keuze tussen ‘Depot van monografieën’ of ‘Depot van tijdschriften’.
52
Wanneer u voor ‘Depot van monografieën’ kiest, krijgt u een invulformulier waarmee u het elektronisch document kan beschrijven.
Figuur 10: invulformulier depot van monografieën
U vult dit formulier in. De velden met een ‘*’ dienen verplicht ingevuld te worden. Klik vervolgens rechts onder op ‘Volgende’. Merk op dat u rechtsboven kunt volgen in welke fase van het deponeringsproces u zich bevindt. Vervolgens moet u een ‘Verklaring van Copyright’ aanvaarden.
53
U kan slechts doorgaan na aanvinken van ‘Ik aanvaard de voorwaarden’.
Figuur 11: aanvaarden voorwaarden
Na onderaan op volgende te klikken, komt u op de pagina waar u uw bestand(en) moet opladen.
54
Figuur 12: opladen bestanden
Merk op dat het hierbij moet gaan om een tekstdocument dat de extensies doc, pdf of rtf kan hebben en dat een maximale bestandsgrootte van 5000 KB mag hebben. U hebt de mogelijkheid om een label en/of opmerking aan uw document toe te voegen. Na opnieuw ‘Volgende’ te kiezen, komt u aan de laatste stap.
55
Figuur 13: overzicht bevestigen
Hierbij krijgt u een beknopt overzicht van de informatie die u hebt ingegeven en wordt u gevraagd om te bevestigen. U hebt verschillende mogelijkheden: • U merkt op dat u in één van de voorgaande stappen een fout hebt gemaakt en kiest ‘Terug’, zo kan u uw fout nog herstellen. • U bent tevreden en wil uw deponering onmiddellijk doorsturen en kiest ‘Doorsturen’. • U bent tevreden, maar wil toch nog even wachten vooraleer de deponering definitief door te sturen. Als u bijvoorbeeld enkele gegevens of bestanden later nog wil toevoegen, kiest u ‘Bewaren’. • U beslist om toch niet door te gaan met deze deponering, dan kiest u ‘Annuleren’.
56
Indien u hebt gekozen voor ‘Doorsturen’, komt uw deponering terecht in de map ‘Doorgestuurd’. U ziet dan een lijstje van al uw doorgestuurde deponeringen en kan via het icoontje met het oog, rechts onder ‘Actie’, uw deponering terug bekijken.
Figuur 14: overzicht doorgestuurde deponeringen
57
Indien u hebt gekozen voor ‘Bewaren’, komt de deponering terecht in de map ‘Concept’.
Figuur 15: bewaarde deponeringen
U vindt hier een lijstje met al uw bewaarde deponeringen met titel, type, datum van aanmaak. Vanaf hier kan u per bewaarde deponering ook verdere actie ondernemen. Uiterst rechts vindt u onder ‘Actie’ de verschillende mogelijkheden: • Klik op het potlood-icoontje als u uw deponering wilt bewerken, • Klik op het kruisje als u uw deponering wilt verwijderen, • Klik op het envelopje als u uw deponering wilt doorsturen. Wanneer u kiest voor ‘Bewerken’, via het potlood-icoontje, komt u terecht op de pagina zoals getoond in figuur 16.
58
Figuur 16: bewaarde deponeringen bewerken
Navigatie via de tabladen linksboven laat u toe om de ingevoerde informatie te bewerken. Nadien kan u opnieuw kiezen voor ‘Bewaren’, ‘Doorsturen’ of ‘Annuleren’. Nadat uw deponering definitief doorgestuurd is, wordt er door de Koninklijke Bibliotheek van België beslist of het document zal aanvaard worden. Indien dit het geval is, krijgt u bericht en zal u merken dat het betreffende document in de ‘Deposit’-module is verhuisd van de map ‘Doorgestuurd’ naar de map ‘Goedgekeurd’. Indien de Koninklijke Bibliotheek van België enige wijzigingen verlangt, komt het terecht in ‘Teruggekeerd’. U wordt op de hoogte gebracht van de aan te brengen veranderingen en kan het document daarna opnieuw doorsturen. Het komt dan in de map ‘Opnieuw doorgestuurd’. Indien de Koninklijke Bibliotheek van België het document verwerpt, komt het terecht in de map ‘Geweigerd’.
59
4.2.1.5 Publicaties halen op websites Instellingen zoals de NBB 87 , FOD Economie 88 en ELIA 89 hebben de goedkeuring gegeven om elektronische documenten van hun websites te downloaden. De bijhordende URL’s en metadata worden via een MSACCESS 90 tabel aangeleverd. Het afhalen van elektronische publicaties zit verwerkt in de Ingest module van DigiTool.
4.2.1.5.1
Access tabel en ‘.csv’ bestand
In figuur 17 is er een voorbeeld opgenomen van een MSACCESS tabel van de NBB.
Figuur 17: tabel met de objectbeschrijvingen
87
Nationale Bank van België
88
Federale Overheidsdienst economie
89
Naamloze vennootschap, ontstaan uit Electrabel en SPE, die instaat voor het beheer van het electriciteitsnet
90
Microsoft Access database software toepassing 60
Deze tabelgegevens worden dan geëxporteerd in een ‘.csv 91 ’ bestand. Een record of object beschrijving ziet er dan uit als volgt:
The pricing behaviour of firms in the euro area: new survey evidence;Fabiani S.;Druant M.;Hernando I.;2005;Brussels;National Bank of Belgium;eng;mb;http://www.nbb.be/doc/ts/publications/wp/wp76En.p df;Working Paper 76
Figuur 18: record beschrijvinguit een '.csv' bestand met punt-komma scheidingsteken
De informatie over de recordvelden zelf wordt aangeleverd in een XML-bestand of mappingfile.
Figuur 19: deel van het beschrijvend XML-bestand
91
Comma Separated Values: Tekst met scheidingstekens of tekst die is gescheiden met tabs, komma's of spaties 61
4.2.1.5.2
Module ‘Web Ingest’
Via de ‘Web Ingest’ module komen de juiste gegevens in Dublin Core velden terecht. Het ‘.csv’ bestand, gedistilleerd uit de MSACCESS tabel en het XML-bestand met de veldomschrijvingen zorgen samen voor de aanlevering van de data en de omschrijving.
4.2.2 Kaarten De historische kaarten over de geografie van Belgische gemeenten zijn eigendom van de Koninklijke Bibliotheek van België en worden bewaard in de afdeling ‘Kaarten en plans’.De kaarten en de erbij horende leggers worden in samenwerking met de KUL 92 gedigitaliseerd. De Koninklijke Bibliotheek van België en de KUL scannen en archiveren de gedigitaliseerde kopieën en zorgen voor de beschikbaarstelling. De gegevens worden in eerste instantie beschikbaar gesteld via het internet onder de vorm van een miniatuurafbeelding. Beide instellingen zullen gegevens verkopen onder hoge resolutie. In totaal gaat het om 2308 kaarten 93 . Na enige tijd bij het kadaster te hebben gewerkt begon Philippe-Christian Popp (1805-1879) rond 1842 met de uitgave van zijn atlas. Hij bleef eraan werken tot zijn dood. Op dat moment waren alle gemeenten van de provincies Oost- en West-Vlaanderen, Brabant, Henegouwen, Luik en een deel van de provincie Antwerpen getekend in de drukkerij van Popp te Brugge. Deze historische geografie van de Belgische gemeenten is van onschatbare waarde. Samen met het primitieve kadaster, beëindigd in 1834, geven de Popp-kaarten een mooi beeld van de evolutie van de ruimtelijke ordening in België tot ca. 1880. Op basis van vergelijkend onderzoek bepaalde men het precieze jaar van uitgave.
92
Katholieke Universiteit van Leuven
93
Atlas cadastral parcellaire de la Belgique 62
4.2.2.1 Scanning
Figuur 20: JumboScan van Lumiere Technology
De kaarten en de erbij horende leggers worden gescand met een resolutie van 300 dpi. JumboScan is momenteel het meest performant toestel dat op de markt te verkrijgen is. De Jumboscan kan digitale beelden produceren in 240 Mb ‘grayscale’ 8 bit afbeeldingen of 1.35 Gb in RGB 48 bits. Via een PCI kaart is hij rechtstreeks gekoppeld aan een PC en heeft plug-ins voor de meeste softwaretoepassingen. Het ontwikkelen van deze scanner nam vijf jaar in beslag en resulteert met 280 Mbits/sec in de snelste scanner ter wereld. De JumboScan heeft ook andere troeven van wereldformaat: • met 20.000 x 12.000 pixels bezit hij de hoogste resolutie, • de grootste sensor met een afmeting van 78 x 130 mm, • hij kan een scanoppervlak aan van 5 x 2 m, • de totale scantijd – RGB & GIS – bedraagt amper 26 seconden.
4.2.2.2 Workflow De workflow voor de verwerking van de Popp kaarten is als volgt: 1. Scannen van de kaarten: Een deel van de collectie moet nog worden ingescand. De overige worden in TIFF-formaat bewaard op een cdserver. 2. Bibliografische metadata: Er zijn een groot aantal records waar reeds bibliografische metadata aan werden toegekend. Een record kan betrekking hebben op meerdere kaarten. De bibliografische metadata zijn opgeslagen in ‘vubis0-formaat’ en deze gegevens worden dan geëxporteerd via een ‘.csv‘ bestand.
63
3. Verwerking in DigiTool: ‘Maps’ is de administratieve eenheid die hier gebruikt wordt. De verwerkingsstappen zijn: • Omzetting TIFF naar JPEG: Op de CD-server worden de TIFF-bestanden omgezet naar JPEGbestanden. Op elke kaart wordt een watermerk geplaatst. • Er wordt een tabel gemaakt met: o Bibliografische metadata, o De URL’s van de kaarten, o De bibliografische metadata die betrekking hebben op meer dan een kaart, dit zorgt nog voor problemen. • Deze tabel wordt geïmorteerd in DigiTool. • Toevoegingen: o Thumbnails 94 , o Bibliografische metadata zoals de naam van de provincie. • Technische metadata: o Dezelfde voor elke kaart: scanner, resolutie, formaat. o Datum van de scan. 4. Beschikbaarstelling: De gebruikers op het internet krijgen de metadata en de thumbnail te zien. Gebruikers in de Koninklijke Bibliotheek van België zien de JPEG, mogelijk komt hier in de toekomst verandering in. Als er een behoefte is om de kaarten te krijgen in een TIFF-formaat, dan kan dit via een aanvraag op de dienst ‘Fotografie’.
4.2.2.3 Opslag De kaarten worden opgeslagen in een niet gecomprimeerd TIFF bestandsformaat en op een server bewaard. De Koninklijke Bibliotheek van België zorgt voor de archivering in het DigiTool systeem. Het auteursrecht op de elektronische kopieën en bestanden is in handen van de Koninklijke Bibliotheek van België. Uiteindelijk worden de gegevens opgeslagen op servers van de Koninklijke Bibliotheek van België en van de KUL campusbibliotheek. De bibliografische metadata, de technische metadata en de administratieve metadata worden ingevoerd door de Koninklijke Bibliotheek van België. De metadata worden beschikbaar gesteld aan de KUL, maar het auteursrecht op deze metadata blijft in handen van de Koninklijke Bibliotheek van België.
94
Miniatuurafbeelding van een foto, ter grootte van een icoon, duimnagel of postzegel. Thumbnails worden gebruikt voor het weergeven van een grote serie plaatjes op een scherm. Naar behoefte kan ieder plaatje op origineel formaat bekeken worden. Vooral van belang op internet omdat grote plaatjes downloaden en weergeven veel tijd kost. 64
4.2.2.3.1
Invoer metadata
De invoer gebeurt met het KBR-formaat in het Vubis systeem. Er wordt een meerniveau beschrijving gebruikt: •
Vubis beschrijving op het lager niveau: BB Plan parcellaire de la commune de Austruweel : avec les mutations / publié avec l'autorisation du gouvernement sous les auspices de Monsieur le Ministre des Finances par P. C. Popp. - 1:5000. - [Bruges : P.C. Popp, s.d.]. - 1 plan en 2 f. : lith. ; 79x67 cm chacune (IDN 1530778 Fait partie de : Province d'Anvers : arrondissement d'Anvers : canton d'Anvers / P.C. Popp ; *1) AA ER HR PK WBS 0381 [M-CEP] OW GA KP -
NAKIJKEN/VERBETEREN ( BB 1530769 )
Ty: 5/1 Ta: fre
1 2 3 4 5
[000] bb $l fre $p . $e k $i . $n bl $v . $c . $d [000] bb $l fre $p . $e k $i . $n BL $v . $c . [001] BB-1530769 [100] .1 $3 1010205 $a Popp $b Philippe Christian $f 1805-1879 [245] 1b $* 1 $a Plan parcellaire de la commune de Austruweel $e avec les mu tations $f publié avec l'autorisation du gouvernement sous les auspice s de Monsieur le Ministre des Finances par P. C. Popp 6 [254] bb $a 1:5000 7 [260] 0b $a [Bruges $c P.C. Popp $d s.d.] 8 [290] bb $a 1 plan en 2 f. $c lith. $d 79x67 cm chacune
•
Vubis beschrijving op het hoger niveau: NAKIJKEN/VERBETEREN ( BB 1530778 )
Ty: 5/5 Ta: fre
BB Province d'Anvers : arrondissement d'Anvers : canton d'Anvers / P.C. Popp. - Bruges : P.C. Popp, [s.d.] (IDN 1530691 Fait partie de : Atlas cadastral de Belgique / par P. C. Popp ; *2) AA ER HR Detailbeschr. voor 6 vol(s) PK OW GA KP 65
NAKIJKEN/VERBETEREN ( BB 1530778 )
Ty: 5/5 Ta: fre
1 2 3 4
[000] bb $l fre $p . $e k $i . $n bl $v . $c . $d [s.d.] [001] BB-1530778 [100] .1 $3 1010205 $a Popp $b Philippe Christian $f 1805-1879 [245] 1b $* 1 $a Province d'Anvers $* 1 $e arrondissement d'Anvers $e canton d'Anvers $f P.C. Popp 5 [260] 0b $a Bruges $c P.C. Popp $d [s.d.] 6 [273] 0. $3 1010205 $c Popp $b Philippe Christian $d [s.d.] Verbeter / voeg toe / verwissel :
Op de Vubisserver wordt nu een bewaarlijst gemaakt op basis van het plaatskenmerk en de ook de omzetting van het ‘Koninklijke Bibliotheek van België’ formaat naar het ‘.csv’ tekstformaat gebeurt hier. Vervolgens wordt het bestand gedownload naar een personal computer en geopend in ANSI code in een teksteditor, bijvoorbeeld notepad. ANSI codes worden veranderd in UTF-8 code. Numerieke karakterreferenties zoals ‘ë’ vervangen door 'ë'. Het aangepastte ‘.csv’ bestand wordt nu opgeslagen.
4.2.2.3.2
Web Ingest
Het mapping bestand wordt aangemaakt, gelijkaardig als in figuur 19, en de ’Web Ingest’ module wordt opgestart. De ‘Web Ingest’ procedure voor de kaarten verloopt gelijkaardig aan de ‘Web Ingest’ procedure zoals die beschreven is voor de ‘Chalcografie’.
4.2.3 Prenten De sectie ‘Chalcografie’ van het Prentenkabinet stelt zijn prenten beschikbaar. De ‘Prentencatalogus’ is enkel in de Koninklijke Bibliotheek toegankelijk. De catalogus beschrijft de prenten, bewaard in de collecties van het Prentenkabinet. Het is ook de bedoeling om de werken meer bekend te maken door met een 400 prenten een virtuele tentoonstelling op te zetten.
66
4.2.3.1 Scanner
Figuur 21: Epson GT-15000
Als scanapparatuur wordt gebruik gemaakt van een zeer snelle DIN A3-scanner die ontworpen werd voor intensieve bedrijfstoepassingen. De voornaamste kenmerken van de Epson GT-15000: • Voortreffelijke resultaten met hoge kwaliteit met een optische resolutie van 600 x 1200 dpi en 48-bits kleuren, • Een maximale uitdraairesolutie van 4800 dpi, • Optionele automatische documentinvoer met maar liefst 16 pagina's per minuut • Gewicht van 13 kg, • Afmetingen: 656 x 458 x 158 mm (B x D x H), • Flexibele USB 2.0 High-Speed-, SCSI- of optionele IEEE 1394-interfaces, • Scannen met één druk op de knop en automatische detectie van het documentformaat, • Scansnelheid van 1 msec/lijn in monochroom en 3 msec/lijn in kleur, • Epson Scan-driversoftware voor alle ervaringsniveaus, • Zeer krachtige Xenon-lamp zonder opwarmtijd, voor onmiddellijk gebruik. De Epson GT-15000 biedt ongeëvenaarde scansnelheden en een uitzonderlijke efficiëntie. Zowel in netwerken als autonoom is deze scanner een uitstekende oplossing om ruimtebesparend en efficiënt te archiveren. Met slechts één druk op een knop worden de afbeeldingen in scherpe en levendige kleuren gescand.
67
Figuur 22: Epson GT-15000
4.2.3.2 Workflow De workflow voor de ‘Chalcografie’ is als volgt: • De prenten worden ingescand met de Epson scanner en de plaatsaanduiding van de prent wordt ook verwerkt in de naamgeving van het bestand, • In de Vubisserver worden de metadata ingevoerd in het KBR-formaat, Vubis beschrijving: NAKIJKEN/VERBETEREN ( BB 1008746 ) Ty: A/1 Ta: fre 1 [000] bb $s . $l fre $p . $e . $i . $n fr $v . $d [xixe s.] 2 [001] BB-1008746 3 [245] 1b $* 4 $a Le Colin Maillard $f [gravé par un artiste anonyme] 4 [260] 0b $a Paris $c Dopter (Rue de la Harpe, 58) $d [XIXe s.] 5 [290] bb $a 1 pl. $c acier, résine $d 25,5 x 34,9 cm 6 [565] bb $a CHA-PER-1-19-3086B 7 [570] bb $a Mention de titre + Texte : "Puisque je n'attrappe personne..." Verbeter / voeg toe / verwissel :
NAKIJKEN/VERBETEREN ( BB 1008746 )
Ty: A/1 Ta: fre
Exemplaarinfo voor plaatskenmerk : WBS 3086-B [M-CHA] Exempl nr -----------1 3086-B
S InvDat DepDat F annotatie - ------ ------ - -------------------------------a 19990629 d -
Schrap, voeg toe, verbeter : 68
• • • • • • •
Via de Vubisserver wordt een bewaarlijst aangemaakt op basis van de aanduiding ‘d’ bij het plaatskenmerk, In de Vubisserver wordt het KBR-formaat geconverteerd naar een bestand in tekstformaat, Het bestand in tekstformaat wordt op een personal computer opgeslagen, Het tekstbestand wordt geopend in ANSI code in een teksteditor, zoals bijvoorbeeld notepad, ANSI codes worden omgezet in UTF-8 codering, Numerieke karakterreferenties zoals ‘ë’ worden vervangen door 'ë', Het aangepaste tekstbestand wordt nu opgeslagen als een ‘.csv’ bestand.
Een mapping bestand wordt aangemaakt, gelijkaardig als in figuur 19, en de ’Web Ingest’ module wordt opgestart.
4.2.3.3 Web Ingest Keuze van de module 95 : Kies ‘Web Ingest’ in DigiTool en vervolgens ‘Starten import’:
95
•
Kies ‘Nouvelle activité d’import’,
•
Geef een naam aan de taak: bijvoorbeeld chalco001,
•
Kies type import.
URL: http://dgtl.klbr.be:8881/main 69
Figuur 23: ingest
70
Geef de parameters voor de verwerking in, let op de volgorde want ze is belangrijk.
Figuur 24: verwerkingsvolgorde
71
Geef de parameters in.
Figuur 25: parameters ingave
72
Laad de bestanden in, voor de chalcografie staan de bestanden op een cdserver, klik op ‘Fichiers locaux’.
Figuur 26: ingest, stap 4
73
Figuur 27: inladen van bestanden
74
De opvolging van het verloop wordt gecontroleerd door te klikken op het icoon bij ‘Afficher les détails’ en vervolgens te klikken op ‘Task log’.
Figuur 28: opvolging
75
4.2.4 Muziek In de Afdeling Muziek bevinden zich handgeschreven of gedrukte partituren en werken over muziek, microfilms van muziekhandschriften en van partituren die vóór 1800 in de Nederlanden werden gedrukt of muziek bevatten van ongeveer 1.100 componisten uit de Nederlanden, bijna 50.000 grammofoonplaten en bandopnamen van muziek van Belgische componisten. De Koninklijke Bibliotheek van België bewaart ook alle krachtens het Wettelijk Depot verworven partituren. Daarnaast bewaart het Handschriftenkabinet enkele codices met polyfone muziek uit de 16 de eeuw en in de afdeling Kostbare Werken bevinden zich muziekdrukken uit de 16 de tot de 18 de eeuw. De meeste verzamelingen van de Afdeling Muziek werden reeds ingegeven in de centrale elektronische catalogus van de bibliotheek, die on line kan worden geraadpleegd. Er staan hiertoe verscheidene computerterminals ter beschikking van de lezers in de leeszaal van de afdeling. Daarnaast kunnen de lezers ook een reeks gedrukte catalogi en een aantal steekkaartencatalogi raadplegen. De afdeling beschikt over een kamermuziekzaal van 130 plaatsen, een opnamestudio en een luistercabine. In de muziekzaal worden regelmatig concerten georganiseerd.
4.2.4.1 Workflow In verband met het project Opera.be werd een reeks geluidsdocumenten gedigitaliseerd door de geluidstechnicus van de onderneming Equus gevestigd te Brussel. Deze onderneming is gespecialiseerd in de geluidsrestauratie van grammofoonplaten. Voor deze gelegenheid werden speciale cilinderhulpstukken ontworpen om verticaal te kunnen lezen. De schijven werden 78 tpm met behulp van aangepaste platina naalden overgebracht. Het geheel wordt op de server van de onderneming in een database van Filemakerpro opgeslagen. De gedigitaliseerde documenten werden aangeleverd op compact disks, in twee exemplaren, op schijven van twee types CD-rom en CD-audio,. Ze werden aangeleverd in niet gecomprimeerde vorm, in WAV en CDA. Door middel van het Cedar procédé werden unieke exemplaren hersteld en de cilinders werden een voor een door de firma Equus hersteld. Equus heeft ook een EXCEL-bestand aangeleverd waarin al de metadata en beschrijvende basisgegevens van de verschillende registraties zijn opgenomen. De EXCEL-gegevens worden naar een ‘.csv’ bestand geëxporteerd en vervolgens wordt dit ‘.csv’ bestand in Dublin Core formaat geïmporteerd in DigiTool.
4.2.4.2 Opslag De DigiTool verwerkingsprocedure met de aangeleverde ‘.csv’ bestanden verloopt gelijkaardig aan de procedure van de kaarten en chalcografie. De bruikbare gegevens worden dan ook opgeslagen in DigiTool. 76
5 De European Digital Library 5.1 Inleiding In de voorgaande hoofdstukken werd de digitalisering, opslag en ontsluiting van gedigitaliseerde objecten in de Koninklijke Bibliotheek van België besproken en toegelicht. Hoewel deze objecten toegankelijk zullen zijn via het internet moeten alle mogelijkheden worden aangegrepen om er meer bekendheid aan te geven. Deze bekendheid wordt gegeven door aan te sluiten bij internationale projecten, een opportuniteit zoals het EDL-project 96 moet daarom worden aangegrepen. Het EDLproject kon worden opgestart met de financiële steun van Europese fondsen en ging als een online dienst van start in maart 2005. Sindsdien zijn er diverse projecten Europees gecofinancierd en ondersteund. Deze projecten bouwen verder op de resultaten van ‘The European Library’, de webdienst die de grote digitale en papieren collecties van nationale bibliotheken van Europa integraal doorzoekbaar maakt. In 2005 is gestart met ‘TEL ME MOR’. Dit door de EU gefinancierde project heeft tot doel de nationale bibliotheken van nieuwe EU-lidstaten toe te voegen aan The European Library. Bij de afronding van ‘TEL ME MOR’, eind 2006, konden naar verwachting zeven nationale bibliotheken toegevoegd worden aan de portal. Inmiddels is bij de EU een voorstel ingediend om nog eens tien nationale bibliotheken aan te sluiten bij The European Library. Hierdoor zou in 2007 het totaal van deelnemende bibliotheken op ten minste 32 van de in totaal 45 CENL-bibliotheken komen. Volgens het plan van de Europese Commissie zouden tegen 2010 minstens zes miljoen gedigitaliseerde boeken toegankelijk moeten zijn via de portal van de European Digital Library. De Europese Commissie is medefinancierder van het project, maar het grootste deel van de kosten van het digitaliseren wordt gedragen door de lidstaten. Het digitaliseren en invoeren van gegevens voor de EDL gebeurt niet enkel door bibliotheken, maar ook door andere culturele instellingen zoals musea en archieven. De invoer bestaat voor het grootste deel uit boeken, maar ook uit prenten, foto’s, brieven, documentaires en ander materiaal. Binnen het project is er ook aandacht voor de gebruiksvriendelijke toegang tot de EDL. Al deze verschillende gegevens zijn langs een enkele portaalsite gemakkelijk toegankelijk via een eenvoudig of geavanceerd zoekscherm. Dank zij het EDL project zijn er 60 à 100 nieuwe collecties in het ‘The European Library’ netwerk gebracht. Tegen het eind van 2007 wordt verwacht dat al de digitale collecties van de EU-lidstaten hun verwijzing hebben in ‘The European Library’. Het probleem dat er nog niet in alle collecties kan gezocht worden is omdat er geen harvesting gebeurd is. Er is geen harvesting gebeurd omdat er geen metadata beshikbaar zijn of omdat er geen OAI-PMH server is.
96
European Digital Library Project 77
Figuur 29: de partners van het EDL project
5.2 Opzet De European Digital Library moet het in de toekomst mogelijk maken om via een webportaal te zoeken in de aan elkaar gelinkte collecties van bibliotheken, musea en archieven van landen uit heel Europa. Het digitaliseringproject van de Europese Commissie is een antwoord op het Google Library Project, dat de digitalisering van 15 miljoen boeken heeft vooropgesteld. EDL gaat verder en gaat bijvoorbeeld collecties van duizenden Europese bibliotheken, archieven en musea, foto's, documentaires of materiaal van culturele instellingen straks via internet aanbieden. Het EDL-project ging van start met de participatie van diverse nationale bibliotheken. In 2007 wordt het EDL-project verder uitgebreid met onder andere de nationale bibliotheek van België. Het operationeel beheer wordt verzorgd door een bureau in de Koninklijke Bibliotheek te Den Haag en de firma Eremo Srl, Italië. Eind 2007 zullen alle Europese lidstaten participeren en 300 collecties uit 31 bibliotheken beschikbaar zijn in 20 talen. Het perspectief is om via 2.000.000 objecten in 2008 te groeien naar 6.000.000 objecten in 2010. Het voordeel voor de gebruikers is de mogelijkheid om via één enkele ingang te zoeken in catalogi en digitale collecties van Europese nationale bibliotheken. In een volgende fase zullen ook collecties van archieven, musea en andere instellingen worden beschikbaar gesteld. 78
5.3 Realisatie en organisatie EDL werd opgericht door de Europese Comissie onder het ‘eContentplus’ programma en wordt gecoördineerd door de nationale bibliotheek van Duitsland. Het project bouwt verder op de bestaande ‘The European Library’ die werd opgericht door CENL 97 . Het EDL-project beschikt over een totaal budget van € 2,114 miljoen, waarvan € 1 miljoen afkomstig is van het eContentplus-programma. Het project is in september 2006 van start gegaan en zal 18 maanden duren. De metadata, in de desbetreffende bibliotheken, in Dublin Core wordt geharvest of uitgewisseld via het Open Archives Initiave-Protocol OAI-PMH. De geïndexeerde gegevens gaan in een centrale index. Collecties die geen metadata kunnen aanbieden worden bereikbaar gemaakt via een snelkoppeling op de pagina’s van de EDL. Een gebruiker die een opzoeking wil doen kan dit op twee manieren. Hij kan gebruik maken van een eenvoudige of een geavanceerde zoekactie. Bij eenvoudig zoeken zoekt hij in catalogi en collecties, zie de schermafdruk in figuur 30.
Figuur 30: eenvoudig zoeken in catalogi en collecties
97
Conference of European National Librarians 79
Bij het geavanceerd zoeken zijn er meerdere mogelijkheden: • Zoeken op titel, auteur, onderwerp, taal, type, ISBN en ISSN, • De opzoeking kan beperkt worden tot een of meerdere catalogi, • Er kan gezocht worden in één of meerdere collecties.
Figuur 31: geavanceerd zoeken in catalogi en collecties
80
Figuur 32: verwijzing naar een collectie die bereikbaar is via een snelkoppeling
5.4 De bijdrage van de Koninklijke Bibliotheek De Koninklijke Bibliotheek van België en de ontwikkeling van een Europese digitale bibliotheek werd uiteengezet op dinsdag 6 december 2005. De samenvatting van de heer P. LEFÈVRE, Directeur-generaal van de Koninklijke Bibliotheek van België en de heer W. VANDERPIJPEN, Voorzitter Wetenschappelijk Comité voor de digitalisering FWI’s geeft een klare kijk weer. Als toelichting enkele citaten uit hun samenvatting 98 : • “De Koninklijke Bibliotheek van België werkte mee aan een project dat documentatie in gedigitaliseerde vorm wil beschikbaarstellen voor het onderwijs in de kunstgeschiedenis”, • “Een andere doelstelling is de meertaligheid te realiseren. Inzake meertaligheid heeft de Koninklijke Bibliotheek van België behoorlijk wat ervaring. Vervolgens wordt de Europese digitale bibliotheek grondig voorbereid. Het spreekt vanzelf dat de Koninklijke Bibliotheek van België enthousiast is om hieraan mee te werken.”,
98
Die integraal is te raadplegen is op het web via URL: http://www.senate.be/actueel/choc%20numerique/2005-12-6/nl/Lef%E8vreNL.html 81
• •
“Ook op federaal Belgisch vlak start een groots digitaliseringsplan van de 10 wetenschappelijke instellingen, het Koninklijk Belgisch Filmarchief en het Studiecentrum Oorlog en Maatschappij.”, “De Koninklijke Bibliotheek zal in een eerste periode van drie jaar de verdere en totale retrocatalogisering van haar catalogus realiseren en haar krantencollecties deels digitaliseren.”.
De Koninklijke Bibliotheek van België neemt deel aan twee projecten van het digitaliseringplan van de federale overheid dat tot doel heeft een aantal collecties van de FWI’s 99 te digitaliseren: • Het retrocatalogiseringproject voor al de FWI bibliotheken krijgt tot 2008 2,2 miljoen € ter beschikking waarvan 72,5% naar de Koninklijke Bibliotheek van België gaat. De Koninklijke Bibliotheek van België gaat hiermee de kaartcatalogi, minstens van de boeken en van de tijdschriften, omzetten naar elektronische bestanden. • Het krantendigitaliseringproject omvat een dertigtal verschillende kranten die dan beschikbaar worden gesteld. De Koninklijke Bibliotheek van België zet ook eigen middelen in om, weliswaar een zeer klein gedeelte van haar collectie, te digitaliseren.
5.4.1 De catalogi De beschikbare Koninklijke Bibliotheek van België collecties en van de andere aangesloten leden kan je in de EDL-cataloog raadplegen. De Koninklijke Bibliotheek van België zal haar catalogi en haar digitale collecties beschikbaar stellen aan de De European Digital Library. Deze catalogi omvatten: • De ‘algemene catalogus 100 ’ waarin de Belgische werken sinds 1975, de buitenlandse aanwinsten sinds 1985 en de werken van de speciale afdelingen in zijn opgenomen. • De ‘retrospectieve catalogus 101 ’ met de Belgische werken uit de periode van 1875-1974 en de buitenlandse werken van 1930-1985. • De ‘briefwisseling en handgeschreven teksten 102 ’ met beschrijvingen van documenten uit persoonlijke archieven van Belgische personaliteiten uit de periode van de 18e tot de 20e eeuw. • De ‘prentencatalogus 103 ’ beschrijft de prenten die bewaard worden in de collecties van het prentenkabinet.
99
Federale Wetenschappelijke Instellingen
100
Raadpleegbaar op volgende URL: http://opac.kbr.be/nkbr0.htm
101
Raadpleegbaar op volgende URL: http://opac.kbr.be/nbb1.htm
102
Raadpleegbaar op volgende URL: http://opac.kbr.be/nlet1.htm
103
Raadpleegbaar op volgende URL: http://prenten.kbr.be/estampes/welcome_NL.aspx 82
De Koninklijke Bibliotheek van België kan de gegevens van de eerste drie catalogi aanbieden in het UMODS-formaat dat gebruikt wordt in het UniCat-project 104 . De gegevens zullen worden omgezet naar het TEL 105 application profile. De prentencatalogus zal worden aangeboden als een collectie, gezien de gegevens van deze catalogus niet zijn opgeslagen in een MARC-formaat maar als een beeldbestand. In het kader van het digitaliseringplan van de federale overheid dat tot doel heeft een aantal collecties van de FWI’s 106 te digitaliseren is de Koninklijke Bibliotheek betrokken bij het retrocatalogiseringproject voor de FWI bibliotheken. De Koninklijke Bibliotheek van België gaat de kaartcatalogi van de boeken en van de tijdschriften omzetten naar elektronische bestanden.
Figuur 33: de nationale bibliotheken van Europa
104
De algemene doelstelling van het UniCat-project is de oprichting van een toegangspoort om gebruikers de mogelijkheid te bieden gelijktijdig bibliografische beschrijvingen te zoeken en op te halen uit alle Belgische bibliotheekcatalogi. UniCat kan dus worden beschouwd als een virtuele collectieve catalogus van Belgische bibliotheken. Dit portaal zal gebaseerd zijn op standaarden zoals Z39.50 en OAI (Open Archives Initiative). In het project zal een uniforme en meertalige webinterface worden ontwikkeld voor dit portaal. URL: http://www.kbr.be/unicat/ 105
The European Library
106
Federale Wetenschappelijke Instellingen 83
Figuur 34: link naar de OPAC van de Koninklijke Bibliotheek van België
5.4.2 De collecties De collecties die nader werden toegelicht onder hoofdstuk ‘3.2 DigiTool’, zijnde kaarten, chalcografie en muziek, zullen beschikbaar worden gesteld in ‘The European Digital Library’. De Koninklijke Bibliotheek van België werkt ook aan de digitalisering van andere collecties. In het kader van het digitaliseringproject wordt een bestek voorbereid voor de digitalisering van een dertigtal verschillende kranten met een totaal van 3 miljoen te scannen pagina’s. Het budget dat hiervoor ter beschikking staat bedraagt 2,5 miljoen euro. De beschikbare middelen kunnen niet concurreren met deze van andere bibliotheken. Zo heeft de BnF 107 haar nieuw portaal ‘Europeana 108 ’ gelanceerd. De BnF heeft niet enkel de fondsen van 10 miljoen euro gevonden om 80 à 100.000 objecten per jaar te digitaliseren voor hun Gallica collectie, maar ze hebben ook aangetoond hoe het EDL F
107
Bibliothèque nationale de France
108
URL: http://www.europeana.eu/ 84
project er kan uitzien in de toekomst. Ook andere landen, zoals Nederland zijn met ‘Het Geheugen van Nederland’ 109 verder gevorderd.
109
URL: http://www.geheugenvannederland.nl/ 85
86
6 Besluit In het eerste hoofdstuk kwamen de ‘Basiselementen’ aan bod waar een toelichting en situering werd gegeven van verschillende coderingen die gebruikelijk zijn op het internet. Verder werden alle gangbare bestandsformaten toegelicht. De recentste tekstformaten, grafische formaten, geluid formaten en videoformaten kwamen aan bod om de lezer duidelijk te maken dat er een diversiteit aan elektronische objecten bestaat die allen gepubliceerd en opgezocht kunnen worden. Dit opzoeken toonde ook het belang van metadata aan. In het tweede hoofdstuk werd werd dieper ingegaan op XML met zijn DTD’s en XMLschema’s. Wat baten performante beschrijvingen als ze niet kunnen worden uitgewisseld, niet compatibel of onvindbaar zijn voor verschillende zoekmachines? Het derde hoofdstuk behandelde de digitalisering aanpak in de Koninklijke Bibliotheek van België. Hier kwam zowel de apparatuur, de gevolgde werkmethodes als de verwerking en koppeling van de respectievelijke metadata aan bod. De software ‘DigiTool’ met zijn voornaamste mogelijkheden werd uitvoerig besproken. Het Europees EDL-project kwam aan bod in het vierde hoofdstuk waar duidelijk wordt dat de digitalisering en ontsluiting van het Europese erfgoed via elektronische weg aan belang wint. Europeanen hebben al een achterstand op het overwicht van bijvoorbeeld andere continenten, denk maar aan het ‘National Digital Library program’ van het ‘Library of Congress’. De Koninklijke Bibliotheek van België heeft jaren achter gelopen op heel het technologische gebeuren van elektronische publicaties, maar is nu gestart met een inhaalbeweging. De gebruiker of klant van vandaag is niet meer tevreden met enkel een bibliografische omschrijving. Zijn informatiehonger kan enkel gestild worden door hem toe te laten om ook het object zelf te raadplegen. Dit is een trend die men kan waarnemen. Prognoses stellen dat tegen 2010 de hoeveelheid opgeslagen digitale informatie bijna zes keer meer zal zijn dan nu. Er komt zoveel informatie op ons af dat dit de kwaliteit van de informatie niet ten goede komt. De kwaliteit en de ontsluiting van informatie vraagt om specialisatie. Via een portaal zoals de ‘European Digital Library’ krijgt de gebruiker toegang tot kwaliteitsvolle en betrouwbare informatie. Internationale samenwerking is dan ook een opportuniteit die de Koninklijke Bibliotheek van België niet links kan laten liggen. Als de lezer van mijn scriptie wat meer inzicht heeft gekregen in de formaten van elektronische publicaties, het tot stand komen ervan, het belang van metadata en de uitwisselingsmogelijkheden naar een centraal portaal dan ben ik in mijn opzet geslaagd.
87
88
BRONNEN Belgisch Interoperabiliteitskader (BELGIF), Fedict, Maria-Theresiastraat nr. 1, 1000 Brussel, (http://www.belgif.be/index.php/Hoofdpagina). EUROPEAN INTEROPERABILITY FRAMEWORK FOR PAN-EUROPEAN eGOVERNMENT SERVICES, IDABC-brochure, publicatie van de Europese Gemeenschap, 2004, ISBN 92-894-8389-X, (http://europa.eu.int/idabc/). HyperText Markup Language (HTML) Internet Home Page, (http://www.w3.org/MarkUp/). Elisabeth Castro. Snel op weg, XML voor het World Wide Web Amsterdam: Peachpit Press, 2001 Filip Boudrez, Hannelore Dekeyser. Digitaal archiefbeheer in de praktijk Stadsarchief Antwerpen. (http://www.antwerpen.be/david) Open Archives Initiative, OAI official website: (http://www.openarchives.org/) OA-Forum Web site (http://www.oaforum.org/) Specificaties voor XML-Schema (http://www.w3.org/XML/Schema) Belgische federale overheid en ODF-formaat (http://www.fedramagazine.be) Gedetailleerde TIFF specificaties (http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf) JPEG homesite (http://www.jpeg.org/jpeg/index.html) JPEG200 homesite (http://www.jpeg.org/jpeg2000/) Metadata en schemadefinitie JPEG 2000 (http://www.jpeg.org/jpeg2000/metadata.html) Informatie over het Exchangeable Image File Format (http://www.exif.org/) Ogg Vorbis, open source geluidsbestanden (http://www.vorbis.com/) (http://www.xiph.org/downloads/) PictureAustralia (http://ww.pictureaustralia.org/) Dublin Core elementen set (http://dublincore.org/documents/dces/) METS, Metadata Encoding & Transmission Standard (http://www.loc.gov/standards/mets/METSOverview.v2.html)
MODS, Metadata Object Description Schema (http://www.loc.gov/standards/mods/) Digital Library Federation (http://www.diglib.org/) Z39.50 (http://www.niso.org/standards/resources/Z3950_Resources.html) Koninklijke Bibliotheek van België (http://www.Koninklijke Bibliotheek van België.be/) Handleiding om elektronische documenten te deponeren bij de Koninklijke Bibliotheek van België (http://www.Koninklijke Bibliotheek van België.be/catalogues/biblionumerique/public_elec/E-depot_Brochure_dut.pdf) Ex Libris en DigiTool (http://www.exlibrisgroup.com/digitool.htm) Equus (http://www.equus.be/nederlands/masterNL.html) The European Digital Library Project (http://www.edlproject.eu/) The European Library (http://www.theeuropeanlibrary.org/portal/index.htm)
Index access tabel ....................................... Acrobat Reader ................................... ASF................................................... ASX .................................................. AVI ................................................... Belgische Bibliografie ........................... bestandsformaten ............................... ASF ............................................... ASX ............................................... AVI ................................................ CSV ............................................... DivX .............................................. JPEG .............................................. JPEG 2000 ...................................... MJ2 ............................................... MJP2 .............................................. MOV .............................................. MP3 ............................................... MPEG-1 .......................................... MPEG-2 .......................................... MPEG-4 .......................................... MPEG-7 .......................................... ODF ............................................... Ogg ............................................... PDF ............................................... PDF/A ............................................ PDF/E ............................................ PDF/H ............................................ PDF/UA .......................................... PDF/X ............................................ QT ................................................. RA ................................................. RAM............................................... RM................................................. TIFF............................................... WAV .............................................. WMA .............................................. WMV .............................................. BnF ................................................... CENL ................................................. codec ........................................... 25, crosswalks ......................................... CSV .................................................. DC qualified ....................................... DC simple .......................................... DCMES .............................................. DigiTool deponeren ...................................... deponering monografie ..................... hoofdmodules ................................. invulformulier.................................. registratie....................................... DigiTool modules Approver ........................................
60 19 27 27 26 39 17 27 27 26 61 28 22 22 23 23 27 25 27 27 28 28 17 26 19 19 20 20 19 19 27 27 27 27 21 23 25 27 84 79 28 38 61 32 32 31 49 52 42 53 46 52
Collection management..................... 52 Deposit........................................... 50 Management ................................... 48 Resource Discovery .......................... 44 Web Ingest ..................................... 62 DivX .................................................. 28 DRM .................................................. 26 DTD .............................................11, 15 entiteit ........................................... 15 Dublin Core ........................................ 31 eContentplus-programma ..................... 79 E-depot.............................................. 39 EDL ................................................... 77 Europeana.......................................... 84 Ex Libris............................................. 41 Ez39.50 ............................................. 36 Foxit Reader ....................................... 19 Geheugen van Nederland...................... 85 geluid formaten................................... 23 HTML................................................. 13 HTML voorbeeld .................................. 13 institutionele repository ........................ 29 ISO ................................................... 17 JPEG.................................................. 22 JPEG 2000.......................................... 22 JumboScan......................................... 63 kranten (digitalisering) ......................... 84 metadata administratieve ................................ 34 beschrijvende .................................. 34 structurele ...................................... 34 technische....................................... 34 MJP2 ................................................. 23 MOV .................................................. 27 MP3................................................... 25 MP3TAG ............................................. 25 MPEG-1.............................................. 27 MPEG-2.............................................. 27 MPEG-4.............................................. 28 MPEG-7.............................................. 28 OAI ................................................... 29 OAI-PMH ............................................ 30 ODF................................................... 17 Ogg ................................................... 26 Open Source Software.......................... 19 PDF ................................................... 19 PDF lezer ........................................... 19 PKI.................................................... 20 platte tekst......................................... 13 QT..................................................... 27 RAM .................................................. 27 RDF................................................... 31 repository .......................................... 29 retrocatalogisering............................... 82
RM .................................................... 27 scriptie in PDF versie ............................. 9 SDK .................................................. 20 SGML ................................................ 11 SGML-element................................. 12 SRU .................................................. 36 SRW.................................................. 36 streaming .......................................... 27 syntax ............................................... 11 tag.................................................... 11 tekstformaten..................................... 17 TEL ME MOR....................................... 77 The European Digital Library ................. 77 The European Library........................... 77 thumbnail .......................................... 64 TIFF .................................................. 21 UMODS-formaat.................................. 83 UniCat project .................................... 83 videoformaten .................................... 26 voorbeelden Crosswalk ....................................... 38 Dublin Core in RDF........................... 37
HTML.............................................. 13 MODS Record .................................. 36 SGML ............................................. 12 tag................................................. 12 XML codering................................... 33 XML syntaxis ................................... 14 WAV .................................................. 23 Wavelet technologie............................. 23 website .............................................. 29 WMA ................................................. 25 WMV ................................................. 27 workflow Popp kaarten ................................... 63 XML................................................... 14 DTD ............................................... 15 XML-Schema ................................... 15 XML schema ....................................... 15 Z39.50............................................... 35 ZEERex .............................................. 36 ZING ................................................. 35 ZOOM ................................................ 36
Afbeeldingenlijst Figuur 1: starten met DigiTool ..................................................................................... 43 Figuur 2: eenvoudige opzoeking en taal kiezen............................................................... 44 Figuur 3: taalkeuze .................................................................................................... 45 Figuur 4: registratieaanvraag doorsturen....................................................................... 46 Figuur 5: overzicht van de toegankelijke databanken ...................................................... 47 Figuur 6: consulteerbaar zoekresultaat.......................................................................... 48 Figuur 7: eerste deponering......................................................................................... 49 Figuur 8: ontvangst bevestiging van registratie .............................................................. 50 Figuur 9: deponering mappen ...................................................................................... 51 Figuur 10: invulformulier depot van monografieën .......................................................... 53 Figuur 11: aanvaarden voorwaarden ............................................................................. 54 Figuur 12: opladen bestanden...................................................................................... 55 Figuur 13: overzicht bevestigen ................................................................................... 56 Figuur 14: overzicht doorgestuurde deponeringen........................................................... 57 Figuur 15: bewaarde deponeringen............................................................................... 58 Figuur 16: bewaarde deponeringen bewerken ................................................................ 59 Figuur 17: tabel met de objectbeschrijvingen ................................................................. 60 Figuur 18: record beschrijvinguit een '.csv' bestand met punt-komma scheidingsteken ........ 61 Figuur 19: deel van het beschrijvend XML-bestand ......................................................... 61 Figuur 20: JumboScan van Lumiere Technology.............................................................. 63 Figuur 21: Epson GT-15000 ......................................................................................... 67 Figuur 22: Epson GT-15000 ......................................................................................... 68 Figuur 23: ingest ....................................................................................................... 70 Figuur 24: verwerkingsvolgorde ................................................................................... 71 Figuur 25: parameters ingave ...................................................................................... 72 Figuur 26: ingest, stap 4 ............................................................................................. 73 Figuur 27: inladen van bestanden................................................................................. 74 Figuur 28: opvolging .................................................................................................. 75 Figuur 29: de partners van het EDL project.................................................................... 78 Figuur 30: eenvoudig zoeken in catalogi en collecties ...................................................... 79 Figuur 31: geavanceerd zoeken in catalogi en collecties................................................... 80 Figuur 32: verwijzing naar een collectie die bereikbaar is via een snelkoppeling .................. 81 Figuur 33: de nationale bibliotheken van Europa............................................................. 83 Figuur 34: link naar de OPAC van de Koninklijke Bibliotheek van België ............................. 84
Abstract Elektronische publicaties en gedigitaliseerd erfgoed in de Koninklijke Bibliotheek van België : een bijdrage aan de European Digital Library. Scriptie ingediend tot het verwerven van het diploma van gegradueerde in het bibliotheekwezen en documentaire informatiekunde / Leonavicius, Pierre – Genk : Vrije Leergangen Limburg. 2007. – 95 p. Eindwerk CVO Vrije Leergangen Limburg - Genk Abstract: De scriptie tracht een samenhangend en actueel beeld weer te geven over elektronische objecten, van hun ontstaan en bewaring tot de internationale ter beschikking stelling via een Europees portaal. De bestandsformaten van elektronische documenten komen uitvoerig aan bod. De metadata, waaronder Dublin Core, van de elektronische publicaties worden besproken. Ook de uitwisseling van metadata komt aan bod. Het DigiTool softwarepakket, gebruikt in de Koninklijke bibliotheek van België, wordt besproken. Hun aanpak van het elektronische depot, kaarten, prenten en muziek komen ruim aan bod binnen DigiTool. De participatie van de Koninklijke bibliotheek van België aan de ‘European Digital Library’ wordt toegelicht. Door stapsgewijze de terminologie te situeren en toe te lichten krijgt de lezer inzicht in de stappen van het ontstaan, bewaring en ontsluiting van elektronische publicaties. Trefwoorden: digitalisering, cultureel erfgoed, bibliotheekwezen, Europa Titel: Elektronische publicaties en gedigitaliseerd erfgoed in de Koninklijke Bibliotheek van België : een bijdrage aan de European Digital Library Auteur: Leonavicius, Pierre