Workshop ‘Metadata, Ontologieën en het Semantische Web’ 1. Inleiding In de hedendaagse informatiemaatschappij is de digitalisering van erfgoedcollecties van prioritair belang geworden en maakt het deel uit van de kerntaken van een museum of culturele instelling. Door de groei en ontwikkeling van nieuwe informatietechnologieën wordt het tevens mogelijk om de groeiende kwantiteit aan informatie in deze digitale gegevensbanken voor een groter publiek ter beschikking te stellen op het World Wide Web. Deze toenemende massa aan digitale data op het internet met betrekking tot het culturele erfgoed impliceert echter niet dat de geïnteresseerde nu alvast zijn informatie probleemloos terug kan vinden. Efficiënt zoeken naar informatie op het internet vraagt vaak enige voorkennis en menselijke interpretatie om bruikbare informatie terug te vinden. De zoekfuncties zijn vaak full text en houden geen rekening met verschillende schrijfwijzen, synoniemen, ed., en het is onmogelijk om te weten of de auteur van de data wel dezelfde betekenis heeft gegeven aan eenzelfde term als zijn collega. Komt daarbij nog het probleem van een meertalige wereld, en zo wordt het al snel heel moeilijk om een omvattend resultaat van de zoekopdracht op het internet te verkrijgen. Standaardisering en semantische interoperabiliteit bieden hiervoor de oplossing. Iedereen die zich bezig houdt met digitalisering is op de hoogte van het belang van een standaardisering van data binnen de eigen collectie database. Als de metadata in een databank door iedereen die zich bezig houdt met de registratie van de collecties op een andere manier geïnterpreteerd worden, wordt het zoeken naar een object of een serie van objecten een probleem. Hetzelfde geldt voor de gebruikte terminologie. Verschillende mensen gebruiken namelijk verschillende woorden om hetzelfde concept te beschrijven. Ook hierdoor krijgt men bij het zoeken naar een bepaalde term in de database slechts gedeeltelijke resultaten te zien. Gevolg: men moet al op twee of meerdere termen gaan zoeken om alle gezochte objecten uit de databank te filteren. In een situatie waarbij een onbekend aantal verschillende schrijfwijzen of synoniemen gebruikt zijn, worden de zoekresultaten al snel zeer onvolledig. Om dit probleem te voorkomen, worden er voor de meeste collectiedatabases richtlijnen opgesteld van wat, waar, en hoe men data moet invullen. De metadata worden dus gedefinieerd. Bovendien wordt er steeds vaker gebruik gemaakt van thesauri voor een gestandaardiseerd gebruik van terminologie binnen een collectie, of zelfs overkoepelend over alle collecties binnen de instelling heen. Verder bestaat er door het gebruik van thesauri de mogelijkheid om verbanden te leggen tussen termen met eenzelfde betekenis. Juist door de relaties tussen de verschillende metadata en de thesaurus termen te bepalen, voorziet men de eigen digitale database van een belangrijke basis aan semantiek, waardoor data beter bevraagbaar wordt. 2. Het Semantische Web Ook om digitale data te kunnen delen op het internet is het nodig dat de ontvanger van deze data in staat is om de inhoud juist te interpreteren en te verwerken. Mensen zijn in staat om bepaalde taken uit te voeren op het bestaande World Wide Web, zoals het zoeken van een vertaling, de laagste prijs van een DVD of het reserveren van een boek. Een machine (waaronder computers) is niet of zeer slecht in staat om bruikbare informatie te halen uit webpagina's. Op dit moment zijn de meeste webpagina's op het internet geschreven in de Hypertext Markup Language (HTML), wat vooral de opmaak van het document, maar niet de context van de data weergeeft die een machine nodig heeft om de betekenis van de informatie te achterhalen. Het uitdrukken van informatie op het internet op een manier dat zowel mensen als machines ermee kunnen omgaan, vormt de basis van het Semantische web (Semantic Web). Dit semantische web is een uitwerking van de visie van W3C (World Wide Web Consortium) directeur Tim Berners Lee over het Web als een universeel medium voor de uitwisseling van informatie. Het leidende principe van het semantische web is dat men basis- en domein specifieke ontologieën toekent aan digitale gegevens. Hierdoor worden de digitale gegevens door Roxanne Wyns
1/7
concepten gerepresenteerd die zo uitwisselbaar worden op het internet zonder de oorspronkelijke context en betekenis te verliezen. Op deze manier kan een computer de informatie interpreteren, én tot meer betekenisvolle zoekresultaten komen. Om de doelstellingen van het Semantisch Web te verwezenlijken, zijn er uiteraard een aantal technologische "bouwstenen" nodig. Het W3C heeft hiervoor onder andere de RDF-standaard ontwikkeld (zie lager). 3. Europeana en Semantiek Een volledig overkoepelend semantisch web waar alle digitale data aanwezig op het Web met elkaar verbonden zou zijn (de zogenaamde Linking Open Data of LOD-cloud http://linkeddata.org/), is nog ver weg. Op een kleinere schaal, bijvoorbeeld binnen portaalsites die voorzien worden met data uit verschillende databases, kan semantiek wel al een belangrijke bijdrage leveren om data te verrijken. Voor Europeana, is de ontwikkeling van deze semantische webtechnologie van groot belang. Hun doel is de meertalige content afkomstig uit verschillende culturele organisaties, bibliotheken, archieven, musea, film- en audio archieven, semantisch met elkaar te verbinden en ze zo toegankelijker te maken voor een groot publiek. In het kader van deze doelstellingen houdt het project Europeana Connect zich bezig met de ontwikkeling van een meertalige zoekrobot en de semantische verrijking van de digitale content. Met het Europeana Thought Lab ging men van start met de bouw van een prototype van de semantische search engine. Momenteel is de meertalige ondersteuning nog beperkt tot het Engels, het Frans en het Nederlands. Op hun website, http://eculture.cs.vu.nl/europeana/session/search, is dit prototype al beschikbaar. Het bevat momenteel data afkomstig uit het ‘Rijksmuseum Amsterdam’, ‘Musee du Louvre’, en het ‘Rijksbureau voor Kunsthistorische Documentatie’. Wanneer men in de zoekrobot als keyword ‘Maria’ ingeeft, krijgt men de resultaten gerangschikt volgens: ‘works created by matching person’, ‘works showing matching person’, ‘works showing concept’, ‘works related to matching person’, ‘works titled’, ‘works with matching Signature transcript’ en ‘works showing a more specific concept’. De semantische relaties tussen al deze objecten zijn echter nog zeer beperkt, maar het toont de mogelijkheden die de semantische verijkte data kan bieden. Europeana kan deze semantische rijkdom echter nooit verkrijgen zonder dat er reeds belangrijk voorafgaand basiswerk op dit vlak werd verricht. Elke inhoudleverancier aan Europeana, of dit nu gebeurt via projecten als EuropeanaLocal die werkt met nationale aggregatoren, Athena, MIMO, of zelfstandige instituten die de eigen technologische kennis in huis hebben om hun data rechtstreeks aan Europeana te leveren, moeten starten met het standaardiseren van hun metadata, gecontroleerde vocabulaires en de data zelf, en dit om volgende redenen: De verschillende structurele conventies van collectiemanagement databases maken het delen van digitale data met betrekking tot het culturele erfgoed onmogelijk, tenzij er gebruik wordt gemaakt van een metadataschema dat als een gemeenschappelijke standaard bekeken wordt. Op deze manier wordt het voor een machine mogelijk om te begrijpen wat de betekenis van de data is en vooral waar deze data in het dataschema van de ontvangende repository terecht moet komen. Het gebruik van eenvoudige standaard formaten voor metadata, zoals Dublin Core, CDWA lite, museumdat, ed., maken het mogelijk om culturele erfgoed data op de juiste plaats toe te leveren aan de repository van Europeana. De data zal op deze manier zeker op de juiste plaats in de database terechtkomen, m.a.w. ‘Titel’ zal bij ‘Title’ en ‘Auteur’ bij ‘Creator’ terechtkomen. 4. Semantische expressiviteit Het begrijpen van de waarden en de verbanden tussen deze metadata elementen vraagt echter een grotere semantische expressiviteit of uitdrukking. Hiervoor wordt gebruik gemaakt van formele semantische talen. Elk van deze formele talen is geschikt voor een ander type van informatie uitwisseling en de keuze is tevens afhankelijk van de complexiteit van de data die uitgewisseld moet worden. Het CIDOC Conceptual Reference Model (CRM) is een officiële ISO-standaard die ontwikkeld werd door de ICOM/CIDOC Documentation Standards Group. CIDOC CRM geeft de Roxanne Wyns
2/7
nodige definities en formele structuren die nodig zijn voor het beschrijven van concepten en relaties (ontologieën) die gebruikt worden in cultureel erfgoed en museum informatie. Het gaat uit van een object-georiënteerde benadering waarin een object beschreven wordt aan de hand van gebeurtenissen in het leven van het voorwerp zoals: ontwerp, productie, verkoop, gebruik, afdanking, herontdekking, aankoop, restauratie,… Deze objectgeoriënteerde aanpak zorgt voor de zogenaamde semantische ‘lijm’ die nodig is om de verschillende verspreide bronnen van culturele erfgoedinformatie op het internet en in portaalsites met elkaar te laten communiceren en zo tot een waardevolle globale informatiebron te komen. Volgens sommige moet een goed standaard metadata formaat dan ook CRM compatibel zijn. CIDOC CRM voorziet een aantal CRM elementen met bijhorende definities en codes die het toelaten om data met elkaar te laten communiceren in een online omgeving. Schematisch uitgedrukt zou E5 Event, gelinked zijn aan E4 Period, E53 Place, …, om een E1 CRM element te vormen. Welke naam er ook aan het metadata veld binnen de lokale database gegeven wordt, door het toekennen van het CRM element en de bijhorende code, zal de software toch in staat zijn om de exacte betekenis te achterhalen en te verbinden met gerelateerde data. Wanneer iedereen die digitale culturele erfgoeddata op het internet toegankelijk maakt, hun types van gebeurtenissen zou mappen naar deze CRM elementen, kunnen semantische en associatieve relaties tussen de metadata afkomstig uit verschillende collectie databanken gelegd worden. Wanneer dit gebeurt, spreekt men van data integratie. CIDOC CRM zit al vervat in verschillende standaard schema’s voor metadata, zoals CDWA lite en museumdat. Ook Europeana gaat in de richting van een CRM object-georiënteerde benadering met de ontwikkeling van het Europeana Data Model (EDM). Om deze uitwisseling en het gebruik van gegevens om het internet en binnen de portaalsite Europeana nog verder te bevorderen, is er tevens nood aan een eenvoudige taal voor het uitdrukken van conceptuele vocabulaires. Betekenisvolle metadata kan het terugvinden van informatie al bevorderen, maar metadata vereist ook met elkaar verbonden vocabulaires. Om op dit moment binnen de enorme massa aan cultureel-erfgoedinformatie die beschikbaar is op het internet tot goede zoekresultaten te komen, moet men vaak meerdere zoektermen ingeven. Een goed voorbeeld van deze problematiek is bijvoorbeeld een full text zoekopdracht naar de schilder ‘Domenikos Theotocopoulos’, alias ‘El Greco’. Sommige registers zullen ‘El Greco’ gebruiken, andere dan weer ‘Domenikos Theotocopoulos’. Een full text search naar Domenikos Theotocopoulos of El Greco levert dus nooit alle resultaten op. De oplossing voor dit probleem is eveneens het voorzien van semantische of associatieve relaties tussen terminologieën. 5. Thesauri en Knowledge Organisation Systems Een van de belangrijkste instrumenten om de data in een digitale gegevensbank te standaardiseren en daarmee dus ook beter bevraagbaar te maken, is het gebruik van thesauri. Een thesaurus is een hulpmiddel om gestructureerde vocabulaires te controleren en te beheren. Het belangrijkste doel om thesauri te gebruiken is de standaardisering van de data, met als gevolg een beter resultaat van de zoekopdracht. Meestal is een bepaalde thesaurus gericht op een specifiek onderwerp, zoals geografische referenties, materialen en technieken, of objectnamen. Eigenlijk moeten thesauri, of welke andere soort van classificatie schema’s en gecontroleerde terminologieën, gezien worden als een set van concepten waarbij tevens de semantische relatie tussen deze concepten bepaald wordt. Dit noemt me conceptueel gebaseerde vocabulaires, waar objecten niet omschreven worden door termen, maar door abstracte concepten die gerepresenteerd worden door termen. Deze concepten kunnen georganiseerd worden in hiërarchische relaties of met elkaar verbonden worden met niet hiërarchische (associatieve) relaties. De W3C werkgroep voor semantische webactiviteit ontwikkelde hiervoor een aantal formele talen (Knowledge representation languages) die het toelaten om betekenis (semantiek) aan Roxanne Wyns
3/7
de inhoud toe te voegen: Recource Description Framework (RDF), Web Ontology Language (OWL), Simple Knowledge Organisation System (SKOS). RDF beschrijft de kenmerken van bronnen op het web (resources) in de vorm van een drieledige - subject-predicate-object - structuur (in RDF-termen een triple), en is zeer geschikt voor het voorzien van semantische betekenis aan metadata records. De kracht zit in de eenvoud en zeker ook in de potentiële precisie wanneer men voor zowel subject als object een pointer (URI) gebruikt om exacte verbanden te leggen. Omdat RDF zo flexibel is, staat het heel open om op verder te bouwen. Om RDF efficiënt te gebruiken en om zijn toepassingen herbruikbaar te maken, zijn er verdere afspraken nodig, zoals OWL en SKOS. OWL is een expressievere taal die een meer volledige uitwisseling van informatie toelaat, maar voor de semantische representatie van eenvoudige taxonomieën, thesauri en classificatieschema’s is een eenvoudige formele taal voor het uitdrukken van conceptuele vocabulaires eigenlijk voldoende. SKOS werd ontworpen door de W3C voor de representatie van thesauri, taxonomieën en andere soorten van vocabulaires. Het belangrijkste doel ervan is een eenvoudige publicatie van gestructureerde gecontroleerde vocabulaires mogelijk te maken. Hierbij wordt niet uitgegaan van termen, maar van abstracte concepten die uitgedrukt worden in termen. De betekenis van een concept wordt niet alleen omschreven door woorden in zijn oorspronkelijke taal, maar ook door ze te linken aan andere concepten in de vocabulaire. De concepten kunnen hiërarchisch georganiseerd worden door het aanduiden van broadernarrower relaties, of ze te linken met niet-hiërarchische gerelateerde termen. Deze applicatie is tevens RDF-gebaseerd. SKOS wordt door Europeana aanzien als de manier om semantische hulpmiddelen, zoals meertalige vocabulaires en classificatieschema’s, in de repository te voorzien en vervolgens de data semantisch te verrijken door de content te mappen naar deze semantische representatie schema’s. 6. Opbouw van SKOS en ‘mappen’ van concepten Wat SKOS doet is een hulpmiddel aanbieden om conceptuele schema’s (thesauri, classificatie schema’s, taxonomieën,…) afkomstig uit verschillende bronbestanden met elkaar te verbinden. Het leggen van de semantische relaties is echter nog steeds een manueel werk dat vaak doorgedreven expertise op het vlak van conceptuele woordenlijsten vraagt om de opdracht tot een goed einde te brengen. Dit proces van verbanden leggen noemt met de ‘mapping’. Wat men hier doet is definiëren dat de term ‘ID: 10134 = Belgie’ uit het authority bestand ‘RMAH Reference Geographiques’ overeenkomt met ‘ID: 1000063 = Belgium’ uit het authority bestand ‘TGN’. Een mapping van bijvoorbeeld de eigen museumthesaurus naar andere gecontroleerde vocabulaires zoals o.a. de AAT (The Art and Architecture Thesaurus), CONA (The Cultural Objects Name Authority) en de TGN (The Getty thesaurus of Georgraphic Names), vraagt dus enige voorkennis van de betekenis en van de taal van de gebruikte terminologie in beide thesauri en de aanwezigheid van scopenotes die de term definiëren. Het is echter belangrijk om te beseffen dat dit soort van werk noodzakelijk is voor het uitwisselen van data op het Web, maar dat het ook kan helpen om de eigen data in het lokale database systeem beter bevraagbaar te maken of de onderlinge uitwisseling van deze gegevens tussen cultureel-erfgoedorganisaties te verbeteren. De principes van SKOS kunnen dus ook in het interne database management systeem zeer nuttig blijken. SKOS biedt eigenlijk een basisprincipe aan om semantische- en associatieve relaties binnen een thesaurus te voorzien door het gebruik van codes die het type van hun relaties binnen de thesaurus aanduiden. Hieronder wordt een overzicht gegeven van de basisclassificaties en eigenschappen van het SKOS vocabulaire en hoe ze gebruikt moeten worden om de basis structuur van het conceptuele schema te ordenen volgens een drieledige - subject-predicate-object – RDF structuur: ▪ Hiërarchisch: - BT: Broader term Roxanne Wyns
4/7
- NT: Narrower term De belangrijkste semantische relaties binnen een thesaurus zijn de hiërarchische en niethiërarchische relaties. Broader terms en narrower terms worden gebruikt om de hiërarchische relaties tussen de termen aan te duiden. In deze relatie gaat de BT hoger gerangschikt staan en verwijzen naar een bredere scope van de NT. ▪ Associatief: - RT: Related term Een related term wordt gebruikt voor het aanduiden van niet-hiërarchische semantische relaties tussen de termen in een thesaurus. ▪ Equivalenten: - Use: Use (Preferred Term) - UF: Used For (Non –Preferred term) De preferred term is de term waarvan overeengekomen werd dat het de standaard term (index term) is waarop tevens het meest gezocht zal worden door de gebruikers. Non-preferred terms worden meestal in een thesaurus opgenomen om de gebruikers te helpen de geschikte preferred term terug te vinden en te gebruiken. Het is ook mogelijk om meer dan een preferred term op te geven, dit wanneer beide termen van even groot belang zijn of even vaak als zoekterm ingegeven zullen worden door de gebruikers. Het gebruik van preferred en non-preferred terms is vooral relevant waneer er synoniemen in de thesaurus opgenomen worden. Zo kan een woord op meerdere manieren gespeld worden of kunnen twee verschillende woorden in essentie juist hetzelfde betekenen. Vermits het belangrijk is om in een thesaurus best maar één preferred term te hebben, dienen voor synoniemen non-preferred terms gebruikt te worden. Deze dienen meestal om de gebruiker te leiden in de zoekopdrachten en zo de meer geschikte term terug te vinden. ▪ Definition: - SN: Scope Note Een van de belangrijkste aspecten om een thesaurus goed te gebruiken, is het toewijzen van termen op de juiste manier en vooral in hun juiste betekenis aan een object. Een goede thesaurus moet daarom duidelijk aanduiden wat de conceptuele betekenis van de betreffende term is. Dit kan beperkt gebeuren door het linken van niet geprefereerde termen en hun semantische relaties, maar het gebruik van scope notes is een betere methode. Een scope note neemt vaak de vorm van een definitie van een bepaalde term aan. Eén enkele thesaurus term moet een betekenis hebben. De definitie van de term in de vorm van een scope note moet deze betekenis dus weergeven. Waarom zijn deze scope notes nu zo noodzakelijk? Enerzijds zijn er de homografen, woorden die hetzelfde gespeld worden maar een volledig andere betekenis hebben. Een voorbeeld hiervan is de Franse term ‘bois’. Deze term kan zowel ‘hout’ als ‘gewei’ betekenen. Om misverstanden bij de toewijzing van zulk soort homografen te vermijden, kan zowel gebruik gemaakt worden van een hiërarchische gestructureerde thesaurus, waar de broader term vaak specificeert welke betekenis de term heeft: ● Animal ► Bois ● Vegetal ► Bois Maar er kan verwarring blijven bestaan bij homografen. Een voorbeeld: ● Fossile ► Bois Dit probleem kan eventueel opgelost worden door een bijkomende kwalificatie op te geven zoals Fossile ► Bois (vegetal), maar zo’n oplossing kan in de eerste plaats best vermeden worden.
Roxanne Wyns
5/7
Hiernaast kan eenzelfde term ook meerdere keren herhaald worden in een thesaurus, maar kan het door zijn hiërarchische plaatsing in de thesaurus toch naar iets anders verwijzen. Een voorbeeld is: ● Dier ► Hoorn ► Antilope ● Dier ►Huid ► Antilope De term antilope heeft dezelfde betekenis, maar door zijn plaatsing in de thesaurus, verwijst de term naar een ander type van materiaal. Een scope note kan hier indiceren wat wel en niet onder de betekenis van deze term valt. Scope notes: - geven een definitie die meer informatie geeft over de wat de betekenis van een term is - geven een indicatie wat wel en niet behoort tot het concept van een bepaalde term - geven en verwijzing naar andere termen: synoniemen, related terms,… - geven bijkomende instructies in het gebruik van de term - moeten relevant zijn voor index- en zoekfuncties Door thesauri op deze manier van semantische scope notes te voorzien, wordt het gebruik van termen in een verkeerde context vermeden en het gebruik van meerdere termen met dezelfde of een gelijkaardige betekenis beperkt. Op deze manier wordt data eenvoudiger opzoekbaar en de resultaten van de zoekopdracht vollediger. 7. Conceptueel verbinden van authority bestanden en multi-linguistische thesauri SKOS biedt ook de mogelijkheid aan om thesauri meertalig te maken en meerdere van dit soort authoritybestanden met elkaar in een online omgeving te verbinden. Een meertalige thesaurus kan eigenlijk gezien worden als een set van mono-linguistische thesauri die gemapped worden naar een eenzelfde concept. Men spreekt hier dus niet van een synoniem, maar van de source language en de target language. Wanneer men werkt met meertalige equivalenten, zal men geconfronteerd worden met culturele en conceptuele verschillen. Op het moment dat men een meertalige thesaurus creëert is het dan ook van het grootste belang om naast de term, ook de scope note te vertalen en aan te duiden in welke mate de term een equivalent is van de bron. Men kan op semantisch niveau een onderscheid maken tussen volgende equivalenten. - Exacte equivalenten (=): Wanneer de term identiek in betekenis en scope is en dus als preferred term kan gebruikt worden. Vb: NL: administratie = FR: administration - Niet-exacte equivalenten ( ≅ ): Een term in de target language heeft dezelfde betekenis als het algemene concept van de source language, alhoewel de betekenis van deze termen toch niet helemaal identiek zijn. Vb: crown property ( ≅ ) patrimonio nacional - Enkel naar meervoudig (A=B+C): Wanneer de term in de source language niet exact kan gematched worden aan een equivalent in de target language, maar het concept van de term kan uitgedrukt worden door een combinatie van twee of meerdere bestaande termen. Vb: listed building (source) = edifice inscrit + edifice classe (target). - Geen equivalent: Wanneer de target language geen term bezit met een gelijkaardige betekenis. In dit geval kan de term in de source language blijven staan of vertaald worden uit de originele taal. Vb: NL: Boortmeerbeek = FR: Boortmeerbeek. 8. Hoe werkt SKOS - De door termen gerepresenteerde concepten worden geïdentificeerd d.m.v. URI’s (Uniform Recource Identifier) - Deze termen worden lexicaal verbonden met equivalenten in een of meerdere talen - Elke term wordt voorzien van een conceptuele betekenis d.m.v. een scope note - De termen worden semantisch met elkaar verbonden d.m.v. hiërarchische en associatieve netwerken (= semantische webtechnologie) - Gebruikt URI ( Uniform Recource Identifier) om te verwijzen (identificeren) van Concepten
Roxanne Wyns
6/7
9. Conclusie Het toevoegen van semantiek aan digitale data d.m.v. het gebruik van metadata formaten en mapping van conceptuele vocabulaires is zeker geen eenvoudig werk, en vraagt naast technologische kennis ook nog een groot inzicht in de collecties, de database en de gebruikte terminologieën. Het is dus aan alle database managers en gebruikers om zo consequent mogelijk te zijn bij de uitbouw en vooral bij het invullen van data in collectiebeheersystemen. Zonder te starten met een eigen standaardisering binnen de database, het definiëren van zowel metadatavelden als het gebruik van authority lijsten zoals thesauri d.m.v. scope notes, kan de volgende stap bij het toegankelijk maken van de data op het Web, nooit bereikt worden. Standaardisering en semantische interoperabiliteit zijn daarmee de belangrijkste doelstellingen om de culturele erfgoed informatie toegankelijker te maken op het web.
Roxanne Wyns
7/7