Multilingual/Multimedia Access To Cultural Heritage Hanneke Smulders Infomare
Informatie 2007 Gent, 14 september 2007
Agenda Introductie van het MultiMatch project. Doel, focus en zoekfunctionaliteit. [Inventarisatie metadatastandaarden cultureel erfgoedsector.] Interoperabiliteit en MultiMatch. Ontwikkeling van het metadataschema. Crosslinguaal zoeken in MultiMatch.
MultiMatch project - partners 1 Cultureel erfgoedsector: • Fratelli Alinari Istituto Edizioni Artistiche (IT), • Biblioteca Miguel De Cervantes (SP), • Nederlands Instituut voor Beeld en Geluid.
MultiMatch project - partners 2 Industriepartners: • OCLC Pica en WIND Telecomunicazioni.
Onderzoekspartners: • Dublin City University, • ISTI-CNR, • Universidad Nacional de Educación a Distancia, • University of Sheffield, • Universiteit van Amsterdam, • University of Geneva.
MultiMatch project - planning
Start: mei 2006. Eerste prototype: juli 2007. Tweede prototype: juli 2008. Afronding: september 2008.
MultiMatch project - doel 1 Het ontwikkelen van een multilinguale Web zoekmachine voor het vinden, organiseren en doelgericht presenteren van cultureel erfgoedinformatie. Doelgroep: onderwijs, cultureel toerisme en cultureel erfgoed professionals.
MultiMatch project - doel 2 De zoekmachine zal het gebruikers mogelijk maken om relevante cultureel erfgoedinformatie te onderzoeken, ook al is deze niet beschikbaar in de eigen voorkeurstaal, aanwezig in beeld of geluid, opgevraagd via mobiel internet of via SMS.
Van Gogh Museum (NL)
Web Resources: Museums Libraries Archives Newspapers News agencies Personal Pages Blogs
Museums Databases
Musée d’Orsay (F)
crawling
acquisition MULTI MATCH
National Gallery (UK)
MultiMatch onderzoeksproject Vier onderzoeksterreinen: Data verzamelen Data analyseren Indexeren (gespecialiseerde queries) Zoeken & Vinden • interactie met gebruiker over informatiebehoefte • zoekresultaten geïntegreerd en taalonafhankelijk presenteren • de resultaten in hun context tonen.
MultiMatch project - focus Makers en Creaties. Engels, Italiaans, Nederlands en Spaans. Gespecialiseerde zoekmogelijkheden die passen bij complexe taak scenario’s. Verrijkte toegang bieden tot heterogene cultureel erfgoedobjecten.
MultiMatch – bronnen De catalogi van een audiovisueel archief, een fotomuseum en een bibliotheek • transcripts van 20 uur radioprogramma’s • 49 tv-programma's • elektronische versies van boeken
65,000 Wikipedia artikelen over kunst en cultuur in de vier talen. 1150 cultureel erfgoedwebsites. De catalogus van The European Library. Bijna 80.000 images.
Vijf typen Creaties Tekst: boeken, gedichten, webteksten etc. Audio: radioprogramma’s. Stilstaand Beeld: images van foto’s, schilderijen, tekeningen etc. en stills uit video’s.
Video: tv-programma’s. Fysieke Objecten: o.a. sculpturen, vasen, schilderijen, meubels gerepresenteerd via images.
Zoeken naar Makers Query: Maker naam => resultaat: • georganiseerde informatie over de Maker. • Hulp bij ambigue namen (spellingvarianten of kunstenaars met dezelfde naam).
Query: Maker naam + vrije tekst => resultaat: • georganiseerde informatie over de Maker in relatie tot het onderwerp.
Query: meerdere Maker namen => resultaat: • relaties tussen deze Makers, overeenkomsten, andere gerelateerde Makers, hun plaats in een netwerk van Makers.
Query: vrije tekst => resultaat: • de meest relevante Makers bij dat onderwerp.
Zoeken naar Creaties Query: creatie titel => resultaat: • georganiseerde informatie over het werk. • Hulp bij ambigue titels.
Query: creatie titel + vrije tekst => resultaat: • georganiseerde informatie over het werk in relatie tot het onderwerp.
Query: meerdere creatie titels => resultaat: • relaties deze werken, gemeenschappelijke kenmerken, andere gerelateerde werken, hun plaats in een netwerk van de betreffende Maker(en).
Query: vrije tekst => resultaat: • de meest relevante creaties bij dat onderwerp.
Afbeelding zoeken met QBE
Inventarisatie metadatastandaarden Inventarisatie standaarden cultureel erfgoedsector (2006). 40 metadataschema’s en ontsluitingsinstrumenten beschreven. Rapportage beschikbaar via www.infomare.eu.
Conclusies Inventarisatie 1 Toepassing van standaarden nog steeds behoorlijk divers binnen de sector. Per deelsector gespecialiseerde standaarden in gebruik, met name • bibliotheken: MARC • musea: CDWA, VRA • onderwijs: IEEE LOM.
Vaak crosswalk vanuit een metadatastandaard naar Dublin Core.
Metadataschema’s v/d partners Ook de schema’s in gebruik bij de cultureel erfgoedpartners zijn zeer gespecialiseerd: Alinari: Fotografie. Cervantes: Spaanse literatuur. Beeld en Geluid: Nederlandse omroepproducties. ¾Deze metadata zijn aan te bieden als DC.
Conclusies Inventarisatie 2 Beperkt internationaal gebruik van ontsluitingsinstrumenten: geen enkele in elke Europese taal beschikbaar. Ontsluitingsinstrumenten vaak niet openbaar. Ook de MultiMatch partners gebruiken monolinguale ontsluitingsinstrumenten.
Conclusies Inventarisatie 3 Geen van de standaarden komt tegemoet aan alle eisen van MultiMatch. Vier standaarden die het meest relevant zijn voor de interoperabiliteit in ogenschouw nemen.
Standaarden nader onderzocht Dublin Core: is in gebruik in de gehele cultureel erfgoedsector. MPEG-7: kan met multimedia omgaan op een wijze die past bij MultiMatch. FRBR: een datamodel met voor MultiMatch bruikbare relaties en hiërarchie. CIDOC CRM: een referentiemodel voor de gehele cultureel erfgoedsector.
Interoperabiliteit - concept 1 abstract
Semantic Allowing to access similar classes of objects and services across multiple objects, with multilinguality of content as one specific aspect
Functional/Pragmatic Based on a common set of functional primitives or on a common set of service definitions
Syntactic Allowing the interchange of metadata and protocol elements
Technical/basic physical
Common tools, interfaces and infrastructure providing uniformity for navigation and access Gradmann
Interoperabiliteit – concept 2 Interoperabiliteit bevordert de uitwisseling van informatie tussen culturele erfgoedinstellingen en gebruikers. Metadatastandaarden faciliteren interoperabiliteit. Inventarisatie als basis voor bevorderen interoperabiliteit binnen MultiMatch.
Interoperabiliteit en MultiMatch 1 Technisch: interface + architectuur componenten volgens standaarden gespecificeerd. Syntactisch: crosswalks v/d partners schema’s naar het MultiMatch Schema en naar/van standaarden zoals Dublin Core. Pragmatisch: architectuur ontwerp gericht op hergebruik van onderdelen + interactie met andere systemen.
Interoperabiliteit en MultiMatch 2 Semantisch: MultiMatch Schema representeren in ‘semantic encoding’, met name in XML en in OWL. Plus: deze representatie koppelen aan relevante semantische representaties: de RDF(S) versies van DCMI en CIDOC CRM.
Interoperabiliteit en MultiMatch 3 Betekenis van de metadata elementen van het schema eenduidig vastgelegd. Bovendien: voor de waarden van deze metadata elementen zoveel mogelijk standaard ontsluitingsinstrumenten gebruiken.
Interoperabiliteit en MultiMatch 4 Starten met: Getty Arts and Architecture Thesaurus (AAT) => Creaties beschrijven. Getty Unified List of Artist Names (ULAN) => Maker namen en informatie. Getty Thesaurus of Geographic Names (TGN) => geospatiale informatie. Beschikbaar in XML, OWL en RDF.
Interoperabiliteit en MultiMatch 5 Semantische interoperabiliteit => • streven naar zo groot mogelijke flexibiliteit, dekking en expressiviteit.
Data in Dublin Core formaat => • de grootst mogelijke dekking, • maar ook verlies van informatierijkdom.
Data ook kunnen aanbieden in meer expressieve representaties (MPEG-7, VRA, FRBR, CIDOC).
Interoperabiliteit en MultiMatch 6 Ongewild een nieuw metadataschema ontworpen. Metadata elementen nodig die DCMI Metadata Terms niet aanbiedt, met name: • extra kenmerken om de tijdgrenzen en/of het gewicht van een relatie te beschrijven; • een taalkenmerk voor diverse elementen.
Concluderend Voor intern gebruik: het MultiMatch metadata schema. Voor uitwisseling, import en publicatie: Dublin Core standaard (15 elementen). Crosswalk gemaakt van intern schema naar DCMES, DCMI Metadata Terms en referentiemodel CIDOC-CRM.
Dublin Core geschikt startpunt Elements
Refinements
1. Identifier 2. Title 3. Creator 4. Contributor 5. Publisher 6. Subject 7. Description 8. Coverage 9. Format 10. Type 11. Date 12. Relation 13. Source 14. Rights 15. Language
Abstract Access rights Alternative Audience Available Bibliographic citation Conforms to Created Date accepted Date copyrighted Date submitted Education level Extent Has format Has part Has version Is format of Is part of
Encodings Types Is referenced by Is replaced by Is required by Issued Is version of License Mediator Medium Modified Provenance References Replaces Requires Rights holder Spatial Table of contents Temporal Valid
Box DCMIType DDC IMT ISO3166 ISO639-2 LCC LCSH MESH Period Point RFC1766 RFC3066 TGN UDC URI W3CTDF
Collection Dataset Event Image Interactive Resource Moving Image Physical Object Service Software Sound Still Image Text
voor ontwikkeling metadataschema MultiMatch metadataschema is gebouwd op basis van DCMI Metadata Terms met ‘DC refinements’. Waar mogelijk komen de metadata elementnamen overeen.
Echter... Meer entiteiten nodig dan uitsluitend Creatie: DC niet 100% dekking voor beschrijven Actoren en multimedia objecten. Bovendien is DC gericht op de oorspronkelijke creatie => geen elementen voor eventuele wijzigingen aan creatie. Beschikbare relatietypen bij DC Relation volstaan niet.
Datamodel nodig Makers (kunstenaars en auteurs). Overige Actoren (uitgevers, vertalers, restaurateurs etc.). Creaties. Digitale representaties. Collecties van creaties of digitale representaties (catalogi, websites).
Andere standaarden overwogen MPEG-7 : Multimedia Content Description Interface. FRBR : Functional Requirements for Bibliographic Records. CIDOC CRM : CIDOC Conceptual Reference Model.
MPEG-7 niet gebruikt Niet ontworpen voor representeren fysieke cultureel erfgoed objecten. Nog relatief weinig gebruik binnen het domein als geheel. Interessant: mogelijkheid om MPEG-7 en CIDOC CRM te harmoniseren. Hoe meer culturele collecties gedigitaliseerd, hoe belangrijker deze standaard.
FRBR nog niet gebruikt Discussie over de grenzen van Work, Expression, Manifestation en Item. Dit onderscheid niet van primair belang. Onderscheid zou de automatische informatie extractie nogal bemoeilijken. MultiMatch Creatie entiteit is te specificeren met de vier FRBR entiteiten.
CIDOC CRM hoofdentiteiten
refer to / identifie
E41 Appellations
E55 Types refer to / refine
E39 Actors
E28 Conceptual Objects E18 Physical Thing
participate in affect or / refer to location E2 Temporal Entities
E52 Time-Spanswithin
at
E53 Places
CIDOC-CRM ten dele gebruikt Behoorlijk complex om te implementeren. Complex om een metadataschema af te leiden op een voor de gebruiker begrijpelijke wijze. Het beschikbare, eenvoudige metadata schema, CRM Core, bleek minder expressief dan Dublin Core.
MultiMatch metadataschema Schema en datamodel dekken nog niet complete behoefte gehele domein. Opzet maakt uitbreiden mogelijk. Nu bijvoorbeeld uitsluitend Tentoonstellingen als Event type. Uitbreidbaar met andere relevante Events via klassen en relatietypen van CIDOC CRM.
Crosslinguaal zoeken Zoekvraag te stellen in taal naar keuze : Engels, Italiaans, Nederlands of Spaans. Query taal opgeven. Opgeven in welke talen query vertaald mag worden. Het resultaat bevat: alle antwoorden op de query gevonden in data in de taal/talen van de query.
Voorbeeld overzicht zoekresultaten
Bladeren op basis van taal
Gebruiker invloed op vertaling zoekvraag
Referenties 1
Dublin Core Metadata Element Set (DCMES), Version 1.1 (http://purl.org/dc/elements/1.1/), DCMI elements and DCMI qualifiers (http://purl.org/dc/terms/) and DCMI controlled vocabulary (http://purl.org/dc/dcmitype/).
CIDOC CRM (http://cidoc.ics.forth.gr/official_release_cidoc.html) kan de informatie over bijv. het beeld ‘Monument voor Balzac’ van Rodin vanuit meerdere gezichtspunten tonen (http://cidoc.ics.forth.gr/crm_core/core_examples/balzac.html). Meer voorbeelden: http://cidoc.ics.forth.gr/working_editions_cidoc.html#crm_core.
Referenties 2
FRBR. Functional Requirements for Bibliographic Records - Final Report / IFLA. http://www.ifla.org/VII/s13/frbr/frbr1.htm#3.2 Latest Revision: 12 October 2006.
Gradmann 2007. Position paper on Interoperability and Multilinguism / presentation by Stefan Gradmann of the EC Working Group on Interoperability and Multilinguism DELOS-MultiMatch Workshop on Semantic-Driven Interoperability for Cultural Heritage Digital Objects, held at Tirrenia, Pisa, February 2007 (See http://www.delos.info/index.php?option=com_content&task=view&id=533&It emid=278 for this and other presentations.).
MPEG-7. The generic Multimedia Content Description Standard (http://www.chiariglione.org/mpeg/tutorials/papers/IEEEMM_mp7overview_ withcopyrigth.pd).