SVCN en het Semantische Web een eerste exploratie
Guus Schreiber, VU Jacco van Ossenbruggen, CWI
Overzicht • • • •
Zoeken in grote virtuele webcollecties Principes van het Semantische Web Welke technieken kunnen helpen? Web demonstrator: – Zoeken in een virtuele kunstcollectie – Zoeken in SVCN collecties: RVM en KIT • NB: werk van een paar dagen
1
Dankbetuiging • MultimediaN E-Culture Project: – Alia Amin, Mark van Assem, Victor de Boer, Lynda Hardman, Michiel Hildebrand, Laura Hollink, Zhisheng Huang, Marco de Niet, Borys Omelayenko, Ronny Siebes, Jos Taekema, Anna Tordai, Jan Wielemaker, Bob Wielinga
http://e-culture.multimedian.nl • ICN: Annemiek Teesing, Marie-France van Orsouw • Rijksmuseum Amsterdam • RMV en KIT medewerkers die ons geholpen hebben met de SVCN collectiedata en thesaurus
Zoeken in grote virtuele webcollecties Problemen en wensen
2
Virtueel Cultuur Web
3
Zoeken in virtuele collecties • •
•
Een kind zoekt naar foto’s van een “oranje aap” Een collectie dierenfoto's bevat beelden die geannoteerd zijn met “orangoetang” De zoekmachine vindt deze foto’s, ondanks het feit dat “oranje” en “aap” niet in de annotatie voorkomen
4
Principes van het Semantische Web
5
Principe 1: semantisch annoteren • Beschrijven van webobjecten met behulp van “begrippen” uit gezamenlijk vocabulaire • Dit is feitelijk al “standaard” in erfgoedcollecties!
Principe 2: semantisch zoeken aap
• Zoek naar objecten die via begrippen aan elkaar gekoppeld • Gebruik de begrippen om de zoekresultaten betekenisvol te groeperen
mensaap
orang-oetang
oranje
6
Principe 3: de mythe van een geünificeerde thesaurus • In grote virtuele collecties heb je altijd te maken met meerdere thesauri – In meerdere talen
• Iedere thesaurus heeft haar eigen invalshoek; je kunt ze niet samenvoegen • Maar je kunt de thesauri best samen gebruiken door middel van een beperkte verzameling “links” • Het is verassend wat je met die beperkte verzameling kunt doen!
Additionele bron: geografische thesauri
7
Additionele bron: lexicale thesauri
Voorbeeld “Tokugawa”
AAT stijl/periode Edo (Japanese period) Tokugawa
SVCN periode Edo
8
A link tussen twee thesauri
Is hier een webstandaard voor? • Ja! RDF is een XML-gebaseerde webstandaard voor het beschrijven van begrippen en hun relaties • Elk begrip en elke relatie hebben een webadres (URI)! auteur pers05
ISBN...
9
SKOS: een webstandaard voor de beschrijving van thesauri • Vereenvoudigt het gezamenlijk gebruik
Meertaligheid is een belangrijke eigenschap
10
Technieken voor het verrijken van thesauri en van annotaties
Leren van “links” tussen thesauri • Voorbeeld: leren van relaties tussen kunstenaars in ULAN en kunststijlen in AAT met behulp van kunsthistorische teksten
11
MATISSE, Henri Le Bonheur de vivre
DERAIN, Andre The Turning Road
Extraheren van extra kennis uit “scope notes” in thesauri
12
NWO programma CATCH: Continuous Access to Cultural Heritage • STITCH subproject richt zich volledig op het vinden van inter-thesauri links • Voorbeeld: Iconclass Ù ARIA • CHOICE: automatisch genereren van kandidaatindexeringstermen uit bijbehorende teksten (Beeld & Geluid)
Ondersteuning van het indexeren van TV programma’s door informatie-extractie • Handmatige annotatie niet haalbaar voor grootschalige digitale archieven • “Context documenten” zijn beschikbaar, bijv. Tv-gids informatie • Doel CHOICE: genereren van kandidaatindexeringstermen • Gebruik van andere bronnen naast de eigen GTAA thesaurus
13
Automatisch identificeren van kleur van objecten
Vereist betrouwbare segmentatie
E-Culture: een demonstrator voor virtuele erfgoedcollecties
14
16 Nov 2006
Culture Web demonstrator http://e-culture.multimedian.nl
15
16
17
Virtuele collecties moeten met grote hoeveelheden data om kunnen gaan
Nieuwe zoekparadigma’s: Vinden van betekenisvolle relaties tussen twee objecten/personen/….
?
18
Take home message • Thesaurus van zeven musea is een uitstekende basis • Het nut van SVCN kan nog groter worden door haar te verbinden met andere thesauri – beloning van het monnikenwerk!
• Belang van het gebruik van open webstandaarden – en niets anders dan ….
19