Uitwerking presentatie begeleidingscomissie CATCH Vincent de Keijzer 27/01/2012
MuSeUM (Plus) Het Gemeentemuseum Den Haag heeft de afgelopen jaren samengewerkt met een groep onderzoekers van de Universiteit van Amsterdam (UvA) in het kader van het zgn. Catch project. Catch staat voor Continous Access to Cultural Heritage en is een initiatief van het NWO (Nederlandse Organisatie voor Wetenschappelijk Onderzoek). In het project van de UvA en het Gemeentemuseum stond het zoeken in erfgoeddata centraal. Gedurende het project hebben de medewerkers vaak moeten uitleggen waarom het nodig is om onderzoek te doen naar zoekmethodieken als iedereen alles al kan vinden met Google. Weinigen realiseren zich dat Google slechts zoekt in een deel van alle beschikbare informatie en bovendien ongeschikt is voor vragen die een heel precies en uitputtend antwoord behoeven. Veel van de informatie die een erfgoedinstelling als het Gemeentemuseum verzamelt wordt niet vanzelfsprekend door Google gevonden en ontsloten. Het zijn gegevens over bijvoorbeeld kunstwerken, bibliotheekboeken en tentoonstellingen die heel gestructureerd zijn opgeslagen in specialistische databases. Om de juiste informatie te kunnen vinden gebruiken dergelijke informatiesystemen eigen zoekformulieren, waarbij de juiste term in het relevante zoekveld (bijvoorbeeld materiaal, auteur of begindatum) moet worden ingevoerd om het gewenste resultaat te verkrijgen. Een methodiek die alleen 100% werkt als alle informatie in de juiste vorm op de juiste plek is opgeslagen. Elk instituut met een database van enige omvang kent echter de dagelijkse praktijk die haaks staat op het streven naar een gestructureerde verzameling van “schone” gegevens. Zo doet zich bijvoorbeeld het verschijnsel voor waarbij voortschrijdend inzicht leidt tot een verandering van de beschrijvingsmethodiek. Een deel van de informatie is al wel en een deel nog niet op de nieuwe manier beschreven en er moet dus op twee verschillende plekken naar relevant materiaal worden gezocht. Een situatie die doorgaans niet eenvoudig op te lossen blijkt omdat tijd en geld ontbreekt om met terugwerkende kracht alle oude beschrijvingen aan te passen aan de nieuwe opvatting. In het Catchproject Multiple Search Using Metadata (MuSeUM) stond de vraag centraal op welke manier er het beste gezocht kan worden in dergelijke “vervuilde” databases. Er werd gewerkt met een eenmalige dump van metadata uit drie verschillende databases van het Gemeentemuseum en een verzameling integrale digitale documenten uit het lopende archief. Deze testset is gebruikt voor een reeks experimenten waarin verschillende zoekmethodieken werden vergeleken op de hoeveelheid treffers en de relevantie van het gevonden materiaal. Startpunt van het onderzoek was de vraag wat er zou gebeuren als we alle structuur uit de databases zouden negeren en een google-achtige zoekmachine zouden loslaten op deze brij van onsamenhangende tekst. Vervolgens werd onderzocht welke elementen uit de databasestructuur een positief effect hadden op de omvang en relevantie van het zoekresultaat. Wat gebeurde er bijvoorbeeld als je het veld waarin de term werd gevonden bij het zoeken meewoog? Was het nuttig om gebruik te maken van de onderlinge relaties tussen records in de verschillende databases? Als de gezochte term T voorkomt in document D en er vanuit D verwezen wordt naar object O kan je veronderstellen dat O mogelijkerwijs ook een relatie heeft met T. De verwachting vooraf was dat de ongestructureerde benadering een betrekkelijk slecht resultaat op zou leveren en met name onvoldoende zou werken bij zoekvragen van specialistische gebruikers. Voor deze gebruikers zou de traditionele gestructureerde zoekmethodiek onmisbaar blijken. In de praktijk bleek echter dat de grove benadering al een betrekkelijk hoogwaardig resultaat opleverde en het zoeken met traditionele zoekformulieren weliswaar minder ruis bevatte, maar ook relevante items over het hoofd zag. Bijvoorbeeld omdat de gewenste zoekterm niet precies in het juiste veld stond of de ingevoerde naam niet de juiste woordvolgorde had. Bovendien bleek uit de bestudering van een groot aantal e-mailvragen dat er geen wezenlijk verschil bestond tussen specialistische gebruikers en doorsnee gebruikers. Zowel de
complexiteit van de vragen als de aanwezige kennis over het onderwerp bleek in grote mate overeen te komen. De veronderstelling dat leken tevreden zouden zijn met het resultaat van de grove zoekmethodiek omdat hun vragen eenvoudiger waren bleek niet juist. Eindconclusie van het project is dat voor alle gebruikers het beste resultaat bereikt wordt met een combinatie van beide zoekmethodieken. Zoek bijvoorbeeld op een term in een specifiek veld, maar toon ook het resultaat van dezelfde zoekopdracht in alle beschikbare tekst. Neem vervolgens in de presentatie van het resultaat van een zoekactie ook de items mee die indirect (via een linkverwijzing) zijn gevonden. Op die manier maak je gebruik van de betekenisvolle structuur die in databases is aangebracht én het feit dat je zoekterm op onverwachte plekken en in afwijkende vorm kan voorkomen.
MuSeUM Plus Het Catch onderzoek MuSeUM heeft vooral een theoretische basis gelegd en een aantal aanbevelingen opgeleverd voor het manipuleren van zoekvragen (queries) en de zgn. ranking van het gevonden resultaat waarbij de items naar relevantie worden gepresenteerd. De volgende stap is het werkelijk bouwen van een zoekmachine die op deze manier werkt. Het vervolgproject MuSeUM Plus is opgezet om o.a. dit doel te bereiken en de experimentele omgeving van het wetenschappelijk onderzoek te vertalen naar de dagelijkse praktijk van erfgoedinstellingen als het Gemeentemuseum. Zo zal de zoekmachine moeten gaan werken op basis van up to date gegevens uit de databases en toepasbaar zijn voor meerdere en verschillende gebruikers en bronbestanden. In het project zal bovendien een mogelijkheid worden ontwikkeld om het resultaat van een zoekactie verder te kunnen bewerken. Ook dit onderdeel bouwt door op een resultaat van het oorspronkelijke Catch project. Het experimentele en hoofdzakelijk interne platform Geméén zal worden uitgebreid om o.a. verzamelingen objectbeschrijvingen in werkgroepverband te kunnen bestuderen. MuSeUM Plus gaat uit van digitale informatiebronnen die in de vorm van een xml dump beschikbaar kunnen worden gesteld. Voor de werking van zoekmachine (werktitel MuS) moet de basisstructuur van records en velden worden aangevuld met een mapping waarin de belangrijkste velden worden benoemd en geduid. Hierbij houdt MuSeUm Plus een strikte scheiding aan tussen het doorzoeken en het tonen van de gegevens. Musea worden in de recente ontwikkelingen steeds vaker neergezet als bolwerken van behoudzucht en paternalisme. Dit is maar ten dele waar. Veel musea zien nut en noodzaak van het onvoorwaardelijk beschikbaarstellen van hun bronnen, maar worden afgeschrikt door een reeks praktische problemen. Door de grillige ontstaans- en vormingsgeschiedenis van hun gedigitaliseerde informatiesystemen is er bijvoorbeeld een reëel gevaar dat geheime gegevens (waarde, standplaats, herkomst) op straat komen te liggen. Het feit dat de informatiesystemen die het museum kan aanbieden bestaan uit voornamelijk administratieve gegevens die alleen in onderlinge samenhang nuttige informatie opleveren is op zich geen argument om het openbaarmaken tegen te houden. Een veel verstandiger beleid voorziet in het volledig toegang verlenen en de gebruikers zelf laten ontdekken dat ze het museum als specialist nodig hebben om betekenis te geven aan alle losse blokjes data. Een dergelijke benadering zou op den duur ook veel museummedewerkers kunnen overtuigen die huiverig zijn voor het beschikbaarstellen van ongeredigeerde beschrijvingen. Het MuSeUM Plus project houdt rekening met de wens van musea om controle te houden over het tonen van hun data. Enerzijds om te voorkomen dat geheime data per ongeluk wordt geopenbaard, anderzijds om de ontwikkeling naar een nieuw beleid van ontsluiting geleidelijk te kunnen uittesten en invoeren. Het biedt de mogelijkheid om ALLE informatie te doorzoeken én controle te houden over het tonen van het zoekresultaat.
Mapping Museale informatiesystemen kenmerken zich door een wildgroei aan velden en weinig consensus over standaarden van beschrijving. De officiële software onderscheidt zich in dit opzicht niet wezenlijk van maatwerkoplossingen. Elk systeem heeft een specifieke structuur met eigen veldnamen en bijbehorende inhoud. Om het zoeken mbv de zoekmachine MuS mogelijk te maken zal elke nieuwe bron eenmalig moeten worden geanalyseerd door de aanbieder. In de ruwe xmldump zal een reeks velden moeten worden geïdentificeerd en gemapt met een basaal en generiek schema. Als eerste zal moeten worden aangegeven in welk veld de unieke identifier te vinden is. MuSeUM plus sluit zich aan bij de ontwikkelingen rond de zgn. PIDs (Persistente identifiers) om op die manier te kunnen waarborgen dat er maximale eenduidigheid is over de eenheid waar naar wordt verwezen. Daarnaast moeten de velden worden geïdentificeerd waar de relaties tussen het betreffende record (= de betreffende PID) en andere records (PIDS) kunnen worden afgeleid. Vervolgens kunnen in de xmldump velden worden aangewezen die een rol spelen bij de ranking van het zoekresultaat (bijvoorbeeld wijzigingsinformatie) en velden die in geen geval extern mogen worden getoond (“geheime” velden) Ook inhoudelijk zullen velden moeten worden geduid. MuSeUM Plus stelt een mapping voor van de belangrijkste velden aan de hand van het Dublin Core model, verder onderverdeeld in de rubrieken Wie, Wat, Waar, Wanneer en Hoe, zoals voorgesteld in het artikel Dublin Core in samenwerkingsprojecten en publieksgerichte ontsluiting – 11augustus 2008. wie wat waar wanneer hoe
dc.creator, dc.contributor, dc.publisher dc.title, dc.title.alternative, dc.description, dc.subject dc.coverage, dc.coverage.spatial, dc.date dc.coverage.temporal, dc.date dc.type, dc.format
Bron: Website den – Kenniscentrum Digitaal Erfgoed Deze indeling biedt de mogelijkheid om velden uit de museale informatiestructuur die “schuren” met de bibliotheekstandaard Dublin Core in ieder geval in een van de algemene rubrieken (WWWWH) onder te brengen. MuS kan in één bron zoeken maar is bedoeld voor het doorzoeken van meerdere bronnen tegelijkertijd, bij voorkeur voorzien van onderlinge relaties. Voorwaarde is dat elke bron als xml dump ter beschikking wordt gesteld en elke bron wordt voorzien van een bijbehorende verklaring en mapping van relevante velden. MuSeUM Plus baseert zich in eerste instantie op de praktijk van het Gemeentemuseum Den Haag en de drie samenhangende Adlib databases (Objecten, Documenten en Kroniek). Vervolgens zullen databases van andere musea en andere soorten informatiesystemen worden toegevoegd om de systematiek verder te testen en te ontwikkelen.
Werking MuS MuS is de werknaam voor de zoekmethodiek die in het kader van MuSeUM Plus wordt ontwikkeld. Deze methodiek is gebaseerd op een aantal opeenvolgende bewerkingen van een gegeven query. In eerste instantie worden de termen uit de query gezocht in de gehele xml dump van de bron(nen) zonder rekening te houden met de waarde van de verschillende velden. Resultaat van deze zoekactie is een reeks PIDs >>> Zoekresultaat A In een tweede zoektocht worden dezelfde zoektermen gezocht in de relevante categorieën van het Dublin Core/WWWWH model. Om deze actie te kunnen uitvoeren zal van de zoektermen moeten worden
aangegeven bij welke DC/WWWWH categorie ze horen. Dit kan wellicht gedeeltelijk op basis van automatische suggesties gebeuren. Ook deze actie levert als resultaat een reeks PIDs >>> Zoekresultaat B MuS gaat vervolgens uit van de veronderstelling dat er een inhoudelijke samenhang bestaat tussen records die aan elkaar zijn gelinkt. Dus als record x als relevant wordt aangemerkt en er een relatie is tussen record x en record y, dan is record y eveneens relevant. Bijvoorbeeld record x is een tentoonstellingbeschrijving (Kroniek) waarin de zoekterm Art Deco voorkomt. Record y is een objectbeschrijving waarin de zoekterm niet voorkomt. Object y is gelinkt aan tentoonstelling x en is dus potenieel relevant. Het ranken van de zoekresultaten gebeurt volgens de TF-IDF standaard. De zoekmachine MuS biedt de mogelijkheid om specifieke rankingwensen aan deze basis toe te voegen. Zo zou bijvoorbeeld gebruik gemaakt kunnen worden van de wijzigingsgegevens van een record. Een veelvuldig gewijzigd (bijgewerkt) record is wellicht “zwaarder” dan een ongeredigeerd record Resultaat van alle bewerkingen in MuS zijn twee lijsten PIDs; ZIE = zoekresultaat B: “gekleurde” zoektermen gezocht in de relevante categorieën van het Dublin Core/WWWWH model ZIE OOK = zoekresultaat A: zoektermen gezocht in de gehele xml dump van de bron(nen) zonder rekening te houden met de waarde van de verschillende velden
Presentatie Vervolgens komt het aspect van het tonen van het zoekresultaat aan de orde. De bezitter van de bron kan bepalen op basis van welke criteria een record wel/niet of gedeeltelijk beschikbaar wordt gesteld. Het idee is dat je op en duur met één zoekactie meerdere bronnen (van meerdere instituten) kan doorzoeken. In het resultaat zal je dan meerdere smaken van openbaarheid van gegevens tegenkomen. In het meest extreme geval heb je van een aantal records alleen de PID. Je weet dan alleen dat er in de betreffende bron wellicht relevant materiaal zit. Je kan vervolgens het betreffende instituut benaderen met de vraag de door jou gewenste PIDs te redigeren en openbaar te maken. Het ene instituut zal vervolgens volstaan met het controleren of er een risico is op prijsgeven van geheime gegevens. Het andere instituut zal pas na een volledige opschoning van de beschrijving toegang willen verlenen.
O_og MuSeUM Plus biedt de mogeljkheid om de zoekresultaten verder te waarderen en bewerken in een online werkgroepverband. Hierbij beperken we ons in eerste instantie tot de objectbeschrijvingen uit het zoekresultaat. MuS gebruikt dus meerdere bronnen (objecten, documenten en Kroniek) om selecties relevante objectrecords te leveren bij een bepaalde query. Deze sets zijn de basis voor een zgn. O_og werkgroep. De O_og werkomgeving ondersteunt de praktijk van het selecteren van relevante objecten voor een specifiek thema. Bijvoorbeeld tbv een voorgenomen tentoonstelling over de Haagse School of voor enthousiaste verzamelaars van ex librissen of merklappen. De werkgroepdeelnemers kunnen zoekvragen opgeven die door MuS worden gezocht in meerdere bronnen. Het resultaat van de zoektocht is in eerste instantie een overzicht van mogelijk relevante objecten voor de werkgroep. Bovendien wordt aangegeven welke records niet, gedeeltelijk of volledig te raadplegen zijn. Het bepalen of een gevonden record werkelijk relevant is voor het doel van de werkgroep is een redactionele (handmatige) kwestie. Op basis van eigen selectiecriteria kan worden bepaald of een record al dan niet wordt opgenomen in de studieverzameling. De door de werkgroep gebruikte queries worden bewaard en door MuS regelmatig opnieuw uitgevoerd. Op deze manier kunnen veranderingen ten opzicht van het laatste zoekresultaat van een query worden
weergeven. Stel dat er in de bibliotheek een boek wordt opgenomen met als titel De Haagse school. Dit record wordt gevonden als resultaat van een hergebruikte query van de Haagse School werkgroep. In de beschrijving van het boek wordt verwezen naar een reeks objectbeschrijvingen. Een deel van deze beschrijvingen zijn al eerder als mogelijk relevant aangewezen, maar een ander deel is nieuw. Deze selectie wordt als nieuwe suggesties aan de werkgroep gepresenteerd. Op een vergelijkbare manier wordt er melding gemaakt van objecten die zijn “weggevallen” uit de resultaatset van een bestaande query. De O_og werkgroep zal echter niet alleen de mogelijkheid bieden om te discussiëren over definitie en samenstelling van een verzameling items. Het is de bedoeling dat een dergelijke studieuze omgeving een rol gaat spelen in de wetenschappelijke beschrijving van objecten. Deze praktijk gaat uit van het feit dat het merendeel van de informatie over een object op losse schroeven staat. De titel kan wijzigen, net als de datering en de toeschrijving aan een bepaalde kunstenaar. De gebruikte terminologie is onderdeel van een almaar voortdurende discussie tussen specialisten en beschrijvingen van voorgangers moeten worden bijgesteld door nieuwe inzichten. Om medewerkers te ondersteunen die deze gegevens toevoegen en aanpassen zal een werkomgeving worden gecreëerd die continue verandering toestaat, discussie faciliteert en bovendien de mogelijkheid biedt om oude beschrijvingen te raadplegen. In feite het model van Wikipedia. De beschrijving in de studieomgeving zal in tegenstelling tot de objectinformatie in het collectieregistratie systeem vooral bestaan uit lopende tekst. De informatiebenadering van de documentalist (opknippen in stukken en verdelen over velden) staat haaks op de praktijk van de wetenschappelijke medewerkers van het museum. Zij schrijven in principe artikelen waarin alle informatie over bijvoorbeeld een object als samenhangend verhaal wordt gepresenteerd. Het zijn auteurs die gewend zijn te werken binnen een redactioneel kader en bijvoorbeeld voor een specifieke doelgroep of toepassing, maar binnen die begrenzingen veel vrijheid nodig hebben. Een vrijheid die ze niet vinden in de standaard registratie software.
Toepassing MuS en O_og in het Gemeentemuseum Het Gemeentemuseum Den Haag wil in de komende periode een versnelling bewerkstelligen in het beschikbaarstellen van informatie over de collectie. Het museum zoekt daarbij naar een goede balans tussen een verantwoorde presentatie en een zo groot mogelijke toegankelijkheid van de informatiebronnen. Het zal initiatieven ontplooien om de meest recente gegevens over de museumobjecten in hun context te presenteren én het zal het publiek de mogelijkheid bieden om de gehele collectie te doorzoeken en mee te helpen met het verzamelen van ontbrekende informatie. Op de centrale website van het museum zal de eigen verzameling worden gepresenteerd als een onuitputtelijke bron van inspiratie en onderzoek waar telkens weer andere verbanden tussen de objecten kunnen worden gelegd en waarin iedereen wat van zijn gading kan vinden. Naast schatkamer is het museum echter ook een rijke bron van ervaring en expertise. Op een aantal gebieden geldt het Gemeentemuseum als dé autoriteit of een belangrijke expert. Deze kwalificatie is gebaseerd op de aanwezigheid van een belangrijke deelcollectie, gespecialiseerde medewerkers en een opgebouwde historie van presentaties en publicaties rond het onderwerp. Het Gemeentemuseum zal in de komende jaren ook deze kwaliteit inzetten in verantwoorde en goed toegankelijke online presentaties waarin telkens een thema centraal staat. Beide online presentatievormen zullen gebruik maken van de resultaten van het MuSeUM Plusproject. De zoekmachine MuS zal worden aangeboden bij de online collectiepresentatie van het museum. Hiermee kan het publiek antwoord krijgen op de vraag of er zich in de collectie van het Gemeentemuseum voor hen relevante objecten bevinden, ook als deze nog niet online zijn gepubliceerd. Op het experimentele platform Geméén zal de mogelijkheid worden geboden om het gevonden resultaat te beoordelen en te bewerken en daarmee de basis te leggen voor een nieuwe zgn. expertisesite.