Instituut voor Media en Informatie Management
D021 Ontsluiting 2 Nique Sanders
ID3
Docenten
Henk Magrijn, Marjolein van der Linden
Tutor
Paul Reinierse
14 januari 2007
Ontsluiting
2
Inhoudsopgave 1.
Een eenvoudige thesaurus samenstellen (conform ISO-norm 2788)................ 3
2.
Niet al te specialistische informatie (zowel tekst als beeld) met behulp van thesaurustermen toegankelijk maken (indexeren).............................................7
3.
Niet al te specialistische informatie (zowel tekst als beeld) vinden met behulp van thesaurustermen (postcoördinatief)................................................................... 9
4.
De functionaliteit benoemen van een geautomatiseerd information retrieval systeem, waarin het mogelijk is op adequate wijze m.b.v. een thesaurus te zoeken....... 11
5.
Een inhoudsanalyse maken van documentaire informatie.............................. 14
6.
Aangeven in welke gevallen het nuttig is om onderwerpsontsluiting toe te passen op basis van losse woorden uit een beschrijving en in welke gevallen het nuttig is bij de onderwerpsontsluiting gebruik te maken van een gecontroleerde informatietaal .................................................................................................... 17
7.
Literatuur........................................................................................................... 19
Ontsluiting
3
1. Een eenvoudige thesaurus samenstellen (conform ISO-norm 2788) 1.1. Het leerdoel in eigen woorden Ik wil leren wat een thesaurus is en hoe ik een een thesaurus kan samenstellen.
1.2. Relevante ervaring Ik heb digitale informatie bestaande uit verschillende soorten documenten (tekst, beeld, video) voor inter- en intranet op zodanige wijze geordend dat gebruikers deze informatie eenvoudig kunnen terugvinden. Doel van deze ordening is het kunnen plaatsen van documenten (rapporten, white papers, smoelenboek, statistische informatie, persberichten, artikelen etc.), het kunnen aanbrengen van een ordening in een mappenstructuur èn het kunnen terugvinden van deze informatie. Hiervoor is gebruik gemaakt van systematische onderwerpsindeling (trefwoorden), (een bestaande) classificatie en meta informatie. Ontsluiting van de documenten vindt dus plaats op formeel en op inhoudelijk niveau. Documenten worden ontsloten via een beschrijving (samenvatting), via formele aspecten zoals titel, auteur, jaar van publicatie etc. en op soort (persbericht, onderzoeksrapport) en op bestandsformaat (excel, word, webpagina, pdf).
1.3. Wat heb ik gedaan om me het doel eigen te maken: Als eerste heb ik de relevante hoofdstukken (H1 t/m 6) uit Woordsystemen gelezen. En voor alle onderdelen ben ik naast de voorbeelden in het boek in de online omgeving gaan zoeken naar voorbeelden zodat het niet een puur theoretische aangelegenheid zou zijn. Ik ben kritisch gaan kijken hoe anderen dat aangepakt hebben. Daarnaast heb ik zelf een thesaurus gebouwd aan de hand van de woordenlijsten genoemd in de opdrachtenbundel. Ik ben gaan kijken naar bestaande thesauri zoals bij DIALOG, AAT-Nederland, Thesaurus Wetenschappelijk Onderzoek- en Documentatiecentrum van Justitie en Thesaurus Zorg en Welzijn waarbij de laatste ook nog een geografische thesaurus heeft. Hierbij heb ik gelet op de indelingen van de verschillende thesauri in BT’s, NT’s, RT’s, SN en qualifiers. Vooral de geografische thesaurus zijn de qualifiers goed zichtbaar.
1.4. Bewijs je leerdoel Een thesaurus is een woordsysteem. Een woordsysteem is een geordende verzameling woorden en woordgroepen uit de natuurlijke taal waarvan de vorm en de onderlinge relaties zijn vastgelegd. Hierdoor kun je eenvoudig een overzicht krijgen van woorden die een soortgelijke betekenis hebben. Door het leggen van relaties (hiërarchische en gelijkwaardigheids) ontstaat er een soort termrijkdom. Het is niet zomaar een lijst met termen. Deze relaties zijn semantisch van aard dat betekent dat ze op basis van hun betekenis worden gelegd. Ze worden niet geconstrueerd zoals bij een trefwoordenlijst bv Hofjes; renovatie; Amsterdam (=syntactische relatie). Complexe onderwerpen worden zoveel mogelijk tot enkelvoudige termen teruggebracht. Pas in de zoekfase worden deze losse thesaurustermen gecombineerd tot één zoekopdracht. Daarom is er sprake van een postcoördinatieve informatietaal. Dit combineren gebeurd vaak met behulp van AND, OR en NOT. In mijn
Ontsluiting
4
retrievalsysteem kun je zoeken naar documenten die handelen over schade aan treinen door te zoeken op de thesaurustermen schade AND treinen. De termen zijn zoveel mogelijk gekozen uit enkelvoudige begripseenheden. Een enkele keer is een samengestelde term beter omdat deze ingeburgerd is bij de gebruikers (bv Oproepafhankelijk Openbaar Vervoer). Een thesaurus is veelal gebouwd voor een bepaalde doelgroep of vakgebied. De thesaurus in mijn retrievalsysteem is specifiek voor de doelgroep projectbureau Noord/Zuidlijn ontwikkeld. Hierdoor kun je termen zoals caissons en tunnelboormachines opnemen die in een ander systeem veel te expliciet zouden zijn als thesaurustermen. Om een thesaurus te construeren wordt begonnen met het verzamelen van termen. Een thesaurusterm is bij voorkeur een zelfstandignaamwoord of een werkwoord afgeleid van een zelfstandignaamwoord. Het gebruik van een bijvoeglijknaamwoord als thesaurusterm moet zoveel mogelijk vermeden worden. Een term als internationaal busvervoer kan dan ook beter teruggebracht worden tot alleen busvervoer. Internationaal kun je toevoegen met SN alleen gebruiken in combinatie met een andere term. Dit geld ook voor eigennamen. Het termenbezit wordt dan te groot.
Autorisatie (beheersing van de terminologie) Er moet gekeken worden naar: 1. woorddefinitie, 2. woordredactie en 3. woordkeuze. Dat wil achtereenvolgens zeggen : 1. Dat je kijkt of de gekozen term duidelijk is voor zoeker en indexeerder. Blijkt dat een term niet direct duidelijk is voor indexeerder of zoeker (in mijn thesaurus bijvoorbeeld ‘Oproepafhankelijk Openbaar Vervoer’) kun je deze verduidelijken met een scope note (SN = toelichting) of door gebruik van een qualifier (= een kwalificatie). Een voorbeeld van een qualifier: motoren (aandrijving). 2. Dat je kiest voor een bepaalde spellingsvariant, enkelvoud of meervoud. Je bepaald dus de schrijfwijze. Meestal wordt gekozen voor het meervoud. Maar geografische namen, eigennamen, stofbegrippen en abstracte begrippen (een voorbeeld uit mijn systeem: railnet) worden in principe in enkelvoud weergegeven. Concrete begrippen staan altijd in het in meervoud. 3. Dat je een keuze maakt over de te gebruiken termen (voorkeurs- en niet voorkeurstermen). Dit zal spelen in geval van synoniemen (personenauto’s/auto’s), quasi-synoniemen (woorden of woordgroepen die niet dezelfde betekenis hebben maar wel als zodanig worden bijvoorbeeld werktijden/rusttijden; Bibliotheek en documentatie/Documentaire informatie), afkortingen en letterwoorden (bijvoorbeeld DRO/Dienst Ruimtelijke Ordening). Voorkeurstermen worden in het systeem aangegeven door Used for, niet voorkeurstermen door USE (=gelijkwaardigheidsrelaties). Een voorbeeld: personenauto’s USE auto’s | auto’s USED FOR personenauto’s. Om een thesaurus niet te laten vervuilen is het soms beter om een term alleen als verwijzingen op te nemen. Om een thesaurus zuiver te houden worden woorden met een specifieke betekenis gelijkgetrokken aan woorden met een meer algemene betekenis (upward posting). In mij thesaurus heb ik bijvoorbeeld auto en personenauto gelijkgesteld. Verder bepaal je in hoeverre samengestelde termen opgenomen worden in je thesaurus. Woorden die in het dagelijks taalgebruik als eenheid gelden ga je in een thesaurus niet splitsen. Het eerder genoemde ‘Oproepafhankelijk Openbaar Vervoer’ is hier een mooi voorbeeld van. Is één van de termen in een samenstelling te algemeen zoals bijvoorbeeld motoren in scheepsmotoren dan kun je deze splitsen in schepen en motoren (aandrijving). Aan de term motoren
Ontsluiting
5
(aandrijving) kun je dan een scope note toevoegen ‘alleen te gebruiken in combinatie met een andere term. Na de ronde van vastlegging kun je verder gaan met het verwijzen en leggen van semantische relaties. Dit zijn relaties die geassocieerd worden met de betekenis van de termen. Bijvoorbeeld personenvervoer NT busvervoer (personen). Je hebt binnen een woordsysteem drie soorten relaties. 1. De al eerder genoemde gelijkwaardigheidsrelaties (USE/UF). 2. Hiërarchische relaties. 3. Associatieve relaties. Hiërarchische relaties Hiërarchische relaties worden aangegeven door BT (Broader Term) en NT (Narrower Term). Belangrijk hier bij is dat de termen gelijksoortig zijn. Abstracte (personenvervoer) en concrete (personenauto) begrippen mogen niet naar elkaar verwijzen. Een handig hulpmiddel hierbij is de alles/ sommige toets. Sommige huisdieren zijn katten, niet alle katten zijn huisdieren. Dit is dus geen zuivere hiërarchische relatie. Een zuiver voorbeeld uit mijn thesaurus: sommige stoomboten zijn schepen, niet alle schepen zijn stoomboten. Binnen een hiërarchie moeten de relaties gradueel verlopen. Een voorbeeld: Schepen NT Sleepboten NT Stoomboten BT Vervoermiddelen Fout zou zijn: Vervoermiddelen NT Sleepboten NT Stoomboten Ik heb dit gecontroleerd door een hiërarchische lijst uit te draaien en te zien of termen doubleerden dat wil zeggen op meerdere plekken en op een zelfde niveau in de lijst voorkwamen. Soms kan dit echter wel noodzakelijk zijn en moet een term in twee categorieën tegelijk ondergebracht worden. Een term heeft dan twee (soms meer) boven zich. Een algemeen voorbeeld: oogzenuw kan voorkomen in de categorieën ogen en zenuwstelsel. Dit heet een polyhiërarchische relatie. In mijn thesaurus zijn vooral generieke relaties gelegd. Een andere soort hiërarchische relatie is de partitieve (of deel-geheel) relaties. Bijvoorbeeld: Nederland (geheel) Groningen (deel) Friesland (deel) Etcetera. Indien een thesaurus voldoende zuiver hiërarchisch gestructureerd is kan de vangst (recall = verhouding tussen alle documenten die handelen over het onderwerp en alle gevonden documenten die handelen over het onderwerp) bij een zoekactie aanzienlijk verbeterd worden. Zoeken op een BT met alle NT’s wordt generiek zoeken genoemd. Bij een zoekactie worden dan alle onderliggende termen worden meegenomen in de vraag. Zoeken op
Ontsluiting
6
vervoermiddelen geeft dan ook alle documenten gekoppeld aan de NT’s weer: auto’s, bromfietsen, bussen (autobus), fietsen (vervoermiddel), schepen, trams, treinen en vrachtwagens. Associatieve relaties Naast de hiërarchische relaties heb je ook nog de associatieve relaties. Dit zijn relaties tussen termen die niet duidelijk een groep vormen maar die gebruikt kunnen worden om de gebruiker te helpen bij het bepalen van de zoekvraag. Deze worden aangegeven met RT (Related Term). In mijn thesaurus zijn de related term van autoverkeer bijvoorbeeld auto’s. Tijdens het indexeren (termen uit mijn thesaurus koppelen aan documenten) merkte ik dat er soms extra termen (bv tunnelboormachine) nodig zijn. Het werd me duidelijk dat de thesaurus voor de doelgroep projectbureau Noord/Zuidlijn best wat specifiekere termen mag bevatten. Het toevoegen van stationsnamen is hier een mooi voorbeeld van specifiekere termen. Gebruikers zullen tenslotte ook op locatie willen zoeken. Dit is in tegenstelling met de door mij bekeken online thesauri zoals bijvoorbeeld de Thesaurus Zorg en Welzijn die voor een bredere doelgroep geschikt moet zijn. Als bouwer moet je dus vooraf goed bepalen voor wie je de thesaurus gaat bouwen. Wie zijn de gebruikers en wie gaat ermee indexeren. Onderdelen thesaurus Een thesaurus behoort te bestaan uit vijf delen: 1. Een inleiding. Hierin leg je uit voor welke doelgroep of vakgebied de thesaurus is ontwikkeld. 2. Een alfabetische lijst waarbinnen de onderlinge relaties zichtbaar zijn. 3. Een systematische lijst van alle voorkeurstermen geordend in semantische groepen. 4. Een hiërarchische lijst. De toptermen bepalen het hoofdniveau en zijn alfabetisch gerangschikt. 5. Een gepermuteerde lijst. Deze geeft ook ingangen op tweede en volgende woorden van woordgroepen. Alfabetische en gepermuteerde lijst zijn vooral bedoeld voor zoeker en indexeerder. Systematische en hiërarchische lijst zijn vooral bedoeld voor bouwer.
1.5. Beschrijf welke problemen je tegenkwam en hoe je ze heb opgelost Het opzetten van een thesaurus zonder vooraf duidelijk nagedacht te hebben over de doelgroep en de doelstelling is erg lastig. . Het is dan moeilijk om beslissingen te nemen over het wel of niet gebruiken van specifiekere termen. Door het vergelijken van verschillende thesauri en het lezen van het hoofdstuk praktijkvoorbeelden in het boek Woordsystemen is de relatie tussen doelgroep, doelstelling en thesaurustermen voor mij veel duidelijker geworden. Daarnaast is het werken met een applicatie als AdLib een absolute nachtmerrie. Dit stukje software komt kenmerkt zich door een zeer zwakke gebruikersinterface. En ook technisch is het erg kwetsbaar.
Ontsluiting
7
2. Niet al te specialistische informatie (zowel tekst als beeld) met behulp van thesaurustermen toegankelijk maken (indexeren) 2.1. Het leerdoel in eigen woorden Hoe kun je tekst en beeld toegankelijk maken met behulp van thesaurustermen. En waar let je op als je gaat indexeren.
2.2.Relevante ervaring Ik heb ervaring met het toegankelijk maken van tekst en beeld door het toevoegen van metadata, formele ontsluiting, dtd’s, trefwoordenlijsten en (bestaande) classificatie voor specifieke doelgroepen. De te koppelen documenten zijn van zeer verschillende bestandsformaten (pdf, word, excel, quick time etc.).
2.3.Wat heb ik gedaan om me het doel eigen te maken / Bewijs je leerdoel Als ik als indexeerder gebruik zou maken van een voor mij onbekende thesaurus zou ik eerst in de inleiding nalezen welke regels er zijn vastgelegd. Zijn er richtlijnen voor het indexeren, wat is de doelgroep of het vakgebied dat de thesaurus beslaat. Is er informatie over woorddefinitie, woordkeuze en dergelijke. Maar omdat dit al bekend is ga ik de verzamelde documenten inhoudelijk bekijken. Ik kijk eerst of er formele gegevens zoals titel, bron, auteur bekend zijn. Vervolgens noteer ik per document die woorden die kenmerkend zijn de inhoud. Deze termen beoordeel ik op eenduidigheid. Als een term niet direct duidelijk is voor een gebruiker of verwarrend is zoek ik een betere term. Ook voor de visuele documenten kijk ik of er formele gegevens zoals maker, soort, type (infographic, foto, video), titel en dergelijke beschikbaar zijn. Vervolgens beschrijf ik wat ik zie, ik interpreteer nog niet (pre-iconografisch) bijvoorbeeld ‘tunnelboormachine’. Ook beschrijf ik voor sommige documenten wat ik weet. Bijvoorbeeld ‘stutten van damwand’.
Een voorbeeld Van een document handelend over archeologische vondsten tijdens de graafwerkzaamheden voor de noord/zuidlijn noteer ik eerst de formele gegevens. Auteur: Peter-Paul de Baar Publicatiedatum: juni 2003 Titel: Archeologisch onderzoek langs de Noord-Zuidlijn Tijdschrift: ONS AMSTERDAM Inhoudelijk noteer ik een paar trefwoorden zoals tracé noord/zuidlijn, dr. Jerzy Gawronski, bodemonderzoek, archeologisch onderzoek. Als indexeerder loop ik hier tegen een grens aan omdat de term archeologie niet is toegevoegd aan de thesaurus. In dit document worden wel namen van stations opgenoemd die in de thesaurus staan maar het document daaronder indexeren doet geen recht aan de inhoud. Om deze informatie goed te kunnen ontsluiten zou ik als topterm de term archeologie toe moeten voegen aan de thesaurus. Bodemonderzoek zou dan als als niet-voorkeursterm toegevoegd kunnen worden.
Ontsluiting
8
2.4.Beschrijf welke problemen je tegenkwam en hoe je ze heb opgelost Het indexeren van documenten is lastig als je niet bekend bent met het vakgebied. Het inhoudelijk ontsluiten van visuele documenten is lastiger dan het indexeren van tekstdocumenten. Soms heb je meer inhoudelijke kennis nodig. En een heeft foto vaak meerdere lagen. Het kan tegelijk gaan over dingen, objecten of mensen. Daardoor ben je sneller geneigd om een afbeelding subjectief te beschrijven. Als indexeerder loop ik hier tegen grenzen aan omdat de bouwer de gewenste term niet in de thesaurus heeft opgenomen. Voor dit document kan ik als indexeerder dus niet die termen kiezen die in mijn ogen karakteristieken zijn voor het document. Tegelijkertijd besef ik dat dit een subjectieve indeling is. In dit document staat ook wat financiële informatie en er wordt veel gebruik gemaakt van afbeeldingen en dwarsdoorsnedes. Een andere indexeerder zou hier mogelijk andere termen kiezen.
Ontsluiting
9
3. Niet al te specialistische informatie (zowel tekst als beeld) vinden met behulp van thesaurustermen (postcoördinatief) 3.1. Het leerdoel in eigen woorden Hoe kun je een thesaurus gebruiken om informatie te vinden. Wat is het voordeel van een thesaurus bij het zoeken naar informatie.
3.2.Relevante ervaring Ik heb in de module Zoekstrategieën 1 onder andere al gezocht met behulp van de thesaurus in de database van PubMed (Dialogweb). Hier heb ik geleerd dat je op verschillende manieren op thesaurustermen kunt zoeken. Ik heb generiek gezocht, termen gecombineerd met behulp van booleans. Ik heb gezocht op de broader, narrower en related terms.
3.3.Wat heb ik gedaan om me het doel eigen te maken: Om te beginnen heb ik de bijbehorende theorie (H1, 3, 4, 8.3 en 12) uit Woordsystemen doorgelezen. Ik heb binnen NCC (Nederlandse Centrale Catalogus, www.oba.nl (+ aquabrowser), www.dialogweb.com, www.searchEric.org, www.library.wur.nl en www.pubmed.com gekeken hoe daar gezocht kan worden en hoe er om gegaan wordt met verwijzingen en relaties aansluitend op mijn zoekopdrachten. Ik heb hierbij vooral gelet op de verschillen in gebruikersvriendelijkheid van de zoekinterface en de verschillende zoeksystemen (visueel bv aquabrowser, op detail niveau binnen PubMed m.b.v. MeSH Terms, filteren op formele gegevens (bv jaar van publicatie) binnen de verschillende databases van DIALOG (bluesheets). Op welke velden er gezocht kan worden (bijvoorbeeld wel of niet zoeken in de samenvatting, vrije tekst zoeken etc.) en wat de verschillen in resultaat zijn.
3.4.Bewijs je leerdoel De eerste opdrachten uit de opdrachtenbundel ‘D021- Ontsluiting 2’ gaan in op de verschillende manieren van zoeken. Hierbij valt het me op dat bij het vrije tekst zoeken variatie in gebruikte woorden niet ondervangen worden. Een andere schrijfwijze (homografen), synoniemen of homoniemen (één schrijfwijze, meerdere betekenissen) worden niet automatisch ondervangen maar moeten door mij als gebruiker opgelost worden. Spellingsvarianten en verschil in woordvormen kan ik oplossen door bijvoorbeeld fuzzy (computer, komputer) te zoeken of te trunceren (*omputer = links trunceren). Hierdoor verbeterd de vangst (recall = verhouding tussen alle documenten die handelen over het onderwerp en alle gevonden documenten die handelen over het onderwerp). Zoek ik op doping in een zoekomgeving die gekoppeld is aan een informatietaal vindt ik ook de documenten die het over ‘opwekkende middelen’ hebben. Dit komt door de semantische verwijzingen binnen een thesaurus en is natuurlijk alleen het geval indien beide termen een gelijkwaardigheidsverwijzing hebben. In mijn retrievalsysteem bijvoorbeeld zou ik als ik op zoek zou gaan naar bodemonderzoek de verwijzing archeologie aantreffen. Dankzij deze semantische verwijzingen kan
Ontsluiting
10
ik als zoeker ook op nieuwe ideeën gebracht worden. Het automatisch omzetten van een niet-voorkeurs term naar een voorkeursterm tijdens het processen van de zoekvraag wordt ook wel vervangend zoeken genoemd. Ook door het toevoegen of combineren (AND, OR) van zoekwoorden wordt de vangst verbeterd. Als een zoeker zelf woorden met elkaar combineert in de zoekfase is dat het postcoördinatief zoeken. Algemene regel is dat wanneer de vangst vergroot wordt de precisie (verhouding documenten handelend over onderwerp die relevant zijn en de totale opbrengst) verminderd. Als ik binnen de thesaurus zoek op infrastructuur zoek ik ook automatisch op de onderliggende termen fietspaden, metrolijnen, spoorlijnen, tramlijnen, waterwegen, wegen en wegennet en krijg ik dus meer resultaten. Dit heet generiek zoeken. Wil ik specifiek zoeken kan ik bijvoorbeeld zoeken op spoorlijnen AND tramlijnen. Een voorbeeld Zoeken in een vrij tekstveld op doping geeft een hoge vangst maar toont ook de documenten die handelen over de doop van een kind. Zoeken op doping AND sport verlaagt de vangst en verbeterd de precisie. Zoeken op doping AND wielrennen verbeterd de precisie nog meer. Ga ik nu zoeken op trefwoord doping (gekoppeld aan een woordsysteem) dan verlaagt de vangst nog meer. Ik kan er niet zonder meer vanuit gaan dat de pertinentie (bruikbaarheid van de documenten) dan toeneemt. Daarvoor zou ik er inhoudelijk mee aan de slag moeten gaan. De gebruikte informatietaal is dus van invloed op de grootte van een vangst.
3.5.Beschrijf welke problemen je tegenkwam en hoe je ze heb opgelost Ik kon pas effectief zoeken in de MeSH omgeving (= gecontroleerde informatietaal gebruikt om MEDLINE/PubMed artikelen te indexeren) nadat ik de database tutorials had bekeken. Om dus een optimaal gebruik te kunnen maken van een thesaurus is het belangrijk om eerst meer over de gebruikte informatietaal te weten te komen. Dit vergt dus meer investering van de gebruiker.
Ontsluiting
11
4. De functionaliteit benoemen van een geautomatiseerd information retrieval systeem, waarin het mogelijk is op adequate wijze m.b.v. een thesaurus te zoeken 4.1. Het leerdoel in eigen woorden Welke functionele eigenschappen zoals soorten zoekmogelijkheden kan de zoeksoftware die gekoppeld is aan een thesaurus hebben. Zit er een collocatiefunctie, een locatiefunctie en een evaluatiefunctie in.
4.2.Relevante ervaring Beoordelen waarop gezocht kan worden, het weergeven van de resultaten is iets waar ik bij het bouwen van sites veel mee te maken heb. Het opzetten van zoeksoftware betekent onder andere ook dat documenten op een eenvoudige manier, begrijpelijk voor de doelgroep en snel gevonden moeten worden. Hierbij maken we gebruik van de meest eenvoudige zoektechnologie ‘zoeken op woorden’. Daarnaast is de te ontsluiten informatie altijd gekoppeld aan meta-informatie welke deels automatisch deels handmatig opgebouwd wordt en aan bijvoorbeeld trefwoorden of classificaties.
4.3.Wat heb ik gedaan om me het doel eigen te maken Ik heb gekeken welke functionele eigenschappen zoals filteren, soorten zoekmogelijkheden (booleaans zoeken, maskeren, trunceren etc.) de verschillende zoeksoftware die gekoppeld is aan een thesaurus heeft. • Heeft de zoeksoftware een collocatiefunctie (naaste buren, naaste verwanten; het op logische wijze ordenen van termen binnen één klasse; alle termen zijn daarbinnen gelijkwaardig dus niet hiërarchisch) in. • Is te zien waar de gevonden documenten zich fysiek bevinden (locatiefunctie). • En is er na een zoekactie te zien wat de gegevens van een document zijn (evaluatiefunctie: is dit het gezochte werk). En wat is de rol van de thesaurus binnen de zoeksoftware.
4.4.Bewijs je leerdoel Op het moment dat ik kan zoeken op trefwoorden gebruik ik de collocatiefunctie van de zoeksoftware. De thesaurus biedt door de onderliggende semantische relaties daarbij de mogelijkheid tot uitbreiding van deze trefwoorden. Deze biedt hierbij de mogelijkheid tot vervangend zoeken naar synoniemen en quasi-synoniemen die een gelijkwaardigheidsrelatie (UF, USE) hebben. Door het gebruik van qualifiers bijvoorbeeld fietsen (vervoermiddel) worden de homoniemen ondervangen en heeft een gebruiker meer controle over zijn zoekactie. Dankzij een thesaurus kan een gebruiker op onderliggende termen zoeker. Dit wordt vooral duidelijk bij gebruikmaking van de MeSH termen. Door te kijken naar de zoekvertaling (Query Translation) onder het tabblad Details zie je dat er automatisch termen aan toegevoegd worden.
Ontsluiting
12
De software voor thesaurusbouw moet het bouwen en onderhouden van een thesaurus mogelijk maken. De verwijspatronen moeten zichtbaar zijn en velden voor BT, NT, RT, USE, UF (soms TT) zijn dus nodig. Scope Note’s moeten kunnen worden toegevoegd. Alle velden moeten herhaalbaar zijn zodat meerdere verwijzingen van één soort kunnen worden toegevoegd. Daarnaast zal er ook ruimte moeten zijn om formele gegevens zoals datum toevoeging, auteur en dergelijke toegevoegd kunnen worden. Een controlesysteem waardoor een term niet tweemaal kan worden toegevoegd is essentieel. Reeds ingevoerde verwijzingen moeten als hint kunnen worden getoond. Ze moet ook in staat zijn om overzichten (alfabetisch, hiërarchisch, systematisch en gepermuteerd) te creëren. Een alfabetische lijst van alle termen met semantische relaties. Een gepermuteerde lijst van termen die ook op vervolgwoorden uit woordgroep of samengestelde woorden ordend. • Een hiërarchische lijst van voorkeurstermen met alle onder- en soms ook bovenliggende relaties. • Een systematische lijst waarin de termen zijn geordend in semantische groepen of een classificatie. Alfabetische en gepermuteerde lijsten zijn vooral gericht op zoeker en indexeerder. De laatste twee zijn vooral bestemd voor de bouwer. • •
De zoeksoftware heeft een speciaal onderwerpsveld nodig om op thesaurustermen te zoeken. Soms is het niet direct duidelijk wanneer je als zoeker in de thesaurustermen zoekt. Zoeken op trefwoorden vindt bij veel zoeksystemen plaats op de inhoud van de onderwerpsvelden zoals bijvoorbeeld titel, abstract, gecontroleerde termen, auteur (=basic index). Het is voor de gebruiker niet altijd direct zichtbaar in welke velden gezocht wordt. Bijvoorbeeld bij zoeken in PubMed was het me de eerste keer niet duidelijk of ik nu zocht in titel, abstract of gecontroleerde termen. Pas na bestudering van de vertaling van mijn zoekopdracht kreeg ik meer inzicht. Een mooie integratie van thesaurus en zoeksoftware komt weinig voor. Je ziet vaak dat de thesaurustermen als losse onderwerps- of trefwoorden genoemd zijn maar dat het niet mogelijk is om gebruik te maken van de semantische relaties om een zoekopdracht te verbeteren. De zoeksoftware zou ook in staat moeten zijn om als er een term in de thesaurus wordt aangepast of verwijderd dit automatisch door te voeren bij alle gekoppelde documenten. Een voorbeeld Zoeken op infrastructuur in de aquabrowser van de Openbare Bibliotheek Amsterdam laat niet zien dat waterwegen en wegennet NT’s van infrastructuur zouden kunnen zijn. De termen zijn zelfs niet zichtbaar. Het finetunen van een zoekopdracht op basis van lager liggende termen is hier niet mogelijk. Er wordt geen gebruik gemaakt van het verwijspatroon. De zoeksoftware van Wageningen UR Library Catalogue daarentegen koppelt de thesaurus op een zeer eenvoudige manier aan de te doorzoeken documenten. Via de keyword lookup kan ik een zoekactie verbreden, versmallen of alle gerelateerde termen toevoegen. Hier wordt wel gebruik gemaakt van het verwijspatroon van een thesaurus.
4.5.Beschrijf welke problemen je tegenkwam en hoe je ze heb opgelost Omdat er onderlinge grote verschillen zijn tussen online zoeksystemen en ik wat meer houvast wilde hebben heb ik heb voor een viertal sites een paar vragen op een rij gezet om vaste vergelijkings-
Ontsluiting
13
punten te hebben. De bekeken sites zijn www.dialogweb.com, wwww.searcheric.org, www.library.wur.nl (Wageningen Catalogue) en www.pubmed.com. De punten die ik onderzocht heb zijn: • Zijn de verwijzingen tussen termen zichtbaar? • Kan er generiek gezocht worden? Kunnen de onderliggende termen direct meegenomen worden in een zoekactie? • Zijn er polyhiërarchische relaties of meerdere BT’s opgenomen? • Is er inzicht in de basic index? • Op welke manieren kan er gezocht worden? (Booleaans, trunceren, stemming, maskeren? • Is te zien of er op onderdelen autorisatie is toegepast? (bv bij auteurs) • Is er een goede evaluatie van de gevonden informatie mogelijk? • Is het mogelijk om op naaste buren te zoeken? (collocatie) • Is er te zien waar een document zich bevindt? Dialogweb ERIC
http://www.eric.ed.gov Wageningen Cataloque
PubMed
a. Verwijzingen zichtbaar
•
•
•
•
b. Generiek zoeken
•
•
•
•
c. Polyhiërarchie of meerdere BT’s
•
•
•
•
d. Basic index
•
?
•
• • Booleaans & rechts trunceren.
e. Zoekmogelijkheden gebruiker
• • Zeer uitgebreid hand- Geen stemming. Werkt leiding bij de hand stemming bij een retrievalhouden! syteem gekoppeld aan een thesaurus?
• Booleaans & trunceren: alleen rechts (in basic index)
f. Autorisatie (alleen gechecked binnen auteurs)
Zoeken op Squire, K. Geeft 0 resultaten terwijl Squire, Kurt in de db staat.
?
• Zoeken op W.Janssen Zoeken op Regelski, T toont ook Janssen, laat ook alle auteurs C.W. met de beginletter T zien. Binnen quotes geplaatst wordt niet de gezochte auteur Regelski Thomas A. gevonden.
g. Evaluatiefunctie
•
•
h. Collocatie Te gebruiken als zoekingangen.
•
i. Locatie
•
•
•
•
Een verplichting bij het zoeken: Dialog Command Language Pocket Guide
Search within results: ERIC Thesaurus Descriptors (found in your original results)
Extra optie: SFX menu
Truncation turns off automatic term mapping and the automatic explosion of a MeSH term.
Opmerkingen
•
Document type, publi- Type document, pucatiejaar, Show only blicatiejaar, biblioresults with free full- theek, taal, electronic text directly from documents only. ERIC.
Hoe werken de descriptors (voorkeurstermen)? Zie thesuaurshelp. TEST search within results.
• •
Ontsluiting
14
5. Een inhoudsanalyse maken van documentaire informatie 5.1. Het leerdoel in eigen woorden Het analyseren van de inhoud van een document met als resultaat één of meer woorden die deze inhoud karakteriseren.
5.2.Relevante ervaring In mijn werk is het belangrijk om snel inzicht te krijgen in de verschillende soorten content van de documenten die binnen een organisatie rouleren. Deze informatie verzamelen, ordenen, analyseren en indelen is iets waar ik veel mee te maken heb.
5.3.Wat heb ik gedaan om me het doel eigen te maken / Bewijs je leerdoel Het proces van inhoudelijk ontsluiten (= indexeren) bestaat uit twee delen: - het analyseren van de inhoud van documenten (= inhoudsanalyse), - het kiezen van een (of meer) informatietalen aan de hand van deze analyse. Ik heb een aantal documenten inhoudelijk bekeken en een of meer karakteristieke woorden toegekend (inhoudskarakteristiek). Hiervoor heb ik achtereenvolgens gekeken naar de kern en bepalingen (precisering van kern of object) van een document. Een voorbeeld Een document dat inzicht geeft en een chronologisch overzicht van de kunst van het zilversmeden in het Italië van Dante heeft als kern zilversmeedkunst en als preciseringen middeleeuwen en Italië. Bij het analyseren van documenten volg ik een redelijk vast stappenplan. Ik inventariseer eerst de voor de hand liggende ingrediënten zoals titel, samenvatting, inhoudsopgave en visuele elementen. Vervolgens screen ik sommige onderdelen zoals hoofdstukken of typografische elementen die in het oog springen. Nadat het vaststellen van de kern ga ik verder met de bepalingen. Een mogelijk schema hiervoor is: • Wat is de context van de kern. • Wat zijn de kenmerken van het object. • Actie of proces rondom de kern. • Geografische locatie. • Tijd. • Is er een wetenschappelijk of andere benadering t.o.v. kern. Omdat bij een postcoördinatieve informatietaal ieder element als losse term kan worden opgenomen is het analyseren van onderwerpselementen hier minder van belang. Daarnaast heb ik gekeken naar de beschrijving van foto- en ander beeldmateriaal. Hiervoor kun je het beste eerst de formele gegevens noteren (soort document, maker, materiaal, technieken, afmetingen, signatures voor bv naam, titel of datum). Vervolgens kun je op basis van wat je ziet de afbeelding gaan beschrijven. Dit kan pre-iconografisch (wat ziek ik?), iconografisch (wat weet ik?) of iconologisch (wat is er mee bedoeld?). Bepaal hoe uitgebreid je wilt beschrijven en bepaal het
Ontsluiting
15
hoofdonderwerp. Doordat enorm arbeidsintensief is zie je nieuwe ontwikkelingen zoals bij hermitage.ru die mb.v. IBM QBIC haar digitale beeldmateriaal heeft ontsloten. Daar ‘berekent’ de computer de inhoud van een beeld aan de hand van bv de compositie (layout), kleurdensiteit en andere meetbare aspecten. Ik heb gekeken naar de ontsluiting van foto- en beeldmateriaal aan de hand van classificatie-, trefwoordsystemen en thesauri. Het inhoudelijk ontsluiten van afbeeldingen is lastiger dan het indexeren van teksten omdat het toch een subjectief gegeven blijft. Iedereen kijkt vanuit zijn eigen achtergrond naar een afbeelding. Een architect zal een straatscène anders omschrijven dan een socioloog. Twee voorbeelden Niet alleen van brood leven / P. Klomp - 1996 De verontreiniging van de bodem in de landen van de Benelux dient de betreffende regeringen een voortdurende bron van zorg te zijn. Inhoudskarakteristiek: Bodemverontreiniging in de Benelux. Object: Bodemverontreiniging (ZIE bodemvervuiling) Bepaling: Benelux (ZIE OOK België, Luxemburg) Scheepsraet: een dek is geen dak / P. Scholte - 2000 In de Rotterdamse scheepsbouw werden, met name in de haven, veel buitenlandse werknemers, voor wie de huisvesting vaak een groot probleem vormt. Inhoudskarakteristiek: De huisvesting van buitenlandse werknemers in de scheepsbouw van Rotterdam. Object: Buitenlandse werknemers; Bepaling: scheepsbouw; huisvesting.
Indexeren van beeldmateriaal Ik heb naar de classificatietechniek van IconClass gekeken. Afbeeldingen zijn hier iconografisch (=wat weet ik van een afbeelding; hoe interpreteer en identificeer ik een afgebelde scène). Ik heb de manuscripten browser van de Koninklijke Bibliotheek bekeken en wat hier het voordeel is van het gebruiken van IconClass. Zij benutten vooral de mogelijkheid van taalwissel, de ordening in codes zorgt ervoor dat alle content via dezelfde codes bereikbaar blijven. Andere bekeken sites die IconClass gebruiken zijn Mnemosyne en Meermanno (KB: http://collecties.meermanno.nl/). Waarbij laatstgenoemde de classificatietechniek combineert met een alfabetische woordenlijst. Door de slechte interface werkt de ontsluiting via twee verschillende informatietalen verwarrend. Het indexeren van beeldmateriaal binnen IconClass gebeurd iconografisch. Andere manieren zijn pre-iconografisch (identificeren van vormen, objecten en hun onderlinge relaties -> wat zie ik?). Het Rijksbureau voor Kunsthistorische Documentatie (RKD) gebruikt deze manier van beschrijven in haar online database RKD Images. Zij beschrijft afbeeldingen onder andere aan de hand van wat er te zien is op een afbeelding bijvoorbeeld auto, brug, wandelaar, auto (=onderwerpstrefwoorden). Deze onderwerpstrefwoorden komen uit de AAT-Nederland thesaurus. Klikken op het trefwoord auto laat andere afbeeldingen zien waarin een auto voorkomt. GettyImages maakt onder andere gebruik van iconologisch ontsluiten. Je kunt er conceptueel zoeken bijvoorbeeld op ‘Sin’.
Ontsluiting
16
5.4.Beschrijf welke problemen je tegenkwam en hoe je ze heb opgelost Ik mis het contact met de opdrachtgever. In het proces van inhoudelijk ontsluiten speelt de behoefte van de organisatie een grote rol. Een document over het toerisme in Amsterdam kan een andere inhoudsanalyse opleveren voor stadsdeel centrum dan voor de dienst Onderzoek en Statistiek. De uiteindelijke omgeving (museum, bibliotheek, databanken voor stock-fotografie) stellen eisen aan de manier van ontsluiten en aan het koppelen met een informatietaal. Bij de indexering bestaat het gevaar dat een indexeerder zicht teveel laat leiden door het bestaande vocabulaire waardoor er mogelijk inhoudsverlies of -ruis kan optreden. Het kan zijn dat een informatietaal naar aanleiding van een indexeerronde aangepast moet worden. Dat wat een afbeelding voorstelt is meestal niet te vinden in de formele gegevens. Datering, maker(s), titelpagina worden niet zoals bij geschreven documenten meestal het geval is bijgehouden. Je hebt als indexeerder dus meer inhoudelijke kennis nodig over het onderwerp en over de doelgroep(en).
Ontsluiting
17
6. Aangeven in welke gevallen het nuttig is om onderwerpsontsluiting toe te passen op basis van losse woorden uit een beschrijving en in welke gevallen het nuttig is bij de onderwerpsontsluiting gebruik te maken van een gecontroleerde informatietaal 6.1. Het leerdoel in eigen woorden Wanneer gebruik je een gecontroleerde informatietaal, wanneer een vrije informatietaal.
6.2.Relevante ervaring Zie overzicht voorgaande ervaringen.
6.3.Wat heb ik gedaan om me het doel eigen te maken Ik heb geleerd dat een informatietaal een kunstmatige taal is die gebruikt kan worden voor het indexeren (ontsluiten) van documenten. Er zijn gecontroleerde informatietalen zoals classificaties, trefwoordsystemen en thesauri met een vaste lijst termen en ongecontroleerd informatietalen zoals een alfabetische informatietaal waarbij termen uit de documenten als ingangen gebruikt worden. Je ziet ook dat door de opkomst van de elektronische informatiesystemen waarin met behulp van woorden uit een natuurlijke taal gezocht kan worden in titels, samenvattingen of volledige tekst en waar gefilterd kan worden op auteur en jaargang is het gebruik van gecontroleerde informatietalen aan het veranderen. Maar het grote voordeel van een gecontroleerde informatietaal is dat synoniemen, homoniemen, verschillende woord-en spellingsvormen ondervangen worden in de lijst met termen. Ook de verwijzingen naar andere termen zorgen ervoor dat ongeacht de doelgroep die mogelijk verschillende woorden voor een bepaald onderwerp gebruiken ze toch bij de gezochte content uitkomen. Ongecontroleerde informatietalen ondervangen dit niet. Dit ontlenen van termen aan een document kan natuurlijk automatisch. Voorwaarde is wel dat de informatie digitaal is opgeslagen. Dit wordt dus moeilijk in een omgeving waar informatie nog vooral analoog is in de vorm van boeken en dergelijke zoals bibliotheken.
6.4.Bewijs je leerdoel Ik heb gekeken bij sites die een mengvorm hebben tussen gecontroleerde en vrije informatie talen zoals de openbare bibliotheek Amsterdam en de koninklijke bibliotheek. Het is me opgevallen dat aanbieden van het zoeken via een gecontroleerde èn via natuurlijke taal een enorme meerwaarde is voor de gebruiker. Soms is het te zoeken onderwerp bekend omdat er bijvoorbeeld al een titel bekend is. Soms is het prettig om te kunnen ‘grasduinen’ omdat het te zoek object nog niet afgebakend is. Een classificatie is vooral geschikt om in te grasduinen omdat de termen daar conceptueel bij elkaar gerangschikt staan. Thesauri zijn vooral door de verwijzingen geschikt voor het zoeken op termen. Afgezien van een conceptuele keuze voor een gecontroleerde of vrije informatietaal spelen budget, tijd, beschikbare mankracht en doelgroep een grote rol in de keuze voor een informatietaal. Een thesaurus kent hoge kosten voor bouw en onderhoud. Handmatig indexeren vraagt ook veel tijd en kan daardoor zeer kostenintensief worden. Qua taalkeuze kan een vrije informatietaal beter
Ontsluiting
18
aansluiten bij de gebruikers omdat dit een natuurlijk taal is. Groot gevaar bij een vrije informatietaal is dat door de mogelijkheid om termen toe te voegen er een grote indexeerdiepte kan ontstaan waardoor er de gevonden documenten slecht aan sluiten bij de zoekvraag (=slechte precisie). Binnen de huidige organisaties neemt de informatie soms zo snel toe dat een gecontroleerd systeem te weinig flexibel is. Een meertalige internationale omgeving daarentegen zou profijt kunnen hebben van een classificatie. Omdat in de tegenwoordig documenten in toenemende mate digitaal (fulltext) beschikbaar zijn heeft het zoeken op losse woorden soms de voorkeur. Vooral als de zoeksoftware gebruik maakt van kansberekening en kijkend naar verbanden kan beslissen wat de meest waarschijnlijke betekenis is. Daartegenover kan een zoeker ondersteund worden in zijn zoekactie door de semantische verwijzingen binnen een thesaurus.
6.5.Beschrijf welke problemen je tegenkwam en hoe je ze heb opgelost Ondanks de opgedane kennis weet ik nog veel te weinig over automatisch indexeren, topic maps, ontologieën, moderne thesauri en mengvormen van gecontroleerde informatietalen. Ik zou (als een keuze al nodig is in een online omgeving) kiezen voor een gecontroleerde informatietaal als de vangst (verhouding tussen alle documenten die handelen over het onderwerp en alle gevonden documenten die handelen over het onderwerp; recall) belangrijk is bijvoorbeeld voor het intranet van een organisatie. Als de doelgroep weet wat ze zoeken, gericht vragen kan stellen zou free text zoeken een optie zijn. Een mengvorm tussen beide is nog beter.
Ontsluiting
7. Literatuur 1. H. Magrijn, S.A.Th.M Pontzen, G.J.A. Riesthuis, J.D. Schipper, G.J. Wijnands (red.) (2000). Woordsytemen. Theorie en parktijk van Thesauri en trefwoordsystemen. Den Haag. Biblion uitgeverij. 2. H. Magrijn. M. Van der Linden. (Augustus 2006) D021 - Ontsluiting 2 (sheets). 3. P. Roos. (Oktober 2006) Inhoudelijk toegankelijk maken van beeldmateriaal (sheets).
19