De taxonomische ontologie en thesaurus van
Cybertheek
Inhoudsopgave Blok 1. Theorie
3
Inleiding .................................................................................................................. 3 De problemen ............................................................................................ 3 De oplossingen .......................................................................................... 3 De catalogus ........................................................................................................... 4 Ontologie ................................................................................................................ 6 Eigenschappen van de eigenschappen .................................................... 8 Ontwerpen van de ontologie...................................................................... 9 Taxonomie ............................................................................................................ 11 Relaties taxonomie/ontologie/thesaurus/catalogus ................................. 11 Taxonomisch invoeren ............................................................................ 13 Taxonomisch zoeken ............................................................................... 14 De thesaurus ........................................................................................................ 15 Relaties in de thesaurus .......................................................................... 16 Domeinen ................................................................................................ 17 Soorten eigenschappen ........................................................................... 17 Categorieën ............................................................................................. 18 Onderhoud catalogi ................................................................................. 18 Vullen van de thesaurus .......................................................................... 19 Importeren van thesauri........................................................................... 19 Validatie bij invoer van objecten .............................................................. 20 Kandidaat termen .................................................................................... 20 Suggesties ............................................................................................... 21 Zoekmethodes ...................................................................................................... 22 Woordspinnen ......................................................................................... 22 De woordspin zoeklaag ........................................................................... 23 Catalogi.................................................................................................... 24 Dataformaat ............................................................................................. 24 De ontologische catalogus ...................................................................... 24 Topic Maps ........................................................................................................... 25 Topictheek ............................................................................................... 25 Voordelen TM's........................................................................................ 26 Nadelen TM's........................................................................................... 26 Conclusie ................................................................................................. 27
Blok 2. Demonstraties
28
Onderwerpen blok 2: ............................................................................................ 28
Blok 3 en 4 Practicum
29
Onderwerpen blok 3: ............................................................................................ 29 Onderwerpen blok 4 ............................................................................................. 29 Trefwoorden: Taxonomieën, Ontologieën, Thesauri, Catalogi
Blok 1. Theorie
Inleiding Er zijn talloze documenten over ontologieën, taxonomieën en thesauri. Vaak dragen zij bij aan misverstanden, maar over het algemeen maken zij duidelijk dat er grote voordelen zijn bij het toepassen ervan. Systemen winnen bij toepassing vooral aan kwaliteit (waaronder aan eenduidigheid) en flexibiliteit en daarmee aan inzetbaarheid. Praktische implementaties als Objecttheek zijn echter nog zeldzaam. Dit document beschrijft op welke wijze Objecttheek deze technieken in de praktijk heeft vormgegeven. De problemen De eerste bibliothecaire informatiesystemen waren een afspiegeling van de kaartenbak. De programmeur nam de soorten eigenschappen van de kaart over in de recordstructuur. Door de vaste recordstructuur ontstond een probleem toen er ook andere informatiedragers opgang deden. Een ander probleem was dat er vaak verschillende termen voor hetzelfde door elkaar gebruikt werden, b.v. vaktermen en populaire termen (zoals 'cataract' en 'staar') of spellingsvarianten (zoals 'productie' en 'produktie'). Bij dit soort spraakverwarring zullen zoekacties nooit een volledig resultaat opleveren als niet op alle varianten gezocht wordt. Deze problemen vroegen om een andere benadering van de bibliotheekautomatisering. De oplossingen Het zoekprobleem wordt grotendeels opgelost door gebruikmaking van trefwoordenlijsten (authority lists) en thesauri bij de invoer en het raadplegen. Het probleem van de beperkingen bij het opslaan van verschillende informatiedragers kan worden opgelost door toepassing van opslagmethodes waarbij de klant (en niet de programmeur) bepaalt welke soorten eigenschappen geregistreerd moeten worden. Dat is mogelijk door een vertaaltabel (b.v. pagina's naar speelduur). Als echter willekeurige objecten door elkaar geregistreerd dienen te worden is een inrichtbare ontologie een beduidend betere keuze. Dergelijke flexibele systemen verouderen niet als er nieuwe informatiedragers komen. Meer nog, ze kunnen allerlei soorten objecten opslaan, waardoor er breed inzetbare catalogiseringssystemen ontstaan. Om te verduidelijken hoe dergelijke brede systemen zijn opgebouwd is eerst een theoretische beschouwing van catatalogi op zijn plaats.
3
De catalogus - Een catalogus bestaat uit gegevens over objecten. In bibliotheeksystemen wordt vaak gesproken over titels/titelbeschrijvigen en objecten (de boeken en andere informatiedrager). Objecttheek maakt onderscheid in objecten (een verzameling eigenschappen als b.v. een titelbeschrijving) en bijbehorende exemplaren (de materiele entiteiten). - Objecten bestaan uit een aantal eigenschappen. B.v. een boek heeft de eigenschappen: titel, auteur, uitgever, trefwoorden, isbn. - Een eigenschap bestaat uit twee delen, het soort en de inhoud. Het soort eigenschap is lexicaal (kan in het woordenboek worden opgezocht), b.v. naam, plaats, merk, inhoud, vermogen. Het inhoudelijke deel is niet-lexicaal, b.v. Jansen, Eindhoven, Philips, 2 liter, 100 Watt.
Relaties tussen eigenschappen
- Eigenschappen kunnen onderlinge relaties hebben. B.v. Naam=Jansen werknemer bij Bedrijf=Philips. Een relatie, ook rol geheten, kan wederkerig zijn. Als er de relatie 'werknemer' is bestaat er ook de relatie 'werkgever'.
Relaties tussen kenmerken formeel en concreet
Eigenschappen en relaties kunnen een uitgebreid semantisch netwerk vormen (ook wel topic map genaamd). Door de flexibiliteit kunnen zelfs de ontologie en de thesaurus in opgeslagen worden. In een semantisch netwerk kunnen de aanduidingen van soorten eigenschappen worden weggelaten, maar een systeem wint aanmerkelijk aan kracht als ze wel worden toegepast. B.v. bij het zoeken op auteur Bokma is er geen behoefte aan informatie over alcoholische dranken van het merk Bokma. Een alternatief is het soort eigenschap te vermelden in de relatie. Als een universele catalogus in een relationele database wordt ondergebracht worden de gegevens van 1 object niet in 1 record opgeslagen, maar krijgt iedere eigenschap een eigen record. Een database bevat daardoor veel meer records, maar dat is geen probleem, want een database is ontworpen om met veel records om te gaan.
5
Ontologie Definitie Ontologie in Van Dale: leer van de algemene eigenschappen van de dingen Om concrete objecten te kunnen catalogiseren moet er eerst een formele beschrijving van de gemeenschappelijke eigenschappen, de z.g. ontologie, zijn opgesteld. Een ontologie bestaat uit een verzameling klassen. Een klasse is het soort object, een model. Een klasse bestaat uit soorten eigenschappen. Zo hebben bijvoorbeeld b.v. koeien o.a. een bepaalde vachtkleur en -patroon, gewicht, leeftijd, naam of nummer en melkproductie. De invulling van de eigenschappen vindt plaats in het bestaande object. Hieronder staan 3 objecten van de klasse koe. Klasse: KOE
Objecten: Klara
Jacoba II
Gijsberta
Een gegevensobject afgeleid van een klasse heet in de informatica een instantie van een klasse. Iedere instantie neemt een hoeveelheid datageheugen in beslag als beschreven in de klasse. Klassen kunnen soorten eigenschappen van elkaar overerven. B.v. een klok overerft alle soorten eigenschappen van een artikel (omschrijving, merk, type, opmerking). Een horloge overerft alle soorten eigenschappen van een klok en een polsbandje Zo ook is een wekker een klok plus een weksignaal. Een klasse kan ook eigenschappen uit meerdere klassen overerven. B.v. een locomotief overerft de eigenschappen van een treinstel en een motor. In de navolgende afbeelding erft de klasse 'personenauto' de soorten eigenschappen van de klasse 'wegvervoersmiddel' en 'vervoersmiddel'. De soorten eigenschappen in de catalogus komen uit de ontologie. Bij het catalogiseren wordt de inhoud van een eigenschap handmatig ingevuld of wordt overgenomen uit lijsten. Beter is het gebruik van een thesaurus. De vele voordelen van een thesaurus worden verderop toegelicht.
Het onderstaande schema geeft de relatie aan tussen ontologie, thesaurus en catalogus.
Schema ontologie en thesaurus als gegevensbron voor de catalogus
- Ontologie en thesaurus leveren samen gegevens aan voor het samenstellen van de eigenschappen in de catalogus (resp. het deel links en rechts van het =teken). - De gegevens in de ontologie hebben betrekking op de soorten eigenschappen (lexicaal). - De gegevens in de thesaurus hebben betrekking op de mogelijke waarden van de eigenschappen (niet-lexicaal). - In thesaurus speelt overerving geen rol. - Klassen worden alleen in de ontologie opgenomen als er soorten kenmerken aan verbonden zijn. - Er kunnen klassen zijn die alleen dienen voor overerving. Er worden nooit instanties van gemaakt. Zij hebben geen exemplaren in de collectie. Die klassen wil je bij het catalogiseren niet zien. Het zijn de z.g. abstracte klassen en kunnen gemarkeerd worden, zodat zij bij het catalogiseren niet gekozen kunnen worden. In het voorbeeld zijn dat 'vervoersmiddel' en 'wegvervoermiddel'. 7
Eigenschappen van de eigenschappen Iedere soort eigenschap in de ontologie kan een aantal eigenschappen hebben (en gezien worden als een object). Mogelijke eigenschappen van eigenschappen zijn: volgorde op het invoervenster van objecten in de catalogus volgorde in uitdraaien volgorde in zoekmenu's vorm en lengte (ook wel het slot genaamd) uniciteit (b.v. ISBN) opzoeken inhoud bij invoer (b.v. tabel organisaties) thesaurus categorie uitdraaivorm actie opmerking
Model kenmerken in Objecttheek
Acties Ieder soort eigenschap in de ontologie kan verbonden worden aan een actie. Die acties kunnen na het kiezen van een eigenschap in de catalogus worden uitgevoerd. Mogelijke acties zijn:
Het tonen van een afbeelding. Het tonen van de inhoud van een tekstbestand in een editor. Het tonen van het object waar naar verwezen wordt. Het tonen van een webpagina. Het tonen van alle objecten met de gekozen eigenschap. Het starten van een bepaald programma. Het openen van een forum voor een reactie op het object. Het openen van een document. Windows kan aan de hand van de extentie van de bestandstandsnaam bepalen welk programma gebruikt moet worden. B.v. Info.doc wordt geopend met Word. Het tonen van NAW-gegevens van personen of organisaties.
Ontwerpen van de ontologie
Klasse in Objecttheek
9
De werkwijze voor het opzetten van een ontologie is als volgt: Bepaal welke klassen (soorten objecten) in de catalogus komen Tot welke classificerende soort eigenschap hoort de klasse? Is de klasse abstract? Voer het classificerende soort eigenschap in het 'model kenmerken' in. Bepaal de samenstelling van de klasse Welke soorten eigenschappen van de klasse zijn relevant? Van welke klassen is er overerving? Welke eigenschappen binnen een bepaalde klasse zijn verplicht? Bepaal de eigenschappen van de eigenschappen, o.a.: - Volgorde invoer en presentatie - Vorm invoer, uniciteit - Bron voor lookup en controle Bijvoorbeeld thesaurus, personen, organisaties - Vorm en selectie van de uitdraaien - Actie bij raadplegen Vul de soorten eigenschappen van de klassen in. Vul eventueel de thesaurus aan met de mogelijke inhouden van het soort eigenschap (dit kan ook later bij het invoeren van de catalogus).
Kenmerken per klasse
Taxonomie Taxonomie is de wetenschap van het classificeren van objecten, gebeurtenissen en/of informatie op basis van een vooraf vastgelegd classificatiemodel. Classificeren is het rangschikken in klassen (Van Dale). Het meest bekende voorbeeld van een taxonomie is die van de Zweedse arts en bioloog Carolus Linnaeas. Hij heeft het systeem bedacht dat wordt gebruikt voor het indelen van planten en dieren. Theoretisch bestaat het classificeren uit het opsplitsen van elementen van een groep in subgroepen die in ieder geval wederzijds uitsluitend en tevens gezamenlijk uitputtend moeten zijn. Dit principe staat ook bekend als het MECE-principe (mutually exclusive, collectively exhaustive). In de praktijk moet een dergelijk systeem eenvoudig te gebruiken en overzichtelijk zijn. Objecttheek voldoet aan deze eis. Relaties taxonomie/ontologie/thesaurus/catalogus Er zijn weinig documenten die op deze relaties ingaan, maar er gelden wel degelijk enkele regels voor het samenhangend gebruik. In een taxonomisch opgezette catalogus krijgen alle objecten een of meerdere classificerende eigenschappen (liefst zoveel mogelijk) De classificerende eigenschappen maken een snelle selectie bij het zoeken mogelijk. Omdat objecten worden afgeleid van klassen zullen ook de klassen classificerende soorten eigenschappen moeten bevatten. Iedere niet abstracte klasse in de ontologie hoort ten minste één classificerende eigenschap te bezitten. Het klinkt erg ingewikkeld, maar dat valt in de praktijk wel mee. Bijvoorbeeld: Voor een mediatheek zijn de classificerende eigenschappen b.v.: - informatiedrager (met b.v. de klassen: Boek, Video, DVD) - informatie (met b.v. de klassen: Cursus, Jaarverslag) - publicatiewijze (met b.v. de klassen: Reeks, Serie, Periodiek, E-mail) Voor een reisbureau zijn die b.v.: - wijze van vervoer (bus, trein, vliegtuig) - accomodatie (hotel, appartement, caravan, tent) - evenementen (excursies, festiviteiten) Voor een kunstuitleen zijn die b.v.: - voorwerp (schilderij, beeld) - onderwerp (abstract, bloemen, dieren, landschap, portret) - sfeer (veelkleurig, naturel, rustig, wild, warm)
11
B.v. bij een cursusboek is er de mix van de klasse boek (titel, auteur, etc.) en de klasse cursus (vak, niveau, docent, etc.). De combinatie kan in de ontologie staan door een klasse cursusboek te maken, maar door deze werkwijze kunnen er erg veel combinaties in de ontologie ontstaan. De ontologie kan in omvang beperkt gehouden worden door op het moment van invoer van een object een instantie samen te stellen uit meerdere klassen. Alleen de niet-abstracte klassen worden gebruikt bij de invoer in de catalogus. Een vergaande taxonomie kan zelfs bepaalde combinaties van klassen toestaan of uitsluiten, b.v. de klasse 'LP' kan alleen gecombineerd worden met de klasse 'Muziek' en niet met 'Data'. Een CD kan wel muziek en data combineren. Bij het taxonomisch invoeren worden groepen eigenschappen samengevoegd Bij het taxonomisch zoeken worden groepen eigenschappen uitgesloten.
Schema taxonomische ontologie en thesaurus als gegevensbron voor de catalogus
De classificerende eigenschappen in de catalogus komen volledig (soort en inhoud) uit de ontologie. De inhoud van die eigenschappen zijn klassen en geen thesaurustermen.
Opm. 1: Als je in de ontologie b.v. ziet dat informatiedrager verbonden is aan nauwere termen als boek, video, dvd, etc. dan kan de vraag opkomen of dat niet in de thesaurus kan worden ondergebracht. De functie van een thesaurus en een ontologie is niet hetzelfde. De thesaurus geeft enkel de mogelijke inhouden van soorten eigenschappen aan plus de onderlinge relaties. Een thesaurus kan aangeschaft worden en houd geen rekening met de te registreren objecten. De ontologie juist wel en definieert alle soorten eigenschappen van de te registreren objecten. Opm. 2: Een klasse is een soort object met eigen soorten kenmerken. B.v. de klasse 'Cursus' heeft de eigen soorten kenmerken 'Vak' en 'Niveau' en hoort daarom een klasse te zijn (met informatie als classificerend kenmerk). 'Detective' en 'Roman' zijn een vorm van informatie. De vraag is of daar aparte klassen voor aangemaakt moeten worden. In de klasse ‘Boek’ kan ook het kenmerk ‘Informatie’ opgenomen worden en dan kunnen ‘Detective’ en ‘Roman’ nauwere thesaurustermen van ‘Informatie’ zijn. Opm. 3: Een taxonomie wordt ook wel typologie genoemd. Het verschil zit slechts in de wijze waarop de indeling tot stand is gekomen. Bij een taxonomie is dat empirisch (inductief) en bij een typologie conceptueel (deductief). Voor Objecttheek is dat niet belangrijk. Taxonomisch invoeren
Afbeelding van het invoervenster van Objecttheek
Bij het taxonomisch invoeren van objecten in de catalogus worden eerst de classificerende eigenschappen gekozen. Hierna verschijnen alle bijbehorende soorten eigenschapen. B.v. bij de keuze 'video' in de hoofdklasse 'Informatiedrager' verschijnt in
13
het invoervenster de soort eigenschap 'speelduur' en bij de keuze van een boek ‘Paginas’. Informatiedrager en materiaal. De eigenschap 'Informatiedrager' is enkel bedoeld voor het zoeken. Daarnaast kan er een eigenschap 'Materiaal' zijn die bepalend is voor de tarieven (reserveergeld, leengeld, boetegeld), de leenduur, e.d. B.v. de raadpleger zoekt op de informatiedrager 'CD'. Het uiteindelijke zoekresultaat is b.v. een doos met een dubbel CD. Mogelijk hoort daar een hoger leengeld bij dan bij een doos met 1 CD. Het zoeken moet echter gewoon op 'Informatiedrager = CD' kunnen.' Informatie In de combobox staan klassen die de lijst van eigenschappen beïnvloeden. B.v. bij de keuze 'Cursus' verschijnen de eigenschappen 'Vak', 'Opleiding', 'Docent' en 'Lesmateriaal'. Wie een detective, roman of dergelijke wil invoeren vindt dat niet in de combobox omdat ze geen eigenschappen toevoegen. Kies in dat geval de eigenschap 'Informatie' in de lijst en klik op de druktoets 'Opzoeken' voor een keuze uit de thesaurus. Taxonomisch zoeken In het taxonomische zoekproces wordt stapsgewijs een steeds nauwere selectie gemaakt van objecten die aan de zoekcriteria voldoen.
Taxonomisch zoeken in Objecttheek
B.v. na keuze voor 'informatiedrager=boek' is er geen keuzemogelijkheid meer voor een speelduur, evenmin worden er titels getoond die niet bij een boek horen. Op deze wijze kan met enkele muisklikken stapsgewijs gezocht worden in omvangrijke catalogi. Zoals in het voorgaande venster te zien is ontstaat er een booleaans zoekopdracht, n.l.: Informatiedrager="boek" AND Trefwoord=”spelletjes”, etc. Na het klikken op de druktoets 'OK' worden de objecten getoond die aan de zoekopdracht voldoen. In het bovenstaande (met Objecttheek) voorbeeld leidde de keuze "Nat' niet tot het gewenste resultaat en werd in de zoekboom op 'Vochtregime' geklikt om verder te gaan met 'Vochtig'. Opmerking. Vroeger, toen er nog geen computers waren en mensen tussen de boekenrekken moesten zoeken, waren plaatsingssystematieken als SISO en UDC erg belangrijk. Nu zoekt men in de computer en als het informatiesysteem de juiste voorzieningen heeft, zoals een taxonomie, dan is de fysieke locatie van de exemplaren amper belangrijk. Je zou zelfs kunnen overwegen om te plaatsen op afmetingen en niet op onderwerp, want dat scheelt enorm aan benodigde kastruimte.
De thesaurus Een thesaurus wordt vaak vergeleken met een woordenboek, maar het is meer een puzzelwoordenboek, want het gaat om de relaties tussen termen. Er kunnen ook z.g. scopenotes in de thesaurus staan, waardoor het ook de functie van een woordenboek krijgt, maar die verklaringen dienen vooral om te bepalen welke term de voorkeur geniet. De functies van de (geïntegreerde) thesaurus zijn: - Hulp voor een schone invoer - Lookup (authority list) - Controle, suggesties voor betere, bredere of nauwere termen, waarbij de thesaurus kan worden aangevuld - Hulp bij raadplegen - controle op zoektermen met suggesties voor betere en bredere termen - zoekmethode (start zoeken in de thesaurus) - verbinden van objecten in de catalogus d.m.v. gerelateerde eigenschappen - opslaan onbekende zoektermen (kandidaattermen) - Overige - filteren bij Full Text Retrieval - Controle catalogus (geïmporteerde) Het e.e.a. zal in blok 2 van deze cursus gedemonstreerd worden.
15
Thesaurus in Objecttheek
Relaties in de thesaurus De thesaurus kan hierarchisch zijn opgebouwd of als semantisch netwerk, zoals in Objecttheek. De meest bekende relaties binnen een hierarchische structuur zijn NT, BT, USE, UF, RT en SN. In een semantisch netwerk thesaurus, zoals in Objecttheek, zijn willekeurige rollen tussen de eigenschappen mogelijk, b.v.: Hema Holding_van KBB Een eigenschap kan dan ook naar meerdere bredere termen verwijzen, b.v. 'Industriële vormgeving' kan 'Industrie' en 'Vormgeving' als bredere termen hebben. Hieronder staan een aantal veel voorkomende soorten relaties in thesauri met voorbeelden
Relatie Synoniem Aanverwant Tegenover Breder Nauwer Vervangt Gebruik Afkorting Voluit Zie nauwer
Hoofdterm Inflatie Fiets Zwaar Brief Wapen Actie Schoonbroer Procureur Generaal VN Dieren
Alternatief Geldontwaarding Snorfiets Licht Bericht Knots Aktie Zwager P.G.
Zie breder
Renault
Noot Bron Siso
Primeren Belgisch Nul-groep NBLC-trefwoordenlijst Welzijnswerk 321
Verenigde Naties Zoogdieren, vissen, insecten, etc. Automerken
Opmerking
Geldige hoofdterm?
Is te breed als zoekterm Is te nauw als zoekterm
Domeinen In een thesaurus (vooral als die aangeschaft wordt) staan meer termen dan in de catalogus gebruikt worden. De termen in catalogus vormen een z.g. subset. De catalogiseerder moet kunnen bepalen welke thesaurustermen in de catalogus mogen voorkomen. Bijvoorbeeld. In de thesaurus staat: Maanvissen BT Aquariumvissen Aquariumvissen BT Vissen Biotoop NT aquaria Wil de catalogiseerder het trefwoord ‘Maanvissen’ en ‘Aquariumvissen’ niet gebruiken, maar wel ‘Vissen’, dan zullen de te nauwe termen als zodanig gemarkeerd kunnen worden. Een goede thesaurus maakt dat mogelijk en zal bij het gebruik van te nauwe of te brede termen daarop attenderen en resp. bredere of nauwere alternatieven aanbieden. Soorten eigenschappen In een goede thesaurus zijn de termen in een thesaurus verbonden met de bijbehorende soorten eigenschappen. Dit heeft als voordeel dat als b.v. in de thesaurus naar een auteur gezocht wordt hierop een selectie gemaakt kan worden. Anders zijn er in de zoeklijst b.v. ook alle niet relevante soorten eigenschappen, zoals trefwoorden en uitgevers te zien. Niet alle thesauri hebben de mogelijkheid tot indeling naar soort eigenschap. Er zijn dan alleen termen (inhoudelijk deel). De relaties liggen dan altijd tussen eigenschappen met hetzelfde soort eigenschap (meestal trefwoord).
17
Stel in de thesaurus staat: Apparaat=Mixer NT:Functie=kneden NT:Functie=klutsen En in de catalogus staat alleen: Apparaat=Mixer Dan zal een raadpleger die zoekt op: Functie=Kneden verwezen moeten worden naar het bredere 'Apparaat=Mixer' (een andere categorie). Een goede thesaurus hoort die mogelijkheid zeker hebben. Categorieën Een goede thesaurus kan soorten eigenschappen in categorieën onderbrengen, b.v. in de lijst van auteurs kunnen dan ook vertalers en illustrators staan. Onderhoud catalogi Opbouwen van de thesaurus Er zijn verschillende strategieën. B.v. selecteer een kleine hoeveelheid hoofdtermen en voeg aan iedere hoofdterm een groot aantal termen die erdoor vervangen worden. Dit heeft namelijk als resultaat dat elk object een klein aantal trefwoorden krijgt. Dat levert een snellere invoer van de catalogus op. Een raadpleger die de hoofdtermen niet kent zal dan toch de gewenste objecten vinden. Raadplegers zullen waarschijnlijk geen diacrieten (speciale tekens) gebruiken. Dat is vaak een reden geen speciale tekens in de catalogus te gebruiken. Gebruik de raadpleger wel diacrieten, dan kan met de thesaurus naar termen zonder diacrieten verwijzen. In ontologie of thesaurus? Een organisatie heeft o.a. producten en werknemers. Werknemers hebben o.a. namen en functies. Functies zijn o.a. verkopers, monteurs, operators. Hoe bepaal je wat in de ontologie en wat in de thesaurus moet komen? Dat hangt af van hoe de objecten in de catalogus eruit zien. De regel is dat de soortnamen uit de ontologie komen en de inhouden uit de thesaurus.
Vullen van de thesaurus De thesaurus kan gevuld worden door: - Importeren van bestaande thesauri. - Validatie van eigenschappen in die niet voorkomen in de thesaurus - bij invoer van objecten, - bij controle van de eigenschappen in de catalogus. - Validatie van kandidaattermen. - Suggesties vanuit objecten die voldoen aan bepaalde kenmerken. Importeren van thesauri Thesauri zijn ontworpen voor bepaalde vakgroepen. B.v. de NIZW levert op abonnementsbasis een thesaurus voor de sector zorg en welzijn. Het informatiesysteem moet uiteraard dergelijke thesauri kunnen importeren. Fragment uit de NIZW thesaurus (in het aangeleverde formaat) Achondroplasie UF: dwerggroei Achterstandsbestrijding RT: achterstandswijken Weekendscholen Achterstandsgebieden Brede scholen Voorschoolse educatie Achterstandsgroepen Achterstandsgebieden RT:Achterstandsbestrijd ing
Een goed informatiesysteem kan meerdere formaten im- en exporteren. Een beschrijving van het Open Cybertheek Uitwisselingsformaat staat op de Objecttheek website. Platte termenlijsten en o.a. het NIZW ANSI-formaat vallen binnen deze standaard. Steeds meer zullen XML-bestanden gebruikt worden. Voor andere formaten, zoals die van de thesaurus van het NBD, zijn er importvoorzieningen. Een nadeel van importeren is dat er meer termen in de database komen dan gebruikt zullen worden. Dit kan door het toepassen van domeinen opgelost worden, maar dat levert wel veel werk op, omdat iedere term beoordeeld moet worden op geldigheid.
19
Validatie bij invoer van objecten Bij het invoeren van objecten in de catalogus kan de thesaurus: - Controleren op spelling. - Alternatieven aanreiken bij onjuiste termen, b.v. ouderen i.p.v. bejaarden of 'verstandelijk gehandicapten' i.p.v. 'geestelijk gehandicapten'. - Alternatieven aanreiken voor te brede of te nauwe (buiten het domein vallende) termen, b.v. automerken of vervoer i.p.v. Renault. - Vragen of onbekende termen in de thesaurus moeten worden opgenomen. Kandidaat termen Kandidaat termen ontstaan door het raadplegen met onbekende termen. De onbekende zoekterm wordt dan opgeslagen in de lijst van kandidaat termen. In de lijst zit gewoonlijk een hoop rommel (o.a. door typefouten), maar ook termen die bruikbaar zijn in de thesaurus. Vaak gaat het om termen die raadplegers gebruiken, maar die niet als trefwoord aanwezig zijn. Het is van belang regelmatig de kandidaattermen te verwerken, zodat het systeem steeds meer tot een goed zoekresultaat komt.
Kandidaattermen in Objecttheek
Suggesties
Invoeren in de thesaurus
Om het associatief zoeken te optimaliseren is er in Objecttheek in het venster "Thesaurus' de druktoets 'Suggesties'. Na het klikken op de druktoets verschijnt er een lijst met termen uit de catalogus die behoren tot objecten die ook de hoofdterm bevatten De lijst in dit voorbeeld toont alle trefwoorden die voorkomen in objecten die ook het trefwoord 'jeugdzorg' bevatten.
21
Zoekmethodes Woordspinnen Woordspinnen (tag clouds) zijn grafische presentaties van associaties. Ze kunnen deze op verschillende wijze presenteren. B.v. met of zonder vermelding van het soort relatie (breder, nauwer, etc.) en het soort kenmerk (trefwoord, auteur, uitgever, etc.). Bij een woordspin staat het kernwoord midden in een vlak en is met lijntjes in alle richtingen verbonden met gerelateerde termen. De meest voorkomende relaties kunnen dichtbij het kernwoord en/of vet en/of groot worden weergegeven. Zie hieronder een afbeelding van de Aquabrowser ™
Woordspinnen zien er leuk uit, maar hebben ook nadelen. Zo is het oppervlak en daarmee het aantal associaties beperkt en ze zijn niet alfabetisch geordend. De associatieve zoekmethode is vaak onhandig, omdat de meest opvallende associaties de meest voor de hand liggende zijn en daarom zelden de gezochte. Wie heeft b.v. behoefte aan de associatie slager, kruidenier en groenteman bij bakker. Het wordt vaak als rommelig ervaren waardoor zoeken toch weer lastig is.
Voorbeeld van Aquabrowser ™
GridWalker™ is ook een soort woordspin en biedt bovendien alfabetisch geordende lijsten. Alfabetische lijsten hebben als voordeel sneller gericht op bepaalde termen zoeken een onbeperkt aantal associaties (scrollen).
Voorbeeld van Gridwalker ™
Deze benadering oogt minder attractief dan Aquabrower, maar het is een stuk effectiever voor de informatiespecialist. De woordspin zoeklaag Een andere benadering is die van een zelfstandige zoeklaag die zoekopdrachten produceert en het zoekresultaat presenteert en weer omzet in een woordspin. Een fraai voorbeeld is Quintura™ welke kan samenwerken met de Internet zoekmachines van Google, Yahoo en MSN Search. (En het is ook nog gratis.)
23
Catalogi Eisen aan een catalogus Catalogus is een afspiegeling van (informatie)objecten en subjecten. De eisen aan een catalogus zijn: Informatie correct, volledig, tijdig, gewenst, toegankelijk Schaalbaar, d.w.z. dat het moet kunnen meegroeien met de organisatie t.a.v. omvang dataopslag (client/server), aantal gebruikers. Flexibel, d.w.z. dat het moet kunnen mee veranderen met de organisatie t.a.v. de samenstelling van de inhoud (aanpassing van de ontologie) Betrouwbaar, technisch (client/server) Bevoegdheidsregeling (per catalogus met eigen catalogusbeheerders) Eenduidig (authoritylist of thesaurus i.v.m. complete zoekresultaten) Dataformaat Objecten bestaan informatietechnisch gezien uit een verzameling eigenschappen. De soorten eigenschappen kunnen in een recordstructuur staan. Ingeval maar een enkel soort object geregistreerd moet worden (b.v. boeken of verkoopproducten) dan zijn de eigenschappen goed te omschrijven. Het wordt al lastiger als er naast boeken ook objecten met andere informatiedragers opgeslagen moeten worden of een groot aantal herhaalde eigenschappen (b.v. een groot aantal auteurs). Heel wat bibliotheekprogramma's zijn daar niet of niet goed op berekend. De vaste recordstructuur is dan een dwangbuis. Bovendien vereist iedere zoekingang een eigen index. Om het aantal indexen te beperken zijn niet altijd alle soorten eigenschappen een zoekingang. Het Objecttheek principe lost dit probleem op door niet voor ieder object, maar voor ieder eigenschap in de catalogus een eigen record op te slaan. De eigenschappen krijgen een ID_Object mee, deze verbindt de eigenschappen van een bepaald object. De catalogus, de thesaurus, de ontologie en de exemplaren van de objecten komen in afzonderlijke tabellen. De ontologische catalogus Stel er zijn een aantal biotopen (b.v. natte ruigten, natte struwelen, ondiep open water) . Iedere biotoop kent bepaalde vochtigheidsgraden (b.v. droog, vochtig, nat). De thesaurus kan alle soorten biotopen en vochtigheidsgraden onderbrengen, maar niet de mogelijke combinaties Een oplossing is het aanleggen van een catalogus met alle mogelijke combinaties.
Topic Maps Een topic is een willekeurige term of eigenschap. Iedere topic kan doormiddel van een z.g. association verbonden worden met elke andere topic. Het netwerk van topics en associations is een topic map. Een topic map is te vergelijken met een uitgebreide index in een boek. Nu kan een catalogussysteem ook indexen o.a. per soort eigenschap maken. Het verschil zit in de netwerkstructuur, vergelijkbaar met die van een netwerk thesaurus Een veel voorkomende term is 'occurence'. Dit is een verwijzing naar een concreet object (b.v. een URL).
Topictheek Topictheek is de naam van een prototype (ontworpen in 2004) om de voor- en nadelen van topic maps te onderzoeken. Een van de uitgangspunten was een relationele database met een tabel voor de topics (id, groep, type_kenmerk, waarde) en een tabel met relaties (id1, rol, id2). Een topic map leent zich goed om met een woordspin gepresenteerd te worden. In Topictheek is echter, omwille van de overzichtelijkheid en de beperkt beschikbare ontwikkelcapaciteit, gekozen voor een presentatie in kolommen. Een belangrijk voordeel is dat de inhoud van de kolommen geordend is (bepaald in de ontologie of anders alfabetisch) en een onbeperkt aantal topics mag bevatten. Daar waar een woordspin gebruik maakt van een apart veld met topics en een kolom met objecten valt dit in Topictheek samen en het aantal kolommen is in principe onbeperkt.
25
Topic maps
Het onderzoeksproject bracht enkele voor- en nadelen van topic maps naar voren. Voordelen TM's Een voordeel van een TM is de sterk associatieve werkwijze, het brengt gegevens als vanzelf met elkaar in verband, wat o.a. het grasduinen vergemakkelijkt. Het nut van associaties is overigens vaak beperkt. Wie wil b.v. bij de term 'bakker' geattendeerd worden op 'slager' en 'groenteboer'? Het grootste voordeel zit in de mogelijkheid om willekeurige groepen (tabellen in relationele databases) aan te maken en die met willekeurige soorten eigenschappen in te richten, zonder dat daarbij een programmeur nodig is. De topicmap kan ook de ontologie en de thesaurus bevatten. Nadelen TM's Het tabellarisch tonen (van b.v. rijen met naam, adres, plaats) is een probleem. Voor het exporteren van gegevens naar niet-topic map systemen (flexibel naar star) is specifieke software nodig en er kunnen gegevens verloren gaan.
De huidige topic map informatiesystemen op de markt berusten op ingewikkelde theorieën en zoektalen, waardoor ze vaak moeilijk te doorgronden en te hanteren zijn. Een lastig punt is de z.g. 'scope' van een topic. Zo hoort b.v. een correctie in een trefwoord (b.v. de term 'produkt' in 'product') voor alle titelbeschrijvingen te gelden, maar een correctie in iemands achternaam geldt niet voor alle personen met dezelfde achternaam. De scope kan in de ontologie aangegeven worden. De topic map systemen op de markt zijn beperkt toepasbaar. Waarschijnlijk zijn combinaties met bestel-, uitleen- en periodiekenadministratie nog onvindbaar. Conclusie Een TM kenmerkt zich door de opslagwijze van gegevens. Het biedt, net als een databasebeheersysteem of spreadsheet-programma, voorzieningen voor het opslaan en onderhouden van gegevens. Een TM is geen specifieke applicatie, maar kan als onderdeel daarin gebruikt worden. Anders dan bij een relationele database hoeft er bij een TM vooraf geen recordstructuur te worden vastgesteld. Een TM is daardoor zeer geschikt voor omstandigheden waar niet vooraf bekend is welke soorten gegevens opgeslagen moeten worden. Ook kan het ingezet worden daar waar niet gewacht kan worden op de beschikbaarheid van een specifiek informatiesysteem. Denk b.v. aan rampen, zoals een uitbraak van een bepaalde dierziekte, waar plotseling een grote en veelsoortige hoeveelheid gegevens binnenstroomt en vastgelegd moet worden. De keerzijde is dat die grote vrijheid ook kan leiden tot wanorde. Een goede ontologie kan helpen bij het structureren. De commerciële perspectieven van een topic map liggen vooral in de hoek van een webapplicatie, geschikt voor documentenbeheer met FTR en gebruikmaking van normen voor uitwisseling van gegevens als XTM (XML/XLink).
27
Blok 2. Demonstraties
Onderwerpen blok 2: In dit blok zal het navolgende gedemonstreerd worden: - Aanmaken van een nieuwe catalogus 'Hulpmiddelen' - Invoeren van gebruikers en bevoegdheden - Invoeren van het model (artikel, klok, horloge, telefoon, stok, handleiding) - Invoeren van objecten in de catalogus - Invoeren van een handleiding en tekstindexeren - Invoeren van mogelijke inhouden in de catalogus - Thesaurus zoeken - Occurences in de thesaurus - Grasduinen in de catalogus via de thesaurus - Wisselen naar catalogus 'Mediatheek' via de sneltoets. - Retrospectief invoeren - Taxonomisch invoeren - Taxonomisch zoeken
Blok 3 en 4 Practicum
Zie hiertoe de handleiding 'Practicum Model & Thesaurus"
Onderwerpen blok 3: - Aanmaken nieuwe catalogus - Wijzigen volgnummering - Subobjecten - Verwijzingen impliciet en expliciet - Zoeken vanuit de thesaurus - Verwerken kandidaat termen - Importeren thesaurus vanuit de catalogus
Onderwerpen blok 4 In dit blok ligt het accent op het beheren van de catalogi van meerdere locaties. Belangrijk is dat objecten en exemplaren probleemloos van de ene naar de andere locatie overgebracht kunnen worden. - Wijzigen 'model kenmerken' - Vindplaats / Locatie - Waarmerk - Multi locatie - Im- en exporteren - Bereiken - Instellen - Verplaatsen - Inter organisatie leenverkeer
29