VRIJE UNIVERSITEIT BRUSSEL FACULTEIT WETENSCHAPPEN VA KG RO E P I N F O R M AT I C A E N T O E G E PA S T E S Y S T E M S
T E C H N O L O G Y
A N D
A P P L I C AT I O N S
INFORMATICA R E S E A RC H
L A B
STAR Lab Technical Report
Information management door middel van ontologieën Sven Van Acker
affiliation: keywords number date corresponding author status reference
STAR-2004-11 25/06/2004 Sven Van Acker final Nieuwsbrief Faculteit Wetenschappen VUB – Nr. 20 april 2004
Pleinlaan 2, Gebouw G-10, B-1050 Brussel Phone: +32-2-629.1237; Fax: + 32-2-629.3819 http://www.starlab.vub.ac.be
Nieuwsbrief Faculteit Wetenschappen VUB – Nr. 20 april 2004
Information management door middel van ontologies Sven Van Acker Internet is een wereldomvattend, gedecentraliseerd netwerk van met elkaar verbonden computers: een netwerk van netwerken. Via Internet kun je contact maken met andere individuele Internetgebruikers of met instellingen zoals universiteiten, uitgeverijen, belangenorganisaties, commerciële organisaties,… Internet biedt vele mogelijkheden op het gebied van communicatie en informatie. Iedereen die toegang heeft tot het Internet kan van de volgende diensten gebruik maken: •
• • • • • • •
Electronic mail (e-mail): om post (mail) te verzenden en te ontvangen. Een bijzondere vorm is de discussie- of mailinglijst. Er zijn tienduizenden discussielijsten over uiteenlopende onderwerpen. Je kunt deelnemen door je in te schrijven op een lijst. SMS (=Short Message Service): om tekstberichten van GSM naar GSM, of van PC naar GSM te versturen. Chatboxen: om live via beeldscherm en toetsenbord gesprekken te voeren. Nieuwsgroepen: om met andere gebruikers te discussiëren of informatie uit te wisselen over een bepaald onderwerp. Telnet of remote login: om op afstand op een andere computer in te loggen. Op die manier kun je bijvoorbeeld zoeken in catalogi van bibliotheken. FTP (=File Transfer Protocol): om files van een computer op afstand te ontvangen en de files op je eigen computer te bekijken, te bewerken en te bewaren. Video-conferencing: om te vergaderen met meerdere personen die via Internet met elkaar in verbinding staan, gebruikmakend van beeld en geluid. World Wide Web: om documenten op Internet te zoeken en te bekijken.
Het World Wide Web (WWW), is de uitvinding, begin jaren negentig van de twintigste eeuw, van Tim Berners-Lee, werkzaam bij CERN in Genève. Destijds werden er, vooral door universiteiten, steeds meer documenten op Internet geplaatst. Het terugvinden van documenten op Internet leverde echter problemen op. Berners-Lee meende dat het opslaan, raadplegen en vooral het opsporen van wetenschappelijke documenten op Internet veel efficiënter zou kunnen. Dit idee resulteerde uiteindelijk in het WWW. Internet dankt zijn populariteit vooral aan het gebruik van het WWW, welke een multimedia informatiesysteem is waarbij verschillende soorten (teksten, beelden, geluid of software) documenten worden aangeboden via webpagina’s. De toegang tot het Internet wordt georganiseerd en deels gecontroleerd door Internet Service Providers (ISP’s). De talrijke marketingstrategieën (gratis abonnementen, gratis installatie, introductie van breedbandnetwerken) gelanceerd door deze ISP’s en de evolutie van het Internet tot een interactief en sociaal medium, lagen aan de basis van het succes van de grootschalige inburgering van het Internet. Iedereen kreeg de mogelijkheid om informatie beschikbaar te stellen via het WWW, welke resulteerde in een explosie aan informatie.
Pagina 1
Nieuwsbrief Faculteit Wetenschappen VUB – Nr. 20 april 2004 Vaak kan de informatie op een web pagina op uiteenlopende wijzen worden geïnterpreteerd. Het al dan niet correct kunnen interpreteren van deze gegevens is grotendeels afhankelijk van de ervaring, taalkennis, achtergrond, opvoeding,etc... van een natuurlijke persoon die deze informatie leest, maar ook van de context waarbinnen deze informatie kadert. Bijvoorbeeld, een online sollicitatieformulier van een multinational die vestigingen heeft in Brussel, New York, Parijs en Tokio kan het veld “adres” bevatten. Dit veld kan geïnterpreteerd worden als een indicatie van, ofwel het woonadres van de sollicitant, ofwel het door de sollicitant gewenste werkadres van de onderneming. Door deze ambigue interpretatie van informatie beschikbaar op web pagina’s, wordt het WWW ook wel eens het “eyeball web” genoemd, waarmee wordt aangegeven dat de structurering van informatie uitermate gericht is op natuurlijke personen. Gezien de exponentiële groei aan informatie die beschikbaar wordt gesteld op het WWW, wordt het bijna onmogelijk voor een natuurlijk persoon om alle relevant bronnen te identificeren en geschikte informatie te extraheren. Het Semantic Web, de opvolger van het WWW, heeft als doel al de informatie binnen het WWW meer toegankelijk te maken door gebruik te maken van computerverwerkbare metadata. Bijvoorbeeld, indien men de beschikbare informatie op een webpagina kan aanvullen met semantische of betekenisvolle tags (labels) die door een computer kunnen herkend worden, dan kan een computer, met al zijn rekenkracht, gebruikt worden om alle informatiebronnen af te schuimen op zoek naar relevante informatie. Eén van de technologieën die kunnen aangewend worden voor het modelleren van semantiek is ontology engineering. Het doel van een ontology is het expliciet modelleren van een domein dat gedeeld en aanvaard wordt door verschillende partijen. Deze ontology definieert een gemeenschappelijke terminologie en model dat communicatie toestaat op een semantisch niveau. Eén van de uitdagingen die gesteld worden binnen het Semantic Web is het integreren van informatie afkomstig van verschillende, heterogene online bronnen. Bijvoorbeeld, elk vakgebied binnen de biologie en biotechnologie genereert zijn eigen immense hoeveelheid aan data, die verspreid is over het WWW en opgeslagen wordt in verscheidene formaten. De moeilijkheid is het identificeren van semantisch verwante informatie bevat in bronnen, die elk autonoom werden ontwikkeld. Deze identificatie wordt bemoeilijkt door het gebruik van verschillende jargons, data modellen en contexten. Als voorbeeld, beschouw de talloze, gangbare definities voor het woord ‘gen’ die in de biotechnologische literatuur gehanteerd worden, namelijk: ‘de DNA sequentie die noodzakelijk en voldoende is om het volledige complement van een functioneel product afgeleid van een transcriptie-eenheid, uit te drukken’, ‘een verzameling van elementen van het genoom die een functionele eenheid kunnen produceren’, terwijl overige definities ook rekening houden met belangrijke regulatorische functies van introns (het zogenaamde junk-DNA). Ervaren biotechnologen zijn in staat om de subtiele nuances tussen deze definities te identificeren en erkennen de moeilijkheidsgraad qua intergratie van gegevens opgeleverd door instellingen die deze verscheidene definities in parallel hanteren. De nood aan een geïntegreerde en uniforme toegang tot verschillende informatiebronnen, stimuleerde het onderzoek naar mediators, welke één welbepaalde toepassing zijn van ontologies. Een mediator hanteert een gemeenschappelijke terminologie en model dat de verscheidenheid tussen de onderliggende informatiebronnen weet te overbruggen.
Pagina 2
Nieuwsbrief Faculteit Wetenschappen VUB – Nr. 20 april 2004 Figure 1 beschrijft een mediator model ontwikkeld voor medische/therapeutische doeleinden. Aan deze mediator werden twee bronnen gekoppeld, namelijk: één databank die data bevat betreffende ziektebeelden, en een tweede databank die detectietesten opsomt. Voor iedere informatiebron die aan de mediator gekoppeld wordt, bestaat er een verzameling van articulations, oftewel mappings, tussen de termen van de mediator en de termen van de informatiebron. In dit voorbeeld wordt de mediator term ‘disease’ gekoppeld aan de termen ‘Disease’ in beide informatiebronnen. De mediator termen ‘symptom’ en ‘labtest’ worden gekoppeld aan de term ‘Symptoms’ in BRON1 en de term ‘Lab test’ in BRON2, respectievelijk. Deze architectuur behoudt de autonomie van de onderliggende informatiebronnen en staat toe dat nieuwe bronnen heel makkelijk kunnen worden toegevoegd.
Figure 1: Architectuur van een mediator die gekoppeld wordt aan twee informatiebronnen, in dit geval databanktabellen.
Pagina 3
Nieuwsbrief Faculteit Wetenschappen VUB – Nr. 20 april 2004 Als voorbeeld, beschouw een mogelijke vraag, gesteld door een huisarts, die door dit systeem kan worden beantwoord: “Gegeven dat een patiënt hoofdpijn heeft, welke labtesten dient men uit te voeren om uitsluitsel te bekomen over zijn ziekte?”. Hoe wordt de informatie, vervat in de informatiebronnen gekoppeld aan een mediator, geraadpleegd? Alle zoekopdrachten worden steeds gericht tot de mediator en niet tot een individuele informatiebron, aangezien de gebruiker niet weet welke of hoeveel bronnen aan de mediator momenteel gekoppeld zijn. De mediator identificeert alle termen in zijn model die betrekking hebben tot de zoekopdracht. In dit voorbeeld, zijn de termen van de mediator die relevant zijn: ‘symptom’, ‘disease’ en ‘labtest’. De onderliggende bronnen die in aanmerking komen om bij te dragen tot het resultaat van de zoekopdracht, zijn deze bronnen die gekoppeld zijn aan de drie eerder geïdentificeerde termen via de articulations, namelijk: ‘BRON1’ en ‘BRON2’. De initiële zoekopdracht gericht tot de mediator wordt opgedeeld in kleinere subzoekopdrachten gericht tot beide geïdentificeerde informatiebronnen. Deze subzoekopdrachten worden individueel uitgevoerd en hun resultaten moeten door de mediator worden gecombineerd tot een uniform geheel, zodat een éénduidig antwoord wordt gegeven aan de initiële vraag. Bijvoorbeeld, de eerste subzoekopdracht die tot ‘BRON1’ kan worden gericht, is: “Geef alle ziekten waarvan hoofdpijn een symptoom is”. Het resultaat van deze subzoekopdracht (=resultaat1) kan worden gebruikt als input voor een tweede subzoekopdracht, ditmaal gericht naar ‘BRON2’: “Geef alle labtesten voor de ziekten die voorkomen in resultaat1”. Het antwoord op deze vraag wordt overgelaten aan de aandachtige lezer. Het voordeel van deze architectuur is dat men zich slechts tot één aansprekingpunt, namelijk de mediator, moet richten om toegang te hebben tot talrijke informatiebronnen. Onderzoek naar mediator technologie en overige toepassingen van ontologies vindt plaats bij STAR Lab http://www.starlab.vub.ac.be
Pagina 4