Expertise in werkgroepen Evaluatie van Automatische Expertise-extractie
Willem Thoonen
Augustus 2006
Expertise in werkgroepen Evaluatie van Automatische Expertise-extractie
Auteur Instelling Faculteit Opleiding Studentnummer
Begeleiders
Willem Thoonen Universiteit van Tilburg Communicatie en cultuur Bedrijfscommunicatie en Digitale Media 569368
Drs. Toine Bogers Dr. Antal van den Bosch
Voorwoord Voor u ligt de afstudeerscriptie waarmee ik de studie Bedrijfscommunicatie en Digitale Media afsluit. Het heeft even geduurd voordat ik een onderwerp gevonden had waarop ik kon afstuderen en wat me aansprak. Na een gesprek met Antal van den Bosch en Toine Bogers over het evalueren van een automatische expertise-extractie methode werd mijn interesse gewekt en voor u ligt het eindresultaat. Het afgelopen half jaar heb ik er veel tijd en energie in gestoken. Echter, zonder de hulp van een aantal mensen was deze scriptie niet tot stand gekomen en daarom wil ik ze op deze manier graag bedanken. Allereerst mijn begeleiders. Antal van den Bosch voor de brainstormsessies die het onderzoek de goede kant op duwden en Toine Bogers voor de ideeën, de tijd, het geduld, samengevat de goede begeleiding. Mede door hun ideeën, ervaring en kennis kreeg mijn onderzoek steeds meer ‘vorm’. Hiernaast wil ik graag de participanten aan het onderzoek, de ILK-werkgroep, bedanken voor hun deelname aan het onderzoek. Zonder hun had ik geen resultaten gehad om de evaluatie mogelijk te maken. Ook de bespreking met Pascal Marcelis heeft geleid tot meer inzicht in het ontwikkelen van de vragenlijst, bedankt hiervoor. Samenvattend kan ik zeggen dat het, ondanks wat tegenslagen, een interessante en vooral leerzame periode van mijn leven is geweest. Ik vindt het echt geweldig dat ik straks de trotse bezitter ben van zowel een HBO- als een WO diploma en dat ik mijn eigen boterham kan gaan verdienen. Aan de andere kant vindt ik het ook jammer om de jaren van studie nu af te sluiten en verder te gaan. Ik zal de gezellige dagen tijdens de opleiding gaan missen en hoop dat een interessante en uitdagende baan dit gemis gaat opvullen. Tenslotte wil ik graag mijn ouders bedanken. Ze hadden altijd een luisterend oor beschikbaar als het even tegenzat en hebben me door de jaren heen altijd gesteund wat me écht heeft geholpen. Pa en Ma bedankt!
Augustus 2006
Samenvatting Om zoekresultaten van een zoekmachine te verbeteren, hebben Bogers en Van den Bosch (2005) een nieuwe methode genaamd authoritative re-ranking in het leven geroepen. Deze methode herschikt de bestaande zoekresultaten aan de hand van een automatische geëxtraheerde expertise-extractie. Omdat dit proces automatisch gebeurt wordt er niet expliciet gecontroleerd of deze expertise-extractie ook overeenkomt met de werkelijkheid. Interessant was het om onderzoek te verrichten naar de ‘werkelijke expertise’ van mensen en te evalueren in welke mate deze overeenkomt met de automatische manier van expertise-extractie. Door dieper in te gaan op wat expertise is en op welke manieren dit in kaart kan worden gebracht zijn de resultaten van de automatische expertise-extractie beoordeeld en vergeleken met de resultaten die de ‘werkelijke expertise’ weergeven. Deze is bepaald aan de hand van een viertal onderdelen uit een vragenlijst die gezamenlijk hebben bijgedragen aan de ‘werkelijke expertise’ van leden binnen een werkgroep. Hieruit blijkt dat publicaties een goede bron zijn voor het bepalen van de expertise van een auteur. De resultaten die de authoritative re-ranking methode levert zijn echter matig te noemen voor het extraheren van expertise termen. De top twintig aan termen die worden geëxtraheerd door de computer kregen een bovengemiddelde beoordeling, alleen de termen die door de benoemde experts werden geassocieerd met de eigen expertise werden slechts in redelijk mate geëxtraheerd. Hiernaast werd voor tien zoekopdrachten bepaald wie de ‘werkelijke experts’ waren en dit werd vergeleken met de experts die door de computer werden aangewezen. Hieruit bleek dat de deelnemers aan dit onderzoek een groter onderscheid maken bij het aanwijzen van experts dan de authoritative re-ranking methode. Ook bleek dat wanneer er alleen per zoekopdracht gekeken werd naar dé aangewezen expert volgens de werkgroepleden, dat de computer bij de helft van de zoekopdrachten de juiste expert als eerste in de expertlijst had gerangschikt.
Inhoudsopgave 1. Inleiding ........................................................................................................................... 9 2. Wat is expertise?............................................................................................................10 2.1 Expertise en definities.................................................................................................11 2.2 Expertise in de literatuur .............................................................................................12 2.3 Expertise in kaart brengen ..........................................................................................13 2.3.1 Sociale netwerk analyse .......................................................................................13 2.3.2 Interview...............................................................................................................14 2.3.3 Vragenlijst ............................................................................................................15 2.4 Expertise en de computer ...........................................................................................16 2.4.1 TREC en expertise ...............................................................................................16 2.4.2 Email en expertise ................................................................................................17 2.4.3 Publicaties en expertise........................................................................................18 2.5 Onderzoeksvragen......................................................................................................19 3. Experimentele opzet.......................................................................................................20 3.1 Analyse bestaande gegevens .....................................................................................20 3.1.1 ILK testcollectie ....................................................................................................20 3.1.2 ILK werkgroep ......................................................................................................22 3.1.3 Authoritative re-ranking ........................................................................................22 3.2 Methode......................................................................................................................23 3.2.1 Onderdeel A .........................................................................................................24 3.2.2 Onderdeel B .........................................................................................................24 3.2.3 Onderdeel C .........................................................................................................27 3.2.4 Onderdeel D .........................................................................................................29 4. Resultaten.......................................................................................................................31 4.1 Onderdeel A ............................................................................................................31 4.2 Onderdeel B ............................................................................................................34 4.3 Onderdeel C............................................................................................................35 4.4 Onderdeel D............................................................................................................37 5. Conclusies en discussie ................................................................................................46 5.1 Conclusies ..................................................................................................................46 5.2 Discussie ....................................................................................................................49 5.3 Aanbevelingen voor vervolg onderzoek ......................................................................50 Literatuur ............................................................................................................................51
Bijlage .................................................................................................................................53 Bijlage 1: Onderdeel A..................................................................................................54 Bijlage 2: Onderdeel B..................................................................................................60 Bijlage 3: Onderdeel C..................................................................................................65 Bijlage 4: Onderdeel D..................................................................................................68
Tabellenlijst 3.1 Overzicht van de leden van de ILK werkgroep................................................................22 3.2 De optimale en strengere instellingen van de authoratitive re-ranking methode .............26 3.3 De opgestelde filters om ruis in de termenlijsten tot een minimum te beperken ..............27 3.4 Per auteur zijn het aantal publicaties en de relatieve auteurpositie genoteerd. ...............28 4.1 De gemiddelde termposities per auteur berekend ..........................................................33 4.2 De gemiddelde scores van de twintig beoordeelde termen per termenlijst......................34 4.3 Voorbeeld data voor het berekenen van de Mean Reciprocal Rank ...............................38 4.4 Voorbeeld data voor het berekenen van de Ranked Recall ............................................40 4.5 Voorbeeld data voor het berekenen van de Mean Squared Error ...................................41 4.6 De Normalised Reciprocal Rank per query.....................................................................42 4.7 De expertscore uit de authoratitive re-ranking methode per query..................................43 4.8 De Ranked Recall per query...........................................................................................44 4.9 De Mean Squared Error per query..................................................................................44
Figurenlijst 2.1 Sociale Netwerk Analyse weergegeven in de vorm van een graaf..................................13 2.2 Sociale Netwerk Analyse weergegeven in de vorm van een matrix ................................14 3.1 Screenshot van onderdeel A van de vragenlijst ..............................................................24 3.2 Screenshot van onderdeel B van de vragenlijst ..............................................................25 3.3 Screenshot van onderdeel C van de vragenlijst..............................................................29 3.4 Screenshot van onderdeel D van de vragenlijst..............................................................30 4.1 Weergave van de exacte, AND- en OR-match per termenlijst ........................................32 4.2 Weergave van het aantal publicaties per auteur uit de testcollectie ................................37 4.3 Beoordeling van de publicaties in relatie tot de auteurposities........................................32
Hoofdstuk 1
Inleiding Binnen universitaire instellingen wordt onderzoek verricht naar een grote diversiteit aan onderwerpen. Een onderzoeksgroep of werkgroep bestaat uit hoogopgeleide wetenschappers die interessegebieden en expertise bundelen om vraagstukken aan de kaak te stellen. Ideeën worden bedacht, relevante literatuur wordt bestudeerd en methoden en technieken getoetst en ontwikkeld met als hoofddoel de wetenschap vooruit te helpen. Resultaten van een onderzoek worden beschreven in een zogeheten research paper, een artikel dat bestaande relevante literatuur bespreekt en de wijze waarop het onderzoek is verricht, beschrijft. De resultaten van het onderzoek kunnen weer de basis vormen voor nieuw onderzoek waarin nieuwe inzichten kunnen leiden tot een breder of dieper inzicht in het betreffende onderwerp. Een research paper herbergt (veel) informatie over het onderzochte en geeft in feite ook een deel van de kennis misschien zelfs expertisegebieden van de betreffende auteur(s) weer. Des te langer een auteur een onderwerp bestudeert en hierover schrijft, des te meer hij of zij waarschijnlijk hierover zal weten. Weten wat de expertisegebieden van een individu zijn, herbergt veel waarde. Binnen een werkgroep kunnen vraagstukken gerichter worden voorgelegd aan de juiste individuen waardoor er efficiënter met informatie kan worden omgesprongen. Als documenten, geschreven door een auteur binnen een werkgroep, een deel van de expertise van die auteur kunnen weergeven, dan is het interessant om te bekijken in hoeverre computertechnieken automatisch de expertisegebieden van een auteur kunnen achterhalen. Bestaande computer technieken kunnen automatisch informatie ophalen waarover, in globale lijnen, een document gaat. Deze technieken zijn alleen niet perfect en geven niet altijd een natuurgetrouw beeld van de inhoud van het document [1]. Eerder onderzoek (Bogers en Van den Bosch, 2005) heeft aangetoond dat zoekresultaten binnen een corpus kunnen worden verbeterd door deze aan de hand van een zogenaamde expertiseranking te herschikken. De expertiseranking wordt geproduceerd aan de hand van de inhoud van documenten binnen een werkgroep en gebruikt om de zoekresultaten te verbeteren. Dit onderzoek is gestart om te toetsen in hoeverre de expertiseranking uit het onderzoek van Bogers en Van den Bosch (2005) overeenkomt met de ‘werkelijkheid’. Er wordt getracht een goed beeld te krijgen van hoe expertise in elkaar zit en op welke manieren dit kan worden beoordeeld. Hierna volgen de onderzoeksvragen die in dit onderzoek gesteld worden, gevolgd door de methode en experimentele opzet waarmee wordt getracht om de ‘werkelijke expertise’ binnen een werkgroep te bepalen en de kwaliteit van automatische expertiseextractie te evalueren. Na het behandelen van de resultaten die hieruit voortkomen, volgt tot slot de conclusie, de discussiepunten en aanbevelingen voor een vervolgonderzoek.
Hoofdstuk 2
Wat is expertise? De volgende anekdote1 illustreert (op een amusante wijze) het probleem van het bepalen van expertise. “He' s Nobody' s Fool” When Albert Einstein was making the rounds of the speaker' s circuit, he usually found himself eagerly longing to get back to his laboratory work. One night as they were driving to yet another rubber-chicken dinner, Einstein mentioned to his chauffeur (a man who somewhat resembled Einstein in looks & manner) that he was tired of speechmaking. "I have an idea, boss," his chauffeur said. "I' ve heard you give this speech so many times. I' ll bet I could give it for you." Einstein laughed loudly and said, "Why not? Let' s do it!" When they arrived at the dinner, Einstein donned the chauffeur' s cap and jacket and sat in the back of the room. The chauffeur gave a beautiful rendition of Einstein' s speech and even answered a few questions expertly. Then a supremely pompous professor asked an extremely esoteric question about anti-matter formation, digressing here and there to let everyone in the audience know that he was nobody' s fool. Without missing a beat, the chauffeur fixed the professor with a steely stare and said, "Sir, the answer to that question is so simple that I will let my chauffeur, who is sitting in the back, answer it for me." Uit deze anekdote komt naar voren dat het bepalen van expertise niet altijd even gemakkelijk gaat en expertise niet alleen bestaat uit het hebben van een goed geheugen. Immers, iemand kan zich beter voordoen dan hij of zij in werkelijkheid is, zoals de chauffeur zich voordeed als Albert Einstein. Door gespecialiseerde vragen of gestandaardiseerde cases op te stellen om de expertise te meten kan hier doorheen worden geprikt zoals in de anekdote wordt aangegeven. Maar wat is expertise nu precies? Welke gangbare definities zijn hiervoor opgesteld en op welke manier is dit te meten en te vergelijken met een automatische expertise-extractie zoals beschreven in het onderzoek van Bogers en Van den Bosch (2005)?
1
http://www.snopes.com/humor/jokes/einstein.asp
2.1 Expertise en definities Expertise is een woord dat veel verschillende definities kent en verschillen in kennis en vermogen tussen individuen binnen een bepaald domein kan aantonen. Volgens de Van Dale heeft het woord expertise de betekenis “deskundigheid”. Hoe meer expertise een individu bezit binnen een bepaald domein, des te meer deskundigheid dit individu heeft binnen dit domein. Ondanks deze definitie blijft het begrip expertise abstract en kan het op meerdere manieren worden opgevat. De definitie ‘deskundig’ heeft meer concrete voorstellingen waaronder: beslagen, gekwalificeerd, onderlegd, oordeelkundig en ter zake kundig volgens de Van Dale. Een deskundige of expert is iemand die door beroep of studie in het bijzonder bevoegd is tot het beoordelen van een zaak. Vraagstukken kunnen sneller en beter worden doorverwezen naar de juiste individuen wanneer men de expertise van sociale contacten kent (Campbell et al., 2003). Er zijn verschillende populaire definities in de wetenschappelijke literatuur van de term expertise. De meeste zijn nogal vaag en leiden op zichzelf niet naar concrete suggesties over hoe men een expert kan worden en herkennen (Salthouse, 1991). Een voorbeeld hiervan is iemand die voortdurend meer en meer over minder en minder leert. Het probleem bij het vertrouwen op deze definitie is de vraag wanneer men de specialisatie genoeg heeft gefocust zodat de kennis die iemand bezit genoeg is om als expert te worden gezien. De anekdote waarin de chauffeur van Albert Einstein de presentatie overnam, benadrukt dat het bezitten van kennis niet voldoende is voor expertise. Vroeger dacht men dat het verschil tussen experts en niet-experts zich vooral voordeed in de verwerking van informatie. Dit denkbeeld, dat experts beter zijn in het verwerken van informatie, werd veranderd door onderzoek van DeGroot (1965) en onderzoek van Chase and Simon (1973). Door in hun onderzoek diverse schaakopstellingen in korte tijd voor te leggen aan experts en niet-experts (beginnende spelers) werd duidelijk dat experts manieren hadden ontwikkeld om op een snelle en efficiënte manier visuele representaties te maken van de gegeven opstellingen. Echter, toen schaakopstellingen werden gepresenteerd die normaal niet kunnen voorkomen in een schaakspel bleken de experts niet beter te zijn dan de beginners in het onthouden van deze opstellingen. Deze resultaten kwamen niet overeen met het beeld van een expert die op de een of andere manier beter informatie kon verwerken dan een beginnende speler. Blijkbaar konden experts mogelijke opstellingen en patronen herkennen en vergelijken met opstellingen die zij hadden onthouden. Dit terwijl beginners de mogelijke opstellingen niet goed konden onderscheiden van onmogelijke schaakopstellingen waardoor zij geen voordeel uit de patroon herkenning konden halen. Sternberg (1994) gaat in zijn onderzoek in op wat een individu tot een expert maakt en geeft ondersteunende voorbeelden uit de literatuur om aan te tonen dat iemand met alleen maar kennis van een domein niet gezien kan worden als een expert. Hij behandelt verschillende
denkbeelden van expertise waarvan de eerste al gevormd werden in het begin van de twintigste eeuw. Sinds die tijd doen verschillende disciplines onderzoek naar vormen van expertise, al dan niet door gebruik te maken van hetzelfde label. De meeste moderne onderzoeken focussen op de individuele attributen van een expert (vaardigheden, cognitieve structuren), maar aan het begin van de twintigste eeuw werd al onderzoek gedaan naar intelligentie die kan worden gelabeld als intellectuele expertise.
2.2 Expertise in de literatuur In de literatuur wordt onderscheid gemaakt tussen het bezitten van expertise en het worden gezien als expert binnen een bepaald domein. Het bezitten van expertise binnen een domein maakt iemand nog niet tot een expert. Diverse vermogens dragen bij aan het onderscheid dat tussen individuen op het gebied van expertise kan worden gemaakt. Sternberg (1994) onderstreept een viertal factoren die dit onderscheid in expertise benadrukken. •
Superieur analytisch vermogen Met het superieur analytisch vermogen wordt het effectief gebruiken van de kennis die iemand bezit bedoeld. Experts zijn in staat om belangrijke informatie te scheiden om problemen op te lossen. Niet alleen de kwantiteit aan kennis, maar ook de organisatie van deze kennis zorgt voor het efficiënt gebruiken ervan. Een expert is niet alleen een opslagplaats van feiten, maar iemand die weet hoe hij of zij efficiënt kennis kan gebruiken die is opgeslagen.
•
Superieur creatief vermogen Het superieur creatief vermogen omvat het creëren van nieuwe kennis op basis van bestaande kennis. Dit vermogen van experts gaat verder dan het analytisch vermogen. Op een of andere manier kunnen experts problemen herdefiniëren naar herkenbare eenheden. Hierbij wordt de relevante van de irrelevante informatie gescheiden en wordt de relevante informatie op een creatieve wijze gecombineerd en vergeleken met bestaande kennis. Het is hierbij niet zozeer de organisatie of kwantiteit van kennis die van belang is, maar meer het weten wanneer en hoe deze moet worden toegepast om te komen tot een passende oplossing voor het probleem. Experts zijn mensen die niet zozeer alle informatie hebben gememoriseerd en georganiseerd, maar mensen die creatieve theoretische en empirische contributies hebben bijgedragen in een bepaald gebied.
•
Superieure automatisering Experts kunnen zich sneller aanpassen en verwerken informatie beter dan nietexperts. Experts lijken meer bij te dragen dan niet-experts in hun vakgebied en het lijkt erop dat ze dit doen met minder inspanning. Dit noemt Sternberg (1994) superieure automatisering. Salthouse (1991) geeft in zijn onderzoek aan dat mensen expertise gebruiken om menselijke verwerkingslimitaties te omzeilen. Het automatiseren van bepaalde methoden en processen zorgt voor een extra voordeel voor experts boven niet-experts. Hierdoor hebben zij extra bronnen beschikbaar die gebruikt kunnen worden om situaties op een hoger niveau te analyseren wat kan leiden tot betere resultaten.
•
Praktisch vermogen Naast abstracte vermogens heeft een expert ook een vermogen dat speciaal gericht is op de praktijk. Dit wil zeggen dat hij naast het werken met ideeën en hypotheses ook de (on)mogelijkheden van zijn vakgebied kent en hiernaar handelt. Het weten wat de beperkingen zijn binnen een domein is belangrijk om mogelijke oplossingen naar waarde te kunnen inschatten. Na overwegen kan een expert op schaakgebied een perfecte zet selecteren uit een aantal mogelijke zetten, wat de suggestie opwekt dat zijn of haar selectiestrategie anders is dan dat van een beginner, de beginner die waarschijnlijk deze perfecte zet niet als perfect zou herkennen. Met het praktische vermogen van een expert wordt deze nadrukkelijke kennis van het domein bedoeld. Een niet-expert zal weinig tot geen kennis hebben over het betreffende domein waardoor deze slecht kan inschatten welke oplossing(en) mogelijk zijn en leiden tot een bevredigend resultaat.
Deze verschillende vermogens onderscheiden volgens Sternberg (1994) een expert van een niet-expert. Het worden gezien als expert heeft echter niet alleen te maken met het bezitten van deze vermogens, maar ook met sociale factoren. Mensen worden ingedeeld als expert, omdat ze aan bepaalde criteria voldoen om als expert gelabeld te kunnen worden. Deze criteria kunnen per vakgebied verschillend zijn, maar als er gesproken wordt over experts dan is dit “labellen” waarschijnlijk de hoofdfactor die bepalend is. Sternberg (1994) geeft het voorbeeld van een dokter. Deze wordt als expert beschouwd wanneer hij of zij certificering hiervoor krijgt. Ondanks dat er tussen doktoren verschil bestaat, hebben ze evenveel kans om als expert gelabeld te worden en worden ze ook als zodanig behandeld. Iemand met certificering wordt automatisch gezien als iemand met verstand van zaken en zal ook daarna worden behandeld.
2.3 Expertise in kaart brengen In de literatuur worden verschillende manieren genoemd om expertise van mensen in kaart te brengen. Omdat in dit onderzoek de automatische manier van expertise-extractie wordt beoordeeld zijn drie manieren beschreven die veelal gebruikt worden om de expertise van mensen te beschrijven.
2.3.1 Sociale netwerk analyse Door gebruik te maken van sociale netwerk analyse kan kennis in een organisatorische context worden achterhaald. Sociale netwerk analyse betreft het in kaart brengen in welke mate een lid van een netwerk wordt beoordeeld door andere leden van het netwerk bij een of meer relaties. Relaties tussen individuen worden gerepresenteerd als een graaf of matrix. Als A kennis zoekt van B dan is die relatie gerepresenteerd door een pijl te tekenen van A naar B zoals in figuur 2.1 staat afgebeeld. Dezelfde informatie kan in een matrix worden getoond (figuur 2.2) waarbij niet een pijl, maar het getal ‘1’ Figuur 2.1: Graaf een relatie tussen de zender en ontvanger weergeeft.
Bij sociale netwerk analyse moet de onderzoeker eerst de relaties selecteren die hij in kaart wil brengen. Vervolgens moet elke mogelijkheid geschaald worden als een binaire keuze, een nominale keuze of op een interval schaal. Hierna worden vragen opgesteld die het verschil tussen individuen op de te onderzoeken relaties kan meten. Als men bijvoorbeeld wil weten wie een expert is op het gebied van belastingaangifte dan kan de vraag als volgt Figuur 2.2: Matrix worden geformuleerd: “Bij wie kan je informatie inwinnen over belastingaangifte?”. Onder elke vraag worden alle leden van de organisatie getoond waaruit de meest geschikte individuen kunnen worden geselecteerd. Afhankelijk van de manier waarop geschaald wordt kan worden aangegeven in welke mate een individu in relatie staat tot het subject. Per vraag kan worden bepaald wie het meeste is geselecteerd ofwel wie de meeste stemmen heeft ontvangen. Op deze manier ontstaat een duidelijk overzicht van de relaties tussen de individuen en de subjecten binnen het netwerk. Deze methode werd als eerste gebruikt in de context voor het identificeren van kandidaten om mee te doen in kennisacquisitie voor de ontwikkeling van een expert systeem (Stein, 1992). Een expert systeem is een geautomatiseerd systeem dat kennis en redeneertechnieken gebruikt om problemen op te lossen die normaal gesproken menselijke kennis vereist [17]. Kennis verkregen van experts en kennis uit gedocumenteerde bronnen wordt gecodeerd in een het systeem ingevoerd, en wordt gebruikt door redeneerprocessen van het systeem om op verzoek adviezen te geven. Expertise werd gemeten door elk lid van het netwerk te ranken aan de hand van de netwerk analyse. Hoe hoger de score, hoe groter het gedefinieerde niveau van expertise. De resultaten werden gevalideerd op verschillende manieren. Als eerste werden de scores vergeleken met een chi-kwadraat toets. De aanname was dat als mensen niet verschilden in expertise niveau, elke persoon ongeveer dezelfde beoordeling zou krijgen. De geobserveerde scores werden vergeleken met het aantal verwachte reacties van de gemiddelde ranking score. De chi-kwadraat waarde gaf aan dat de geobserveerde ranking scores voor mensen significant verschilden (p <.001). Dit resultaat steunde de aanname dat de bronkwaliteit een factor was in het selecteren van experts, mensen hebben een voorkeur voor een bepaalde bron en kunnen dit ook aangeven.
2.3.2 Interview Om kennis van mensen te beschrijven is een interview de meest gebruikelijke methode. Het doel is om, in gesprek met experts, zich een beeld te vormen van hoe hun expertise is opgebouwd. Hierbij wordt onder andere gekeken naar hoe experts oordelen maken, problemen oplossen en oplossingen vormgeven. Een probleem bij deze methode is dat de interviewer niet passief deelneemt in de situatie, wat deze techniek rijp maakt voor bias. De interviewer kan hetgeen het subject zegt interpreteren in termen die persoonlijk worden begrepen, maar verkeerd worden geïnterpreteerd doordat het subject dit anders bedoelde. Hiernaast moeten de experts tijd vrijmaken en genoeg geïnteresseerd zijn om actief deel te nemen aan het interview. Maar
om een redelijk ruwe, snelle introductie in een domein te krijgen, om objecten te coderen en om te horen hoe experts te werk gaan is een interview een gebruikelijke methode.
2.3.3 Vragenlijst Een veel gebruikte manier om de expertise van mensen te beschrijven is simpelweg vragen voor te leggen waarmee de expertisegebieden van een individu kunnen worden geïdentificeerd [12]. Diverse organisaties en instellingen gebruiken deze eigen beoordeling om expertise van mensen in kaart te brengen. Een drietal voorbeelden hiervan zijn de Universiteit van Tilburg, de Koninklijke Nederlandse Academie van Wetenschappen en de University of South Australia: •
De Universiteit van Tilburg2 maakt gebruik van een trefwoorden lijst waarin werknemers bestaande trefwoorden kunnen selecteren danwel nieuwe trefwoorden toe te voegen die corresponderen met de eigen expertise. Hierdoor ontstaat een web van trefwoorden die verwijzen naar expertisegebieden en experts. Op de website kan worden gezocht naar experts (door de naam te selecteren) en op expertise (door het trefwoord te selecteren).
•
De Koninklijke Nederlandse Academie van Wetenschappen3 maakt gebruik van een soortgelijke opzet waarbij eigen trefwoorden de expertise van een individu weergeven. Hiernaast dient men een omschrijving van het huidige onderzoek in te vullen. Deze gegevens worden opgeslagen in de Nederlandse Onderzoek Databank (NOD) en is voor het raadplegen van experts vrij toegankelijk. De NOD is een openbare online databank met informatie over wetenschappelijk onderzoek, onderzoekers en onderzoeksinstituten.
•
De University of South Australia4 maakt ook gebruik van een dergelijke opzet en bestaat uit een drietal onderdelen die het individu zelf moet invullen. Gestart wordt met het vragen naar trefwoorden die de expertisegebieden weergeven. Hierna dient het individu onderzoeksgebieden en gevolgde cursussen te selecteren. Het derde onderdeel omvat een aantal globale subclusters waaruit de expert zijn of haar interesses kan selecteren.
McDonald (2002) ontwikkelde het zogenaamde Knowledge Mapping Instrument (KMI) om het systeem Expertise Recommender te evalueren. Dit is een korte domeinspecifieke vragenlijst om te bepalen in hoeverre de meningen van collega’s over het bezitten van expertise overeenkomen met het daadwerkelijk bezitten van expertise van een individu. De vragen strekken zich van eenvoudige trivia uit tot problemen die een gedetailleerd begrip van het specifieke domein vereisten. Analyse van de scores toont een bijzonder hoge correlatie (Pearson’s r = 0,8823) tussen de sociale evaluatie en de prestaties van de individuen aan. De analyse demonstreerde dat de verwachting van elkaars expertise in de werkgroep relatief overeenkomt. 2 3 4
http://www.uvt.nl/webwijs/ http://www.onderzoekinformatie.nl/nl/oi/nod/nodinfo/aanmelden_van_gegevens/aanmelden_expertise/ http://www.unisa.edu.au/res/forms/doreform.asp
Uit de genoemde perspectieven kan worden afgeleidt dat er op verschillende manieren naar de betekenis van expertise wordt gekeken. Experts zijn gedefinieerd als degene die worden (h)erkend binnen hun werkgebied en beschikken over de benodigde vermogens om te fungeren op het hoogste niveau. Zoals Sternberg (1994) al aangaf is labeling een veel gebruikte methode om aan te tonen dat iemand over een bepaalde vorm van expertise beschikt. Ook Stein (1997) geeft aan dat certificeringen gebruikt worden als expertiseindicator. Genoemde technieken om experts in kaart te brengen zijn het gebruik maken van certificeringen, sociale netwerk analyse, interviews en vragenlijsten.
2.4 Expertise en de computer In de literatuur wordt nog maar weinig gesproken over het automatisch in kaart brengen van expertise door de computer. Het vinden van de juiste persoon in een organisatie is vaak essentieel voor het succes van projecten die worden ondernomen. Systemen worden ontwikkeld die met behulp van automatische indexeertechnieken gepubliceerde documenten, e-mail en andere digitale bronnen exploiteren om experts in kaart te brengen.
2.4.1 TREC en expertise Tijdens de Text REtrieval Conference (TREC) 2004, een jaarlijkse conferentie waarin door grote organisaties en universiteiten overlegd wordt over de stand van zaken op het gebied van information retrieval, werd duidelijk dat er interesse bestaat om te kunnen zoeken naar de relaties tussen entiteiten binnen een organisatie zoals mensen, groepen, producten, etc. Vandaar dat in de TREC2005 een onderzoekstaak werd opgenomen waarin deelnemers werden uitgedaagd om een oplossing te bedenken om experts te vinden die gerelateerd zijn aan een specifiek onderwerp. Het scenario beschrijft dat een gebruiker wil weten wie er een expert is op onderwerp X en dat een systeem aan de hand van een zoekopdracht op onderwerp X een gerangschikte lijst van experts weergeeft. Het systeem opereert op basis van een zoekopdracht, een corpus en een lijst met kandidaat-experts. Er is geen expertise survey gehouden, omdat de organisatie in kwestie (het W3C) hier niet aan wilde deelnemen. In feite heeft het W3C niet eens een lijst met kandidaat-experts geleverd. Hierdoor is het experiment gebaseerd op een bestaande database van de W3C werkgroepen. De onderwerpen zijn namen van werkgroepen en de experts zijn leden van deze groepen. Het betreft zoeken naar expertise, omdat er wordt aangenomen dat de huidige leden van een bepaalde groep de experts zijn van deze groep ten aanzien van de leden van andere groepen. De kandidatenlijst werd als evaluatiemiddel genomen om te onderzoeken hoe de testcollectie het beste gebruikt kon worden voor een efficiënte rangschikking. Het nemen van de lijst als vergelijkingsmateriaal voor expertise heeft beperkingen. Er werd namelijk aangenomen dat leden van een werkgroep per definitie experts zijn van die werkgroep. Ook werd er geen onderscheid gemaakt tussen de experts onderling.
2.4.2 Email en expertise Email is net als sociale contacten een manier om antwoorden op vragen te krijgen. Campbell et al. (2003) heeft onderzoek verricht om te bepalen of het mogelijk is om aan de hand van het email verkeer de expertise van individuen binnen bedrijven te bepalen. Een individu dat veel emails krijgt of verstuurt over een bepaald onderwerp zal hier waarschijnlijk meer over weten, er meer expertise over bezitten dan iemand die hier weinig tot geen emails over ontvangt of verstuurt. Door twee methoden met elkaar te vergelijken is geprobeerd de expertise van individuen te achterhalen en te beoordelen welke methode betere resultaten oplevert. Een simpel op content-gebaseerd algoritme werd vergeleken met het HITS, Hyperlink Induced Topic Search, algoritme, een op grafen gebaseerd beoordelingsalgoritme. Het op content-gebaseerd algoritme telt alleen het aantal emails over een onderwerp verzonden door een individu. Een email gaat hierbij over een onderwerp wanneer het één of meer keywoorden of zoektermen die een onderwerp beschrijven bevat. HITS neemt hiernaast ook de communicatie patronenanalyse mee in zijn expertoordeel. Om te toetsen of de algoritmes de werkelijke expertise konden benaderen werd een vragenlijst gemaakt waarin per categorie de namen van potentiële experts stonden. Mensen die met veel kandidaten in contact stonden, werden aangesteld om per categorie de potentiële experts te beoordelen op een 10-punts schaal. De beoordelaars werden gevraagd om elke kandidaat te beoordelen op hun expertiseniveau, op een schaal van 1 tot 10. Hierbij stelde 1 geen expertise en 10 zeer hoge expertise voor. De beoordelaars werden geïnstrueerd geen kandidaten te beoordelen die ze niet kenden en namen van potentiële experts toe te voegen die niet op de lijst voorkwamen en deze te beoordelen. Door gebruik te maken van email en expliciete expertise puntentoekenning van de twee verschillende organisaties werden de resultaten geëvalueerd. De resultaten tonen aan dat het op graafgebaseerde algoritme HITS beter presteert bij beide organisaties. Het heeft een lagere recall5 en een hogere precision6. Het simpele op content-gebaseerd algoritme lijkt minder gerichte criteria te bezitten voor het bepalen van de experts waardoor het meer fouten maakt. Email is een vorm van social networking, een manier om experts op te sporen: een gebruiker heeft een probleem en naar wie gaat hij om dit probleem op te lossen. Natuurlijk is het zo dat men niet altijd direct antwoord krijgt en de gevraagde persoon het kan doorvragen alvorens antwoord te geven. Uit de resultaten van het onderzoek door Campbell et al. (2003) kan worden afgeleid dat emailanalyse een expertiseranking kan voortbrengen. Echter is het verschil tussen beide algoritmes niet groot en zijn de resultaten matig.
5 6
Recall: het deel van de relevante experts die gevonden zijn. Precision: het deel van de gevonden experts die relevant zijn.
2.4.3 Publicaties en expertise De aanleiding van dit onderzoek heeft betrekking op een mogelijke bron van expertise namelijk wetenschappelijke publicaties. Bogers en Van den Bosch (2005) ontwikkelden een nieuwe methode genaamd authoritative re-ranking. Hiermee kunnen zoekresultaten binnen een corpus worden verbeterd door gebruik te maken van automatische gegenereerde expertise-scores waarmee de zoekresultaten worden herschikt. Er wordt in het onderzoek verondersteld dat wanneer een auteur veel over een onderwerp schrijft, hij of zij ook meer expertise bezit in het onderwerp dan een auteur die niet of minder schrijft over het onderwerp. Hiernaast wordt verondersteld dat de publicaties van een auteur een goede bron zijn om expertise uit te extraheren. Gebaseerd op deze assumpties wordt ingeschat hoe goed een term of zin wijst naar een bepaald document en hierdoor indirect naar één of meerdere auteurs. Door gewichten aan deze termen of zinnen toe te kennen wordt verondersteld dat in zekere mate kan worden bepaald welke auteur of auteurs meer expertise bezitten in een onderwerp. Met behulp van statistische methoden om de (on)afhankelijkheid van twee waarden te schatten wordt deze informatie gebruikt om de expertise van auteurs te modelleren met als doel het verbeteren van de zoekresultaten. De aanname in het onderzoek is dat wetenschappelijke publicaties de expertise van de auteurs bevat en dat deze met behulp van de authoritative re-ranking methode kan worden geëxtraheerd uit de publicaties. De tweede aanname in het onderzoek is dat er bij het herschikken van de zoekresultaten de documenten van de betreffende experts hoger moeten worden ingeschaald. De vraag die hierbij gesteld kan worden is of deze aannames wel correct zijn en zomaar gevolgd kunnen worden. Weerspiegelen de publicaties van een auteur de werkelijke expertise van de auteur en in hoeverre wordt deze met behulp van authoritative re-ranking methode geïdentificeerd?
2.5 Onderzoeksvragen In dit onderzoek wordt getracht te achterhalen of het corpus van een werkgroep een goede plaats en authoritative re-ranking een goede methode is om de expertise van werkgroepleden te bepalen. Authoritative re-ranking is het herschikken (re-ranken) van zoekresultaten op basis van expertise. Deze methode, geïntroduceerd door Bogers en Van den Bosch (2005), doet zijn werk gebaseerd op de assumptie dat expertise van een werkgroeplid kan worden geschat aan de hand van de inhoud van zijn of haar publicaties. Deze assumptie heeft de basis gevormd voor het onderzoek. De hoofdvraag in dit onderzoek luidt als volgt: “In hoeverre is de authoritative re-ranking methode succesvol in het bepalen van de expertise van leden van een werkgroep?” Aangezien in het onderzoek van Bogers en Van den Bosch (2005) termen met een hoog onderscheidend vermogen worden gebruikt om de expertise-score per auteur te bepalen kan worden afgevraagd of deze termen wel een hoogonderscheidend vermogen bezitten volgens de eigenlijke auteurs. De deelvraag die hieruit voortvloeit luidt: “In welke mate hebben de termen die volgens het systeem een hoog onderscheidend vermogen hebben, volgens de eigenlijke experts een onderscheidend vermogen?” Hiernaast wordt met behulp van de volgende deelvraag geprobeerd te achterhalen in hoeverre het corpus van een werkgroep volgens de auteurs in de werkgroep een goede bron is voor het bepalen van expertise. “In hoeverre is het corpus van een werkgroep een goede bron voor het bepalen van expertise?” Het systeem bepaalt aan de hand van een expertisescore welke auteurs bij een zoekopdracht de meeste expertise bezitten en worden hierdoor aangeduid als experts met betrekking tot de zoekopdracht. De derde deelvraag die gesteld wordt in deze scriptie is: “In hoeverre duidt het systeem de juiste auteurs bij een zoekopdracht aan?” Door het beantwoorden van deze drie deelvragen wordt getracht een goed antwoord te geven op de hoofdvraag gesteld aan het begin van deze sectie.
Hoofdstuk 3
Experimentele opzet Bogers en Van den Bosch (2005) gebruikten in hun onderzoek vier verschillende testcollecties om de authoritative re-ranking methode te evalueren. Een testcollectie bestaat uit een verzameling documenten en query's ofwel zoekopdrachten waarbij voor elke query afzonderlijk is aangegeven welke documenten relevant zijn voor die query. Om de expertiseextractie in hun gecombineerde aanpak te kunnen evalueren, was het noodzakelijk om de testcollectie van de ILK7 werkgroep te gebruiken. Sectie 3.1.1 beschrijft deze collectie in meer detail. Bogers en Van den Bosch (2005) hebben naast de ILK collectie ook drie andere testcollecties gebruikt, maar deze representeerden niet de onderzoeksoutput van een specifieke werkgroep. Bij de ILK collectie echter was er echter wel de mogelijkheid om de leden van de werkgroep daadwerkelijk te betrekken bij de evaluatie van de expertiseextractie.
3.1 Analyse bestaande gegevens Het analyseren van de bestaande gegevens bestaat uit een analyse van de testcollectie waaruit de expertiseranking wordt geëxtraheerd, de verschillende werkgroepleden en de wijze waarop de expertiseranking wordt gemaakt door het systeem.
3.1.1 ILK testcollectie De ILK testcollectie8 is destijds gecreëerd, omdat er volgens de makers geen werkgroepcollecties beschikbaar waren. Beide onderzoekers konden geen werkgroep testcollectie vinden waardoor zij er zelf een hebben aangemaakt. Deze bestaat uit de titels en abstracts van 147 Engelstalige publicaties van huidige en ex- leden van de ILK werkgroep. In totaal bevat de collectie 89 unieke auteurs en 169 query’s met de bijbehorende bepaling van relevantie. De testcollectie werd gemaakt door alle publicaties binnen de werkgroep te verzamelen en om te zetten naar platte tekst. Hierna werd gevraagd aan de werkgroepleden om bij de eigen publicaties uit de testcollectie query’s te bedenken en zelf alle relevante ILK publicaties te noteren. Hierbij gaat het om dus niet alleen om de eigen relevante publicaties, maar alle relevante publicaties uit de testcollectie. Bij elke query is op deze manier genoteerd welke publicaties relevant zijn. De ILK testcollectie bevat de publicaties van de ILK werkgroep tot 2005. De publicaties van werknemers die na 2004 zijn gestart bij de ILK werkgroep waren nog niet opgenomen in de 7
ILK is de afkorting van de werkgroep Inductie van Linguïstische kennis en werd opgericht door professor Walter Daelemans in de jaren ’90. 8 De ILK testcollectie is te downloaden van http://ilk.uvt.nl/apropos/
testcollectie. Om ervoor te zorgen dat deze een betere afspiegeling is van de huidige samenstelling van de werkgroep en zijn expertise, is ervoor gekozen om de publicaties van januari 2005 tot en met april 2006 (in totaal 19) eveneens te indexeren. Zo kon ook de expertise van de nieuwste ILK-leden geëxtraheerd en benut worden voor de vragenlijst. De testcollectie bevat naast deze publicaties een aantal query’s. Deze zijn gekoppeld aan publicaties en hierdoor weer gekoppeld aan auteurs. In totaal zijn er 169 query’s die te onderscheiden zijn in 80 natuurlijke taal zoekopdrachten en 89 Booleanse zoekopdrachten. Het grote verschil tussen beide is dat Booleanse zoekopdrachten gebruik maken van Booleanse operatoren zoals AND, OR en NOT, en de natuurlijke taal zoekopdrachten uit onze natuurlijke taal voortkomen. Een voorbeeld van een Booleanse zoekopdracht is: “(instance clusters OR small disjuncts) AND lazy learning”. Bij deze zoekopdracht moet de eerste term OF de tweede term in combinatie met de derde term voorkomen. Een voorbeeld van een natuurlijke taal zoekopdracht is: “how clustered are the instances when using a lazy learning method?”. Er is niet gekozen om de Booleanse zoekopdrachten te gebruiken omdat deze ook niet zijn gebruikt in het onderzoek van Bogers en Van den Bosch (2005). Er zijn geen nieuwe query’s bedacht voor de 19 publicaties die aan de testcollectie zijn toegevoegd. Een belangrijke reden hiervoor is de tijd die gemoeid gaat bij het bedenken en het organiseren van de publicaties behorende bij een query. Dit zou namelijk inhouden dat voor alle publicaties moet worden nagelopen of deze relevant zijn bij de nieuwe query’s die afkomstig zijn van de toegevoegde publicaties. Hiernaast zou ook voor de bestaande 169 query’s moet worden nagelopen welke toegevoegde publicaties relevant zijn. Hierdoor is ervoor gekozen om de bestaande 80 natuurlijke taal query’s en de relevantie bepaling hiervan te gebruiken in dit onderzoek.
3.1.2 ILK werkgroep De ILK werkgroep bestaat op het moment van schrijven, april 2006, uit 12 leden. Als we dit vergelijken met de 89 unieke auteurs van de publicaties uit de testcollectie dan missen we een groot deel van de expertise die gepresenteerd wordt door het systeem. Het is echter wel een realistische afspiegeling van een doorsnee werkgroep. Werkgroepen veranderen nu eenmaal van leden en het is mogelijk dat (nieuwe) leden niet precies zullen weten op welke gebieden een lid van de werkgroep expertise bezit. Naam
Aantal publicaties
Aantal jaren werkzaam bij de ILK werkgroep
Drs. Toine Bogers
4
1-2
Dr. Antal van den Bosch
87
5+
Drs. Bertjan Busser
6
5+
Drs. Sander Canisius
5
2-3
114
5+
Prof. dr. Walter Daelemans Drs. Marieke van Erp
4
<1
Dr. Piroska Lendvai
11
4-5
Dr. Erwin Marsi
5
5+
Dr. Martin Reynaert
4
5+
Dr. Caroline Sporleder
6
<1
Dr. Iris Hendrickx
9 13
4-5 5+
Dr. Erik Tjong Kim Sang
Tabel 3.1: Overzicht van de leden van de ILK werkgroep.
Door het combineren van deze afzonderlijke oordelen van expertise werd geprobeerd een realistische afspiegeling van de huidige werkgroep te verkrijgen. Het betreft een heterogene werkgroep. Kenmerkende verschillen zijn het aantal jaren werkzaam bij de ILK werkgroep en het aantal publicaties die zijn opgenomen in de testcollectie. In tabel 3.1 zijn de werkgroepleden en tevens deelnemers aan dit onderzoek opgenomen. Het aantal publicaties betreft het aantal publicaties waarvan de betreffende werkgroepleden auteurs zijn. Het aantal jaren werkzaam is verdeeld in vijf klassen: minder dan 1 jaar werkzaam, tussen 1 en 2 jaar, tussen 2 en 3 jaar, tussen 3 en 4 jaar en 5 of meer jaren werkzaam bij de werkgroep.
3.1.3 Authoritative re-ranking Resultaten die terugkomen van een zoekmachine kunnen nog worden verbeterd. Genoegen nemen met de eerste zoekopdracht is niet nodig. Een manier om de resultaten te verbeteren is door de resultaten te herschikken. Hierbij heb je dezelfde zoekopdracht en dezelfde resultaten, maar zorgt het herschikken voor een andere volgorde van de zoekresultaten. Hierbij is het doel dat de meest relevante documenten hoger in de resultatenlijst komen te staan. Authoritative re-ranking is een methode die gebruik maakt van een automatische gegenereerde expertise-scores om dit te verwezenlijken. Er zijn nog andere manieren om bestaande zoekresultaten te verbeteren waaronder query expansion. Hierbij wordt de bestaande zoekopdracht uitgebreid met relevante woorden met als doel de zoekresultaten te verbeteren. In dit onderzoek wordt echter specifiek aandacht besteed aan de authoritative re-ranking methode.
Uit de documenten in de testcollectie worden termen geëxtraheerd die een hoogonderscheidend vermogen hebben. Deze termen wijzen in zekere mate naar de betreffende auteur(s). Een document is immers geschreven door één of meer auteurs en is hierdoor aan hen gekoppeld. Als een term in zekere mate naar een document wijst, dan wijst het dus ook naar de betreffende auteur(s). Gewichten worden berekend die weergeven hoe sterk een bepaalde term representatief is voor het werk van de bepaalde auteur. Zo kan een term sterker wijzen naar auteur A dan naar auteur B. Voor de berekening van de expertise-score zijn de geëxtraheerde termen dus van groot belang. Aan de hand van de berekende expertise-scores worden de zoekresultaten herschikt. De betreffende zoekopdracht wordt opgesplitst in afzonderlijke termen. De gewichten worden opgehaald uit een matrix met alle gewichten voor alle mogelijke auteur-termcombinaties. Hiervan wordt het gemiddelde genomen en daarmee wordt de expertscore berekend. Aan de hand van deze score worden de zoekresultaten herschikt waarbij documenten van experts hoger worden ingeschaald.
3.2 Methode Er is gekozen om een vragenlijst te ontwikkelen waarmee de expertise van mensen in kaart kan worden gebracht. Dit is een veel gebruikte manier om expertise van mensen in kaart te brengen en kan uit verschillende onderdelen met verschillende soorten vragen bestaan. Om de authoritative re-ranking methode te kunnen evalueren is gekozen om de inzichten uit de sociale netwerk analyse hierin te verwerken. Hiermee werd geprobeerd een goed beeld van de experts in de werkgroep te bepalen dat kan worden vergeleken met de automatische expertise-extractie. Een vragenlijst moet aan een aantal voorwaarden voldoen wil deze in de regel goed worden ontvangen en bruikbare resultaten opleveren. Ten eerste dient de populatie duidelijk gedefinieerd te zijn. Hiernaast dient de steekproef de populatie te weerspiegelen. Het is hierbij noodzaak dat de respondenten de gevraagde informatie paraat hebben en de antwoorden zinvol zijn voor het beantwoorden van de onderzoeksvragen. In dit onderzoek zijn de werkgroepleden van de ILK werkgroep de deelnemers. Er werd verondersteld dat zij in voldoende mate elkaars expertise kunnen beoordelen en de eigen expertise kunnen verwoorden in termen. In totaal dragen vier verschillende onderdelen in de vragenlijst bij aan de evaluatie van de authoritative re-ranking methode en het beantwoorden van de onderzoeksvragen gesteld in dit onderzoek. Voor het ontwikkelen van de vragenlijst is gebruik gemaakt van de enquête ontwikkelomgeving die beschikbaar is op http://www.studentenonderzoek.com. Om de onderzoeksvragen te beantwoorden en het systeem te evalueren zijn vier verschillende onderdelen in de vragenlijst verwerkt die afzonderlijk zijn beschreven.
3.2.1 Onderdeel A In het onderzoek van Bogers en Van den Bosch (2005) werden termen uit documenten geëxtraheerd en gebruikt om auteurs van elkaar te onderscheiden. Termen met een hoog onderscheidend vermogen dragen hierdoor bij aan de expertisescore van een auteur.
Figuur 3.1: Screenshot van onderdeel A van de vragenlijst.
Aangezien er in dit onderzoek werd geprobeerd een goede afspiegeling van de werkelijke expertise te krijgen, is in het eerste onderdeel van de vragenlijst de vraag gesteld om de eigen expertise te verwoorden in termen. Figuur 3.1 toont een screenshot van dit onderdeel van de vragenlijst. Met behulp van deze termen kon in zekere mate worden geëvalueerd in hoeverre de authoritative re-ranking methode deze termen extraheert uit de wetenschappelijke publicaties. Naast het extraheren van deze termen is het ook interessant om te zien in hoeverre de gewichten hieraan worden toegekend. Dit zijn namelijk dé termen die volgens de werkgroepleden de eigen expertise weergeven.
3.2.2 Onderdeel B In het tweede onderdeel van de vragenlijst werd beoordeeld in hoeverre de geëxtraheerde termen daadwerkelijk geassocieerd worden met de expertisegebieden van de eigenlijke auteur. De werkgroepleden kregen elk een tweetal gepersonaliseerde termenlijsten ter beoordeling aangeboden. Beide termenlijsten bestonden uit de top twintig van gerankte termen die volgens de computer een hoog onderscheidend vermogen hadden. Er is gekozen voor de top twintig gerankte termen om de repetitiviteit van het soort vraag te beperken zodat de lijsten zorgvuldig en zo correct mogelijk worden ingevuld. Het verschil tussen beide termenlijsten was de manier waarop ze zijn verkregen door de computer en het aantal geëxtraheerde termen waaruit de termenlijst bestond. De eerste termenlijst (hierna termenlijst ‘optimaal’) bestond uit 1884 termen en werd gegenereerd aan de hand van de ‘optimale’ instellingen voor de combinatie van het berekenen van de expertscore en het re-ranken van de zoekresultaten. Deze combinatie leverde de beste performance in het onderzoek van Bogers en Van den Bosch (2005). Er is echter geen bewijs dat de manier van expertscore berekenen zelf optimaal was; alleen dat de combinatie van expertise-extractie en het herschikken van de zoekresultaten optimaal
was. Met dit onderdeel van de vragenlijst werd geprobeerd te bepalen of de geëxtraheerde temen ook daadwerkelijk geassocieerd werden met de expertise van de werkgroepleden. De tweede termenlijst (hierna termenlijst ‘streng’) bestond uit slechts 273 termen die de hand van strengere instellingen van het systeem werden geëxtraheerd aan. Er is gekozen om strengere instellingen te gebruiken omdat termenlijst ‘optimaal’ niet alleen is samengesteld om de optimale expertscore te berekenen, maar ook om de resultaten zo optimaal mogelijk te herschikken. Door onder andere hogere drempels voor het selecteren van de termen te nemen en naast bigrammen ook trigrammen9 toe te laten, is geprobeerd een termenlijst te creëren die meer overeenkwam met de expertiseassociaties die de werkgroepleden leggen.
Figuur 3.2: Screenshot van onderdeel B van de vragenlijst.
Figuur 3.2 toont een screenshot van onderdeel B van de vragenlijst. De twee termenlijsten zijn ieder afzonderlijk, maar op dezelfde wijze aangeboden ter beoordeling. Elke term kon beoordeeld worden van “very weak” tot “very strong” waarmee werd aangegeven in hoeverre de term gerelateerd was aan de eigen expertise.
9
Een bigram is een voorkomende combinatie van twee opeenvolgende woorden zoals “memory based”. Een trigram is een voorkomende combinatie van drie opeenvolgende woorden zoals “natural language processing”.
Instellingen termenlijsten De termen werden geselecteerd aan de hand van de instellingen die in de onderstaande tabel zijn weergegeven. Hierin zijn de ‘optimale’ instellingen en de ‘strengere’ instellingen van het systeem beschreven. Met lokaal wordt bedoeld dat bij een drempel van 3x alle termen minstens 3x in een document voor moeten komen, anders worden ze uit de lijst verwijderd. Na deze automatische filteractie staan er in geen enkel document meer termen die maar 2x voorkomen. Globaal wil zeggen dat een term, geteld over alle woorden in de hele collectie, minstens een x aantal keer moet voorkomen.
Woorden Komen minstens x maal lokaal voor Komen minstens x maal globaal voor Komen minstens in x documenten voor Bigrammen Komen minstens x maal lokaal voor Komen minstens x maal globaal voor Komen minstens in x documenten voor Trigrammen Komen minstens x maal lokaal voor Komen minstens x maal globaal voor Komen minstens in x documenten voor Diverse Filteren van stopwoorden Filteren van getallen
Optimale instellingen
Strengere instellingen
1x 2x 2x
3x 4x 2x
1x 5x 2x
2x 3x 2x
Nee Nee Nee
2x 3x 2x
Ja Nee
Ja Ja
Tabel 3.2: De optimale en strengere instellingen van het systeem waarmee de termen zijn geëxtraheerd.
Bij de strengere instellingen is er gekozen om getallen en woorden in combinatie met getallen te filteren omdat er aangenomen werd dat deze de expertise van een ILK-lid niet kunnen weergeven. De termenlijst die voortkwam uit de optimale instellingen bevat deze wel. Die instellingen zijn ongemoeid gelaten om een vergelijking tussen de oorspronkelijke optimale instellingen met strengere instellingen mogelijk te maken. Een termenlijst die automatisch wordt gegenereerd door de computer bevat altijd enige mate van ruis, woorden die eigenlijk niet in de lijst moeten voorkomen. Dit komt omdat een computer en de extractie methodes niet perfect zijn. Voorbeelden van ruis zijn bijvoorbeeld emailadressen, persoonsnamen of plaatsnamen. Dit zijn weliswaar woorden die in alle publicaties voorkomen en uniek wijzen naar de auteur, maar niets zeggen over de expertise. Om de meest systematisch voorkomende ruis eruit te filteren zijn handmatige filters geschreven.
Het is mogelijk om met behulp van de computer dit in zekere mate automatisch te doen, maar aangezien slechts de top twintig termen van elke termenlijst ter beoordeling werden voorgelegd is ervoor gekozen om dit handmatig te doen. Door de gegenereerde termenlijsten te analyseren zijn de filters uit tabel 3.3 opgesteld. Beide termenlijsten zijn op dezelfde manier behandeld waardoor de resultaten met elkaar vergeleken konden worden zonder dat hierbij een termenlijst bevooroordeeld werd. Regel
Omschrijving
Voorbeeld
1
Filteren van persoonsnamen
Bogers
2
Filteren van plaatsnamen
Tilburg
3
Filteren van organisatienamen
ILK
4
Filteren van niet-Engelse termen
Universiteit
5
Filteren van substrings
6
Filteren van termen met een punt
ilk.uvt.nl
7
Filteren van termen met een underscore
NUMBER_TOKEN_LIST
10
Zie voetnoot 11
Tabel 3.3: De opgestelde filters waarmee getracht werd ruis in de termenlijsten tot een minimum te beperken.
De termen die na het filterproces overbleven, bevatten door de filters minder ruis en werden ter beoordeling aangeboden aan de werkgroepleden. Het is hierbij interessant om te zien in welke mate de beoordelingen van de werkgroepleden correleren met die van de computer.
3.2.3 Onderdeel C Het derde onderdeel van de vragenlijst bestond uit een beoordeling van de eigen publicaties die opgenomen zijn in de testcollectie. In het onderzoek van Bogers en Van den Bosch (2005) werd de aanname gesteld dat publicaties van een auteur veelzeggend zijn voor de expertise van de betreffende auteur. In dit onderzoek werden de eigen publicaties aan de desbetreffende werkgroepleden ter beoordeling aangeboden om te beoordelen in hoeverre deze aanname gevolgd kon worden. Aangezien het aantal publicaties per werkgroeplid verschilt, werden per werkgroeplid maximaal 15 publicaties getoond waarbij elke publicatie afzonderlijk beoordeeld moest worden. Dit aantal is gekozen, omdat het anders een erg repetitief onderdeel werd. Als een werkgroeplid minder publicaties in de testcollectie heeft, werden alle publicaties van hem of haar ter beoordeling aangeboden. Er werd in deze gevallen geen onderscheid gemaakt in de positie van de auteur binnen de publicatie.
10
Met filteren van substrings worden termen bedoeld die een lagere gewicht in de termenlijst hebben dan hun superstring. Bijvoorbeeld als ‘named entity’ een hoger gewicht heeft dan ‘named’, wordt deze laatste term weggefilterd. De substring komt dan immers alleen voor als onderdeel van een langere string).
In tabel 3.4 zijn het aantal publicaties en de relatieve positie van de auteur binnen deze publicaties genoteerd. Naam
Aantal publicaties
Positie auteurnaam 1e
2e
Drs. Toine Bogers
4
3
Dr. Antal van den Bosch
87
21
36
Drs. Bertjan Busser
6
4
1
Drs. Sander Canisius
5
2
2
114
44
39
Prof. dr. Walter Daelemans
3e
4e
5e
6e
1 11
18
1 1
1 22
Drs. Marieke van Erp
4
Dr. Piroska Lendvai
11
11
Dr. Erwin Marsi
5
4
Dr. Martin Reynaert
4
2
Dr. Caroline Sporleder
6
6
Dr. Iris Hendrickx
9
6
1
1
Dr. Erik Tjong Kim Sang
13
8
2
2
7
1
1
4 1 1
1 1 1
Tabel 3.4: Per auteur zijn het aantal publicaties en de relatieve auteurpositie genoteerd.
Twee werkgroepleden bezitten meer dan 15 publicaties in de ILK testcollectie. Om ervoor te zorgen dat de onderlinge verhouding van auteurpositie hierbij gelijk blijft, zijn per werkgroeplid 15 publicaties, met inachtneming van de verhouding van de auteurspositie, willekeurig geselecteerd. Op een 5-punts Likert schaal konden de werkgroepleden de publicaties beoordelen waarvan zij auteur zijn. Het lijkt een logisch gegeven dat publicaties van auteurs de expertise weergeven, een publicatie is immers het cumulatief van een onderzoek dat verricht is door de auteur(s), dat de aard van het onderzoek beschrijft en de resultaten weergeeft. Echter is een publicatie vaak geschreven door meerdere auteurs. Hierdoor kan het aandeel dat gewerkt is aan de publicatie en het onderzoek per auteur verschillen en mede bepalend zijn voor de mate waarin een auteur expertise bezit. Onderzoek waarin de relatie wordt gelegd tussen contributie aan een publicatie en de auteurspositie binnen de publicatie toont in de medische wereld aan dat gift authorship een probleem vormt [13]. Hiermee wordt bedoeld dat auteurs worden toegevoegd aan een publicatie zonder dat ze hier expliciet aan hebben bijgedragen. Dit werd bevestigd in de fysische wereld door het onderzoek van Tarnow (2002). Auteurs werden gevraagd om het aantal aangewezen coauteurs op hun laatste gepubliceerd document te beoordelen. De resultaten toonden aan dat de eerste of tweede coauteur meer aangewezen werden dan een derde of verdere genoteerde coauteur.
Figuur 3.3: Screenshot van onderdeel C van de vragenlijst.
Naast de beoordeling van de eigen publicaties werd de vraag gesteld in hoeverre wetenschappelijke publicaties de expertise van de auteur kunnen weergeven zoals weergegeven in figuur 3.3. Deze vraag werd gesteld om de meningen van de werkgroepleden over wetenschappelijke publicaties als bron van expertise te peilen.
3.2.4 Onderdeel D Het vierde onderdeel van de vragenlijst werd gebruikt om experts in de context van een specifieke taak te beoordelen. Dit onderdeel maakt gebruik van het idee achter de sociale netwerk analyse zoals Stein (1997) deze noemt in zijn onderzoek. Bij sociale netwerk analyse dient de onderzoeker eerst de relaties te selecteren die hij in kaart wil brengen. De relaties die in dit onderzoek in kaart worden gebracht zijn de relatie tussen de bestaande query’s en de experts die hierbij horen. Het aanbieden van een query aan het systeem levert een gerangschikte lijst met experts op. Zo ook het aanbieden van een query aan de werkgroepleden. Aan de hand hiervan werd geanalyseerd in hoeverre de expertiselijsten overeenkomen. De aanname bij dit onderdeel van de vragenlijst was dat de beoordelingen van de werkgroepleden een correcte lijst van experts per query oplevert. Er werd aangenomen dat de werkgroepleden per query kunnen aangeven wie de experts zijn en dat ze onderscheid kunnen maken tussen experts wanneer ze meer dan 1 expert selecteren. Deze lijst werd beschouwd als de zogeheten gold standard, d.w.z. de standaard die als 100% correct aangenomen werd tijdens de evaluatie. Dit betekent dat de expertiseoordelen van de ILK-leden werden beschouwd als meetlat waarmee de automatische expertise-extractie geëvalueerd kon worden. Alhoewel dit een aanname was, is er in het onderzoek van McDonald (2002) bewijs gevonden om aan te kunnen nemen dat leden van een werkgroep elkaars expertise goed kunnen beoordelen.
De ILK testcollectie bevat 80 query’s geformuleerd in de natuurlijke taal. Per query werd in het onderzoek van Bogers en Van den Bosch (2005) bepaald welke documenten relevant zijn. Hiermee werd ook impliciet aangegeven welke auteurs betrekking hebben op de query’s, namelijk de auteurs waarvan de documenten als relevant zijn bestempeld.
Figuur 3.4: Screenshot van onderdeel D van de vragenlijst.
In dit onderzoek zijn uit deze 80 query’s willekeurig 10 query’s geselecteerd en aan de werkgroepleden aangeboden ter beoordeling. Zie bijlage 4.1 voor een overzicht van de geselecteerde query’s. Op deze manier kon per query worden geanalyseerd in hoeverre de resultaten van het systeem overeenkwamen met de experts die volgens de werkgroepleden behoren bij de query, zonder dat het geheel te repetitief werd. Figuur 3.4 toont een query uit het onderzoek en de manier waarop elke query ter beoordeling werd aangeboden aan de werkgroepleden.
Hoofdstuk 4
Resultaten De resultaten sectie is opgedeeld in vier onderdelen. De vier onderdelen zijn gelijk aan de onderdelen van de vragenlijst en behandelen de resultaten die voortkwamen uit de vragenlijst en de behandelwijze van de vragen. Van de twaalf werkgroepleden hebben tien werkgroepleden deelgenomen aan het onderzoek en de vragenlijst ingevuld. Dit betekent een response rate van 86,7%.
4.1 Onderdeel A De termen die voortkwamen uit onderdeel A zijn per werkgroeplid en als werkgroep in zijn geheel geanalyseerd. Op deze manier werd gekeken of de termen, die volgens de auteurs een hoog onderscheidend vermogen hebben, ook daadwerkelijk werden opgehaald door het systeem. Hiernaast is geanalyseerd op welke positie deze termen voorkwamen, omdat het gewicht dat wordt toegekend aan een term bepalend is voor het onderscheidend vermogen van de term per auteur volgens het systeem. Er is op drie manieren gekeken naar de genoteerde termen. Met een exacte match wordt bedoeld dat de genoteerde term exact voorkwam in de termenlijst zoals het werkgroeplid hem genoteerd had. Met een AND-match wordt bedoeld dat na het opsplitsen van de genoteerde term in afzonderlijke woorden, alle woorden van de genoteerde term afzonderlijk voorkwamen in de termenlijst. Bij een OR-match is het voldoende als een van deze opgesplitste woorden voorkwam in de termenlijst. Hierbij werd aangenomen dat de scores bij een OR-match hoger zullen liggen dan bij een AND-match en dat deze op hun beurt weer hoger zal liggen dan bij een exacte match. Analyse Er zijn in totaal 69 termen genoteerd door de werkgroepleden met een gemiddelde van 7 termen per werkgroeplid en een standaardafwijking van 3,29. In de vragenlijst werd gevraagd om minimaal 5 termen te noteren die de werkgroepleden met de eigen expertise associëren en negen van de tien werkgroepleden noteerden 5 of meer termen. Eén werkgroeplid noteerde 4 termen en één werkgroeplid noteerde zelfs 13 termen die met de eigen expertise geassocieerd werden. In bijlage 1.3 staat een overzicht van de genoteerde termen, welke termen voorkomen in de termenlijsten en op welke positie in de automatische geëxtraheerde termenlijsten. De termen komen zoals deze exact genoteerd zijn weinig voor in de termenlijsten zoals weergegeven in figuur 4.1. Slechts 22% van de termen komt exact voor in de termenlijst die gegenereerd is aan de hand van de optimale instellingen. De strengere instellingen scoren hierbij iets beter, 28% van deze termen komt exact voor in deze termenlijst.
Het analyseren van de afzonderlijke woorden die genoteerd zijn door de werkgroepleden levert andere resultaten op. De genoteerde termen zijn opgesplitst in afzonderlijke woorden wat in totaal 139 woorden opleverde. Bij het analyseren is een “-“ zoals in de term “memorybased” genegeerd en zijn de woorden “memory” en “based” als afzonderlijke woorden gezien. Het opsplitsen van de termen levert een sterke verbetering op zoals weergegeven in figuur 4.1. De AND-match is sterk verbeterd bij de optimale termenlijst. Hierbij komt gemiddeld 74% van de opgegeven woorden voor. Termenlijst ‘streng’ laat een kleine terugval zien in score bij de AND-match. Dit strookt niet met de intuïtie, omdat een exacte match logisch gezien het moeilijkste zou moeten zijn om te vinden. Daarbij moet immers alles exact voorkomen, terwijl dit bij een AND-match niet hoeft, zolang de woorden maar afzonderlijk voorkomen. Een mogelijke verklaring hiervoor is dat de termen uit de termenlijst ‘streng’ aan de hand van het filteren van substrings zijn geëxtraheerd. De termen die hierdoor zijn weggefilterd zouden anders wellicht de scores voor de AND-match en OR-match hebben beïnvloed. Als bijvoorbeeld ‘A B’ 5x voorkomt, worden ‘A’ en ‘B’ alleen maar bewaard als ze minstens 6x voorkomen. Anders worden ze weggefilterd. Dit betekend dat er termen worden weggehaald, die anders wellicht gevonden zouden kunnen worden als AND-match of OR-match.
Figuur 4.1: Weergave van de exacte, AND- en OR-match genoteerd per termenlijst.
Wat verder opvalt aan termenlijst ‘optimaal’ is dat deze alleen slechter scoort bij een exacte match. In beide andere categorieën AND-match en OR-match scoort termenlijst ‘optimaal’ beter en bij de AND-match zelfs meer dan tweemaal zo hoog. Het is niet verwonderlijk dat de AND-match bij termenlijst ‘optimaal’ veel beter scoort dan termenlijst ‘streng’ gezien het verschil in aantal termen. Wat wel opvalt, is dat er slechts een klein verschil tussen beide resultaten zit bij de OR-match. Een mogelijke verklaring is de manier waarop de OR-match werd bepaald. Gezien slechts 1 woord van een genoteerde term in de termenlijst hoeft voor te komen voor een positieve OR-match.
Termposities De termen die voorkomen in de termenlijst zijn per auteur verschillend gerangschikt en bevatten een verschillend gewicht. Dit gewicht bepaalt in hoeverre een term representatief is voor een auteur. Naast het analyseren of de genoteerde termen door de werkgroepleden voorkomen in de termenlijsten zijn ook de termposities genoteerd. Een term die hoog in de termenlijst voorkomt, bijvoorbeeld op positie 10 wijst meer naar een auteur dan een term die voorkomt op positie 200. Aangezien de termen die genoteerd zijn door de werkgroepleden geassocieerd worden met de eigen expertise zouden deze termen hoog in de termenlijst moeten voorkomen. Om dit te beoordelen zijn de gemiddelde termpositie per auteur per termenlijst berekend. Per termenlijst zijn deze waardes opgeteld en hiervan is het gemiddelde berekend. Door dit gemiddelde te delen door het totaal aantal termen in de termenlijst kan worden afgeleid welke termenlijst beter presteert op het gebied van termpositie toekenning met betrekking tot de genoteerde termen. In tabel 4.1 zijn de gemiddelde termposities weergegeven. Naam
Termenlijst ‘optimaal’
Termenlijst ‘streng’
Drs. Toine Bogers
138,63
35,8
Dr. Antal van den Bosch
493,3
82,92
Drs. Bertjan Busser
677,33
73
Drs. Sander Canisius
270,17
61
Prof dr. Walter Daelemans
295,43
77,82
Drs. Marieke van Erp
151,33
81,14
169
79,76
Dr. Martin Reynaert
698,44
155,25
Dr. Caroline Sporleder
473,25
162,6
248
96,2
Gemiddelde
361,49
90,55
Totaal score
0,19
0,33
Dr. Erwin Marsi
Dr. Iris Hendrickx
Tabel 4.1: De gemiddelde termposities per auteur berekend.
In eerste instantie lijken de posities voor de termen uit termenlijst ‘optimaal’ slechter te worden bepaald doordat deze gemiddeld genomen een veel hoger positienummer hebben (361,49) dan de termen uit termenlijst ‘streng’ (90,55). Echter doordat het aantal termen per termenlijst sterk van elkaar verschilt kunnen deze twee posities niet zomaar met elkaar vergeleken worden. Eerst moeten deze waardes gedeeld worden door het aantal termen uit de termenlijst. Hiermee kan worden beoordeeld welke instellingen van het systeem het beste de relatieve posities van de genoteerde termen heeft bepaald. Voor termenlijst ‘optimaal’ wordt op deze manier een gemiddelde score berekend van 0,19 en voor termenlijst ‘streng’ een gemiddelde score van 0,33. Uit deze scores kan worden afgeleid dat de optimale instellingen, qua toekenning van de termposities, beter presteert bij de genoteerde termen van de werkgroepleden dan de strengere instellingen van het systeem.
4.2 Onderdeel B In het tweede onderdeel van de vragenlijst werden de expertisetermen in de automatische geëxtraheerde termenlijsten direct geëvalueerd. Hiertoe werden van beide lijsten de twintig meest veelzeggende termen ter beoordeling voorgelegd aan de ILK-leden. Deze in totaal 40 termen werden geselecteerd na de handmatige filterprocedure (voor een complete beschrijving van de filterregels, zie sectie 3.2.2, tabel 3.3). Beoordeling Elke term uit de top 20 van beide lijsten werd door de werkgroepleden beoordeeld op een 5punts Likert schaal. Deze loopt van 1 tot 5 waarbij termen die erg zwak geassocieerd zijn met de expertise een “1” en termen die erg sterk geassocieerd zijn met de expertise van een werkgroeplid een “5” krijgen. De vraag die gesteld werd: ”Please rate each of the keywords on how well you think they are related to your expertise.”. Aan de hand van de beoordelingen van de werkgroepleden kan in zekere mate worden beoordeeld in hoeverre de top twintig aan termen die zijn opgehaald door het systeem en een hoog onderscheidend vermogen hebben overeenkomen met de beoordeling van de eigenlijke experts, de werkgroepleden. Analyse Dit onderdeel van de vragenlijst maakte ook gebruik van beide termenlijsten geëxtraheerd door het systeem. Hierbij werden de twintig termen met het hoogst onderscheidend vermogen (volgens het systeem) per termenlijst ter beoordeling aangeboden. Door gebruikt te maken van de opgestelde filterregels werden termen met een laag onderscheidend vermogen zoals plaatsnamen en niet Engelse termen handmatig gefilterd. In de onderstaande tabel zijn de gemiddelde scores van de 20 termen genoteerd. Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Gemiddelde
Termenlijst ‘optimaal’ Gemiddelde Spreiding 2,05 1,47 2,8 1,7 4 0,79 3,6 1 3,6 1,31 4,1 0,97 3,1 1,44 3 1,12 3,2 1,44 2,6 1,73 3,21
1,30
Termenlijst ‘streng’ Gemiddelde Spreiding 1,7 1,22 2,8 1,64 4 0,72 3,25 1,41 3,5 1,64 4,2 0,83 3,65 1,35 3,75 0,96 3,8 1,1 3,85 1,27 3,45
1,21
Tabel 4.2: De gemiddelde scores en de standaarddeviatie (spreiding) van de twintig beoordeelde termen per termenlijst.
Beide termenlijsten geven een nagenoeg gelijke gemiddelde beoordeling als werkgroep gezien en verschillen slechts in kleine mate. Termenlijst ‘streng’ werd enigszins beter beoordeeld door de werkgroepleden dan de termenlijst die voortkwam uit de optimale
instellingen van het systeem. De standaarddeviatie bij termenlijst ‘optimaal’ is groter dan bij termenlijst ‘streng’ (gemiddeld 1,30 vs. 1,21). Dit betekent dat de gegeven beoordelingen van de termen door de werkgroepleden meer van elkaar verschillen bij termenlijst ‘optimaal’ dan bij termenlijst ‘streng’. Ook is er geanalyseerd in hoeverre deze termen slecht (beoordeling “1” en “2”), gemiddeld (beoordeling “3”) en goed (beoordeling “4” en “5”) geassocieerd worden met de eigen expertise volgens de werkgroepleden. Voor termenlijst ‘optimaal’ werd van de beoordeelde termen 47% goed, 24,5% gemiddeld en 28,5% slecht geassocieerd met de eigen expertise. Voor termenlijst ‘streng’ werd van de beoordeelde termen 56,5% goed, 19% gemiddeld en 28,5% slecht geassocieerd met de eigen expertise. Hieruit blijkt dat termenlijst ‘streng’ beter werd beoordeeld dan termenlijst ‘optimaal'met betrekking tot de geëxtraheerde top twintig aan termen. Een mogelijke verklaring kan gevonden worden door te kijken naar de instellingen van het systeem bij het automatisch extraheren van de termen. Voor termenlijst ‘streng’ waren de instellingen strenger dan bij termenlijst ‘optimaal’ waardoor het mogelijk is dat er minder ruis in termenlijst ‘streng’ heeft gezeten. Termen die bijvoorbeeld zijn opgenomen omdat ze net vaak genoeg voorkwamen zijn bij de strengere instellingen van het systeem niet opgenomen. Een tweede mogelijke verklaring hiervoor kan gevonden worden in de soort termen die de ILK-leden zelf hadden genoteerd. Hiervan is gemiddeld 20,2% een enkel woord, 59,3% een bigram en 20,5% een trigam. Doordat de instellingen waarmee de termen worden geëxtraheerd voor beide termenlijsten verschillen, komen in termenlijst ‘streng’ trigrammen voor en aangezien de instellingen voor de selectie van bigrammen anders zijn ingesteld, komen bigrammen in termenlijst ‘streng’ vaker voor dan in termenlijst ‘optimaal’. Door de beoordeling van alle termen uit termenlijst ‘streng’ te verdelen in drie categorieën (enkel woord, bigram en trigram), deze beoordelingen te sommeren en te delen door het totaal aantal genoteerde termen uit die categorie ontstond een beeld van de gemiddelde beoordeling per categorie. Van de beoordeelde termen uit termenlijst ‘optimaal’ was 98,5% een term die bestond uit een enkel woord en 1,5% een term die bestond uit een bigram. Voor termenlijst ‘streng’ was 74% een term dat bestond uit een enkel woord, 20,5% een bigram en 5,5% een trigram. Uit analyse bleek dat de trigrammen uit de top twintig aan termen beter werden beoordeeld (4 uit maximaal 5) dan bigrammen (3,86 uit maximaal 5) en dat deze weer beter werden beoordeeld dan enkele woorden (3,29 uit maximaal 5) in termenlijst ‘streng’. Een mogelijke verklaring voor de betere beoordeling van termenlijst ‘streng’ kan gevonden worden in het feit dat deze termen beter overeenkwamen met de soort termen die de ILKleden zelf gebruikten voor het weergeven van de eigen expertise in termen.
4.3 Onderdeel C Om te achterhalen of de publicaties binnen de werkgroep een goede bron zijn om de expertise van de werkgroepleden te achterhalen is gekozen om (een gedeelte van) de bestaande publicaties in de testcollectie voor te leggen aan de eigenlijke werkgroepleden.
Hiernaast werd de vraag gesteld in welke mate wetenschappelijke publicaties volgens de werkgroepleden de expertise kunnen weergeven. Analyse Een aanname uit het onderzoek van Bogers en Van den Bosch (2005) stelt dat de publicaties van een auteur een goede bron zijn voor het bepalen van de expertise. Om dit te onderzoeken zijn per ILK-lid de eigen publicaties ter beoordeling op een 5-punts Likert schaal aangeboden. Het aantal publicaties per ILK-lid in de testcollectie verschilt waarbij twee werkgroepleden veel meer publicaties hebben geschreven.
Figuur 4.2: Het aantal publicaties per auteur uit de testcollectie.
Om ervoor te zorgen dat dit onderdeel van de vragenlijst niet te repetitief werd en veel langer zou duren voor deze twee werkgroepleden, in vergelijking met de andere werkgroepleden, is besloten om niet meer dan 15 publicaties aan te bieden ter beoordeling. Hierbij is geprobeerd de auteurspositie zoveel mogelijk gelijk te houden aan de bestaande verhouding bij het willekeurig selecteren van de publicaties oftewel als bij 20% van de publicaties van een werkgroeplid het werkgroeplid als 1e auteur staat vermeld dan wordt ook 20% van de 15 aangeboden publicaties dus 3 publicaties random geselecteerd en aangeboden ter beoordeling. Met een gemiddelde beoordeling door de ILK-leden van 4,16 (waarbij ‘5’ de maximale score is) kan worden geconcludeerd dat de eigen publicaties goed beoordeeld zijn. Publicaties worden gezien als een goede bron van de eigen expertise. Bij deze gemiddelde beoordeling is echter geen rekening gehouden met de auteurspositie in de verschillende publicaties. Deze kan namelijk van invloed op de bijdrage die geleverd is aan de publicatie volgens Tarnow (2002) en deze kan ook van invloed zijn op de beoordeling van een publicatie als vertegenwoordiger van de eigen expertise.
Auteurposities Uit figuur 4.3 valt op te merken dat de auteurspositie in zekere mate van invloed zijn op de beoordeling van de publicaties. De vier auteurs met opeenvolgende auteurpositie beoordelingen zijn opgenomen in dit figuur. Naarmate een auteur op een lagere positie als auteur werd vermeld werd deze ook slechter beoordeeld door de auteur. Dit komt overeen met de resultaten uit het onderzoek van Tarnow (2002). Echter doordat er slechts voor 4 auteurs publicaties met opeenvolgende auteurpositie vermeldingen zijn beoordeeld is dit slechts een aanwijzing. Ook het feit dat er gemiddeld meer publicaties zijn beoordeeld waarbij een auteur hoger op de auteurposities staat vermeld dan publicaties waarbij deze op een lagere auteurspositie wordt genoemd kan van invloed zijn op de beoordelingen.
Figuur 4.3: De beoordeling van de publicaties in relatie tot de auteurposities.
Hiernaast is in dit onderdeel van de vragenlijst de vraag gesteld of publicaties in het algemeen een goede bron zijn voor het bepalen van iemands expertise. In principe gebeurde dit al impliciet bij de beoordeling van de eigen publicaties, maar dit houdt niet in dat beide beoordelingen gelijk hoeven te zijn. Met een gemiddelde beoordeling van de ILK-leden van 3,5 (waarbij ‘4’ de maximale score is) kan worden geconcludeerd dat publicaties volgens de ILK-leden in het algemeen een goede bron zijn voor het bepalen van iemands expertise.
4.4 Onderdeel D Door bestaande zoekopdrachten, die gebruikt zijn in het onderzoek van Bogers en Van den Bosch (2005), ter beoordeling aan de ILK-leden aan te bieden werd getracht een goed beeld te krijgen van de werkelijke experts per zoekopdracht. Uit de 80 bestaande zoekopdrachten werden willekeurig 10 zoekopdrachten gekozen die ter beoordeling zijn aangeboden aan de ILK-leden. Hierbij werd gevraagd om aan te geven wie zij beschouwden als experts op het gebied van de zoekopdracht en hierin teven een rangschikking in aan te brengen, m.a.w. wie is de grootste expert, wie is de op een na grootste, enz. Door gebruikt te maken van deze beoordelingen is een gold standard expertlijst gecreëerd waarmee de automatische geëxtraheerde expertlijst van het systeem vergeleken kon worden.
Mean Reciprocal Rank en Normalized Reciprocal Rank Per zoekopdracht konden de werkgroepleden meerdere experts aanwijzen en onderscheid tussen de aangewezen experts maken door ze te ranken. In bijlage 4.2 zijn de oordelen van de ILK-leden per zoekopdracht opgenomen. Het optellen van de stemmen per expert is de simpelste methode waarmee onderscheid tussen de experts kan worden aangetoond. Een expert die vaker geselecteerd wordt door de werkgroepleden wordt meer gezien als expert op het onderwerp van de query en zal waarschijnlijk over meer expertise beschikken dan experts die minder geselecteerd worden. Alleen wordt door de oordelen alleen op te tellen geen rekening gehouden met de opgegeven ranking van de experts door de werkgroepleden. Om deze ranking te behouden is gekozen om een metriek te gebruiken die uit de evaluatie van Question Answering (QA) onderzoek stamt, de zogenaamde Mean Reciprocal Rank (MRR) [16]. (4.1)
In QA onderzoek wordt de MRR metriek gebruikt om de kwaliteit van de antwoorden van een QA-systeem te evalueren. De MRR is de gemiddelde geinverteerde rang over alle testvragen berekend. Bijvoorbeeld als de eerste twee antwoorden door het systeem fout zijn en het derde juist dan is de Reciprocal Rank 1/3. De MRR is het gemiddelde over alle vragen. Bij expertise-evaluatie kan de MRR gebruikt worden om voor elke expert een maat te berekenen die weergeeft hoe hoog die expert gemiddeld gerangschikt staat, waarbij de posities verschillende gewogen worden. Tabel 4.3 toont een voorbeeld van rangschikking die uit onderdeel D zou kunnen komen. rang 1 2 3
expert A 2 0 1
expert B 1 3 0
expert X 1 0 0
expert Y 5 0 0
Tabel 4.3: Vereenvoudigde rangschikking van experts in onderdeel D. Expert A wordt in dit voorbeeld 2 keer genoemd als eerste expert en 1 keer als derde expert.
Zo wordt de MRR van experts A en B uit tabel 4.3 als volgt berekend: MRRA = (2 × 1/1) + (0 × 1/2) + (1 × 1/3) / (2 + 0 + 1) = 2.333 / 3 = 0.78 MRRB = (1 × 1/1) + (3 × 1/2) + (0 × 1/3) / (1 + 3 + 0) = 2.5 / 4 = 0.63 MRRx = (1 × 1/1) + (0 × 1/2) + (0 × 1/3) / (1 + 0 + 0) = 1 / 1 = 1 MRRy = (5 × 1/1) + (0 × 1/2) + (0 × 1/3) / (5 + 0 + 0) = 5 / 5 = 1 Expert A heeft een hogere MRR dan expert B en wordt dus hoger als expert ingeschaald. Aan het gebruik van de MRR metriek kleeft echter een nadeel zoals de MRR scores van
expert X en expert Y aantonen: deze zijn beide gelijk aan 1. Dit is contra-intuïtief: expert Y zou met 5 stemmen als grotere expert ingeschaald moeten worden. De oorzaak hiervan ligt in de oorsprong van MRR in QA-evaluatie: verschillende vragen hebben ook een verschillend correct antwoord, die echter wel beiden even correct zijn voor de respectievelijke vragen. Door elke stem voor een expert te beschouwen als een aparte vraag (gekeken vanuit de QA-evaluatie) worden 2 identieke stemmen voor een expert beschouwd als twee complete verschillende gevallen (en dus experts). Er is gekozen om een aangepaste versie van de MRR metriek te berekenen die hier wel rekening mee houdt. Door de som van geinverteerde rangscores (SRR) niet te delen door het aantal stemmen wordt het verschil tussen X en Y in stand gehouden. Om te komen tot een score tussen de 0 en 1 zoals MRR is ervoor gekozen om de reeks van scores te normaliseren. Deze aangepaste versie van MRR wordt Normalized Reciprocal Rank (NRR) genoemd. De NRR voor de experts in tabel 4.3 zou dan als volgt uitgerekend worden. De SRR wordt berekend zoals bij de MRR metriek en levert de volgende reeks scores op: SRRA = 2.33 SRRB = 2.5 SRRX = 1 SRRY = 5 Na normalisatie van deze reeks levert dit de volgende NRR scores op die een realistischer beeld geven van expertiserangschikking: NRRA = 0.38 NRRB = 0.41 NRRX = 0.16 NRRY = 0.81
(3) (2) (4) (1)
Expert Y krijgt door deze berekening de hoogste ranking waarna expert A, B en X volgen. Op deze manier telt de positie in de rangschikking mee in de eindbeoordeling. Hierbij moet wel worden opgemerkt dat expert A een lager score krijgt dan expert B. Dit komt doordat in de NRR formule de combinatie van 1 beoordeling als eerste expert en 3 beoordelingen als tweede expert zwaarder weegt dan 2 beoordelingen als eerste expert en 1 beoordeling als derde expert.
Ranked recall Door het berekenen van de NRR ontstond per zoekopdracht een gerangschikte lijst van de experts. Deze gerangschikte lijst werd gezien als de gold standard waarmee de automatische geëxtraheerde expertlijst werd vergeleken. Er is in het onderzoek geen gebruik gemaakt van Pearson’s r formule, het berekenen van de correlatie tussen beide scores. Hiervoor is niet gekozen omdat de NRR score niet zomaar met de expertscore die voortkomt uit de computer vergeleken kan worden. Ondanks dat de scores op elkaar lijken zijn het verschillende scores die op verschillende manieren zijn berekend. Om een onderlinge vergelijking tussen deze expertlijsten mogelijk te maken is de Ranked Recall (RR) per zoekopdracht berekend.
(4.2)
De RR wordt gebruikt om de kwaliteit van zoekmachine’s te meten en heeft een waarde tussen de 0 en 1. Hiermee wordt bepaald in hoeverre de zoekmachine de relevante documenten ophaalt . In de expertcontext werd de RR gebruikt om te bepalen in hoeverre de gerangschikte expertlijsten met elkaar overeenkwamen. De aanname hierbij was dat de beoordelingen van de ILK-leden en de manier waarop de gold standard-lijst werd gecreëerd (door gebruikt te maken van de NRR) een correcte expertlijst opleverde waarmee de automatische geëxtraheerde expertlijst vergeleken kon worden. In het genoemde voorbeeld waarbij de NRR werd berekend aan de hand van de beoordelingen uit tabel 4.3, ontstond een expertrangschikking die met behulp van de RR berekend kon worden. Als voorbeeld heeft de computer de expertrangschikking zoals weergegeven in tabel 4.4 opgeleverd. Expert
NRR
Computer
Y
1
1
B
2
2
A
3
4
X
4
8
Tabel 4.4: Voor vier experts is de NRR en de expertscore door de computer berekend. Dit heeft de genoteerde rangschikking opgeleverd.
Door de som van de correcte positie (1 t/m 4) te delen door de som van de positie die de computer teruggeeft kan de RR worden berekend. Dus (1 + 2 + 3 + 4) / (1 + 2 + 4 + 8) = 10 / 15 = 0,67. Als de automatische geëxtraheerde expertranking door de computer geheel correct zou zijn, zou de RR gelijk zijn aan ‘1’. Ranked Recall houdt alleen geen rekening met de volgorde van de rangschikking. Als de juiste experts worden opgehaald, maar de volgorde van de rangschikking is minder goed, dan wordt toch dezelfde RR berekend. Immers (1 + 2 + 3 + 4) / (8 + 4 + 2 + 1) = 10 / 15 = 0,67. Alhoewel de verkregen volgorde slechter is, zijn de RR scores gelijk.
Mean Squared Error Doordat de Ranked Recall metriek geen rekening houdt met de volgorde van ranking is hiervoor de Mean Squared Error (MSE) metriek gebruikt. De MSE Metriek berekend het gemiddelde van de gekwadrateerde verschillen tussen de rankings waardoor kan worden geanalyseerd in hoeverre het systeem de juiste volgorde van expertranking heeft bepaald.
(4.3)
In formule 4.3 is de manier waarop de MSE wordt berekend weergegeven. Hierbij is de positie / rang van de rangschikking door de computeren de positie / rang uit de gold standard-lijst. De som van de gekwadrateerde verschillen wordt gedeeld door , het aantal experts. Op te illustreren hoe deze metriek in zijn werk gaat is een onderstaand voorbeeld opgenomen. De beoordelingen van de ILK-leden worden gezien als de gold standard expertlijst. Deze gerangschikte lijst wordt gebruikt om de expertranking van de computer mee te vergelijken. Gold standard 1 2 3 4
A 1 2 3 4
B 1 2 4 3
C 4 2 3 1
D 4 3 2 1
Tabel 4.5: Voor vier zoekopdrachten (A, B, C, D) is door de computer een gerangschikte expertlijst geproduceerd. De gold standard rangschikking komt voort uit het berekenen van de NRR.
In dit voorbeeld is voor vier verschillende zoekopdrachten de MSE berekend. Hierbij geldt dat de berekende MSE score die het dichtste bij de ‘0’ ligt de meest overeenkomende expertranking heeft opgeleverd. De computer heeft voor iedere zoekopdracht een expertranking geleverd zoals weergegeven in tabel 4.5. De expertlijst die de computer heeft gegenereerd komt bij zoekopdracht A het beste overeen met de gold standard expertlijst, hierna bij zoekopdracht B, dan bij zoekopdracht C en tenslotte bij zoekopdracht D. De expertrangschikking van zoekopdracht D komt het minste overeenkomt met de gold standard expertlijst. Dit levert de volgende MSE scores op: MSE Ranking A = ((1-1)^2 + (2-2)^2 + (3-3)^2 + (4-4)^2) = 0+0+0+0 = 0 / 4 = 0 MSE Ranking B = ((1-1)^2 + (2-2)^2 + (3-4)^2 + (4-3)^2) = 0+0+1+1 = 2 / 4 = 0,5 MSE Ranking C = ((1-4)^2 + (2-2)^2 + (3-3)^2 + (4-1)^2) =9+0+0+9 = 18 / 4 = 4,5 MSE Ranking D = ((1-4)^2 + (2-3)^2 + (3-2)^2 + (4-1)^2) =9+1+1+9 = 20 / 4 = 5 Op deze manier kon per zoekopdracht worden berekend in hoeverre de gerangschikte expertlijst, gegenereerd door de computer, overeenkwam met de gold standard.
Analyse De verkregen resultaten uit de vragenlijst en de computer aanpak zijn op drie manieren geanalyseerd. Gestart is met een analyse waarbij deze resultaten individueel zijn behandeld. Voor de resultaten uit de vragenlijst is de NRR berekend per beoordeelde en voor de computer aanpak zijn de expertscores automatisch berekend. Hiernaast zijn de resultaten met elkaar vergeleken door de RR en de MSE per query te berekenen. Resultaten uit de vragenlijst In de tabel 4.6 zijn per query en werkgroeplid de berekende NRR uit de beoordelingen van de ILK-leden weergegeven (afgerond op 2 decimalen). Bijlage 4.2 bevat de expertiseranking uit de vragenlijst die ingevuld zijn door de ILK-leden.
Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang
Query 1 2 0,88 0,33 0,02 0,16 0,20 0,29 0,92 0,05 0,09 0,04 0,06 0,29 0,09 -
Gemiddelde Standaardafwijking
0,26 0,27 0,31 0,32 0,31 0,28 0,23 0,19 0,30 0,26 0,29 0,34 0,36 0,28 0,29 0,23 0,34 0,32 0,37 0,34
3 0,42 0,06 0,89 0,15 0,05 -
4 0,76 0,47 0,24 0,37 0,04 0,03
5 0,02 0,78 0,15 0,54 0,21 0,17
6 0,55 0,61 0,04 0,38 0,06 0,02 0,21 0,36
7 0,20 0,09 0,93 0,27 0,06 0,04 -
8 0,51 0,03 0,01 0,86 0,02 0,01 0,02 0,03
9 0,39 0,08 0,91 0,07 0,06 -
10 0,44 0,02 0,02 0,21 0,87 0,02
Tabel 4.6: De NRR voor ieder ILK-lid per query die voorkomt uit de beoordelingen van de ILK-leden. ILKleden zonder beoordeling hebben geen NRR en dus een ‘-‘. De experts met een hoger dan gemiddelde beoordeling zijn dik gedrukt weergegeven en de experts met een zeer hoge gemiddelde beoordeling zijn grijs gemarkeerd.
Wat opvalt aan de NRR is, dat er bij de beoordeelde query’s gemiddeld slechts 3 experts per query een hoger dan gemiddelde beoordeling kregen toegekend. De ILK-leden geven dus duidelijk hun voorkeur aan bij het beoordelen en ranken van de mogelijke experts. Dit steunt de aanname van Stein (1992) dat mensen een voorkeur hebben voor een bron en dit ook kenbaar kunnen maken. Hiernaast valt op te merken dat er per query (met uitzondering van query 6) slechts één expert een zichtbaar hogere NRR krijgt toegekend. Bij deze query’s wordt de overgrote voorkeur dus gegeven aan één expert, die in tabel 4.6 grijs zijn gemarkeerd. Ook de spreiding tussen de NRR bij de verschillende query’s ligt nagenoeg gelijk. Alleen query 6 heeft een lagere spreiding maar dit komt omdat hier minder groter uitschieters zijn qua NRR score. Over het algemeen kan gesteld worden dat de query’s op een gelijke manier zijn beoordeeld en dat de waardes niet veel van elkaar verschillen.
Resultaten uit de computer aanpak De computer genereert voor iedere auteur een expertscore. Voor alle ILK-leden is deze score in tabel 4.7 weergegeven (afgerond op 2 decimalen). Deze scores zijn met de optimale instellingen van de authoritative re-ranking aanpak gegenereerd. Hieruit blijkt dat er een kleiner onderscheid tussen de experts gemaakt wordt dan bij de beoordeling van de experts door de ILK-leden. Dat de scores in tabel 4.7 lager zijn dan bij de scores uit tabel 4.6 zegt niets over de waarde ervan aangezien deze twee scores niet hetzelfde zijn. Een NRR score is niet hetzelfde als de expertscore berekend door de computer. De vergelijking tussen beide moet op basis van rangschikking plaatsvinden.
Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang Gemiddelde Standaardafwijking
Query 1 0,10 0,15 0,09 0,13 0,13 0,07 0,11 0,11 0,07 0,10 0,18 0,13 0,11 0,03
2 0,08 0,18 0,05 0,09 0,07 0,04 0,09 0,04 0,01 0,06 0,06 0,10
3 0,03 0,12 0,04 0,06 0,16 0,03 0,66 0,09 0,01 0,17 0,09 0,08
4 0,07 0,30 0,19 0,10 0,14 0,05 0,15 0,07 0,04 0,07 0,07 0,18
5 0,15 0,20 0,10 0,13 0,20 0,06 0,09 0,09 0,05 0,09 0,21 0,10
6 0,25 0,10 0,05 0,11 0,24 0,24 0,12 0,05 0,01 0,20 0,21 0,18
7 0,03 0,24 0,02 0,17 0,25 0,03 0,62 0,06 0,01 0,05 0,04 0,09
8 0,14 0,16 0,08 0,14 0,12 0,05 0,11 0,12 0,13 0,07 0,07 0,11
9 0,13 0,11 0,06 0,07 0,16 0,04 0,29 0,07 0,02 0,05 0,10 0,12
10 0,08 0,19 0,05 0,05 0,19 0,05 0,06 0,04 0,05 0,08 0,44 0,08
0,07 0,13 0,12 0,12 0,15 0,14 0,11 0,10 0,11 0,04 0,17 0,08 0,06 0,08 0,18 0,03 0,07 0,12
Tabel 4.7: De expertscore voor ieder werkgroeplid per query die voortkomt uit de resultaten van de computer aanpak. De experts met een hoger dan gemiddelde beoordeling zijn dik gedrukt weergegeven en de experts met een zeer hoge gemiddelde beoordeling zijn grijs gemarkeerd.
Per query zijn er gemiddeld 5 experts die een bovengemiddelde score kregen toegekend. Hieruit valt op te maken dat de computer een minder sterk onderscheid maakt tussen de experts dan de ILK-leden bij de beoordeling in de vragenlijst. Hiernaast valt op te merken dat bij slecht drie query’s (query 3, 7 en 10) duidelijk één expert de voorkeur krijgt. Deze voorkeur wordt overigens wel gedeeld door de NRR score zoals weergegeven in tabel 4.6. De spreiding tussen de scores bij de verschillende query’s ligt bij zeven van de tien query’s nagenoeg gelijk. Echter bij de query’s waarbij de computer een duidelijk onderscheid maakt, query 3,7 en 10, is de spreiding ook logischerwijs groter.
Ranked Recall Ook de Ranked Recall is per query berekend. In tabel 4.8 staat per zoekopdracht de RR weergegeven. Hoe meer de ranking, die uit de automatische geëxtraheerde expertlijst komt, overeenkomt met de gold standard en het berekenen van de NRR, hoe beter de computer de volgorde van de ranking per experts heeft bepaald. Query 1 2 3 4 5 6 7 8 9 10
Ranked Recall 0,90 0,46 0,6 0,7 1 0,94 0,68 0,77 0,6 0,64
Gemiddelde
0,72
Tabel 4.8: De Ranked Recall berekend per query.
Hierbij werden de scores (NRR) uit de vragenlijst per query gerangschikt en werden deze beoordeelde ILK-leden vergeleken met de expertposities die voortkwamen uit de computer. De ILK-leden die geen beoordeling hadden ontvangen en waarvan dus geen NRR is berekend, zijn niet meegenomen in deze vergelijking. Uit de vergelijking tussen beide expertlijsten kan worden afgeleid dat met een gemiddelde RR van 0,72 de expertlijsten redelijk op elkaar lijken. De computer heeft dus voor deze zoekopdrachten redelijk goed de experts opgehaald aan de hand van de authoritative re-ranking aanpak. Hierbij is er dus wel vanuit gegaan dat beoordelingen en het berekenen van de ranking aan de hand van de NRR metriek een juiste expertlijst oplevert. Wat opvalt aan de RR scores is dat de expertlijsten vooral bij zoekopdracht 2 erg slecht overeenkomen. De vraag die gesteld werd aan de ILK-leden is: Has anyone every applied object-oriented languages to representation linguistic characteristics such as morphology or phonology?. Alleen de expertranking van dr.
Antal van den Bosch kwam bij deze query vrij goed overeen, bij de ranking die voortkwam uit de vragenlijst kwam hij als 2e expert naar voren, de computer rankte hem als 1e expert. Echter de ranking uit de vragenlijst van de andere ILK-leden kwam verder zeer slecht overeen met de computer gegenereerde ranking. Vooral de ranking die geproduceerd werd voor prof. dr. Walter Daelemans door de computer (positie 6) verschilde met de ranking uit de vragenlijst (positie 1). Een mogelijke verklaring hiervoor kan gevonden worden wanneer er gekeken wordt naar de gewichttoekenning van de afzonderlijke termen. De termen characteristics en morphology krijgen voor prof. dr. Walter Daelemans namelijk een zeer lage score t.o.v. de overige ILK-leden. Dit kan ervoor
gezorgd hebben dat prof. dr. Walter Daelemans een veel lagere ranking door de computer heeft gekregen. Hiernaast wordt bij query 5 een score van ‘1’ berekend aan de hand van de RR formule. Uit de rangschikking door de computer kan worden afgeleid dat alle relevante experts zijn opgehaald alleen dat de volgorde van rangschikking niet overeenkomt met de volgorde zoals deze werd bepaald met behulp van de NRR metriek. Mean Squared Error Naast de Ranked recall is de Mean Squared Error metriek gebruikt om de rangschikking uit gold standard met die van de computer rangschikking te vergelijken. Met deze metriek wordt de volgorde van rangschikking wel meegenomen in de beoordeling. In tabel 4.9 staat per zoekopdracht de MSE weergeven. Query 1 2 3 4 5 6 7 8 9 10
Mean Squared Error 2,43 23,83 11,6 12,5 2,33 12 11,67 17,63 8,8 12,33
Gemiddelde
11,51
Tabel 4.9: De Mean Squared Error berekend per query.
Uit de resultaten van deze berekening bleek dat bij drie query’s (1, 5 en 9) de MSE scores lager dan gemiddeld lagen en dat de computer beter als het gemiddelde van deze tien query’s de experts heeft gerangschikt. Hiernaast is er gekeken of de MSE score verbeterde wanneer er alleen gekeken werd naar de eerste 3 experts uit de golden standard rangschikking. Hiervoor is gekozen omdat in de gold standard ook gemiddeld 3 experts een hogere ranking hebben dan gemiddeld. Hieruit blijkt dat met een gemiddelde van 8,43 de MSE score lichtelijk beter werd berekend dan alle experts uit de golden standard rangschikking (11,51). Ook bleek dat zeven query’s (1, 3, 4, 5, 7, 9 en 10) een lager dan gemiddelde score bezaten en dat bij drie query’s (1, 5 en 10) alle experts zoals aangewezen in de golden standard correct werden opgehaald alleen dat de volgorde nog niet geheel correct was. Wat ook opviel aan de resultaten was dat wanneer alleen de eerste positie van de rangschikkinglijsten met elkaar vergeleken werden, bij vijf query’s (3, 4, 7, 9, 10) een MSE score van 0 werd behaald. Dit houdt in dat bij deze query’s de computer de correcte expert heeft aangewezen als dé expert bij die query. Hiernaast bleek dat bij twee query’s (1 en 5) de computerrangschikking dé expert voor die query op de tweede positie had gerangschikt.
Hoofdstuk 5
Conclusies en discussie Met dit onderzoek is geprobeerd de authoritative re-ranking aanpak, geïntroduceerd door Bogers en Van den Bosch (2005), te evalueren. In dit hoofdstuk worden de conclusies en discussiepunten aan de orde gebracht. Daarnaast worden er aanbevelingen gedaan voor een eventueel vervolgonderzoek.
5.1 Conclusies De ontwikkelde vragenlijst heeft per onderdeel resultaten opgeleverd die op verschillende manier zijn geanalyseerd. Ieder onderdeel van de vragenlijst heeft bijgedragen aan de evaluatie van de automatische expertise-extractie, maar aangezien dit op verschillende manieren heeft plaatsgevonden worden deze per onderzoeksvraag behandeld. De hoofdvraag in dit onderzoek: “In hoeverre is de authoritative re-ranking methode succesvol in het bepalen van de expertise van leden van een werkgroep?” Uit de analyse van de resultaten van dit onderzoek kan worden geconcludeerd dat de authoritative re-ranking aanpak redelijk succesvol is in het bepalen van de expertise van leden van een werkgroep. In de vier onderdelen waarmee getracht werd de authoritative reranking methode te evalueren, zijn redelijke resultaten geboekt en deze worden beschreven bij de deelvragen. 5.1.1 De eerste deelvraag uit het onderzoek: “In welke mate hebben de termen die volgens het systeem een hoog onderscheidend vermogen hebben, volgens de eigenlijke experts een onderscheidend vermogen?” Onderdeel A van de vragenlijst In onderdeel A werd aan de ILK-leden gevraagd termen te noteren die de eigen expertise weergeven. Uit de analyse van de resultaten bleek dat de ILK-leden gemiddeld 7 termen gebruikten om de eigen expertise weer te geven en dat hiervan het overgrote deel bestond uit bi- en trigrammen (respectievelijk 59,3% en 20,5% van de genoteerde termen). Tevens bleek uit de analyse van de resultaten dat deze genoteerde termen, exact zoals genoteerd, bijna niet voorkwamen in de automatische geëxtraheerde termenlijsten. Wanneer de termen echter werden opgesplitst in afzonderlijke woorden en er werd gekeken of één van deze genoteerde woorden van een term voorkwam in een termenlijst werden betere resultaten geboekt. Blijkbaar extraheert het systeem veel van de genoteerde woorden, alleen niet in de exact combinatie van woorden, de expertise termen, zoals genoteerd door de ILK-leden.
Ook bleek uit de analyse van de resultaten uit onderdeel A dat de instellingen van het systeem van invloed zijn op het extraheren van de termen die genoteerd zijn door de ILKleden. De optimale instellingen van het systeem bleken beter te presteren bij het ophalen van de genoteerde expertise termen gezien als afzonderlijke woorden dan de strengere instellingen van het systeem. Een mogelijke verklaring hiervoor is het verschil in aantal termen die geselecteerd werden met deze optimale instellingen (1884 termen) ten opzichte van de geselecteerde termen met de strengere instellingen van het systeem (273 termen). Hiernaast werden de relatieve termposities voor de genoteerd termen van de ILK-leden beter toegekend met de optimale instellingen van het systeem. Dit betekent echter niet dat deze toekenning van termposities optimaal te noemen was gezien de gemiddelde termpositietoekenning van 362 t.o.v. het totaal van 1884 termen met de optimale instellingen van het systeem en een gemiddelde termpositietoekenning van 90 t.o.v. het totaal van 273 termen met de strengere instellingen van het systeem. Een mogelijke verklaring hiervoor is dat de berekening van de termgewichten niet goed overeenkomt met de termen die mensen gebruiken om de eigen mee te verwoorden expertise. Onderdeel B van de vragenlijst In onderdeel B werden de termen die volgens het systeem een hoog onderscheidend vermogen hebben ter beoordeling aangeboden aan de ILK-leden. Hiermee werd getracht een goed beeld te krijgen of deze termen ook daadwerkelijk geassocieerd werden met de eigen expertise. Ook is gekeken of de optimale instellingen uit het onderzoek van Bogers en Van den Bosch (2005) daadwerkelijk optimaal zijn voor de automatische expertise-extractie. Dit is gedaan door de top twintig aan termen uit termenlijst die voortkwamen uit de optimale instellingen van het systeem en de top twintig aan termenlijst die voortkwamen uit de strengere instellingen van het systeem te laten beoordelen door ILK-leden zodat ze met elkaar vergeleken konden worden. Uit de resultaten bleek dat de top twintig aan termen uit beide termenlijsten bovengemiddeld werden beoordeeld als termen die geassocieerd werden met de eigen expertise. Hierbij moet worden opgemerkt dat de termen die voortkwamen uit de strengere instellingen van de authoritative re-ranking aanpak lichtelijk beter werden beoordeeld dan de termen die voortkwamen uit de optimale instellingen van de authoritative re-ranking aanpak. Een mogelijke verklaring hiervoor is dat de optimale instellingen van het systeem optimaal waren in het onderzoek van Bogers en Van den Bosch (2005) voor de combinatie van het berekenen van de expertscore en het re-ranken van de publicaties. Dit is echter geen direct bewijs dat de manier van expertscore berekenen zelf ook optimaal was. Uit de resultaten kan namelijk worden afgeleid dat de top twintig aan termen die voortkomen uit de strengere instellingen beter geassocieerd werden met de eigen expertise (een gemiddelde beoordeling van 3,45 uit maximaal 5) dan de termen die voortkwamen uit de optimale instellingen (een gemiddelde beoordeling van 3,21 uit maximaal 5). Een mogelijke verklaring hiervoor is het feit dat er meer bigrammen voorkwamen in termenlijst ‘streng’ en dat hierin ook trigrammen werden toegelaten. Deze termen kwamen beter overeen met de manier waarop de ILK-leden de eigen expertise in termen bij onderdeel A van de vragenlijst noteerden.
5.1.2 De tweede deelvraag uit het onderzoek: “In hoeverre is het corpus van een werkgroep een goede bron voor het bepalen van expertise?” Onderdeel C van de vragenlijst Om deze deelvraag te beantwoorden zijn in onderdeel C van de vragenlijst de eigen publicaties uit de testcollectie aan de ILK-leden ter beoordeling aangeboden. Als het corpus van een werkgroep een goede bron is voor het bepalen van expertise, dan zouden de eigen publicaties goede beoordelingen moeten krijgen. Uit de resultaten bleek dat de eigen publicaties met een gemiddelde van 4,16 (waarbij 5 de maximale score was) werden gezien als goede vertegenwoordigers van de eigen expertise. Opvallend aan de resultaten uit dit onderdeel van de vragenlijst was dat in een aantal gevallen er een trend te ontdekken was waarin de auteurspositie een rol speelde in de gemiddelde beoordeling van de publicaties. Hierbij werd een publicatie gemiddeld beter beoordeeld wanneer het betreffende ILK-lid als 1e auteur genoemd werd dan wanneer deze als 2e auteur genoemd werd enz. Een mogelijke verklaring hiervoor is dat de auteurspositie van invloed kan zijn op de bijdrage aan de publicatie volgens Tarnow (2002) en dat deze hierdoor ook van invloed kan zijn op de beoordeling van de publicatie als bron van expertise. Hiernaast werd in dit onderdeel letterlijk de vraag gesteld of wetenschappelijke publicaties de expertise van de auteur kunnen weergeven. Met een gemiddelde beoordeling 3,5 (waarbij “4” de maximale score was) kan geconcludeerd worden dat volgens de ILK-leden wetenschappelijke publicaties in het algemeen een goede bron zijn voor het bepalen van de expertise van de auteur(s). 5.1.3 De derde deelvraag uit het onderzoek: “In hoeverre duidt het systeem de juiste auteurs bij een zoekopdracht aan?” Onderdeel D van de vragenlijst Om deze vraag te beantwoorden werden tien query’s ter beoordeling aangeboden aan de ILK-leden. Hierbij werd gevraagd om de ILK-leden die volgens hen experts zijn op het gebied van de query te rangschikken. Uit de resultaten bleek dat er gemiddeld slechts 3 ILK-leden per query een hoger dan gemiddelde beoordeling kregen toegekend en dat bij negen van de tien query’s telkens slechts 1 ILK-lid duidelijk als dé expert werd beoordeeld. Hieruit kan worden geconcludeerd dat de ILK-leden zeer duidelijk onderscheid maakten tussen de experts in de werkgroep bij de betreffende query’s. Ook de computer kan met behulp van de authoritative re-ranking een expertlijst genereren per query. Uit deze resultaten bleek dat de computer minder goed een onderscheid wist aan te brengen tussen de experts als we de ILK-beoordeling als de gold standard beschouwen. Bij de query’s werden er gemiddeld 5 ILK-leden per query aanwezen met een hoger dan gemiddelde beoordeling en bij slechts drie query’s werd 1 ILK-lid zichtbaar als dé expert beoordeeld. Een mogelijke verklaring hiervoor is dat de computer op een andere manier de
experts bepaald bij een query dan dat mensen doen. De authoritative re-ranking methode maakt gebruik van automatische geëxtraheerde termen om de expertranking te genereren. De mens kan putten uit meer bronnen om een expertranking te genereren waaronder sociale contacten, ervaringen met experts, gelezen wetenschappelijke publicaties, meningen van anderen mensen, enz. Een mogelijke verklaring is dan dat de mens andere (bijvoorbeeld betere of juist meer) associaties legt met de woorden uit een zoekopdracht en de context waarin de woorden zijn geplaatst. Hierdoor kan hij of zij misschien beter onderscheid maken tussen de experts.
5.2 Discussie Elk onderzoek heeft baat bij zoveel mogelijk data en zo ook expertiseonderzoek. Nu worden conclusies getrokken uit de meningen en beoordelingen van slechts tien deelnemers. Als er meer deelnemers voorhanden waren geweest, had dit de generaliseerbaarheid van de resultaten kunnen verbeteren en er misschien significante resultaten geboekt kunnen worden. Ook een tweede testcollectie en een tweede werkgroep zouden de resultaten uit dit onderzoek kunnen verbeteren. In onderdeel A van de vragenlijst werd gevraagd eigen termen te noteren die met de expertise geassocieerd werden. Gemiddeld werden hiervoor zeven termen genoteerd per ILK-lid. Uit de resultaten van onderdeel B bleek echter dat voor termenlijst ‘optimaal’ en termenlijst ‘streng’ gemiddeld respectievelijk 47% en 57,5% van de automatische geëxtraheerde termen een goede tot zeer goede beoordeling kregen. Dit kan te maken hebben met de vraagstelling die in beide onderdelen van elkaar verschilt. In onderdeel A van de vragenlijst werd namelijk gevraagd termen te noteren die het beste de eigen expertise beschrijven. In onderdeel B van de vragenlijst werd gevraagd de termen te beoordelen in hoeverre deze gerelateerd aan de eigen expertise. Dit verschil in vraagstelling kan ervoor gezorgd hebben dat de termen uit onderdeel B gemiddeld een bovengemiddelde beoordeling ontvingen. Immers een term die genoteerd werd alszijnde een term die de eigen expertise beschrijft kan verschillen met een term die gerelateerd is aan de eigen expertise. Een voorbeeld hiervan is het woord ‘programmeren’ dat de eigen expertise kan beschrijven. Een woord dat hieraan gerelateerd kan zijn is ‘data’. Dit woord ‘data’ kan een goede beoordelingen krijgen bij de tweede vraagstelling, in hoeverre dit woord gerelateerd is aan de eigen expertise. Echter wanneer gevraagd wordt of dit woord de eigen expertise beschrijft lijkt het in de lijn der verwachting dat dit woord een minder goede beoordeling zal ontvangen. Hiernaast kan worden afgevraagd of de volgende twintig termen uit de geëxtraheerde termenlijsten (term 21 t/m term 40) slechter zouden worden beoordeeld als deze waren aangeboden dan de top twintig aan termen die zijn aangeboden bij onderdeel B van de vragenlijst. Er is een klein verloop te ontdekken tussen de beoordelingen van de eerste 10 termen uit de termenlijsten t.o.v. de volgende 10 termen alleen is de vraag of dit ook doorzet in de rest van de lijst. Gezien het klein aantal termen is hierover geen uitspraak gedaan. Aangezien er voor onderdeel C slechts een klein aantal publicaties per ILK-lid zijn aangeboden kan hieruit niet goed worden opgemaakt of de auteurspositie veel invloed heeft op de beoordeling van een publicatie als expertise bron. Ook al is er voor een aantal ILKleden een trend te ontdekken waarbij de auteurspositie van invloed is op de beoordeling van
de publicatie, een grootschaliger onderzoek met meer leden en waarbij de leden meer publicaties hebben geschreven en deze op meer verschillende auteurposities voorkomen kan meer inzicht geven bij deze bevindingen. In onderdeel D van de vragenlijst werd gevraagd de ILK-leden die gezien werden als expert op het gebied van een gegeven query te ranken. Hierbij is echter geen melding gemaakt of de ILK-leden zichzelf ook moesten beoordelen. De eigen namen stonden wel bij elke query vermeld en de mogelijkheid bestond om zichzelf te ranken. Uit de resultaten blijkt echter dat slechts de helft van de ILK-leden zichzelf eens of meerdere malen heeft geranked bij de query’s. Doordat hier geen uniformiteit in zit kan dit de resultaten hebben beïnvloed. Ook de aangepaste manier van het berekenen van de MRR kan vatbaar zijn voor kritiek. In dit onderzoek is er vanuit gegaan dat de aangepaste versie van de MRR, de NRR, een goede metriek oplevert en dat de vergelijking tussen beide expertrankingslijsten met de RR en de MSE metriek tot bruikbare inzichten heeft geleid. Echter doordat het gemiddelde in de berekeningen gebaseerd is op een klein aantal respondenten zijn de beoordelingen erg gevoelig voor extreme scores.
5.3 Aanbevelingen voor vervolg onderzoek Door het onderzoek uit te voeren met een tweede werkgroep en testcollectie kan een beter beeld ontstaat over de generaliseerbaarheid van de resultaten en de kwaliteit van de onderlinge beoordelingen van werkgroepleden. Hierbij is het wel aan te bevelen om meer data te genereren voor het onderzoek door bijvoorbeeld een vraag op verschillende manieren te stellen en de correlatie tussen de antwoorden hierop te berekenen. Wat opviel aan de termen die genoteerd werden door de ILK-leden in onderdeel A van de vragenlijst was dat deze veelal bestonden uit bigrammen en trigrammen. Uit de beoordelingen in vragenlijst B van de termen die bestonden uit bigrammen en trigrammen bleek eveneens dat deze gemiddeld beter werden beoordeeld als de termen die geassocieerd werden met de eigen expertise. Een onderzoek naar de soort termen die mensen gebruiken waarmee zij de eigen expertise verwoorden kan zorgen voor meer inzicht in de termen met een onderscheidend vermogen. Dit kan de automatische toekenning van de gewichten door de computer voor deze termen verbeteren. Dat de publicaties een goede bron zijn voor het bepalen van de expertise komt uit onderdeel C van de vragenlijst sterk naar voren. Uit analyse bleek dat de eigen publicaties goed werden beoordeeld en het corpus van de werkgroep een goede bron is van expertise. Alleen werd niet duidelijk welke rol de auteurspositie in een publicatie speelt bij het beoordelen van een publicatie. Bogers en Van den Bosch (2005) hebben hierna onderzoek verricht maar vonden geen verbetering bij het re-ranken van de zoekresultaten. Dit wil echter niet zeggen dat dit ook het geval is bij het beoordelen van publicaties door mensen. Een vervolg onderzoek kan leiden tot meer inzicht hierin. Hiernaast is het ook interessant om te onderzoeken of de expertrangschikking die voortkomt uit beoordelingen van de ILK-leden het herschikken van de zoekresultaten uit het onderzoek van Bogers en Van den Bosch (2005) kan verbeteren.
Literatuur [1]
Brants, T. (2004). Natural Language Processing in Information Retrieval. In B. Decadt, V. Hoste and G. de Pauw (Eds.), Computational Linguistics in the Netherlands (pp. 1-13). Belgium: University of Antwerp.
[2]
Campbell, C. S., Maglio P. P., Cozzi, A. and Dom, B. (2003). Expertise Identification using Email Communications, Proceedings of the Twelfth International Conference on Information and Knowledge Management (pp. 528-531). New Orleans, LA, USA.
[3]
Salthouse, T. A. (1991). Expertise as the Circumvention of Human Processing Limitations. In K. A. Ericsson & J. Smith (Eds.), Toward a general theory of expertise (pp. 286-300). Cambridge: the Press Syndicate of the University of Cambridge.
[4]
Sternberg, R.J. (1994). Cognitive Conceptions of Expertise. In P.J. Feltovich, K.M. Ford, R.R. Hoffman (Eds.), Expertise in context (pp. 149-162). England: The MIT press, Massachusetts Institute of Technology, Cambridge, Massachusetts and London.
[5]
Stein, E.W. (1997). A Look at Expertise From a Social Perspective. In .J. Feltovich, K.M. Ford, R.R. Hoffman (Eds.), Expertise in Context (pp. 181-194). England: The MIT press, Massachusetts Institute of Technology, Cambridge, Massachusetts and London.
[6]
Bogers, T. en Van den Bosch, A. (2005). Authoritative re-ranking of Search Results. In Proceedings of the 28th European Conference on Information Retrieval (ECIR 2006), vol 3936 of Lecture Notes on Computer Science (pp. 519-522). Springer Verlag, April 2006
[7]
McDonald, D.W. (2000). Supporting Nuance in Groupware Design: Moving from Naturalistic Expertise Location to Expertise Recommendation. University of California, Irvine. Ph.D. Thesis, 2000.
[8]
Hertzum, M., Pejtersen, A.M., (2000). The Information-Seeking Practices of Engineers: Searching for Documents as well as for People (pp. 761-778) Information Processing & Management.
[9]
Chase, W.G. and Simon, H.A., (1973) Perception in Chess (pp. 55-81). Cognitive Psychology 4.
[10]
DeGroot, A.D., (1965). Thought and Choice in Chess. Mounton & Company.
[11]
Stein, E.W., (1992). A Method to Identify Candidates for Knowledge Acquisition (pp. 161-178). Journal of Management Information Systems, Vol. 9, No. 2.
[12]
Olson, J.R. and Biolsi, K. J. (1991). Techniques for representing expert knowledge. In K.A. Ericsson & J. Smith, Eds. Toward a General Theory of Expertise (pp. 240285). Cambridge: Cambridge University Press, 1991.
[13]
Bhopal R. et al. (1997). The vexed question of authorship: views of researchers in a British medical faculty (pp. 1009-1012). British Medical Journal 314.
[14]
Shapiro D.W. et al. (1994). The contributions of authors to multiauthored biomedical research papers (pp. 438-442). Journal of the American Medical Association 271(6).
[15]
Tarnow E. (2002). Coauthorship in physics (pp. 175-190). Science and Engineering Ethics 8(2).
[16]
Tiedemann, J. (2004) A comparison of off-the-shelf IR-engines for QA. CLIN 2004, Leiden.
[17]
Morris, A., (1992). The Application of Expert Systems in Libraries and Information Centres (pp. 241). London: Bowker-Saur, 1992.
Bijlage De vragenlijst bestond uit vier onderdelen waaruit resultaten zijn voortgekomen. Deze resultaten evenals een aantal analyses zijn als bijlage toegevoegd.
Bijlage 1 Bijlage 2 Bijlage 3 Bijlage 4
Onderdeel A Onderdeel B Onderdeel C Onderdeel D
Bijlage 1: Onderdeel A Bijlage 1.1:
Een analyse van de resultaten die voortkomen uit de vragenlijst waarbij gekeken is in hoeverre deze voorkomen in termenlijst ‘optimaal’ (optimale instellingen van het systeem).
Naam
Aantal Termen
Exacte match
AND-match
OR-match
Drs. Toine Bogers
5
1
4
4
Dr. Antal van den Bosch
9
1
8
8
Drs. Bertjan Busser
5
1
2
2
Drs. Sander Canisius
5
2
5
5
Prof dr. Walter Daelemans
6
2
5
6
Drs. Marieke van Erp
4
1
4
4
Dr. Erwin Marsi
13
3
10
11
Dr. Martin Reynaert
10
3
4
7
Dr. Caroline Sporleder
7
1
5
7
Dr. Iris Hendrickx
5
0
4
5
Bijlage 1.2:
Een analyse van de resultaten die voortkomen uit de vragenlijst waarbij gekeken is in hoeverre deze voorkomen in termenlijst ‘streng’ (strengere instellingen van het systeem).
Naam
Aantal Termen
Exacte match
AND-match
OR-match
Drs. Toine Bogers
5
2
0
2
Dr. Antal van den Bosch
9
2
3
6
Drs. Bertjan Busser
5
0
0
1
Drs. Sander Canisius
5
3
3
5
Prof dr. Walter Daelemans
6
2
2
5
Drs. Marieke van Erp
4
2
1
4
Dr. Erwin Marsi
13
4
4
10
Dr. Martin Reynaert
10
1
2
3
Dr. Caroline Sporleder
7
2
1
7
Dr. Iris Hendrickx
5
1
2
5
Bijlage 1.3:
De resultaten van onderdeel A uit de vragenlijst waarbij de genoteerde termen door de ILK-leden zijn genoteerd. Tevens is bepaald in hoeverre deze termen exact zoals genoteerd (exacte match) en als afzonderlijke woorden voorkomen in termenlijst ‘optimaal’. Per genoteerde term is de positie in de termenlijst genoteerd als deze voorkwam.
Drs. Toine Bogers Genoteerde temen information retrieval named entity recognition feature selection personalization expertise
Exacte match Nee Nee Nee Nee 25
Term 1 49 30 61
Term 2 41 624 255
Term 3
Term 4
Exacte match 536 Nee Nee Nee Nee Nee Nee Nee Nee
Term 1 661 1110 226 1555 336
Term 2 21 37 100 383 1247
Term 3
264 317 128
53 1282 21
Exacte match Nee Nee Nee 1263 Nee
Term 1 482 Nee
Term 2 Nee Nee
Term 3 287
Term 4
Exacte match 603 Nee Nee Nee 639
Term 1 341 64 17 806 29
Term 2 4 369 48 294 28
Term 3
Term 4
Exacte match Nee
Term 1 41
Term 2 35
Term 3 Nee
Term 4 3
24
Dr. Antal van den Bosch Genoteerde termen machine learning natural language processing memory-based learning morpho-phonology speech synthesis modularity writing systems decision trees rule learning
Term 4
1431 21
Drs. Bertjan Busser Genoteerde termen Text to Speech Linux & Unix webdemo programming computers
Drs. Sander Canisius Genoteerde termen Machine learning Information extraction Sequence processing Structured classification Shallow parsing
Prof. dr. Walter Daelemans Genoteerde termen machine learning of language
machine learning computational linguistics knowledge representation cognitive science computational psycholinguististics
298 Nee 1263 Nee Nee
41 449 93 237 229
35 628 723 61 Nee
Exacte match 452 Nee Nee Nee
Term 1 193 7 23 208
Term 2 73 124 124 158
Term 3
Term 4
Exacte match Nee Nee Nee Nee Nee Nee Nee Nee Nee 468 Nee 400 1236
Term 1 145 150 320
Term 2 Nee 31 31
Term 3
Term 4
124 22 150 124 119 23
Nee Nee 31 Nee 48 10
22
Exacte match Nee 375 Nee Nee Nee Nee Nee 491 293 Nee
Term 1 514
Term 2 535
Term 3
Nee Nee Nee
1827 Nee 29
1111 1111
Exacte match 481 Nee
Term 1 285 59
Term 2 Nee 92
Term 3
Drs. Marieke van Erp Genoteerde termen machine learning database mining text mining information extraction
Dr. Erwin Genoteerde termen computational linguistics natural language processing human language technology prosody intonation text-to-speech speech synthesis natural language generation text-to-text generation machine learning memory-based learning parsing alignment
136 78
108 124
108
48
Dr. Martin Reynaert Genoteerde termen Spelling correction corpora approximate string matching anagram-key matching non-words confusables prosody metrics evaluation tokenization
Term 4
Dr. Caroline Sporleder Genoteerde termen machine learning discourse processing
Term 4
lexicon acquisition information extraction topic segmentation sequence labelling discourse parsing
Nee Nee Nee Nee Nee
420 217 Nee 676 Nee
864 277 848 1293 167
Exacte match Nee Nee Nee Nee Nee
Term 1 348 18 212 216 104
Term 2 33 141 780 Nee 392
Dr. Iris Hendrickx Genoteerde termen machine-learning memory-based learning word sense disambiguation text categorization information extraction
Bijlage 1.4:
Term 3
Term 4
33 451
De resultaten van onderdeel A uit de vragenlijst waarbij de genoteerde termen door de ILK-leden zijn genoteerd. Tevens is bepaald in hoeverre deze termen exact zoals genoteerd (exacte match) en als afzonderlijke woorden voorkomen in termenlijst ‘streng’. Per genoteerde term is de positie in de termenlijst genoteerd als deze voorkwam.
Drs. Toine Bogers Genoteerd information retrieval named entity recognition feature selection personalization expertise
Exacte match Nee 6 151 Nee Nee
Term 1 Nee 5 13
Term 2 Nee Nee Nee
Term 3
Exacte match 86 229 Nee Nee Nee Nee Nee Nee Nee
Term 1 212 Nee 49 Nee 157
Term 2 4 16 20 Nee Nee
Term 3
Nee Nee 25
24 Nee 4
Exacte match Nee Nee
Term 1 91 Nee
Term 2 Nee Nee
Term 4
4
Dr. Antal van den Bosch Genoteerd machine learning natural language processing memory-based learning morpho-phonology speech synthesis modularity writing systems decision trees rule learning
Term 4
248 4
Drs. Bertjan Busser Genoteerd Text to Speech Linux & Unix
Term 3 55
Term 4
webdemo programming computers
Nee Nee Nee
Drs. Sander Canisius Genoteerd Machine learning Information extraction Sequence processing Structured classification Shallow parsing
Exacte match 32 230 Nee Nee 16
Term 1 269 31 6 Nee 3
Term 2 12 Nee 11 57 4
Term 3
Term 4
Exacte match Nee 36 179 Nee Nee Nee
Term 1 7 7 188 21 Nee 188
Term 2 19 19 191 Nee Nee Nee
Term 3 Nee
Term 4 1
Exacte match 15 Nee Nee 229
Term 1 269 4 3 35
Term 2 13 Nee Nee Nee
Term 3
Term 4
Exacte match 76 61 Nee Nee Nee Nee Nee Nee Nee 20 Nee 224 Nee
Term 1 191 Nee Nee
Term 2 103 13 13
Term 3
Term 4
96 3 Nee 96 269 27
Nee Nee 13 Nee 9 14
3
Prof. dr. Walter Daelemans Genoteerd machine learning of language machine learning computational linguistics knowledge representation cognitive science computational psycholinguististics
Drs. Marieke van Erp Genoteerd machine learning database mining text mining information extraction
Dr. Erwin Genoteerd computational linguistics natural language processing human language technology prosody intonation text-to-speech speech synthesis natural language generation text-to-text generation machine learning memory-based learning parsing alignment
221 118
Nee 96 9
Nee
Dr. Martin Reynaert Genoteerd Spelling correction corpora approximate string matching anagram-key matching non-words confusables prosody metrics evaluation tokenization
Exacte match Nee 208 Nee Nee Nee Nee Nee Nee Nee Nee
Term 1 194
Term 2 141
Term 3
Term 4
Nee Nee Nee
Nee Nee 78
Nee Nee
Exacte match 26 Nee Nee 230 Nee Nee Nee
Term 1 269 Nee Nee 40 Nee 173 Nee
Term 2 9 221 216 Nee 218 Nee 224
Term 3
Term 4
Exacte match Nee Nee Nee Nee 244
Term 1 269 8 58 123 68
Term 2 22 52 Nee Nee Nee
Term 3
Term 4
Dr. Caroline Sporleder Genoteerd machine learning discourse processing lexicon acquisition information extraction topic segmentation sequence labelling discourse parsing
Dr. Iris Hendrickx Genoteerd machine-learning memory-based learning word sense disambiguation text categorization information extraction
22 Nee
Bijlage 2: Onderdeel B Bijlage 2.1:
De resultaten van onderdeel B uit de vragenlijst waarbij de te beoordelen termen en de bijbehorende beoordelingen van de ILK-leden zijn genoteerd.
Drs. Toine Bogers Termenlijst ‘optimaal’ Nr Term Beoordeling 1 performance 1 2 base 1 3 examine 1 4 ratings 1 5 rankings 4 6 authorship 4 7 authoritative 5 8 improve 1 9 documents 2 10 rank 3 11 features 3 12 approaches 1 13 investigate 1 14 limitations 1 15 determine 1 16 experiments 1 17 process 1 18 recognition 3 19 expertise 5 20 final 1
Termenlijst ‘streng’ Term search results features process recognition named named entity recognition generalization performance approaches maximum entropy performance information feature experiments correction semantic role labelling verb classification algorithm learning level
Beoordeling 4 2 1 3 1 5 1 1 3 1 1 1 1 1 3 1 1 1 1 1
Termenlijst ‘streng’ Term instance dutch abstraction learning language learning pronunciation university system algorithms careful abstraction accuracy linguistic task features based learning phoneme conversion
Beoordeling 5 4 5 5 5 4 1 1 2 5 2 2 1 3 1 2
Dr. Antal van den Bosch Termenlijst ‘optimaal’ Nr Term Beoordeling 1 instance 5 2 dutch 5 3 families 5 4 corpora 3 5 instances 5 6 linguistic 3 7 learning 5 8 group 1 9 abstraction 5 10 project 1 11 linguistics 2 12 computational 3 13 comparison 1 14 discuss 1 15 left 1 16 pronunciation 4
17 18 19 20
higher called language tasks
1 1 2 2
word word pronunciation based tasks
2 4 1 1
Drs. Bertjan Busser Termenlijst ‘optimaal’ Nr Term Beoordeling 1 word 3 2 transcription 3 3 phonetic 3 4 treetalk 5 5 language 4 6 experimental 5 7 letter 4 8 argue 4 9 pronunciation 3 10 system 5 11 breaks 4 12 hmm 5 13 strategy 5 14 accuracy 4 15 learning 4 16 memory 5 17 mapping 4 18 phrase 3 19 abstracts 3 20 mbl 4
Termenlijst ‘streng’ Term word semantic role labelling pronunciation memory based learning system word pronunciation modules learning language machine learning data memory based university mbl approach information nlp research dutch tasks
Beoordeling 3 3 3 4 5 4 5 4 4 4 5 4 3 4 5 4 4 3 5 4
Termenlijst ‘streng’ Term memory based dutch shallow parsing parser sequence class correction user input semantic role labelling processing learning input verb speech spoken dutch corpus classification user
Beoordeling 5 3 4 4 4 5 3 4 1 2 3 5 3 1 1 4 5 1
Drs. Sander Canisius Termenlijst ‘optimaal’ Nr Term Beoordeling 1 learning 5 2 output 5 3 relation 3 4 dutch 3 5 predictions 4 6 post 3 7 linguistics 2 8 classified 3 9 sequence 5 10 grammatical 4 11 language 4 12 act 1 13 computational 4 14 memory based 5 15 labels 3 16 applied 3 17 parsing 4 18 shallow 4
19 parser 20 class
4 3
rule classifier
3 4
Prof. dr. Walter Daelemans Termenlijst ‘optimaal’ Nr Term Beoordeling 1 language 5 2 speech 4 3 acquisition 5 4 approach 5 5 inductive 5 6 som 2 7 reference 3 8 errors 3 9 forward 2 10 process 3 11 rules 4 12 multi 4 13 method 5 14 processing 5 15 limitations 4 16 bp som 2 17 network 2 18 semi 3 19 learning 5 20 feed 1
Termenlijst ‘streng’ Term language som bp som acquisition network machine algorithms speech process computer science user generalisation performance dialogue workflow textual databases language processing learning approach knowledge based
Beoordeling 5 1 1 5 1 4 5 4 2 5 2 5 1 2 5 5 5 4 4 4
Termenlijst ‘streng’ Term textual databases data text database correction methods errors named gazetteers automatically data driven tagger learning techniques machine learning language based memory based university memory based learning
Beoordeling 5 5 5 5 5 3 4 4 4 4 5 3 4 3 5 5 3 4 3 5
Drs. Marieke van Erp Termenlijst ‘optimaal’ Nr Term Beoordeling 1 reference 1 2 database 5 3 databases 5 4 correction 5 5 textual 5 6 data 5 7 entered 3 8 detected 3 9 column 4 10 wrong 4 11 driven 4 12 zoological 4 13 text 5 14 correcting 5 15 errors 4 16 semi 4 17 automatically 4 18 named 4 19 detection 4 20 entity 4
Dr. Erwin Marsi Termenlijst ‘optimaal’ Nr Term Beoordeling 1 boundaries 5 2 pitch 5 3 accents 5 4 derived 1 5 prediction 5 6 based 1 7 validated 3 8 placement 3 9 class 3 10 reference 3 11 explore 3 12 multiple 3 13 annotations 4 14 score 3 15 treebank 4 16 speech 4 17 memory 4 18 cross 1 19 yields 1 20 real 1
Termenlijst ‘streng’ Term boundaries class speech tagger morphological analysis speech tagging ib1 learning words mbl language based data memory based university memory based learning machine learning research word nlp
Beoordeling 5 3 4 4 5 4 3 4 2 5 4 1 2 5 1 5 5 3 3 5
Termenlijst ‘streng’ Term mbl data learning language based memory based university memory based learning machine learning research word nlp approach dutch tasks linguistic information linguistic knowledge timbl lazy learning
Beoordeling 4 5 4 5 1 3 3 3 4 4 5 4 3 3 3 4 5 4 4 4
Dr. Martin Reynaert Termenlijst ‘optimaal’ Nr Term Beoordeling 1 train 3 2 prosodic 3 3 pitch 3 4 breaks 3 5 accents 3 6 score 4 7 sentential 4 8 scores 3 9 intra 1 10 tests 5 11 predicting 3 12 yield 1 13 validated 5 14 placement 3 15 optimized 4 16 held 1 17 advantage 3 18 reliably 3 19 cost 3 20 challenging 2
Dr. Caroline Sporleder Termenlijst ‘optimaal’ Nr Term Beoordeling 1 reference 2 2 exploiting 3 3 database 4 4 databases 4 5 automatically 5 6 eh8 1 7 9lw 1 8 correction 4 9 data 4 10 textual 4 11 lean 4 12 entered 1 13 detected 3 14 column 3 15 training 5 16 wrong 2 17 computational 5 18 linguistics 5 19 zoological 3 20 based 1
Termenlijst ‘streng’ Term automatically textual databases models training data sentence sentence compression relations data learning text database correction training methods errors named gazetteers data driven tagger techniques
Beoordeling 5 4 5 5 3 3 4 4 5 4 4 4 4 3 4 1 3 5 4 2
Termenlijst ‘streng’ Term parent algorithms maximum entropy modeling hybrid algorithms memory based classification classifiers algorithm instances rules lazy generalization performance bias perform nn classification learning algorithms model rule instance based maximum entropy machine learning algorithms
Beoordeling 1 5 5 5 5 5 5 3 4 3 3 3 1 5 5 3 4 4 4 4
Dr. Iris Hendrickx Termenlijst ‘optimaal’ Nr Term Beoordeling 1 errors 4 2 replace 1 3 algorithms 5 4 hybrid 5 5 stacked 3 6 parent 1 7 hybrids 5 8 hybrid algorithms 5 9 original 1 10 difference 1 11 matrix 1 12 replacing 1 13 estimation 1 14 algorithm 5 15 memory 4 16 bias 3 17 systematic 2 18 lower 1 19 variance 2 20 produced 1
Bijlage 3: Onderdeel C Bijlage 3.1:
De resultaten van onderdeel C uit de vragenlijst waarbij de te beoordelen publicatie nr’s, de auteur positie, het aantal auteurs en de gegeven beoordeling door het ILK-lid is genoteerd.
Drs. Toine Bogers
ILK Publicatie nr Auteur Positie 209 208 205 193
Dr. Antal van den Bosch
ILK Publicatie nr Auteur Positie 206 115 87 27 14 11 203 165 89 86 26 21 157 53 90
Drs. Bertjan Busser
1 1 1 1 1 1 2 2 2 2 2 2 3 3 4
ILK Publicatie nr Auteur Positie 200 130 99 53 45 38
Drs. Sander Canisius
1 1 4 1
1 2 1 1 6 1
ILK Publicatie nr Auteur Positie 205 202 191 185 172
2 1 2 4 1
Aantal Auteurs Beoordeling 2 2 4 1
5 5 2 4
Aantal Auteurs Beoordeling 2 3 2 1 4 4 2 2 2 5 2 2 4 3 4
5 3 4 5 5 5 3 2 3 4 4 5 2 5 3
Aantal Auteurs Beoordeling 2 6 3 3 6 1
5 3 4 4 4 5
Aantal Auteurs Beoordeling 4 3 5 4 2
3 5 3 1 4
Prof. dr. Walter Daelemans ILK Publicatie nr Auteur Positie Aantal Auteurs Beoordeling 125 90 46 36 12 4 97 84 72 70 49 33 73 11 163
Drs. Marieke van Erp
ILK Publicatie nr Auteur Positie 213 212 211 210
Dr. Erwin Marsi
1 1 4 1 1
ILK Publicatie nr Auteur Positie 188 187 163 130
Dr. Caroline Sporleder
2 2 2 2
ILK Publicatie nr Auteur Positie 204 190 170 163 130
Dr. Martin Reynaert
1 1 1 1 1 1 3 2 2 2 2 2 3 3 4
1 1 2 5
ILK Publicatie nr Auteur Positie 213 212 211 210 199 198
1 1 1 1 1 1
1 4 4 3 1 2 4 3 4 3 3 3 3 4 5
4 5 5 5 5 5 4 5 4 4 4 5 5 4 4
Aantal Auteurs Beoordeling 4 4 4 6
5 5 5 5
Aantal Auteurs Beoordeling 3 1 4 5 6
4 5 5 5 5
Aantal Auteurs Beoordeling 1 1 5 6
5 5 3 3
Aantal Auteurs Beoordeling 4 4 4 6 2 2
4 4 3 4 5 5
Dr. Iris Hendrickx
ILK Publicatie nr Auteur Positie 207 197 191 184 165 142 141 131 98
1 1 4 1 1 1 3 2 1
Aantal Auteurs Beoordeling 1 2 5 2 2 4 4 4 2
5 5 3 4 4 4 3 4 3
Bijlage 4 Onderdeel D Bijlage 4.1:
Nr 1 2 3 4 5 6 7 8 9 10
De query’s die ter beoordeling zijn aangeboden in onderdeel D van de vragenlijst.
Query Can rule induction be used for feature construction in learning language processing tasks? Has anyone every applied object-oriented languages to representation linguistic characteristics such as morphology or phonology? How to detect fragmented words in spoken discourse using machine learning? How do I machine learn (dutch) word pronunciation? Are there any approaches that combine different systems for natural language processing tasks? How do you use machine learning for named entity recognition? How can one deal with speech utterances or disfluencies in corpora? Are there any machine learning approaches to predicting diminutive suffixes in dutch? How to detect miscommunications in human-machine dialogues using machine learning? Is there work about building hybrid algorithms with k-nn?
Bijlage 4.2:
De resultaten van de beoordelingen per query door de ILK-leden inclusief berekende NRR waarde en de expertscore berekend door de computer.
Query 1
Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang
Query 2
Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder
1e
2e
3e
4e
2 2
1 2
2
5e
6e
7e
8e
NRR 0 0,88 0,02 0,20 0,29 0 0 0,06 0 0 0,29 0,09
Computerscore 0,10 0,15 0,09 0,13 0,13 0,07 0,11 0,11 0,07 0,10 0,18 0,13
6e
7e
8e
NRR 0 0,33 0,16 0 0,92 0 0 0,09 0,04 0,06
Computerscore 0,08 0,18 0,05 0,09 0,07 0,04 0,09 0,04 0,01 0,06
8 1 1
1
1
2
2 1
2
4e
1e
2e
3e
1 1
3
1 1
7
1
1
1
1 1
1
5e
Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang
Query 3
Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang
Query 4
Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang
Query 5
Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang
Query 6 Naam
1e
2e
1
6
3e
4e
1 1 1
2
1
1e
2e
3e
4e
6 2
2 2
1 4
1
4
1
1
1
2
6e
7e
8e
NRR 0 0,42 0 0 0,07 0 0,89 0,15 0,05 0 0 0
Computerscore 0,03 0,12 0,04 0,06 0,16 0,03 0,66 0,09 0,01 0,17 0,09 0,08
5e
6e
7e
8e
NRR 0 0,76 0,47 0 0,24 0 0 0,37 0,04 0 0 0,03
Computerscore 0,07 0,30 0,19 0,10 0,14 0,05 0,15 0,07 0,04 0,07 0,07 0,18
6e 1
7e
8e
NRR 0,02 0,78 0 0,15 0,54 0 0 0 0 0 0,21 0,17
Computerscore 0,15 0,20 0,10 0,13 0,20 0,06 0,09 0,09 0,05 0,09 0,21 0,10
6e
7e
8e
NRR
Computerscore
3 2
1
1e
2e
7
1
3
1e
0,06 0,10
5e
2 8
0 0
3e
4e
5e
1 3
1 2
1
2
2 1
3 1
3
2e
3e
4e
5e
Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang
Query 7
Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang
Query 8
Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang
Query 9
Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp
3 4
2 2
3 1
1 2
1
4
2
1
3 2
1 1
1 1
1
4e
5e
6e
7e
8e
NRR 0 0,20 0 0 0,09 0 0,94 0,27 0,06 0,04 0 0
Computerscore 0,03 0,24 0,02 0,17 0,25 0,03 0,62 0,06 0,01 0,05 0,04 0,09
5e
6e
7e
8e
NRR 0 0,51 0,03 0,01 0,86 0 0,02 0 0,01 0 0,02 0,03
Computerscore 0,14 0,16 0,08 0,14 0,12 0,05 0,11 0,12 0,13 0,07 0,07 0,11
NRR 0 0,39 0 0 0,08 0
Computerscore 0,13 0,11 0,06 0,07 0,16 0,04
1e
2e
3e
1
1
1
1
1
8
1 3
1e
2e
2
6
1
2 1 1
1 1
3e
4e
1 1 8
1 1 1 1 1
1e
2e
2
2
0,25 0,10 0,05 0,11 0,24 0,24 0,12 0,05 0,01 0,20 0,21 0,18
2 1
1 1
0,55 0,61 0 0,04 0,38 0,06 0 0 0 0,02 0,21 0,36
3e
4e 1
2
5e
6e
7e
8e
Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang
Query 10
Naam Drs. Toine Bogers Dr. Antal van den Bosch Drs. Bertjan Busser Drs. Sander Canisius Prof. dr. Walter Daelemans Drs. Marieke van Erp Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Martin Reynaert Dr. Caroline Sporleder Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang
Bijlage 4.3:
7
1 1
1
3e
4e
1
1e
2e
1
7
5e
6e
7e
8e
1 1 1
5
9 1
0,91 0,07 0 0,06 0 0
0,29 0,07 0,02 0,05 0,10 0,12
NRR 0 0,44 0,02 0,02 0,21 0 0 0 0 0 0,87 0,02
Computerscore 0,08 0,19 0,05 0,05 0,19 0,05 0,06 0,04 0,05 0,08 0,44 0,08
De expertranking van de beoordelingen per query uit de vragenlijst door de ILK-leden, de expertranking bepaald door de computer en per publicatie is de ranking weergegeven.
Query 1
Naam Dr. Antal van den Bosch Prof. dr. Walter Daelemans Dr. Iris Hendrickx Drs. Sander Canisius Dr. Erik Tjong Kim Sang Dr. Erwin Marsi Drs. Bertjan Busser
Vragenlijst ranking
Computer ranking
1 2 3 4 5 6 7
2 3 1 5 4 6 10
1 2 3 4 5 6
6 1 9 10 8 12
1
1
Query 2
Naam Prof. dr. Walter Daelemans Dr. Antal van den Bosch Drs. Bertjan Busser Dr. Erwin Marsi Dr. Caroline Sporleder Dr. Martin Reynaert
Query 3
Naam Dr. Piroska Lendvai
Dr. Antal van den Bosch Dr. Erwin Marsi Prof. dr. Walter Daelemans Dr. Martin Reynaert
2 3 4 5
4 5 3 12
1 2 3 4 5 6
1 2 7 5 12 3
1 2 3 4 5 6
2 3 1 6 5 4
1 2 3 4 5 6 7 8
9 1 3 6 4 2 8 5
1 2 3 4 5 6
1 6 3 2 12 7
1 2 3 4
6 1 9 7
Query 4
Naam Dr. Antal van den Bosch Drs. Bertjan Busser Dr. Erwin Marsi Prof. dr. Walter Daelemans Dr. Martin Reynaert Dr. Erik Tjong Kim Sang
Query 5
Naam Dr. Antal van den Bosch Prof. dr. Walter Daelemans Dr. Iris Hendrickx Dr. Erik Tjong Kim Sang Drs. Sander Canisius Drs. Toine Bogers
Query 6
Naam Dr. Antal van den Bosch Drs. Toine Bogers Prof. dr. Walter Daelemans Dr. Erik Tjong Kim Sang Dr. Iris Hendrickx Drs. Marieke van Erp Drs. Sander Canisius Dr. Caroline Sporleder
Query 7
Naam Dr. Piroska Lendvai Dr. Erwin Marsi Dr. Antal van den Bosch Prof. dr. Walter Daelemans Dr. Martin Reynaert Dr. Caroline Sporleder
Query 8
Naam Prof. dr. Walter Daelemans Dr. Antal van den Bosch Drs. Bertjan Busser Dr. Erik Tjong Kim Sang
Dr. Piroska Lendvai Dr. Iris Hendrickx Dr. Martin Reynaert Drs. Sander Canisius
5 6 7 8
8 10 4 2
1 2 3 4 5
1 5 2 7 10
1 2 3 4 5 6
1 3 2 10 11 6
Query 9
Naam Dr. Piroska Lendvai Dr. Antal van den Bosch Prof. dr. Walter Daelemans Dr. Erwin Marsi Dr. Caroline Sporleder
Query 10
Naam Dr. Iris Hendrickx Dr. Antal van den Bosch Prof. dr. Walter Daelemans Drs. Bertjan Busser Drs. Sander Canisius Dr. Erik Tjong Kim Sang