Abstract De meeste mensen op Internet beginnen het surfen met gebruik van een zoekmachine. Zoekmachines spelen een grote rol bij het vinden van aanbieders van informatie, producten en diensten. Wanneer een aanbieder vandaag de dag niet met een grote zoekmachine zoals Google te vinden is, loopt hij veel bezoekers en potentiële klanten mis. Mensen verwachten van een zoekmachine snel en eenvoudig de beste resultaten op hun zoekopdracht te krijgen. Zij zijn alleen tevreden met relevante resultaten op hun zoekopdracht. Is het mogelijk dat zowel aanbieders als zoekers tevreden zijn? Deze scriptie is het resultaat van een onderzoek naar de tevredenheid van aanbieders en zoekers over zoekmachines. De aanbieder wil hoog binnen de zoekresultaten staan voor relevante zoekopdrachten en de zoeker wil snel relevante documenten vinden om zijn informatiebehoefte te bevredigen. Deze optimale situatie waarin beide partijen tevreden zijn hangt van een aantal belangrijke factoren af. Deze factoren zijn in een model samengevoegd en beschreven. Om tot dit model te komen is bestaande literatuur over zoekmachines geraadpleegd op het gebied van body indexatie, meta-informatie, relaties andere websites en zoekmachine gebruikers. Met behulp van deze literatuurstudie zijn de elementen van het model beschreven en is het model tot stand gekomen. Om het model te valideren zijn domeinexperts gevraagd om hun feedback op het model te geven.
Customer Satisfaction via Goal Driven content extraction
BODY INDEXATIE................................................................................ 8 2.1 INLEIDING ......................................................................................8 Analyse tekst zonder opmaak ...........................................................8 Analyse tekst met opmaak ............................................................ 10 2.2 INVERTED INDEX .............................................................................. 11 2.3 PROBLEMEN BODY INDEXATIE ................................................................. 12 Spam ....................................................................................... 12 Opslag ..................................................................................... 14
3
META-INFORMATIE ............................................................................15 3.1 INLEIDING .................................................................................... 15 3.2 GEBRUIK META-INFORMATIE .................................................................. 15 HTML Meta Tag .......................................................................... 15 Dublin Core ............................................................................... 16 3.3 PROBLEMEN META-INFORMATIE ............................................................... 17 Spam ....................................................................................... 17 Objectiviteit ............................................................................. 18 Oplossing.................................................................................. 18
Customer Satisfaction via Goal Driven content extraction
Voorwoord Deze scriptie is het resultaat van het afstudeeronderzoek voor mijn studie informatiekunde aan het Nijmeegs Instituut voor Informatica en Informatiekunde van de Katholieke Universiteit Nijmegen. Dit onderzoek heb ik als afstudeerstage uitgevoerd bij het Nijmeegse Search Engine Media Bureau Checkit. Na mijn studie informatica aan de Hogeschool van Arnhem en Nijmegen ben ik als HBO instromer begonnen aan de studie informatiekunde. Na vier jaar informatica wilde ik enerzijds mijn kennis verbreden en anderzijds mijn studentenleven verlengen. Deze doelen zijn bereikt en de twee extra jaren zijn omgevlogen. Informatiekunde is een relatief nieuwe studierichting. Zo ondervond ik waar Erik Proper in zijn inaugurale rede over sprak: exacte vaagheid. Sommige problemen waar ik tegen aanliep waren vaag en moeilijk vatbaar. Gelukkig kon ik met hulp van mijn afstudeerbegeleider deze problemen bevatten en er mee omgaan. Door deze vage probleemstukken heb ik wel meer inzicht gekregen in het nut van exacte specificaties. Graag wil ik de volgende mensen bedanken voor hun (indirecte) bijdrage aan deze scriptie: Theo van der Weide (begeleider vanuit de universiteit), Marco van Veen (begeleider vanuit Checkit), al mijn collega’s binnen Checkit voor hun nuttige input, Toine Verheul (vanuit WiseGuys was hij bereid naar het model te kijken en mij goede feedback te geven) en tot slot de mensen die ik persoonlijk ken en mij geholpen hebben. Geen voorwoord is compleet zonder quote, daarom wil ik graag de volgende quote vermelden van een van de oprichters van de wereldberoemde zoekmachine Google.
'The ultimate search engine would understand exactly what you mean and give back exactly what you want' Larry Page, oprichter Google
David Fremeijer mei 2004
5
Customer Satisfaction via Goal Driven content extraction
1 Inleiding Op Internet kan een zoekmachine zoals Google worden gezien als een bemiddelaar tussen vraag en aanbod. Het aanbod bestaat uit miljarden webpagina’s die op Internet te bezoeken zijn. De vraag bestaat uit de mensen die gebruik maken van Internet om hun informatiebehoefte te bevredigen. Zoekmachines op Internet hebben de moeilijke taak om zoekers aan aanbieders te koppelen. Dit onderzoek is uitgevoerd bij het Nijmeegse bedrijf Checkit. Checkit is een Search Engine Media Bureau dat klanten helpt om meer kwalitatieve bezoekers naar hun website te trekken. Dit kan worden bereikt door middel van search engine marketing (SEM). Binnen SEM is één van de manieren om meer kwalitatief bezoek aan te trekken, het optimaliseren van de website voor zoekmachines. Door dit optimalisatieproces komen websites hoger in de zoekmachine resultaten te staan voor relevante zoekopdrachten. Door deze hogere positie zullen meer mensen hun weg naar de website vinden.
1.1 Probleemstelling De klanten van Checkit bestaan uit bedrijven met websites die informatie, producten of diensten aanbieden via de website. Deze aanbieders hebben baat bij meer kwalitatief bezoek. Wanneer zij hoog in de zoekmachine resultaten staan, krijgen zij meer kwalitatief bezoek en zijn zij tevreden. De positie van de aanbieder binnen de zoekresultaten van een zoekmachine hangt af van een aantal factoren. Checkit probeert deze factoren zo te beïnvloeden zodat de aanbieder voor relevante zoektermen hoger in de zoekresultaten komt te staan. Zoekmachines hebben te maken met twee verschillende partijen, de aanbieders en de zoekers van informatie. Voor de zoekmachine is de tevredenheid van de zoekers het meest belangrijk. Wanneer de zoekers niet meer tevreden zijn over de zoekmachine kunnen zij snel overstappen op een van de vele andere zoekmachines. Voor de zoekmachine is dit niet goed omdat op die manier bezoekers en daarom inkomsten worden misgelopen. Zoekmachines hebben de zware taak om de zoeker zoveel mogelijk te voorzien van relevante zoekresultaten voor hun zoekopdracht. De aanbieders van informatie en diensten hebben er baat bij om goed vindbaar te zijn binnen de zoekmachines. Door goed vindbaar te zijn binnen zoekmachines zijn aanbieders in staat om zoekers te bereiken die daadwerkelijk op zoek zijn naar informatie die de aanbieder aanbiedt. De tevredenheid van de zoeker en aanbieder is afhankelijk van een aantal factoren. De vraag is wat deze factoren zijn en of en hoe het mogelijk is om die factoren zo te manipuleren zodat zowel aanbieder als zoeker tevreden zijn.
6
Customer Satisfaction via Goal Driven content extraction
1.2 Onderzoeksvraag Tijdens het onderzoek is de onderzoeksvraag enigszins verbreedt. In het plan van aanpak staat de onderzoeksvraag als volgt geformuleerd: “Ontwikkel een model om webpagina’s inhoudelijk te beschrijven waarin naar voren komt hoe een zoekmachine deze ziet en dat zich leent voor kwaliteitsbewaking.” In de loop van het onderzoek bleek dat deze vraag niet de inhoud van het onderzoek volledig dekte. Deze vraag was meer een deel van het geheel. Het bleek dat de tevredenheidsaspecten van de verschillende partijen waar een zoekmachine mee te maken heeft ook een grote rol binnen het onderzoek speelden. Zodoende is de onderzoeksvraag bijgesteld naar de volgende onderzoeksvraag: “Ontwikkel een model om te beschrijven hoe de tevredenheid van zoeker en aanbieder binnen zoekmachines zich tot elkaar verhouden en welke factoren hierbij een rol spelen.” Met deze vraag wordt de strekking van het onderzoek beter gedekt.
1.3 Opbouw In de hoofdstukken 2 tot en met 4 zal de basis van de werking van zoekmachines worden beschreven. Dit zijn de resultaten van de literatuurstudie over information retrieval voor het web. Hoofdstuk 2 gaat over de basis van body indexatie oftewel content extraction zoals zoekmachines die toepassen. In hoofdstuk 3 zal de werking van meta-informatie en de invloed daarvan op zoekmachines worden beschreven. Vervolgens wordt in hoofdstuk 4 beschreven hoe zoekmachines populariteit van websites meten aan de hand van de linkstructuur van het Internet. De relatie tussen de zoekmachine en zoekmachine gebruiker wordt vervolgens in hoofdstuk 5 beschreven. Nu in het eerste deel de basiskennis over zoekmachines vermeld staat wordt in hoofdstuk 6 de probleemstelling nader uitgewerkt en komen er verschillende elementen van het model in hoofdstuk 7 aan bod. In hoofdstuk 8 wordt de validatie van het model behandeld. De conclusies en aanbevelingen zijn te vinden in hoofdstuk 9 en tot slot staat de literatuurvermelding in hoofdstuk 10.
7
Customer Satisfaction via Goal Driven content extraction
2 Body indexatie 2.1 Inleiding Om efficiënt te kunnen zoeken binnen een (grote) collectie van documenten moeten deze documenten worden opgenomen in een index. Met een index wordt een lijst van verwijzingen van woorden naar posities binnen teksten bedoeld. Vanwege opslag en performance redenen worden niet de volledige documenten opgeslagen in de index maar slechts een kortere representatie van het document. Deze representatie kan zowel automatisch als met de hand van een document worden geconstrueerd [3]. Een document bestaat uit twee delen, de heading en de body. In de heading is een beschrijving van het document opgenomen. Deze beschrijving kan verschillende elementen bevatten zoals de auteur, taal waarin het document beschreven is, titel en inhoudelijke beschrijvingen van het document. In hoofdstuk 3 zal dit nader worden beschreven. Het semantisch web [20] heeft als doel een gestandaardiseerde manier te geven om de inhoud van een document te beschrijven. In de body van de tekst staat de feitelijke inhoud van de tekst. De tekst is een representatie van de boodschap die de auteur(s) wil(len) overbrengen. Ze gebruiken tekst als verpakking om de boodschap over te brengen. Het is de bedoeling dat de boodschap wordt gereconstrueerd uit de tekst. Vervolgens kan de boodschap worden gerepresenteerd met een bepaald systeem. Een systeem om de boodschap te representeren kan een index zijn. Om automatisch een representatie van een document te verkrijgen kan er gebruik worden gemaakt van body indexatie. Body indexatie houdt in dat uit de tekst van een document een aantal woorden (ook wel termen) wordt verkregen die het document representeren. Van alle woorden die een document bevat moet er per woord worden bekeken in hoeverre het woord representatief is voor het document. Woorden die representatiever voor het document zijn moeten uiteindelijk zwaarder in de index meewegen dan woorden die minder representatief zijn. De voorkeur voor het indexeren van webpagina’s gaat uit naar een geautomatiseerde methode. Met een geautomatiseerde methode kan elke pagina op dezelfde manier worden geïndexeerd. Dit heeft als voordeel dat de indexatie objectief gebeurt. Tevens kunnen er met een geautomatiseerde methode veel sneller webpagina’s geïndexeerd worden dan wanneer dit handmatig gebeurt. Om uit een document precies de woorden te halen die het document representeren kan een aantal methoden worden gebruikt, afhankelijk van de opbouw en opmaak van het document.
Analyse tekst zonder opmaak Bij tekstanalyse wordt er van platte tekst uitgegaan. Er kan worden gekeken naar de frequentie waarmee woorden voorkomen in het document. Hoe hoger de frequentie van een woord is, des te representatiever dit woord is voor het document.
8
Customer Satisfaction via Goal Driven content extraction
Stopwoorden Aangezien er in elke taal een aantal woorden zeer frequent voorkomt die geen echte waarde hebben voor de indexatie moeten deze verwijderd worden uit de tekst. Deze woorden heten stopwoorden, een voorbeeld van deze woorden voor de Nederlandse taal zijn: met, zijn, wat, ik, hoe etc [4]. Bij het verwijderen van stopwoorden moet goed worden gelet op de betekenis van de stopwoorden. Zo kan het woord kan worden aangemerkt als stopwoord. Hier wordt dan uitgegaan van het werkwoord kunnen. Het woord kan zou ook als zelfstandig naamwoord bedoeld kunnen worden. In dit soort gevallen kan het woord beter niet worden opgenomen in de stopwoorden lijst [5]. Inverse document frequency Stopwoorden kunnen ook in teksten worden ontdekt met Inverse Document Frequency (IDF). Dit houdt in dat er wordt gekeken welke woorden veel voorkomen over meerdere documenten gezien. Aangezien de stopwoorden in elk document veel voorkomen komen die met deze methode aan het licht. Aan de andere kant zullen woorden die in één tekst veel vaker voorkomen dan in andere teksten meer representatief zijn voor de tekst. Een methode om de IDF voor een term te bepalen is als volgt gedefinieerd [5]:
IDF (t ) log
1 D Dt
Waarbij D de collectie van documenten is en Dt de collectie van documenten is waar de term t in voorkomt. Stemming Een tweede probleem bij tekstanalyse is dat woorden met verschillende gedaantes of vervoegingen soms hetzelfde betekenen. Het woord fiets kent meerdere vormen zoals fietsen, fietsje, fietsjes. Deze woorden hebben bij een document dat over fietsen gaat meestal dezelfde betekenis. Om te voorkomen dat door deze verschillende vormen de resultaten van de indexatie worden verstoord moeten deze woorden worden teruggebracht tot een stam zoals fiets. Dit kan worden bereikt door aan de hand van regels en een lijst veel voorkomende toevoegingen elk woord proberen terug te brengen tot een stam, in het Engels wordt dit ‘stemming’ genoemd [3][5]. Een veel gebruikt algoritme om Engelse woorden terug te brengen tot een stam is het algoritme van Porter. Bij het algoritme van Porter wordt aan de hand van een aantal regels, woorden systematisch teruggebracht tot een stam. Deze regels bestaan uit lijsten van toevoegingen met de daarbij behorende regels om deze te verwijderen van het woord [8]. Een algoritme als dat van Porter kan het aantal relevante documenten bij een zoekopdracht verhogen, maar kan er tevens voor zorgen dat niet relevante documenten bij de zoekresultaten komen. Niet relevante documenten kunnen bij de resultaten komen wanneer van woorden een stam met een andere betekenis wordt afgeleid. Ook komt het voor dat door het verwijderen van toevoegingen woorden ontstaan die niet bestaan. Zo wordt het woord bodemsanering met behulp van een variant op het Porter algoritme voor de Nederlandse taal tot bodemsaner omgevormd. Hieruit blijkt dat het
9
Customer Satisfaction via Goal Driven content extraction
voor zoekmachines van essentieel belang is om een correct algoritme te gebruiken om woorden tot een stam terug te brengen, wanneer dit niet op een correcte manier gebeurt, is het beter om deze techniek helemaal niet toe te passen. Wanneer de stopwoorden uit de tekst verwijderd zijn en de woorden zijn teruggebracht tot een stam, blijven woorden over die representatief zijn voor de inhoud van de tekst. Wanneer er woorden vaker voorkomen in de tekst krijgen deze een hogere weging in de index. Hoe een index kan worden opgebouwd is in hoofdstuk 2.2 te zien. Recall en Precision Om te kunnen beoordelen of de hierboven genoemde methoden voordelen opleveren voor de uiteindelijke relevantie bepaling van documenten, kan gebruik worden gemaakt van een benchmark van de resultaten van een zoekopdracht. Deze benchmark is te vinden in paragraaf Recall & Precision van hoofdstuk 5.3. Het terugbrengen van woorden tot de stam heeft als voordeel dat er meer documenten die over het onderwerp gaan bij de uiteindelijke resultaten worden gevoegd. De recall wordt dus hoger. Het terugbrengen van woorden tot een basisvorm kan ook een nadeel hebben wanneer de betekenis van de woorden niet meer overeenkomt met de inhoud van het document. De precision gaat dan omlaag. Positie De positie in de tekst van gevonden woorden kan tevens worden gebruikt voor de relevantiebepaling van deze woorden. Zo gaat Google ervan uit dat woorden die aan het begin van de tekst gevonden worden belangrijker zijn dan woorden die helemaal aan het einde van de tekst gevonden worden [10]. Bij deze methode wordt een document gezien als een opeenvolging van woorden. De score aan de hand van de positie van een woord binnen een document kan dan als volgt worden bepaald:
sc ( w, d ) tf ( w)
1 pos( w, d )
Waarbij tf (w) de term frequency (voorkomen van de term) binnen het document en
pos( w, d ) de positie van het woord binnen het document is. Analyse tekst met opmaak In de vorige paragraaf wordt de basis van tekstanalyse zoals zoekmachines die gebruiken kort beschreven. Er werd bij deze methode nog geen aandacht besteed aan de opmaak van de tekst. Aangezien zoekmachines vooral websites met opmaak indexeren hebben zij het voordeel dat websites niet alleen uit tekst bestaan, maar ook een gestructureerde opbouw hebben. Websites zijn uit HTML opgebouwd, dit heeft een voordeel dat er meer informatie beschikbaar is over de gevonden woorden. Bij HTML worden tags gebruikt om tekst bepaalde opmaak te geven. Het is mogelijk om met behulp van deze tags semantiek uit de pagina te halen [14]. Een woord kan tussen bepaalde tags staan die het woord groter of dikker gedrukt maken binnen de website. Veel zoekmachines nemen aan dat zo’n woord dan belangrijker is dan woorden die normaal gedrukt staan [6]. Ook wanneer er een verwijzing van een site naar een
10
Customer Satisfaction via Goal Driven content extraction
andere site gemaakt wordt, zegt de tekst van de verwijzing wat over de site waarnaar verwezen wordt [13]. Zoals te lezen was in paragraaf Positie kan uit de positie van tekst ook de relevantie van termen worden bepaald. Termen die meer aan het begin van het document staan worden belangrijker geacht dan termen die meer aan het einde van het document staan. Binnen HTML documenten komt hier nog eens bij dat aan het begin van HTML documenten de titel en eventuele META tags zijn vastgelegd. Deze elementen krijgen een zwaardere weging dan het daaropvolgende element. De opbouw van een HTML document kan worden gezien als een boom met de tag als root. Onder deze root tag vallen alle tags waaruit de website is opgebouwd. Door van elementen te bepalen wat de bovenliggende tags zijn, kan van deze elementen een weging aan de hand van die tags worden bepaald. Een kop zal bijvoorbeeld binnen een
tag binnen een
tag staan. Dit kan een indicatie zijn dat dit woord een belangrijker woord binnen de tekst is dan andere woorden. Wanneer er afbeeldingen binnen een website worden gebruikt, zal een zoekmachine niet letterlijk de afbeeldingen kunnen bekijken (al wordt daar wel onderzoek naar gedaan [9]). De meeste zoekmachines kijken naar de omschrijving van de afbeelding (die in het ALT attribuut van een HTML img tag kan worden opgenomen). Tevens kunnen bestandsnamen van afbeeldingen ook relevante woorden over de afbeelding bevatten [15]. Welke elementen precies welke rol spelen voor een zoekmachine is in de meeste gevallen informatie die de zoekmachines niet prijsgeven. Er is onderzoek gedaan om de werking van zoekmachines preciezer te achterhalen [34]. In dit onderzoek werden aan de hand van beslissingsbomen modellen van zoekmachines gemaakt waaruit bleek welke elementen zoekmachines bekeken tijdens het indexeren van websites.
2.2 Inverted Index In de voorgaande hoofdstukken is beschreven hoe van documenten een relevante representatie kan worden gevormd. In dit hoofdstuk zal een methode worden beschreven om deze representatie zo op te slaan, zodat deze kan worden doorzocht aan de hand van een zoekopdracht van een gebruiker. Om een (groot) aantal documenten efficiënt te kunnen doorzoeken, maken de meeste zoekmachines gebruik van een inverted index. Een inverted index is een datastructuur waarbij een relatie wordt gelegd tussen woorden en documenten waarin deze woorden voorkomen [6]. In de meest simpele vorm van een inverted index wordt per woord het document en de positie binnen dit document opgeslagen, zoals te zien is in figuur 2-1. Deze simpele inverted index bevat echter geen informatie over de relevantie van de woorden voor het document. De enige informatie die is opgeslagen, is op welke positie het woord in het document voorkomt. Uit de positie van het woord in het document kan enige vorm van relevantie worden afgeleid wanneer men ervan uitgaat dat woorden aan
11
Customer Satisfaction via Goal Driven content extraction
het begin van het document een zwaardere weging hebben dan woorden aan het einde van het document. Woord
Voorkomen
kunst
D1/1
vindbaar
D1/5; D2/19
kun je het regelen dat de
regelen
D1/11
zoekende internetter bij de
zoekende
D1/14; D2/2
bedrijfs website uitkomt.
internetter
D1/15; D2/3
website
D1/19; D2/10
uitkomt
D1/19; D2/11
Document 2
tevreden
D2/5
Een zoekende internetter is
waarop
D2/12
tevreden als hij bij een website
staat
D2/13
uitkomt waarop staat wat hij
zoekt
D2/16
zoekt. Een bedrijf wil vindbaar
bedrijf
D1/18; D2/18
zijn.
Document 1 De kunst is het vindbaar zijn. Hoe
figuur 2-1 Inverted index
Om tijdens de presentatie van de zoekresultaten tot een volgorde te komen waarbij de meest relevante documenten bovenaan staan, moet er meer informatie in de inverted index worden opgenomen. Dit kan informatie zijn over de frequentie waarmee het woord binnen het document voorkomt, maar ook informatie die uit de HTMLstructuur van het document verkregen kan worden. Wanneer deze informatie wordt opgenomen in de inverted index, kan tijdens het sorteren van de zoekresultaten worden gesorteerd op relevantie aan de hand van deze informatie. Deze extra informatie kan in de inverted index worden opgeslagen door gebruik te maken van een payload veld [6]. In dit veld kan eventuele extra informatie over het woord worden opgeslagen, zoals de HTML tags waar het woord tussen staat (,
,
, <strong> etc.).
2.3 Problemen body indexatie Spam Aangezien het voor commerciële websites erg gewenst is om bij de eerste tien zoekresultaten van een zoekmachine te staan, proberen veel websites bewust een hogere positie binnen zoekresultaten te krijgen. Middels deze hogere positie binnen de zoekresultaten krijgen ze meestal meer kwalitatief bezoek. Kwalitatief bezoek kan als volgt worden gedefinieerd: Bezoek in de vorm van mensen die een website bezoeken omdat ze daadwerkelijk op zoek zijn naar de informatie die de website te bieden heeft en zo mogelijk iets met deze informatie gaan doen. Beheerders van websites passen diverse manieren toe in een poging om de volgorde van zoekresultaten te beïnvloeden. De overeenkomst van deze methoden is dat ze anticiperen op de methode van indexeren door zoekmachines. Hierbij voegen sites
12
Customer Satisfaction via Goal Driven content extraction
(misleidende) informatie toe die al dan niet zichtbaar is voor de bezoeker van de website. De meeste zoekmachines hebben regels omtrent het anticiperen op de indexatie methode van zoekmachines. Zo ziet Google onder andere verborgen tekst, herhalingen van termen en misleidende termen [16] als schending van de regels. Deze methoden worden vaak met Search Engine Spam aangeduid. Een methode die van toepassing is op de body indexatie, is tekst gebaseerde spam [7]. Bij tekstgebaseerde spam wordt de tekst van een document zo aangepast, dat de zoekmachine het document als relevant beschouwd, terwijl deze aanpassing niet bijdraagt aan de relevantie voor de zoeker. Op deze manier wordt de zoekmachine vervuild met informatie die niet relevant is voor de zoeker. Niet alleen de gebruiker van de zoekmachine ondervindt hier hinder van, maar ook sites die wel relevant zijn voor een zoekterm kunnen hierdoor lager in de lijst verschijnen of helemaal onvindbaar worden. Een manier die gebruikt wordt in een poging om de positie van de pagina te verhogen is het plaatsen van een (groot) aantal woorden op de pagina die de gebruiker niet ziet maar de zoekmachine wel. Dit kan worden gedaan door de teksten zo klein te maken zodat de bezoeker van de website deze niet ziet, de tekst kan ook in dezelfde kleur als de achtergrond worden geplaatst om hetzelfde effect te bereiken [7]. HTML Spam Ook HTML tags worden gebruikt voor Search Engine Spam. Een veelgebruikte manier is, om HTML zo te gebruiken, dat bezoekers van de website de tekst niet zien en zoekmachine spiders wel. Dit kan op verschillende manieren worden gedaan [12]. Tekst in dezelfde kleur als de achtergrond plaatsen is een relatief simpele manier hiervan. Er zijn echter veel ingewikkeldere manieren om de zoekmachine andere content te laten zien dan dat de bezoeker ziet. Anti spam Om te voorkomen dat zoekmachines teveel worden beïnvloed door spam van websites zijn zoekmachines continu bezig hun algoritmes aan te passen om spam te detecteren en eruit te filteren. Er kan bijvoorbeeld worden gekeken naar patronen in HTML die kunnen duiden op zoekmachine spam. Tevens kan er worden gecontroleerd of woorden die in de titel van het document voorkomen ook in de body tekst van het document voorkomen, maar de kleur van de tekst kan ook vergeleken worden met de achtergrondkleur van de pagina. Het vinden van technieken om spam mee op te sporen is een grote uitdaging voor zoekmachines. Zonder deze technieken wordt de index van een zoekmachine vervuild door wegpagina’s die zo aangepast zijn om de zoekmachine resultaten te beïnvloeden. Het ontwikkelen van deze technieken is een continu proces om de objectiviteit van zoekmachines te waarborgen. Het detecteren van spam is een lastig probleem, vaak lijken spam pagina’s qua opbouw veel op niet-spam pagina’s [11].
13
Customer Satisfaction via Goal Driven content extraction
Opslag Een ander probleem van body indexatie is dat de meeste zoekmachines zo veel mogelijk documenten willen indexeren. Dit brengt met zich mee dat de zoekmachines miljoenen tot miljarden pagina’s indexeren en opslaan. Om de index zo op te slaan dat deze ook nog snel doorzoekbaar is vereist een zo klein mogelijke index, zodat deze in het werkgeheugen van de zoekmachine past om diskseektijden te voorkomen [5]. Om dit te bereiken kan de index worden gecomprimeerd en kunnen er andere technieken worden gebruikt om de index in grootte te reduceren.
14
Customer Satisfaction via Goal Driven content extraction
3 Meta-Informatie 3.1 Inleiding In het vorige hoofdstuk werd beschreven hoe een zoekmachine uit de inhoud van webpagina’s informatie verkrijgt om later te doorzoeken. Van webpagina’s kan ook meta-informatie worden verkregen indien dit in de webpagina is opgenomen. Meta-informatie is beschrijvende informatie over informatie. Het concept is te vergelijken met een kaartenbaksysteem van een bibliotheek waar informatie is vastgelegd over de boeken die in een bibliotheek aanwezig zijn [20]. Het is ook mogelijk om van webpagina’s meta-informatie op te slaan. Dit is informatie over de inhoud van de webpagina’s. Deze informatie kan onder andere de titel, de auteur, de taal, een omschrijving en trefwoorden van de website bevatten. De meta-informatie is in eerste instantie niet bedoeld, en dus onzichtbaar voor de bezoeker van de website. De informatie is vooral bedoeld voor zoekmachines die de webpagina indexeren. In deze constructie zit een probleem, het is mogelijk om een zoekmachine andere informatie te geven dan dat de bezoeker van de website krijgt. Op deze manier is het mogelijk dat een zoekmachine de webpagina op heel andere onderwerpen relevant acht dan dat de bezoeker van de webpagina dat doet. De meta-informatie van een webpagina kan met de hand worden toegevoegd aan een website. Wanneer dit gebeurt, zal een persoon de webpagina bekijken en zelf een omschrijving en trefwoorden bedenken voor de website. De meta-informatie kan echter ook geautomatiseerd uit de website worden gegenereerd. Dit rapport zal vooral gaan over het handmatig toevoegen van meta-informatie aan een webpagina. Het gebruik van de meta-informatie en de voor- en nadelen zullen worden besproken.
3.2 Gebruik Meta-informatie HTML Meta Tag De meest gebruikte manier om meta-informatie aan een pagina toe te voegen is door gebruik te maken van de HTML <meta> tags. Speciaal voor zoekmachines zijn er twee van dit soort tags: de description en de keywords tag [17]. Met deze tags kan de auteur van de pagina een omschrijving en trefwoorden toevoegen aan de site. Description In deze tag kan een omschrijving van de pagina worden opgenomen. Het is belangrijk dat de omschrijving kort en bondig de inhoud van de pagina beschrijft. De description tag kan er als volgt uitzien: <meta name="description" content="Bij Search Engine Mediabureau Checkit kunt u terecht als u een toppositie bij zoekmachines wilt, voor zoekmachine onderzoek en gesponsorde links bij zoekmachines.">
15
Customer Satisfaction via Goal Driven content extraction
Een zoekmachine zou de inhoud van deze tag kunnen gebruiken om bij de zoekresultaten de omschrijving van de webpagina te tonen aan de gebruiker. De meeste zoekmachines tonen bij elk resultaat een klein stukje tekst om aan te geven waar deze pagina over gaat. Dit kleine stukje tekst kan uit verschillende elementen worden opgebouwd. Het verschilt per zoekmachine uit welke elementen het stukje tekst wordt opgebouwd. Over het algemeen maken de zoekmachines gebruik van (een combinatie van) de volgende bronnen [21]:
Snippet; (Een stuk tekst uit de pagina op de positie waar de woorden gevonden zijn.) Meta tag; (De HTML meta description tag) Op te geven regel; (Deze kan bij sommige zoekmachines (betaald) worden opgegeven bij aanmelding.) Eerste paar regels tekst van de website.
Keywords In deze tag kunnen trefwoorden worden opgenomen die de inhoud van de webpagina representeren. De tag bevat een opsomming van meerdere woorden en kan er als volgt uitzien: <meta name="keywords" content="SEO, optimaliseren, vindbaar, toppositie, webgidsen, optimalisatie website, zoekresultaten, Search Engine Optimisation, online vindbaar, online marketing, onderzoek vindbaarheid, paid inclusion, paid listing, CPC, PPC, onderzoek zoekmachines, zoekmachine advertentie, meer bezoekers, lage kosten, clickprijs, keywords, adwords, pay-per-click"> Deze tag is bedoeld om zoekmachines door middel van trefwoorden op de hoogte te stellen van de inhoud van de pagina. Hierbij is het essentieel dat de trefwoorden die in de tag staan een juiste representatie van de pagina geven.
Dublin Core De meest bekende verzameling metadata voor internetdocumenten is de Dublin Core Metadata Element Set. Deze set bestaat uit vijftien basiselementen. Het doel van de Dublin Core is de uitwisseling van metadata over het netwerk mogelijk te maken. Binnen de Dublin Core zijn er de volgende vijftien basiselementen gedefinieerd [22]:
16
Customer Satisfaction via Goal Driven content extraction
Titel Auteur of Schepper Onderwerp en Sleutelwoorden Abstract (samenvatting van de inhoud) Uitgever Andere bij het werk betrokken personen Datum van ontstaan Resource type Format Indentifier Bron Taal Relatie Bereik Rechten
Binnen een webpagina kunnen deze elementen op verschillende manieren worden ingevuld, binnen meta tags of met behulp van een RDF(Resource Description Framework) bestand. Een RDF bestand is een speciale XML notatie om Dublin Core meta-informatie op te slaan. De Dublin Core standaard is een andere methode om meta-informatie voor webpagina’s op te slaan. Qua toepassing en problemen komen dezelfde kwesties aan het licht. Vandaar dat hier niet dieper op de Dublin Core ingegaan zal worden.
3.3 Problemen Meta-informatie Spam In een ideale situatie, waar elke auteur nauwkeurig en precies correcte metainformatie zou toevoegen aan zijn webpagina’s, zouden zoekmachines het gemakkelijk hebben. Alleen de trefwoorden zouden geïndexeerd te hoeven worden, bij de zoekresultaten zouden de omschrijvingen getoond kunnen worden. De trefwoorden zouden immers perfect de inhoud van de website representeren. Wanneer een zoekmachine een zoekwoord van een gebruiker binnen de trefwoorden van een webpagina vindt, dan is de wegpagina al bijna zeker relevant voor deze gebruiker. Deze ideale situatie is soms mogelijk op een intranet of binnen een gecontroleerde collectie documenten. Binnen dergelijke collecties van documenten kan men ervan uitgaan dat de auteurs correcte meta-informatie opgeven over de documenten of webpagina’s. Echter op het openbare Internet, waar sprake is van een ongecontroleerde collectie documenten kan men niet uitgaan van correct toegevoegde meta tags. Met het commercieel worden van Internet, zijn websites gebaat bij zoveel mogelijk bezoekers op hun website. Hoe meer mensen de website vinden en bezoeken, hoe meer potentiële klanten de website krijgt. Daarom proberen veel websites via zoekmachines zoveel mogelijk bezoekers te krijgen. Websites willen op zoveel mogelijk zoektermen gevonden worden en zo hoog mogelijk in de zoekresultaten staan om maximaal bezoek te trekken.
17
Customer Satisfaction via Goal Driven content extraction
Vaak worden (of werden) meta tags misbruikt om op meer zoekwoorden gevonden te worden. Zo plaatsen auteurs (al dan niet bewust) trefwoorden die niet de inhoud van de pagina weerspiegelen. Er zijn zelfs voorbeelden bekend waarbij auteurs gigantische lijsten zoekwoorden opnemen om maar op zoveel mogelijk zoekwoorden gevonden te worden [7]. Het toevoegen van woorden aan de meta tags, die niet in inhoud van de website weerspiegelen kan gezien worden als spam. Ook waren er bedrijven die de namen van concurrenten opnamen in de meta keyword tags. Als mensen zochten op een bedrijfsnaam, was de kans groot dat ze terecht kwamen bij een concurrent. Hier zijn rechtszaken over geweest, aangespannen door websites die bezoekers misliepen, doordat concurrenten hun merknamen als meta keywords hadden gebruikt. Zoekers kunnen van deze vorm van spam hinder ondervinden doordat in de zoekresultaten van de zoekmachine, pagina’s voorkomen die in het geheel niet relevant zijn voor de zoeker. Wanneer de gebruiker dit binnen een zoekmachine vaker ondervindt zal hij snel overschakelen op een andere zoekmachine die betere manieren gebruikt om dit soort spam te voorkomen.
Objectiviteit Een ander probleem bij metadata is dat meestal slechts één persoon de omschrijving en trefwoorden van de website samenstelt, deze methode van omschrijven is subjectief. Iedereen zal de informatie van een pagina anders interpreteren en daaruit volgend een andere omschrijving en trefwoorden van de inhoud van de pagina formuleren. Om objectiviteit bij het beschrijven van een webpagina te waarborgen is het mogelijk om webpagina’s geautomatiseerd te beschrijven. Methoden hiervoor worden beschreven in hoofdstuk 2. Het geautomatiseerd beschrijven van websites heeft als voordeel dat elke website volgens dezelfde methode wordt beschreven, wat een objectief resultaat geeft. De voorkeur gaat uit naar geautomatiseerde methoden omdat deze moeilijker te beïnvloeden zijn door auteurs van websites. Ook is het vele malen sneller om websites geautomatiseerd te beschrijven dan wanneer dit met de hand gebeurt.
Oplossing Tegenwoordig kijken er nog maar weinig zoekmachines naar de HTML meta tags. Dit komt omdat deze tags zeer gemakkelijk te misbruiken zijn om gevonden te worden op niet relevante woorden. Door weinig of geen aandacht meer te besteden aan de misbruik gevoelige meta tags, proberen zoekmachines hun objectiviteit en kwaliteit te behouden. Aangezien de meta tags door nog zeer weinig zoekmachines gebruik worden en zelfs al dood verklaard zijn [19], zal in het onderzoek hier minder aandacht aan worden besteed.
18
Customer Satisfaction via Goal Driven content extraction
4 Relaties andere websites 4.1 Inleiding Zoekmachines spelen een grote rol bij de navigatie over het World Wide Web. Het aantal pagina’s op het World Wide Web neemt nog steeds enorm toe, in 2002 waren er ruim 9 miljard webpagina’s [23]. Wanneer mensen van een zoekmachine gebruik maken om informatie te vinden, is het belangrijk dat webpagina’s die bovenaan in de zoekresultaten staan zo goed mogelijk in de informatiebehoefte van de zoeker voldoen. Met het enorme aantal webpagina’s van nu is dat een lastige opgave voor zoekmachines. Aangezien de meeste zoekers maar de eerste 10 tot 30 zoekresultaten van een zoekmachine bekijken [31] is de manier van sorteren voor een zoekmachine erg belangrijk. De pagina’s die bovenaan de zoekresultaten staan moeten voor de zoeker zo relevant mogelijk zijn. Om dit te bereiken heeft elke zoekmachine een eigen methode van sorteren. Deze methode gaat meestal uit van trefwoorden binnen de webpagina (zoals te lezen is in hoofdstuk 2) in combinatie met een waardering (score) van de webpagina. Er zijn verschillende manieren om de waardering van een webpagina te bepalen, vaak wordt de hyperlinkstructuur van het web hiervoor gebruikt. Met deze methode wordt ervan uitgegaan dat wanneer website A naar website B een hyperlink heeft, dat website A een soort stem heeft voor website B. Hoe meer links een website van andere belangrijke websites heeft, hoe belangrijker de website wordt geacht. Door gebruik te maken van de linkstructuur van Internet wordt er gebruik gemaakt van velen duizenden meningen van de internetgemeenschap. Wanneer mensen verwijzingen maken naar documenten, dan weerspiegelt dat een mening. Deze meningen kunnen worden gebruikt om de kwaliteit van een document te bepalen. Verwijzingen tussen documenten worden al langer gebruikt om informatie te verkrijgen. Zo kan er van wetenschappelijke publicaties aan de hand van het aantal referenties naar een document een waarde indicatie worden gemaakt. Wanneer er veel documenten refereren naar een document dan is dat niet voor niets en zal dat document belangrijke informatie bevatten.
4.2 Pagerank & HITS Eind 1996 zijn er twee algoritmes ontwikkeld om een populariteitsscore van webpagina’s te bepalen gebaseerd op de links die naar de webpagina wijzen. Eén hiervan is binnen de universiteit van Stanford ontwikkeld door Larry Page en Sergey Brin [24] tijdens hun afstudeerproject toen zij Google ontwikkelden [10]. Dit algoritme heet Pagerank (vernoemd naar Larry Page) en kan de kwaliteit van een webpagina bepalen door de som te nemen van de kwaliteitsscore van de pagina’s die naar de webpagina wijzen. Dit kan voor elke webpagina gebeuren, onafhankelijk van een zoekopdracht of informatiebehoefte [5].
19
Customer Satisfaction via Goal Driven content extraction
Het tweede algoritme, genaamd HITS (Hyperlink Induced Topic Search), is binnen het IBM Almaden research centrum ontwikkeld door Jon Kleinberg [25]. Bij HITS wordt aan de hand van een zoekopdracht een gedeelte van het web geselecteerd. Vervolgens worden van dit gedeelte twee soorten pagina’s onderscheiden, authority en hub pagina’s. Authority pagina’s zijn pagina’s die worden gezien als een autoriteit binnen een bepaald gebied en waar veel pagina’s een link naar hebben. Hub pagina’s worden gezien als pagina’s met veel waardevolle links naar pagina’s over het onderwerp van de zoekopdracht (authority pages).
Pagerank Pagerank gebruikt de hyperlinkstructuur van het web om de populariteit van een website te bepalen. Hoe Pagerank te werk gaat kan worden vergeleken met een willekeurige surfer op het Internet. De surfer begint op een willekeurige pagina, door het klikken op hyperlinks verplaatst de surfer zich van pagina naar pagina. Op een gegeven moment vindt de surfer het niet interessant meer en begint hij opnieuw met een willekeurige pagina. De kans dat de surfer een pagina bezoekt is de Pagerank van die pagina. Hoe meer verwijzingen naar die pagina, hoe groter de kans is dat de surfer op die pagina komt, hoe hoger de Pagerank is. Pagerank is beschreven in vergelijking 4-1. Pagerank:
PR ( A) d NA C (n)
De Pagerank van pagina A . Een demping factor tussen de 0 en de 1 (Google gebruikt 0,85). De collectie van documenten die verwijst naar A . Het aantal verwijzingen vanuit pagina n .
PR (n) nN a C ( n )
PR ( A) (1 d ) d vergelijking 4-1 Pagerank
Dit betekent, dat van alle webpagina’s die naar pagina A linken, dat daarvan de Pagerank, gedeeld door het aantal uitgaande links, bij elkaar worden opgeteld. Vervolgens wordt dit vermenigvuldigd met de normalisatiefactor en daar wordt één min de normalisatiefactor bij opgeteld. Hieruit volgt de Pagerank van pagina A . Voordelen De Pagerank berekeningen hoeven niet voor elke zoekopdracht te worden berekend. Dit komt omdat de Pagerank berekeningen periodiek worden berekend voor de hele collectie webpagina’s. Hierdoor gaat de snelheid van de verwerking van een zoekopdracht omhoog. Een ander voordeel is dat van een webpagina een beoordeling kan worden gemaakt aan de hand van wat de internetgemeenschap ‘denkt’ van een website. Wanneer er veel (belangrijke) websites naar een bepaalde site linken is dat waarschijnlijk niet voor niets, die website zal interessante informatie bieden. Het is relatief moeilijk voor kwaadwillende (zoals spammers) om de Pagerank score te beïnvloeden. Aangezien de Pagerank score van een pagina afhankelijk is van andere pagina’s kan deze moeilijk worden beïnvloed. Er moeten veel pagina’s meewerken door
20
Customer Satisfaction via Goal Driven content extraction
verwijzingen te plaatsen om de score te verhogen voor één enkele pagina. Pagerank is dus moeilijk te misleiden. Er zijn echter gevallen bekend waarin dit wel gelukt is. Wanneer een partij zelf veel pagina’s op verschillende websites heeft en die allemaal onderling laat verwijzen naar elkaar dan wordt kunstmatig de Pagerank omhoog geschroefd [28], dit heeft wordt ook wel linkfarming genoemd. Nadelen Pagerank betrekt in de berekening niet de zoekopdracht van de gebruiker, hierdoor kan het voorkomen dat een pagina binnen de resultaten niet relevant is voor de zoekopdracht, maar wel hoog van kwaliteit is omdat hij een hoge Pagerank heeft. Omdat de kwaliteit toch hoger wordt geacht, ongeacht de zoekopdracht, kan het voorkomen dat de pagina binnen de resultaten hoger komt dan andere pagina’s die eigenlijk meer relevant zijn. Om te voorkomen dat dit nadelig werkt maakt Google (dat gebruik maakt van Pagerank) ook gebruik van andere factoren om de zoekresultaten te sorteren. Zo kijkt Google niet alleen naar aantal voorkomens van trefwoorden, maar ook naar linkteksten die andere websites opnemen [10]. Deze linkteksten vormen een goede beschrijving van de pagina waar ze naar toe verwijzen.
HITS Een groot verschil met Pagerank is, dat HITS wel zoekopdracht afhankelijk werkt. Dat wil zeggen dat bij HITS de zoekopdracht mee wordt genomen bij de berekening van de score van een document. Het doel van HITS is, om bij een brede zoekopdracht van één of twee zoekwoorden de belangrijkste pagina’s te onderscheiden. Er worden binnen HITS twee soorten scores bepaald voor documenten, een hub score en een authority score. Wanneer een document een hoge hub score heeft, dan heeft het document (veel) verwijzingen naar kwalitatieve documenten die relevant zijn. Wanneer een document een hoge authority score heeft, dan wordt het document relevant geacht voor de zoekwoorden. Documenten waar documenten met een hoge hub score naar toe wijzen worden gezien als relevant en hebben daarom een hoge authority score. Documenten die naar veel documenten wijzen met een hoge authority score worden gezien als goede hub pagina’s [26]. Op dit moment is er (naar eigen zeggen) maar één zoekmachine die gebaseerd is op het HITS algoritme, dit is de zoekmachine Teoma1. Methode Bij HITS wordt eerst aan de hand van de zoekopdracht een collectie van (bv de eerste 200) documenten opgehaald met behulp van een normale zoekmachine, zoals Altavista, die gebaseerd is op body indexatie. Vervolgens wordt deze startcollectie van documenten uitgebreid met documenten uit de omgeving van de startcollectie, zie figuur 4-1. Deze uitbreiding bestaat uit een collectie van documenten waar naar verwezen wordt vanuit de startcollectie of
Zoekwoord
Zoekmachine
Startcollectie
Omgevingscollectie figuur 4-1 Verkrijgen omgevingscollectie
1
http://www.teoma.com
21
Customer Satisfaction via Goal Driven content extraction
die naar de startcollectie verwijst. De collectie van documenten waarnaar verwezen wordt vanuit de startcollectie is gemakkelijk te verkrijgen door alle verwijzingen uit de documenten te bekijken. Om de collectie van documenten te vinden die verwijzen naar de startcollectie kan er gebruik worden gemaakt van een zoekmachine zoals Google. Het is mogelijk om aan Google te vragen welke documenten verwijzen naar een bepaald document. Aangezien er ontzettend veel documenten naar een ander document kunnen wijzen is het raadzaam een maximum van vijftig documenten aan te houden [25] wanneer de collectie wordt samengesteld van documenten die naar de startcollectie wijzen. Wanneer de startcollectie is uitgebreid met de collectie van omgevingsdocumenten is er een omgevingsgraaf ontstaan. Verwijzingen tussen documenten die niet op dezelfde host staan vormen de pijlen tussen de punten die documenten voorstellen. Verwijzingen tussen documenten die wel op dezelfde host staan worden niet meegenomen in het berekenen van de scores, omdat er van uit gegaan wordt dat deze verwijzingen van dezelfde auteur komen en daarom geen waarde aantonen van een document. Het algoritme om tot de score te komen is als volgt [26]: N is de omgevingscollectie.
H n is de hub score van document n . An is de authority score van document n . H n en An worden voor elk document n in N op 1 geïnitialiseerd.
Zolang de vectoren A en H niet convergeren:
( n',n )N H n' H n : ( n,n ')N An'
Voor alle n in N , A n : Voor alle n in N ,
Normaliseer de vectoren H en A De hub score van een document wordt bepaald door de authority scores van alle documenten waar naar verwezen wordt bij elkaar op te tellen. De authority score van een document wordt bepaald door de hub scores van alle documenten die ernaar verwijzen bij elkaar op te tellen. Voordelen Wanneer een zoekopdracht bestaat uit een breed zoekwoord, dan is het voor traditionele zoekmachines die op trefwoorden gebaseerd zijn moeilijk om de meest relevante documenten bovenaan de zoekresultaten te zetten. Brede zoekwoorden zijn zoekwoorden die qua betekenis zo breed zijn dat ze zeer veel documenten opleveren waar het woord in voor komt. Het voordeel van HITS is, dat wanneer er op een breed zoekwoord gezocht wordt, pagina’s worden onderscheiden die een autoriteit zijn op dat gebied. Zelfs pagina’s waar het zoekwoord niet (veel) op voorkomt worden gevonden door te kijken naar de hyperlinkstructuur van het web. De tekst waarmee een document naar een ander document verwijst wordt hierbij gebruikt. Nadelen De startcollectie van documenten waar het algoritme mee werkt is afkomstig van een standaard zoekmachine zoals Altavista. De resultaten van het algoritme zijn dus ook
22
Customer Satisfaction via Goal Driven content extraction
afhankelijk van deze zoekmachine. Wanneer de zoekmachine een collectie documenten oplevert die niet voldoende relevante pagina’s over het onderwerp bevat, dan zal het algoritme documenten met een hoge authority score over andere onderwerpen naar voren brengen. Dit komt omdat binnen een collectie documenten die door de zoekmachine wordt teruggegeven op een zoekopdracht waarschijnlijk wel veel verwijzingen zijn naar andere (belangrijke) onderwerpen. De documenten met de meeste verwijzingen zijn niet altijd de meest belangrijke onderwerpen die relevant zijn voor de zoekopdracht. Een ander nadeel is dat bij elke zoekopdracht er opnieuw een aantal vector berekeningen moet worden uitgevoerd wat elke keer weer tijd kost. In vergelijking met Pagerank, waarbij er per zoekopdracht minder berekeningen worden gemaakt is dit langzamer.
4.3 Conclusie Verwijzingen tussen webpagina kunnen worden gebruikt om een populariteitsscore te bepalen voor webpagina’s. Wanneer er veel pagina’s naar een pagina verwijzen kan dat worden gezien als veel stemmen voor die pagina, dus zal die pagina populairder zijn. Twee bekende algoritmes die gebruik maken van deze methode zijn Pagerank en HITS. Het verschil tussen de algoritmes is dat Pagerank query onafhankelijk werkt en HITS niet.
23
Customer Satisfaction via Goal Driven content extraction
5 Zoekmachine gebruiker 5.1 Inleiding Een gebruiker van een zoekmachine bezoekt een zoekmachine om documenten te vinden die kunnen voorzien in zijn informatiebehoefte. Hij start de zoekopdracht door één of meerdere woorden in te vullen die zijn informatiebehoefte weerspiegelen. De gebruiker communiceert met de user interface van de zoekmachine. Voor een deel wordt de ervaring die de gebruiker met zoekmachine heeft, bepaald door deze user interface. Voor een ander groot deel bepalen de resultaten van de zoekmachine de ervaring van de gebruiker. De user interface van een zoekmachine kan variëren van eenvoudig tot complex. Een beginnende zoeker heeft vaak meer aan een eenvoudige user interface terwijl een gevorderde gebruiker vaak meer controle wil hebben en daarom een geavanceerde user interface prefereert. Bij veel zoekmachines is mede daarom te zien dat er onderscheid is gemaakt tussen een simpele en geavanceerde user interface. De zoeker verwacht bij de resultaten van de zoekmachine relevante documenten met betrekking tot de informatiebehoefte die de zoeker gespecificeerd heeft. Aangezien het World Wide Web steeds groter wordt, krijgen de zoekmachines een steeds zwaardere taak om de meest relevante documenten bovenaan de zoekresultaten te zetten. De meeste gebruikers bekijken alleen de eerste twintig resultaten van een zoekmachine [31]. Aangezien er voor veel zoekopdrachten het resultaat uit duizenden of miljoenen documenten bestaat, is het belangrijk voor de zoeker dat de meest relevante documenten bovenaan de zoekresultaten staan. Binnen het zoekproces kan er een aantal fouten optreden waardoor de zoekmachine gebruiker minder tevreden kan zijn. In figuur 5-1 is te zien op welke punten er zich fouten kunnen voordoen binnen het zoekproces.
Informatie
Informatie in document
behoefte
representatie informatiebehoefte
1
4
match
representatie document
2
Zoeker
index
3
Informatie
Zoekmachine
stelt een punt voor waar fouten gemaakt kunnen worden figuur 5-1 Foutgevoelige punten binnen het zoekproces
24
Customer Satisfaction via Goal Driven content extraction
In onderstaande tabel is per punt beschreven wat er fout kan gaan binnen het zoekproces. Punt 1. Representatie van de informatiebehoefte.
2. Een match waarvan de zoekmachine acht dat deze relevant is voor de zoekopdracht.
3. De representatie van het document.
4. Representatie van informatie in tekst.
Wat kan er fout gaan Voor de zoeker is het moeilijk om precies zijn informatiebehoefte uit te drukken in een aantal zoektermen. Wat er fout kan gaan is dat de zoektermen heel anders kunnen worden opgevat dan wat de informatiebehoefte is die ermee bedoeld wordt. De zoekmachine kan een document relevant achten voor de informatiebehoefte van de zoeker terwijl dit niet zo is. Wanneer de zoekmachine gebruiker bijvoorbeeld zoekt op bank en daar een meubel mee bedoelt en de zoekmachine komt met resultaten over financiële instellingen. De zoekmachine kan de foute trefwoorden uit een document relevant achten voor het betreffende document. Als dit een foute representatie is van het document zal dit meer fouten opleveren tijdens de rest van proces. Dit kan ook komen door spam in het document waardoor de zoekmachine een verkeerd beeld krijgt van de geboden informatie. De informatie is vastgelegd in een document door middel van tekst. Fouten die hierin gemaakt kunnen worden zijn onder andere dat de tekst niet goed de informatie representeert die bedoeld wordt. Het is ook mogelijk dat de informatie is vastgelegd in een vorm die de zoekmachine niet kan lezen.
25
Customer Satisfaction via Goal Driven content extraction
In onderstaande tabel is per punt een aantal oplossingen beschreven voor de zaken die fout kunnen gaan. Punt 1. Representatie van de informatiebehoefte.
2. Een match waarvan de zoekmachine acht dat deze relevant is voor de zoekopdracht.
3. De representatie van het document.
4. Representatie van informatie in tekst.
Mogelijke oplossingen De zoeker moet zo vertrouwd mogelijk raken met de user interface van de zoekmachine. Op deze manier kan de zoeker zo goed mogelijk zijn informatiebehoefte aan de zoekmachine beschrijven. Hoe beter de zoekmachine ‘weet’ wat de zoeker zoekt, hoe beter de zoekmachine kan zoeken. De zoekmachine kan proberen om de precision zo hoog mogelijk te krijgen. De zoeker zal op deze manier zo veel mogelijk relevante documenten voor zijn zoekopdracht terugkrijgen. Dit kan bereikt worden door verbeteringen in het algoritme van de zoekmachine. De zoekmachine maakt een representatie van de documenten om in de index op te slaan. Deze representatie moet zo veel mogelijk overeenkomen met de informatie die in het document staat. Pogingen tot spam moeten gedetecteerd en genegeerd worden. De tekst moet zo goed mogelijk de informatie weerspiegelen. De tekst moet door de zoekmachine goed te indexeren zijn. Voor webpagina’s is deze tekst zo te optimaliseren, zodat zoekmachines de juiste woorden gebruiken bij de content extraction.
26
Customer Satisfaction via Goal Driven content extraction
5.2 User interface De meeste user interfaces van zoekmachines laten bij de presentatie van resultaten een lijst van webpagina’s zien. Er zijn ook andere methoden om de resultaten te laten zien. Zo laten zoekmachines als Excite en Dogpile binnen resultaten een onderverdeling van de resultaten in rubrieken zien. Hierbij wordt gebruik gemaakt van clustering [3]. Clustering kan voor de gebruiker van de zoekmachine nuttig zijn, omdat de zoekmachine ‘meedenkt’ met de gebruiker. De zoeker kan door op een cluster te klikken aangeven wat hij precies bedoeld met het zoekwoord wat is opgegeven. De zoekmachine Excite2 geeft op de brede zoekopdracht jaguar de volgende clusters:
Quote, Price Cars Football, Jacksonville Model Parts History, Book Club Cats
Hier onderscheidt de zoekmachine de verschillende betekenissen van het woord jaguar: de auto, de football club en het dier. De gebruiker kan nu aangeven dat hij bijvoorbeeld op zoek is naar meer informatie over het dier jaguar. De user interface van de zoekmachine speelt een grote rol bij het weergeven van de zoekresultaten. De gebruiker wil snel van een document kunnen beoordelen of deze voldoet aan zijn informatiebehoefte. De meeste zoekmachines tonen bij elk resultaat een klein stukje tekst om aan te geven waar de pagina over gaat. Dit kleine stukje tekst kan uit verschillende elementen worden opgebouwd. Het verschilt per zoekmachine uit welke elementen het stukje tekst wordt opgebouwd. Over het algemeen maken de zoekmachines gebruik van (een combinatie van) de volgende bronnen [19]:
Snippet; (Een stuk tekst uit de pagina op de positie waar de woorden gevonden zijn.) Meta tag; (De HTML meta description tag) Op te geven regel; (Deze kan bij sommige zoekmachines (betaald) worden opgegeven bij aanmelding.) Eerste paar regels tekst van de website.
Zoekopdrachten Elke zoekmachine heeft zijn eigen taal om een zoekopdracht te formuleren. De meest eenvoudige manier is om een opsomming van woorden in te geven die de informatiebehoefte van de zoeker weerspiegelt. De meeste zoekers gebruiken twee woorden als zoekopdracht [32]. Veel zoekmachines bieden voor meer gevorderde gebruikers een geavanceerde zoekoptie aan. Binnen deze geavanceerde zoekoptie 2
http://www.excite.com
27
Customer Satisfaction via Goal Driven content extraction
kunnen zoekers preciezer hun informatiebehoefte aangeven. Dit kan onder andere door de volgende eigenschappen over de gewenste pagina’s aan te geven: taal; documentsoort (pdf, Word document); tijdspan (van verschijning document); voorkomen van trefwoorden (titel, linkteksten naar de pagina); domeinnaam plaatsen om te zoeken (Europa, USA) woorden die niet voor mogen komen Booleans Sommige zoekmachines bieden ook de mogelijkheid om gebruik te maken van boolean operators. Dit heeft als voordeel dat net zoals bij de geavanceerde zoekoptie de informatiebehoefte preciezer kan worden aangegeven. Het nadeel is dat de zoeker wel kennis van booleans moet hebben. Boolean operatoren werken ook niet altijd intuïtief [29], zo denken sommige zoekers dat ze met de AND operator het zoekbereik verbreden in plaats van inperken, omdat er om meer informatie gevraagd wordt. Om deze reden zijn booleans voornamelijk geschikt voor meer gevorderde gebruikers. Met booleans is het mogelijk om precies aan te geven aan welke eigenschappen de pagina wel en niet moet voldoen. Er kan gebruik worden gemaakt van de operators AND, OR, NOT, NEAR etc. Elke zoekmachine die de boolean techniek biedt heeft een helpfunctie waarin duidelijk staat beschreven wat de verschillende operators voor functie hebben. Een ander nadeel van boolean operatoren is dat documenten wel of niet aan de zoekopdracht voldoen. Er kan geen weging worden gemaakt dat bepaalde documenten meer aan de zoekopdracht voldoen dan andere.
5.3 Zoekresultaten De zoeker probeert middels een zoekopdracht van één of meerdere zoekwoorden zijn informatiebehoefte kenbaar te maken aan de zoekmachine. De zoeker verwacht middels deze zoekterm(en) resultaten te krijgen die voor hem relevant zijn. Dit is echter een lastig proces, vooral wanneer er gezocht wordt met slechts één woord, wat ook nog breed van betekenis is [25]. De gewenste situatie is, dat wanneer er wordt gezocht op een brede zoekterm, de zoekmachine niet slechts de resultaten van één betekenis van dit woord geeft, maar van de meest gebruikte betekenissen van het woord. Dit kan met behulp van clustering gerealiseerd worden (zie paragraaf 0). Wanneer een website geïndexeerd wordt door een zoekmachine, dan verschijnt deze website met een aantal woorden in de index van de zoekmachine. Zo kan een website van een witgoedfabrikant in de index naar voren komen op: wassen, wasautomaat, droger, afwasautomaat etc. Dit zijn de woorden die veel op de website voorkomen waaronder ook in de titel. Wanneer een gebruiker op zoek is naar een nieuwe wasmachine en dit woord invoert als zoekterm in een zoekmachine zal bovengenoemde fabrikant niet worden gevonden. Dit komt omdat deze website geïndexeerd is met het woord wasautomaat en niet met het woord wasmachine. Op dit moment kan er binnen Google worden gezocht op synoniemen van een woord [30]. In de toekomst zouden
28
Customer Satisfaction via Goal Driven content extraction
zoekmachines zich kunnen onderscheiden van andere zoekmachines door de zoeker te helpen met problemen zoals hierboven genoemd. Een zoekmachine zou kunnen ‘weten’ dat met een wasmachine hetzelfde wordt bedoeld als een wasautomaat.
Recall & Precision Een manier om van de zoekresultaten de relevantie te kwantificeren is door twee scores van de zoekresultaten te bepalen. Deze scores zijn precision en recall (figuur 5-2). Precision omvat de precisie van de zoekmachine. Dat wil zeggen, van de opgeleverde resultaten, welk deel daarvan is relevant voor de gebruiker. Recall omvat het bereik van de zoekmachine. Dat wil zeggen, uitgaande van alle relevante documenten die voor de zoekopdracht bestaan, welk deel daarvan wordt door de zoekmachine opgeleverd. Gemist
M
relevante documenten op internet
Nuttig
H
Ongewenst
T
gevonden documenten door de zoekmachine
figuur 5-2 Recall & Precision
H precision T
H recall M
Precision: welk deel van de opgeleverde documenten is relevant. Recall: welk deel van relevante documenten is opgeleverd. Op het Internet is alleen de precision van een zoekmachine te meten. Recall is niet te meten omdat er nooit bekend is welke relevante documenten er allemaal bestaan voor een zoekopdracht. Dit kan alleen bij een vaste collectie documenten. Bij precision kan van de zoekresultaten worden bepaald welk deel relevant is en welk deel niet. Gebruiker Uit onderzoek blijkt dat zoekmachine gebruikers de meeste waarde hechten aan de relevantie van zoekresultaten, daarna aan de geloofwaardigheid van de resultaten en pas op de 4de plaats aan de user interface van de zoekmachine [33]. De gebruiker zal het meest tevreden zijn wanneer zowel de precision als de recall hoog zijn. Dat betekent dat er zo weinig mogelijk documenten bij de resultaten zitten die niet relevant zijn en dat er zo weinig mogelijk relevante documenten ontbreken. De gebruiker zal het minst tevreden zijn wanneer er relevante documenten wel bestaan, maar niet bij de resultaten van de zoekmachine zitten. Het is minder erg wanneer er meer niet-relevante documenten bij de zoekresultaten zitten. Een perfecte zoekmachine levert alle relevante documenten op en heeft geen niet-relevante documenten in de resultaten staan, een dergelijke zoekmachine bestaat echter (helaas) niet.
29
Customer Satisfaction via Goal Driven content extraction
Wanneer de recall hoger wordt, dan wordt de precision lager. Een ideale situatie is dat de gebruiker tevreden is met een evenwicht ertussen (zie figuur 5-3). Waarbij de voorkeur uitgaat naar een hogere recall en een iets lagere precision. Dat betekent dat er tussen de gevonden resultaten meer niet-relevante documenten zitten, maar het aantal relevante resultaten wat niet gevonden is lager ligt.
Recall Precision figuur 5-3 Recall & Precision verhouding
De precision van een zoekmachine hangt ook samen met het gemak van de user interface. Wanneer het gemak van de user interface hoog is, dan zijn er minder mogelijkheden om precies aan te geven wat de informatiebehoefte is. Doordat de informatiebehoefte minder goed kan worden aangegeven, zal de precision van de zoekmachine ook lager zijn. Als in de user interface de informatiebehoefte beter kan worden aangegeven, dan zal de precision hoger zijn, maar het gemak van de user interface is lager. Er moet een afweging gemaakt worden tussen het gemak van de user interface en de precision van de zoekmachine. Een goede zoekmachine behaalt een hoge precision bij een user interface met een hoog gemak.
5.4 Conclusie Gebruikers van zoekmachines zijn tevreden wanneer ze gemakkelijk met een zoekmachine kunnen werken en wanneer de zoekresultaten bevredigend zijn voor de informatiebehoefte. Het gebruikersgemak van de zoeker wordt bepaald door de user interface van de zoekmachine. Deze moet intuïtief zijn. Met intuïtief wordt hier bedoeld dat de zoeker zonder al te veel uitleg weet hoe de zoekmachine gebruikt kan worden. Voor de meer gevorderde zoekers is er meestal een geavanceerde zoekoptie. Binnen deze zoekoptie kan de informatiebehoefte nog preciezer aan de zoekmachine duidelijk worden gemaakt. Dit kan worden gedaan door meerdere eigenschappen voor de gewenste documenten te specificeren. Een andere factor die de tevredenheid van de zoeker bepaalt zijn de resultaten die de zoekmachine op een zoekopdracht geeft. Aangezien er op één zoekopdracht duizenden tot miljoenen documenten kunnen worden opgeleverd moeten de meest relevante resultaten bovenaan staan. Om te meten hoe goed een zoekmachine is in het opleveren van documenten zijn er twee attributen waarop gelet kan worden. Deze zijn recall en precision. Precision omvat welk deel van de opgeleverde documenten relevant is en recall omvat welk deel van de relevante documenten opgeleverd is.
30
Customer Satisfaction via Goal Driven content extraction
6 Elementen probleem 6.1 Inleiding In de voorgaande hoofdstukken zijn de verschillende aspecten van zoekmachines en het gebruik van zoekmachines op Internet beschreven. Met deze kennis kan opnieuw naar de onderzoeksvraag worden gekeken.
Onderzoeksvraag “Ontwikkel een model om te beschrijven hoe de tevredenheid van zoeker en aanbieder binnen zoekmachines zich tot elkaar verhouden en welke factoren hierbij een rol spelen.”
Probleemstelling Zoekmachines hebben te maken met twee verschillende partijen, de aanbieders en de zoekers van informatie. Voor de zoekmachine is de tevredenheid van de zoekers het meest belangrijk. Wanneer de zoekers niet meer tevreden zijn over de zoekmachine kunnen zij snel overstappen op een van de vele andere zoekmachines. Voor de zoekmachine is dit niet goed omdat op die manier bezoekers en daarom inkomsten worden misgelopen. Zoekmachines hebben de zware taak om de zoeker zoveel mogelijk te voorzien van relevante zoekresultaten voor hun zoekopdracht. De aanbieders van informatie en diensten hebben er baat bij om goed vindbaar te zijn binnen de zoekmachines. Door goed vindbaar te zijn binnen zoekmachines zijn aanbieders in staat om zoekers te bereiken die daadwerkelijk op zoek zijn naar informatie die de aanbieder aanbiedt. Aanbieders bieden de meeste informatie aan in de vorm van tekst, afbeeldingen, bewegend beeld en geluid. Momenteel zijn de meeste zoekmachines alleen in staat om de tekst van aanbieders te lezen. Door deze tekst te indexeren (zie hoofdstuk 2) kan de zoekmachine beoordelen of de aanbieder kan voldoen in een bepaalde informatiebehoefte. Aanbieders die afhankelijk zijn van bezoekers van de website zoals webwinkels, online reisbureau’s of online kranten willen dat zoekmachines precies weten in welke informatiebehoeften zij kunnen voorzien. Wanneer een zoekmachine weet welke aanbieders er in een bepaalde informatiebehoefte voorzien treedt er nog een probleem op, er is vaak meer dan één aanbieder die in een bepaalde informatiebehoefte voorziet. De zoekmachine zal een afweging moeten maken in hoeverre welke aanbieder aan de informatiebehoefte voldoet. De zoekmachine zal aanbieders die het beste in de informatiebehoefte voldoen bovenaan de zoekresultaten plaatsen. Om te bepalen welke aanbieders dat zijn maakt de zoekmachine grofweg gebruik van twee methoden. Enerzijds wordt er gekeken naar de inhoud van de aanbieder, anderzijds wordt er gekeken naar de populariteit van de aanbieder. De zoekmachine probeert de populariteit van de aanbieder te achterhalen door te kijken naar verwijzingen van andere websites naar de aanbieder. Hoe meer
31
Customer Satisfaction via Goal Driven content extraction
verwijzingen van populaire websites, hoe hoger de populariteit, hoe dit werkt is te lezen in hoofdstuk 4. Hoe de optimale situatie kan ontstaan waarin zowel de aanbieder als de zoeker tevreden is wordt in de volgende paragraven beschreven.
6.2 Satisfaction De zoeker en de aanbieder zijn beide tevreden wanneer de zoeker de informatie vindt die de aanbieder aanbiedt en wanneer deze informatie voorziet in de informatiebehoefte van de zoeker. De mate waarin een pagina voorziet in de informatiebehoefte van de zoeker kan worden uitgedrukt in relevantie van pagina p voor query q : Rv( p, q ) . De zoekmachine is een koppelende partij, zoekmachines koppelen zoekers aan aanbieders. Deze aanbieder moet zo goed mogelijk aan de wensen van de zoeker voldoen, de relevantie moet zo hoog mogelijk zijn. Om te weten of een aanbieder voldoet aan de informatiebehoefte van een zoeker, moet de zoekmachine twee dingen weten. 1) naar welke informatie is de zoeker op zoek? 2) welke informatie biedt een aanbieder aan? Bij punt 2 kan een aanbieder worden geholpen door er zo goed mogelijk voor te zorgen dat de zoekmachine ‘begrijpt’ (weet) wat een aanbieder aanbiedt. Wanneer een zoekmachine goed weet wat een aanbieder aanbiedt, kan de zoekmachine de juiste aanbieder aan de juiste zoeker koppelen, in dit ideale geval, is zowel de aanbieder als de zoeker tevreden. De zoeker heeft immers eens partij gevonden die de juiste informatie aanbiedt. De aanbieder is tevreden omdat hij een kwalitatieve bezoeker heeft die daadwerkelijk geïnteresseerd is in wat dat de aanbieder aanbiedt.
Aanbieder De aanbieder is tevreden wanneer hij voor zoekopdrachten die voor hem relevant zijn hoog in de resultaten van de zoekmachine is terug te vinden. Een zoekopdracht is relevant voor een aanbieder wanneer de zoekopdracht een informatiebehoefte weerspiegelt waarin de aanbieder kan voldoen. De aanname is hier gemaakt dat wanneer een website hoog in de zoekresultaten terugkomt er meer zoekers de website zullen bezoeken dan wanneer de website onderaan in de zoekresultaten staat [36]. Wat voor de aanbieder geminimaliseerd moet worden is de positie van zijn pagina in de zoekresultaten op voor hem relevante termen. De beste situatie is positie 1 binnen de zoekresultaten. Een formalisatie is te vinden in vergelijking 6-1.
32
Customer Satisfaction via Goal Driven content extraction
Satisfaction aanbieder: Vanwege het confidentiële gehalte van deze vergelijking, is deze in een aparte bijlage opgenomen.
vergelijking 6-1 Satisfaction aanbieder
Zoeker De zoeker is tevreden wanneer hij via de zoekresultaten R0 van een zoekmachine een pagina vindt die voldoet in zijn informatiebehoefte. Om dit te bereiken moet de zoeker zijn informatiebehoefte kenbaar maken aan de zoekmachine. Dit kan hij doen door gebruik te maken van de userinterface van de zoekmachine (zie hoofdstuk 5). Via de userinterface kan een zoeker zijn informatiebehoefte formuleren in een query q . Wat voor een zoeker gemaximaliseerd moet worden is de relevantie van alle pagina’s die in de zoekresultaten staan voor de query van de zoeker. Dit is te zien in vergelijking 6-2. Satisfaction zoeker: Vanwege het confidentiële gehalte van deze vergelijking, is deze in een aparte bijlage opgenomen. vergelijking 6-2 Satisfaction zoeker
33
Customer Satisfaction via Goal Driven content extraction
6.3 Keywords Zoekers maken gebruik van een zoekmachine door hun informatiebehoefte aan de zoekmachine kenbaar te maken met een aantal keywords. De zoekmachine zal aan de hand van deze keywords een lijst van aanbieders presenteren waarvan de inhoud zo goed mogelijk aan deze keywords voldoet. Aanbieders kunnen zich richten tot een bepaalde doelgroep van zoekers. Door de tekst van de website zo aan te passen dat deze overeenkomt met de keywords waar de doelgroep mee zoekt is het mogelijk om een bepaalde groep zoekers te bereiken. Voor aanbieders is het erg belangrijk welke woorden zij gebruiken binnen de website. Om tot een keuze van de keywords te komen spelen er twee factoren een belangrijke rol: 1. De populariteit van het keyword. 2. De concurrentie bij dat keyword. De populariteit van een keyword t kan worden bepaald door te kijken naar het aantal zoekers dat binnen een bepaalde periode op dit keyword zoekt en kan worden uitgedrukt in P (t ) . De concurrentie van keyword t kan worden bepaald door te kijken naar het aantal andere aanbieders die op hetzelfde keyword gevonden willen worden en kan worden uitgedrukt in C (t ) . Bij het kiezen van de keywords voor de tekst van een aanbieder moet rekening worden gehouden met zowel de populariteit als de concurrentie van de keywords.
KEI De verhouding tussen de populariteit van een keyword en de concurrentie op dat keyword kan worden uitgedrukt in de Keyword Effectiviteit Index (Keyword Effectiveness Index) oftewel KEI [1]. Hoe hoger de KEI is, hoe beter het woord kan worden gebruikt voor optimalisatie. In vergelijking 6-3 is de KEI gedefinieerd. KEI
P(t ) t C (t )
de populariteit van de term t , gemeten door te kijken naar het aantal mensen dat per tijdseenheid op term t zoekt. de term waar de KEI voor bepaald wordt. de concurrentie voor de term t , de aanbieders die t als relevante term hebben. Te bepalen door te kijken naar het aantal resultaten voor de term t binnen bijvoorbeeld Google.
P(t ) 2 KEI (t ) 1000 C (t ) vergelijking 6-3 Keyword Effectiveness Index
Wanneer de populariteit voor een keyword toeneemt, er zoeken dan meer mensen op dat woord, dan zal de KEI ook toenemen. Het wordt dan gunstiger om dat woord te gebruiken. Wanneer de concurrentie voor een keyword toeneemt, er zijn meer aanbieders voor dat woord, dan neemt de KEI af. Het wordt dan minder aantrekkelijk om dat woord te gebruiken.
34
Customer Satisfaction via Goal Driven content extraction
Wanneer zowel de populariteit als de concurrentie voor een keyword toenemen, dan wordt de KEI ook hoger. Dit komt omdat wanneer beide parameters hoger worden, het gunstiger is dat de populariteit toeneemt.
KER Een variant op de KEI is KER [2]. KER staat voor Keyword Effectiveness Rank en werkt op dezelfde manier als KEI. Het verschil is dat KER uitgaat van een set van keywords waar gemiddelden over worden genomen die mee worden genomen in de berekening van KER per keyword. De berekening van KER is te vinden in vergelijking 6-4. KER
P(t ) t C (t ) Pa Ca
de populariteit van de term t de term waar de KEI voor bepaald wordt. aantal resultaten voor de term t binnen bijvoorbeeld Google. de gemiddelde populariteit van alle termen de gemiddelde concurrentie van alle termen
KER(t )
log( P(t )) log(C a ) 100 log( Pa ) log(C (t ))
vergelijking 6-4 Keyword Effectiveness Rank
Nadelen Zowel KEI al KER bepalen de mate van concurrentie door te kijken naar het aantal pagina’s wat een zoekmachine oplevert op de term t . Het is echter de vraag of dit werkelijk de mate van concurrentie aangeeft. Wanneer er voor de term t 20.000 resultaten zijn, zal waarschijnlijk het onderste segment van mindere kwaliteit zijn dan het bovenste segment. Dat betekent dat wanneer de term t werkelijk representatief is voor pagina p, dat pagina P, al snel boven het onderste segment van de pagina’s zal verschijnen. Een manier om hiermee om te gaan is om bij de zoekopdracht te specificeren dat de term t in de titel moet zitten om als concurrent te worden aangemerkt. Door deze extra eis zullen er minder pagina’s als concurrent worden aangemerkt waardoor de werkelijke concurrentie beter zal kunnen worden bepaald.
35
Customer Satisfaction via Goal Driven content extraction
KEQI De mate waarin de populariteit een rol speelt bij het bepalen van de effectiviteitindex kan variabel worden gemaakt. Hoe grotere rol de populariteit speelt, des te kleinere rol speelt de concurrentie. Wanneer er veel kennis is om met de concurrentie om te gaan kan er meer waarde worden gehecht aan de populariteit van de term. De formalisatie is te vinden in vergelijking 6-5. KEQI Vanwege het confidentiële gehalte van deze vergelijking, is deze in een aparte bijlage opgenomen.
vergelijking 6-5 Keyword Effectiveness Quality Index
36
Customer Satisfaction via Goal Driven content extraction
7 Opbouw model 7.1 Inleiding In het vorige hoofdstuk zijn de elementen van de probleemstelling besproken. In dit hoofdstuk zal vanuit deze elementen een model worden samengesteld waarin het probleem beschreven wordt. Binnen de tevredenheid zijn er twee soorten tevredenheid onderscheiden: de tevredenheid van de aanbieder: S a en de tevredenheid van de zoeker:
S z . Wanneer deze worden uitgezet in een grafiek zal dit er als volgt uitzien
(figuur 7-1):
Sa
Veel voorkomende situatie
lage positie
meewerkende kracht
Fg
tegenwerkende kracht F a
hoge positie
Optimale situatie
S z Relevantie zoeker figuur 7-1 Satisfaction aanbieder en zoeker
De X-as ( S z ) geeft de tevredenheid van de zoeker aan. Hoe relevanter de resultaten zijn, hoe meer tevreden de zoeker is. De Y-as ( S a ) stelt de tevredenheid van de aanbieder voor. Hoe hoger de aanbieder in de in de zoekresultaten staat, hoe meer tevreden de aanbieder is. In deze grafiek zijn twee gebieden te onderscheiden, de veel voorkomende situatie en de optimale situatie. De veel voorkomende situatie is dat een aanbieder in meer of mindere mate relevant is voor een query, maar dat de positie van de aanbieder in de zoekresultaten voor die query niet goed is. De optimale situatie is dat een relevante aanbieder voor een query hoog in de resultaten van de zoekmachine staat. Een nadere beschrijving van de verschillende situaties is te vinden in figuur 7-2.
37
Customer Satisfaction via Goal Driven content extraction
laag in de zoekresultaten
hoog in de zoekresultaten
lage relevantie Dit komt veel voor en is ook gewenst. Sites die minder tot niet relevant zijn voor de zoekopdracht komen ook laag tot niet in de zoekresultaten voor. De zoeker komt op deze manier minder in aanraking met deze niet relevante sites en zal dus meer tevreden zijn. Deze situatie zal erg weinig voorkomen bij goede zoekmachines. Dit kunnen spam sites zijn of resultaten van niet populaire zoektermen. Bij een goede zoekmachine zal een site met lage relevantie nooit hoog in de resultaten staan.
hoge relevantie Dit is het probleem wat veel websites hebben. Ze bieden wel relevante content aan maar missen veel bezoekers omdat ze niet goed gevonden worden binnen zoekmachines. Dit kan meerdere redenen hebben, van een slecht doorcrawlebare site tot de keuze van verkeerde woorden binnen de site. Dit is de optimale situatie die men wil bereiken. Hier heeft zowel de zoeker als de aanbieder het meeste aan. De zoeker vindt wat hij zoekt en de aanbieder krijgt het kwalitatieve bezoek wat hij wil hebben.
figuur 7-2 Tevredenheid aanbieder en zoeker
Om van de veel voorkomende niet-optimale situatie naar de optimale situatie te komen zijn er factoren die meewerken en factoren die tegenwerken. In figuur 7-1 zijn deze verschillende krachten als pijlen weergegeven. De pijl die naar rechtsonder wijst heet Fg en stelt de kracht voor die meewerkt om tot de optimale situatie te komen. De pijl die in precies de tegengestelde richting wijst heet Fa en stelt de tegenwerkende kracht voor die het bereiken van de optimale situatie tegenwerkt.
7.2 Krachten De krachten die binnen dit model een rol spelen werken tegen elkaar. Wanneer de tegenwerkende kracht (veel) groter is dan de meewerkende kracht, dan zal de aanbieder niet tevreden zijn, omdat hij niet hoog in de zoekresultaten komt te staan. Er moet een goede balans tussen de krachten worden gevonden, zodat de aanbieder voor relevante query’s hoog in de zoekresultaten komt te staan.
Waar hangt Fa van af?
Fa is de kracht die tegenwerkt bij het gaan naar de optimale situatie waarbij de aanbieder relevant is voor zoekers en hoog in de zoekmachine resultaten staat op die query.
38
Customer Satisfaction via Goal Driven content extraction
De voornaamste reden waarom aanbieders niet hoog in de zoekresultaten komen is dat er aanbieders zijn die dezelfde informatie aanbieden. De zoekmachine zal bij verschillende aanbieders van dezelfde informatie een keuze moeten maken welke aanbieders bovenaan in de resultaten komen te staan. Deze keuze heeft een nauwe samenhang de volgende punten: 1. Het aantal concurrenten dat dezelfde informatie aanbiedt. 2. De kwaliteit van de concurrenten die dezelfde informatie aanbieden. Factoren 1 Het aantal concurrenten dat dezelfde informatie aanbiedt. Wanneer de aanbieder een groot aantal concurrerende aanbieders heeft wordt het moeilijker om de gewenste hoge positie binnen de zoekresultaten te behalen. Wanneer er voor een query erg veel resultaten zijn zoals bij veel (brede) query’s het geval is, dan moet de site kwalitatief goed in elkaar zitten en een hoge populariteit hebben om bovenaan te komen. 2 De kwaliteit van de concurrenten die dezelfde informatie aanbieden. Wanneer de websites van de concurrerende aanbieders hoog van kwaliteit zijn en dus goed doorcrawlbaar zijn, zal Fa toenemen. Wanneer er veel kwalitatieve concurrenten zijn zal Fg hoog genoeg moeten zijn om tegen Fa in te gaan. Dit kan worden bereikt door te zorgen dat de te optimaliseren site van hogere kwaliteit is. Een ander aspect van de kwaliteit van de concurrentie is de mate waarin andere websites verwijzen naar de concurrerende websites. Dit wordt ook wel linkpopulariteit genoemd (zie hoofdstuk 4). Deze factoren vormen in een bepaalde samenhang de tegenwerkende kracht Fa van de concurrentie voor een bepaalde query q . De samenhang van deze factoren is te vinden in vergelijking 7-1. Tegenwerkende kracht Vanwege het confidentiële gehalte van deze vergelijking, is deze in een aparte bijlage opgenomen. vergelijking 7-1 Tegenwerkende kracht
De tegenwerkende kracht bestaat uit de som van de relevantie van alle concurrenten voor de query. De relevantie wil zeggen in hoeverre een concurrent in staat is om te voldoen in de informatiebehoefte die weerspiegeld wordt door de query. Wanneer er veel concurrenten zijn met een hoge relevantie wordt de tegenwerkende kracht groter, de meewerkende kracht moet dan groot genoeg zijn om op te kunnen tegen de tegenwerkende kracht. De relevantie van een concurrent zal zelf ook uit een aantal factoren bestaan, deze komen in grote lijnen overeen met de factoren die de meewerkende kracht zijn voor de aanbieder.
39
Customer Satisfaction via Goal Driven content extraction
Waar hangt Fg van af?
Fg is de meewerkende kracht die ervoor zorgt dat de optimale situatie ontstaat waarbij een aanbieder hoog in de zoekresultaten komt en relevant is voor de zoekers. Wanneer de meewerkende kracht sterker is dan de tegenwerkende kracht zal de optimale situatie worden bereikt. Deze meewerkende kracht is afhankelijk van een aantal factoren:
De inhoud van de website; Relaties met andere websites.
Deze factoren kunnen in meer of mindere mate worden beïnvloedt om de meewerkende kracht te vergroten en zodoende de optimale situatie te bereiken. Factoren De inhoud van de website De inhoud van een webpagina is wat de zoekmachine voor het grootste deel gebruikt om te beoordelen waar een pagina over gaat. Om de meewerkende kracht te vergroten moet de inhoud zo gemaakt zijn dat de zoekmachine goed kan ‘zien’ waar de inhoud over gaat, wat de informatie is die de website aanbiedt. Wanneer de zoekmachine goed kan beoordelen welke informatie de aanbieder aanbiedt, dan zal de zoekmachine de aanbieder naar voren laten komen wanneer een zoeker zoekt naar die bepaalde informatie. Het proces waarbij de zoekmachine aan de hand van de inhoud van de website bepaalt waar de website over gaat wordt content extraction genoemd. Meer over content extraction is te vinden in hoofdstuk 2. Wanneer een zoekmachine de inhoud van een website beoordeelt kan deze gebruik maken van de HTML opmaakcode die in websites te vinden is. Door de verschillende opmaakelementen een andere weging te geven kan deze opmaak gebruikt worden om preciezer de inhoud van de website te achterhalen. Meer informatie hierover is te vinden in paragraaf Analyse tekst met opmaak van hoofdstuk 2. Opmaakelementen waar belangrijke informatie in staat, zijn bijvoorbeeld de titel, de koppen en de vetgedrukte elementen. De inhoud van de website speelt ook een rol in de mate waarin de zoekmachine de website kan lezen. Websites die voor bezoekers van de website erg duidelijk en goed navigeerbaar zijn hoeven dat nog niet automatisch voor zoekmachines te zijn. Zo kan een zoekmachine vastlopen op bepaalde technieken die gebruikt worden op een website. Dit betekent dat de zoekmachine niet goed de inhoud van de website kan achterhalen en dat daardoor de meewerkende kracht minder wordt. De optimale situatie zal dan niet bereikt kunnen worden. Door rekening te houden met zoekmachines bij het gebruik van technieken kan dit voorkomen worden.
40
Customer Satisfaction via Goal Driven content extraction
Relaties met andere websites Een andere belangrijke factor in de meewerkende kracht om tot de optimale situatie te komen is de populariteit van een pagina. Iedere zoekmachine heeft hier een eigen methode voor, maar veelal berusten ze op onderlinge relaties van websites. Meer hierover is te lezen in hoofdstuk 4. Waar het bij de meeste algoritmes op neer komt is, hoe meer verwijzingen van populaire en kwalitatieve sites, hoe hoger de populariteit score is. Deze factor is moeilijker te beïnvloeden, omdat andere websites hier een belangrijke rol spelen. Mede daarom is deze methode minder gevoelig voor misbruik door kwaadwillende aanbieders die een weg naar de toppositie willen forceren. Om deze factor toch een gunstige bijdrage te laten leveren aan de meewerkende kracht zijn er een aantal acties die ondernomen kunnen worden.
Veel verwijzingen van kwalitatief goede relevante sites verkrijgen, bijvoorbeeld door in het nieuws te komen of relevante unieke informatie aan te bieden waar andere sites naar gaan verwijzen. Aangemeld zijn bij relevante portals en webgidsen. Dit zal ook bijdragen aan het verhogen van het aantal kwalitatieve bezoekers via deze portals.
Deze factoren spelen allemaal een rol in de meewerkende kracht. Wat deze rol precies is, verschilt per zoekmachine. Zoekmachines geven deze informatie niet prijs om te voorkomen dat kwaadwillende misbruik van deze informatie maken. Omdat de samenstelling en de rol van de factoren geheim zijn kan hier alleen een aanname worden gemaakt voor een formalisatie (zie vergelijking 7-2). Formalisatie Meewerkende kracht Vanwege het confidentiële gehalte van deze vergelijking, is deze in een aparte bijlage opgenomen.
vergelijking 7-2 Meewerkende kracht
De term score is een versimpelde benadering van hoe zoekmachines de termscore kunnen berekenen. Hier zitten nog geen anti-spam algoritmes in. De formalisatie van de termscore is te vinden in vergelijking 7-3. Term Score Vanwege het confidentiële gehalte van deze vergelijking, is deze in een aparte bijlage opgenomen. vergelijking 7-3 Term Score
In vergelijking 7-4 is te zien hoe de relatieve positie kan worden bepaald.
41
Customer Satisfaction via Goal Driven content extraction
Relatieve positie Vanwege het confidentiële gehalte van deze vergelijking, is deze in een aparte bijlage opgenomen. vergelijking 7-4 Relatieve positie
7.3 Conclusie Er is een optimale situatie waarin zowel de aanbieder als de zoeker tevreden zijn. In deze optimale situatie vindt de zoeker de informatie om zijn informatiebehoefte te bevredigen en de aanbieder staat hoog in de zoekresultaten voor relevantie zoekopdrachten. Bij het gaan naar deze optimale situatie zijn er tweetal krachten die een rol spelen. Er is een meewerkende kracht en een tegenwerkende kracht. De tegenwerkende kracht bestaat uit de concurrentie van andere aanbieders die relevant zijn voor de zoekopdracht. Daarbij spelen de mate en kwaliteit van concurrenten een belangrijke rol. De meewerkende kracht bestaat uit de factoren van de pagina zelf en de linkpopulariteit van de pagina. Wanneer de meewerkende kracht groter is dan de tegenwerkende kracht kan de optimale situatie bereikt worden. Door factoren van de pagina te beïnvloeden kan de meewerkende kracht worden vergroot zodat de optimale situatie kan worden bereikt.
42
Customer Satisfaction via Goal Driven content extraction
8
Validatie In de voorgaande hoofdstukken is een voorstel gedaan voor een model om het probleemgebied te beschrijven. Of deze beschrijving het probleemgebied goed weergeeft zal moeten worden gevalideerd. Vaak wordt validatie van een model aan de hand van metingen uitgevoerd. In dit geval is het moeilijk en tijdrovend om door middel van meting het model met de werkelijkheid te valideren. Omdat zoekmachines hun rankingalgoritmes geheim houden kan er moeilijk worden bepaald waarom bepaalde aanbieders hoger komen te staan dan andere aanbieders. Ook gaan zoekmachines om met enorme hoeveelheden informatie, dit is moeilijk na te bootsen om metingen te verrichten. Om te beoordelen of het model in overeenstemming is met de werkelijkheid, is ervoor gekozen om dit te valideren aan de hand van domeinexperts. Domeinexperts kunnen door hun kennis van zoekmachines en hun ervaring in information retrieval beoordelen in hoeverre het model overeenkomt met de werkelijkheid en of er nog elementen of factoren in het model missen. Binnen Checkit hebben Marco van Veen (tevens afstudeerbegeleider) en Sjaak Janssen het model gevalideerd. Er is contact opgenomen met Toine Verheul van WiseGuys3 als externe expert. WiseGuys is een bedrijf dat zoektechnologie diensten aan bedrijven levert. WiseGuys ontwikkelt al jaren zoekmachine technologie en heeft onder andere de Nederlandse zoekmachine Kobala4 ontwikkeld.
8.1
Validatie Checkit Checkit kon zich vinden in het opgestelde model.
Factoren zoekopdracht Bij de gebruikersinteractie met de zoekmachine miste Checkit nog een aantal zaken. Zo staat in het model dat de termen die de zoeker invoert ook exact de termen zijn die de zoekmachine gebruikt om de index te doorzoeken. In werkelijkheid komt hier echter meer bij kijken. Zo zullen (sommige) zoekmachines synoniemen van het woord gebruiken of meer informatie van de zoeker (persoonlijk profiel) in de zoekopdracht gebruiken. Zoekmachines proberen door meer factoren te gebruiken dan alleen de zoekwoorden, tot een meer bevredigend resultaat te komen. De termen die de zoeker ingeeft hoeven niet exact de termen te zijn waar de zoekmachine de index mee doorzoekt. Een aantal zoekmachines biedt inmiddels een gepersonaliseerde zoekdienst aan. Deze diensten werken met een persoonlijk profiel van de zoeker. In dit profiel is informatie opgenomen zoals de interesses en de eigenschappen van de zoeker (locatie, taal, geslacht, leeftijd etc). De zoeker kan een dergelijk profiel zelf samenstellen en aan de zoekmachine aanbieden, maar de zoekmachine kan ook zelf het profiel
3
http://www.wise-guys.nl
4
http://www.kobala.nl
43
Customer Satisfaction via Goal Driven content extraction
samenstellen [35]. Door te kijken naar de voorgaande zoekopdrachten en de tijd die iemand op bepaalde pagina’s uit de zoekresultaten doorbracht kan een persoonlijk profiel worden verkregen. Websites die op dit moment personalized search aanbieder zijn onder andere Google en Eurekster5.
Relevantie Checkit denkt dat er inderdaad een optimale situatie bestaat waarin zowel de zoeker als de aanbieder tevreden is. Het is wel belangrijk dat de twee soorten relevantie uit elkaar worden gehouden. Zo is er een relevantie zoals de zoekmachine deze ziet. Dit is de relevantie van een webpagina voor een query volgens de zoekmachine. Wanneer er bijvoorbeeld gezocht wordt op bank dan kan de zoekmachine resultaten teruggeven over meubels en over financiële instellingen. Beide soort pagina’s worden door de zoekmachine relevant geacht omdat ze over een vorm van bank gaan. De relevantie voor de zoeker is echter minder breed. Wanneer deze op zoek is naar informatie over meubels zullen resultaten met financiële instellingen niet relevant voor hem zijn. In het model wordt vooral gesproken over de relevantie voor de zoeker. De zoeker is pas tevreden wanneer de resultaten voor hem relevant zijn.
8.2 Validatie WiseGuys Namens het zoekmachine technologie bedrijf WiseGuys is Toine Verheul als expert gevraagd om naar het model en de daarbij behorende factoren te kijken en zijn feedback daarover te geven. Uit dit gesprek zijn de volgende punten gekomen. Toine Verheul ziet Checkit meer als een van de factoren in het model. Zelf zou hij eerst het model opstellen en dan pas Checkit hierin plaatsen. Hij vindt dat het model teveel vanuit Checkit is geredeneerd. Hij vraagt zich af of dit model wel helemaal dekkend is. Hij mist in het model de actualiteit van webpagina’s, daar doet WiseGuys zelf veel mee. Met de actualiteit van webpagina’s wordt bedoeld in welke mate de pagina’s veranderen naarmate de tijd verstrijkt. Wanneer pagina’s vaak veranderen kan dat worden gezien als een positieve eigenschap van de pagina. De informatie zal immers actueel zijn. WiseGuys beoordeelt deze actualiteit door van een webpagina een fingerprint te maken. De fingerprint is een representatie van de website. Deze representatie bevat onder andere de eigenschappen van de opmaak van de webpagina en de content. Door de fingerprints van twee verschillende tijdstippen van een webpagina met elkaar te vergelijken kan er worden beoordeeld of de webpagina veranderd is in die tijd. Deze actualiteit ontbreekt momenteel in het model en zou kunnen worden toegevoegd als factor bij de meewerkende kracht om de optimale situatie te bereiken. Toine Verheul merkt nog een andere factor op die WiseGuys wel gebruikt maar die niet in het model terug te vinden is. De technische eigenschappen van een webpagina kunnen worden gebruikt om de kwaliteit van die webpagina te beoordelen. WiseGuys 5
http://www.eurekster.com
44
Customer Satisfaction via Goal Driven content extraction
gaat ervan uit dat wanneer een webpagina een goede technische kwaliteit heeft, bijvoorbeeld dat de pagina velen malen per seconde kan worden opgevraagd en nog steeds bereikbaar blijft, deze pagina een betere pagina is. Aspecten van de technische kwaliteit kunnen de servers zijn waar de webpagina op staat, maar ook van welk website statistiekenprogramma er gebruik wordt gemaakt. Wanneer dit een uitgebreid en betaald systeem is, zegt dit ook weer iets voor de kwaliteit van de website. Samenvattend kunnen dit soort factoren worden meegenomen in een waardeoordeel van een webpagina. Wat Toine Verheul ook opmerkte is dat de relevantie van de zoekmachine resultaten voor de zoekmachine gebruiker een erg moeilijk te bevatten probleemgebied is. In het model zoals dit aan hem gepresenteerd is, wordt hier (te) weinig aandacht aan besteed. Voor de gebruiker wordt de relevantie niet alleen bepaald door de mate waarin de zoekresultaten helpen zijn informatiebehoefte te vervullen. Er zijn ook veel andere factoren, Toine Verheul beschreef een voorbeeld waarin WiseGuys een test heeft gedaan met een groep zoekmachine gebruikers van 500 personen. In deze test werd de groep van zoekers gevraagd de relevantie te beoordelen van een bepaalde zoekmachine. Vervolgens werd na deze eerste beoordeling de opmaak van de zoekresultaten drastisch veranderd. Er werd de gebruikers verteld dat zowel de opmaak als de rangschikking van resultaten was veranderd, terwijl dit laatste niet gebeurd was. De gebruikers beoordeelden de relevantie van de zoekmachine beter, terwijl hier niets aan veranderd was. Dit voorbeeld gebruikte Toine Verheul om aan te geven dat de relevantie voor zoekmachine gebruikers vele malen complexer is dan in het model is weergegeven. Er komen veel meer factoren bij kijken die te maken hebben met het menselijke gedrag en de manier van denken van de zoeker. Samengevat denkt Toine Verheul dat er nog een aantal belangrijke factoren ontbreken in het model. Ook betwijfelt hij of de optimale situatie waarin zowel de aanbieder als de zoeker tevreden is bestaat. Er komen erg veel factoren kijken bij dit model, de vraag is of die allemaal verwerkt kunnen worden.
8.3 Conclusie Omdat het tijdrovend en moeilijk is om het ontwikkelde model te valideren met de werkelijkheid doormiddel van meting is ervoor gekozen om domein experts om hun mening te vragen. Als domein experts zijn Marco van Veen en Sjaak Janssen van Checkit en Toine Verheul van WiseGuys benaderd. Uit de validatie kwam een tweezijdig beeld. Marco van Veen en Sjaak Janssen waren van mening dat er inderdaad een optimale situatie bereikt kan worden waarbij zowel de aanbieders als de zoekers tevreden kunnen zijn. Toine Verheul deelt deze mening niet. Hij mist nog een aantal belangrijke factoren en vraagt zich af in hoeverre het mogelijk is om met al deze factoren tot een model te komen waarin een optimale situatie bereikt kan worden.
45
Customer Satisfaction via Goal Driven content extraction
9
Conclusies en aanbevelingen
9.1 Inleiding De onderzoeksvraag voor dit onderzoek luidde: “Ontwikkel een model om te beschrijven hoe de tevredenheid van zoeker en aanbieder binnen zoekmachines zich tot elkaar verhouden en welke factoren hierbij een rol spelen.” In dit hoofdstuk zal de onderzoeksvraag worden beantwoord aan de hand van een kleine samenvatting van de voorgaande hoofdstukken.
9.2 Vooronderzoek Het literatuuronderzoek heeft zich gericht op zoekmachines. In dit onderzoek is een basiskennis van zoekmachines verworven. Het onderzoek is opgedeeld in een viertal subdomeinen. De subdomeinen zijn: body indexatie, meta-informatie, relaties andere websites en de zoekmachine gebruiker. De eerste drie subdomeinen zijn factoren die de zoekmachine gebruikt bij het indexeren van webpagina’s. De body indexatie omvat het proces van analyseren van de inhoud van de webpagina zelf. Uit deze analyse kan worden bepaald waar de inhoud van een webpagina over gaat. Factoren die hier onder andere bij komen kijken zijn woordfrequenties, de positie van woorden en de rol van woorden binnen de webpagina. Een probleem dat op kan treden is dat auteurs in staat zijn de pagina zo aan te passen dat de zoekmachine de analyse niet meer goed uit kan uitvoeren (spamming). Meta-informatie beschrijft de informatie van een webpagina. Aangezien deze informatie gevoelig is voor misbruik, is de mate waarin dit meespeelt minimaal geworden binnen zoekmachines. De relaties met andere webpagina’s bestaan uit de hyperlinks die tussen de webpagina’s van het web bestaan. Uit deze linkstructuur kan veel waardevolle informatie worden verkregen. Men kan een verwijzing van pagina A naar pagina B zien als een stem van pagina A voor pagina B. Algoritmes die hier gebruik van maken zijn Pagerank en HITS. Deze algoritmes worden gebruikt om een score te bepalen voor een webpagina die uiteindelijk bij het sorteren van de zoekresultaten kan worden gebruikt. De tevredenheid van de zoekmachine gebruiker wordt grofweg door twee factoren bepaald. De userinterface van de zoekmachine en de kwaliteit van resultaten die de zoekmachine oplevert. Het gemak waarmee gebruikers met de zoekmachine kunnen werken wordt bepaald door de userinterface. De userinterface bepaalt hoe zoekers hun informatiebehoefte kenbaar kunnen maken en hoe de resultaten gepresenteerd worden.
46
Customer Satisfaction via Goal Driven content extraction
9.3 Tevredenheid Nu de basiskennis van zoekmachines bekend is, kan opnieuw naar de probleemstelling worden gekeken. Zoekmachines hebben te maken met aanbieders en zoekers. Aanbieders zijn websites die informatie, producten of diensten via Internet aanbieden. Zoekers zijn mensen met een informatiebehoefte die deze willen bevredigen met behulp van een zoekmachine. De zoekmachine heeft als moeilijke taak om voor zoekers de juiste aanbieders te vinden. Om de juiste aanbieder bij een informatiebehoefte te kunnen vinden moet de zoekmachine twee dingen weten. Het eerste dat de zoekmachine moet weten is waar een zoeker naar op zoek is. Het tweede punt is dat de zoekmachine precies moet weten wat aanbieders aanbieden. Aanbieders zijn tevreden wanneer zij voor relevante zoekopdrachten hoog in de resultaten van de zoekmachine verschijnen. Zoekers zijn tevreden wanneer zij snel de juiste informatie vinden om hun informatiebehoefte te bevredigen. In de optimale situatie zijn beide partijen tevreden. Dat betekent dat de zoeker snel relevante pagina’s vindt om zijn informatiebehoefte te vervullen en dat de aanbieder hoog in de zoekmachine resultaten staat voor relevante zoekopdrachten. Deze situatie verschilt per zoekopdracht. Bij het bereiken van deze optimale situatie kunnen er twee krachten worden onderscheiden: de meewerkende en de tegenwerkende kracht. Deze krachten zijn binnen het model gevisualiseerd in hoofdstuk 7. De meewerkende kracht bestaat uit de factoren die ervoor zorgen dat de optimale situatie bereikt kan worden. Dit zijn factoren zoals de mate waarin het woord op de pagina voorkomt, maar ook het aantal pagina’s dat naar de pagina verwijst. De tegenwerkende kracht wordt gevormd door de concurrentie van aanbieders die ook relevant zijn voor de zoekopdracht. De hoeveelheid concurrenten en de kwaliteit daarvan speelt een belangrijke rol in de tegenwerkende kracht. Wanneer de tegenwerkende kracht groter is dan de meewerkende kracht zal de optimale situatie niet behaald kunnen worden. Door de factoren van de meewerkende kracht te beïnvloeden is het mogelijk om de meewerkende kracht te vergroten en daardoor de optimale situatie te bereiken. Er is een model ontstaan waarin de verschillende factoren van de tevredenheid van aanbieders en zoekers weergegeven zijn. Dit model is te vinden in hoofdstuk 7. Omdat het binnen de gestelde tijd niet mogelijk bleek om dit model te valideren aan de hand van metingen (mede door de complexiteit van dergelijke metingen) is ervoor gekozen om het model te valideren aan de hand van domeinexperts. Het model is gepresenteerd binnen Checkit en bij het zoekmachine technologie bedrijf WiseGuys. Uit deze validatie kwam een tweezijdige conclusie. Checkit kon zich vinden in het model waarbij er een optimale situatie mogelijk is. WiseGuys twijfelde of er wel een optimale situatie was en miste een aantal factoren in het model zoals de actualiteitsfactor van webpagina’s.
47
Customer Satisfaction via Goal Driven content extraction
9.4
Aanbevelingen Dit model is een eerste onderzoek binnen het probleemgebied van tevredenheid van aanbieders en zoekers over zoekmachines. Er is een aantal factoren onderscheiden waar deze tevredenheid afhankelijk van is. Er zijn echter nog meer factoren die momenteel niet in het model zijn opgenomen. Een aantal van deze factoren is beschreven in hoofdstuk 8 Validatie. Deze factoren zijn: actualiteit van een pagina, extra informatie die de zoekmachine gebruikt bij zoeken zoals herkomst zoeker en eventuele andere informatie die bekend is over de zoeker. Binnen het model wordt gesproken over de relevantie van zoekresultaten voor zoekers. Om het model completer te maken zouden er meer factoren van relevantie voor zoekers kunnen worden bepaald. Er zou een onderzoek kunnen worden gedaan met bepaalde gebruikersgroepen hoe relevantie wordt ervaren en welke factoren hierbij een rol spelen. Dit model is gevalideerd aan de hand van domeinexperts. Het moet in zekere zin ook mogelijk zijn om dit model te valideren aan de hand van metingen binnen zoekmachines en met zoekers. Dit neemt tijd in beslag maar zal een nauwkeuriger beeld opleveren van de factoren van het model en hun onderlinge samenhang.
48
Customer Satisfaction via Goal Driven content extraction
10 Literatuur [1]
Sumantra Roy. Keyword Effectiveness Index (KEI). online op: http://www.wordtracker.com/help/keihelp.html
[2]
Peter Faber. Keyword Effectiveness Rank (KER). augustus 2003. online op: http://www.seo-works.com/seo-resources/keyword-effectiveness-rank.html
[3]
C. J. van Rijsbergen. Information Retrieval. 1979. online op: http://www.dcs.gla.ac.uk/Keith/Preface.html.
[4]
Snowball project. Dutch stop word list. online op: http://snowball.tartarus.org/dutch/stop.txt
[5]
Soumen Chakrabarti. Mining the web, Discovering Knowledge from Hypertext Data. oktober 2002. ISBN: 1558607544.
[6]
Arvind Arasu, Junghoo Cho, Hector Garcia-Molina, Andreas Paepcke, Sriram Raghavan. Searching the Web. 2001. online op: http://dbpubs.stanford.edu:8090/pub/2000-37
[7]
Monika R. Henzinger, Rajeev Motwani, Craig Silverstein. Challenges in Web Search Engines. oktober 2002. online op: http://citeseer.nj.nec.com/henzinger02challenges.html
[8]
Martin Porter. The Porter Stemming Algorithm. 1980. online op: http://www.tartarus.org/~martin/PorterStemmer/index.html
[9]
Andrew Fitzgibbon, Andrew Zisserman. Challenge: “Google for images, not text”. november 2002. online op: http://www.nesc.ac.uk/esi/events/Grand_Challenges/panelc/c12.pdf
[10] Larry Page, Sergey Brin. The Anatomy of a Large-Scale Hypertextual Web Search Engine. 1998. online op: http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm [11] Andrew Westbrook, Russell Greene. Using Semantic Analysis to Classify Search Engine Spam. herfst 2002. online op: http://www.stanford.edu/class/cs276a/projects/reports/rdg12-afw.pdf [12] Search mechanics. The Classification of Search Engine Spam. online op: http://www.ebrandmanagement.com/whitepapers/spam-classification/ [13] M. Cutler, H. Deng, S. S. Maniccam, W. Meng. A New Study on Using HTML Structures to Improve Retrieval. november 1999. online op: http://opal.cs.binghamton.edu/~meng/pub.d/ictai99.doc [14] Jonathan Hodgson. Do HTML Tags Flag Semantic Content? februari 2001. online op: http://maya.cs.depaul.edu/~classes/ds575/papers/html-tags.pdf
49
Customer Satisfaction via Goal Driven content extraction
[15] Dave Thompsom. The influence of metatags on web-based search retrieval, ranking and relevancy. april 2002. online op: http://www.ecomm.dal.ca/emec/research/emec-final-april-22.pdf [16] Google. Webmaster Guidelines. online op: http://www.google.com/webmasters/guidelines.html [17] The World Wide Web Consortium. The global structure of an HTML document. online op: http://www.w3.org/TR/REC-html40/struct/global.html#h-7.4.4.2 [18] Monika R. Henzinger, Rajeev Motwani, Craig Silverstein. Challenges in Web Search Engines. oktober 2002. online op: http://citeseer.nj.nec.com/henzinger02challenges.html [19] Danny Sullivan. Death Of A Meta Tag. oktober 2002. online op: http://www.searchenginewatch.com/_subscribers/articles/02/article.php/2152 661 [20] Dublin Core Metadata Initiative. Frequently Asked Questions. online op: http://dublincore.org/resources/faq/ [21] Danny Sullivan. Death Of A Meta Tag. oktober 2002. online op: http://www.searchenginewatch.com/_subscribers/articles/02/article.php/2152 661 [22] Doxis Digitaal. Factsheet Metadata, standaarden en schema’s. online op: http://www.doxis.nl/docs/No7.pdf [23] OCLC Online Computer Library Center, Inc. Size and Growth. 2002. online op: http://wcp.oclc.org/stats/size.html [24] Larry Page, Sergey Brin, R. Motwani, T. Winograd. The PageRank Citation Ranking: Bringing Order to the Web. januari 1998. online op: http://dbpubs.stanford.edu/pub/1999-66 [25] Jon M. Kleinberg. Authoritative Sources in a Hyperlinked Environment. 1998. online op: http://citeseer.nj.nec.com/87928.html [26] Krishna Bharat, Monika R. Henzinger. Improved Algorithms for Topic Distillation in a Hyperlinked Environment. 1998. online op: http://jamesthornton.com/search-engine-research/paper?paper_id=42 [27] Chris Ding, Xiaofeng He, Parry Husbands, Hongyuan Zhay, Horst Simon. PageRank, HITS and a Unified Framework for Link Analysis. september 2002. Online op: http://www-library.lbl.gov/docs/LBNL/500/07/PDF/LBNL-50007.pdf [28] Planet Internet. Nederlandse autohandelaar 'kraakt' Google. september 2003. online op: http://www.planet.nl/planet/show/id=67777/contentid=398072/sc=0a16a3
50
Customer Satisfaction via Goal Driven content extraction
[29] Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval. 1999. online op: http://www.sims.berkeley.edu/~hearst/irbook/ [30] Google. Advanced Search. 2004. online op: http://www.google.com/help/refinesearch.html [31] Craig Silverstein. Analysis of a Very Large AltaVista Query Log. 1998. online op: http://citeseer.nj.nec.com/silverstein98analysis.html [32] Onstat. Most people use 2 word phrases in search engines according to OneStat.com. februari 2004. online op: http://www.onestat.com/html/aboutus_pressbox27.html [33] Nielsen//NetRatings. One In Three Americans Use A Search Engine. februari 2004. online op: http://direct.www.nielsennetratings.com/pr/pr_040223_us.pdf [34] Glen Pringle, Lloyd Allison, David L. Dowe. What is a tall poppy among Web pages?. 1998. online op: http://www7.scu.edu.au/programme/fullpapers/1872/com1872.htm [35] Fang Liu, Clement Yu, Weiyi Meng. Personalized Web Search For Improving Retrieval Effectiveness. januari 2004. online op: http://www.cs.binghamton.edu/~meng/pub.d/tkde_fang.pdf [36] iProspect. IProspect’s Search Engine User Attitudes Survey. april 2004. online op: http://www.prweb.com/releases/2004/4/prwebxml120172.php