Plan van Aanpak
Plan van Aanpak November 2003 Student Naam: Studentnr: E-mail:
David Fremeijer 0249432
[email protected]
Universiteit Nijmegen Begeleider: Theo van der Weide Referent: Gert Veldhuijzen van Zanten Checkit Begeleider:
Marco van Veen
Inhoudsopgave 1
INLEIDING .............................................................................................. 3 1.1 1.2
2
HET BEDRIJF......................................................................................... 3 OPBOUW DOCUMENT ................................................................................ 3
PROBLEEMSTELLING ................................................................................. 4 2.1 INLEIDING ........................................................................................... 4 2.2 ONDERZOEKSVRAAG ................................................................................. 4 2.2.1 Subvragen ................................................................................... 4
3
PROCES ................................................................................................. 5 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
4
PLAN VAN AANPAK .................................................................................. 5 ONDERZOEK BODY INDEXATIE ........................................................................ 5 ONDERZOEK SEMANTISCH WEB ....................................................................... 5 ONDERZOEK RELATIES MET ANDERE WEBSITES ........................................................ 5 ONDERZOEK ZOEKMACHINE GEBRUIKER ............................................................... 6 OPSTELLEN MODEL ................................................................................... 6 VALIDATIE ........................................................................................... 6 SCRIPTIE ............................................................................................. 6 AFSLUITING PROJECT ................................................................................ 6
PLANNING .............................................................................................. 7 4.1 4.2
GLOBALE PLANNING ................................................................................. 7 ACTIVITEITEN PLANNING ............................................................................. 8
5
RISICO ANALYSE ...................................................................................... 9
6
LITERATUUR......................................................................................... 10
Plan van Aanpak
D Fremeijer
2
1 Inleiding Zoekmachines zijn essentieel bij het vinden van informatie op het Internet. 77% van de Internet gebruikers vindt websites via een zoekmachine. Het is voor bedrijven waardevol dat hun website een hoge positie heeft als er gezocht wordt op een relevant zoekwoord. Checkit is een bedrijf dat klanten helpt aan een hoge positie binnen zoekmachines op relevante woorden. Dit afstudeerproject zal bij Checkit worden uitgevoerd omdat Checkit reeds over de nodige kennis van zoekmachines beschikt.
1.1 Het bedrijf Checkit is een Search Engine Media bureau dat in 1999 is opgericht. Op dit moment zijn er 18 medewerkers werkzaam bij Checkit die aan twee producten werken. Deze diensten zijn Search Engine Marketing (SEM) en een online knipseldienst Clipit. Bij Search Engine Marketing gaat het erom een website van een klant beter vindbaar te maken bij de grote zoekmachines (zowel nationaal als internationaal). Dit wordt Search Engine Ranking genoemd. In overleg met de klant worden er een aantal zoekwoorden gekozen waarop de klant graag gevonden wil worden. Vervolgens zal Checkit een advies uitbrengen hoe de website zo aangepast kan worden zodat deze met de gekozen woorden hoger in de zoekresultaten van zoekmachines komt te staan. De systemen van Checkit monitoren de posities van de websites klanten binnen de grote zoekmachines continu. Op deze manier krijgt de klant inzicht in het verloop van het optimalisatie proces. Sinds kort biedt Checkit ook een nieuwe dienst aan, Search Engine Advertising. Met deze dienst is het mogelijk om bij zoekmachines een reclame boodschap naast of boven de zoekresultaten te tonen als er gezocht wordt op een bepaald woord. Checkit voert zo’n campagne uit voor een klant en monitoort het verloop en het effect van de campagne.
1.2 Opbouw document In dit verslag zal worden vastgelegd wat de verantwoordelijkheden zijn van de betrokken partijen binnen dit project. In hoofdstuk 2 zal de probleemstelling van dit project verder worden uitgewerkt. Vervolgens zal in hoofdstuk 3 het proces en verloop van het project worden beschreven. Wanneer welke activiteit zal plaatsvinden is vastgelegd in hoofdstuk 4 waar de planning beschreven staat. Om een goed beeld te krijgen van de risico’s die met dit project gemoeid zijn zal in hoofdstuk 5 een risico analyse te vinden zijn. Tot slot zullen de literatuurverwijzingen in hoofdstuk 6 te vinden zijn.
Plan van Aanpak
D Fremeijer
3
2 Probleemstelling 2.1 Inleiding Checkit maakt websites van bedrijven vindbaar binnen grote nationale en internationale zoekmachines. Om dit goed te kunnen doen moet Checkit ‘weten’ waar een zoekmachine naar kijkt binnen een website. Een zoekmachine kijkt heel anders naar een website dan dat mensen dat doen. Zo zullen bepaalde elementen van een website helemaal niet zichtbaar zijn voor een zoekmachine, terwijl ze dat wel zijn voor bezoekers die de website via een Internet browser bekijken. De elementen die een zoekmachine niet bekijkt worden bewust door de zoekmachine overgeslagen. Een reden hiervoor kan zijn dat het te veel performance kost voor een zoekmachine om deze elementen goed uit te lezen. Een voorbeeld hiervan kunnen afbeeldingen zijn, het zou teveel tijd kosten om afbeeldingen te analyseren en deze mee te nemen in het indexeren van een pagina. Ook zijn er elementen die (opzettelijk) voor bezoekers van de website niet te zien zijn maar die een zoekmachine juist erg goed opmerkt. Een voorbeeld hiervan is metadata zoals deze is vastgelegd door W3C. Met metadata is het mogelijk om informatie speciaal voor zoekmachines in een webpagina te plaatsen, wat een zoekmachine daarmee doet en welke weging dit krijgt is van belang voor het onderzoek. Deze meta elementen kunnen ook misbruikt worden door makers van webpagina’s, hoe een zoekmachine hierop reageert en wat dit met de score van een website doet kan ook onderzocht worden. Een deel van deze opdracht zal een onderzoek zijn naar waar zoekmachines naar kijken binnen een website. Informatie voor dit onderzoek zal kunnen worden verkregen uit literatuur en uit kennis die reeds binnen Checkit aanwezig is door enige jaren ervaring in zoekmachine optimalisatie.
2.2 Onderzoeksvraag “Ontwikkel een model om webpagina’s inhoudelijk te beschrijven waarin naar voren komt hoe een zoekmachine deze ziet en dat zich leent voor kwaliteitsbewaking.”
2.2.1 Subvragen “Wat zijn elementen binnen een webpagina die een zoekmachine wel meeneemt tijdens het indexeren van de webpagina, en wat zijn elementen binnen een webpagina die een zoekmachine niet meeneemt tijdens het indexeren van de webpagina?” “Wat is de relatie tussen omschrijving (semantiek) en inhoud van webpagina bij het indexeren van een webpagina?” “Is het mogelijk om de optimalisatie van een website te formaliseren?”
Plan van Aanpak
D Fremeijer
4
3 Proces Om tot een goed antwoord op de onderzoeksvraag te komen zal er gefaseerd een onderzoek plaats moeten vinden. In dit hoofdstuk zal worden beschreven welke fases er onderscheiden kunnen worden en wat deze inhouden.
3.1 Plan van Aanpak De eerste fase zal vooral een oriënterende fase zijn met als deliverable het plan van aanpak. In deze fase wordt de opdracht omschrijving verder uitgewerkt en zullen randvoorwaarden voor het project worden opgesteld. Uit het plan van aanpak moet duidelijk worden wie de personen zijn die bij dit project betrokken zijn en wat de verantwoordelijkheden zijn. Ook zal in deze fase worden bekeken welke literatuur er beschikbaar is met betrekking tot dit project. Na deze fase kan er worden begonnen met het daadwerkelijke onderzoek.
3.2 Onderzoek body indexatie In deze eerste onderzoeksfase zal er gaan worden onderzocht wat er gebeurt als een zoekmachine de body tekst van een webpagina gaat indexeren. Welke elementen hebben een positief effect en welke elementen hebben een negatief effect? Reeds bestaande literatuur zal geraadpleegd gaan worden. Indien dit interessant is kunnen er een aantal testen worden gedaan met het indexeren van body teksten van web pagina’s. Over dit onderwerp moet geschikte literatuur worden gezocht om het probleemgebied af te bakenen. De bevindingen zullen gerapporteerd moeten worden, dit geldt voor elke fase, deze bevindingen zullen een onderdeel gaan vormen van de uiteindelijk op te leveren scriptie.
3.3 Onderzoek semantisch web Tijdens deze onderzoeksfase zal er worden onderzocht wat de invloed van meta informatie over websites op zoekmachines is. Door het gebruik van Meta tags binnen een website kunnen sleutelwoorden en een omschrijving voor een webpagina worden opgenomen [1]. Dit kan zowel een positief als een negatief (spamming) effect hebben. Voor zover het mogelijk is moet ook hier geschikte literatuur over gevonden worden.
3.4 Onderzoek relaties met andere websites In deze fase zal onderzocht gaan worden hoe de weging van een webpagina aan de hand van relaties met andere websites werkt. Page Rank is een voorbeeld waarbij er wordt gekeken naar hoeveel andere websites naar een bepaalde website linken [2]. Ook de weging van de websites die naar deze website linken is van belang. Binnen de populaire zoekmachine Google bepaald Page Rank voor een groot gedeelte de positie van een website binnen de zoekresultaten [3]. Er zijn ook alternatieven voor PageRank zoals HITS [4] en SALSA [5]. Deze alternatieven worden ook onderzocht.
Plan van Aanpak
D Fremeijer
5
3.5 Onderzoek zoekmachine gebruiker Tijdens deze fase zal onderzocht moeten worden hoe zoekmachines gebruikt worden. Een zoekmachine heeft gebruikers die een verwachting van de zoekmachine hebben. De gebruiker verwacht bij een zoekopdracht relevante resultaten op zijn zoekwoorden. Wat voor een zoekmachine relevantie is en wat hoe de gebruiker daarop reageert zal een resultaat van deze fase zijn.
3.6 Opstellen model In deze fase zullen de resultaten van voorgaande onderzoeken worden verwerkt in een model. Met dit model moet het mogelijk worden om webpagina’s inhoudelijk te beschrijven. Uit dit model zal ook moeten blijken wat de relatie is tussen de semantiek en de inhoud van de webpagina. Met dit model moet het mogelijk worden om van een website te bepalen wat belangrijke elementen voor zoekmachines zijn en welke elementen dat niet zijn. Tevens wordt er precies vastgelegd waar het model aan moet voldoen zodat later het model kan worden gevalideerd. Deze fase zal als deliverable een volledige beschrijving van het model hebben met daarbij de totstandkoming ervan en een verantwoording.
3.7 Validatie In de voorgaande fase is het model opgesteld om webpagina’s inhoudelijk met betrekking tot zoekmachines te beschrijven. In deze fase moet dit model getest, of beter gezegd gevalideerd worden. Er moet worden onderzocht of het model een correcte afspiegeling van de werkelijkheid is. Dit kan worden gedaan door te onderzoeken of elementen van een webpagina die in het model beschreven staan in de praktijk ook binnen de resultaten van zoekmachines terug komen.
3.8 Scriptie Tijdens deze fase moet de uiteindelijke scriptie gaan worden geschreven. Alle resultaten uit voorgaande onderzoeken worden samengevoegd. Het resultaat van deze fase is een volledige scriptie op academisch niveau. De scriptie geeft antwoord op de onderzoeksvraag en subvragen. Tevens worden in deze scriptie de verschillende stappen en de motivatie van deze stappen beschreven.
3.9 Afsluiting project Nu de scriptie geschreven is, moeten er nog een aantal zaken gebeuren. Zo moet er een eindpresentatie zowel binnen Checkit als voor de universiteit gegeven worden. Bij de universiteit komt daar tevens een verdediging bij die voorbereid moet worden. Ook moeten de gebruikte en gemaakte documenten worden opgeleverd aan de belanghebbende.
Plan van Aanpak
D Fremeijer
6
4 Planning 4.1 Globale planning In Tabel 4-1 staat de globale planning van het project beschreven. Hieraan staat hoeveel weken elke fase ongeveer inneemt. Week:
44
45
46
47
48
16
17
18
19
20
49
50
51
52
1
2
3
4
5
6
7
8
9
10
11
12
Plan van Aanpak Body indexatie Semantisch web Relaties andere sites Opstellen model Validatie Scriptie Afsluiting
Week: Validatie Scriptie Afsluiting
= Geplande tijd. = Vakantie. Tabel 4-1 Globale planning
Plan van Aanpak
D Fremeijer
7
13
14
15
4.2 Activiteiten planning In Tabel 4-2 staat beschreven welke activiteiten wanneer plaats vinden en wat de deliverable is van die activiteit. Week 44 45 46 47 48 49 50 51 52 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Activiteit Plan van aanpak Plan van aanpak Plan van aanpak Plan van aanpak Onderzoek body indexatie Onderzoek body indexatie Onderzoek body indexatie Onderzoek semantisch web Onderzoek semantisch web Onderzoek semantisch web Vakantie Onderzoek relaties andere websites Onderzoek relaties andere websites Onderzoek relaties andere websites Onderzoek relaties andere websites Onderzoek gebruikers zoekmachine Onderzoek gebruikers zoekmachine Opstellen model Opstellen model Opstellen model Opstellen model Opstellen model / Validatie van model Validatie van model Validatie van model Validatie van model Validatie van model Maken scriptie Maken scriptie / Afsluiting Afsluiting
Deliverable
Plan van aanpak + probleemstelling
Rapportage Onderzoek body indexatie
Rapportage Onderzoek semantisch web
Rapportage Onderzoek relaties andere websites Rapportage Onderzoek gebruikers zoekmachine
Model
Rapportage validatie van model Scriptie
Tabel 4-2 Activiteiten planning
Plan van Aanpak
D Fremeijer
8
5 Risico analyse De uitvoering van dit project heeft te maken met een aantal risico’s die het resultaat van het project kunnen beïnvloeden. Dit kunnen uiteenlopende risico’s zijn met ernstige of minder ernstige gevolgen voor het project. In dit hoofdstuk zullen deze risico’s worden behandeld met de manier om het optreden van deze risico’s te voorkomen. Risico: Project duurt langer dan gepland Oorzaak Wanneer de werkzaamheden die tot een goed einde van het project moeten leiden meer tijd in beslag nemen dan gepland bestaat het risico dat het project langer gaat duren. Dit kan komen doordat een onderwerp bij nadere bestudering complexer blijkt te zijn dan verwacht of dat er zich nieuwe ontwikkelingen voordoen die moeten worden meegenomen in het onderzoek. Gevolg Het gevolg van dit risico is dat het project nog doorloopt na de geplande einddatum. Dit is eventueel mogelijk in overleg met de betrokken partijen. Natuurlijk dient dit voorkomen te worden. Risico: Voldoende literatuur / kennis is niet voorhanden met betrekking tot zoekmachines Oorzaak Omdat zoekmachines niet zomaar vrijgeven wat het algoritme is waarmee ze webpagina’s indexeren bestaat de kans dat er niet voldoende informatie verkregen kan worden over dit onderwerp. Deze informatie is wel essentieel voor het maken van het uiteindelijke model. Gevolg Het gevolg van dit risico kan zijn dat het model wat gemaakt moet worden niet compleet is en niet een goede weergave van de werkelijkheid is. Dit risico kan voorkomen worden door waar mogelijk (via Checkit) contact te zoeken met zoekmachines om vragen te stellen over het gebruikte algoritme.
Plan van Aanpak
D Fremeijer
9
6 Literatuur [1] Dave Thompsom. The influence of metatags on web-based search retrieval, ranking and relevancy. april 2002. online op: http://www.ecomm.dal.ca/emec/research/emecfinal-april-22.pdf [2] Larry Page, Sergey Brin, R. Motwani, T. Winograd. The PageRank Citation Ranking: Bringing Order to the Web. januari 1998. online op: http://dbpubs.stanford.edu/pub/1999-66 [3] Larry Page, Sergey Brin. The Anatomy of a Large-Scale Hypertextual Web Search Engine. 1998. online op: http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm [4] Jon M. Kleinberg. Authoritative Sources in a Hyperlinked Environment. 1998. online op: http://citeseer.nj.nec.com/87928.html [5] R. Lempel, S. Moran. SALSA: The Stochastic Approach for Link-Structure Analysis. februari 2001. online op: http://www.cs.technion.ac.il/~moran/r/PS/lm-feb01.ps
Plan van Aanpak
D Fremeijer
10