Cursus zoeken op internet - deel 1
Gepubliceerd op zondag 05 september 2004 Zoeken op internet is makkelijk, vinden veel moeilijker. In deze eerste aflevering van een vierdelige serie leer je stapsgewijs meer uit het wereldwijde web te halen. Google, Ilse, Alltheweb, Yahoo, AltaVista: voor de gemiddelde internetgebruiker lijken alle pagina's waarmee hij zoekt op elkaar. Toch verschillen deze zoeksites nogal. Het is handig om een indeling te maken in zoekmachines aan de ene, en internetgidsen aan de andere kant. Zoekmachines Volgens die indeling zijn zoekmachines sites waarvan de kaartenbak is gevuld door een computer. Google is een goed voorbeeld van een zoekmachine. Aan internetgidsen komen veel minder computers te pas. Zij bestaan uit een door een menselijke redactie bijgehouden lijst met internetsites. Een voorbeeld van zo'n internetgids is Startpagina (www.pagina.nl).Een internetgids gebruik je voor andere zoekopdrachten dan een zoekmachine. Een zoekmachine bestaat uit een enorme kaartenbak waarin de letterlijke inhoud van zoveel mogelijk websites staat. Hierdoor is een zoekmachine bij uitstek geschikt voor het zoeken naar specifieke feitelijkheden. Wil je weten wat er op 6 maart 1972 in Detroit gebeurde, of welke voetballer in de nacompetitie goed scoorde tegen de Vroomshoopse Boys, dan is een zoekmachine bij uitstek behulpzaam. Internetgidsen Internetgidsen zijn nuttig voor meer algemene vragen. Ze bevatten niet de letterlijke tekst van miljoenen websites, maar een door mensen gemaakte verzameling websites die vaak op onderwerp is gesorteerd. Vanwege de inmenging
van een menselijke redactie bevat een goede internetgids weinig slechte websites: die worden gewoon niet opgenomen. Wie even snel de belangrijkste drie websites over Nederlandse architectuur wil vinden, maar totaal niet thuis is in het onderwerp, kan zijn zoektocht het beste beginnen bij een internetgids. Hoe werkt een zoekmachine? Wie snapt waarom een zoekmachine juist die resultaten teruggeeft en geen andere, zal beter leren zoeken. Een kanttekening vooraf: zoekmachines houden hun exacte werkwijze graag geheim, om te voorkomen dat bedrijven van die kennis misbruik maken om hun sites te promoten. Om aan informatie te komen, maken zoekmachines gebruik van computerprogramma's die spiders of crawlers heten. Deze struinen internet af naar informatie, die vervolgens op grond van een aantal componenten beoordeeld wordt. De zoekmachine probeert vervolgens de tekst te begrijpen. Dat kan soms met simpele trucs. Hoe vaker een bepaald woord wordt genoemd, hoe representatiever dat woord waarschijnlijk is voor de inhoud. Als Willem van Hanegem twintig keer wordt genoemd op een pagina, is de kans aanwezig dat hij het onderwerp van de site is. Omdat het op deze manier wel erg makkelijk is om bezoekers naar een saaie site te lokken door flink wat spannende termen op een site te zetten, proberen zoekmachines ook daadwerkelijk iets van de tekst te begrijpen. Een methode daarvoor is het kijken naar woordverbanden. Als op een site gerelateerde termen voorkomen als 'voetbal', 'middenstip' en 'scheidsrechter', zal de zoekmachine een seksueel getinte term of de naam van een automerk negeren. Verder zijn zoekmachines tegenwoordig in grote meerderheid ronduit allergisch voor pagina's waarop een en dezelfde term tientallen malen wordt herhaald. Tenslotte kijken zoekmachines naar hoe belangrijk een site is. Hiertoe gaat de zoekmachine af op de mening die andere sites hebben over de site die hij wil beoordelen. Stel dat de zoekmachine in zijn digitale kaartenbak ziet dat in totaal 200 websites een link hebben opgenomen naar de website www.elsevier.nl, en slechts 100 websites een link bevatten naar www.wolters-kluwer.com, dan zal www.elsevier.nl hoger uit de bus komen dan www.wolters-kluwer.com als een zoekmachine gevraagd wordt naar 'uitgever' te zoeken. De bediening van zoekmachines Iedere zoekmachine heeft een eigen gebruiksaanwijzing en eigen speciale commando's. De zoekmachine Google komt daarom uitgebreid aan de orde in deel 2 van deze cursus, en diverse andere zoekmachines in deel 3. Sommige zoekmachinecommando's komen echter bij alle zoekmachines terug. Dit zijn de zogeheten 'Booleans', die hun naam ontlenen aan de Britse wiskundige en filosoof George Boole (1815-1864). Booleans zijn logische commando's waarmee een zoekmachine kan worden verteld iets wel of juist niet te doen. Ze worden in hun oorspronkelijke vorm altijd in hoofdletters geschreven, al hebben sommige zoekmachines tegenwoordig andere manieren om Booleans te gebruiken. Een overzicht van al deze commando's staat bij elkaar op http://www.infopeople.org/search/chart.pdf (pdf) en http://www.infopeople.org/search/guide.pdf (pdf). De belangrijkste Booleans zijn:
AND 'AND' vertelt een zoekmachine dat hij de woorden aan weerskanten van 'AND' beide moet meenemen in een zoekvraag. Het commando 'fiets AND fietsenmaker' leidt dus tot pagina's waarop zowel het woord fiets als fietsenmaker voorkomen. Goede zoekmachines, zoals Google, zoeken standaard met de Boolean AND. Daar hoeft deze Boolean dus niet worden ingetypt. OR 'OR' is vergelijkbaar met 'AND', in de zin dat het commando werkt op de woorden links en rechts van hem. Wie zoekt op chocola OR chocolade krijgt dus pagina's waarop alleen chocola staat én pagina's waarop alleen chocolade staat, maar ook pagina's waarop beide termen voorkomen. 'OR' is handig voor wie wil zoeken op verschillende spellingsvarianten van een woord of naam, bijvoorbeeld Jansen OR Janssen, en kan ook worden gebruikt om te zoeken naar de combinatie van een persoon met meerdere onderwerpen. Voorbeeld: via Google zoek je met Einstein relativity OR peace naar de beroemde geleerde in documenten die of over vrede, of over relativiteit gaan. (Het aantal pagina's waarop Einstein in combinatie met beide onderwerpen wordt genoemd, is vermoedelijk nogal beperkt). Slechte zoekmachines zijn eraan te herkennen dat ze standaard met 'OR' zoeken. De reden hiervoor is simpel: dit levert meer zoekresultaten op, zodat het net lijkt alsof de zoekmachine groter is dan in werkelijkheid het geval is. NOT Een vaak onderschat, maar uiterst nuttige Boolean. 'NOT' vertelt de zoekmachine dat het resultaat een bepaalde term absoluut niet mag bevatten. Hoewel het op het eerste gezicht nogal onzinnig lijkt om de zoekmachine te vertellen waarnaar hij niet moet zoeken, is 'NOT' erg handig om zoekresultaten uit te dunnen. Wie zoekt naar de geleerde Krajicek, maar geen pagina's over een bepaalde voormalige Nederlandse tennisser wil krijgen, voegt aan zijn zoekvraag simpelweg 'NOT tennis' toe. De bediening van internetgidsen Diverse internetgidsen komen aan de orde in deel 4 van deze cursus. Internetgidsen sorteren de opgenomen websites in een rubrieksindeling die is opgebouwd volgens een soort boomstructuur. Dit maakt het voor de redacteuren van de internetgids eenvoudiger om sites te classificeren. Een goed voorbeeld daarvan is te zien op www.dmoz.nl, een internetgids die door vrijwilligers wordt bijgehouden. Deze rubrieksindelingen vertonen onderling grote overeenkomsten, en dus is het raadzaam om er goede studie van te maken bij een internetgids die je veel gebruikt. In het algemeen loont het om voordat je een zoektocht via een internetgids begint, eerst te bedenken in welke rubriek een bepaalde gezochte site zich zou kunnen bevinden. Zoek je naar de site van een ambassade van een buitenlandse mogendheid, dan kan het bijvoorbeeld zinvol zijn om te beginnen bij de rubriek 'Government' (in het geval van de internetgids dir.yahoo.com) of de rubriek 'Regionaal' (een anglicisme waaronder Nederlandse internetgidsen buitenlandse sites plaatsen, zie bijvoorbeeld www.dmoz.nl).
Cursus zoeken op internet - deel 2
Gepubliceerd op zondag 12 september 2004 Zoeken op internet is makkelijk, vinden veel moeilijker. In deze tweede aflevering van een vierdelige serie leer je stapsgewijs meer uit het wereldwijde web te halen. In dit deel: Google Twee manieren om in Google te zoeken Een site doorzoeken met Google Verdwenen documenten terughalen
Google Google is de meest gebruikte zoekmachine ter wereld, maar bijna niemand gebruikt de mogelijkheden van Google voldoende. De belangrijkste fout die Googlegebruikers maken, is dat ze geen rekening houden met de grootte van Google. Die is enorm (op dit moment bijna 4,3 miljard pagina's) en groeit nog altijd. Toch behandelen veel internetgebruikers Google als een zoekmachine met een geheugen als een vergiet. Want hoe anders is het te verklaren dat veel gebruikers in het zoekscherm van Google slechts één of twee woorden invullen, uit angst een resultaat over het hoofd te zien? Een belangrijke stelregel bij het gebruik van Google - en iedere zoekmachine die deze naam waard is - luidt: maak het de zoekmachine zo lastig mogelijk. Het is zinvoller om zes zoekwoorden in te voeren en slechts 25 resultaten terug te krijgen, dan twee zoekwoorden in te vullen en er 3 miljoen te zien. Van die 3
miljoen bekijk je er hoogstens enkele tientallen, waardoor je net zo goed resultaten over het hoofd ziet, namelijk bijna 3 miljoen pagina's. Vergeet de illusie van volledigheid, die bestaat niet op internet - noch elders in het leven, doch dit is geen artikel over filosofie. Twee manieren om in Google te zoeken Er zijn grofweg twee manieren om te zoeken in Google: 1. Via het standaardscherm Het standaardscherm is te vinden op www.google.nl en via de zoekpagina van Planet Internet. 2. Via het geavanceerd zoeken-scherm. Geavanceerd zoeken benader je door vanaf het hoofdscherm op 'Geavanceerd zoeken' te klikken. Beide bieden dezelfde functionaliteit, maar het geavanceerd zoeken-scherm is eenvoudiger te bedienen. Het verdient de voorkeur om van het geavanceerd zoeken-scherm een zogeheten bookmark of bladwijzer te maken, zodat je deze pagina eenvoudig kunt terugvinden. Bovenaan het geavanceerd zoeken-scherm zie je een blauwe box met daarin vier invulvelden. Dit is de basisfunctionaliteit van Google, oftewel de manier waarop Google gebruikmaakt van een aantal Booleans (zie deel 1 van deze serie). Van boven naar beneden doen deze regels voor geavanceerd zoeken het volgende:
'Met alle woorden' Dit veld is gelijk aan het invulveld op het standaardscherm van Google. Als je hier wat invult, krijg je pagina's terug waarop alle woorden voorkomen die je hebt ingevuld. Google gebruikt hier standaard de in deel 1 beschreven Boolean 'AND'. Sommige veel voorkomende termen (bijvoorbeeld: de, het, een, and, the) worden door Google genegeerd. Zoek maar eens op Bert en Ernie: dat levert de melding '"en" is een vaak voorkomend woord en werd dus genegeerd.' op. In dergelijke gevallen kun je Google dwingen toch te zoeken op het betreffende woord door er aan de voorkant een + aan vast te plakken (zonder spatie tussen de + en het door Google genegeerde woord). In het geval van Bert en Ernie dien je dan Bert +en Ernie in te voeren. 'Met de exacte woordcombinatie' Het gebruik van 'Met alle woorden' heeft een groot nadeel. Wie zoekt naar Wim Kok, krijgt behalve sites over de voormalige regeringsleider ook sites terug waarop zowel Wim de Bruijn als uitgeverij Kok uit Kampen worden genoemd. 'Met alle woorden' garandeert dat de ingevulde woorden op de pagina voorkomen, maar zegt niets over de plek van die woorden. Wie gebruik maakt van het invulveld 'Met de exacte woordcombinatie', zal alleen pagina's terugzien waarin deze twee woorden in deze exacte volgorde voorkomen.
Dit is niet alleen handig voor persoonsnamen, maar ook bijvoorbeeld voor het achterhalen van de context van citaten of zinnen uit boeken. Je kunt ook op het standaardscherm van Google deze zoektechniek gebruiken. Zet daartoe het woord tussen aanhalingstekens, dus "Wim Kok". 'Met een van deze woorden' Stel dat je moet zoeken naar informatie over de primatoloog Frans de Waal, en je wilt weten wat hij over de apensoorten chimpansees en bonobo's heeft gezegd. In dat geval vul je bij 'Met de exacte woordcombinatie' natuurlijk Frans de Waal in. Maar daar kun je chimpansees en bonobo's niet achter plaatsen: Google zou dan zoeken naar pagina's waarop de zin "Frans de Waal chimpansees bonobo's" voorkomt - en dat zijn er exact nul. Deze laatste twee woorden zet je dus neer bij 'Met een van deze woorden'. Het voordeel daarvan is dat je pagina's terugkrijgt waarop slechts één van beide apensoorten hoeft voor te komen. Je zult zien dat Google het woordje 'OR' plaatst tussen de woorden die je bij 'Met een van deze woorden' heeft ingevuld. 'OR' is de gelijknamige Boolean uit aflevering 1. Wil je Google ook laten kiezen uit meerdere woordcombinaties, dan wordt het wat lastiger. Gebruik van 'Met een van deze woorden' heeft dan geen zin. Je kunt dit alleen vanaf het standaardscherm van Google, en moet daarbij gebruikmaken van aanhalingstekens. Ook heb je het commando 'OR' nodig. Wil je pagina's waarop of de Ford Sierra, of de Volkswagen Golf voorkomt, dan vul je "Ford Sierra" OR "Volkswagen Golf" in. Let op: de aanhalingstekens werken niet in het invulveld 'Met een van deze woorden'! Google zal ze negeren en in plaats daarvan 'OR' zetten tussen alle ingevulde woorden, of ze nu besloten zijn tussen aanhalingstekens of niet. Dat levert een grote puinhoop op. 'Zonder de woorden' Met deze optie kun je grote schoonmaak houden in je zoekresultaten door alle treffers te laten verwijderen die een woord bevatten waarvan het overduidelijk is dat het niets te maken heeft met waarnaar je zoekt. Een site doorzoeken met Google Niet alle sites hebben een eigen zoekfunctie, en als ze er wel over beschikken, dan is de kwaliteit vaak matig. Google schiet gelukkig te hulp, en wel met een functie die het mogelijk maakt om alleen zoekresultaten terug te krijgen die zich op een bepaalde website bevinden. Dat kan handig zijn, als je bijvoorbeeld alle pagina's wilt hebben op www.amsterdam.nl die het woord 'begroting' bevatten. Om dit voor elkaar te krijgen, moet je naar het geavanceerd zoeken-scherm gaan en daar bij de regel 'Domein' de website invullen waarvan je wilt dat Google zich ertoe beperkt. Voer hier alleen de laatste twee gedeeltes van het siteadres in. Dus niet: www.amsterdam.nl, maar amsterdam.nl. Een kanttekening: met deze functie
doorzoek je uiteraard alleen door Google bekeken pagina's. Dit zijn niet per se alle pagina's die een site bevat: geen zoekmachine op internet is immers compleet. Verdwenen documenten terughalen Vroeger kwam het regelmatig voor: de zoekmachine liet een veelbelovend resultaat zien, je klikte erop en het resultaat was een melding in de trant van 'Page not found' of 'Error 404'. Ook met Google kan dat gebeuren, maar nodig is het niet. Google beschikt namelijk over een bijzondere eigenschap. Op het moment dat deze zoekmachine een site bezoekt, maakt Google gelijk een kopie voor zichzelf. Het goede nieuws: die kopieën zijn op te vragen. Op het moment dat je via Google op een pagina terechtkomt die niet meer bestaat, kun je terugvallen op deze veiligheidskopie. De veiligheidskopie krijg je te zien door op het scherm met zoekresultaten op de tekst 'In cache' te klikken. Deze optie vind je op de vierde regel van een zoekresultaat, achter de groene tekst. Een waarschuwing: deze 'cache'-versie of veiligheidskopie is niet altijd even actueel. Het is immers de kopie die Google maakte bij zijn laatste bezoek aan de betreffende site. Houd er dus rekening mee dat de informatie die je op deze manier verkrijgt, verouderd kan zijn. Met deze functie is het soms ook mogelijk om documenten te lezen die door een wachtwoord zijn beschermd. Meer informatie hierover tref je aan in het Handboek Internetresearch, net als nog veel meer handige Google-trucs.