Wat gaan we doen, vandaag?
Inleiding Informatiekunde I Anne-Marie Mineur
College 5, 28 november 2006
Anne-Marie Mineur
Inleiding Informatiekunde I
Wat gaan we doen, vandaag?
Overzicht van de colleges
31 oktober Inleiding cursus 7 november Rondleiding Letterenbibliotheek 14 november Databases 21 november Communicatie in digitale media 28 november Information retrieval 5 december Strings 12 december Algoritmiek
Anne-Marie Mineur
Inleiding Informatiekunde I
Wat gaan we doen, vandaag?
College 5. Information Retrieval
1
Information Retrieval
2
Query enhancement
3
Ontwikkelingen in IR
4
Bespreking van opdracht 3
5
Opdracht 5
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Wat is Information Retrieval? Definition Een IR-systeem matcht de vraag (‘query’) van de gebruiker tegen een verzameling documenten, en geeft een lijst documenten terug die relevant worden geacht voor de vraag. Vraag: Uitdrukking van de behoefte aan informatie van de gebruiker (bijv. ‘heb je boeken over chaostheorie?’) Document: krantenartikel, webpagina, boektitel, abstract, . . . Verzameling documenten: een database met electronische documenten Relevantie: ‘waar gaat het eigenlijk over?’ Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
IR-systemen
Voorbeelden van IR-systemen RUG on-line bibliotheekcatalogus http://www.rug.nl/bibliotheek zoekmachines (Google, AltaVista, Infoseek, NorthernLight) Abstracte databases op CD-ROM: inspec, medline
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Relevantie Relevantie Centraal concept bij IR moeilijk objectief te defini¨eren IR-onderzoek draait om het imiteren van het vermogen van een goede bibliothecaris om de relevantie van een document te beoordelen. Belangrijkste kwesties: Indexeren: Hoe representeren we de verzameling documenten? Matchen: Hoe vergelijk je de zoekvraag met de documentencollectie? Prestatie: Hoe weet je of het systeem naar behoren werkt? (Performance) Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Performance
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Performance
Recall: Heb ik alles? Precision: Hoeveel troep heb ik?
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Performance (2)
Recall: hoeveel relevante documenten heb ik gevonden? Precision: hoeveel hits zijn relevant? Gegeven een zoekvraag Q die een resultaat Res oplevert Rel is de verzameling relevante documenten Hits is de doorsnede van Rel en Res Recall = |Hits|/|Rel| Precision = |Hits|/|Res|
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Indexeren Ken een lijst keywords of indextermen toe aan elk document. indexterm (ook: concept) Een woord of uitdrukking die de inhoud van het document karakteriseert. Voorbeeld: Koppel ‘taalkunde’ en ‘generatieve grammatica’ aan Chomsky’s Aspects of the Theory of Syntax. Twee aanpakken: Gecontroleerde woordenlijst Vrije tekst Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Gecontroleerde woordenlijst
Een vooraf vastgestelde lijst van indextermen (bibliotheeksystemen, CWI) Typisch vastgesteld door menselijke experts Document wordt geindexeerd door de meest toepasselijke termen uit het vocabulaire te kiezen Document moet geanalyseerd worden en geclassificeerd tegen de woordenlijst indextermen zijn typisch hi¨erarchisch opgebouwd: muziek ⊃ nederlandstalig ⊃ smartlappen ⊃ Diep Triest
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Gecontroleerde woordenlijst (2)
Moeilijk te automatiseren, maar pogingen worden wel ondernomen. Voorbeeld: NASA’s gecontroleerde woordenboeksysteem Voorbeeld 1: Library of Congress subject headings Handhaaft hi¨erarchie Klassificeert alle nieuwe boeken onder bestaande boom Voorbeeld 2: Yahoo is een handmatig gebouwde internet catalogus Voorbeeld 3: RUG on-line bibliotheekcatalogus
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Vrije tekst Zoekmachines gebruiken vrije-tekstmethoden om hun index op te bouwen Vocabulaire is onbeperkt: zoektermen worden uit documenten afgeleid Indexering gebeurt automatisch Zet document om in reeks woorden door interpunctie en functiewoorden als ‘een’ en ‘de’ te verwijderen Verwijder uitgangen (stemming), of vind de canonieke vorm (lemmatisering) Kies ‘beste’ termen uit overblijvende reeks, en ken aan elk een passend gewicht toe
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Indexeren — Voorbeeld Fatma Koser Kaya (D66) komt door voorkeurstemmen de Tweede Kamer binnen met 34.564 kiezers achter zich, ten koste van haar partijgenoot Bert Bakker. Reeks woorden: fatma koser kaya d66 komt door voorkeurstemmen de tweede kamer binnen met 34.564 kiezers achter zich ten koste van haar partijgenoot bert bakker Verwijder functiewoorden: fatma koser kaya d66 voorkeurstemmen komt tweede kamer kiezers partijgenoot bert bakker Stemming: fatma koser kaya d66 voorkeurstem kom tweede kamer kiez partijgenot bert bakker
OF
Lemmatisering: fatma koser kaya d66 voorkeurstem komen tweede kamer kiezer partijgenoot bert bakker Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Termselectie en weging Kies de ‘beste’ indextermen uit de verkregen lijst, en weeg ze. Beschouw het belang van de term in relatie tot het document Hoe vaker een term optreedt, hoe groter het belang (tf = term frequency) Beschouw optreden van de term in alle documenten samen. In welke mate karakteriseert het het document waarin het optreedt? Hoe groter het verschil in frequentie tussen dit document en de andere documenten, hoe significanter (idf = inverse document frequency)
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Het wegen van termen
Laagfrequente termen geven hoge precisie maar lage recall Hoogfrequente termen geven hoge recall maar lage precisie Middelfrequente termen zijn het beste ⇒ hoog gewicht toekennen ‘Slechte’ termen weglaten? Nee, maar laag gewicht toekennen. Meest gebruikte wegingsfunctie is tf×idf
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Matchen Gebruiker levert ongeordende woordenlijst. Haal daar indextermen uit. Voorbeeld: “automatisch vertalen europa EU” levert zoektermen europa, eu en automatisch vertalen op Zoek naar documenten die hoog scoren op deze termen Geef een gesorteerde lijst terug met matchende documenten Implementatie: 1 2 3 4
Vector Space Model Latent Semantic Indexing Probabilistic Retrieval Connectionistische Benaderingen
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Vector Space Model
Stel je een verzameling documenten voor als een n-dimensionele ruimte, met ´e´en dimensie per indexterm Geef het document weer als een n-dimensionele vector D. di = wi als termi ∈ D; anders di = 0 Geef de zoekvraag weer als een n-dimensionele vector Q. qi = 1 als termi ∈ Q; anders qi = 0 Bereken de nabijheid tussen de vector van de zoekvraag en alle andere vectoren, en geef de dichtstbijzijnde.
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Voorbeeld Voorbeeldzin: de kat zat op de mat Zoektermen: kat, zat, mat, vandaag, gisteren Document a) de kat zat op de mat b) de kat zat gisteren c) de kat zat d) de kat zat gisteren op de mat Query kat, mat, vandaag Matching Doc Doc Vector a [11100] b [11001] c [11000] d [11110]
Vector [11100] [11001] [11000] [11110] Vector [10110]
Query Vector [10110] [10110] [10110] [10110]
Anne-Marie Mineur
Score 2 1 1 3 Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Problemen met vrije tekst Dubbelzinnige keywords Bijvoorbeeld: bank → financi¨eel instituut, data-opslag, zitmeubel, mistflard Hoe kunnen we desambigueren? Huidig onderzoek naar Word Sense Disambiguation (WSD) werkt met contextuele aanwijzingen Geen contextuele aanwijzingen in IR zoekvraag WSD is actief onderzoeksgebied voor IR Enige oplossing is: veel indextermen ingeven.
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Problemen met vrije tekst (2) Polysemie Meerdere termen voor ´e´en begrip: zetel, bank of woonkamer, living. Zoekopdracht voor ‘woonkamer’ mist verwijzingen naar ‘living’ Zoekopdracht kan automatisch uitgebreid worden m.b.v. thesaurus (Wordnet, bijvoorbeeld) Thesaurus is door mensen gemaakt Meer termen kan tot veel irrelevante output leveren (lage precision) Moraal van het verhaal: Intelligente resultaten vragen intelligente zoekopdrachten Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Problemem met IR
Vaak lastig om in een zoekmachine te vinden wat je zoekt Overdaad aan irrelevante hits Sommige indextermen zijn erg ambigu of algemeen (‘middel’, ‘lijst’) Lastig om een zoekopdracht te formuleren die exact beschrijft wat je zoekt Hoe vergroot je de precisie zonder de recall te verlagen? Veel actueel IR-onderzoek probeert dat probleem op te lossen
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Query enhancement We bekijken enkele van de meer algemene tactieken voor het verbeteren van zoekopdrachten verplichte versus optionele zoektermen wild-cards (‘joker’) en uitdrukkingen matchen filteren, feedback over relevantie automatisch aanvullen van zoektermen proximity operators, booleaanse zoekopdrachten NLP, meertaligheid Aan het werk in Alta Vista
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Verplichte versus optionele zoektermen
Te algemene zoektermen ‘Pacino’ levert fan-pagina’s voor Al Pacino, maar ook Italiaanse restaurants Oplossing: maak belangrijkste termen verplicht Alle andere termen zijn optioneel In Altavista is ‘+’ verplicht: +Pacino Italiaans +acteur Amerikaans
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Wild cards
Zoekmachines maken amper gebruik van stammen en lemma’s ‘Gangster films’ 6= ‘gangster film’ Oplossing: alle varianten invoeren → omslachtig OF gebruik ‘wild card’ voor willekeurige suffix AltaVista maakt gebruik van ∗ Dus gangster film∗
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Uitdrukkingen matchen
Belangrijkste eenheden in IR: meerwoord termen (‘phrase’) Phrase: meerdere woorden die vaker samen voorkomen dan aan toeval kan worden toegeschreven Betekenis van het geheel is anders dan van de samenstellende delen Statistische analyse kan dergelijke phrases opsporen → co-occurence Gebruik maken van aanhalingstekens: ‘gangster film’
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Filteren
Soms verdrinkt een resultaat in andere informatie Zoek nu op verkiezingen en je vindt alleen 2006 Filteren verwijdert alle resultaten met bepaalde eigenschappen Gebruik maken van het minteken: +verkiezingen -2006 Op deze manier kun je een deelverzameling krijgen van een eerder resultaat
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Feedback over relevantie
Vaak levert een enkele zoekopdracht niet veel relevante resultaten Kunnen we de zoekopdracht verfijnen aan de hand van de lijst met resultaten? Oplossing: feedback laat de gebruiker relevante documenten uitzoeken selecteer extra termen uit deze relevante documenten, en gebruik die
Veel varianten op deze aanpak mogelijk, ´en in roulatie
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Automatische aanvulling van zoektermen Het probleem van polysemie blijft ‘Holland’ levert geen documenten over ‘Nederland’, ‘Groningen’, ‘Benelux’ Oplossen door het systeem automatisch extra termen te laten toevoegen Vereist handmatig opgestelde terminologie-database / thesaurus Thesaurus moet handmatig opgebouwd worden Onderzoek naar automatische constructie loopt al tientallen jaren
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Booleaanse zoekopdrachten
Standaard AltaVista zoekopdrachten worden opgevat als lijsten met termen Booleaanse zoekopdrachten (“advanced search”) maakt precieze specificatie mogelijk, ten koste van de recall Booleanse zoekopdrachten maken gebruik van booleaanse connectieven: and, or en not inspec en medline maken gebruik van Booleaans zoeken
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Nabijheids-operatoren Uitdrukkingen zijn soms alleen relevant wanneer ze vlakbij een andere ‘anchor’ term voorkomen. ‘Football’ alleen in de buurt van ‘Dutch’, bijvoorbeel, anders betekent het ‘rugby’. Nabijheidsoperatoren laten de gebruiker specificeren dat twee termen vlakbij elkaar moeten voorkomen (maximaal N woorden ertussen) In AltaVista gebruik je de NEAR operator: Veendam AND (football NEAR Friesland) Extra informatie toevoegen om specifiekere informatie te krijgen
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
NLP in IR
Combinatie klinkt logisch en intu¨ıtief Verbetering op grond van statistiek Niet terecht: niet effectief, wel “duur” Toepassing vooral in natuurlijke taal interface AltaVista heeft beperkte QA-faciliteit
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Meertalige IR Meertalige IR doorzoekt documenten in verschillende talen Taalkeuze AltaVista noteert de taal van het document, kan de gebruiker dus alleen in zijn eigen taal bedienen Documenten vertalen Gebruik maken van ‘traditionele’ vertaalcomputers om gevonden documenten te vertalen AltaVista gebruikt systran Zoektermen vertalen IR door verschillende talen Vertaal de zoekterm in alle beschikbare talen Combineer de resultaten tot een meertalige lijst
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Tips bij het gebruik van zoekmachines
Bestudeer de ‘advanced options’ Maak gebruik van gidsen en catalogi Weet je zeker dat je weet wat je zoekt? Maak gebruik van uitdrukkingen, wetenschappelijke namen en eigennamen, die zijn minder ambigu Wees bereid om herhaaldelijk te verfijnen
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Ontwikkelingen in IR TREC — Text REtrieval Conference: jaarlijks in november in Gaithsburg, Maryland Belangrijkste ontwikkeling in IR sinds 1970 Voor TREC waren experimenten kleinschalig en niet gestandaardiseerd — slecht te vergelijken 1991: Amerikaanse Department of Defense (DoD) lanceert tipster-initiatief: Geeft meerdere Gigabytes aan data uit op CD-ROM Ongestructureerde standaardtekst over algemene onderwerpen (Wall Street Journal, AP Newswire) Verzameling zoekopdrachten over documenten Verzameling relevantieoordelen (welke documenten zijn relevant voor welke zoekopdracht Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
TREC
DoD nodigt onderzoekers uit om elk jaar hun systeem te testen op deze data Resultaten worden bekendgemaakt op TREC Fenomenaal succes, loopt nog steeds Veel extra taken: Chinese IR Cross-language IR Spraak IR
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
De RUG-catalogus Contrast RUG gebruikt controlled subject hi¨erarchie AltaVista heeft vrije tekst RUG records zijn gestructureerd in diverse velden AltaVista gaat ervan uit dat alle webpagina’s ongestructureerd zijn RUG records zijn handmatig gemaakt AltaVista maakt gebruik van automatische index-technieken RUG biedt exacte ´en parti¨ele matching AltaVista gaat uit van exacte matching IR-onderzoekers mijden het web omdat het lastig is om experimenten te organiseren. Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Het indexeren van hyperlinks
Modern IR-onderzoek richt zich op TREC-collectie documenten met minimale structuur geen verband onderling
Zoekmachines werken net zo, maar webpagina’s hebben een rijke hyperlink structuur hoe maken we daar gebruik van?
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Standaard zoekmachines
Problemen met standaard zoekmachines Niet alle websites zijn even betrouwbaar Geen kwaliteitscontrole op het web Veel sites proberen kunstmatig hun waardering op te schroeven Ambigu¨ıteit, polysemie, . . .
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Mogelijke oplossingen
Handmatig samengestelde catalogi Semantische netwerken Analyse van citaties Dynamische analyse
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Handmatig samengestelde catalogi
Yahoo Alleen handgeselecteerde pagina’s worden toegevoegd Geeft goede resultaten Menselijke interventie nodig voor onderhoud (keywords, aanwas) Je rent altijd achter de feiten aan
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Semantische netwerken
WordNet definieert concepten verbindt concepten in een netwerk gelijksoortige concepten worden bij elkaar gezet Netwerk doorkruisen om gerelateerde concepten op te halen Netwerk wordt handmatig gemaakt en aangepast
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Semantische netwerken (2)
Voorbeeld Sense 1: gangster, mobster -- (a criminal who is a member of a gang) => criminal, felon, crook, outlow, malefactor -=> wrongdoer, offender -- (person who transgresses ...) => bad person -- (person who does harm to others) => person, individual, someone, somebody, ... => life form, organism, being, ... => entity, something => casual agent, cause, ... => entity, something --
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Google Analyse van citaties Eugene Garfield: belang van een artikel af te leiden uit het aantal verwijzingen (1960) Websites: goede websites worden vaak gelinkt Google robots kruipen over het net op zoek naar frequente sites Vindt universeel populaire sites, New York Times Koppelt ook links vanaf populaire sites
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Dynamische analyse Geclusterde links duiden op ‘webgemeenschappen’
sites die vooral naar elkaar verwijzen olievlekken in Japan Bronnen voor Turken in de VS Brandweer in Australi¨e
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Dynamische analyse IBM Clever System Aanpak vergelijkbaar met Google maar onderscheid tussen ‘hub pages’: lijsten links (rood) authoriteitspagina’s: sites met inhoud (blauw) → naar linken
Een goede hub verwijst naar authoriteiten, en v.v. cirkeldefinitie, gebruikt door een iteratief algoritme om resultaten van standaardzoekopdracht te sorteren Goede hubs en authoriteiten hoog plaatsen Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Conclusies Huidige IR is stabiel en betrouwbaar Query enhancement technieken zijn noodzakelijk Onderzoek op nieuwe terrein blijft doorgaan → CLIR (Cross-language information retrieval), bijvoorbeeld Hyperlink indexing systeem is overwegende techniek Google overvleugelt andere zoekmachines
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Verwijzingen Notess: beschrijft en bekritiseert zoekmachines (http://www.notess.com) NBER: Inventaris van zoekmachines (http://www.nber.org/links/search.html) All One Search: Gecombineerd zoeken (http://www.allonesearch.com) INSPEC: Bibliografie voor natuurkunde, electronica en informatica (http://www.iee.org/publish/inspec) MEDLINE: On-line medische informatie (http://medlineplus.gov) Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Library of Congress Subject Headings
Library of Congress Subject Headings De facto standaard in bibliotheek terminologie http://www.unc.edu/depts/jomc/academics/dri/loc/ lcsh.html
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Aanwijzingen Maak gebruik van wat je is aangeboden! Inhoud staat voorop. Schrijf een wetenschappelijk betoog LATEX biedt veel hulp — gebruik die \maketitle \subsection Aanhalingstekens bibliografie Schrijfstijl is belangrijk. Gestructureerd betoog Taalfouten corrigeren Stijlfouten vermijden Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Eindopdracht: wetenschappelijk betoog Schrijf een wetenschappelijk betoog naar aanleiding van het AWT-rapport van Wiebe Bijker en Ben Peperkamp1 . Lees ook de begeleidende brief2 en de uitgebreide toelichting3 . Vergelijk het perspectief van dat rapport met de insteek die Informatiekunde in Groningen kiest. Vereisten: 10 pagina’s, circa 4.000 woorden gestructureerde opbouw, wetenschappelijke stijl in LaTeX, met bibliografische verwijzingen
3
http://odur.let.rug.nl/∼mineur/onderwijs/AWT-rapport.pdf http://odur.let.rug.nl/∼mineur/onderwijs/AWT-brief.pdf 3 http://odur.let.rug.nl/∼mineur/onderwijs/AWT-toelichting.pdf 3
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Opdracht 5
Opdracht 5: Stel een plan op van 1 A4 waarin je uiteenzet hoe je je betoog gaat opbouwen. Bedenk wat je insteek wordt: wat is je centrale stelling? Welke voorbeelden wil je gebruiken? Bekijk bijdragen4 van vorige jaren
4
http://odur.let.rug.nl/∼mineur/onderwijs/Voorbeelden.html
Anne-Marie Mineur
Inleiding Informatiekunde I
Information Retrieval Query enhancement Ontwikkelingen in IR Bespreking van opdracht 3 Opdracht 5
Overzicht van de colleges
31 oktober Inleiding cursus 7 november Rondleiding Letterenbibliotheek 14 november Databases 21 november Communicatie in digitale media 28 november Information retrieval 5 december Strings
← Arbo-instructies
12 december Algoritmiek
Anne-Marie Mineur
Inleiding Informatiekunde I