Internet II. Vyhledávací nástroje
Osnova • Jak se stát úspěšným hledačem pokladů na Internetu – rešeršní strategie – vyhledávací nástroje – hodnocení vyhledávacích nástrojů, vyhledaných obsahů informací
• Neviditelný web
Proč je vyhledávání na Internetu tolik komplikované? • Denně vychází na světě cca 1 mil. tištěných knih x 7 mil. elektronických na Internetu • Necenzurované obsahy, neustálý nárůst zdrojů, typů dokumentů • Absence standardů či norem pro zpracování, klasifikaci a vyhledávání informací – Internet není knihovna ani katalog! Znalost vyhledávacích nástrojů – světlo na konci tunelu!
1
Zásady úspěšného vyhledávání na Internetu • JAK? – rešeršní technika
• V ČEM? – vyhledávací nástroje
• JAK VYBRAT A NEPŘEBRAT? – kritické hodnocení, ověřování vyhledaných informací
Zásady úspěšného vyhledávání na Internetu JAK - rešeršní technika – obecně • Umět zformulovat, co chci najít a určit si priority – téma, odborná terminologie, cizojazyčný překlad, geografické omezení, časové omezení, jazykové omezení, omezení druhů dokumentů – návrh klíčových slov a jejich logických vztahů (AND, OR, NOT)
Zásady úspěšného vyhledávání na Internetu Rešeršní technika – obecně
• pro porovnání výsledků je dobré používat více vyhledávacích nástrojů a zkorigovat syntaxi dotazu podle odpovědí vyhledávacích nástrojů • sledovat příbuzné odkazy vedoucí z www vyhledávacích nástrojů • při obrovském množství nalezených informací být schopen dotaz ještě více omezit a naopak při nedostatku nalezených informací dotaz zobecnit, kriticky hodnotit kvalitu nalezených informací • využít nástroje na vyhledávání - rejstříky=slovníky, site map, možnosti jednoduchého a pokročilého vyhledávání, boolovské operátory, proximitní operátory, hledání frází, polí, krácení slovních kořenů, zástupné symboly
2
Tipy pro vyhledávání na Internetu - souhrn • klíčová slova • boolovské operátory (AND, OR, NOT) – AND (a zároveň) M
Výsledek dotazu: management AND finance
F
– OR (nebo) M
F
Výsledek dotazu: management OR finance
Tipy pro vyhledávání na Internetu - souhrn – NOT (ne, bez) M
F
Výsledek dotazu:
management NOT finance
Tipy pro vyhledávání na Internetu - souhrn • proximitní operátory ( NEAR, WITH) – vyhledá znaky v těsném sousedství vedle sebe (lze definovat kolik slov od sebe)
• zástupné znaky a znaky pro rozšíření – znaménka + (funkce AND) - (funkce NOT) – znaménka ? * (nahrazují 1 a více znaků)
3
Tipy pro vyhledávání na Internetu - souhrn • Vyhledávání podle polí zdrojové www – hledání obrázků image: president Bush – hledání odkazu na adresu (sledování, kdo odkazuje na naší www) link: www.mzk.cz – hledání odkazu s klíčovým slovem anchor: veřejné knihovny
Tipy pro vyhledávání na Internetu - souhrn • Návazné služby vyhledávacích strojů – odkazy na virtuální slovníky (Alltheweb) – možnost strojového jazykového překladu (Altavista) – možnost prohledání v databázi jiných vyhledávacích strojů z jednoho rozhraní (Hotbot)
Zásady úspěšného vyhledávání na Internetu V ČEM –vyhledávací nástroje – předmětové katalogy – rešeršní systémy (vyhledávací stroje) – metarešeršní systémy (metavyhledávací stroje) – specializované vyhledávací nástroje (vyhledávání osob, firem, diskusních skupin, programů) – ?nasadím selský rozum a hádám?
4
Předmětové katalogy • Použití v případě, kdy nám hledání usnadní hierarchická a tématická struktura (jízdní řády, knihovny) • Možnosti vyhledávání jsou omezené • příklady předmětových vyhledávačů: Seznam http://www.seznam.cz Yahoo http://www.yahoo.com
Vyhledávací stroje • Rešeršní systémy, search engines • Vhodné pro hledání složitějších témat • Vyhledávání má řadu možností - (fráze, logické operátory, pravo/levostranné rozšíření, vyhledávání podle polí) • Velmi rozsáhlé databáze zmapovaných www (např. Google kolem 3,3 miliard) • Příklady vyhledávacích nástrojů - Světové rešeršní systémy
5
Vyhledávací nástroje – jak je hodnotit • jaké způsoby vyhledávání umožňuje • jakým způsobem zpracovává (indexuje) www stránky • jakou část, službu Internetu prohledává (www, ftp…) • jaké druhy, formáty dokumentů umožňuje prohledávat • velikost databáze vyhledávacího stroje žádný vyhledávací nástroj neumí prohledávat celý Internet!
6
Google • původně systém - studentský projekt založen v r. 1998, USA • velmi rozsáhlá databáze – výborné pokrytí www • přívětivé rozhraní bez agresivních reklam • jazykové, regionální adaptace • originální způsob vyhodnocování dotazu – „page ranking“ (výpočet četnosti odkazů z i na stránku) • V r. 2003 denní průměr – 250mil. vyhledávání
Google • 2 a více pojmů automaticky spojuje – není nutné zapisovat operátor AND • Star Wars Episode +I - „I“ musí být ve vyhledaných stránkách obsaženo (patří mezi takzvaná „stop words”) • “informační věda” - najde přesnou frázi • cembalo OR virginal - najde stránky s minimálně jedním termínem • Klaus -Santa označení „Santa“ nesmí být ve vyhledaných stránkách obsaženo • „elektronický podpis“ site:www.micr.cz – na uvedené www prohledá zdroje na téma elektronický podpis
7
Google • rozpočet filetype:xls - omezení jen na určitý formát dokumentu (XLS) • intitle:CPU Athlon - najde „CPU“ v názvu stránky a „Athlon“ kdekoli • allintitle:idnes galerie - najde „idnes“ a „galerie“ v názvu stránky (současně) • link:www.ped.muni.cz/wlib - najde stránky obsahující odkaz na stránky knihovny • allinanchor:Sydney - najde stránky obsahující „Sydney“ v odkazu • related:www.nkp.cz - najde stránky podobné stránce Národní knihovny ČR • ~ marihuana - hledá uvedený termín včetně synonymních výrazů (např. i cannabis, marijuana)
Google - cvičení • Vyhledejte www na téma “poruchy učení”, aniž by ve výsledku figuroval termín „dyslexie“ "poruchy učení" -dyslexie • Zjistěte jaké různé slovníky jsou na serverech registrovaných v České republice - (doména cz) slovníky site:cz
Alltheweb • • • • •
Produkt norské firmy z r. 1997 vyhledávání frází „sociologie rodiny“ + funkce operátoru AND pes –jezevčík odpovídá operátoru AND NOT pedagogika rank výzkum – vyhledá termín pedagogika výsledky seřadí podle pojmu výzkum • (tvořivost kreativita) – pojmy v závorce spojí jako s operátorem OR – vyhledá alespoň jeden z pojmů
8
Alltheweb • url:drogy – prohledá slovo drogy v URL • title:Cimrman – prohledá jméno Cimrman v názvu stránky • Brno +mapa filesize:<1024 vyhledá mapu Brna, soubor je menší než 1024 bajtů • "studijní katalog" +2002 site:www.ped.muni.cz prohledá zadaný www server s dotazem na studijní katalog z r. 2002
Metavyhledávače • Pracují s jinými vyhledávacími nástroji • jedním příkazem se prohledává velké množství Internetu - dotaz je předáván k vyhodnocení rešeršním systémům (Googlu, Altavistě…) • Vhodné pro vyhledávání, kde nám záleží na kvantitě, možnosti vyhledávání jsou omezené
Vivísimo http://vivisimo.com/ Metacrawler http://www.metacrawler.com/
Specializované vyhledávací nástroje • nástroje pro vyhledávání firem – databáze firem – obchodní rejstřík – ČSÚ - Registr ekonomických subjektů
• hledání osob a e-mailových adres osob – telefonní seznam – Internet adress finder
9
Specializované vyhledávací nástroje - trocha tajemna Neviditelný web - temný, neprůhledný web • co běžné vyhledávací stroje nenajdou (2-500- ti násobně větší než web viditelný) • určité formáty dokumentů • hlouběji umístěné informace na www nebo příliš rozsáhlé www • databáze, www pouze pro registrované uživatele …. • údajně vyšší kvalita informací je na hlubokém webu • více jak polovina hlubokého webu ve specializovaných předmětových DB • údajně 95% info v hlubokém webu veřejně přístupná
Neviditelný web - vstupní brány Complete Planet http://www.completeplanet.com – globální vyhledávací nástroj pro vyhledávání databází a dalších vyhledávacích služeb, portálů na www – registruje 40 000 zdrojů, obsažených v 7000 kategoriích strukturovaného hesláře
Direct Search http://www.freepint.com/gary/direct.htm – zahrnuje odkazy na vyhledávací služby, databáze, zdroje, které nejsou vyhledatelné běžnými vyhledávacími nástroji typu Google, Hotbot…
Neviditelný web - vstupní brány • Scirus
http://www.scirus.com
– Specifický vyhledávací nástroj pro odborné informace (záměrná filtrace nevědeckých obsahů, hluboká indexace www, vědeckých databází)
10
Kritické hodnocení, ověřování vyhledaných informací JAK VYBRAT A NEPŘEBRAT? • Kritéria: – pertinence – věcná shoda vyhledané informace se subjektivním požadavkem uživatele – relevance - věcná shoda vyhledané informace s dotazem uživatele – úplnost – přesnost, důvěryhodnost (jasné autorství, jazyk textu, citovaná literatura, objektivita, umístění adresy) – ověření v referenčních zdrojích
Kritické hodnocení, ověřování vyhledaných informací • zlomyslné žerty – HOAX - http://www.hoax.cz/ • „seriózní“ bludy a mystifikace http://www.bonsaikitten.com/gray.html
• zaujaté, neobjektivní „seriózní“ informace http://www.martinlutherking.org/
Úkol 1. Zjistěte co znamenají zkratky „DOI“, „URN“ a uveďte praktické příklady, ve kterých vysvětlíte jejich funkci. Použijte libovolný vyhledavač. 2. Plánujete v dubnu navštívit na 1 měsíc Japonsko. Zjistěte atraktivní turistickou trasu míst, které byste navštívili během 1 měsíce, zjistěte kolik stojí levné ubytování a doprava z ČR do hlavního města Japonska. Použijte libovolný vyhledavač.
11
Závěr Vyhledávací nástroje na Internetu - klíč ke zdrojům na Internetu – srovnávat, zkoušet, myslet na obecné zásady vyhledávání v elektronických zdrojích a nebát se – předmětové katalogy – vyhledávací stroje (metavyhledávače) – specializované vyhledávací nástroje
12