VYHLEDÁVÁNÍ NA INTERNETU vyhledávací stroje a strategie vyhledávání
Název projektu: Od rozvoje znalostí k inovacím Registrační číslo projektu: CZ.1.07./2.3.00/09.0009 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky
Knihovna UTB ve Zlíně, 3.3.2010
.
Internet a informace
Animovaná prezentace „Něco málo o internetu“: http://prezi.com/i_tzbombs1y1/
• Na Internetu jsou dostupné 2 typy informační zdrojů: • Dostupné přímo • Mají veřejný charakter, jsou bezplatné a lokalizovatelné pomocí vyhledávače.
• Dostupné zprostředkovaně • Zejména profesionální a komerční databázová centra • Internet je metodou přístupu
• Mimo pak stojí tzv. Neviditelný web (většinová část webu, která je jen obtížně vyhledatelná pomocí vyhledávačů)
Knihovna UTB ve Zlíně, 3.3.2010
Vyhledávací služby na internetu •
Z funkčního hlediska rozlišujeme 2 druhy vyhledávacích služeb: a.
b.
•
Vyhledávací stroje • Indexují slova a termíny, které se vyskytují ve WWW dokumentech. Předmětové katalogy • Klasifikují dokumenty nebo celé servery podle předem dané předmětové klasifikace.
Mnohé vyhledávací stroje nabízejí také katalog a naopak. U mnohých vyhledávačů se tak tyto dva typy vyhledávacích služeb prolínají. Vznikají tak hybridní stroje.
Knihovna UTB ve Zlíně, 3.3.2010
CC Danard Vincente
Vyhledávací stroje
• Systém, který na základě zadaného klíčového slova hledá v databázi nebo indexu a uživateli pak nabídne výsledek hledání. • Stěžejní pro použití vyhledávacího stroje je klíčové slovo = vyhledávací termín = vyhledávací výraz • Správně zvolený vyhledávací výraz je základ spěchu • Z jednoho nebo více vyhledávacích výrazů se skládá dotaz (úplný vyhledávací požadavek, vyhledávací výrazy se spojují operátory) • Dokument, který vyhovuje zadanému dotazu se jmenuje hit
Knihovna UTB ve Zlíně, 3.3.2010
Kdy použijeme vyhledávací stroj?
1. Předmět zájmu je úzký (konkrétní) nebo obsahuje neobvyklé termíny 2. Hledáme zvláštní sídlo 3. Chceme prohledávat maximální možnou část webu (Pozor! Včetně nerelevantních dokumentů.) 4. Chceme, aby byl výsledek vyhledávání co nejobsáhlejší 5. Chceme hledat určité typy dokumentů, souborů, jazyků, chceme nastavit upřesňující filtry 6. Chceme využít výhody těchto strojů jako je pojmové shlukování, řazení dokumentů dle popularity apod.
Knihovna UTB ve Zlíně, 3.3.2010
Příklady vyhledávacích strojů
Zahraniční vyhledávací stroje:
České vyhledávací stroje:
Knihovna UTB ve Zlíně, 3.3.2010
Jak fungují vyhledávací stroje
Animovaná prezentace „Jak fungují vyhledávací stroje?“ http://prezi.com/ey31dkhsc8yt/
Prezentace o fungování vyhledávacích strojů. Jak prohledávají web, vytváří databáze a starají se o to, abyste dostali relevantní výsledek. Pozornost je zaměřena také na Google PageRank.
Knihovna UTB ve Zlíně, 3.3.2010
Problémy vyhledávacích strojů
• Databáze vyhledávacích strojů vytváří roboti (=automaticky), proto je indexováno i mnoho stránek nevalné kvality. • Roboti nejsou schopni vyhledat a indexovat vše (problém neviditelného webu) a nezvládají dynamicky se měnící stránky, obrázkové mapy apod. • Některé stránky jsou chráněny heslem. • Mnoho vyhledávacích strojů má omezení na počet indexovaných stránek z určité domény.
Knihovna UTB ve Zlíně, 3.3.2010
Předmětové katalogy
• Pokrývají menší část webového prostoru. • Výhodou je přesná hierarchická struktura a dělení na kategorie a podkategorie. • Předpokladem vyhledávání v katalogu je, že uživatel ví, co hledá a do které předmětové kategorie téma patří. • Katalogy plní jednak tvůrci webových stránek a jednak informační pracovníci. • Umožňuje postupovat kategoriemi a podkategoriemi od obecných věcí k těm specifickým.
Knihovna UTB ve Zlíně, 3.3.2010
Kdy použijeme předmětový katalog?
1. V případě, že naše téma je široké 2. Nemáme konkrétní představu o hledané informaci a chceme se nechat navézt nabízenými podkategoriemi 3. Chceme získat seznam webových sídel 4. Hledáme informace o firmě 5. Vyhledáváme ve výrobcích 6. Hledáme nejnovější zprávy 7. Chceme se vyhnout nekvalitním stránkám, které indexují roboti vyhledávacích strojů
Knihovna UTB ve Zlíně, 3.3.2010
Příklady předmětových katalogů
Zahraniční předmětové katalogy:
České předmětové katalogy:
Knihovna UTB ve Zlíně, 3.3.2010
Výhody a nevýhody předmětového katalogu
• • •
Největší výhodou je záruka kvality, která je dána zejména tím, že jsou katalogy vytvářeny „ručně“. Většina katalogů navíc informační zdroje hodnotí a anotuje. Nevýhody: • Mají omezený rozsah • Používají se různé struktury kategorií a jiná schémata • Procházení podkategorií je časově náročné • Problém s platností odkazů • Méně častá aktualizace katalogu • Subjektivita při hodnocení zdrojů a jejich zařazování do kategorií • Obecné popisy vznikající na základě zevrubného prozkoumání informačního zdroje
Knihovna UTB ve Zlíně, 3.3.2010
Metavyhledávací stroje
• Umožňují vyhledávání ve více než jednom vyhledávacím stroji nebo katalogu. • Při vyhledávání kombinují výsledky vyhledávání a odstraňují duplicitní záznamy. • Mohou být také seznamem vyhledávacích strojů, do kterých lze vstoupit z jednoho místa. • Problém s tím, že každý vyhledávač má jiná pravidla vyhledávání, takže metavyhledávače umožňují efektivně vyhledávat pouze pomocí klíčových slov a nepoznáme všechny možnosti při rozšířeném vyhledávání. • Za zmínku stojí také tzv. „vyhledávací centrály“, které do jednoho místa sdružují vyhledávání ve vámi vybraných vyhledávačích
Knihovna UTB ve Zlíně, 3.3.2010
Příklady metavyhledávačů
Zahraniční metavyhledávače:
Odskok
České metavyhledávače (vyhledávací centrály):
Knihovna UTB ve Zlíně, 3.3.2010
Princip fungování metavyhledávacího stroje
CC Simiezzz
ROZESÍLACÍ MECHANISMUS Algoritmus (dotazovací přístup), který určuje výběr vyhledávacích systémů, kterým bude dotaz zaslán.
AGENT ROZHRANÍ Program, který ví, jak se navazuje spojení s určitým vyhledávacím systémem. Umí konvertovat dotaz do formátu různých vyhledávacích systémů a interpretuje získané výsledky.
ZOBRAZOVACÍ MECHANISMUS Odstraňuje duplicitní výsledky, řadí je dle míry relevance, provádí konverzi z interního formátu do podoby vhodné pro uživatele a zašle je k zobrazení klientovi.
Existují i metavyhledávače se zjednodušeným přístupem. Jsou rychlejší, ale kvalita zobrazování výsledků je nízká.
Knihovna UTB ve Zlíně, 3.3.2010
Výhody a nevýhody metavyhledávačů •
Výhody: • Při vyhledávání používáte pouze jedinou stránku. • Je nutné se naučit práci pouze s jedním rozhraním. • Není nutné sledovat novinky mezi vyhledávači a nové vyhledávací stroje • Dotaz zadáváte více vyhledávačům pouze jednou • Vyšší úplnost vyhledávání
•
Nevýhody: • Odtržení od rozhraní jednotlivých vyhledávačů (není tak možné využít speciální schopnosti těchto strojů) • Přicházíme o informace reklamního charakteru (které nejsou vždy jen otravné) • Někdy dochází k nízké výkonnosti metavyhledávačů • Metavyhledávače limitují počet záznamů z jednoho vyhledávacího stroje
Knihovna UTB ve Zlíně, 3.3.2010
Portály
• Integrace služeb do jediného uživatelského rozhraní, nabízí svým uživatelům komplexní služby: • Vyhledávání v katalogu, Fulltextové vyhledávání, Zpravodajství´, Online zábavu, Diskusní fóra, Možnost personalizace stránky, Email, Kalendář, Bezplatný webhosting, Burzovní zprávy apod.
• Portály dělíme na vertikální a horizontální. Horizontální portály jsou obecně zaměřené a patří mezi ně např. Yahoo a Seznam. Vertikálním portálům se také říká „community portals“ a jsou zaměřené na užší skupinu lidí se stejným zájmem. Patří mezi ně např. Linux Online nebo PHP developer.
Knihovna UTB ve Zlíně, 3.3.2010
Neviditelný web
• • •
Vyhledávací stroje jsou schopné indexovat pouze velmi malou část webu, tzv. „povrchový web“. Tzv. „neviditelný web“ (hluboký web) je těmto službám nedostupný. Je 550x větší než povrchový web. 4 Obr. č. 1 V neviditelném webu se nachází: • Informace uložené v placených a soukromých databázích • Adresáře • Specializované vyhledávače • Dokumenty v jiných formátech než je html • Tzv. „samotáři“ = stránky, které nejsou s dalšími propojeny odkazy • Dynamicky generované stránky (katalogy knihoven, kalkulačky) • Stránky chráněné heslem
Knihovna UTB ve Zlíně, 3.3.2010
Vyhledávací služby neviditelného webu
Vyhledávačů v hlubokém webu je mnoho, každý z nich prohledává jiné části. Pro více příkladů se podívejte např. na online college blog
Knihovna UTB ve Zlíně, 3.3.2010
Adresáře vyhledávačů
• Vyhledávačů je v dnešní době velmi mnoho a každý má svá specifika a silné stránky. Velmi užitečné jsou tedy tzv. „adresáře vyhledávačů“, které vám umožní se rozhodnout, jaký vyhledávač použít. Najdete zde také informace o nových vyhledávacích funkcích a srovnávací studie.
Knihovna UTB ve Zlíně, 3.3.2010
Google a?
CC Toprankonlinemarketing
Google je dominantním vyhledávačem v celosvětovém měřítku. Je Google to pravé? V čem je tak dobrý a proč je tolik používaný? Prohlédněte si naši animovanou prezentaci: http://prezi.com/gqgwwh66oxkh/pan-google/
Google je vyhledávací stroj a ne vždy je dobré jej použít. Mnohdy vám lépe poslouží katalogy nebo specializované vyhledávače. Dokonce i české vyhledávače jsou velmi kvalitní. Podívejte se na jejich přehled: http://vyhledavac.oblibena.net/ nebo http://www.vyhledavace.cz/ Anatomie vyhledávání na Googlu: http://www.youtube.com/watch?v=LMN9btsoPqk
Knihovna UTB ve Zlíně, 3.3.2010
Stavba klíčového slova
• • •
Vyhýbejte se tzv. „stopslovům“ (předložky, spojky), z hlediska vyhledávání nemají informační přínos Těžištěm vyhledávání jsou podstatná jména S přísudky, přídavnými jmény a slovesy je problém (vícejazyčnost, zaměnitelnost) – výjimkou jsou přídavná jména sloužící k jednoznačné identifikaci (např. Pythagorova věta)
Knihovna UTB ve Zlíně, 3.3.2010
CC Stefán
Určení vztahu mezi pojmy
• Operátory AND (+), OR a NOT (-)
Vyhledá jen ty dokumenty, které obsahují oba termíny.
Vyhledá ty dokumenty, které obsahují alespoň jeden z uvedených termínů.
Vyhledá jen ty dokumenty, které neobsahují termín uvedený vlevo.
• Operátor OR se používá pro spojení synonym a příbuzných pojmů • Operátor AND a používá pro spojení významově odlišných pojmů (v Googlu je možné jej nahradit znaménkem +) • Operátor NOT se v Googlu nahrazuje znaménkem -
Knihovna UTB ve Zlíně, 3.3.2010
Google: zpřesňování dotazu
• „psychologický slovník“ – Najde přesnou frázi
• * Habsburský – Nahrazuje libovolné slovo
• ~copyright – Hledá termín včetně synonymních výrazů (platí pouze v angličtině)
• Použití speciální „příkazů“ Googlu ve tvaru příkaz:zadání k vyhledávání (mezera) další termín
Knihovna UTB ve Zlíně, 3.3.2010
Google: zpřesňování dotazu
• • • • • • • • • •
filetype:pdf „marketing research“ omezení na určitý formát dokumentu intitle:webdesign flash najde „webdesign“ v názvu stránky a „flash“ kdekoliv allintitle:hosting design e-shop najde všechna slova v názvu stránky related:http://www.seminarky.cz najde tematicky podobné stránky link:http://www.mvcr.cz najde stránky obsahující odkaz na web mvcr.cz inurl:medicine najde uvedené slovo v URL adrese site:www.uoou.cz registrace kamerového systému najde zadaný výraz „registrace kamerového systému“ na zadané stránce „www.uoou.cz“ define:signatura najde definici pojmu info:www.knihovna.utb.cz vypíše informace o stránce Všechny tyto příkazy můžete snadno realizovat také pomocí „Pokročilého vyhledávání“
Knihovna UTB ve Zlíně, 3.3.2010
Užitečné služby Googlu
• • •
• •
Google Scholar Google Books Google reader, Google street view, Youtube, Google SketchUp, Google Apps – Nevěříte, že i tyto služby vám mohou pomoci najít užitečné informace nebo jinak pomoci ve zpracování informací? – Ale o tom až někdy příště. Sociální sítě a soft information, vyhledávání na Twitteru, učící se komunity na Ningu Parisian Love – Google film (pro oddechnutí): http://www.youtube.com/watch?v=nnsSUqgkDwU
Knihovna UTB ve Zlíně, 3.3.2010
Úkoly 1. 2. 3. 4. 5. 6.
7. 8. 9.
Jaký byl veřejný dluh Kuby v procentech vzhledem k HDP v roce 2009? Najděte libovolný dokument ve finštině a po přeložení do jazyka, kterému rozumíte zjistěte, zda je relevantní. Najděte jakýkoliv dokument na téma firemní analýza finančního sektoru v lotyštině ve formátu PDF. Najděte fén, jehož cena je nejblíže k 500 Kč. (hledejte na českém trhu) Která jihlavská firma se zabývá měřením radonu? Citovali jste nedávno z knihy DOYLE, Christina S. Information literacy in an information society. Knihu jste ale vrátili do knihovny a teď vám chybí údaj o lokaci citace v dokumentu. Zkuste dohledat, na které straně se nachází tato citace: „ A restructuring of the instructional process is called for. Instead of teacher directed instruction, experience-based learning must become the norm in our schools.“ Najděte dokument pojednávací o virálním marketingu, ale nezabývající se guerillou, který vyšel v Oeconomica. (zkuste napsat dotaz tak, aby vám vyhledávač našel jediný správný výsledek). Najděte stránku jakékoliv novozélandské organizace (ne školy) zabývající se gerontologií, která na svých stránkách odkazuje na stránky Gerontological Society of America. Zkuste vyhledat nejnovější zprávy (za posledních 7 dní) na téma music awards v Austrálii. (Použijte jiný vyhledávač než-li Google.)
Knihovna UTB ve Zlíně, 3.3.2010
Výsledky úkolů 1.
2.
3.
4.
5. 6. 7.
8. 9.
Google mi nenabídl relevantní výsledky, neumím španělsky a oficiální vládní stránky Kuby se moc svým dluhem nechlubí. Jaká organizace by mohla mít dostupné relevantní informace o všech zemích světa? CIA a jejich Factbook. Zde jsem našla, že veřejný dluh Kuby byl v roce 2009 34,8% HDP. Vybrala jsem si slovo „šikana“ a přeložit šikana do angličtiny, pak do finštiny pomocí Google Translator (nabízí kvalitnější překlad z angličtiny do jiného cizího jazyka,). Dané slovo jsem vyhledala v Googlu a relevanci dokumentu ověřila tak, že jsem si celý dokument opět nechala přeložit s pomocí Google Translator. Opět jsem pomocí Google Translator přeložila daný výraz do angličtiny, a pak do lotyštiny. Zadala jsem si daný výraz do Googlu a v pokročilém vyhledávání specifikovala, že chci výsledek v lotyštině a ve formátu PDF. Překlad pomocí Google Translator z PDF je rozhozený, ale dá se z něj alespoň trochu vyčíst obsah dokumentu. Použila jsem www.jyxo.cz (možné i Zboží na Seznamu), specifikovala jsem cenu od 450 do 550 Kč a řazení výsledků od nejlevnějšího po nejdražší . Použila jsem vyhledávání Firmy na Seznamu. Vyhledala výraz „měření radonu“ a následně specifikovala kraj, okres a město. Výsledkem je firma Geomin, družstvo. Vyhledala jsem si knihu v Google Books, kde byl dostupný plný text. V informacích o knize a zevrubným „prolistováním“ jsem zjistila, zda se jedná o stejnou knihu a následně vyhledala citaci v plném textu knihy. Hledala jsem v Google Scholar, použila dotaz „viral marketing –guerilla“ a nastavila v pokročilém vyhledávání, že chci hledat pouze v Oeconomica. Vyšel mi jediný správný výsledek. Na Googlu jsem nejdříve našla přesné URL stránky organizace Gerontological Society of America. Následně jsem zadala tento dotaz: „New Zeland AND gerontology link: (vyhledané www)“ Hledala jsem ve vyhledávači www.altavista.com (možné i např. www.alltheweb.com), který má přehledné vyhledávání ve zprávách.
Knihovna UTB ve Zlíně, 3.3.2010
Použité zdroje (prezentace vychází z materiálů zpracovaných Knihovnou UTB)
1. 2. 3. 4.
5.
Vyhledávací nástroje na internetu II [online]. Copyright neuveden [cit. 2010-02-24]. Dostupné z:
. Vyhledávací nástroje na internetu I [online]. Copyright neuveden [cit. 2010-02-24]. Dostupné z: . Meta-hledače [online]. c1998–2010 , Poslední aktualizace 2010-02-19 [cit. 2010-02-24]. Dostupné z: . JEP: The journal of electronic publishing [online]. copyright neuveden [cit. 2010-02-27]. The Deep Web: Surfacing Hidden Value. Dostupné z: . Obr. č. 1: Invisible web [online]. c2004-2006 [cit. 2010-02-27]. Dostupné z: .
Knihovna UTB ve Zlíně, 3.3.2010
DĚKUJEME VÁM ZA ÚČAST Bc. Olga Biernátová, [email protected]
Název projektu: Od rozvoje znalostí k inovacím Registrační číslo projektu: CZ.1.07./2.3.00/09.0009 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky
Knihovna UTB ve Zlíně, 3.3.2010
.