Aplikovaná informatika Pokročilé vyhledávání, vyhledávací roboti ZEMÁNEK, Z. – PLUSKAL,D. – ŠUBRT, Z.
Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326
POKROČILÉ VYHLEDÁVÁNÍ, VYHLEDÁVACÍ ROBOTI
i
1. 2. 3. 4.
Principy pokročilého vyhledávání Využití vyhledávacích robotů Možnosti vyhledávání informací z informačních databází a tvorby rešerší Kontrolní otázky a úkoly do samostudia
Cíle přednášky 1.
Charakterizovat princip a využití pokročilého vyhledávání.
2.
Objasnit význam vyhledávacích robotů.
3.
Vysvětlit princip zpracování výsledků informačního průzkumu z fulltextových zdrojů a jeho praktické využití.
Vyhledávání informací „Východiskem vědeckého studia musí být pečlivé prostudování existující literatury o dané otázce, abychom nezjišťovali věci dávno známé.“ [1]
„Efektivní vyhledávání informací a jeho aplikování „ve správnou dobu správnými (poučenými a informačně připravenými) lidmi“ je sice jen jedním, ale strategickým aspektem uspění v novodobém prostředí. Schopnost vyhledat relevantní informace patří mezi konkurenční výhody, a nezáleží, v jakém pracujeme oboru.“ [2]
Katalogové (předmětové) vyhledávání je charakteristická katalogizace dat odkazy jsou hierarchicky uspořádány vyhledávače: Google, Seznam,…
Nevýhody:
Kvůli značnému podílu „ruční“ práce je velikost značně omezena. 1. Každý katalog má jinak strukturované skupiny odkazů. 2. Časová náročnost (ta vychází ze struktury – uživatel může strávit mnoho času, než najde správnou podkategorii). 3. Platnost, resp. neplatnost odkazů – lze zčásti odstranit jejich automatizovanou kontrolou.
C4 Vyhledávací roboti
Katalogové (předmětové) vyhledávání
C4 Vyhledávací roboti
Pokročilé vyhledávání Vyhledávací operátory jsou prostředky dotazovacího jazyka sloužící k přesnému formulování rešeršního dotazu. Jejich význam, příp. přednastavení se může v jednotlivých vyhledávacích strojích lišit. Příkladem může být Google: http://www.google.cz/advanced_search?hl=cs Nebo Seznam: http://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/pokrocile-hledani V pokročilém vyhledávání jsou přednastaveny následující operátory: uvozovky (" "), čárka (,), not (-), intitle, inurl, intext, site, -site a filetype. Při vyhledávání na Seznamu můžeme dále použít následující operátory: plus (+), host, -host a lang.
„Schopnost nalézt nalézt správné správné informace informace „Schopnost je nezbytným nezbytným předpokladem předpokladem pro pro jejich jejich další další využití.“ využití.“ je
Principy pokročilého vyhledávání Umožňuje zadávat ve vyhledávačích Internetu složitější dotazy, které lze kombinovat pomocí podporovaných operátorů (na stránkách pokročilého hledání není potřeba operátory zadávat, vkládají se automaticky). Lze vyhledávat přesnou fulltextovou frázi, kde se má zadané slovo nacházet v titulku stránky, v URL, v textu stránky, omezit hledání na určitou doménu či naopak vybranou doménu z hledání vyloučit, umožňuje nastavit dokumenty, které se mají prohledávat.
Využití nastavení a filtrů Vyhledávání je možno zjednodušit využitím nastavením vyhledávače
Ve svém profilu využitím filtrů vyhledávání (dle obsahu)
Vyhledávací centrály = integrace vyhledávačů v jednom prostředí Alenka Zajímavý Internetový portál s možností okamžitého vyhledávání na mnoha Českých i zahraničních vyhledávačích. Alenka není klasický metavyhledávač, ale umožňuje předat dotaz vybranému vyhledávači z jednoho místa, bez dalšího zpracování výsledků.
C4 Vyhledávací roboti
Příklady vyhledávacích centrál www.alenka.cz www.globalsearch.cz www.odskok.cz/sluzby/robot.php
C4 Vyhledávací roboti
Metavyhledávače Metavyhledávače neprohledávají Internet, ale využívají existující vyhledávací servery. Výhoda: odstraňují duplicity.
Nevýhody: vzhledem k tomu, že musí čekat na odezvu více serverů, jsou pomalé, jejich rychlost je závislá na rychlém připojení k Internetu. C4 Vyhledávací roboti
Metavyhledávače 1. Dotaz uživatele rozešlou několika nezávislým vyhledávacím strojům, které provedou vlastní hledání, a sám „pouze“ uživateli prezentuje celkový výsledek vyhledání.
www.metacrawler.com, www.webcrawler.com, http://www.dogpile.com/
C4 Vyhledávací roboti
Metavyhledávače 2. Rozesílací mechanismus je základem metavyhledávače
(algoritmus rozhodující o tom, kterým vyhledávačům bude dotaz zaslán).
www.metacrawler.com, www.webcrawler.com, http://www.dogpile.com/
C4 Vyhledávací roboti
Metavyhledávače 3. Agent rozhraní - převádí dotaz položený metavyhledávači do formy, které bude rozumět konkrétní vyhledávací stroj a poté zase výsledky jednotlivých vyhledávačů převést a sjednotit k zobrazení v rámci metavyhledávače.
www.metacrawler.com, www.webcrawler.com, http://www.dogpile.com/
C4 Vyhledávací roboti
Metavyhledávače 4. Zobrazovací mechanismus – jeho úkolem je odstranění vícenásobných odkazů (duplicit) na jeden dokument a verifikace jejich existence. www.metacrawler.com, www.webcrawler.com, http://www.dogpile.com/
www.metacrawler.com, www.webcrawler.com, http://www.dogpile.com/
C4 Vyhledávací roboti
Co je vyhledávací robot? Program (SW), který opakovaně vykonává nějakou rutinní činnost na internetu. Je spuštěn na portálu. Obvykle sbírá data, odesílá a zpracovává požadavky na služby. Příkladem robota jsou vyhledávací roboti internetových vyhledávačů (crawler, spider, gatherer – doslova „prolízač“, pavouk, „shromažďovač“ - český ekvivalent se nepoužívá).
C4 Vyhledávací roboti
18
Proč vyhledávací robot? Usnadňují orientaci v ohromném množství informací, které se nachází na Internetu. Velmi podstatné zrychlení doby vyhledání odpovědi na dotaz. Jedná se o fulltextové vyhledávání podle dotazu uživatele. Robot průběžně shromažďuje WWW dokumenty, ze kterých je vytvářena databáze (indexace). Roboti přitom mohou pracovat buď nepřetržitě, nebo v určitých časových intervalech.
Jak funguje robot (stroj) 1. 2. 3. 4.
Robot prochází jednotlivé webové stránky, hledá na nich odkazy na nové stránky (omezen např. doménou). Indexuje obsah zpracovávaných stránek a odkazů. Obsah je průběžně ukládán do databáze nebo je aktualizován stávající záznam. Umožňuje jejich následné prohledávání (dotaz-odpověď).
C4 Vyhledávací roboti
Příklady vyhledávacích robotů? ++ ++
---
Robot na kontrolu odkazů (linkchecker). Prochází zadané stránky a hledá na nich odkazy na již neexistující stránky. Roboti pro správu a údržbu portálů. Komentářový spam. spam Takový robot vyhledává formuláře na webu a vkládá do nich reklamní text nebo komerční sdělení (i konference). E-mailové adresy. Pro rozesílání nevyžádané pošty (spamu).
C4 Vyhledávací roboti
Viditelný a neviditelný web Pojem viditelný web (též „visible web“ nebo „surface web“), označuje dostupné a běžně indexovatelné stránky. Opakem je neviditelný web (často označovaný jako „invisible web“ nebo „deep web“) obsahuje dokumenty, které jsou obtížně vyhledatelné.
Důvody [3]: vyhledávací stroje nedokážou indexovat dynamicky se měnící stránky (informace se generují z databáze) mnoho vyhledávacích strojů má omezení na počet indexovaných stránek z určité domény většina vyhledávacích strojů preferuje indexování populárních stránek přístup na některé stránky je chráněn heslem na vstup do katalogů knihoven je v řadě případů třeba se zalogovat http://aip.completeplanet.com, http://www.scirus.com/srsapp/
Neviditelný web [4] [4]
Charakteristika neviditelného webu [3]: neviditelný web je až 500krát větší než tzv. povrchový web obsahuje kvalitní dokumenty (1000 až 2000krát kvalitnější než v povrchovém webu) je to nejrychleji rostoucí část webu až 95% informací v neviditelném webu patří k veřejně přístupným informacím, které jsou přístupné bez poplatků http://aip.completeplanet.com, http://www.scirus.com/srsapp/
Nové trendy ve vyhledávání Intelligent Agents SW, který uživateli asistuje, naviguje při práci s PC aplikacemi při čtení, filtrování, třídění, vyhledávání, správě informací za podpory: umělé inteligence, znalosti uživatelských preferencí, principů fuzzy logiky, neuronové sítě, dalších pokročilých algoritmů. zakomponované do vyhledávacích strojů (web spiders, web robots), aplikace competitive intelligence (zakomponované do mobilních technologií a atd. na základě stanovených podmínek (vestavěná znalost + uživatel) filtrují a vyhledávají informace na míru daného uživatele (autonomní režim) schopnost „učit se“, napodobovat naše již provedená rozhodnutí v nových situacích
Pojem: Rešerše Z každého seriózně se tvářícího odborného textu by měly být patrné tři následující roviny: všeobecně známé poznatky, k čemu autor dospěl sám, tedy co jsou jeho vlastní názory, postoje, hodnocení, výsledky měření atd., co se dozvěděl od ostatních a jakým způsobem tyto cizí myšlenky převzal, zpracoval a citoval. [5]
Rešerše jsou zpracovávány na základě požadavků, jejich charakteristickým znakem je adresnost a komplexnost (obsahují i anotace, anotace nejen pouhé citace). citace „Rešerše = výsledek (popř. proces) vyhledávání informací ve formě dokumentografických nebo faktografických záznamů, popř. plných textů dokumentů.“ [5]
Pojem: Anotace Anotace mohou mít formu: stručného shrnutí obsahu dokumentu, poznámek k jednotlivým místům textu, například na okraji knihy (marginálie), posouzení či kritiky dokumentu z hlediska uživatelů nebo odborníků (stručné recenze, hodnotící poznámky v časopisech, blozích a pod.).
Popis: Stručně charakterizují jeho obsah pro usnadnění výběru uživatele (například anotace v databázi, v bibliografii, v nakladatelském katalogu), Obvykle mají rozsah 5 -10 řádků…
Pojem: Abstrakt Abstrakt (z angl. abstract) je stručný výtah vědeckého
článku, dizertační práce, referátu nebo jakékoliv hloubkové analýzy jakéhokoliv předmětu nebo disciplíny. Slouží především jako pomoc čtenáři rychle se zorientovat v dané publikované práci. Nachází se vždy na začátku práce. Pokud souhlasíme s tím co uvedl autor práce, lze po úpravě použít jako anotaci v rámci našeho informačního průzkumu.
Délka abstraktu záleží na disciplíně, zvyklostech daného časopisu nebo jiného média i na požadavcích autora práce. Typická délka je od 100 do 500 slov, slov velmi zřídka více než 1 strana.
Pojem: Abstrakt Akademický abstrakt obvykle nastiňuje čtyři součásti podstatné pro kompletní práci: 1. Těžiště výzkumu (tj. nastínění problému). 2. Použité výzkumné metody (experimentální výzkum, případové studie, anketa, atd.). 3. Výsledky výzkumu. 4. Celkový závěr a doporučení. Také může obsahovat stručné reference. reference
Publikace a Autorské právo Autorské právo (anglicky copyright law) je odvětví práva, které se zabývá právními vztahy uživatelů a tvůrců tzv. „autorských děl“ k příslušným dílům. Autorské právo chrání Autorský zákon. Autorské právo nechrání samotné myšlenky či ideje; ideje chrání pouze konkrétní díla, la konkrétní vyjádření takových myšlenek, dílo v objektivně vnímatelné podobě. Autorským dílem je pouze jedinečný výsledek tvůrčí činnosti autora, dílem není námět, zpráva, informace, metoda, teorie, vzorec, graf, tabulka fyzikálních konstant, výstup počítačového programu apod. [6] „Autorské právo je třeba respektovat v naší práci, proto je nutné uvádět v rešerších - citace, tzn. odkazy na primární zdroje.“
Zpracování výsledků informačního průzkumu Jednotlivé kroky informačního průzkumu: Definování cíle průzkumu Výběr databáze a dotazovacích technik Výběr termínů pro vyhledávání, jejich kombinace Prohlížení vyhledaných záznamů Tvorba rešeršního katalogu Zhodnocení výstupů - relevantních záznamů Případná změna rešeršní strategie Ukončení průzkumu
Zpracování výsledků informačního průzkumu Vyhledané informace zpracovat do podoby bibliografických záznamů s anotacemi nebo bez nich. Pokud je proveden průzkum ve více identických informačních zdrojích – pak jednotlivé záznamy vzájemně porovnat, aby se zabránilo duplicitě (vždy dát přednost originálu). Pokud dva záznamy stejného originálního pramene, pak vybrat ten, který má nejúplnější, nejpřesnější a nejčerstvější údaje.
Zpracování výsledků informačního průzkumu Neúplné záznamy, které se nedaly doplnit ani z jiných zdrojů, či záznamy i s jinými formálními závadami ztěžujícími identifikaci původního pramene - raději vyřadit ze soupisu vůbec. Provést kontrolu obsahu informací podle stanovených kritérií. Pak realizovat rozhodnutí, které záznamy budou definitivně zařazeny. Je zřejmé, že rešerše nemá obsahovat žádné informace, které by bezdůvodně přesahovaly obsah zadání.
Kontrolní otázky a úkoly do samostudia Charakterizujte a objasněte fulltextové pokročilé vyhledávání informací. Uveďte praktický význam robotů při vyhledávání informací. Proveďte zpracování výsledků informačního průzkumu podle uvedených jednotlivých kroků. Objasněte a vyzkoušejte možnosti vyhledávání informací z informačních databází a tvorbu rešerší ke KP.
Zdroje – doplňující studijní literatura: 1. 2. 3. 4.
5.
6.
ŠESTÁK, Z. Jak psát a přednášet o vědě. Vyd.1. Praha: Academia, 2002. 204 s. ISBN 80-200-0755-5 PAPÍK, R. Vyhledávání informací I. Umění či věda? Národní knihovna. Knihovnická revue. roč. 12, č. 1. 2001. s.18-25 Infogram: Neviditelný web. [online]. Praha: MŠMT, 2013 - [cit. 2013-115]. Dostupné z: http://www.infogram.cz/article.do?articleId=1765. BERGMAN, M. "White Paper". The Deep Web: Surfacing Hidden Value [online]. Sioux Falls (SD, USA): BrightPlanet Corporation, September 24, 2001 [cit. 2013-11-8]. Dostupné z: http://www.brightplanet.com/images/stories/pdf/deepwebwhitepaper.pdf KUŽELÍKOVÁ, L. - NEKUDA, J.- POLÁČEK, J. Sociálně-ekonomické informace a práce s nimi [online]. Brno: Masarykova univerzita, Ekonomicko-správní fakulta [cit. 2013-11-8]. Dostupné z: http://is.muni.cz/do/1456/soubory/oddeleni/svi/skripta/es2008-01.pdf. Autorské právo. In: Wikipedie: otevřená encyklopedie [online]. San Francisco (Kalifornie): Wikimedia Foundation, 2002-2013, naposledy edit. 2013-06-4 [cit. 2013-11-7]. Česká verze. Dostupné z: http://cs.wikipedia.org/wiki/Autorské_právo.