Automatizace knihovnických procesů 2005 (AKP 2005), 10. ročník semináře, Liberec, 3. a 4. květen 2005
Vyhledávání informací v prostředí webu – mírný pokrok v mezích
zákona Vilém Sklenák*
[email protected] Abstrakt: Nabídka služeb pro vyhledávání informací je v poslední době poměrně stabilizovaná. Rozšiřování funkčních možností jednotlivých služeb jde cestou postupných změn. Další zkvalitnění vyhledávání informací je očekáváno především v souvislosti s rozvojem technik a metod dobývání znalostí aplikovaných na textové dokumenty (text mining) a rovněž tak metod zohledňujících specifické rysy webu (web mining). Klíčová slova:
1
vyhledávání informací, Internet, web, vyhledávací služby, trendy
Úvod
Vyhledávání informací v prostředí webu se stalo rutinní součástí života. S nostalgií můžeme vzpomínat na vzrušení při procházení stromů kategorií prvních předmětových katalogů nebo na nadšení z prvních fulltextově orientovaných vyhledávacích strojů. Je také pravda, že situace v oblasti vyhledávacích služeb je poměrně stabilizovaná – v žebříčcích popularity kralují známé „firmy“, jako jsou Google, Yahoo, Seznam, Centrum, Atlas apod. Zdá se tedy, že doba revolučních změn typu nástupu služby Google, byla již před časem vystřídána dobou změn evolučních. Také trochu ochladla medializace růstu webu a růstu databází vyhledávacích strojů. Ještě před 2–3 roky pronikaly výsledky studií o velikosti webu (tehdy se poprvé začalo počítat v miliardách dokumentů) i na stránky renomovaných světových deníků, rovněž tak okamžik, kdy Google indexoval miliardu dokumentů, byl zaznamenatelný. Dnes Google indexuje více než 8 miliard dokumentů. Problém kvantity ztěžuje hledání kvality. Také proto se odvíjejí úvahy, proč nevyzkoušet metody dobývání znalostí, které již mají svou tradici v oblasti dat relačního typu. Proč nebrat do úvahy při vyhledávání informací také chování uživatele? A proto se jakoby najednou objevují „text mining“ či „web mining“ aj. Jinými slovy – uživatelé webu mají naději, že se dříve nebo později dočkají vyhledávacích služeb kvalitativně jiného typu. Problém spočívá jen v tom, že nelze přesně říci kdy. Do té doby používejme současné vyhledávací nástroje. Možná lze říci, že funkčně toho nabízejí dokonce již dnes i více, než běžní uživatelé vědí…
2 2.1
Co je nového? Integrace vyhledávání – Google Desktop Search
Novým nápadem z laboratoří firmy Google je vytvoření jakési vyhledávací centrály, která umožní uživateli prohledávat různé typy dokumentů, které vznikají během každodenní práce: zprávy elektronické pošty (Outlook, Outlook Express),
*
Katedra informačního a znalostního inženýrství, Fakulta informatiky a statistiky, Vysoká škola ekonomická, nám. W. Churchilla 4, 130 67 Praha 3
1
Automatizace knihovnických procesů 2005 (AKP 2005), 10. ročník semináře, Liberec, 3. a 4. květen 2005
soubory na lokálních discích – nejen běžné kancelářské formáty (doc, ppt, xls, pdf), ale také multimediální formáty (hledá se v metadatech daného typu souboru), webové stránky v odkládacím prostoru webových prohlížečů (Internet Explorer, Mozilla, Firefox), a pomocí zásuvných modulů (plug-inů) také další proprietární formáty. Pro řadu uživatelů (zejména těch méně pořádných) může jít o užitečnou pomůcku, která sice neudělá v souborech pořádek, ale přesto dokáže rychle najít, co je právě potřeba. Instalace je velmi jednoduchá, nutnou fází je pak také indexování obsahu prohledávatelných objektů. Použití je velmi jednoduché – aplikace se spouští v okně Internet Exploreru, vypadá na první pohled jako běžný Google, ale kromě upraveného loga je zde navíc volba pro lokální vyhledávání (Search Desktop). Vyhledávat lze buď jen lokálně, nebo volitelně mohou být výsledky lokálního vyhledávání integrovány do výsledků webového hledání – viz obr. 1. Google Desktop Search není jedinou možností pro daný účel. Podobné funkce nabízejí rovněž konkurenční firmy: Yahoo Desktop Search, MSN Desktop Search nebo Copernicus Desktop Search aj.
Obr. 1 2.2
Agregace informací ze zpravodajství
Další typ informačního zdroje, který neunikl pozornosti vyhledávacích služeb, jsou zpravodajské servery. Typickým příkladem je Google News (http://news.google.com, viz 2
Automatizace knihovnických procesů 2005 (AKP 2005), 10. ročník semináře, Liberec, 3. a 4. květen 2005
obr. 2). Myšlenka je velmi jednoduchá – díky robotům agreguje zprávy z mnoha zpravodajských serverů (více než 4 500) a provádí jednak jejich shlukování do podoby „rubrik“ (svět, USA, obchod a podnikání, věda a technika, sport, zábava a zdraví), jednak identifikuje zprávy věnované téže události (ukazuje se pak jedna zpráva s možností zobrazení všech ostatních). Uživatel tak získává na jednom místě aktuální přehled o dění. Kromě agregace je další podstatnou výhodou možnost vyhledávání. Pokročilé možnosti nabízejí řadu zajímavých filtrů – jako je např. zdroj, nebo výskyt zprávy v čase. Růst obliby služby Google News je současně trnem v oku provozovatelům některých zpravodajských serverů. Nejdále v tomto směru zašla francouzská agentura AFP, která podala na firmu Google žalobu za porušování práv. V českém prostředí lze služby podobného typu označit:
Nový den – http://novyden.cz/
Právě Dnes – http://pravednes.cz/
pro vyhledávání lze doporučit službu Morfeo – http://morfeo.cz/
Obr. 2 2.3
Experimenty ze stáje „Google“
Aktivity firmy Google jsou velmi široké a lze s poměrně velkou jistotou říci, že většina každodenních uživatelů setrvává jen u jednoduchého nebo pokročilého vyhledávání. Ale přitom je tak zajímavé nahlédnout do „laboratoře“ (http://labs.google.com). Co se třeba nabízí k vyzkoušení: Google Sets – služba, která může poradit uživateli při výběru termínů. Do formuláře stačí vymezit předmětnou oblast pomocí termínů známých uživateli a pak si lze zvolit mezi „malou“ a „velkou“ množinou obsahově příbuzných termínů. Například v situaci dle obr. 3 byly nabízeny mj.: intelligent agents, indexing, natural language
3
Automatizace knihovnických procesů 2005 (AKP 2005), 10. ročník semináře, Liberec, 3. a 4. květen 2005
processing, human computer interaction aj. Nabízené termíny lze okamžitě použít jako dotaz. Google Suggest – jedná se rovněž o „doporučující“ službu, která ale pracuje na odlišném principu. Doporučovaná slova jsou nabízena během psaní. Nejde jen o prosté dokončování rozepsaných slov, ale současně jsou nabízena další upřesňující slova. U každého doporučení je ihned vidět jeho četnost v databázi služby Google. V situaci dle obr. 4 se např. po zadání „semantic“ nabízely formulace semantic web, semantics, semantics definition, semantic memory aj. Podle zveřejněných informací jedním z faktorů přispívajících k volbě doporučení je popularita dotazů (podrobněji viz služba Google Zeitgeist – http://www.google.com/press/zeitgeist.html).
Obr. 3
Obr. 4
3 Další vlivy 3.1
Text Mining
Rostoucí počty dokumentů dostupných prostřednictvím webu, rostoucí počty nalézaných dokumentů, naléhavější potřeby rychlejšího získání informací z nalezených dokumentů – to jsou jen některé faktory, které vyvolávají stále větší zájem o různé techniky pro klasifikaci, sumarizaci, shlukování, filtrování dokumentů nebo extrakci informací z dokumentů. Tento okruh problémů se obvykle označuje jako text mining (TM). Východiskem TM je známější data mining (DM, česky obvykle překládaný jako „dobývání znalostí z databází“). Mezi základní úlohy DM patří mj. klasifikace, shlukování a predikce. Lze vidět velkou podobnost s cíli TM. Zásadní rozdíl však spočívá v typech dat. DM je určen pro data spíše relačního (tabulkového) typu – typickým příkladem jsou bankovní transakce, měřené údaje o pacientech, data o prodejích apod. – jinými slovy jde o strukturovaná data. Texty, a webové dokumenty nevyjímaje, jsou typicky nestrukturované, v lepším případě jsou semistrukturované. Na TM lze nahlížet jako na činnost skládající se ze dvou částí. První částí je předzpracování, kdy je vstupní dokument převáděn do určité mezilehlé podoby, se kterou se 4
Automatizace knihovnických procesů 2005 (AKP 2005), 10. ročník semináře, Liberec, 3. a 4. květen 2005
provádí další zpracování. V této části je zpravidla ze vstupního dokumentu extrahován pouze text, který je následně převeden na stejný druh písma (velikost, font, zvýraznění). Vynechány jsou jakékoli obrázky nebo elementy prezentující informace v jiné než textové podobě. Naopak se obvykle zachovává struktura textu, která při následné analýze může napomoci kvalitnějšímu určení významu daných termů (základních objektů, s nimiž se provádí další zpracování). Pojem term nemá v TM pevně stanovený význam. Jedná se o základní prvek, s nímž probíhá zpracování, ale jeho tvar se může lišit podle metody, která ho využívá, např. věta při sumarizaci textu nebo jednotlivá slova (sousloví) při extrakci informací. Druhou částí TM je získávání znalostí, když znalosti nebo vzory jsou odvozovány z mezilehlé formy. V této části dochází podle účelu k analýze vygenerovaných termů a k rozhodovacímu procesu vedoucímu k požadovaným výsledkům – zařazení dokumentu do kategorie, poskytnutí abstraktu dokumentu, naplnění tabulky daty, aj. 3.2
Web Mining
Techniky a algoritmy TM jsou určeny pro texty libovolného původu, je lhostejno zda pocházejí webu nebo z databáze plných textů. Je ovšem pravda, že web představuje obrovskou výzvu, a proto jsou snahy o obecnější přístupy. Už také proto, že řada algoritmů, které fungují dobře „v malém“, selhává při aplikaci na „nekonečný“ web. Nehledě k tomu, že ve vztahu k vyhledávání informací je web velmi inspirativní. Web Mining (WM) se proto obvykle dělí na tři oblasti (viz obr. 3): Web Content Mining – aplikace technik TM na webové dokumenty, Web Structure Mining – použití hypertextové struktury jako dodatečné informace (viz algoritmus PageRank používaný službou Google pro řazení výsledků vyhledávání), Web Usage Mining – analýza chování uživatele při interakci s webovým serverem.
Obr. 5 3.3
Web Intelligence
Web Intelligence (WI) je nově se rozvíjející oblast výzkumu a vývoje. Je vlastně kombinací interakce lidského myšlení a umělé inteligence se sítěmi a technologiemi. Růst webu a jeho informačního potenciálu zvýrazňuje poptávku po inteligentních systémech, jež budou na dotazy vracet smysluplné odpovědi. Studium WI zasahuje do různých oborů: matematika, psychologie, lingvistika a informační technologie. Pro podporu rozvoje WI bylo založeno mezinárodní konsorcium WIC (Web Intelligence Consortium). V rámci aktivit WIC bylo identifikováno 9 klíčových okruhů problémů (viz obr. 6 vlevo) a jedním z nich je rovněž vyhledávání informací.
5
Automatizace knihovnických procesů 2005 (AKP 2005), 10. ročník semináře, Liberec, 3. a 4. květen 2005
Obr. 6 Z hlediska WI je současný web charakterizován jako „infantilní“ a musí proto ještě dospět, aby jej bylo možno považovat za distribuované inteligentní prostředí. Výzkum v oblasti inteligentních systémů má dlouhou tradici. Je sice pravda, že některé vize o „myšlení strojů“, jež stály na počátku rozvoje umělé inteligence, se zatím nenaplnily, nicméně existuje řada metod pro získávání znalostí, pro strojové učení, pro odvozování znalostí apod., na něž lze navázat. Pro vyhledávání informací v prostředí webu bude dříve nebo později aktuální konceptuální extrakce informací, automatická kategorizace, vyhledávání informací založené na ontologii, multimodální vyhledávání, vícejazyčné vyhledávání apod.
4
Závěr
Vyhledávací stroje se budou dále vyvíjet. Námětů na zlepšování kvality výsledků vyhledávání je a bude stále dost. Je zřejmé, že velké úsilí je věnováno tomu, jak začlenit do vyhledávání informaci také znalosti. Jinými slovy – aktivit a výzkumných proudů směřujících k novým metodám vyhledávání informací je dostatek a jsou nadějným příslibem.
Použitá literatura a WWW odkazy 1. BAEZA-YATES, Ricardo, CASTILLO, Carlos. Web Search [online]. [cit. 2005-03-25]. Dostupné na World Wide Web:
. 2. BERENDT, Bertina, HOTHO, Andreas, MLADENIC, Dunja, SOMEREN, Maarten van, SPILIOPOULOU, Myra, STUMME, Gerd. A Roadmap for Web Mining: From Web to Semantic Web [online]. [cit. 2005-03-25]. Dostupné na World Wide Web: . 3. CURRAN, Kevin, MURPHY, Cliona, ANMESLEY, Stephen. Web Intelligence in Information Retrieval. Information Technology Journal [online], 2004, vol. 3, no. 2, s. 196–201. Dostupné na World Wide Web: < http://www.ansinet.org/fulltext/itj/itj32196-201.pdf>. 4. FŰRNKRANZ, Johaness. Web Mining. Darmstadt : TU Knowledge Engineering Group, 2004
[online]. [cit. 2005-03-25]. Dostupné na World Wide Web:
darmstadt.de/lehre/ss05/web-mining/web-mining-crc.pdf>.
5. GUPTA, G. C. Web Intelligence. In International Conference on Cognitive Systems. New Deplhi, 2004 [online]. [cit. 2005-03-25]. Dostupné na World Wide Web: . 6. RAO, Ramana. From IR to Seach and Beyond. ACM Queue[online], 2004, vol. 2, no. 3. Dostupné na World Wide Web: . 7. http://www.searchengineshowdown.com/ 8. http://www.searchenginewatch.com/
6