Vyhledávací nástroje v prostředí Internetu – co bude dál? Vilém Sklenák*
[email protected] Abstrakt: Stručná rekapitulace výhod a nevýhod metod používaných současnými vyhledávacími stroji. Trendy – metavyhledávání, metadata, dotazy v přirozeném jazyce, placené odkazy, vizualizace, shlukování. Sémantický web – důvody vzniku, principy, perspektivy. Klíčová slova: Internet, vyhledávací stroje, trendy, sémantický web
1
Úvod
Jednou ze světově proslulých knihoven je Babylónská knihovna. Tato knihovna je smyšlená a je ústředním motivem stejnojmenné povídky J. L. Borgese [2]. Babylónská knihovna je nesmírná, obsahuje všechny znalosti světa, ale přitom v ní působí jen málo knihovníků a obsah není nijak uspořádán. Pro nalezení čehokoli musí jedinec procházet mezi regály, přičemž ví, že hledané pravděpodobně někde existuje, ale současně neví, ve které z nekonečně mnoha šestiúhelníkových galerií je hledaná znalost uložena. Babylónská knihovna obsahuje vše, co kdy bylo nebo bude napsáno, ale ke svému bohatství nenabízí žádné přístupové metody (použijeme-li současnou terminologii). Povídka byla napsána v roce 1941, ale v mnohém lze spatřovat podobnost se současným webem. Borges říká: „Když se rozhlásilo, že Knihovna obsahuje všechny knihy, vyvolalo to nejprve pocit podivného štěstí. Všem připadalo, jako by byli pány nedotčeného a tajného pokladu …“, ale později dodává „nehoráznou naději přirozeně vystřídala nesmírná sklíčenost. Jistota, že některý regál v některém šestiúhelníku skrývá drahocenné knihy a že ty knihy jsou nedostupné, se zdála nesnesitelná“. World Wide Web (WWW, web) dramaticky zvýšil dostupnost informací. To ale současně neznamená, že by bylo jednodušší jejich vyhledávání, zpracování nebo vyhodnocování. Pomocí služby WWW je v současnosti dostupných více než 3 miliardy statických dokumentů, kromě nich je nutno brát do úvahy minimálně stejný objem dokumentů uložených v databázích, které mají WWW rozhraní (tzv. neviditelný web).
2
Současnost vyhledávacích strojů
Vyhledávání webových stránek je jednou z nejčastějších činností uživatelů webu. A je také velmi často zdrojem zklamání. Tato situace je důsledkem růstu webu, nestrukturovaných dat a také možností současných webových vyhledávacích služeb. Nejčastěji používaný způsob vyhledávání je založen na dotazech s klíčovými slovy. Tento přístup však obvykle vede k nezvládnutelnému množství nalezených dokumentů, z nich je ovšem jen malá část relevantní vůči informační potřebě uživatele. Navíc se může stát, že nejrelevantnější dokumenty se nemusí dostat do popředí seznamu výsledků. Tento typ vyhledávacích služeb se obvykle označuje jako vyhledávací stroje, typickou strukturu a způsob fungování ukazuje obr. 1. Klíčové komponenty tvoří robot, indexovací software a software pro vyhledávání. Z pohledu uživatele je podstatná forma vyhodnocování dotazu. Obvykle se používá booleovský model vyhledávání a výsledky se uživateli řadí. Pro řazení se uplatňují dva přístupy – podle vztahu mezi dokumentem a dotazem (výpočet míry relevance podle četnosti slov, polohy, blízkosti
*
Vysoká škola ekonomická v Praze, katedra informačního a znalostního inženýrství, nám. W. Churchilla 4, 130 67 Praha 3
1
apod.) nebo nezávisle na dotazu podle postavení dokumentu v hypertextové síti webu (analýza hypertextových vazeb např. Google používá algoritmus PageRank).
Obr. 1. Architektura vyhledávacích strojů
Vedle principu vyhledávacích strojů se ještě používají principy katalogové (Yahoo, Open Directory Project) nebo metavyhledávání. Katalogové přístupy těží z lidského posouzení obsahu a přiřazení dokumentů do relevantních kategorií. Výhodou je vyšší přesnost, nevýhodou nízká úplnost. Metavyhledávací služby nemají vlastní databázi, jsou založeny na paralelních dotazech do vyhledávacích služeb a katalogů, přičemž uživateli pak zobrazují sjednocený výsledek.
3
Problémy a výzvy
Webové vyhledávací stroje se nemohou spokojit jen s pouhým růstem výkonu v souvislosti se stále větším objemem zpracovávaných dokumentů, ale současně musí čelit novým problémům, které mají vliv na kvalitu poskytovaných služeb. 3.1
Spam, placené odkazy
Uživatelé webových vyhledávacích strojů mají tendenci zabývat se jen první stránkou výsledků vyhledávání. Přítomnost na první stránce (obvykle 10 až 20 hitů) proto zvyšuje provoz na odpovídajích serverech, zatímco odkazy na servery, které se nacházejí na druhé a dalších stránkách výsledků, mají malou šanci, že budou použity. Pro komerčně provozované servery, jejichž příjmy jsou nějak závislé na provozu (návštěvnosti, počtu unikátních uživatelů), je proto důležité, aby byly vždy v popředí u dotazů relevantních vzhledem k zaměření serveru. Pro dosažení tohoto cíle se snaží autoři webových stránek ovlivňovat jejich pořadí u různých vyhledávacích strojů. Protože pro řazení výsledků se používají různé algoritmy, přicházejí k „užitku“ metody založené jednak textově, jednak odkazově. Je smutnou pravdou, že
2
používaní těchto metod se rozšířilo natolik, že každá přední vyhledávací služba se musí tímto problémem zabývat, protože jinak by rapidně klesala věrohodnost pořadí hitů. Tradiční výzkum v oblasti vyhledávání informací (information retrieval, IR) se problémem „zlovolného“ obsahu nezabýval. Je rovněž velmi pravděpodobné, že kolekce dokumentů používané pro testování výzkumu v oblasti IR jsou v tomto směru „čisté“, protože obvykle se jedná o obsahově kvalitní dokumenty článkového nebo vědecko-výzkumného charakteru. Kromě metod odhalování spamu vyhledávací stroje přijímají i preventivní opatření, která jsou ku prospěchu jak samotných provozovatelů vyhledávací služby, tak pro subjekty, jež mají zájem se „zviditelnit“. Přitom je to řešení velmi jednoduché – předplacené umístění na první stránku s výsledky v případě dotazu tématicky souvisejícího s platícím subjektem. Průkopníkem tohoto přístupu byla svého času služba GoTo.com, nyní ji používá i současný leader vyhledávání – služba Google. U služby Google se předplacené odkazy zobrazují mimo seznam výsledků (viz Obr. 2), uživatel se pak může sám rozhodnout o jejich použití.
Obr. 2. Placené odkazy u služby Google 3.2
Kvalita obsahu
Jiným vážnějším problémem je kvalita obsahu dokumentů, které jsou zpřístupňovány na webu. Bez přehánění lze říci, že web je plný zkresleného, nekvalitního, nevěrohodného a protikladného obsahu. Racionální přístup k IR předpokládá, že dokumenty v kolekci jsou autoritativní a přesné, a proto standardní techniky vycházejí z tohoto kontextu, a teprve poté se připouští jakási malá pravděpodobnost dokumentů nekvalitních. Nicméně web neklade žádné zábrany, a proto se kvalitní informace v korpusu webových dokumentů „ztrácejí“. Kvalitní vyhledávací služba proto musí předpokládat, že libovolný dokument sám o sobě nelze ověřit. Jedním z možných přístupů k posuzování kvality dokumentů je analýza odkazů webu. Tento přístup např. uplatňuje stroj Google (algoritmus PageRank), je nezávislý na dotazu uživatele.
3
Zajímavý aspekt problému kvality dokumentů souvisí s hypertextovou povahou webu, a sice jde o hodnocení kvality textu použitého pro vyznačení odkazu. Tento text se obvykle zobrazuje odlišně (nejčastěji jako modrý podtržený), aby naznačil hypertextový odkaz. Vyhledávací stroje velmi často tento text zohledňují při určování relevance dokumentu. Na druhou stranu není prozkoumáno do jaké míry souvisí kvalita textů odkazů s kvalitou samotných dokumentů a obráceně. 3.3
Webové konvence, metadata
Během růstu a vývoje webu vznikla řada konvencí pro autory webových stránek. Vyhledávací stroje některé z těchto konvencí předpokládají při zlepšování výsledků vyhledávání. Z tohoto hlediska jde zejména o hypertextové odkazy a tagy META: • Vyhledávací stroje předpokládají, že vložením odkazů na jiné stránky dává autor uživatelům možnost pracovat i s dalšími relevantními dokumenty. Povětšinou je tato domněnka oprávněná. Nicméně existují významné výjimky – např. odkazy umístěné z reklamních důvodů. Co rozpozná lehce člověk, s tím má vyhledávací stroj potíže. • Ve skutečnosti je to ještě trochu složitější, protože posouzení užitečnosti odkazu není binární funkcí. Například mnoho stránek obsahuje odkaz ke stažení poslední verze Acrobat Readeru. Pro uživatele, který jej ještě nemá, to je odkaz užitečný. Podobně u mnoha serverů je na každé stránce dole uveden odkaz na podmínky používání dané služby. Při prvním vstupu na server je to odkaz užitečný, při každé další stránce si však uživatel daného odkazu nevšímá. • Tagy META slouží pro vložení metadat. Teoreticky může tag META obsahovat cokoli, ale důvodem jeho vzniku byl smysluplný obsah. Z hlediska vyhledávacích strojů je významný především META tag Content, pomocí něhož lze popsat obsah dokumentu. Tento tag obvykle zahrnuje krátký, výstižný obsah dokumentu a seznam klíčových slov. • Tag META je velmi často používán špatně, někdy je zneužíván, většinou však není používán vůbec. Například místo charakteristiky daného dokumentu je použita charakteristika serveru jako celku, místo klíčových slov vystihujících jsou použita obecná apod. • Vyhledávací stroje mohou jen obtížně analyzovat korektnost META tagů, protože ty se uživateli v okně prohlížeče nezobrazují, a proto nejsou „pod tlakem“ přímé užitečnosti. Na druhou stranu samozřejmě existuje mnoho stránek se správně použitými META tagy. Proto jsou META tagy stále potenciálně významným faktorem pro zefektivnění vyhledávání. Totéž platí i pro jiné části HTML kódu, který se normálně nezobrazuje, jako je např. text umístěny v tagu ALT v souvislosti s obrázky. • O roli metadat při zlepšování vyhledávání informací již bylo mnohé napsáno, jsou do nich vkládány velké naděje (a to i v souvislosti sémantického webu, kde jsou nutností). Rovněž tak bylo mnoho uděláno. Od živelně vzniklých elementů „keywords“ a „description“ přes ucelené metadatové standardy typu DC až po podpůrný software (editory, generátory apod.). Existuje více možností, jak spojit metadata s webovými dokumenty. Nicméně současný web je velmi setrvačný. Občas si dá někdo tu práci a vybere nezanedbatelný vzorek webových stránek a provede analýzu používání metadat. Pokud odhlédneme od metadat typu „Generator“, „Last Modified“ apod., které jsou automaticky vkládány některými HTML editory, pak věcný popis se většinou zúží maximálně na již zmíněné „keywords“ a „description“, které současné vyhledávací stroje akceptují (byť někdy s výhradami a problémy – viz 4
výše). Co je ovšem podstatné, o jaký podíl stránek se vlastně jedná. V práci [6] se uvádí hodnota kolem 10% u dat „sebraných“ přímo z webu, u kolekce WebTREC byla bilance ještě horší. 3.4
Sémantický web
Stupeň strukturování dat je podstatným faktorem pro další zlepšování technik IR. Na jedné straně stojí databázová komunita, která se zabývá detailně strukturovanými relačními daty, na straně druhé se musí IR komunita potýkat s víceméně nestrukturovanými textovými dokumenty. Vznik myšlenky a rozvoj základních principů sémantického webu není záležitostí posledních dvou let, jak by se mohlo na první pohled zdát vzhledem k rostoucímu počtu publikací, konferencí, workshopů apod. Je však pravda, že k širší popularizaci sémantického webu došlo především zásluhou článku, který „otec“ webu T. Berners-Lee společně s dalšími spoluautory vydali v prestižním časopise Scientific American [2]. V té době však práce na sémantickém webu trvaly již několik let. Od počátku T. Berners-Lee zdůrazňuje, že sémantický web je rozšířením současného webu, jež datům přiřazuje přesný význam, díky kterému bude možná kooperace jak lidí, tak softwaru. Nezbytným předpokladem pro strojové zpracování informací je zachycení struktury dat. Toho lze dosáhnout více způsoby. Například v databázích relačního typu je vyjádřena struktura dat tabulkami s atributy. V prostředí webu, v němž převažují dokumenty textového charakteru, se uplatňuje především značkování dokumentů. Tím se rozumí, že určité znakové sekvence obsahují informaci, která přisuzuje obsahu dokumentu určitou roli. Značky mají nejčastěji podobu slov uzavřených do lomených závorek, toto spojení se obvykle označuje jako tagy, např. „
“ nebo „“. Značkovací jazyk specifikuje sadu tagů, které mohou být používány, dále jak mohou být navzájem kombinovány, a konečně také jejich význam. Nejznámějším a nejrozšířenějším jazykem tohoto druhu v prostředí webu je jazyk HTML. Ten nabízí tagy pro abstraktní vzhled textových dokumentů. Například text vymezený „“ a „
“ je považován za nadpis první úrovně, zatímco text určený tagy „
“ a „“ je chápán jako položka seznamu. Tato informace slouží prohlížečům, aby byl text zformátován odpovídajícím způsobem. Jazyk HTML dobře slouží účelu pro zprostředkování informací z hlediska výsledného vzhledu webových dokumentù. To ovšem nepostačuje potřebám pokročilých služeb, které jsou předpokládány v rámci sémantického webu. Tyto aplikace budou vyžadovat specializované značky, které budou vymezovat roli částí obsahu a to způsobem, který bude srozumitelný dané aplikaci. Například pro aplikaci, která bude porovnávat ceny zboží, by bylo užitečné, aby všechny ceny byly zapsány pomocí tagu typu „“. Proto je nezbytné specifikovat „význam“ tagů. Při budování sémantického webu sehrává klíčovou roli jazyk XML, který umožňuje definovat nové značkovací jazyky, a tím je prostředkem pro vyjádření struktury dat. Dále je zapotřebí „věci“ popisovat – zde vstupuje do hry standard RDF. Podstatnou složkou sémantického webu jsou ontologie, čili prostředek, který umožňuje strukturám rozumět. Rozvoj sémantického webu od počátku vzbuzoval řadu nadějí. Například již v roce 1999 se Ch. Sherman ve svých úvahách o budoucnosti vyhledávání na webu zmiňuje o sémantickém webu jako o možném řešení některých problémů nejednoznačného a neúplného vyhledávání [10]. A jeho tvrzení platí i dnes.
5
4 4.1
Zajímavé novinky Vizualizace
U „klasických“ vyhledávacích služeb pracuje uživatel v určitém pracovním cyklu: zadá dotaz, nechá jej vyhodnotit, zhodnotí úspěšnost a podle potřeby se vrátí k formulaci dotazu, do kterého doplní/změní vyhledávací termíny nebo logické operátory. Zvláště práce s vyhledávacími termíny, s hledáním alternativ nebo doplňkových termínů, si vyžaduje určité zkušenosti a může být pro některé uživatele překážkou. Možná právě proto vznikla metavyhledávací služba Kartoo (http://www.kartoo.com), která nabízí pro fázi další práce s dotazem graficky orientované prostředí – viz Obr. 3.
Obr. 3. Prezentace výsledků vyhledávání u služby Kartoo Na výsledné mapě jsou zobrazeny nejrelevantnější servery, při pohybu kurzoru myši nad odpovídajícími uzly se zobrazuje automaticky jejich stručná charakteristika. V mapě jsou současně vyznačeny doplňkové termíny, jež lze použít pro upřesnění dotazu. Vedle mapy jsou umístěny jak seznam reprezentativních serverů, tak seznam doplňkových termínů, resp. témat (tzv. topics). V obou seznamech lze snadno listovat a jejich položky dále používat. Předpokladem použití grafického rozhraní služby Kartoo je nainstalovaný plug-in Flash. 4.2
Shlukování
Základní myšlenka spočívá v dynamickém seskupování nalezených dokumentů do smysluplných kategorií. Ty jsou vytvářeny podle předmětu (tématu), typu (tiskové zprávy, recenze, studie apod.). Kategorie (vizuálně prezentované jako složky) nejsou dány předem tak, jak je tomu u „klasických“ předmětových katalogů, ale jsou unikátní pro každý položený dotaz. Smyslem seskupování výsledků je rychlejší přístup uživatele k relevantnímu typu dokumentů. Přednost této služby vynikne obzvláště u dotazů, které nejsou úplně jednoznačné 6
(bez vědomí uživatele). Například dotazem „bond“ budou nalezeny dokumenty o Jamesi Bondovi, dluhopisech, obligacích, jedné australské univerzitě apod. Hezkým příkladem služby, která z nalezených dokumentů vytváří dynamické shluky, je metavyhledávací služba Vivísimo (http://www.vivisimo.com) – viz Obr. 4. V levé části jsou nabízeny shluky dokumentů a vpravo je pak seznam aktuálně vybraného shluku. Shluky jsou víceúrovňové.
Obr. 4. Výsledky vyhledávání u služby Vivísimo 4.3
Hledání podle podobnosti
Tento rys chování některých vyhledávacích služeb není úplně nový, ale je nezaslouženě uživateli opomíjen. Myšlenka je velmi jednoduchá. Při prohlížení nalezených dokumentů nemusí být uživatel úplně spokojen s přesností výsledků. V takové situaci se mu nabízejí dvě možnosti dalšího postupu. První je „klasická“ – upřesnit předchozí formulaci dotazu. Druhá předpokládá, že aspoň jeden dokument uspokojuje informační potřebu uživatele. Potom tento dokument poslouží jako vzorový pro další vyhledávání – tedy nalezení dokumentů podobných danému vzoru. Při vhodně zvoleném vzorovém dokumentu by měly být výsledky velmi přesné. Tento způsob vyhledávání je však nabízen ojediněle (bohužel). Z obecných fulltextově orientovaných služeb je hledání podle podobnosti k dispozici u služby Google, která u každého nalezeného hitu uvádí odkaz „Similar Pages“. Tato funkce je pak součástí i produktu Google Toolbar, jež přidává do okna prohlížeče nástrojovou lištu pro přímou komunikaci se službou Google. U specializované služby ResearchIndex (http://www.researchindex.com) je pak práce s podobností zkombinována ještě s analýzou citačních odkazů. To je dáno specifickým zaměřením služby, která sleduje vědecko-výzkumné prameny, v nichž jsou citace naprostou samozřejmostí. U každého nalezeného dokumentu tak má uživatel k dispozici odkazy na: 7
1. citované prameny; 2. dokumenty, které citují daný; 3. dokumenty podobné podle analýzy textu; 4. dokumenty podobné podle kocitací. 4.4
Práce s jazykem
Každý uživatel si patrně několikrát položil otázku, v jakém tvaru má správně zadávat klíčová slova, která chce použít pro vyhledávání. Tato otázka je platná pro angličtinu, ale vynikne spíše u češtiny, protože její ohebnost a diakritická znaménka mohou být zdrojem případné neúplnosti výsledků. Je pravda, že nejpoužívanější české portály Seznam, Atlas i Centrum problém diakritiky řeší. Jejich řešení je založeno na tom, že ve fázi fulltextového indexování jsou diakritická znaménka odstraněna, a proto je úplně jedno, zda uživatel zadává dotaz „česky“ nebo „cesky“ – výsledky budou vždy stejné. Problém ohebnosti obcházejí tím, že zadaná slova hledají automaticky jako řetězce na počátku slov. To samozřejmě nemůže fungovat u slov, u nichž skloňováním dochází např. ke změně ve kmeni. Proto je světlým zjevem poslední doby český vyhledávací stroj Jyxo (http://jyxo.cz). Tento stroj je specifický tím, že má zabudovaný lingvistický modul, díky kterému může zadávaná slova korektně ohýbat (skloňovat, časovat). Kromě toho Jyxo automaticky doplňuje diakritiku, pokud byla slova zadána „cesky“. O výsledcích lingvistického zpracování dotazu je uživatel informován – viz Obr. 5.
Obr. 5. Výsledky vyhledávání u služby Jyxo Oba rysy lze vypnout, což je důležité, protože některá slova sama o sobě jsou nejednoznačná (problém homonymie). Krásně lze toto ilustrovat na příkladu dotazu obsahujícího slovo „sila“, kdy se při ohýbání a doplňování diakritiky hledají např. tvary (v závorce vždy základní tvar): „síla“ (síla), „šila“ (šít), „sila“ (silo), „sila“ (sít) apod. Po vypnutí doplňování diakritiky již zbývají jen poslední dvě varianty a po zákazu ohýbání se hledá již jen jediný tvar – ten původně zadaný. 8
Za zmínku rovněž stojí, že služba Jyxo vytváří skupiny nalezených dokumentů. Nejde o klasické shlukování na základě podobnosti, jako je tomu třeba u služby Vivísimo, ale klíčem je příslušnost k serveru. Na řazení výsledků by měla mít vliv i popularita stránek.
5
Závěr
Vyhledávání není totéž co nalézání. To si možná řada uživatelů webu úplně neuvědomuje. Jaksi automaticky předpokládají, že Internet je něco jako vševěd, a proto vždy na libovolný dotaz dostanou rozumnou odpověď. Realita je však jiná. Vyhledávání je tvůrčí aktivita a vyhledávací stroje jsou jen pomocným prostředkem. Je pravda, že pokrok jde stále kupředu a vyhledávací stroje toho umějí více než třeba před dvěma roky. Dokáží třeba pracovat s se slovy nikoliv jako s řetězci, ale jako se slovy přirozeného jazyka. Proto mohou derivovat další tvary pro úplnější vyhledávání, nebo mohou detekovat překlep a nabídnout alternativy apod. Nicméně na případech neúspěšného vyhledávání se vždy podílejí obě strany. Proč uživatelé zadávají dotazy jedno- či dvouslovné, proč nepoužívají pokročilejší formy zadávání dotazů? Vyhledávací stroje se budou dále vyvíjet. Existuje řada podnětů – vícejazyčné vyhledávání, automatická kategorizace, metody sumarizace a extrakce, otevřenou výzvou je sémantický web atd. Proto můžeme doufat a věřit, že vyhledávání na webu bude stále příjemnější ☺
Použitá literatura a WWW odkazy 1. BERNERS-LEE, Tim, HENDLER, James, LASSILLA, Ora. The Semantic Web. Scientific American, 2001, vol. 284, May, s. 35-43. Dostupné také na WWW: . 2. BORGES, Jose Luis. Babylónská knihovna. In Zrcadlo a maska. Praha : Odeon, 1989, s. 64-72. Dostupné také na WWW: . 3. COLLIER, Harry, ARNOLD, Stephen E. Search engines: evolution and diffusion [online]. 31 January 2003. [cit. 2003-04-03]. Dostupné na WWW: . 4. HEINZINGER, Monika R., MOTWANI, Rajeev, SILVERSTEIN, Craig. Challenges in web search engines [online]. 17 October 2002. [cit. 2003-04-03]. Dostupné na WWW: . 5. HOCK, Ran. A new era of search engines : Not Just Web Pages Anymore. Online, 2002, vol. 26, no. 5, s. 20-27. Dostupné také na WWW: . 6. KUPKA, Pavel. Role explicitních metadat v kontextu inteligentní analýzy webových dokumentů : diplomová práce. Praha : VŠE FIS KIZI, 2002. 7. NOVAK, David. The evolution of Internet research : shifting allegiances. Online, 2003, vol. 27, no. 1, s. 18-22. 8. PEREZ, Ernest. Intelligent agents : it’s nice to get stuff done for you. Online, 2002, vol. 26, no. 3, s. 51-56. Dostupné také na WWW: . 9. SAVOY, Jacques. Information retrieval on the Web [online]. 2001 [cit. 2003-04-03]. Dostupné na WWW: . 10. SHERMAN, Chris. The future of web search. Online, 1999, vol. 23, no. 3, s. 54-61. Dostupné také na WWW: . 11. SRINIVASA, Srinath, BHATT, P. C. P. Introduction to web information retrieval : a user perspective. Resonance, 2002, vol. 7, no. 6, s. 27-38. Dostupné také na WWW: .
9