Propojení virtuální knihovny s textovou databází AmphorA Václav Snášel∗
[email protected]
Petr Šaloun*
[email protected]
Daniela Ďuráková*
[email protected]
Jiří Dvorský*
[email protected] Abstrakt: Virtuální knihovna poskytuje informace s přidanou hodnotou týkající se informačních zdrojů na internetu. Propojení virtuální knihovny s plnotextovou databází vytváří výkonný vyhledávač využívající spojení tradičního popisu dokumentu s moderní technologií. Virtuální knihovna je prakticky provozována. Klíčová slova: WWW, virtuální knihovna, vyhledávací nástroj, fulltext, AmphorA, XML
1
Úvod
Knihovna Zemědělského výzkumného ústavu Kroměříž, s.r.o. prezentuje své služby také na webových stránkách, viz [5]. Součástí zpřístupňovaných informací jsou i odkazy na externí zdroje v prostředí WWW, neboť tyto elektronické informace významně rozšiřují okruh tradičního fondu, který je v knihovně k dispozici. Z pohledu uživatele je obtížné a zvláště s ohledem na budoucí nárůst těchto zdrojů bude ještě obtížnější se rychle v jejich množství i komplikované struktuře orientovat. Stručná informace (název odkazu) neposkytuje uživateli dostatek informací pro rozhodnutí o tom, zda je daný odkaz relevantní jeho potřebám a zda se vyplatí odkazovaný dokument navštívit. Statická struktura těchto stránek nedovoluje pružně reagovat na změny URL adres odkazovaných zdrojů. Jedním ze způsobů, jak vzniklou situaci řešit, bylo vytvoření tzv. virtuální knihovny. Jde o nástroj, který umožňuje „katalogizaci“ webových zdrojů (základní identifikační údaje – název, URL, jazyk a jednoduchý popis prostřednictvím klíčových slov a deskriptorů vyjadřujících hlavní téma registrovaného zdroje/dokumentu). Součástí virtuální knihovny jsou i nástroje pro její údržbu a správu, včetně automatické kontroly platnosti URL adres a možnosti načítání plných textů. Propojení virtuální knihovny, dále zkráceně VK, s plnotextovou databází AmphorA přináší uživateli další účinné možnosti při vyhledávání a zpracování elektronických informačních zdrojů v prostředí WWW. Propojení je definováno datově s využitím standardu XML. Problematika textových systémů je popsána v [3]. 1.1
Virtuální knihovny
Pro usnadnění orientace v prostoru WWW (World Wide Web) byly vytvořeny vyhledávací služby, které jsou velice oblíbené a které jsou využívané většinou uživatelů Internetu. Virtuální knihovny spadají do kategorie předmětově orientovaných vyhledávacích služeb. V současnosti většina z nich nabízí i rozhraní umožňující hledání prostřednictvím klíčových ∗
Vysoká škola báňská – Technická univerzita Ostrava, fakulta elektrotechniky a informatiky, katedra informatiky, 17. listopadu, 708 33 Ostrava-Poruba.
1
slov. V tomto článku popisujeme spojení VK s plnotextovým systémem. Databáze VK jsou vytvářeny odborníky z řad profesionálních informačních pracovníků a knihovníků, kteří výběrem kvalitních zdrojů, připojením popisu a hodnocení podle přesně stanovených kritérií vytvářejí přidanou hodnotu poskytovanou virtuální knihovnou. Informační zdroje ve virtuálních knihovnách jsou zpravidla organizovány logicky, obdobně jako je tomu u tradičních informačních zdrojů, na jejichž tvorbě se informační profesionálové podílejí. Kromě kvalitního pořádacího systému nabízejí tyto služby uživatelům Internetu také odkazy na kvalitní informační zdroje. Definici pojmu VK obsahuje např. [1].
2
Aplikace virtuální knihovna
Námi vytvořená virtuální knihovna uchovává záznamy obsahující základní informace o každém ze zadaných zdrojů, tj. jeho název, autory, URL adresu a jazyk spolu se stručným popisem, deskriptory a klíčovými slovy. Každý zdroj je jednoznačně určen svojí URL adresou. Vyhledávací služba virtuální knihovny je schopna poskytnout informace o všech zdrojích, které odpovídají vyhledávací podmínce. Pro usnadnění přidávání, vyhledávání, modifikace, rušení a pro kontrolu aktuálnosti záznamů jsou k dispozici podpůrné nástroje. Celý databázový systém je přístupný z kteréhokoliv počítače připojeného k Internetu. 2.1
Uživatelé
Ve VK rozlišujeme role uživatele (Internetu) a knihovníka. Role jsou určeny případnou autorizací. Uživatel má pouze možnost vyhledávat pomocí vyhledávací služby záznamy o požadovaných zdrojích na Internetu. Knihovník se bude starat také o vkládání nových záznamů do databáze virtuální knihovny, jejich modifikaci a rušení, jakož i o kontrolu aktuálnosti databáze podmíněnou existencí zdrojů, o nichž jsou vedeny záznamy. 2.2
Vstupy a výstupy
Z pohledu knihovníka budou vstupy v tomto systému tvořit základní informace o zdroji společně se seznamem klíčových slov, seznam nových stop-slov a údaje jím vložené pro vyhledávací podmínku, na jejichž základě lze vyhledat záznam určený pro modifikaci a nebo zrušení. Výstup budou tvořit sestavy obsahující informace vyhovující vyhledávací podmínce, dále pak sestavy obsahující nalezená potenciální klíčová slova, stop-slova, apod. Z pohledu uživatele jsou vstupní data tvořena jím vloženými údaji ve vyhledávací podmínce. Výstupní sestava obsahuje informace o zdrojích vyhovující této podmínce.
3
Použité technologie a vyvinuté podpůrné nástroje
Z informatického pohledu je VK založena na architektuře klient-server. Server představuje Apache Web Server, prostředím je Linux. Servlety jsou vytvořeny v programovacím jazyce Java. Klientem je webovský prohlížeč. Volba vychází z robustnosti a stabilitou systému Linux i z nulových pořizovacích nákladů Linuxu i použitých nástrojů. Jako systém řízení báze dat byl vybrán databázový server MySQL. Přístup uživatele i knihovníka k systému řízení báze dat je zajištěn výhradně přes podpůrné nástroje, tedy prostřednictvím WWW prohlížeče a HTML stránek. Dynamicky generované stránky jsou vytvářeny PHP programy (skripty). 3.1
Vkládání nových záznamů včetně klíčových slov
Záznamy do databáze vkládají profesionálních informační pracovníci a knihovníci, kteří vytvářejí základní informace o každém záznamu podle stanovených kritérií. Tato činnost je 2
velmi náročná na čas a také je velice náchylná k chybám. Proto bylo vytvořeno rozhraní, viz obrázek 1, které knihovníkům zadávání usnadňuje a zjednodušuje, a tím částečně zamezí vzniku chyb. Součástí vkládání nových záznamů je: • kontrola vyplněnosti položek zajistí formální úplnost záznamu o informačním zdroji; • kontrola unikátnosti záznamu odhalí již při vkládání případné duplicity; • možnost zadání klíčových slov a případně jejich výběru a načtení z odkazovaného dokumentu; • uložení nového záznamu; • přidání nových stop-slov.
Virtuální knihovna Vložení nového záznamu do databáze Název: Autor: URL:
Jazyk:
Český ∨
Popis: Deskriptory: Prohledat URL
Znovu
Neprohledávat URL
Zpět na hlavní stránku
Obr. 1: Rozhraní pro vložení záznamu 3.2
Vyhledání záznamu
Obrázek 2 zobrazuje možnost určení vstupní podmínky formou regulárního výrazu obsahujícího zástupné znaky „*“ a „?“ a případně logické operátory AND a OR. Podmínce vyhovující záznamy jsou zobrazeny zjednodušeně nebo úplně.
3
Vyhledávací služba Jednoduché vyhledávání
Vyhledávání přes deskriptory
Rozšířené vyhledávání Klíčová slova: libovolné položky
Jedná se o slova z:
∨
musí obsahovat (AND) ∨
Zdroj tato slova:
Preferovaný jazyk: Český ∨ Nalezené záznamy zobrazit:
zjednodušeně Hledej
∨
Zadat znovu
Zpět na hlavní stránku
Obr. 2: Rozhraní pro rozšířené vyhledávání 3.3 Možnost výběru klíčových slov Stěžejním problémem každého knihovníka je vybrat ke každému záznamu vhodná klíčová slova. Často se jedná o slova vybraná z textu dokumentu či z jeho popisu. Na stop-slova jsou kladeny tyto požadavky: • musí vhodně charakterizovat obsah daného dokumentu; • mělo by jich být co nejvíce; • nesmí se vyskytovat v příliš mnoha dokumentech. Ze slov, které byly knihovníkem vyřazeny ze seznamu klíčových slov, může knihovník vybrat ta, která mají být přidána mezi stop-slova. Cílem je, aby počet nalezených potenciálních klíčových slov klesal a omezoval se pouze na ta slova, která mají větší šanci stát se klíčovými. 3.4
Vyhledávání záznamů
Z pohledu uživatele se jeví nástroj určený k vyhledávání relevantních záznamů o zdrojích jako nejdůležitější. Tento servlet umožňuje vyhledání všech záznamů, jež vyhovují vyhledávací podmínce, a je společný pro uživatele i pro knihovníka. Jediný rozdíl je v tom, že knihovníkovi se u každého nalezeného záznamu objeví tlačítko, umožňující spustit editační servlet. Vyhledávací podmínka se definuje pomocí vstupních formulářů. K dispozici jsou tři typy: • formulář pro jednoduché vyhledávání; • formulář pro rozšířené vyhledávání; 4
• formulář pro vyhledávání přes deskriptory. U vyhledávání pomocí deskriptorů máme situaci značně usnadněnou. Hledaný deskriptor je díky rolovacímu seznamu přesně určen a tudíž odpadá kontrola jeho existence v databázi – stačí kontrola, zda byl vůbec nějaký vybrán. Navíc, pokud není nastaveno, v jakém jazyce musí být zdroje vyhovujících záznamů, je zaručeno, že minimálně jeden záznam bude vyhledávací podmínce vyhovovat. Takže se provede vyhledání všech záznamů obsahujících vybraný deskriptor, načtení všech údajů o nich a kontrola jazyku zdroje. Vyhovující záznamy jsou opět vypsány zjednodušeně nebo kompletní. 3.5
Stop-slova
Zavedení a evidence stop-slov účinně pomáhá při vyhledávání potenciálních klíčových slov ze zdroje na Internetu a z údajů, které byly knihovníkem vloženy do vstupního formuláře při vkládání nového záznamu o tomto zdroji, do databáze. Čím více stop-slov bude evidováno, tím méně stop-slov bude nabídnuto knihovníkovi k zařazení mezi klíčová slova (což samozřejmě není žádoucí). Stop-slova jsou nabídnuta k doplnění vždy na konci ukládání nového záznamu o zdroji z vyřazených potenciálních klíčových slov. Může však chvíli trvat, než se vytvoří dostatečný počet těchto stop-slov, a taky může dojít k tomu, že bude knihovníkem mezi stop-slova zařazeno omylem i slovo, které může mít pro jiný záznam klíčový význam. Rozhraní VK umožňuje přidávat a rušit v databázi stop-slova. 3.6
Kontrola aktuálnosti záznamů
Z důvodu možného přemístění odkazovaných Internetových zdrojů na jinou URL adresu je nutné zajistit kontrolu aktuálnosti jednotlivých záznamů databáze. Kontrola spočívá v testování existence příslušného zdroje na URL adrese uvedené v jeho záznamu. Knihovník může zvolit, zda provést kontrolu všech uložených záznamů nebo jenom těch záznamů, jejichž zdroj nebyl při poslední kontrole nalezen.
4
Propojení VK a AmphorA
Plnotextový nástroj AmphorA je s VK provázán výstupem v XML formátu. Systém AmphorA jsme popsali v [4]. Výstup v hlavičce určuje vlastnosti záznamu VK, v obsahu (text) pak obsahuje text odkazovaného dokumentu. Dokument obsahuje informaci o datu a času, umístění, klíčových slovech či stop-slovech. Umístění rozhoduje o případném budoucím přístupu k dokumentu. Lokální soubory budou dostupné jen v rámci intranetu. Textová část XML dokumentu může obsahovat celý text libovolného dokumentu. To nám při plnotextovém zpracování dává jistotu, že můžeme vyhledávat jak podle obsahu dokumentu, tak využít obsah záznamu položky VK a vyhledávat tedy s využitím přidané hodnoty záznamu ve VK. Dokument zpracovaný VK a Amphorou může být 1. plně k dispozici, umístění v Intranetu, 2. k dispozici na Internetu, propojení jen přes URL – po zaindexování zůstala jen hlavička, textový obsah je odstraněn; 3. odkaz je vyhledávacím nástrojem popsaným knihovníkem, další vyhledávání pak typicky využívá možností odkazovaného serveru (např. yahoo.com, www.springer.de apod.) -
-
5
Nadpis stránky <SOURCE>F:\agrokrom\interní\koukol.doc 24.1.2001 <TIME>1:32:15 zde se napise seznam deskriptoru <StopWords> a stop-slov - - plný text dokumentu …
1998
Obsah tohoto XML dokumentu je v systému AmphorA využíván v následujících subsystémech: • vyhledávací, • prezentační. Vyhledávací subsystém využívá informace ze sekcí Desctiption a StopWords. Tyto informace jsou v průběhu indexování připojeny k indexu dokumentu. Prezentační subsystém využívá informace ze sekcí HEADLINE, SOURCE, TEXT. HEADLINE je vypsán do hlavičky zobrazeného dokumentu. SOURCE umožňuje zobrazit zdrojový dokument. TEXT obsahuje textový tvar dokumentu ve kterém jsou vyznačeny slova relevantní pro daný dotaz. Položka TEXT může být prázdná, v tomto případě je jako vyhledaný dokument prezentován dokument z položky SOURCE.
5
Indexování WWW stránek
Další možností propojení VK a systému AmphorA je možnost indexování www stránek. Indexování WWW stránek je možno provádět pomocí menu pro editaci WWW. Vzhled aplikace ukazuje obrázek 3. Položka menu „Editace WWW adres“ slouží k editaci seznamu adres internetových serverů. Po zadání adres je možné automaticky stahovat stránky z uvedených serverů. V tabulce specifikujeme URL adresy, hloubku stromu stránek, kam až se mají zkoumat odkazy ve stahovaných stránkách (hloubka nula znamená jen v tabulce specifikovanou stránku), omezení „Site“ tj. stahovat stránky jen v rámci tohoto serveru, „All“ stahovat i stránky z odkazů mimo daný server. Druhá položka v menu WWW je „Stoplist WWW adres“. V tomto okně je možno specifikovat URL adresy ze kterých se nemají stahovat žádané stránky, jako příklad si můžeme představit různé internetovské vyhledávače. Jejich stránky obsahují tisíce a tisíce odkazů prakticky kamkoliv a stahování takového množství stránek by zcela znehodnotilo ostatní data. Při stahování WWW stránek jsou jednotlivé odkazy na něž program ve stránkách narazí filtrovány přes tento seznam.
6
Obr. 3: Rozhraní programu AmphorA pro virtuální knihovnu Položka text obsahuje seznam deskriptorů a stop slov jak bylo popsáno v části 4. Import/Export umožňuje vkládání záznamů z VK. Výsledkem stahování dokumentů jsou opět XML dokumenty jejichž struktura byla popsána v předcházející části.
6
Závěr
V navrženém a realizovaném databázovém systému určeném ke zpracování elektronických dat jsou spojeny výhody virtuálních knihoven (záznamy o kvalitních zdrojích informací, s odborným popisem dodaným knihovníkem) spolu s výhodami vyhledávacích strojů (automatické vyhledávání) a plnotextových systémů. Systém dále obsahuje automatickou kontrolu aktuálnosti dat. Popsaná VK je z větší části provozována Zemědělským výzkumným ústavem Kroměříž, s.r.o. Tato práce byla řešena na katedře informatiky FEI VŠB–TU Ostrava jako součást grantu MŠMT INFRA2 č. LB98227. Tento příspěvek vznikl za částečné podpory grantu číslo 201/00/1031 Grantové agentury ČR.
Použitá literatura a WWW odkazy 1. TKAČÍKOVÁ, Daniela. Vyhledávací nástroje – klíč ke zdrojům Internetu [online]. [cit. 20. 03. 2001]. Dostupné na World Wide Web:
. 2. CHUDOBA, Petr. Virtuální knihovna. Diplomová práce, FEI VŠB-TU Ostrava, 1999.
7
3. POKORNÝ, Jaroslav, SNÁŠEL, Václav, HÚSEK, Dušan. Dokumentografické informační systémy. Praha : Karolinum, 1998. 158 s. ISBN 80-7184-764-X. 4. SNÁŠEL, Václav, DVORSKÝ, Jiří, ŠALOUN, Petr, ĎURÁKOVÁ, Daniela. Prostředky pro zpřístupnění a vyhledávání textových informací. In Tvorba softwaru 2000 : celostátní konference. Ostrava : Tanger, 2000, s. 173-181. ISBN 80-85988-49-6. 5. http://www.vukrom.cz/
8