A tartalmi összefüggések vizuális ábrázolása webes környezetben – a WebKat.hu tezauruszának tématérképe–
ELŐZMÉNYEK A WebKat.hu katalógus létrejötte után két évvel, 2000-ben elkészült az a tartalmi feldolgozásra alkalmas rendszer, melyet a Neumann-ház munkatársai eredetileg tezaurusznak terveztek. Mivel azonban az integrált könyvtári rendszer tezaurusz-kezelő modulja nem tudott minden, a tezauruszokra jellemző relációt kezelni, ezért eléggé korlátozott volt a rendszer működése: az alá-fölérendelt kapcsolatokon kívül csak a „lásd még” és a „lásd” kapcsolatot tudta értelemszerűen használni. Ezért, valamint az interneten bekövetkezett változások miatt, a tartalmi böngészésre is alkalmas robotok elterjedése miatt 2002-ben úgy döntöttünk, hogy a tezauruszból egy intelligens tárgyszórendszert hozunk létre. Megtehettük, hiszen a rendszerben mindössze 2000 keresésre alkalmas lexikai egység található – ez elég kis halmaz ahhoz, hogy intellektuális munkával átdolgozzuk és a változó igényekhez igazítsuk. Megtartottuk azt az öt fazettát, amelyek a rendszer ETO alapjaira utalnak vissza: tárgyszó, nép/nemzetiség, idő, földrajzi hely, műfaj. Kiemeltünk viszont a tárgyszó fazettából kilenc, legfelsőbb szintűvé tett kategóriát: egészség, gazdaság, kommunikáció, kormányzat, kultúra, műszaki tudományok, művészet, társadalomtudományok, természettudományok. Forrásként használtuk Ungváry Rudolf tezauruszát, a Vizsla katalógusát, a Yahoo-t, valamint a National geographic oldalát. Ez a koncepcionális fejlesztés, ami a tartalmat érintette, lényegében előkészítette a rendszert a Tématérképes megjelenítéshez és hozzáigazította az Olib tezauruszkezelő moduljának korlátjaihoz. A FEJLESZTÉS CÉLJA A WebKat.hu szolgáltatásait, tartalmi keresési szempontjait kívántuk bővíteni fejlesztésünkkel. Az elmúlt évek során hiába igyekeztünk a rendszerrel szállított WebView felületet sokkal „felhasználóbarátabbá” tenni, tapasztalataink szerint nagyon kevesen értik meg, hogyan lehet az online tezaurusz alapján tartalmi keresést folytatni az adatbázisban. Mivel időközben megváltoztak az internet-felhasználók szokásai, nagyon eltérő a felkészültségük szintje, és előnyben részesítik a vizuális élményeket, ezért egy olyan fejlesztésre adtunk be és nyertünk is rá pályázati támogatást, amely a már meglévő tárgyszórendszer relációit vizuálisan jeleníti meg. Fejlesztésünknek az is célja volt, hogy új felhasználókat nyerjünk meg szolgáltatásunknak, mert a hagyományos, szöveges adatokat tartalmazó adatbázisok, tárgyszórendszerek mind kevésbé népszerűek körükben. Az adatok grafikus ábrázolása, az összefüggések térbeli megjelenítése egyre fontosabb, hiszen ezek segítségével könnyebb az egyes elemek közötti kapcsolatokat megérteni, illetve a kapcsolatok mentén újabb összefüggésekre találni. A szemantikai összefüggések grafikai ábrázolásával tartalmi leíró rendszerünk megértését, átláthatóságát és használatát tettük egyszerűbbé. A létrehozott Tématérkép az online elérhető dokumentumok keresését támogatja – ez a magyar weben újdonságnak számít. Magyarországon a közgyűjteményi szférában tudomásunk szerint még nem készült a gyakorlatban is hatékonyan működő tématérképes keresőfelület.
ELŐZETES FELMÉRÉS Kész megoldások tanulmányozása Az egész tárgykör annyira újkeletű, hogy egyelőre világszerte csak az alábbi maroknyi cég foglalkozik szabványos tématérkép-szoftverek fejlesztésével, értékesítésével, illetve alkalmazáshoz való adaptálásával: - Empolis (korábban Step; ma a német Bertelsmann-csoport tagja), - Infoloom (Egyesült Államok), - Mondeca (Franciaország), - Ontopia (Norvégia), - TOTALZOOM (Magyarország). Közülük Magyarországon az Empolis Kft. foglalkozik szabványos tématérképekkel. Az Empolis Németországban, Lengyelországban, Nagy-Britanniában, Norvégiában és az Egyesült Államokban is működtet leányvállalatot, világviszonylatban körülbelül 400 alkalmazottat foglalkoztat. A K42 elnevezésű tématérkép-szoftverének első változata egy éve jelent meg a piacon. A K42 teljesen megfelel az XML alapú topic map (XTM) W3Cajánlásnak, és tématérképek létrehozására, kezelésére, karbantartására, bejárására és lekérdezésére egyaránt módot ad. Az utóbbit a TMQL (Topic Map Query Language) speciális lekérdezőnyelv támogatja. A rendszer része az optimalizált működésű, nagy kapacitású információszerver, amelyet Javára és szervletekre alapoztak. Az Empolis webhelyén megnézhető kétféle programdemó, és regisztráció ellenében letölthető egy korlátozott ideig működő, de teljes funkcionalitással rendelkező K42 szoftver is. A cég oktatási intézményeknek különlegesen kedvezményesen kínálja termékeit. A megvalósítás lehetséges módjai 1. Külső szakértő cég megbízása Előnyei: - a határidő könnyebben tartható; - professzionális technológia; - professzionális kivitelezés. Hátrányai: - drága (több millió Ft, vagy több tízezer dollár a tématérkép motor); - a cégnek teljesen át kell látnia a mi rendszerünket – ez időigényes; - a tudás a kivitelező cégnél marad; - a további fejlesztés további külső megbízásokkal jár; - a kész rendszer nem vagy nehezen alakítható teljes körűen a mi igényeinkhez. Ha a szabványosságtól eltekintünk, akkor tématérképekkel jelenleg 2 cég foglalkozik ma Magyarországon: • Az Empolis: konkrét megoldása van: a K42 szabványos tématérkép-szoftver. • TOTALZOOM: nekik egy Flash-es megoldásuk van, újak a szakmában. Az árajánlat összege mindkét esetben jelentősen meghaladta az anyagi kereteinket, így erről a lehetőségről le kellett mondanunk. Kérdések mindkét esethez: - Hogyan illeszthető ez a mi rendszerünkhöz? - Az Oracle alapú OLIB-bal mennyire tud együtt működni? - Csak a tématérkép megvalósítását oldja meg, vagy annál többet is nyújt?
2. Saját fejlesztés Előnyei: - a tudás házon belül marad; - az „XTM topic map” szabvány elérhető, megtanulható; - jól ismerjük a rendszerünk felépítését, sajátosságait (OLIB, WebKat.hu); - könnyebb továbbfejleszteni, ha a kezdetektől mi építjük; - saját elképzeléseink szerint formálhatjuk. Hátrányai: - várhatóan szükség lesz külső segítség bevonására; - nem biztos, hogy teljesen készen lesz határidőre; - jelentős kapacitást von el a többi feladattól. 3. Saját fejlesztés – ingyenes, nyílt forráskódú tématérkép motor átalakításával Előnyei: - már több helyen kipróbált rendszer alkalmazása; - szabványos megoldás; - költségkímélő megoldás; - a tudás házon belül marad; - jól ismerjük a rendszerünk felépítését, sajátosságait (OLIB, WebKat.hu). Hátrányai: - sok tanulással és kísérletezgetéssel jár; - nem biztos, hogy határidőre sikerül alkalmaznunk a technológiát. A lehetőségek mérlegelése után a 2. megoldás mellett döntöttünk. MEGVALÓSÍTÁS Tekintettel arra, hogy egy XTM alapú nyílt forráskódú tématérkép-motorra alapozott fejlesztés elvégzésére nem lett volna elegendő az időnk és a pályázaton nyert összeg, ezért a következők mellett döntöttünk: Belső fejlesztésbe kezdünk. Az XTM technológia elsajátítása időigényesnek bizonyult. A tématérkép-szoftverek meglehetősen drágák, ezért saját tématérkép motor kidolgozása mellett döntöttünk. Ennek előnye, hogy az egész rendszert úgy alakíthattuk, ahogy elterveztük, a fejlesztés alatt folyamatosan tudtunk tesztelni, a tudás házon belül maradt, ezáltal a későbbi fejlesztéseket is magunk tudjuk majd elvégezni. Tématérképünk egy MySql adatbázisra épülő, PHP és HTML technológia kombinációjával létrehozott webfelület, mely vizuális böngészést, valamint egyszerű – AND/OR logikai műveleteket tartalmazó – és összetett keresést tesz lehetővé a WebKat.hu katalógusban. A webfelület készítésénél a W3C ajánlásait követtük. A WebKat.hu tárgyszórendszerét az Oracle adatbáziskezelőből kérdeztük le. Az így kapott adatokat egy, a Tématérképhez speciálisan kialakított MySql adatbázisba történő betöltéshez az adatbázis szerkezetének megfeleltetett txt fájllá alakítottuk át. Minden egyes tárgyszó egyedi rekordazonosítót kapott az új adatbázisban is. A MySql adatbázis naprakészen tartásáról az Oracle-ből történő rendszeres áttöltéssel gondoskodunk. Alapvető szempont volt a felhasználók igényeinek kielégítése, ezért a Tématérképpel nem váltottuk ki a Témák szerinti keresést, hanem alternatív lehetőségként, azzal párhuzamosan ajánljuk fel. A fejlesztési folyamat lépései:
1. A tárgyszórendszer teljes egészét két formátumban nyertük ki egy lekérdező program segítségével az Oracle alapú OLIB integrált könyvtári rendszerből. 2. A tárgyszavakat minden relációval együtt egy belső fejlesztésű MySql adatbázisba töltöttük. 3. Elkészítettük a Tématérkép webes megjelenítését megvalósító PHP/HTML kódokat. 4. Összekapcsoltuk a tématérkép „témáit” egy-egy OLIB lekérdezéssel, hogy így konkrét találati halmazokat kapjon a felhasználó. 5. A fejlesztés közben folyamatosan teszteltük a megoldásokat. A munka befejeztével (még az éles szolgáltatásba illesztés előtt) minden részletre kiterjedő, több szempontú tesztelést végeztünk. A tesztelés kiterjedt mind a működésre és az esetleges programozási hibák feltárására, mind a web-es megjelenítésre. A felhasználói szokások figyelembevételével folyamatosan formáltuk a felületet. 6. Az új szolgáltatást beillesztettük a WebKat.hu keresési szempontjai közé.
Képernyőkép a Neumann-ház WebKat.hu katalógusának online elérhető tezauruszáról:
Tématérképünk az alábbi módon jeleníti meg a tárgyszórendszer kapcsolatait:
A tématérkép a WebKat.hu katalógus menürendszeréből és az alábbi URL-címen is elérhető: http://www.neumann-haz.hu/thesaurus .