Tematikus portálok szolgáltatása a Miskolci Egyetem közgyűjteményeiben (könyvtár, levéltár, múzeum) Szendi Attila (ME-KöLM) Halla Viktor (Monguz Kft)
https://nws.niif.hu/nws2011/
Felsőoktatási közgyűjteményi hármas Miskolcon
1735 Egyetemi könyvtár alapítása (Selmecbánya, Selmeci Akadémia) 1982 Egyetemi Levéltár alapítása 1986 Egyetemi Múzeum alapítása A magyar felsőoktatásban csak két intézmény rendelkezik teljes körű közgyűjteményi hálózattal (könyvtár, levéltár, múzeum). Miskolcon ennek oka visszavezethető az intézmény patinás múltjára is (275 év). Ennek megfelelően az informatikai rendszer kiépítésében mindig fontos szerepet játszott, hogy mindhárom szakterület egyformán fejlődhessen. Intézményi integrációban: kiemelt területe az informatika, pályázatok: pl.: TÁMOP – 3.2.4-08/2-2009-0005
Az ismertetendő tematikus portálrendszer elemei
1. Könyvtári dokumentumok bővített metaadatainak szolgáltatása: jegyzékek és mutatók formájában 2. Szemantikus portál: 19. századi műszaki dokumentumokhoz 3.a. Miskolci oktatástörténeti webportál: hierarchikus kapcsolatban levő dokumentumok böngészése, lekérdezése, keresése és megjelenítése 3.b. 19. századi képalapú tudástárház: logikai sorrenben levő képalapú adattár rekordjai közötti navigálás, keresés
Könyvek bővített metaadat szolgáltatása
Könyvtári területen a MATARKA, mint miskolci kezdeményezés már ismert lett
országszerte. Egy ehhez hasonló, de immáron könyveket megcélzó projekt a „Könyvtári dokumentumok bővített leíróadatai”c. program. Ennek keretében a könyvekben található jegyzékek és mutatók feldolgozása volt a cél. A szabványos metaadatok (MARC) mellé a könyvek hagyományos apparátusának azt a részét kívántuk feldolgozni, melyek szerzői jogot nem sértenek, de a hagyományos tárgyszavas vagy ETO alapú feldolgozáson hatványozottan túlmutatnak. Ezek adatfelvitele és kezelése - természetesen - új informatikai rendszer kiépítését jelenti, hiszen a hagyományos metaadat-kezelő rendszerek kereteit szétfeszítik a mennyiségileg és állományformátum szerint is változó adatok. A rendszer az optimalizált működés elve alapján minél több már meglevő adatot kíván átvenni (elsősorban a metaadatok terén). A rendszer fenntarthatóságának is fő szempontja, ha meghatározzuk azon dokumentumok körét, melyeket érdemes ilyen módon feldolgozni. A szolgáltatás szempontjából pedig kiemelt szerepe van annak, hogy a felhasználó minél könnyebben és gyorsabban tudja átlátni a találatokat. Mindezt a szövegkörnyezetes találatvisszaadással valósítottuk meg. Hosszabb távon az együttműködésen alapuló bővített metaadat-felvitel kiépítése is a tervben szerepel.
Ösztönző tényezők
Alap metaadatok hagyományos módon kevés információt szolgáltatnak a dokumentum tartalmáról Tárgyszó használata az átlag felhasználónak nehézkes MATARKA mintája: tartalomjegyzék, de könyvekről Bővített metaadatok: a nyomtatott könyvek felépítéséből utalás a tartalomra, nagy mennyiségű szöveg, hagyományos módon nem vihető be gazdaságosan Web2 .0-ás OPAC-ok mintája borítóval (pl. Vufind) Teljes szövegű keresési technika: KWIC, kétrétegű ocrezett pdf Pénzügyi lehetőség: TÁMOP-pályázat keretében az oktatást segítő projektek támogatása
Könyvek tartalomjegyzéke kereskedelmi portálokon
http://antikvarium.hu
Tartalomjegyzékek a Web 2.0-ás OPAC-ban
https://library.villanova.edu/
Elektronikus könyvtárak és a tartalomjegyzékek
MEK Google Books Archive.org Hathi Trust
Bővített metaadatok: utalórendszer a tartalomra
Tartalomjegyzék Egyéb jegyzékek: képek, térképépek, ábrák, stb. Mutatók-indexek (általános, személy, helynév, földrajzi, tárgy stb.) Bibliográfia: idézettség keresésre kísérleti jelleggel Összefoglaló Borító
Azonosítók ellenőrzésére: ISBN vonalkód (Hátsó borító) ME vonalkód Kolofon, ISBN Címlap
Teljes szövegű keresés szövegkörnyezeti találat-visszaadással
Dokumetum megjelenítés oldalanként
Böngészés kategóriák szerint
A bővített metaadatok mellett az alap leíróadatokban is kereshetünk
Könyvborítók előnézeti képe különböző könyves portálokon Mokka-R, Online könyvesbolt, Web 2.0-ás OPAC
A borítók előnézeti képe a tematikus portálainkon
Fenntarthatóság
10.000 db induló rekord Csak válogatott dokumentum állományról készül bővített metaadat 2-10 perc könyvenként A feldolgozás többi részét automatizált scriptek végzik Lehetőség az intézményen túl nyúló együttműködésre: offline készíthető adatszerkezet
2. Szemantikus portál XIX. századi műszaki könyvekhez: Az egykori Selmeci Akadémia német nyelvű könyvtári dokumentumainak szolgáltatása
Analógia a múzeumi jellegű gyűjtemények megjeleníthetőségére Ha nehéznek neveztem a levéltári dokumentumok metaadat és objektum leírását, akkor a múzeumit kifejezetten bonyolultnak hívhatjuk. Nem véletlen, hogy több múzeumi nemzetközi szabványosítási kísérlet után az egyik nemzetközi közgyűjteményi szabványokat összegyűjtő honlap már ontológiai, és szemantikai alapú megközelítésben teszi lehetővé a múzeumi adatleírást. Az első lépésben egy kezdetleges szemantikai összefüggéseket feltáró portálfelállítást valósítottunk meg, itt is a könyvtári szempontok szerint elsősorban muzeális jellegű könyvek jobb feltárásának az elősegítésére.
Seth Grimes a keresés és a szemantika közös megközelítésének 11 módját sorolja fel:
* kapcsolódó keresések felajánlása, keresett kifejezések javítása * definíciók, referenciák megjelenítése egy keresett kifejezésre * szemantikailag annotált eredménymegjelenítés, a releváns információk kiemelése * hosszabb szöveg alapú keresés * szemantikai/szintaktikai annotációval támogatott keresés * fogalmi keresés taxonómiák alkalmazásával * ontológia alapú keresés * szemantikus web technológiáinak kihasználása * előre definiált kategóriák szerinti eredménymegjelenítés * eredmények klaszterezett, csoportosított megjelenítése * természetes nyelvű kereső kérdések megválaszolása
http://kereses.blog.hu/2010/02/03/mitol_szemantikus_egy_kereso
10 dolog, ami közelebb visz egy szemantikus kereső megvalósításához...
1. Morfológiai változatok kezelése: az egyes szavak különböző nyelvtani alakjainak egységes, konzisztens kezelése (igeidők, többesszám, egyéb toldalékok, stb). A keresés eredménye ne változzon bármely alakban történik a keresőszó beírása. 2. Szinonímák kezelése: a megfelelő jelentésű szinonímák figyelembe vétele természetesen a megfelelő kontextus esetén. A jelentésegyértelműsítés alkalmazása mindenképpen a fejlődésre utal. 3. Általánosítások kezelése: a felhasználó által megfogalmazott általános formájú keresés eredménye legyen specifikus.
4. Fogalmi kapcsolatok: a keresett kifejezésre adott választ nem csak szóillesztéssel, hanem tágabb fogalmi kapcsolatok feltárásával határozza meg. 5. Tudás alapú kapcsolódások: az előzőhöz hasonlóan a kereső alkalmazza a beépített tudásbázisát a releváns találatok megtalálására. 6. Természetes nyelvű keresések és kérdések kezelése: reagáljon megfelelően ha a keresett kifejezést a felhasználó kérdés formájában fogalmazza meg, de mégsem azonos módon egy kérdés-válasz rendszerrel, ahol az eredmény csupán egyetlen válasz, nem pedig rangsorolt találatok. 7. Az eredményeken belül is találja meg a konkrét választ: jelezze a felhasználó felé, hogy az adott oldalon hol és milyen formában található meg a kérdésére, keresésére a válasz. 8. A lekérdezések formája legyen szabad: ne kelljen külön szintaktikát megtanulni egy kereső használatához, ne legyen szükség idézőjelekre, logikai kapcsolatok kifejezésére, melyek a jelentést helyettesítik. 9. Ne alapozzon statisztikai megfigyelésekre, felhasználói viselkedésre: a válaszokat elsősorban a források elemzésével, és ne a linkkapcsolatok, felhasználói jelölések és egyéb mesterséges kiegészítők alapján találja meg. Sok esetben nem is állnak rendelkezésre ilyen információk. 10. A saját teljesítményének meghatározása: ha egy kereső nem alkalmaz szemantikai jellemzők feltárását, elemzését, akkor az eredményeinek sorrendje olyan mesterséges mércék alapján kerül meghatározásra, mint a népszerűség, felhasználói reakciók. A szemantikus keresőknek a jelentés alapján kell meghatározniuk a sorrendet.
A felsorolt 10 pont megvalósítása is nagyon nehéz feladat, olykor szinte lehetetlen és nem is feltétlenül szükséges. Látszik, hogy egy mai határok szerint működő szemantikus kereső létrehozása is rendkívül sok erőforrást igényel, így már az is eredmény lenne, ha ilyen "szemantikus" keresők működnének, ha tanár-diák kapcsolatot még nem is alakíthatunk ki velük. http://kereses.blog.hu/2010/06/24/a_szemantikus_kereses_10_pontja http://blog.hakia.com/?p=953
A szemantika tartalmi részét adó művek
Szemantikus segédletek keresőfelülete: szótár és értelmező szakszótár
Dokumentum megjelenítés és alap metaadat megjelenítés
Dokumentum megjelenítés
A portál böngésző módja
3. Oktatástörténeti portál és képalapú tudástárház
Analógia a levéltári dokumetumok megjelenítésére A levéltári jellegű dokumentumok mind a metaadatok, mind az objektumok szempontjából több nehézséget is felvetnek. Mi egy biztos szempontból kívántuk értelmezni ezeket az adatokat: a hierarchikus adatsruktúrájukban. A levéltári dokumentumok nagy része is hasonló metaadatokkal bír, mint a könyvtári objektumok, de ami gyökeresen megkülönbözteti azoktól, az az iratok alá-fölé rendeltsége és csomópontokba való integrálhatósága. Ebben a projektben a főpropjekt könyvtári jellegénél fogva nyomtatott dokumentumokat strukturáltunk a levéltárihoz hasonló rendszerbe, és ezek szolgáltatását kívántuk a felhasználó számára minél könnyebben kezelhetően megvalósítani.
3.a. Oktatástörténeti portál: hierarchikus kapcsolatban levő dokumentumok böngészése, lekérdezése, keresése és megjelenítése A Miskolci Egyetem sajtófigyelő anyagának szolgáltatása
Fa struktúra a hierarchia ábrázolásához
Fa struktúra, mint tematikus választó
A teljesszövegű keresés eredményének megjelenítése
A dokumentum megjelenítése
A dokumentumok böngészése
3.b. Képalapú tudástárház: logikai sorrenben levő képalapú adattár rekordjai közötti navigálás, keresés A Selmeci Műemlékkönyvtár betűrendes katalógusának szolgáltatása
Navigálás a betűrendben levő képek között a tovább gombbal
A végső sorrendben levő képek
A katalóguscédulák teljes méretű megjelenítése
A tematikus portálok megvalósítása, technikai háttere:
Teljes szöveges keresés a PostgreSQL Tsearch kiegészítésével, hatékony keresés konfigurálható találati környezettel és keresőszó kiemeléssel; a portletek közötti kommunikáció Java Portlet Specification 2.0 (JSR 286) alapján AJAX technológiával; JQuery pluginek alkalmazása a felület kialakításánál (dokumentumok hierarchikus megjelenítése, interaktív kereső felületek).
Köszönjük a figyelmet!