A WEB 2.0 JÖVŐ JE ÉS A SZEMANTIKUS WEB

A WEB 2.0 JÖVŐJE ÉS A SZEMANTIKUS WEB

A WEB 2.0 JÖVŐJE ÉS A SZEMANTIKUS WEB

Az „in4 innováció • információszabdság • integráció • intelligens web” konferencia tanulmányai

Szerkesztette Tóth Tünde és Vaskó Péter

Bibliopolisz Budapest, 2007

A kiadás az NKTH és a KPI támogatásával jött létre.

Kiadói szerkesztő: Horváth Viktor

Copyright © A szerzők Copyright © Bibliopolisz Jelen file a nyomtatott (1.0) változat javított (1.11) verziója. Utolsó módosítás: 2008. június 9. ISBN 978-963-87640-0-3 (nyomtatott) ISBN 978-963-87640-1-0 (online verzió: http://www.hypertext.hu)

in4 konferencia innováció • információszabdság • integráció • intelligens web Budapest, 2007. ápr. 27. ELTE BTK A konferencia szervezői Bibliopolisz EMIR-group Szervezőbizottság Vaskó Péter Tóth Tünde Fodor János Segítők Ármai Balázs Füzessi Károly Horváth Viktor Kardos András Mátyás Melinda Nagy Lajos Támogatók Fő támogatók

Nemzeti Kutatási és Technológiai Hivatal (NKTH) valamint a Kutatás-fejlesztési Pályázati és Kutatáshasznosítási Iroda (KPI) az Apponyi Albert Program - Mecenatúra pályázat keretében További támogatóink ELTE BTK Informatikai és Könyvtártudományi Intézet – Könyvtártudományi Tanszék ELTE BTK Bölcsészettudományi Informatika Önálló program (BIÖP)

A konferencián elhangzott előadások Ropolyi László: Ismeret, tudás, közösség a kiberkultúrában Szakadát István: A szemantikus web ígérete és valósága Dudás Anikó: Tulajdonnévterek: könyvtári és filológiai ütközések Guszlev Antal – Lukács Lilla: Földrajzi név-tár 2.0 Salgáné Medveczki Marianna: Adattárház-rendszerek Fodor János: Szolgáltatások és igények: a szükséges komplexitás Vaskó Péter: Hyperdata, linkek helyett adatkapcsolat Galambosi András: NDA-projekt: a jelenlegi helyzet Káldos János – Bánkeszi Katalin: Lib2 - in4. Szemléletváltás az Országos Széchényi Könyvtárban Tóth Tünde: Statikus dinamika Gyenge Anikó: Enyém, tiéd, miénk! A Creative Commons ma

Tartalom Előszó ............................................................................................................... 9 Vaskó Péter: Ki szabadítja fel a fájlokat?........................................................11 Szakadát István: A nép szavai. A szemantikus web ígérete és valósága ............29 Dudás Anikó: Tulajdonnévterek: könyvtári és filológiai ütközések....................57 Guszlev Antal – Lukács Lilla: Földrajzinév-tár 2.0 ......................................79 Salgáné Medveczki Marianna: Az adattárház-technológiáról dióhéjban .......103 Fodor János: Szolgáltatások és igények – a szükséges komplexitás ................119 Tóth Tünde: Azonosság és különbözőség .......................................................127

ELŐSZÓ 2007. április 27-én rendeztük meg az in4 konferenciát. Az előadók az alábbi tudományos és szakmai műhelyeket képviselték: ELTE BTK, ELTE TTK, BME GTK, PPKE BTK, NYME GEO, MTA TTI, PE BTK, NDA, Neumann-ház, OSZK MEK, MTA IJC, Creative Commons és a szervező Bibliopolisz. Jelen kötet e konferencia kiadásra beérkezett előadásait tartalmazza. Az előadásokban az információs társadalom témakörét négy fő szempont szerint tárgyaltuk; ezek az innováció, az integráció, az információszabadság és az intelligens web fogalmai. A 90-es éveket a „tartalom” korszakának volt szokás nevezni: az információ közzétételén és a keresésésen volt a hangsúly. Az előbbire itthon a legismertebb példa a Magyar Elektronikus Könyvtár, s az utóbbi tette nemzetközi információs nagyhatalommá a Google-t. Napjainkra a hangsúly az adatok rendszerezésére került át; a felhasználók egyre inkább olyan megoldások felé fordulnak, ahol nem ömlesztve kapják az információt, hanem személyes igényeik és elvárásaik szerint rendezett, újraszervezhető, releváns adatokhoz juthatnak. Az állami és gazdasági szereplők mellett komoly teret nyert a közösségi tartalomszolgáltatás, és megmutatta, hogy a különálló, zárt adatbázisok helyett az együttműködő, integrált rendszereké a jövő. A kötet szerzői felemelik szavukat annak érdekében, hogy a köztulajdont őrző és gondozó, közpénzből fenntartott közintézmények ne elzárják, hanem elérhetővé tegyék, és hatékonyan, további térítés nélkül szolgáltassák a közösség számára az általuk kezelt közkincset. Az intelligens web a különböző tudomány- és szakterületek együttműködését, a külön-külön elért eredmények szembesítését és összehangolását igényli – enélkül a mesterséges intelligencia továbbfejlődése elképzelhetetlen.

9

ELŐSZÓ

A kötetben szereplő ábrák, illusztrációk nagy része sajnos nem nyomdai minőségű, ezekért az olvasók elnézését kérjük. A kiadvány hálózati változatában, mely a http:// www.hipertext.hu oldalon lesz elérhető, élvezhető minőségű lesz a felbontásuk. KÖSZÖNETNYILVÁNÍTÁS A konferencia megrendezését az Apponyi Albert Program – Mecenatúra pályázat keretében az NKTH (a Nemzeti Kutatási és Technológiai Hivatal) támogatta a KPI-n (a Kutatásfejlesztési Pályázati és Kutatáshasznosítási Irodán) keresztül. Az ELTE BTK Informatikai és Könyvtártudományi Intézet – Könyvtártudományi Tanszék a helyszínt bocsátotta a konferencia rendelkezésére. Segítségükért ezúton is kifejezzük köszönetünket. A szerkesztők

10

V

A S K Ó

P

É T E R

KI SZABADÍTJA FEL A FÁJLOKAT? A

NAGY ÁBRÁND

Ahogy állítólag hat kézfogásnyira van egymástól minden ember, úgy az Internet szuperszövegében néhány kattintásnyira van egymástól minden megtalálható adat és szöveg.1 Vagy legalábbis ezt sejtetik az internetet leíró zsurnál-metaforák. Valójában az interneten megjelenő információ- és tudástartalom szervezettségi foka még csak a hálózati lehetőségek kiaknázásának igen kezdeti fokát valósítja meg, és sok megoldásában inkább a manufaktúrák szellemét idézi, mint a high-tech hangulatot. A tudásszervezés jelenlegi helyzetét egyszerre jellemzi a lassú szemléleti és a radikálisan gyors technológiai váltás feszültsége. A régi metódus új környezetbe való ültetetésének ellentmondásai jól megfigyelhetőek az online tartalmak szervezésének gyakorlatában, amely reflexszerűen átvett egy sor a megelőző, alapvetően könyves kultúrára jellemző megoldást, mint például az elválasztott, különálló, önmagukban zárt dokumentumokra épülő elvet és gyakorlatot. Ennek megfelelően az internetes site-okra a legtöbb fenntartó és felhasználó úgy tekint, mint önálló, utalásokkal egymásra hivatkozó könyvekre a hálózat könyvespolcán.

1

Köszönöm Horváth Viktornak a jegyzetek összeállításához nyújtott segítségét.

11

VASKÓ PÉTER: KI SZABADÍTJA FEL A FÁJLOKAT?

Az információszervezés első forradalmát az jelentette, hogy a hozzáférhetőség fokát nem a fizikai hordozók sokszorozásával növelte meg (mint a nyomtatás vagy akár az információk CD-n való terjesztése), hanem egyetlen (a szerveren elhelyezett) példány virtuálissá tételével, és bármilyen azt megjeleníteni képes eszközön való távoli elérhetőség lehetőségével (természetesen ennek előnyeivel és veszélyeivel együtt – mint pl. a megsemmisülés nagyobb kockázata). A másik kulcsfontosságú változás a hozzáférhetőség mellett a bárki számára elérhető tartalom-előállítási és terjesztési lehetőség, valamint az adatkapcsolatok terén következett be. A tartalmak virtuális természete lehetővé tette az azonnali és közvetlen kapcsolatot (linkelés), valamint elvi szinten a tartalmak egymásba ágyazását (transclusion). Érdekes módon az általános gyakorlatban a linkelés technikája legtöbbször nem lép túl a könyvek esetében megszokott utalás és idézés technikájánál, ahol az egyes különálló dokumentumok hivatkoznak egymásra, illetve részleteket közölnek egymásból. A különböző forrásból származó adatok újramixelhető szolgáltatásként való felhasználása, alkalmazások dinamikus egymásra hatása, egymásba épülése (mashup) csak a legutóbbi időben kezdett teret hódítani. Az általánosan elterjedt gyakorlat, a könyvek anyagának digitális formában való lelkes rögzítése mellett még csak tapogatózó kísérletek vannak arra, hogy ne csupán tükrözzük a nyomtatás korának lineáris természetű műveit, hanem kidolgozzuk annak a tudásrögzítésnek, -terjesztésnek és -újraszervezésnek az eszközeit, amelyek az új médium lehetőségeihez illeszkedve hozzák létre az új „könyvet”. 2 Hiszen a világháló úttörőinek, Vannevar Bushnak vagy Ted Nelsonnak elképzelései még csak töredékesen valósultak meg, és a gyakorlatban nagyrészt valójában még a Gutenberg-galaxis digitális adaptálása folyik. Ahhoz, hogy az információ- és tudásszervezés az új technikai-szellemi környezetben megtalálja optimális lehetőHorváth Iván használja a kifejezést a hálózati dokumentumra: HORIván, Magyarok Bábelben, JATEPress, Szeged, 2000 = Ua., Gépeskönyv, Bp., 2000 (http://magyar-irodalom.elte.hu/babel/2520.htm).

2

VÁTH

12


ségeit, azonosítanunk kell mindazon tényezőket, amelyek segíthetik vagy épp gátolhatják ezt a folyamatot. Ezek közül talán a legfontosabbak a filozófiai, szemléleti váltással kapcsolatos, az információk kapcsolatának és feldolgozásának technikai jellegű, valamint az információhoz való hozzáférés társadalmi és gazdasági vonatkozású kérdései.

ADATKAPCSOLATOK

ÉS KERESÉS

Már a világháló és a hypertext legelső elméleti megfogalmazása során központi helyet foglalt el az adatkapcsolatok kérdése, amikor Vannevar Bush 1945-ben papírra vetette elképzelt adatszervező gépe, a Memex csomópontokra és linkekre épülő működési elvét,3 majd az ő inspirációjára Ted Nelson megírta Literary Machine című könyvét,4 valamint kidolgozta és elindította a docuverse és transclusion fogalmak köré szervezett soha be nem fejeződő Xanadu projektjét. Mindkettejüket az az elképzelés foglalkoztatta elsősorban, hogy miként lehetne kiemelni meglévő kontextusukból és egyfajta metaszinten újrarendezni a lineáris struktúrákba rögzített információt. Az egyes elemek ezen a módon már nem önmagukban és eredeti helyükön, hanem ezen hálózat részeként nyernék el értelmüket. Az egyes elemekből ad hoc hálózatokat létrehozó személy éppúgy szerzői státuszba emelkedik, ahogy az általa létrehozott kapcsolati szövet is önálló műként jelenhet meg. Nagyon leegyszerűsítve azt is mondhatnánk, hogy a világháló leírható úgy is, mint a legtágabban értelmezett „szövegek” (legyenek azok alfanumerikus, képi vagy hanginformációk) belső és külső hivatkozásokkal összekapcsolt hálózata, mely hálózat – elemei végtelen permutálhatóságával – potenciálisan új művek millióinak lehetőségét hordja magában. 3 4

Vannevar BUSH, As We May Think, The Atlantic Monthly, 1945/7. Ted NELSON, Literary Machine, Swarthmore, 1981.

13


Az ily módon is bővülő információtömeg és az információk kapcsolati rendszerének kezelése kezdettől fogva a legfontosabb alapkérdések közé tartozott. Hiszen a rendszerben meglévő, de nem fellelhető információ egyenértékű a nem létező információval. Az egyik elsődleges cél ennek megfelelően mindenkor az adatok, szövegek, információk exponenciálisan bővülő tárházából való visszakereshetőség megteremtése, valamint ezek újraszervezésének lehetővé tétele volt. Ahogy Bush írja 1945-ös cikkében: „A probléma, úgy tűnik, még csak nem is az, hogy rosszul publikálunk, terjedelemben és témában a mindennapi érdekeket szem előtt tartva, hanem az, hogy a publikálás messze meghaladja azt a mértéket, amit képesek lennénk feldolgozni. Hihetetlen sebességgel gyarapodnak az ismereteink, de a fonál, mellyel a minket érdeklő információt keressük az így keletkezett labirintusban, a keresztvitorlázatú hajók óta nem változott.”5

Az eleve digitálisan keletkező dokumentumok és az informatikai korszakra való áttéréssel kibontakozó „archiválási düh” újabb hatványra emelte ezt a problémát. A rögzítés és feldolgozás mellett egyre égetőbb szükséggé vált a rendszerezésnek, visszakereshetőségnek és csoportképezésnek a virtuális közegre szabott hatékony megoldása. Mindez az egyes rendszereken belül is nagy kihívással járt, az egymással kommunikálni képes számítógépek világméretű hálózatba kötése pedig újabb megoldandó problémákat hozott magával. Nem véletlen, hogy az egyik legdinamikusabban fejlődő IT-vállalat éppen egy internetes kereséssel foglalkozó, a lassanként a web szinonimájaként megjelenő cég, a Google Az idézet forrása: Vannevar BUSH, Út az új gondolkodás felé (Ahogy gondolkodhatnánk) = Hyper text + multi média, a szövegeket válogatta, az előszót és az utószót írta, valamint a kronológiát és a jegyzeteket összeállította SUGÁR János, a szövegeket fordította: IVACS Ágnes és BARTHA Gabriella, oktatási segédanyag, megjelent az Artpool Füzetek sorozatban (Artpool, Budapest, 1996, második javított kiadás: 1998), felelős szerkesztő KLANICZAY Júlia (http://www.artpool.hu/hypermedia/bush.html) 5

14


lett, amely elsőként volt képes a nagy tömegű adathalmazhoz relevancia-szempontú értékelést rendelni, és ezáltal érezhetően növelni az általános célú keresés hatékonyságát (az alkalmazott logika szerint minél többen hivatkoznak egy adott oldalra, az ott található adatok feltehetően annál nagyobb relevanciaértékkel fognak rendelkezni). Mindez azonban részmegoldást jelent, lévén ez a típusú keresési metódus jelenleg nem lép túl a karakteregyezés módszerén (figyelmen kívül hagyva a szemantikai értéket), ráadásul a Google-hoz hasonló keresőrobotok csupán a web 15–20%-át képesek bejárni és indexelni (az úgynevezett surface webet), és éppen a világhálón található adatok rendszerezett, jó minőségű adatbázisba szervezett halmaza marad ilyen-olyan, technikai, illetve üzleti okból elzárva előlük. Mindemellett a feltárt tartalmak egymással nem összeköttetésben lévő, csupán parciális részinformációkat tartalmazó vegyes összetételű site-ok, melyek tudása, információtartalma nem adódik össze, nem hat egymásra, csupán egymás mellé rendelődnek egy találati listában. A felszíni weben való keresés így sokkal inkább hasonlít a zavarosban halászáshoz, mint a rendszerezett tudásfeltáráshoz. Ennek megfelelően az optimista, messianisztikus vagy zsurnaliszta megfogalmazások, melyek a webet összekapcsolt, együttműködő részek hatalmas tudástárához, afféle világagyhoz hasonlítják, egyelőre sokkal inkább egy vágyképet írnak le, mintsem egy működő gyakorlatot. A valóságban a world wide web jelenleg sokkal inkább hasonlít egy összegubancolt spárgagombócra, mint egy intelligens, tanulni, fejlődni képes neuronhálózatra. Ahhoz, hogy tovább lehessen lépni az együttműködő, hatékonyabb hálózati felépítés irányába, azonosítani kell az ennek útjában álló akadályokat és megkeresni a lehetséges megoldásokat.

15


OLDÁS

ÉS KÖTÉS PROBLÉMÁK

–

TECHNIKAI

Mint fentebb szó volt róla, a kapcsolatok megteremtésének gyakorlata döntően ma is a Vannevar Bush, Ted Nelson és Jakob Nielsen által leírt és vizsgált linkelés technikáján, az egyes hálózati csomópontok összekötésén alapul. Azonban már ennél az alapszintű kapcsolatnál is számos problémát találunk. Az elsődleges problémát az okozza, hogy a jelenlegi gyakorlat valójában nem konkrét tartalmak, hanem URL-címek, hálózati hivatkozási helyek kapcsolatát valósítja meg, azaz nem közvetlenül a tartalmakra, hanem azok „tárolódobozaira” hivatkozik. Mindez számos problémát vet fel: 1. tartalomváltozás: megváltozhat az adott cím alatt található oldal tartalma, így módosulhat maga a kapcsolat értéke, jelentése is 2. törött link: megszűnhet vagy megváltozhat a hivatkozott cím, így törött link jön létre 3. hivatkozási pontosság: a hivatkozás technikája nem elég pontos, illetve egyértelmű, mivel hiányzik a hivatkozott címen belüli rámutatás, kijelölés, lévén általában hiányos, ill. nem megoldott egy weboldalakon belüli hivatkozási metódus 4. egyirányú kapcsolat: a link egyirányú kapcsolatot hoz létre, azaz csak A-ból B-be mutat, visszafelé általában nem követhető, azaz a legtöbb esetben B cím nem tudja, hogy A cím hivatkozik rá 5. 1:1 kapcsolat: alacsony a hozzárendelhető kapcsolatok száma, azaz egy link legtöbbször csak egyetlen kapcsolatot hoz létre (a csupán b-re képes mutatni, c-re és d-re már nem) 6. aszinkron metódusok terjedése: a teljes oldalletöltés logikájával szemben egyre növekszik az aszinkron lekérdezési metódusokon (pl. AJAX) alapuló site-ok száma, melyek adott esetben nem a teljes oldalt, hanem csak annak egy részét frissítik, ami nehézséget okoz a 16


hivatkozásban, mert az így létrejövő állapotok nem kapnak külön URL-címet, így a hivatkozás is nehézkesebb rájuk Ezenkívül előállhat a fenti esetek valamilyen kombinációja is (pl. megváltozik a hivatkozás címe és módosul a tartalom is). Hasonló problémák áttekintését nyújtja Andrew Pam cikke.6 Ted Nelson a hálózaton található „szövegek” összességét docuverse-nek nevezi, a köztük, illetve részeik között lévő kapcsolatot pedig a transclusion fogalmával írja le. Az eredetileg kitűzött cél az volt, hogy bármely szöveg és annak bármely részlete közvetlenül kapcsolatba hozható legyen egymással. A világhálón alkalmazott jelenlegi technikák a fenti problémák miatt ezt csak korlátozottan teljesítik. Ezen problémák megoldására különféle kezdeményezéseket dolgoztak ki, ezek általános használata azonban még nem jellemző. A tartalomváltozás és törött linkek problémájára az olyan regisztrációs és hálózati archiváló rendszerek próbálnak választ adni, mint pl. az Internet Archive,7 Wayback Machine,8 Pandora Archive,9 Webcite,10 Archive-It.11 Szintén a tartalomváltozás követésének problémáját állítják középpontba az olyan verziókövető megoldások is, mint amilyet pl. a Wikipédia12 használ a változások követésére. Ezek voltaképpen az egyes önálló dokumentumok különféle állapotának mentéseit archiválják, és egyesek egymással összevethetővé teszik az egyes változatokat is. Hasonló jelentőségű és természetű probléma az adatbázis-szintű archiválás, amelynek céljára olyan eszközök állAdrew PAM, Where World Wide Web Went Wrong (http://xanadu.com. au/xanadu/6w-paper.html). 7 http://www.archive.org/index.php 8 http://www.archive.org/web/web.php 9 http://pandora.nla.gov.au/ 10 http://www.webcitation.org/ 11 http://www.archive-it.org/ 12 http://wikipedia.org/ 6

17


nak rendelkezésre, mint a DeeArc vagy a Xinq, melyek képesek az adatbázis tartalmat és struktúrát egyaránt archiválni. Mindezen megoldásokat jelenleg igen kevés helyen alkalmazzák, Ugyanakkor jól jelzik azt a törekvést és igényt, hogy mielőbb megoldást kell találni a rendszer gyenge pontjaira.

SZEMI-SZEMANTIKUS

WEB

Mivel a hivatkozott hálózati címek önmagukban jellemzően nem rendelkeznek tartalommal és jelentéssel, ezért a magasabb szintű adatintegrációhoz olyan irányba kell továbblépni, mely nem csupán címek, hanem konkrét adatok között képes kapcsolat létrehozására, és magukat az adatokat teszi képessé arra, hogy reagáljanak a környezetükben található más, szintén interakcióra képes adatokkal. Ezt leginkább úgy érhetjük el, ha az egyes adatokat a tulajdonságaikat leíró metaadatokkal és esetlegesen a kapcsolódásukat elősegítő programlogikával látjuk el. Ennek segítségével olyan „okos” adatot hozhatunk létre, amely immár nem csupán egy karaktersorozatot képvisel, hanem a hozzákapcsolt értékeknek és képességeknek köszönhetően szemantikai jelentést is hordoz, valamint a megfelelő feltételek megléte esetén kapcsolatba tud lépni környezete hasonlóan felkészített adataival és alkalmazásaival. Ilyen adatcsomagok létrehozását tűzte ki például célnak a microformats kezdeményezés.13 Ahhoz, hogy az ilyen adatszintű kapcsolat létrejöhessen, az összetevőknek azonos nyelvet kell beszélniük úgy a program, mint a fogalmi reprezentáció szintjén. A szemantikus, azaz jelentés alapú web kezdeményezése mögött az ilyen általános és a résztvevők által közösen használt logikai szerkezet és azt kezelni képes programkörnyezet kifejlesztésének szándéka áll (lásd a W3C által kidolgozott szabványt). 13

http://microformats.org/

18


Bár az általános szakértői vélekedések szerint a szemantikus web jelenti a világháló jövőjét, a struktúra és alkalmazásának bonyolultsága jelenleg még ellentétben áll a tömeges használat által sikeressé vált világháló egyszerű és könnyen implementálható megoldásokat preferáló működésmódjával. Valójában persze egy magas szinten megvalósított szemantikus alkalmazás egyszerűbben lenne kezelhető, hiszen könnyebb feltenni egy élőnyelven megfogalmazott kérdést és arra elolvasni vagy meghallgatni az élőnyelven érkező választ, mint kulcsszavakkal, relációkkal és válaszként érkező csalamádészerű linktömeggel bíbelődni. A természetes nyelv és a kognitív sémák komplexitása miatt azonban mindez egyelőre csak alacsony hatásfokú kísérleti fázisban található meg egyes kísérleti alkalmazásokban. A kérdés jelenleg az, hogy a rendelkezésre álló eszközök segítségével mi az, amit mégis el lehet érni, ami által eredményesebb és hatékonyabb rendszereket tudunk létrehozni, mint az egyszerű karakteregyezésen alapuló keresés. Az egyik lehetséges irány és egyben alapvető megoldandó probléma az egyes entitások meghatározása és azonosítása. A humán tudományokban alkalmazott tulajdonnevek és köznevek ilyen gyűjteményei például az authority file-okba és tezauruszokba rendezett adatok. Ezek segítségével elvileg egyértelműen azonosíthatóak az olyan különböző entitások, mint pl. a személyek, intézmények, földrajzi helyek, fogalmak stb. A különböző helyeken alkalmazott, de azonos entitásra hivatkozó elemek (pl. ugyanahhoz a személyhez tartozó különböző névváltozatok) megteremtik annak lehetőségét, hogy a felhasználó akkor is megtalálhassa a keresett entitásokat és feltárhassa kapcsolatukat, ha nem áll fenn a karakteregyezés feltétele, illetve elkülönítse azokat a megegyező alakú találatokat (homonimák), amelyek nem az adott entitáshoz kapcsolódnak (pl. az ugyanazon a néven működő, de különböző személyeket takaró Kovács Istvánok esete). Az azonosítás, keresés és csoportképzés szűkebb vagy tágabb lehetőségeit az entitásokhoz rendezetten kapcsolt attribútumoknak (pl. hogy Kovács János 1969-ben szü-

19


letett, foglalkozása író stb.) és az entitások egymás közötti kapcsolatrendszerének (pl. Budapest település Magyarország államhoz tartozik) rögzítése, leírása teremti meg. Ezek segítségével létrehozható pl. az írók csoportja, vagy leválogathatóak Magyarország települései. Természetesen ez a rendszer akkor használható széleskörűen, ha ugyanazokat az egyértelműen azonosított entitásokat minél több hálózati hely használja és képes értelmezni, így site-okon átívelő kapcsolatok hozhatók létre, és pontosabb kereséseket lehet végrehajtani. Bár több kísérlet is célul tűzte ennek megvalósítását, inkább lokális eredményekről beszélhetünk, mintsem általánosan elterjedt és közösen használt gyakorlatról.

INFOBÖRTÖNÖK

ÉS ADATSZIGETEK

Az utóbbi egy-két évtized egyik legmarkánsabb változása a tudásmonopóliumok demokratizálódása, az információhoz való hozzáférés rendszerének gyökeres átalakulása volt. Mindez, hasonlóan a reformáció közvetlen információközvetítésre alapozó programjához, a hierarchikus, intézményi modell helyébe a nyílt, együttműködő közösségi struktúrák megerősödését hozta magával. Az analitikus szemléletű, objektív tudásra törekedő modernitás egyik legkifejezőbb eszköze a számítógép, de az azok összekapcsolásával kialakított világméretű hálózat társadalmi szinten ironikus módon éppen a bizonytalanság és szubjektivitás tartományait tárta fel és sokszorozta meg. Mindez azonban nem gátolta, éppen ellenkezőleg: serkentette fejlődését és növekedését. Az intézmények a tudás birtokosai, kinyilatkoztatói, előíró és korlátozó felügyelői helyett az egyéni megközelítésekhez eszközöket és szempontokat szolgáltató közvetítői lettek (vagy azzá kellett volna lenniük). Ahhoz, hogy ezen nyitott, sokszínű, mellérendelések hálózatára építő, új következtetések levonására alkalmas

20


megközelítésmód megjelenhessen a hálózatot használók számára, olyan eszközkészletre van szükség, amely • • • • •

azonosíthatóvá, szabadon elérhetővé és újraszervezhetővé teszi az egyes webhelyeken található információkat lehetővé teszi az adatimportot és -exportot, képes a formátumok közti konverzióra hordozható és platformfüggetlen lehetővé teszi az ugyanarra témára, tárgyra vonatkozó állítások összevetését hivatkozhatóvá teszi az újonnan létrehozott adatkapcsolatok eredményét, származtatott értékét

Magyarországon jelenleg több intézmény is készít gyűjteményének rendszerezéséhez authority fájlokat a személyekről, földrajzi helyekről stb., ezek azonban általában nem elérhetőek egymás és a széles közönség számára, és így természetesen integráló funkciót sem töltenek be. Közösen használt infotéglák és általánosan elfogadott rendezőelvek nélkül nem építhető fel bonyolultabb struktúra. Az adatokat saját alkalmazásuk kereteibe záró kezdeményezések éppen azon hálózati hatás pozitív lehetőségeiből zárják ki felhasználóikat és saját rendszerüket, amely az internet lényegét, az egyes összetevők között létrehozható kapcsolatok többletét adja. Nyilvánvalóan adódik a következtetés: amennyiben a frázisokon túl is szeretnénk tenni az együttműködésért, úgy meg kell kezdeni a névterek kölcsönös haszonnal járó megnyitását, nyilvánossá tételét, egyesítését, összefésülését. Az adatvisszatartás és elszigetelés gyakorlata több tényezőre vezethető vissza, ezek közül a legfontosabbak a technikai korlátok, az üzleti érdekek, valamint az intézményi szempontok.

21


TECHNIKAI

KORLÁTOK

A legfontosabb technikai korlátok közé az inkompatibilitási problémák tartoznak. Ezek fakadhatnak az eltérő programnyelvek, leírási, rögzítési, szabványosítási metódusok alkalmazásából. Magyarországon is több könyvtári rendszer működik (Szikla,14 Huntéka,15 Tinlib16 stb.), amelyek saját felhasználóikat közös rendszerbe szervezik ugyan, de más rendszerek felé már nem feltétlenül teremtenek kapcsolatot. Így természetesen ugyanazokat az adatokat az egyes rendszerekben párhuzamosan, többszörös redundanciával rögzítik, ami közösen használható rendszerek esetében megspórolható lenne. Ez a gyakorlat természetesen már átlóg az üzleti megfontolások területére is, hiszen konverziós modulok és kölcsönös adatcsere megállapodások keretében e problémák jó része áthidalható lenne, kérdés azonban, hogy mindez nem ütközik-e a fejlesztő cégek üzleti érdekeivel. Azt sem szabad figyelmen kívül hagyni, hogy a sokféleség elősegíti a versenyt és a fejlődést, azonban egy közös csereformátum (pl. HUNMARC) és így az átjárhatóság biztosítása elvárható lenne az egyes rendszerek üzemeltetőitől. A különböző szoftveres platformok, adatbázis-kezelői rendszerek eltéréséből adódó inkompatibilitások áthidalására valószínűleg szintén átfogó programot lenne érdemes indítani, amely megteremthetné a kölcsönös átjárhatóságot lehetővé tevő eszközkészletet, ami így csökkenthetné a hazai gyakorlat fragmentáltságát és heterogenitását. Mint fentebb szó volt róla, az adatbázisok keresőrobotok által nem feltérképezhető adatai szintén olyan adatszigeteket hoznak létre, amelyek nem megközelíthetőek az általános keresők felől. Webservice vagy egyéb kifelé mutató lekérdezési metódusok híján így sok esetben csupán közvetlenül az alkalmazásnak otthont adó hálózati helyről kiindulva lekérhetőek az ily módon adatbázisban tárolt információk. http://www.szikla.net/hun/index.php http://www.hunteka.hu/ 16 http://www.tinlib.hu/ 14 15

22


ÜZLETI

ÉRDEKEK

Gyakran nem a technikai nehézségek, hanem az üzleti megfontolások állnak az integráció útjába. Sokszor éppen a legjobban rendezett és karbantartott adatbázisok és archívumok azok, amelyek nem vesznek részt a szabadon elérhető (és így szabadon kereshető, indexelhető, hivatkozható) hálózati tartalomban. Az előfizetés fejében megtekinthető tartalmak így afféle dollárszűrő mögött helyezkednek el, kizárva az itt található információkat a szabad információs kapcsolati hálóból, és ezáltal természetesen ezen adatok újrafelhasználhatósága is erősen korlátozott jellegű lesz. Egyes site-ok üzleti modellje éppen az adatok beépíthetőségének fizetős gyakorlatára épül, a felhasználás azonban természetesen ekkor is gyakran megakad az első lépcsőnél, hiszen a fizetett adatelérést alkalmazó site-ról nem feltétlenül vihetőek tovább szabadon az adatok. Az információ természetesen érték, és az üzleti élet természetes következménye, hogy számos vállalkozás az online elérhető és felhasználható digitális adatok kereskedelmével tesz szert jövedelemre. Figyelembe kell venni azonban azt is, hogy az ilyen módon korlátozott adatok éppen ezen restrikciók miatt sokkal kisebb túlélési eséllyel vesznek részt a hálózati kommunikációban. Mondhatjuk úgy is: az így terjedő informatikai mémek túlélési esélyei alacsonyabbak az ingyenes csatornákon terjedő riválisaiknál: tanulságos például a fizetős hír- és portál-szolgáltatások csődje, vagy a fizetős modellekkel szemben az ingyenes földrajzi alkalmazással megjelenő Google Maps17 sikere. Mindenestre fontos tapasztalat, hogy a hálózaton nem feltétlen az adat a fő bevételi forrás, hanem a hozzákapcsolt funkciók, pl. a Google-t naggyá tevő kontextusfüggő és célzott reklám. Kérdés, hogy a felhasználók dollárszűrővel való kizárása nem csökkenti-e inkább a siker lehetőségét; igaz, van számos olyan modell is, amely éppen a reklámmentes megjelenésért cserébe szed pénzt a felhasználóktól, akik így választhatnak a kétféle megközelítésmód közül. 17

http://maps.google.com/

23


INTÉZMÉNYI,

KULTÚRPOLITIKAI SZEM-

PONTOK

Magyarországon gyakori (bár a régióban nem egyedi) jelenség, hogy noha elvileg nem lenne technikai akadálya (ráadásul az üzleti szempont is legtöbbször inkább ürügy, mint valóságos hivatkozási alap), a közpénzből fenntartott, közérdeklődésre számot tartó adatokat gyűjtő állami intézmények nem teszik nyilvánosan elérhetővé az általuk felhalmozott adatkincset. Így az a különös helyzet áll elő, hogy bár az állampolgárok adójukkal kifizetik ezen adatok előállítását, a munka gyümölcséhez mégsem juthatnak hozzá, azokat az egyes intézmények mintegy „családi ezüstként” őrzik. Mindennek természetesen rendkívül szerteágazó társadalmi, szociológiai, adminisztrációs, jogi, kultúrpolitikai okai vannak. Kétségtelen azonban, hogy az intézmények által gyűjtött és összeállított adatbázisok és archívumok gyakorta lobbyharcok tétjei, tárgyai és eszközei. Mindehhez egyik oldalról épp úgy hozzátartozik, hogy az egyes intézmények gyakran saját legitimációjuk biztosítására, mintegy túszként őrzik az adatokat, mint az, amikor az állam a saját bevételszerzés előírásával áttételesen mintegy preszszionálja őket a közpénzből gyűjtött információk ilyen jellegű hasznosítására. A cél mindenképpen egy alapelveket, célokat és eszközöket tisztázó szakmai, kultúrpolitikai vita és egyeztetés lefolytatása lenne, amely megszüntetné a közérdekű adatfelhasználás körüli anomáliákat és egyértelmű, tiszta helyzetet teremtene minden résztvevő számára.

HOVA? TOVÁBB! HYPERDATA A fentiek alapján a legfontosabb és legizgalmasabb előrelépés az információk olyan kapcsolati hálójának és szabad elérhetőségének megteremtése, amely kiaknázza az internet adta lehetőségeket és lehetőség szerint kiküszöböli a veszélyeket.

24


Ehhez minimálisan az alábbiakra van szükség: • • •

•

•

a bizonytalan URL-alapú hivatkozás helyett közvetlen adatszintű azonosítás és hivatkozhatóság a különböző forrásból származó adatok remixelhetősége, új struktúrába való újraszervezhetősége az akadálytalan adatcsere és -konverzió, valamint a jövőbeni felhasználás és konvertálhatóság érdekében zárt helyett (pl. netre feltöltött Word dokumentumok) nyílt szabványok (pl. xml) alkalmazása az időtállóság érdekében a fontos adatok hosszú távú megőrzésének biztosítása, melyhez hozzátartozik az adatokat kezelni és megjeleníteni képes futtatókörnyezet is különösen a közérdekű és közintézmények által előállított adatok esetében nagy hangsúlyt kell fektetni a hozzáférhetőségre, és lehetőség szerint az adatok minél nagyobb arányát kell bevonni a szabad információcserébe (pl. a Creative Commons vagy hasonló licencelési lehetőségek felhasználásával).

Az információ és tudásszervezés új struktúrái most formálódnak a virtuális terekben, és jelenleg nehéz megmondani, mely megoldások jelentik majd az „új könyv”, az új információgalaxis alapjait. Ami egyértelműen megfigyelhető, hogy termékeny kapcsolat látszik kialakulni az individuális részvétel lehetősége és a közösségi kezdeményezések között, és egyre inkább körvonalazódik az igény a linkelés technikáján túlmutató integrációra. A különálló tudásbázisok összekapcsolásának technikái fokról-fokra finomodnak, legyen szó közösségi, kollaboratív munkára alapozó site-okról (pl. a különböző nyilvánosan szerkeszthető wikik) vagy az egyes alkalmazások adatait egymásra vetítő és összekapcsoló mashupokról. Bár jelenleg a hálózaton fellelhető különböző technikai megvalósítással, eltérő színvonallal bíró oldalak sokkal inkább emlékeztetnek egy kusza információs adatkazalra, mint egy organikusan fejlődő világagyra, a hálózati infor25


máció és tudásszervezés evolúciója még csak most kezdődött el, kimenete jelenleg megjósolhatatlan. A jövő éppúgy elhozhatja a kizárólag üzleti szempontoknak alárendelt, kisajátított korporatív tudásmonopóliumok világát, mint egy eleven és kreatív, szabad kapcsolatokra épülő infoverzumot, a szellem új otthonát.

HIVATKOZÁSOK 1.

Vannevar BUSH, As We May Think, The Atlantic Monthly, 1945/7

2.

Vannevar BUSH, Út az új gondolkodás felé (Ahogy gondolkodhatnánk) = Hyper text + multi média, a szövegeket válogatta, az előszót és az utószót írta, valamint a kronológiát és a jegyzeteket összeállította SUGÁR János, a szövegeket fordította: IVACS Ágnes és BARTHA Gabriella, oktatási segédanyag, megjelent az Artpool Füzetek sorozatban (Artpool, Budapest, 1996, második javított kiadás: 1998), felelős szerkesztő KLANICZAY Júlia (http://www.artpool.hu/ hypermedia/bush.html)

3.

Ted Nelson, Literary Machine, Swarthmore, 1981.

4.

Horváth Iván, Magyarok Bábelben, JATEPress, Szeged, 2000 = Ua., Gépeskönyv, Bp., 2000 (http://magyar-irodalom. elte.hu/babel/2520.htm).

5.

Adrew Pam, Where World Wide Web Went Wrong (http://xanadu.com.au/xanadu/6w-paper.html)

6.

http://www.archive-it.org/

7.

http://www.archive.org/index.php

8.

http://www.archive.org/web/web.php

9.

http://www.hunteka.hu/

10. http://maps.google.com/

26


11. http://microformats.org/ 12. http://pandora.nla.gov.au/ 13. http://www.szikla.net/hun/index.php 14. http://www.tinlib.hu/ 15. http://www.webcitation.org/

27

S

Z A K A D Á T

I

S T V Á N

A NÉP SZAVAI C

Í M K É K É S K Ö N Y V T Á R A K – A S Z E M A N T I K U S W E B Í G É R E T E É S V A L Ó S Á G A

A szemantikus web fogalmát többféle módon is értelmezhetjük. Akárhogy is tesszük azonban, ez nem igazán befolyásolhatja azt az ítéletünket, amelyet az írásunk alcímével kapcsolatban fogalmazhatunk meg.18 A szemantikus web ugyanis – véleményünk szerint – ma még sokkal inkább csak ígéret, mint valóság, és egyelőre nem is nagyon látszik, mikorra és hogyan leszünk képesek a szemantikus web program céljait megvalósítani. Ha tehát tartalmasat kívánunk szólni, akkor el kell tudnunk lépni az alcím sugallta témától. A Szemantikus Web Kezdeményezés a W3C konzorcium programja. Személyesen Tim Berners-Lee nevéhez kapcsolódik, aki azt mondta az ezredfordulón, hogy amíg a web első szakasza arról szólt, hogy a számítógépeket megtanítottuk a szöveget olvasni, addig a következő évtizedben az a feladatunk, hogy megtanítsuk a gépeket arra, hogy képesek legyenek a szövegek értésére, értelmezésére is.19 A cél érthető, fontos, nemes, ambiciózus, de a megvalósításától egyelőre fényévekre vagyunk. Az írásunkban éppen ezért nem a miértekről, nem a nehézségekről értekeznénk, mert a téma kifejtése elvinne minket a nyelvtechnológia, a szemantika, az ontológia irányába, amivel – érzésünk szerint – eltávolodnánk a konferencia fő témájától, de legalábbis a potenciális

A konferencián elhangzott előadás címét jelen írásmű alcímévé tettük, mert tanulmányunk tartalmához jobban illeszkedő címet akartunk választani. 19 Tim BERNERS-LEE – James HENDLER – Ora LASSILA, The Semantic Web, Scientific American, May 2001. 18

29

SZAKADÁT ISTVÁN: A NÉP SZAVAI

közönségünk érdeklődésétől. Érdekesnek és fontosnak tartunk viszont egy olyan kérdést körbejárni, amely szemantikai problémák mentén kapcsolja össze azt a két jelenséget, amelyre a webről szóló közbeszédben web 2.0 és web 3.0 fogalmakkal szoktak hivatkozni.20 Az a meglepő helyzet ugyanis, hogy a szemantikus web kezdeményezés céljait jelölik manapság a web3 terminussal, míg a web történetében időben később elterjedő közösségi tartalomszolgáltatás jelenségegyüttesére alkalmazzák a web2 kifejezést.21 Noha nem igazán tartjuk jónak ezt a két terminust, lehetne jobbakat használni helyettük (vannak is ilyenek, például a ’peer production’ fogalmával sokkal több jelenség sokkal pontosabban megragadható),22 mégis megtartjuk ezt a fogalomkettőst a továbbiakban, hiszen napjainkban nagyon széles körben használatban vannak (főleg persze a web2 kifejezés). A megvizsgálandó kérdést pedig úgy fogalmazzuk meg, hogy vajon milyen kapcsolatot képzelhetünk el a web2 és web3 jelenségek közé, vagy másként fogalmazva és a gondolatmenetünknek némi provokatív élt adva: lesznek-e, s ha igen, mire lesznek jók a könyvtárosok a jövőben. Úgy ítéljük meg ugyanis, hogy a web2-es jelenségek – igen jelentős részben, bár korántsem teljes mértékben – fölöslegessé teszik a könyvtárosok (professzionális archivátorok) munkáját, miközben a digitális archívumokban egyre nagyobb szemantikai vákuum keletkezik, s ebből fakadóan egyre nagyobb szükséglet támad a hiányzó szemantikai információk pótlására, amit viszont könyvtárosokkal (professzionális archivátorokkal), illetve gépi szemantikával, gépi tanulással építhetünk be a rendszerbe.

A web 2.0 és web 3.0 kifejezések helyett a továbbiakban a web2 és web3 rövidebb alakokat használom. 21 A web 2.0 terminus megalkotását Tim O’Reilly-nak tulajdonítják: Tim O’REILLY, What is Web 2.0. Design Patterns and Business Models for the Next Generation of Software (http://www.oreillynet.com/pub/a/oreilly/tim/ news/2005/09/30/what-is-web-20.html) 22 A peer production fogalma alá sorolható jelenségekről, a fogalom meghatározásáról bővebben: SYI (SZAKADÁT István), Egyben az egész. Egytől egyig, Bp., Typotex, 2007. 20

30


Induljunk ki az információ, tartalom, metainformáció, dokumentum, archívum és keresés fogalmakból felépíthető fogalmi modellből. Ha az információt tárolni akarjuk, akkor a szóban forgó tartalmat valamilyen hordozóra rögzítve dokumentumot (könyvet, képet, videót, hanglemezt stb.) hozunk létre. A tárolási tevékenység egyik kiemelt célja nyilván a tartalom későbbi befogadásának biztosítása, s ezt a célt a dokumentumok archívumba rendezésével érhetjük el a leghatékonyabban. A tartalom befogadhatóságához azonban meg kell tudnunk találni az archívumon belül a keresett dokumentumot, és e célból kiegészítő információt, metaadatot kell a dokumentumokhoz rendelnünk. A metainformáció elsődleges célja a dokumentum visszakereshetőségének a biztosítása az archívumon belül, s ebből fakadóan az archívum egyik legfontosabb tevékenysége a keresés (illetve a kereséstámogatás). Amióta archívumokat építünk magunknak (ideértve a könyvtáraktól kezdve a levéltárakon, filmtárakon át a vállalati dokumentumtárakat vagy a személyes könyv-, dvdvagy cd-gyűjteményeket), mindig és minden helyzetben alkalmazni lehetett ezt az egyszerű modellt.23 A tárolás és keresés gyakorlati problémáira az eddigi legkiérleltebb választ az évszázados könyvtári hagyományban találhatjuk meg. Nem véletlen, hogy a web kezdetétől fogva sokak számára tűnt érdemesnek hasznosítani ezen értékes tudást és tapasztalatot. Az ilyen kezdeményezések azonban elég kevés sikerrel jártak mindeddig, aminek meg kellene találnunk a magyarázatát. A továbblépés előtt érdemes még a modellünkön egy szempontból tovább finomítani, s legalább azt a megkülönböztetést átvenni, amit a könyvtári világ kiformált azzal, hogy a könyvek metaadataival kapcsolatos formai és tartalmi feltáró tevékenységeket elválasztotta egymástól.24 A dokumentumok formai metaadatait csak azáltal tudjuk megfelelően A keresés modellezéséről bővebben: SYI, 2007. A dolgokat kissé leegyszerűsítve azt mondhatjuk, hogy a formai leíró elemeket megadhatjuk akkor is, ha nem ismerjük a dokumentum tartalmát, ellenben a tartalmi metaadatokat csak a tartalom ismeretében lehet megállapítani.

23 24

31


kezelni, ha pontosan és egyértelműen minősítjük az egyes metaadatelemeket, ami egyenes arányban van a formai metaadatrendszer strukturáltsági fokával (tehát bonyolultságával). Ahány formai adatelemet kezelni akarunk, annyiféle entitást és majdnem ugyanannyi relációtípust kell definiálnunk, hogy aztán azok konkrét értékeit a dokumentumokhoz rendelhessük. Más a helyzet a tartalmi leíró tevékenységgel. Többféle lehetőség van a tartalmi metaadatok könyvekhez rendelésére. A legelterjedtebb megoldás az, hogy a dokumentumok tartalmát valamilyen előre kidolgozott készletből válogatott kifejezésekkel, kulcsszavakkal, tárgyszavakkal jellemezzük. Amikor ezt tesszük, akkor a szóban forgó terminuskészletet már érdemes önálló elemként elkülönítenünk az archívumi modellünkben, aminek megnevezésére használhatjuk a nemzetközileg elfogadott kifejezést: tudásszervezési rendszer (knowledge organization system, KOS). A tudásszervezési rendszerek (KOS-ok) a tartalmi feltáró munka során a dokumentumokhoz rendelhető tárgyszavakból és az ezek között tételezett relációkból állnak. Matematikai értelemben azt mondhatjuk, hogy a KOS a tárgyszavak tartóhalmazán értelmezett struktúra, amelyből természetesen lehetséges többféle is annak megfelelően, hogy milyen relációkat engedünk meg felvenni a tárgyszavak között. A struktúra az alábbi formában írható fel: KOS = , ahol D a tudásszervezési rendszer tárgyszavaiból álló tartóhalmaz Ri az elemeken (tárgyszavakon) értelmezhető reláció

Felmerülhet a kérdés, miért is van szükségünk a relációk értelmezésére. Legalább két fontos funkcióra már előzetesen rámutathatunk, még ha ezeket csak a későbbiekben tudjuk majd bővebben kifejteni. A tárgyszó-hozzárendelés célja és értelme a dokumentumok minél pontosabb tartalmi leírása. A természetes nyelvünk rugalmasságának „ára” a szavaink, kifejezéseink többértelműsége. A pontos tartalmi leíráshoz arra van szükségünk, hogy a nyelv egyéb-

32


ként sokértelmű szavait, kifejezéseit egyértelmű jelentés mellett tudjuk a dokumentumokhoz rendelni. Ez az egyértelműsítés azáltal teremthető meg (legalábbis a hagyományos archívumi gyakorlatban), hogy a tárgyszavaknak megmutatjuk a fogalmi környezetét (vagyis azt, hogy más fogalmakkal milyen kapcsolatban áll). Ezért a tárgyszavazást végző személyeknek a tárgyszókészletet annak teljes struktúrájával együtt kell látniuk (a tárgyszavak közti relációk abban is segítséget adhatnak egyébként, hogy támogatják a rendszeren belüli navigációt a tárgyszókeresési munka során). A relációk másik fontos „funkciója” pedig az lehet, hogy segítségükkel alternatív tárgyszavakat lehet esetleg megtalálni, illetve logikai következtetéseket lehet végrehajtani (ha ez szükséges). Addig jutottunk tehát, hogy megállapítsuk: a metaadat-hozzárendelési munkát – a szemantikai egyértelműsítés végett – kétféle módon is támogatta a könyvtári gyakorlat. Egyrészt a formai adatelemekre egy sokdimenziós (sok relációból álló), nem túl összefüggő, minden dimenzióban nagyon lapos, de pontosan rögzített struktúrát teremtett, másrészt a tartalmi leírás egyértelműsítésére a tudásszervezési rendszerek elemeit vette használatba. A továbbiakban az utóbbi mozzanatra fogunk koncentrálni. A tartalmi leíró tevékenység során a dokumentumokat a tudásszervezési rendszer elemeivel jellemezzük úgy, hogy összekötjük egymással az éppen elemezett dokumentumot a KOS-rendszer kiválasztott elemeivel. Ha az összekapcsolás tényét rögzítő adatot a többi információtól elkülönítve kezeljük, akkor létrehozzuk (fenntartjuk) a katalógus „intézményét”. Azt mondhatjuk tehát, hogy a tartalmi leíró tevékenység a katalógus céduláinak, rekordjainak írását jelenti. Az archívum általános modelljében három nagyobb információs blokk van, amelyeket az alábbi ábrával szemléltethetjük:

1. ábra: információblokkok az archívumban

33


A vázolt fogalmi modellünkre támaszkodva most már nekiláthatunk mondandónk kifejtésének. A történetet a web megjelenésével kell kezdenünk. A web egyik forradalmi újdonságát (és erejét) a szabadszavas keresés megjelenése adta, amelynek sikere sok embert annak kimondására sarkallt, hogy talán nincs is szükség másfajta keresési lehetőségre. Bár a szabadszavas keresés (főleg a relevanciakezelés különböző megoldásaival együtt) valóban nagyon jó eredményekre képes, korábban sosem volt lehetőségeket kínál számunkra, tudnunk kell, hogy nagyon komoly és kiküszöbölhetetlen hiányosságai vannak ennek a technológiának. A szabadszavas keresés legfontosabb problémája nyilván az, hogy csak szöveges dokumentumok esetében működőképes, vagyis az audiovizuális dokumentumok esetében nem használható.25 De még „tiszta” szöveg esetében is komoly gondok adódhatnak vele. Mivel a szabadszavas keresőkben nem tudjuk minősíteni a keresett kulcsszavakat, ezért nincs mód a metaadatok minősített keresésére (a szöveg strukturálatlanságával nem tud megbirkózni ez a technológia, emiatt a metaadat mint olyan kezelésére egyáltalán nem képes). A szabadszavas keresés során nem lehetséges a szerző vagy a dokumentum címe szerint keresnünk. Ha a dokumentumban „valódi” címként szerepel egy karaktersorozat, míg egy másikban csak hivatkoznak ugyanerre a címre, akkor mindkettőt visszakapjuk – függetlenül a kifejezés „metainformációs státusától”. Mondhatnánk persze azt, hogy a tartalmi feltárás területén viszont hatalmas előnyként jelentkezik az a lehetőség, hogy nem kell elvégezni a tárgyszavazás fáradságos munkáját, mivel az automatikus gépi indexelés megcsinálja azt az ember helyett. Ez kétségtelen tény, és ez valóban komoly előnyt biztosít, de azért ennek a megoldásnak is vannak hátulütői. A gépi indexelés ugyanis nem tud mit kezdeni a nyelv többértelműségével, amit viszont az ember a feltáró munka során kezelni tud. Nézzünk meg ezekből néhány példát! Audiovizuális dokumentumon nem természetes nyelvi alapú, képi és/vagy hangi információkat tartalmazó dokumentumot értünk.

25

34


A gépi keresés nem tudja elkülöníteni a homonimikus jelentéseket, akár a köznévi, akár a tulajdonnévi alakok közötti homonimákról van szó: macska (állat) – vasmacska (eszköz) Cica (’Révész Cica József klarinétos’) – cica (macska)

A keresés támogatásának egyik fontos eszköze a szavak, kifejezések közötti szinonimitás, amellyel az automatikus indexelés semmit sem tud kezdeni. A számítógép számára nem nyilvánvaló (nem ismert) az alábbi három terminus (durván) azonos jelentése: macska - cicus - cica

Nem kell most elmerülnünk abban a vitában, amely a szinonima és a poliszéma elválasztásáról zajlik a nyelvészet területén, itt elég csak jeleznünk, hogy szavak bizonyos jelentései között gyakran nincs teljes átfedés (vagyis nem beszélhetünk szinonimitásról), mégis szoros kapcsolatot állapíthatunk meg közöttük. Az alábbi példa nem lehet szinonima, hiszen állatról és emberről van szó, mégis érezzük a két jelentés kapcsolódását egymáshoz (amit a gép már nem tud megragadni). cica (macska) – cica (jó nő)

Aztán a nyelv „továbblép” még egyet, amikor a pozitív töltetű jelentést átértelmezi, s ironikus módon, ellenkező értelemben használja a terminust. cica (jó nő) – fitneszcica (kövér, csúnya nő)

Nehezebb észrevenni, ami a számítógép számára sokkal nyilvánvalóbb, hogy milyen sok olyan akronimát (betűszót) képzünk, amelyek a köznyelv valamely szavával teljesen megegyeznek. CICA (Criminal Injuries Compensation Authority) CICA (Confederation Internationale du Credit Agricole) – cica (macska)

35


A keresés során talán nem annyira fontos, de azért említésre érdemes az a képességünk (amivel a gépek egyelőre nem rendelkeznek), hogy azonnal felismerjük bizonyos szavak, kifejezések ellentétes jelentését, vagyis kezelni tudjuk az antonima nyelvi jelenségét. kutya – macska

A nyelv rugalmasságának egyik legfontosabb eszköze a metonima, amellyel sokféle értelemben kiterjeszthetjük egy szó jelentését. Az alábbi két példában az ’iskola’ két jelentése eltérő módon lenne leírható egy formális ontológiában, noha érezzük, hogy ezek a jelentések szoros kapcsolatban vannak egymással. Háromszintes iskolába járunk. (iskola mint épület) Nyolcosztályos iskolába járunk. (iskola mint intézmény, testület)

Tovább bonyolódik a helyzet, amikor a hálózat többnyelvűségét is figyelembe kell vennünk, s a fenti többértelműségek a különböző nyelvek között is létrejöhetnek. Előfordulhat „többnyelvű szinonimitás”, amikor különböző nyelveken fejezzük ki ugyanazt a jelentést, tartalmat: macska (magyar) cat (angol) Katze (német)

A másik irányból tekintve értelmezhetünk „többnyelvű homonimitást” is, amikor ugyanaz a szóalak két nyelven teljesen más jelentéssel bír. cica (magyar) ciça (portugál)

A fenti példák mind azt mutatták, hogy egyetlen karaktersorozat mennyiféle jelentéssel rendelkezhet, amit a számítógépek – egyelőre még – nem, az emberek viszont képesek megfelelő módon, vagyis a szemantikus gazdagságuk teljében értelmezni. A ’cica’ karaktersorozatnak legalább az

36


alábbi különböző értelmezéseit adhatjuk meg (a felsorolás nyilván nem teljes): magyar: cica (macska) angol:

CICA (tulajdonnevek)

magyar: Hilton-cica, cicamica (szép nő) magyar: fitneszcica (csúnya nő) magyar: papírcica (hajtogatott cica) magyar: porcica (kosz)

A számítógép mindezekről semmit sem tud, a ’cica’ terminust nem tudja sehogy sem értelmezni, nyugodtan mondhatjuk azt, hogy teljes szemantikus vakságban szenved – ma még. A Szemantikus Web Kezdeményezés célja és értelme pont az, hogy a keresőmotorok számára szemantikus képességeket tudjunk kifejleszteni. A szemantikai vakság mellett azonban van még egy másik, igen komoly problémája a webes keresőmotoroknak. A szabadszavas keresés ugyanis teljesszöveges keresést is jelent egyben (fulltext search), amit abból a szempontból előnyösnek és kívánatosnak minősíthetünk, hogy ezáltal a szöveges dokumentumok teljes szókészlete kereshetővé és elérhetővé válik (ami különösen ritkább szavak esetében lehet nagyon hatékony), viszont a relevanciakezelés területén új nehézségek jelentkeznek (pontosabb lenne azt állítani, hogy a relevancia egész problémaköre teljesen új megvilágításba kerül). Amikor a szöveges dokumentum összes szavát leindexelik a keresőmotorok, és az invertált index alapján a szövegben előforduló bármely szó alapján képesek visszaadni a dokumentumot magát, akkor rögtön felmerül a kérdés, hogy az adott keresőszó vajon jól jellemzi-e az adott dokumentumot, vagyis kellően releváns-e a szó és a dokumentum kapcsolata. A válasz nyilvánvalóan csak az lehet, hogy minden szó nem jellemezheti egyforma erővel a dokumentumot, tehát szükség lenne egy olyan módszerre, amely a szavakat tartalmazó dokumentumokhoz valamilyen relevanciaértéket rendel, ami alapján a fontosabbnak minősített dokumentumokat előbbre lehet rangsorolni a találati listákban. Az első generációs keresőgépek a relevanciaértékeket a dokumentumban magában 37


keresték. Ebben persze önkéntelenül is követték azt a hagyományos világból származó gyakorlatot, amely a dokumentumokat tárgyszavakkal leírhatónak gondolta. Ez az évszázados könyvtári hagyomány azt sugallta, hogy a teljesszöveges indexállományból ki lehet választani néhány (vagyis kevés) releváns tárgyszót a dokumentum tartalmi leírására. A kérdés csak az volt, hogy amit a könyvtárosok jól meg tudtak oldani (ti. a kevés releváns tárgyszót kiválasztani), azt vajon hogyan lehet megtanítani a számítógépnek. A keresőmotorok fejlesztői az első időszakban (a web kezdetén) olyan szempontokra próbáltak meg figyelni, mint: hányszor fordul elő a szó a dokumentumban (ha többször, akkor „többet ér”) hol szerepel a szó a dokumentumban (ha az elején, akkor „többet ér”) szerepel-e a szó a dokumentum címében, alcímében (ha igen, akkor „többet ér”)

Ezek a kezdeti próbálkozások azonban kevéssé (vagy egyáltalán nem) voltak hatásosak. A Google volt az első a keresőmotorok világában, amely valóban működőképes relevanciakezelést valósított meg. A Google megoldása, a PageRank azonban teljesen más szempontra figyelt, mint az elődei. A dokumentumok relevanciaértékének számításakor ugyanis nem a dokumentumok tartalmát (a benne szereplő szavakat) vette figyelembe, hanem a dokumentumokban elhelyezett linkek (más oldalakra mutató utalások) tényét, számát, súlyát. A weboldalak készítőinek szubjektív ítéleteit lehetett ezáltal összegyűjteni és aggregálni valamiféle közösségi fontossági mutatószámmá. A relevanciakezelés nem jelent egyebet, mint valamilyen módon kifejezni, hogy adott dokumentum adott kontextusban fontos egy személy vagy egy közösség számára. A könyvtári világ addig más technikát alkalmazott a relevanciakezelés problémájára. Amikor a könyvtárosok a dokumentumok tartalmi leírását végezték, akkor a rendelkezésükre álló, elméletileg összes lehetséges leíró tárgyszó közül kiválasztották az általuk legfontosabbnak tartottakat, és

38


ezeket hozzárendelték a dokumentumokhoz. A leíró tárgyszavaknak ez a kiválasztása, szűrése egy szempontból nagyon hasonlított a keresőmotorok teljesszöveges indexeléséhez. A könyvtárosok az előre rögzített tudásszervezési rendszer elemeiből válogatták ki a legfontosabbnak tartott leíró elemeket, vagyis számukra ugyanúgy rendelkezésre állt egy előzetes szóhalmaz, amiből aztán választaniuk kellett, mint ahogy a keresőmotorok is minden egyes dokumentumról felállították a dokumentum összes szavából álló szóhalmazt, és ennek elemeihez tudták hasonlítani a későbbi felhasználói keresések során megadott keresőfeltételeket. A kétféle gyakorlat között annyi a különbség, hogy a keresőmotorok nem tudták, nem tudják jól kiválasztani a dokumentumot valóban jellemző, releváns tárgyszavakat (vagy pedig más relevanciakezelő megoldást alkalmaztak, mint a Google). A probléma megoldására, a hiányzó szűrési, kiválasztási tevékenység elvégzésére szakemberek munkába állítása látszott megfelelőnek. Részben ezért indítottak a web kezdetén olyan szolgáltatásokat a szabadszavas keresőmotorok (a HotBot, az AltaVista és társaik) megjelenésével párhuzamosan, amelyek szemantikai szempontból kívánták meghaladni a keresőmotorok szolgáltatásait. A legismertebb próbálkozás a Yahoo Directory webkatalógusa volt, amely a weboldalakat egy saját osztályozási rendszer segítségével próbálta meg szemantikailag elrendezni és a felhasználók számára megtalálhatóvá tenni. Azonban a „drámát”, az új világ fordulatát is ugyanennek a szolgáltatásnak a sorsában érhetjük tetten. A Yahoo egésze idővel ugyan a legsikeresebb webes szolgáltatások közé került, de a webkatalógusa egyre inkább háttérbe szorult, míg végül „bezárták”, s a könyvtárosaikat, archivátoraikat szélnek eresztették (vagy más feladatokra irányították őket).26 A szakszerű és fegyelmezett rend reprezentánsa eltűnt, ám ezzel párhuzamosan megjelent valami más. A web2 A Yahoo directory szolgáltatáshoz hasonló utat futott be a Google által felkarolt DMOZ Open Directory projekt is, amely szinte a kezdetektől fogva elég hosszú ideig elérhető volt a Google kezdőlapjáról, aztán egyszer csak lekerült onnan.

26

39


jelenségkörbe tartozó szolgáltatások (mint a Flickr, Del.icio.us, Digg, YouTube stb.) ugyanis olyan metaadat-kezelési módszereket építettek ki maguknak, amelyek ugyanazt a munkát, amit addig a hagyományos és digitális archívumokban egyaránt szakemberek végeztek, az új szolgáltatásokban a felhasználók önkéntes munkájára bízták. Ezt a megoldást, pontosabban az ilyen rendszereket nevezték el folkszonómiának. A továbbiakban ezt a jelenséget, illetve a folkszonómiák megjelenéséhez köthető paradigmaváltást vizsgáljuk meg néhány szempont alapján. Elemzésünkben leegyszerűsített gondolatmenetet követünk a korábban felvázolt fogalmi modell összetevőire támaszkodva. A legfontosabb kérdésünk az lesz, hogy a digitális archívumok elterjedésével milyen módon lehet biztosítani a tárolt dokumentumok metaadatokkal történő ellátását és a dokumentumok visszakereshetőségét. Legelőször a tudásszervezési rendszerek típusairól kell pár szót ejtenünk. A különböző archívumépítési gyakorlatokban a hálózati kultúra időszakát megelőző évszázadban háromfajta tudásszervezési rendszert vettek használatba: • terminuslista • taxonómia • tezaurusz Ezek mindegyike a rá jellemző matematikai struktúrával írható le a legpontosabban. A tudásszervezési rendszerek alaphalmaza (D) azokat a szavakat, kifejezéseket (terminusokat) tartalmazza, amelyeket a dokumentumokhoz lehet rendelni. A tudásszervezési rendszerek különbségeit – első körben – az a tény határozza meg, hogy milyen – szintaktikai, szemantikai vagy más – relációkat (Ri) engedünk meg felvenni a rendszer elemei, illetve más adatok között.27

Itt most nem térünk ki a relációk jellemzésére, tipizálására, de jelezzük, hogy a MEO-projekt dokumentumai közül több is foglalkozik ezzel a kérdéssel (http://ontologia.hu/meo), illetve a nyelvészek között részben ezzel foglalkozik D. A. CRUISE, Lexical Semantics, Cambridge University Press, 1986 és J. LYONS, Semantics I–II, New York, Cambridge University Press, 1977. 27

40


Nem elég azonban csak a struktúrára figyelnünk, ha igazán meg akarjuk érteni a folkszonómiák jelenségét. Azt is fel kell vennünk a tudásszervezési rendszerek jellemzői közé, hogy van-e, s ha igen, milyen felügyelet, milyen kontroll van a metaadat-hozzárendelési munka folyamatában. Előbb persze meg kell mondanunk, miért is van szükség ennek figyelembe vételére. Nos, ha a tartalmi metaadatok dokumentumokhoz rendelésének az a fő funkciója, hogy egyértelműen jellemezni tudjuk velük a dokumentumok tartalmát, akkor az egyértelműséget (vagyis mindazoknak a többértelműségeknek az elkerülését, amelyeket a szabadszavas keresés gyöngeségei kapcsán felsoroltunk) biztosítanunk kell valahogy. A többértelműségek elkerülése pedig megfelelő szakértelmet, fegyelmezett munkarendet, szakmai kontrollt, kontrollált szótárakat, tudásszervezési rendszereket kíván. Ezt persze nem olyan könnyű formalizálni, hiszen olyan kérdésekre kell tudnunk válaszolni e szempont alapján, mint: Q1 =

támasztanak-e bármilyen szakmai feltételt, szaktudáselvárást a munkát végző személyekkel szemben?

Q2 =

van-e bármilyen munkaszervezési szabályrendszer, ellenőrzési mechanizmus a munka menetére vonatkozóan, azaz kik, milyen jogosultságokkal vehetnek részt a munka egyes részfolyamataiban?

Q3 =

kik rendelhetik a KOS-rendszer elemeit a dokumentumokhoz?

Q4 =

kik szerkeszthetik, módosíthatják, bővíthetik a tudásszervezési rendszer elemeit, relációit?

A tudásszervezési rendszerek építésének és alkalmazásának kontrolljára vonatkozó fenti Qi kérdésekre különböző válaszokat adhatunk, és ezt a feltételegyüttest, vagyis az Si társadalmi normák összefüggő rendszerét érdemes felvenni a tudásszervezési rendszerek jellemzői közé. A dolgokat kissé

41


leegyszerűsítve a következő tevékenységekre vonatkozó normákat kell rögzítenünk:28 S1 – kinek szabad új tárgyszót létrehozni a tudásszervezési rendszerben S2 – kinek szabad új relációt létrehozni a tudásszervezési rendszerben S3 – kinek szabad két tárgyszót relációba állítani a tudásszervezési rendszerben S4 – kinek szabad tárgyszót dokumentumhoz rendelni a katalógusban S5 – csak a tudásszervezési rendszer elemeit szabad-e a dokumentumokhoz rendelni

Az öt norma közül az első három a tudásszervezési rendszerek, az utolsó kettő a katalógusok építésével kapcsolatos. A számítógépek világában a fenti normák mind kezelhetők azáltal, hogy a digitálisan szabályozzuk, kinek van írási joga a tudásszervezési rendszer és/vagy a katalógus elemeire, illetve milyen adatokat lehet egymással összekapcsolni. Az írási, szerkesztési jogosultságokat is figyelembe véve már felírhatjuk a tudásszervezési rendszerek teljesebb formuláját: KOS = < D, R1, R2, …, Rn, S1, S2, S3, S4, S5 >, ahol D a tudásszervezési rendszer tárgyszavaiból álló tartóhalmaz Ri az elemeken (tárgyszavakon) értelmezhető reláció (i=1, …, n) Sj a tudásszervezési rendszer társadalmi környezetét adó szabályrendszer (j=1, …, 5)

A fent bemutatott összetevőkkel már adott az az általános keret, amelyre támaszkodva elég pontosan megragadhatjuk a történelmileg létező, szélesebb körben elterjedt tu28

A társadalmi normák formalizálásáról, típusairól lásd: SYI, 2007.

42


dásszervezési rendszerek legfontosabb jellemezőit. Minden tudásszervezési rendszerben van egy közös reláció, a lexikografikus rendezés, amely a tárgyszóhalmaz elemeinek ábécé szerinti sorba állítását végzi. A terminuslistáknak van a legegyszerűbb szerkezetük. Ilyenek a könyvek végén található indexek (név- és tárgymutatók), melyek a könyv legfontosabb kulcsszavait sorolják fel ábécé szerint, minden kulcsszóhoz hozzárendelve az oldalszámokat, ahol a kulcsszavak a szövegben előfordulnak, de ide tartoznak a különféle egységesített névlisták, sőt, a keresőmotorokban használt ’invertált index’ technológiája is. A terminuslista formulája a következő: KOSlist = < D, R1, R2, S1, S4, S5 >, ahol

R1 lexikografikus rendezési reláció R2 ekvivalenciareláció

A terminuslista esetében az S2 és az S3 szabály nem érvényesíthető, hiszen ebben a rendszerben új relációt nem lehet definiálni. Az ilyen rendszernek a lexikografikus rendezés mellett van még egy másik relációja: a lista elemeit az R2 ekvivalenciareláció kapcsolja össze. Egy földrajzi nevek egységesített besorolási rendszerét például az kapcsolja össze egyetlen egésszé, hogy minden tételéről azt állítjuk, hogy ekvivalensek egymással abban a tulajdonságukban, hogy valamennyien földrajzi entitások tulajdonnevei. Az ekvivalenciareláció fenntartásával azt kell „garantálnunk”, hogy a terminuslista elemei – az alkalmazott szempont szerint – azonos minőségűek lesznek (tehát nem keverednek különböző típusú elemek, mondjuk személynevek a földrajzi nevekkel). Más relációt nem lehet a terminuslista elemei közé felvenni. Attól függően, hogy milyen típusú terminusokról van is szó, változhat az a gyakorlat, hogy fenntartják-e a szavak, kifejezések bekerülését szabályozó S1 normát. Az igazán komolyan vett két előírás a katalógusépítésre vonatkozó, vagyis a tárgyszavak és a dokumentumok összekapcsolását szabályozó S4 és S5 norma.

43


A taxonómiák (más néven osztályozási vagy klasszifikációs rendszerek) már két fontos szemantikai relációt tartalmaznak (a lexikografikus rendezés – „kötelező” – szintaktikai relációján túl). Ez a tudásszervezési rendszer úgy van felépítve, hogy az elemei hierarchikus módon egymás alá vannak rendelve – valamilyen tartalmazási reláció alapján. Ezt az alárendelési relációt lehet tiszta és pongyola értelmezés mentén is használni (a tiszta értelmezés esetben az alárendelési reláció a generikus alárendeltje relációval egyezik meg, a pongyola megközelítés keverten alkalmazza a generikus és a partitív, esetleg még más egyéb hierarchikus relációt, például az előzménye viszonyt). A hierarchia leírásához azonban nem elégséges egyetlen relációt értelmeznünk a rendszeren, noha a közvélekedés gyakran megelégszik ezzel a megoldással. Arra is szükség van, hogy egy második relációval biztosítani lehessen azt, hogy az azonos felettes elem alá rendelt elemek különbözzenek egymástól, vagyis definiálni kell egy különbözőségi relációt.29 A taxonómiát így a következőképpen írhatjuk le: KOStax = < D, R1, R3, R4, S1, S3, S4, S5 >, ahol R1

lexikografikus rendezési reláció

R3

hierarchikus alárendeltje (tartalmazási) reláció

R4

különbözőségi reláció

Ebben a szisztémában az Si szabályok közül már négyet érvényesítenek, csak az S2 norma hiányzik, hiszen nincs mód a két szemantikai kapcsolaton túl más relációt alkal29 Lehetne még erősebb feltételt is előírni és a JEPD-elv teljesülését elvárni. Ez annyival több a közvetlenül függő elemek különbözőségének elvárásától, hogy azt is megköveteli, hogy az azonos szinten levő fogalmak „együttes terjedelme” megegyezzen a fölöttes elem terjedelmével. A JEPD-elv (jointly exhaustive and pairwise disjoint) magyar fordítása ’együttesen kimerítő és kölcsönösen kizáró’ lehetne. Bővebben lásd: Thomas BITTNER – Maureen DONNELLY – Barry SMITH, Individuals, universals, collections. On the foundational relations of ontology = Formal Ontology in Information Systems. Proceedings of the Third International Conference (FOIS 2004), ed. Achille C. VARZI, Laure VIEU, IOS Press, 2004, 37–48.

44


mazni a rendszerben, amiből következően nincs is szükség az új relációk felvételét szabályozó normára. A taxonómiák a könyvtári világ legelterjedtebb tudásszervezési rendszerei, az egész világon ezeket használják a könyvek tartalmának leírására (a Magyarországon használatos ETO-rendszer mintája és eredetije a Melville Louis Kossuth Dewey által kidolgozott Dewey Decimal Classification, DDC-rendszer). Népszerűsége az egyszerű kezelhetőségében rejlik. Ez az egyszerűség persze viszonylagos. A terminuslistákhoz képest ugyanis itt már szemantikai elvárásokat kell figyelembe vennünk, hiszen a hierarchikus alárendelési reláció alkalmazása (akármi legyen is az értelme egy konkrét taxonómia esetében) mindig szemantikai kényszerek betartásával kell, hogy együtt járjon. Ezért van az, hogy ezen rendszerek használata esetében már megkövetelik valamilyen szaktudás létezését és a munkafolyamat menetét is szabályozzák. Utóbbi mozzanat több részre osztható. A taxonómia elemeinek halmazát felfoghatjuk olyan kontrollált szótárként is, amelynek elemeit nem tetszőleges módon, hanem csak adott szabályokhoz igazodva, tehát csak kontrollált módon lehet bővíteni. Ez egyfelől korlátot jelent a tárgyszóhozzárendelési munka során, mert előírásokhoz igazodó, tehát fegyelmezett munkavégzést követel meg az erre a feladatra előzetesen felkészített, képzett archivátoroktól, másrészt az ilyen rendszernek szüksége van egy olyan folyamatra, amely során a folyamatos változtatási igényeket ki lehet elégíteni, vagyis bővíteni, módosítani kell a rendszer valamely részét. Ez azt is jelenti, hogy szükség van taxonómia-építő szaktudásra a rendszer fenntarthatósága végett. Ezek a feltételek, pontosabban az ezek teljesülésére vonatkozó kérdés azonban felvet két újabb, nagyon fontos tudásszociológiai, tudományfilozófiai kérdést: Q5 =

mennyire egységesen értelmezi az osztályozó közösség a taxonómia elemeit?

Q6 =

lehet egyetlen egységes rendszerbe rendezni valamely dokumentumgyűjteményt jellemző tudásterület fogalomkészletét?

45


A kérdésekre adott válasz szétfeszítené jelen tanulmányunk kereteit, úgyhogy a részletes kifejtéstől itt eltekintünk, azonban egyetlen észrevétel felidézésével jeleznénk, hogy milyen irányban lehetne továbbszőni gondolatmenetünket e témában. Clay Shirky az ontológiák túlértékelt szerepéről írt cikkében tanulságos kritikát fogalmaz meg a DDC-vel szemben.30 Miután megkérdezi, vajon miért van az, hogy a DDC-ben ugyanolyan fontosságot tulajdonítanak (azáltal, hogy azonos hierarchikus szintre helyezik őket) Ázsiának, Afrikának és a Balkán-félszigetnek, megadja a választ is: azért, mert nagyjából azonos számban adtak ki könyvet Amerikában a három földrajzi régióról, tehát a könyvtári polcokon elfoglalt helyigényük alapján tekinthetők ezek egyenrangú kategóriáknak. Akármennyire is jogos és elfogadható szempont ez a könyvtári világ számára, annyi azért kijelenthető, hogy a szempont elfogult. Ami után feltehető a kérdés, vajon lehet-e elfogultság nélkül tudásszervezési rendszert építeni, s a vélhető válasz az, hogy nem nagyon. Minden tudásszervezési rendszernek létjogosultsága lehet adott tudásterületen, az arra jellemző elfogultságokat figyelembe véve, de bajos olyan rendszert építeni és feltételezni, amely univerzális igénnyel léphetne fel, vagyis azzal a céllal, hogy minden tudásterületen, minden alkalmazási célra egyaránt felhasználható legyen. Mindez persze általánosítható, és nem csak a taxonómiákra, de a tezauruszokra is igaz. De lépjünk tovább, s nézzük meg, hogyan is tudjuk formalizálni az utóbbit. Peter Mark Roget tezaurusza ugyanúgy a könyvtári világhoz tartozik, mint a taxonómia, a két rendszer nagyjából azonos időben jelent meg. Lényege az, hogy több és pontosabban rögzített relációt enged/követel meg a terminusok között. Kétféle – gyenge és erős – értelemben is lehet használni, mi itt az erős értelmezést mutatjuk be. A taxonómiák hierarchikus alárendelési relációjának értelmezésekor általában megengedik azt, hogy az szemantikailag kevert legyen. Az ETO-ban például a hierarchikus Clay SHIRKY, Ontology is Overrated. Categories, Links, and Tags, 2005. (shirky.com/writings/ontology_overrated.html) 30

46


viszonyon legtöbbször olyan alárendelést értenek, amely a faja/neme viszonyt fejezi ki két elem között, ám olykor előfordul, hogy arra a fajta alárendelésre „használják”, amellyel az elemek közti rész-egész relációt ragadják meg – mondjuk az országoknak a kontinensek alá történő besorolásakor. A hierarchikus alárendeltje relációnak ezt a szemantikai többértelműségét igyekeznek kizárni a tezauruszok azáltal, hogy elkülönítenek szintaktikailag egyféle, de szemantikailag különböző hierarchikus relációkat egymástól. Anélkül, hogy itt pontosan definiálnánk, a tezauruszok relációit csak felsorolásszerűen mutatjuk be. A tezaurusz rendszerét az alábbi összetevőkre bonthatjuk: KOStez = < D, R1, R5, R6, R7, R8, R9, S1, S2, S3, S4, S5 >, ahol R1

lexikografikus rendezési reláció

R5

generikus alá- és fölérendeltje relációpár

R6

partitív alá- és fölérendeltje relációpár

R7

következménye-előzménye relációpár

R8

rokona (egyéb) reláció

R9

lásd/helyette szinonimareláció-pár

A tezaurusz esetében az Si szabályok mindegyikét be kell tartani (az S2-es szabályt nem mindig, sőt gyakrabban nem érvényesítik, vagyis nem engedik, hogy új relációt lehessen felvenni a rendszerbe, de a formális modellben azért kell felvennünk ezt a szabályt, mert előfordulhatnak olyan tezauruszok is, amelyekben a szabványokban rögzített relációkhoz képest további relációt is definiálnak). Vannak azonban a formulában jelzett relációk, relációpárok, amelyek más minőséget adnak a tezauruszoknak. Mivel a tezaurusz több, pontosan definiált relációt tartalmaz a taxonómiához képest, ezért összetettebb struktúrát képezhetünk le vele, és a gazdagabb szemantika, a nagyobb kifejezőerő miatt sokkal pontosabban, rugalmasabban és megbízhatóbban lehet vele a dokumentumok tartalmát leírni. Ez az előny a kezdetektől predesztinálta arra a szerepre, hogy a tezaurusz váljék a könyvtári, archívumi világ 47


legelterjedtebb tudásszervezési rendszerévé, ez azonban nem valósult meg. A tezaurusznak ugyanis az osztályozási rendszerekkel kellett viaskodnia, de a taxonómia-tezaurusz csatát már szinte az első pillanatban az előbbi nyerte meg. A csata kimenetelét a könnyebb kezelhetőség döntötte el a javára. Mindez persze felveti azt, hogy egy alaposabb tárgyalás során figyelnünk kellene arra a szempontra is, hogy milyen kötelezettségei vannak a katalogizálást, metaadat-hozzárendelést végző embernek. Ha a taxonómiák építéséhez kontrollált szótárra, kompetencia-feltételek fenntartására, fegyelemre, a munkafolyamatok ellenőrzésére van szükség, akkor ez még inkább így van a tezauruszok esetében, hiszen ott jóval bonyolultabb struktúrát kell fenntartani, több szempontra kell figyelni, nagyobb szaktudásigényt kell elvárni a rendszert építőktől. Két – együttesen nehezen vagy egyáltalán nem teljesíthető – elvárás áll itt szemben egymással. Minél inkább szakterületi kérdésről van szó, annál megbízhatóbbnak lehet tartani a szaktezauruszok (szaktaxonómiák) használatát az adott tudásterület leírásában, azonban annál inkább szükség van szakképzett, fegyelmezett és ezért drága munkaerő alkalmazására. Ha pedig valami sokba kerül, akkor mindig felmerül a kérdés, hogy ki fogja megfizetni hosszútávon azt. A kontrollált rendszerek hanyatlásának magyarázatában ez a döntő mozzanat: egyre inkább az látszik, hogy a web kontextusában egyre kevésbé hajlandóak pénzt áldozni erre. Annál is inkább nehéz megfizettetni a kontroll árát, mert az utóbbi években megjelent új jelenség alternatív megoldás lehetőségét sejteti sokak számára. A folkszonómiák jelensége és fogalma a web2-es szolgáltatásokkal együtt jelent meg. Maga a terminus Thomas Vander Wal egyik blogbejegyzésében bukkant fel először,31 de érdemes tudni azt a tényt, hogy az etnoklasszifikáció kifejezéssel Susan Leigh Star már 1996-ban nagyon hasonló értelThomas VANDER WAL, Off the Top, 2004. (http://www.vanderwal. net/random/category.php?cat=153) 31

48


mű fogalmat hozott létre.32 Meg kell még itt említenünk, hogy ezeket a rendszereket gyakran címkézési rendszerekként (tagging system), olykor közösségi címkézési rendszerként is emlegetik, magát a metaadat-kezelési tevékenységet pedig címkézésnek hívják. A folkszonómiák – a web2-es paradigmának megfelelően – a metaadat-hozzárendelési tevékenységet teljes mértékben saját felhasználóikra bízzák. Ezt természetesen csak akkor tehetik meg, ha nem várnak el semmilyen fegyelmet (és semmilyen speciális szaktudást) azoktól, akik a metaadatokat a dokumentumokhoz rendelik (azaz a felhasználói közösségük tagjaitól).33 Ebből következően viszont a folkszonómiákat az eddigiekhez képest nagyon másként kell leírnunk: KOSfolk = < D, TD, R1, R10, R11, R12, S4 >, ahol TD a D tartóhalmaz elemeire vonatkozó forgalmi adatok R1 lexikografikus rendezési reláció, R10 ekvivalenciareláció R11 címkegyakorisági reláció R12 címke-együttjárási reláció

A folkszonómiák megjelenésével az a legfontosabb változás, hogy az Si munkaszervezési szabályok közül csak egyet vesznek figyelembe (S4-et). Azt sem mindig, sőt, talán még az is megkockáztatható, hogy nagyobb azoknak a folkszonómiáknak a száma, amelyek még ettől a szabálytól is eltekintenek (amikor figyelembe veszik az S4-es szabályt, az akkor is „csak” annyit jelent, hogy a felhasználók kizárólag a saját maguk által feltöltött dokumentumokat címkézhetik, másokét nem).

Susan Leigh STAR, Slouching toward Infrastructure, 1996. (http://is.gseis. ucla.edu/research/dl/star.html) 33 Nem is tehetnek mást. Ha a felhasználóktól bármit követelni akarnának, vélhetőleg mennének tovább olyan helyekre, ahol szabadon „mozoghatnak”. 32

49


Ebből a „kötetlenségből” sok minden következik. Ha nem követelünk meg semmilyen rendszerépítési szabályt, akkor egyrészt nem biztosíthatjuk a terminusok egyértelműségét a rendszeren belül (vagy másként mondva: nem lesz kontrollált szótárunk), másrészt szükségszerűen elveszítünk minden relációt a rendszerből, hiszen a szabad terminusfelvétel lehetősége mellett a címkézést végző személyektől nem követelhetjük meg azt, hogy az új címkéket hozzárendeljék a rendszerben már létező elemekhez. Ekkor viszont nem tudunk komolyabb struktúrát értelmezni a címkehalmazon, ami miatt nem számíthatunk a struktúra meglétéből fakadó – navigációs és következtetési lehetőségeket biztosító – előnyökre sem. Fontos újdonságként minősíthetjük viszont a folkszonómiákkal megjelenő új – se nem szintaktikai, se nem szemantikai, sőt, nem is nyelvi, hanem forgalmi – relációkat (R10 és R11).34 Az R10 reláció egy olyan, a címkékhez rendelt gyakorisági viszony, amely azt mutatja, hogy a felhasználók milyen gyakran használják az adott címkét a dokumentumok leírására. Azért van ennek a relációnak kiemelt jelentősége, mert ezáltal újfajta relevanciakezelési lehetőséget lehet biztosítani a folkszonómiák számára. A címkegyakoriság ugyanis megmutatja az adott címkének a felhasználói közösségen belüli „népszerűségét”, fontosságát, és ennek az értéknek a figyelembe vétele már elég jó alapot nyújt a relevanciakezeléséhez.35 Másfajta segítséget képes nyújtani az R11 reláció, amely azt mutatja, hogy a többi felhasználó korábban milyen más címkéket rendelt a dokumentumokhoz az éppen használatban levő címkével együtt. A címkéknek ezt a fajta együtt járását megmutatva a felhasználókat segíteni, orientálni lehet a megfelelő címkék megtalálásában. Ez a két reláció tehát „kimutat” a tudásszervezési rendszerből, hiszen ezek nem a tartóhalmaz elemei között vannak értelmezve, hanem a tárgyszavak és a rájuk vonatkozó forgalmi adatok között. 35 A relevanciaképzésnek vannak más útjai is a közösségi szolgáltatások világában, bár sokuk már nem a folkszonómiákkal kapcsolatos felhasználói aktivitásra támaszkodik (például a szavazások, különféle rangsorok ilyenek, amelyek sokszor nagyon hasznosnak bizonyulnak). 34

50


A leggyakrabban használt címkék megjelenítését címkefelhőnek nevezik, amelyet úgy mutatnak be, hogy a címkék betűméretével vagy egy számértékkel jelzik a címkék népszerűségét, azok gyakorisági értékeit (lásd 2. ábra).

2. ábra: a Flickr címkefelhője, 2007.05.10.

Ha figyelmesen megnézzük a fenti ábrát, a folkszonómiák több komoly problémáját észrevehetjük rajta. A kontroll hiánya többféleképpen tetten érhető. Több olyan címkepár van, amely ugyanazon fogalom egyes- és többes számú alakjára vonatkozik (’cat’ és ’cats’, ’flower’ és ’flowers’, ’tree’ és ’trees’), amelyeket a kontrollált szótárakkal ki lehet szűrni. Mivel ezek a rendszerek a címkéket automatikusan detektálják (és szóközök közti karaktersorozatot tekintenek egy címkének), a több szavas kifejezéseket „feldarabolják”, amit az emberi feldolgozás nyilván nem tenne meg. Példa lehet erre a ’New York’ vagy a ’black & white’ tárgyszavak (amelyek ebben a formájukban nem is szerepelnek a rendszerben, hiszen több szóból álló „kifejezések”), amelynek tagjai (a ’new’ és a ’york’, illetve ’black’ és ’white’) szerepelnek külön is, de egybeírva is (’newyork’ és ’newyorkcity’, illetve ’blackandwhite’ és ’bw’). Még a ’New York’ példánál maradva az is látszik, hogy a folkszonómiák nem kezelik a szinonimitást sem, hiszen a ’newyorkcity’ és ’nyc’ címkék nyilván ugyanarra a fogalomra mutatnak, mégis külön szerepelnek a rendszerben. A címkefelhőből magából még nem látszik, de rövid idejű használat során könnyen felderíthető, 51


hogy a folkszonómiák nem kezelik a szemantikai többértelműség többi fajtáját sem (homonima, poliszéma stb.).36 A felhasználói címkézést más szempontból is kritizálni szokták. Konkrét példaként hivatkozhatunk a fenti címkefelhő ’me’ címkéjére, amely a közösség számára nyilván kezelhetetlen kategória (ehhez hasonlóak még a ’toread’, vagy ’todo’ címkék). A címkék egy jelentős része személyes használatra való, de a közösség egésze számára értéktelen, használhatatlan. Az is gyakori jelenség a folkszonómiák gyakorlatában, hogy egyes felhasználók a többiek számára meglepő, gyakran érthetetlen címkéket aggatnak bizonyos dokumentumokra (például egy macskát, kutyát mutató videót a ’bb’ címkével ír le valaki), vagy nem kevés esetben a felhasználók hibás alakban adják meg a címkéiket (’cat’ helyett ’cad’ címkét rendelik a „macskás” dokumentumhoz). Akármennyi hibát (mégpedig rendszerhibát) találunk is a folkszonómiák világában, mégis működőképesnek tűnik az egész. A nagy létszámú közösség tagjainak apró munkája „szervesül”, a sokaság eltűnteti az egyének egyedi „hibáit”. Erre utal az a megfigyelés, amely szerint a címkék relatív gyakorisága igen hamar beáll egy állandó értékre, vagyis a dokumentumokhoz rendelt címkék megoszlása stabilizálódik.37 Ez annyit tesz, hogy a közösség egésze végül is konszenzusosnak mondható címkekészletet képes a dokumentumokhoz rendelni. A szubjektív címkék azért nem okoznak igazán problémát, mert azok szerint úgysem akarnak keresni a felhasználók, így nem is zavarja őket az ilyen címkék jelenléte. Hasonlóképpen, a hibás alakok vagy az érthetetlen, egyéni címkék is „lesüllyednek a címketenger mélyére”, és nem igazán látszanak (tehát nem is zavarnak) a sokak által használt címkékhez képest. A szemantikus vakság problémája sem jelent akkora gondot a folkszonómiák esetében, mivel ha a keresési oldalon nem kapunk egyértelmű minősítést, megkülönböztetést a A YouTube-on például a ’cat’ címkére keresve sok „macskás” videót kapunk, de előfordulnak ’Cat’ nevű személyekhez kapcsolt anyagok is. 37 Scott A. GOLDER, Bernardo A. HUBERMAN, Usage Patterns of Collaborative Tagging Systems, Journal of Information Science, 2006, 32 (2), 198–208. 36

52


keresőfeltételek megfogalmazásakor (márpedig nem kapunk, hiszen a felhasználók nem adják meg az egyértelműsítéshez szükséges többletinformációt, amikor például beírják a ’cica’ keresőfeltételt), akkor a keresések feldolgozása során sem tudjuk igazán feloldani a nyelvi többértelműségeket. A folkszonómiák terjedésének, dominánssá válásának legfőbb okát abban látjuk, hogy a metaadat-hozzárendelés nehéz, fáradságos emberi munkáját sokak számára lehetővé téve, nagyszámú „szabad” és – ami a legfontosabb – „ingyen munkát” várhatunk a felhasználók önkéntes seregétől. Ahhoz, hogy ez működjön, nem lehet semmilyen megkötést előírni a címkézési munkát végzők számára, tehát fel kell adni az előzetes szakképzésre, szakértelemre vonatkozó elvárást, a kontrollált szótárak fenntartásának igényét és a munka ellenőrzésének lehetőségét. Itt állunk tehát a kontroll elve alapján működő, a minőség ígéretét adó rendszerek folyamatos (és szerintünk megállíthatatlan) süllyedésénél az egyik oldalon, illetve az emergens fokszonomikus rendszerek felemelkedésénél a másik oldalon, és legalább hipotéziseket kéne tudnunk megfogalmazni arra, hogy mit várhatunk a jövőtől. A folkszonomikus rendszerek terjedésével ugyanis egyre nagyobb szemantikai rés keletkezik, amelyet valahogy át kellene hidalni szemantikai tudás alkalmazásával. A kérdés az, hogy milyen módon lehet a hiányzó tudást a rendszerbe betáplálni. Nem érdemes reménykedni abban, hogy az archivátori, könyvtárosi kompetencia és tudás hiányát a világ egyszer csak felismeri, és „visszahívja, rehabilitálja” őket. Más úton lehetne hasznosítani ezt az évszázados örökséget. A weben keresztül elérhető dokumentumok egyre növekvő számával már a folkszonómiák sem bírják a versenyt. Ami lehetőség egyáltalán megmarad a szemantikai rés nagyságának csökkentésére, az a számítógép alkalmazása erre a célra. Megítélésünk szerint reális (bár a távoli jövőre vonatkozó) remény, hogy a számítógépeket megtanítva a szövegértésre, velük végeztetjük el a szövegek automatikus feltárását. Vagyis arra kell várnunk, hogy a szemantikus web kezdeményezés betöltse küldetését. Ehhez azonban biztosan

53


nem a mérnökökön, pontosabban nem csak a mérnökökön keresztül vezet az út. Nem egy giga tudástárat, nem egyetlen hatalmas ontológiát, hanem rengeteg, kontextusérzékeny tudástárat, szakontológiát kell felépítenünk, amelyek egyik kiemelt használati célja az lehet, hogy velük tanítani lehet a gépeket az automatikus szemantikai feltárás munkájának végzésére. Ez pedig nem fog menni szakemberek, szaktudás és fegyelem, könyvtárosok, archivátorok nélkül.

HIVATKOZÁSOK 1.

Tim BERNERS-LEE – James HENDLER – Ora LASSILA, The Semantic Web, Scientific American, May 2001.

2.

Thomas BITTNER – Maureen DONNELLY – Barry SMITH, Individuals, universals, collections. On the foundational relations of ontology = Formal Ontology in Information Systems. Proceedings of the Third International Conference (FOIS 2004), ed. Achille C. VARZI, Laure VIEU, IOS Press, 2004, 37–48.

3.

D. A. CRUISE, Lexical Semantics, Cambridge University Press, 1986.

4.

Scott A. GOLDER – Bernardo A. HUBERMAN, Usage Patterns of Collaborative Tagging Systems, Journal of Information Science, 2006, 32 (2), 198–208.

5.

J. LYONS, Semantics I–II, New York, Cambridge University Press, 1977.

6.

Tim O’REILLY, What is Web 2.0. Design Patterns and Business Models for the Next Generation of Software (http://www.oreillynet. com/pub/a/oreilly/tim/news/2005/09/30/what-is-web20.html)

7.

Clay SHIRKY, Ontology is Overrated. Categories, Links, and Tags, 2005. (shirky.com/writings/ontology_overrated.html)

8.

Susan Leigh STAR, Slouching toward Infrastructure, 1996. (http://is.gseis.ucla.edu/research/dl/star.html)

54


9.

SYI (SZAKADÁT István), Egyben az egész. Egytől egyig, Bp., Typotex, 2007.

10. Thomas VANDER WAL, Off the Top, 2004. (http://www. vanderwal.net/random/category.php?cat=153)

55

D

U D Á S

A

N I K Ó

TULAJDONNÉVTEREK: K Ö N Y V T Á R I É S F I L O L Ó G I A I Ü T K Ö Z É S E K

∗

„A Ploutarhos verzió, bárhonnan is van, rossz. A görög KHI betűt soha nem láttam H-nak átírni (más a hangértéke), inkább írják át CH-nak vagy KH-nak. Nekem az utóbbi kettő közül mindegy, melyiket választja, de a legelső variáns elég rosszul hangzik.” (Egy klasszika-filológus e-leveléből, 2004.)

A klasszika-filológus heves reakcióját Plutarkhosz nevének furcsa alakja, a Ploutarhos írásmód váltotta ki egy bibliográfiai jegyzék láttán. A jegyzékben az ókori auktor neve a szokásos szerző: cím bibliográfiai formula rendje szerint szerepelt elöl, és szokás szerint következett utána a könyv címe, ezúttal egy Plutarkhosz-értekezés magyar nyelvű szövegkiadását jelölve: Ploutarhos: Az erkölcsi erény.

A Ploutarhos verzió a Nemzetközi Szabványügyi Szervezet (ISO) 1968-ban kiadott görög transzliterációs szabványa szerinti átírás követésével keletkezett, a szóban forgó jegyzék ugyanis a könyvtári gyakorlatot meghatározó nem-

∗

Tóth Tündének köszönöm a címhez adott ötletét.

57

DUDÁS ANIKÓ: TULAJDONNÉVTEREK

zetközi bibliográfiai leírási szabvány szerint készült.38 Πλούταρχος görögről latin betűkre való átírása az ISO szabvány 1997-ben kiadott újabb változata szerint már más névalakot, a Ploutarchos formát eredményezi,39 és a magyar katalogizálási előírások szerint ez a névalak lesz a katalógusokban az egyik legfontosabb rendezőelem, az ún. egységesített besorolási adat. A bibliográfiák és más referensz források rendezőelemét képező két legelemibb tulajdonnév a személyek és a művek „neve”, vagyis a művek címe. Hamar kitűnik, már ha csak e két névféleségre korlátozzuk is figyelmünket, hogy jeA dokumentumok leírásának (reprezentációjának) nemzetközi előírásait az 1970-es években dolgozták ki a nemzetközi szakmai szervezetek. Az ISBD (International Standard Bibliographic Description) szabványsorozataira alapozódnak a magyar katalogizálási szabványok (MSZ 3424 szabványcsalád), illetve a könyvtári szabályzatok (KSZ). A nemzetközileg egységes leírás a dokumentumok leíró adatelemeit kötött sorrendben, egyezményes jelrendszerrel közli. Az egyezményes jelrendszer, az adatok sorrendjének és jelölésmódjának ismeretében a bibliográfiai leírás így nyelvtől függetlenül is értelmezhető adatsorrá válik, a leírások elsődleges funkciója pedig az, hogy a kiadvány a leírás alapján azonosíthatóvá váljon. A könyvtári tájékoztató rendszerekben ezenkívül nagy fontosságot kapnak a dokumentumokról szóló információk összegyűjtését és visszakeresését célzó ún. egységesített besorolási adatok és kezelésük módja. A szerzők műveinek és a művek kiadásainak összegyűjtését végzik a személyek, testületek, művek egységesített névalakjai. Az egységesített névalak kiválasztását, a névszerkezet formáját és a katalógusba sorolásukat előíró szabványsorozat Magyarországon 1979 és 1986 között került kiadásra, ezek a következők: MSZ 3440/1–5 szabványcsalád az egységesített besorolási adatok közlésmódjáról, MSZ 3423/1–3 alkalmazási szabványok a bibliográfiai tételek besorolási adatainak megválasztására, MSZ 3493 a leíró katalógusok szerkesztésére, MSZ 3401a bibliográfiai tételek betűrendbe sorolására. 39 1997-ig volt érvényben az ISO/R 843:1968, International System for the Transliteration of Greek Characters into Latin Characters szabvány. Számos könyvtár vagy egyáltalán nem is használta (használja) a nem latin írások latinra való konverzióinak nemzetközi átírási tábláit vagy még nem állt át a jelenleg érvényben lévő újabb honosított ISO 843:1997, Information and Documentation. Conversion of Greek Characters into Latin Characters, 1st ed., Geneve, ISO, 1997 szabvány alkalmazására. Lásd hozzá: DUDÁS Anikó, Nevek, antik nevek – autorizálás: egy magyarországi felmérés eredményei, Tudományos és Műszaki Tájékoztatás, 52 (2005/9), 411–424. 38

58


lölésmód vonatkozásában a könyvtári és filológiai szemléletek különböznek, eltérések bőven akadnak a két területen belül is, az eltérő célok, konvenciók ütközésekhez, más-más névírási gyakorlathoz vezetnek. A tulajdonnevek kulcsfontosságú szerepet töltenek be az információszervezésben, legyen szó egyetlen hosszabb-rövidebb hagyományos bibliográfiai listáról, homogén adattárról vagy több adatbázist egyesítő, illetve körkereséssel lekérdezhető integrált rendszerről. Milliós nagyságrendű az a névállomány, amely a különféle dokumentációs adatbázisokban többé-kevésbé strukturált formában már benne van. Mindez azért érdemel figyelmet, mert amikor felmerül a már meglévő névkincs kölcsönös felhasználhatóságának, „újrahasznosításának” gondolata, a mai technológiai eszközök pedig lehetővé is teszik az adattárak egyesítését, közös építését és közös felhasználását, e törekvések közben számos nehézséggel kell számolnunk. E nehézségeket az ortográfia, a funkcionalitás és az integráció szempontjából kísérelem meg felvázolni.

ORTOGRÁFIA A nemzetközi szabványajánlások eredményeként az újkori és modern neveknél többnyire egységes, ám nem teljesen problémamentes névkezelést látunk a különféle országok katalógusaiban. Problémát okozhatnak a felvett, az összetett nevek, a megkülönböztető betűk, az álnevek, az azonos nevűek, a több nevű személyek. Mindemellett a történeti korszakokhoz kapcsolódó névanyag rendkívül változatos formában jelenik meg mind a dokumentációs rendszerekben, mind a filológiai produktumokban. A névhasználat és a nevek írásmódja is korszaktól, az egyes nemzetek gyakorlatától, a közismerettől vagy más konvenciók érvényre jutásától függően is váltakozik. A könyvtári névírást az erős szabályozottság jellemzi. Magyar könyvtári szabványok a személynevek, a művek címe, a testületek és a földrajzi nevek besorolási adataira vo-

59


natkozóan kerültek kiadásra,40 ezek a szabványok részletes utasításokat tartalmaznak az egységesített névformák írásmódjára, alakjára, szerkezetére vonatkozóan. A bibliográfiai leírás személynevek besorolási adatait részletező szabvány (MSZ 3440/2 ) személynév-tipológiája: •

Modern nevek

•

Történelmi nevek

•

Uralkodók, uralkodóházak tagjainak neve

•

Vallási nevek

•

Írói nevek, művésznevek és álnevek

•

Pótnevek (névhelyettesítő megjelölések).

A szabvány egyes névtípusok elemeit aprólékosan megkülönbözteti (családnév, egyéni név, patronima, névelőzék, összetett családnév stb.), olyan szempontból is, hogy mi minősül rendszónak, azaz elsődleges besorolási elemnek, és mi minősül „egyéb névelemnek”, azaz mi a rendszónak nem minősülő elem. Elkülöníti a szabvány a különféle „kiegészítő” (például a kronológiai kiegészítő adatokat) és az egységesített névhez nem tartozó különféle elemeket is, mint a megszólító, kitüntető és tudományos fokozatot jelölő címeket, a nemesi neveket és címeket, foglalkozásra, méltóságra vonatkozó kifejezéseket, a származási vagy működési helyre utaló kifejezéseket – a kivételek hosszú sora általában a történelmi nevekhez tapad.

Az MSZ 3440 A bibliográfiai leírás besorolási adatai szabványcsaládban ezek a következők: MSZ 3440–2:1979, Személyek nevei; MSZ 3440–3:1983, Testületek neve; MSZ 3440–4:1986, Címek; MSZ 3440–5:1979, Földrajzi nevek valamint KSZ/5:2005, Földrajzi nevek, mint adatbázisrekordok tárgyi hozzáférési pontjai. 40

60


Az erős szabályozottság ellenére a katalógusokban nem egységes az „egységesített besorolási adatok”41 formája. A nem latin írásrendszerek latinra történő átírása a könyvtári rendszerekben áthidalja az írásrendszerek ütközésének problémáját: a különböző írásrendszerrel megjelent művek tételei ezzel az eljárással „egybeoszthatók” a latin írásrendszer szerint felállított katalógus többi tételével. Azonban az átírásoknak is vannak változataik. Arisztotelész a régebbi nemzetközi átírás szerint Aristotelēs (ISO: 1968), az újabb szerint Aristotelīs (ISO:1997) lesz. Plutarkhosz esetében az újabb átírási szabványnak megfelelő Ploutarchos forma már közelebb áll a filológiai konvenciókhoz – legalábbis a khí>>ch megfeleltetést tekintve –, ám a filológiai hagyományokkal ekkor még mindig ütközik az omikronüpszilon betűcsoport -ou-ra történő átírása.42 Az eredeti írások megjelenítésének lehetősége a digitális eszközökben immár visszatéríti a cédulás formájukban a legtöbb helyen már felszámolt, a kiadványok eredeti írásrendszere szerint különállóan épített katalógusokat, amelyekben a szerző nevét származásának megfelelő nyelven és írással, valamint a művek címét is a textus kiadása szerinti nyelven és írással adták meg. A szakterminusban nyilvánvaló ellentmondás feszül. A már említett Földrajzi nevek, mint adatbázisrekordok tárgyi hozzáférési pontjai könyvtári és szakirodalmi tájékoztatási szabályzatban megjelenik a terminus módosítása: a dokumentumban a „kitüntetett hozzáférési pont” és „kitüntetett névforma” kifejezések szerepelnek. 42 A magyar helyesírás szabályai, 11. kiad. 218–221. pontjai a közgyakorlatra hivatkozva egyaránt teret engednek a fonetikus átírásnak, az ismeretterjesztő és a tudományos használatban elterjedt változatoknak, valamint más, szakmai körökben használatos átírás-variációknak is, külön megemlítve azt, hogy „a könyvtárügy és a szakirodalmi tájékoztatás (dokumentáció) a mindenkor érvényes szabványokat követi” (221.). A szabályzat a görög átírással kapcsolatosan csak az újgörög átírásra vonatkozó akadémiai kiadványt említi mérvadónak (A cirill betűs szláv nyelvek neveinek magyar helyesírása, Az újgörög nevek magyar helyesírása, főszerk. HADROVICS László, szerk. ZOLTÁN András, Bp., Akadémiai Kiadó, 1985.), a kiadói és oktatási gyakorlatban az ógörög átírása viszont nem egyezik meg az újgörög átírással. A magyar ortográfiában az ógörög átírás alapjául az Ógörög–magyar szótár, szerk. GYÖRKÖSY Alajos, KAPITÁNFFY István, TEGYEY Imre, Bp., Akadémiai Kiadó, 19932, 8–9. oldalán található kétféle tabella szolgál. 41

61


A filológia körében nem ismertek és nem is használatosak a könyvtári gyakorlatban alkalmazott szabványok. Nem alkalmazzák például a nem latin betűs nevek átírására a betűhív átírás elveit, így a reverzibilis betű-betű megfeleltetés elvét követő transzliterációs szabályzatokat sem ismerik. A szövegkiadásokban, tudományos közleményekben a fonetikus átírás (transzkripció, Plutarkhosz), a hagyományos latin névjelölés (Plutarchus) vagy az aktuális szöveg nyelve, illetve az olvasóközönség által ismert közkeletű névforma használatos (mint például a Plutarch az angol és a német nyelvben). Plutarkhosz esete már önmagában is jól szemlélteti a könyvtári tájékoztatási célú névírás és a filológiai nézőpontok ütközését: a könyvtári tájékoztatás a nyelvi, nemzeti miliőket átívelő nemzetközi konszenzusra – egyféle nyelvek fölöttiségre, transzlingvális megoldásokra – törekszik, emellett igyekszik számba venni a névváltozatok sokaságát úgy, hogy azokat összegyűjti a katalógusrendszerek névrekordjaiba és hozzákapcsolja az információszervező funkciókkal felruházott adatelemekhez. A filológia ezzel szemben mindig egy adott nyelvhez, szöveghez és szövegkörnyezethez kötődik, lételeme a textualitás, és feltétlenül igazodik a megcélzott felhasználói kör kompetenciáihoz. A könyvtári szabvány keretrendszerének alkalmazása strukturált adatelemekből építkező névállomány létrejöttét eredményezi, amelyben a névelemek, névtartozékok és kiegészítő adatok az adott névtípustól függően egységes szerkezetben szerepelnek.43 A szerkesztett névforma olykor jelentősen eltávolodik a természetesnyelvi előfordulásoktól, mármár kód jelleget ölt, és beépül az információkereső nyelv szókincsébe. A név efféle mesterséges szerkesztettsége a legszembetűnőbben talán az uralkodók kreációs névformáján keresztül szemléltethető. Egy ragadványnevén ismert magyar király, Könyves Kálmán esetében ez így alakul: Mely elemek tartoznak szorosan a tulajdonnévhez, és melyek nem – segít a kérdést eldönteni Deme László tanulmánya: DEME László, Névterjedelem és névtartozékok = Névtudomány és művelődéstörténet, szerk. BALOGH Lajos, ÖRDÖG Ferenc, Zalaegerszeg, Zalaegerszeg Város Tanácsa, 1989, 282–286. 43

62


Kálmán (Magyarország: király) I., Könyves

A HUNMARC könyvtári számítógépes csereformátum struktúrájában: 100 00$aKálmán$cMagyarország: király$bI.$gKönyves44

1. ábra: Janus Pannonius névrekordja a Francia Nemzeti Névadattörzsből (autorizálási fájlból)

Egy másik probléma: Janus Pannonius – tudjuk: felvett humanista név. Ez a névalak a magyar közismerettel megegyező, megszokott forma. Furcsállnánk is, ha manapság Csezmiczei János állna egy szócikk élén. A szomszédos Horvátországban viszont Ivan Česmički az előszeretettel használt KSZ/4.1. HUNMARC. A bibliográfiai rekordok adatcsere formátuma, közread. a Könyvtári és Szakirodalmi Tájékoztatási Szabványosítási Bizottság, kiad. az Országos Széchényi Könyvtár, Bp., OSZK, 2003. Jóváhagyás: 2002. március

44

63


névalak a Janus Pannonius-kiadványokon, és ugyanez szerepel fő rendezőelemként a horvát nemzeti katalógusban is,45 emlékeztetve bennünket arra a körülményre, hogy Cesinge Jánost egyidejűleg tekinthetjük hungaricumnak, italicumnak és croaticumnak, és arra is, hogy a régi korok auktorai mint válhatnak a különféle jelenkori kulturális identitások reprezentációivá.46 Könnyű belátni: a legkirívóbb ehhez fűződő probléma az, hogy a szabványos névalakok nem mindig egyeznek meg a keresőrendszert használók kulturális, konvencionális és egyéni mentális ismereteivel. A könyvtári „helyes” forma az, amely megfelel a szabványelőírásnak, de ha valamelyik rendszerben nem a szabványos formát használják, hanem valamilyen más konvenciót érvényesítenek, akkor ott a „helyes” forma az, amelyik az előző előfordulással megegyezik, ha pedig új elem felvételéről van szó, akkor azt az illető hagyomány vagy megegyezés irányelvei szerint szerkesztik meg. A felhasználó előtt a „helyes” forma az a forma, amelyet ő ismer és használ, a filológus előtt az a „helyes” forma, amely az irodalmi kánonokban szerepel, de amely esetleg kánononként is váltakozhat, a számítógépes keresési folyamatban pedig az a forma, amelynek mintája karakterhelyesen illeszkedik a névállomány valamely adategységéhez, aztán attól függően, hogy ez az illeszkedő adategység rendelkezik-e valamilyen adatkapcsolattal – például más névformák felé –, átirányíthatja az érdeklődőt valamely más „helyes” névalakhoz, amely akár külön bibliográfiai identitást is reprezentálhat. Ez utóbbi iskolapéldájaként az Aliz Csodaországban szerzőjét szokták emlegetni: a meseíró Lewis Carroll ugyanis Charles Lutwidge Dodgson matematikus írói neve. Esetében ugyanazon

Nacionalna i sveučilišna knjižnica, Zagreb. Skupni katalog. http://www.nsk.hr/opac-crolist/crolist.html. A horvát nemzeti könyvtár katalógusában a Janus Pannonius név utalóként szerepel. 46 A kérdéskörről teoretikus összefoglalást ad JAKAB Judit, Emlékezet- és identitáselméletek – kánon nélkül, Az Egyetemi Könyvtár Évkönyvei, 12 (2005), 249–271. 45

64


személyről, de két különböző bibliográfiai identitásról van szó.47

FUNKCIÓK A tulajdonneveket rendező és visszakereső elemekként régóta használják a könyvtáros mesterségekben. A szerzőségelvű katalogizálást ókori elődeinktől örököltük, a betűrendes névlajstromozás a mai napig nélkülözhetetlen rendezési eljárás. A szerzők neve belépési pontként – hozzáférési pontként funkcionál nemcsak a könyvtári rendszerekben, hanem más tájékoztató forrásoknál is: maga a név a referenciális vonatkozásain túl azt a technikai hozzáférési pontot képezi, amely továbbjuttatja az olvasót egy katalógustételhez vagy a személy adatlapjához (rekordjához), de ennél a pontnál futnak össze a névhez fűzött bibliográfiai tételek vagy az olyan információk, amelyek tovább irányítják az olvasót a releváns adatokhoz. E funkciók hasonlóképpen jelentkeznek az irodalmi referensz forrásoknál is: egy irodalmi lexikon is a szerzők tulajdonnevéhez fűzi az életrajzi adatokat, a munkásság leírását, az irodalomtörténeti értékelést tartalmazó szócikket, a szerző műveinek listáját és a recepciótörténeti bizonyságokat. Összefoglalja azt a jelentéstartalmat, amelyet kulturális ismereteink szerint az adott névhez kötünk. Online környezetben gyors, könnyed és egyéni útvonalakon bejárható műveletekkel gombolyíthatók fel mindezen információk. A tulajdonnévnek az információs rendszerekben kettős feladata van: (1) A felhasználó számára szemantikai tartalmat kell közvetítenie a személyről, a műről. E feladatot oly módon kell teljesítenie, hogy az entitás egyértelműen azono47 A különböző bibliográfiai identitások kérdéséről az újabb katalogizálási koncepciók vonatkozásában lásd Barbara TILLETT, Authority Control, State of the Art and New Perspectives = Authority Control in Organizing and Accessing Information: Definition and International Experience, Cataloging & Classification Quarterly, Part I, Volume 38, no. 3–4, 2004, 23–41.

65


sítható és más, ugyanolyan nevű entitásoktól megkülönböztethető legyen. A tulajdonnév ebben a szerepkörben megnevezéssel, írásos nyelvi képpel reprezentál valamely entitást. (2) A névnek organizáló szerepköre is van a bibliográfiai információs rendszerben, amennyiben összegyűjti és összekapcsolja az összetartozó dolgokat és hozzáférési pontot is képez. A tulajdonnév szemantikáját taglaló tanulmányok megállapítják, hogy a tulajdonnév elsődleges funkciójának tekintett identifikáláshoz nem elegendő a puszta lexikális megnevezés: a személy, egy szerző vagy egy mű azonosítása tulajdonképpen előzetes tudás és adott kontextus alapján megy végbe.48 Ezt a célt szolgálják tulajdonképpen az életrajzi leírások és más szöveges leírások is, amelyek a filológiai műfajokban mondatokkal, magyarázatokkal, szöveges utalásokkal veszik körbe a tulajdonnevet, és ezzel teszik lehetővé a név interpretálását. A személyek egyértelműsítését a könyvtári hagyományban a nevek mellett megadott kiegészítő adatok és egyéb névelemek kötött szerkezetű közlése valamint a keresztutalózási technika segíti. A születési és halálozási év, a működés vagy származás helye, a foglalkozásra utaló kifejezés, a név szerves tartozékának tekinthető egyéb elemek – mint pl. az állandósult melléknevek – és a névhez szorosan nem kötődő partikulák (rokonsági jelzők, címek, méltóságok stb.) rögzítése is ugyanezeket a célokat szolgálják. Az auktorok „bibliográfiai identitására” vonatkozó szemantikai jelentést tovább pontosítják és részletezik a kapcsolódó bibliográfiai tételek és más információk a szerzőről és műveiről. Néhány példa a könyvtári névkezelés modellje alapján: Névváltozatról utalás a kitüntetett formára: Homérosz ‘Omēros lásd → ‘Omīros (i.e. 8. sz.)

A tulajdonnév szemantikájának kérdéskörét több diszciplína sajátos megközelítésben tárgyalja, e helyütt egyetlen, a magyar nyelvészeti szakirodalom eredményeit is összefoglaló értekezésre utalunk: HEGEDŰS Attila, Mi a tulajdonnév?, Névtani Értesítő, 19 (1999), 5–8. 48

66


Álnévről utalás a valódira: Örömfy Vidor Sólyom Sándor Borostyán Dalma Rónai Sió49 lásd → Petőfi Sándor (1823–1849)

Csokonai Lili → lásd Esterházy Péter (1950–)

Ha az álnév differenciálandó bibliográfiai identitást jelent: Csokonai Lili → lásd még Esterházy Péter (1950–) Esterházy Péter → lásd még Csokonai Lili

Carroll, Lewis (1832–1898) → lásd még Dodgson, Charles Lutwidge (1832–1898) [matematikai művek szerzőjeként] Dodgson, Charles Lutwidge (1832–1898) → lásd még Carroll, Lewis (1832–1898) [irodalmi művek szerzőjeként]

A művek egyedi megnevezésére az „egységesített cím” hivatott, amely általában az eredeti, illetve a mű első kiadásakor adott cím (Lewis Carroll, Alice’s adventures in Wonderland), ilyen hiányában valamely kánon alapján megállapított konvencionális cím (Biblia. Ószövetség; az ismert BornemiPetőfi színészneveiből néhány, vö. KERÉNYI Ferenc, Petőfi Sándor művészi névhasználatáról, Magyar Nyelv, 2000, 74–81.

49

67


sza-mű esetében a rövid Ördögi kísértetek forma, a teljes Ördögi kísírtetekről avagy Röttenetes utálatosságáról ez megfertéztetett világnak cím helyett; Arisztotelész A lélek c. műve esetében a katalógusban érvényre juttatott elvektől függően: De anima, Peri psuhēs vagy Peri psychīs).50 A filológiai konvenciók ezzel szemben az olvasó nyelvi és kulturális kötődéseit és a tárgyát képező textust előtérbe helyezve, a közös élőnyelvi és tudományos ismerethez közelibb megoldásokkal élnek (Ószövetségi Szentírás; A lélek, A lélekről, De anima). A priorizált hozzáférési pontok fókuszálják az összetartozó információkat: a kitüntetett névformákhoz rendeződnek például a szerzők művei (work), a művek különféle kifejezési és megjelenési formái (expression, manifestation), valamint az auktorok/művek és recepciójuk megnyilatkozásainak szurrogátumai. Egy-egy mű különféle megtestesülésének az ősműtől eredeztető felsorakoztatása – például a kiadásváltozatok, fordítások, átdolgozások – vagy valamely mű kritikai fogadtatásának követése a műcímek kontrollált számbavételét is feltételezi.51 A szellemi alkotás alapegységéből kiinduló analitikus reprezentálás igénye hangsúlyosan jelenik meg az 1990-es évektől kiteljesedő entitásközpontú katalogizálási szemléletben. A dokumentumok világára implementált entitás–kapcsolat konceptuális modellt tartalmazza az FRBR-tanulmány (Functional Requirements for Bibliographic Records – A bibliográfiai rekordok funkcionális követelmé-

Az egységesített címek fajtáit és a jelölésükre vonatkozó előírásokat tartalmazza a már említett MSZ 3440–4 szabvány. 51 A szellemi alkotások megtestesüléseinek mibenlétét, a bibliográfiai családok komplexitásának leírását kísérli meg Richard P. SMIRAGLIA, The Nature of „a Work”. Implications for the Organization of Knowledge, Lanham, London, The Scarecrow Press, 2001. Smiraglia valamely szellemi tartalom megjelenési formáinak generációit és a különféle kulturális közegekben végbemenő mutációit is vizsgálja, és igazolja azt a követelményt, hogy az információkereső (tudásszervező) rendszerek hatékony működése érdekében gondoskodni kell ’a mű’ azonosítását kezelő jelölőrendszerről, amely segítségével feltárhatók az alkotásokról szóló komplex információk. 50

68


nyei).52 A besorolási rekordokra is kiterjesztett modell (Functional Requirements of Authority Data – Az autorizálási (besorolási) adatok funkcionális követelményei, FRAD) meghatározza a bibliográfiai/dokumentációs információs rendszerek tárgyát képező entitásokat, attribútumaikat és felállítja kapcsolatrendszerük modelljét.53 A katalógusok manuális korszakából öröklődően a monografikus kiadványok katalogizálási alapegysége a könyvkereskedelembe kerülő, ISBN számmal megjelölt kiadási produktum. A cédulakatalógusok korában az ún. csoportképzéssel kerültek egy helyre a szerzők műveinek különféle változatai, a művek különféle kiadásai.54 Az elektronikus katalógusok e tekintetben visszafejlődésről tanúskodnak: ’a mű’ szempontú keresés esetleges vagy elsikkad. Az FRBR-re alapozó, új szemléletű FRAD komplex viszonyrendszerbe helyezi az entitásokat, újból felébresztve ’a mű’ szempontú rendezéstechnika igényét. Megkülönbözteti a • bibliográfiai univerzum entitásait, amelyeket nevük és/vagy azonosítójuk révén ismerünk, és amelyeket a katalógusrendszer hozzáférési pont(ok)ként tart nyilván; • a bibliográfiai entitásokat, ezek a személy, család, testület, mű, kifejezési forma, megjele-

Functional Requirements for Bibliographic Records, Final Report, IFLA Study Group on the Functional Requirements for Bibliographic Records, München, Saur, 1998 (UBCIM Publications. New series, 19). http://www.ifla.org/VII/s13/frbr/frbr.pdf http://www.ifla.org/VII/s13/frbr/frbr.htm 53 Functional Requirements for Authority Data, a Conceptual Model, Draft, IFLA UBCIM Working Group on Functional Requirements and Numbering of Authority Records (FRANAR), 2007. 04. 01. http://www.ifla.org/VII/d4/FRANAR-ConceptualModel2ndReview.pdf 54 A szerző művei szerinti csoportképzésnél a linea az eredeti cím, azon belül nyelvi vagy időrendi alosztásban sorakoznak a címtételek. A vonatkozó katalógusszerkesztési szabvány: MSZ 3401–81, A bibliográfiai tételek betűrendbe sorolásának szabályai, 5., Bibliográfiai csoportképzés. 52

69


•

nési forma, példány, fogalom, tárgy (objektum), esemény, hely; a hozzáférési pontok tartalmi és formai jellemzőit meghatározó entitásokat, ezek az alkalmazott szabályzatok és az adatgazda intézmények/intézetek.55

Azt a tevékenységet és folyamatot, amelynek során az entitást leíró adatok megfelelő funkcionalitással felruházva a katalógusrendszerben alkalmasakká válnak az információszervezésre, a könyvtártudományban autorizálásnak (authority control) hívják. A tevékenység a katalogizálók szemszögéből egyfajta szótári gondozást jelent: az entitás azonosítását, azonosító és leíró adatainak regisztrálását; a névváltozatok számbavételét; a kitüntetett hozzáférési pont kiválasztását, egyeztetését a követendő szabvánnyal, a névállományban már meglévő formákkal, az újonnan bekerülő adatokkal és a filológiai kutatások régebbi és új eredményével; mindezek összevetését a feltételezett használói kompetenciákkal; az entitás azonosításához nélkülözhetetlen tények feljegyzését, továbbá egy sor kapcsolati elem megadását. A bibliográfiai architektúra fő konzoljaihoz így szervezetten és szervesen kapcsolódhat • • •

a névvariáns a kitüntetett névalakhoz, a név a bibliográfiai tételhez, a mű kiadásaihoz, a név a mű kitüntetett hozzáférési pontjához.

A besorolási adatok és rekordok állománya külön korpuszba rendeződve képezheti a név-adattörzset, az autorizálási fájlt (authority file), mondhatjuk úgy is: a könyvtári alkalmazások névtereit. E névterek összessége • •

55

kontrollált névállományt jelent, tartalmazza az azonosító elemeket, leírásokat (kontextusra utalást),

FRAD, 3–5.

70


• • •

hozzáférési pontokat és adatkapcsolatokat tartalmaz, információtartalmával tájékoztatja a felhasználót, koordinálja a keresést és az információszervezést.

Az alábbi táblázat Plutarkhosz Az erkölcsi erény c. morálfilozófiai értekezésének bibliográfiai felfűzéséhez mutat be egyszerűsítve néhány potenciális szerző/cím „hozzáférési pontot”:56 Πλούταρχος Plutarkhosz Ploutarhos Ploutarchos

Περἰ τῆς ἠϑικῆς ἀρετῆς Az erkölcsi erény Peri tēs ēthikēs aretēs Peri tīs īthikīs aretīs

Görög írás Magyar szövegkiadás transzl., ISO:1968 transzl., ISO:1997

Plutarkhosz említett értekezése Lautner Péter fordításában az utóbbi időben két különböző kötetben és kiadónál került kiadásra, ezek: PLUTARKHOSZ, Morálfilozófiai értekezések, Budapest, Kossuth, 1998, 25–65. és Középső platonizmus, Budapest, Osiris, 2005, 138–165. A két könyvben megjelentetett forrásszövegek (még?) nem szerepelnek egyenként a katalógusokban, így, ha a keresőeszközökben Plutarkhosz ezen írását szeretnénk megkapni, nem derül ki az, hogy az értekezést két kötet is tartalmazza. Az Erkölcsi erény-t különálló alkotásnak tekintve, ahhoz, hogy a kétféle megjelenését egy rendszer egy pontra gyűjthesse, szükség van egy az autorizálási célokkal létrehozott konstans jelölő, az „egységesített cím” vagy más állandó azonosító regisztrálására. Az érvényben lévő magyar katalogizálási szabványt követve a görögről latin írásrendszerre transzliterált görög nyelvű cím képezné Plutarkhosz Az erkölcsi erény c. morálfilozófiai értekezésének entitás-szintű reprezentációját, és egyben azt a technikai pontot is, amelyhez a forrásszöveg két megjelenése hozzáfűzhető a forrásszövegek megjelenése szerinti szöveghű címformákkal. Ez az eljárás biztosítja azt, hogy az esetenkénti, akár címváltozatokkal megjelenő ugyanazon mű (entitás) megjelenési és kifejezési formáit – mint például a különféle szövegkiadási apparátussal készült változatokat vagy a különféle nyelvű fordításokat – össze lehessen gyűjteni és rendezetten meg is lehessen azokat jeleníteni. 56

71


INTEGRÁCIÓ A digitális könyvtári és bibliográfiai tájékoztatási rendszerekben hatalmas nagyságrendű strukturált adat van szerzőkről, műveikről. Természetszerűleg vetődik fel (világszerte) annak gondolata, hogy ez az adatkincs válhasson egy többcélúan is felhasználható névtérré. Ha csak a magyarországi helyzetképre vetünk egy futó pillantást, már akkor is szembeötlik az, hogy a könyvtári adatbázisok jelentős adatvagyonnak tekinthető név- és műcím-korpusszal rendelkeznek. Az „egységesített” vagy „kitüntetett” pozícióban álló név- és címadatok kulcsfontosságú információszervező elemek, viszont rendkívül nagy nyelvi és alaki változatossággal jelennek meg. A homogenitás hiánya jelentős problémát képvisel az adatbázisok integrációjakor. Egy 2004-ben lefolytatott vizsgálat tanulságai szerint57 az intézmények jelentős munkaidőt és szaktudást fordítanak az autorizálási adatállományok kialakítására, karbantartására, miközben a régi névanyag ellenőrzésére kétszeres erőbefektetésre van szükségük. E munkához a hagyományos, nyomtatott referenszműveken kívül ugyanolyan mértékben használják már az információs korszak újabb tájékoztató forrásai közül a szabadon elérhető internetes bibliográfiai adatbázisokat, de viszonylag kis mértékben veszik igénybe a speciális autorizálási adattárakat. A külső forrásból származó ilyen jellegű információk újrafelhasználásának szakmai kultúrája nem terjedt el széles körben. Az adattárakból felülvizsgálat és változtatás nélkül csak a Magyar Nemzeti Bibliográfiából nyert adatokat veszik át. A sajátjukhoz hasonló érdekeltségű más katalógusokból is merítenek adatokat, a közös katalogizálási rendszer tagjai pedig változtatás nélkül veszik át egymás adatait akkor, ha a helyi adatformálási igényekkel megegyezik a forrásbázisok szerkesztési módja. A besorolási rekordok átvétele vagy adattartalmuk kölcsönös felhasználásának mértéke azonban jóval elmarad a bibliográfiai rekordok adatcseréjétől, s hasonlóképpen a művek autorizálá57

V. ö.: DUDÁS, 2005.

72


sa, egységesített címmel való regisztrálása jóval elmarad a személyek besorolási rekordjainak építésétől. Hogy az FRBR-koncepció modellje szerint a műnek olyan alapformája lehessen, amely alkalmas a reprezentálásra, az a feltétele, hogy ez az adatelem kötelezően szerepeljen a rendszerekben.

A világ egyik legnagyobb tulajdonnév-tereket, illetve személyneveket integráló projektje, a Virtual International Authority File (VIAF),58 amely három nagy bibliográfiai szolgáltató: a Die Deutsche Bibliothek (DDB), a Library of Congress Name Authority File (LCNAF) és az Online Computer Library Center (OCLC) névállományát egyesíti. Az adatbázissal az angol és a német nyelvterület különféle katalogizálási szabályzata alapján gondozott névanyag válik bekapcsolhatóvá a keresési folyamatokba. A projekt az orA fenti ábra forrása: Richard BENNETT, Christel HENGEL, Thomas B. HICKEY, Edward T. O’NEILL, Barbara B. TILLETT, Virtual International Authority File = ALA Annual Conference, 24 June 2006, New Orleans, Louisiana (USA) http://www.oclc.org/research/projects/viaf/ala2006c.ppt 58

73


szágonként, konvenciónként, nyelvenként különböző alapformák és névvariánsok, valamint a nevekhez kapcsolódó intellektuális adattartalmak összekapcsolására helyezi a hangsúlyt. Az adatok kinyerésekor a felhasználói beállítás függvényében más és más lehet az aktuálisan megjelenítendő adat formája, attól függően, mi a preferált nyelv, írásrendszer, helyesírási változat. Akár Braille-írásos, illetve hangos megjelenítésre is lehetőség nyílik, a transzliterációnak pedig már nem az „egységesített besorolási adat” megformálásánál lesz jelentősége, hanem az eredeti írásrendszert nem ismerők számára tehet jó szolgálatot az adatok kiolvasásához. A VIAF univerzálisan használható névállománya az innovatív technológiákra épülve a szemantikus web építőkockájává válhat.59 A magyarországi integrálható névállományok között meg kell említenünk az Országos Széchényi Könyvtár adatbázisában épülő fájlt, amely viszont csak a hungarus szerzőkről tartalmaz különálló besorolási rekordot, a fejlesztés alatt álló közös katalógusok névanyagát (MOKKA, MOKKA-R), és számos más jelentős, de egymástól elszigetelt névteret sorolhatunk még fel a világhálóról (lásd például a Petőfi Irodalmi Múzeum Életrajzi indexét, a könyvtári, bibliográfiai és biográfiai digitalizált műveket). Jelentős előrelépés a Régi magyarországi szerzők (RMSZ) újabb kiadásának előkészítése az Országos Széchényi Könyvtár Régi Magyarországi Nyomtatványok Bibliográfiai Szerkesztőségében, amely mintegy hat és félezer szerző adatait és több mint nyolcezer rájuk vonatkozó utalót tartalmaz. Az új kiadás a régi szerzőnkénti egysoros adatleírást jelentős részletekkel bővíti ki: a lehető legteljesebben igyekszik számba venni a névváltozatokat és megjelöli az alapforrásokat is. BAKFARK (Bacfarc, Bacfarcus Greffus, Bacforc, Bacfort, Bachffart, Backfark, Bakfarcus Greffius, Graevius, Greefus Bacfarcus, Greff, Greffius) Bálint * Brassó (Brassó), 1506/1507-1576

59

TILLETT, 2004.

74


zeneszerző, lantművész: Itália, Franciaország 1540 k., Lengyelország 1546- 1565, Bécs 1566-1568, Erdély 15681570, Itália 1571-1576 Sz. I.363.; G. I.1079.; MÉL I.75-76.; Zenei lex. I.136.; Kuzmík I.56-57.; UMIL I.89-90.; RMK III.527(=5297) 60

Az NDA névtér felállításának lehetőségeit taglaló 2004-ben készült tanulmány értékelte és mérlegelte azokat a forrásokat, amelyek integrálásával meg lehetne alapozni a magyar nemzeti névtér működését. Az NDA 2006-ban készült Stratégiai és projektterve a feladat megvalósításának nehézségeire hivatkozva viszont mintha félretolta volna a névtér felállításának ügyét,61 holott a w2-es technológiákkal gyarapítható közösségi archívumok hasznos vezérfonalát képezhetné egy már kész választólistát is felkínáló névtér. Tovább szőve ilyen irányú gondolatainkat merül fel a kérdés: megvalósítható-e a 2004-es NDA-koncepció kitétele, miszerint „a különböző archívumok tartalmai között a közösen és egységesen kezelt tulajdonneveken keresztül lehet átmenetet teremteni”?62 Átveheti-e például az EMIR (Elektronikus Magyar Irodalom) és alapformaként használhatja-e például a szócikkeiben felsorakoztatott bibliográfiákban a Magyar Nemzeti Bibliográfia kitüntetett névformáit, vagy elölről kell kezdenie mindent, és újra az alapoktól indulva kell felépítenie a saját név-archívumát? Az előző szakaszok talán egyértelműen utalnak arra, hogy külön adatgondozás, adategyesítés és -egységesítés nélkül a kitüntetett hozzáférési pontok karakterhelyességen alapuló egybevágósága elve mentén nem lehet megvalósítani az adatA szócikket P. Vásárhelyi Judit a kézirat alapján bocsátotta rendelkezésemre. 61 Lásd Stratégiai és projektterv, szerzők HALÁCSY Péter, SZAKADÁT István, VÁLYI Gábor stb., Bp., BME Média Oktató és Kutató Központ, 2006. július 10., különösen 19-20. http://www.nda.hu/files/nda_strat_2.pdf 62 NDA Névtér. Javaslat az NDA Névtér működtetéséhez. Összefoglaló tanulmány, összeállították BERKE Barnabásné, FARAGÓ Imre, PLIHÁL Katalin, PRAJCZER Tamás, SIKOLYA Zsolt, tanácsadó SZAKADÁT István, 2004. március 6. http://www.nda.hu/Resource.aspx?ResourceID=doc storefile&f=74&t=stored 60

75


tárak átjárhatóságát, és arra is, hogy a felhasználói elvárásoknak a jelenlegi könyvtári alkalmazások nem tudnak minden tekintetben megfelelni.63 Az FRBR és FRAD modell kidolgozásának deklarált célja a felhasználói igények jobb kielégítése. A felhasználó dolgát egyszerűsítő megoldások a rendszer létrehozóinak, fenntartóinak, építőinek oldaláról nagyobb fokú komplexitás bevetését jelentik. A nyelv, írásrendszer, rendezési szempont stb. kiválaszthatósága további attribútumok bevezetését, illetve további entitások megkülönböztetését feltételezi, és további komplex kapcsolatrendszer definiálását és jelölését is megkívánja akkor, ha a művek keletkezés- és hatástörténetének vagy metamorfózisainak többdimenziós reprezentálását is meg szeretnénk oldani. Csak ilyen feltételek mellett lehetséges a neveknek is „alkalmazkodniuk” a különféle kontextusokhoz: Sapfō [kontextus: könyvtári] Sappho, Szapphó [kontextus: filológiai]

Homérosz: Odüsszeia [kontextus: filológiai] ‘Omīros: Odysseia [könyvtári].

A könyvtári névterek személyekre és művekre vonatkozó adatai a filológia nyomán keletkeznek, ennélfogva a könyvtári rendszerek névállományának tartalma folyamatosan változik: követi és kumulálja a filológia eredményeit. A digitális katalógusok jelenleg zárt rendszerének információkeresési hatékonyságát minden bizonnyal növelheti a w2-es technológiával hozzáadott folkszonómikus névváltozatok, adatok és adatkapcsolatok kumulációja.

63

V. ö.: DUDÁS, 2005.

76


HIVATKOZÁSOK 1.

A cirill betűs szláv nyelvek neveinek magyar helyesírása, Az újgörög nevek magyar helyesírása, főszerk. HADROVICS László, szerk. ZOLTÁN András, Bp., Akadémiai Kiadó, 1985.

2.

DEME László, Névterjedelem és névtartozékok = Névtudomány és művelődéstörténet, szerk. BALOGH Lajos, ÖRDÖG Ferenc, Zalaegerszeg, Zalaegerszeg Város Tanácsa, 1989, 282–286.

3.

DUDÁS Anikó, Nevek, antik nevek – autorizálás: egy magyarországi felmérés eredményei, Tudományos és Műszaki Tájékoztatás, 52 (2005/9), 411–424.

4.

Functional Requirements for Authority Data, a Conceptual Model, Draft IFLA UBCIM Working Group on Functional Requirements and Numbering of Authority Records (FRANAR), 2007. 04. 01. http://www.ifla.org/VII/d4/FRANAR-ConceptualModel-2ndReview.pdf

5.

Functional Requirements for Bibliographic Records, Final Report, IFLA Study Group on the Functional Requirements for Bibliographic Records, München, Saur, 1998 (UBCIM Publications. New series, 19).

6.

HEGEDŰS Attila, Mi a tulajdonnév?, Névtani Értesítő, 19 (1999), 5–8.

7.

HUNMARC. A bibliográfiai rekordok adatcsere formátuma, közread. a Könyvtári és Szakirodalmi Tájékoztatási Szabványosítási Bizottság, kiad. az Országos Széchényi Könyvtár, Bp., OSZK, 2003.

8.

JAKAB Judit, Emlékezet- és identitáselméletek – kánon nélkül, Az Egyetemi Könyvtár Évkönyvei, 12 (2005), 249–271.

9.

KERÉNYI Ferenc, Petőfi Sándor művészi névhasználatáról, Magyar Nyelv, 2000, 74–81.

10. NDA Névtér. Javaslat az NDA Névtér működtetéséhez. Összefoglaló tanulmány, összeállították BERKE Barnabásné, FARAGÓ Imre, PLIHÁL Katalin, PRAJCZER Tamás, SIKOLYA Zsolt, tanácsadó SZAKADÁT István, 2004. március 6. 11. Ógörög–magyar szótár, szerk. GYÖRKÖSY Alajos, KAPITÁNFFY István, TEGYEY Imre, Bp., Akadémiai Kiadó, 19932, 8–9. 12. PLUTARKHOSZ, Morálfilozófiai értekezések, Budapest, Kossuth,1998, 25–65. és Középső platonizmus, Budapest, Osiris, 2005, 138–165.

77


13. Richard P. SMIRAGLIA, The Nature of „a Work”. Implications for the Organization of Knowledge, Lanham, London, The Scarecrow Press, 2001. 14. Richard BENNETT, Christel HENGEL, Thomas B. HICKEY, Edward T. O’NEILL, Barbara B. TILLETT, Virtual International Authority File = ALA Annual Conference, 24 June 2006, New Orleans, Louisiana (USA) http://www.oclc.org/research/projects/viaf/ala2006c.ppt 15. Stratégiai és projektterv, szerzők HALÁCSY Péter, SZAKADÁT István, VÁLYI Gábor stb., Bp., BME Média Oktató és Kutató Központ, 2006. július 10. 16. Barbara TILLETT, Authority Control, State of the Art and New Perspectives = Authority Control in Organizing and Accessing Information: Definition and International Experience, Cataloging & Classification Quarterly, Part I, Volume 38, no. 3–4, 2004, 23–41.

78

G U S Z L L I L L A

E V

A

N T A L

–

L

U K Á C S

FÖLDRAJZINÉV-TÁR 2.0 BEVEZETÉS Az emberi közösségek az azonosítás és a tájékozódás megkönnyítése érdekében a környezetükben levő objektumoknak földrajzi neveket adnak. Minden nép rendelkezik saját nyelvű földrajzinév-készlettel, melyek területileg többnyire átfedésben vannak egymással. Egy-egy földrajzi objektumnak általában több azonos nyelvű névváltozata is létezik, ami az azonosításban nehézségeket okozhat, a nevek azonban a nemzeti kultúra értékes részei. Ezért régi törekvés egyfelől a földrajzi nevek egységesítése, de ugyanakkor a földrajzi névkincs megőrzése is. A földrajzinév-tárak összeállítása mindkét célt szolgálja, segít rendszerezni és visszakereshetővé tenni a különféle objektumok földrajzi neveit, és a nevekhez tartozó leíró adatokat. A felhasználási igények változása és a technológiai fejlődés a földrajzinév-tárakon is nyomon követhető. Folyamatosan bővül a tartalmuk, funkcionalitásuk, térképi megjelenítésük és alapjában változik technikai hátterük is. A következőkben a földrajzinév-tárak fejlődését mutatjuk be a hagyományos, nyomtatott névtáraktól a térinformatikai névtárrendszerekig, felvázolva a „web 2.0” fogalommal jelzett online közösségi fejlesztési lehetőségeket is.

79

GUSZLEV ANTAL – LUKÁCS LILLA: FÖLDRAJZINÉV-TÁR 2.0

A

FÖLDRAJZINÉV TÉSE

-TÁRAK

RENDELTE

-

Az ENSZ földrajzinév-egységesítéssel foglalkozó bizottsága a földrajzinév-tár fogalomra az alábbi meghatározást adja: Földrajzinév-tár (gazetteer): Helynevek jegyzéke, amely a név típusát, helyzetét meghatározó adatokat vagy egyéb szükséges tájékoztatást is ad. (A helynév a meghatározásban a földrajzi név szinonimájaként szerepel, érzékeltetve, hogy a földön kívüli nevekre is vonatkozik.)64 A definícióból is kitűnik, hogy a földrajzi nevek általában nem egyedi azonosítói egy-egy földrajzi helynek, objektumnak (1. ábra):

1. ábra: A földrajzi hely meghatározása (az ADL Gazetteer Team ábrájának [2002] felhasználásával)

• Ugyanaz a név többféle objektumot is jelölhet egy adott helyen (pl. Margit-sziget, Margitsziget), ezért az azonosításhoz a név mellett szükséges az objektum típusának ismerete is (a magyar földrajzi nevekben ez FÖLDI Ervin, Az ENSZ földrajzinév-egységesítési szakkifejezések szótára, Névtani értesítő, 14.

64

80


részben tükröződik az írásmódban is, pl. Sáros-patak vagy Sárospatak). • Ugyanaz a névalak ugyanolyan típusú objektumokat jelölve különböző helyeken is megjelenhet (pl. Gyöngyös-patak, Nagy-hegy), ezek a homonimák.65 Az egyértelmű meghatározáshoz ezért a név és a típus mellett a vonatkozási helyet is meg kell adni. A földrajzinév-tárak létrehozásának célja a földrajzi nevek névalakjainak és leíró adatainak nyilvántartásba vétele, az egységes névhasználat elősegítése érdekében. A helyes névalakok ismerete és egységes használata korántsem olyan alapvető, mint gondolnánk. A földrajzi neveknek tartalmilag és írásképileg is több névváltozata jelenik meg a mindennapi használatban, és sok ezek közül pontatlan, illetve helyesírási szempontból helytelen. Ezért fontos, hogy legyenek olyan adattárak, amelyben az akadémiailag elfogadott nevek szerepelnek, és széles körben hozzáférhetők. Az emberek többsége a földrajzi nevek helyének és írásmódjának forrásául a térképeket, atlaszokat tekinti mérvadónak (jobb híján). A térképi nevek szakmai forrásai pedig – más térképek mellett – maguk a névtárak, ezért a névtárak készítésében fontos szerepe és felelőssége van a térképészeknek. A névtárak felhasználási területe lehet minden olyan szakma, amely földrajzi neveket használ: • • • • •

térképszerkesztési munkák térinformatikai alkalmazások természettudományi kutatások: földrajz, biológia, ökológia stb. társadalomtudományi kutatások: történelem, néprajz, nyelvészet, irodalom stb. oktatás

Glossary of Terms for the Standardization of Geographical Names, United Nations, New York, 2002. 65

81


• •

sajtó idegenforgalom

A téma fontosságát mutatja, hogy a földrajzi nevek vizsgálatával, a névhasználatban felmerülő problémákkal és megoldásukkal nemzetközi szervezetek is foglalkoznak: • Az ENSZ Földrajzi Névi Szakértői Csoportja (United Nations Group of Experts on Geographical Names, UNGEGN) 1967-től működik. • Az UNGEGN keretében 1998-ban alakult meg a Toponímiai Adatállományok és Földrajzinév-tárak Munkacsoportja (Working Group on Toponymic Data Files and Gazetteers). • A Nemzetközi Szabványügyi Szervezet (ISO) Földrajzi Információk és Geomatika Technikai Csoportja az ISO TC 211 (ISO Technical Committee Geographic Information / Geomatics 211). Ezek a szervezetek összehangolják a nemzeti szinten folyó kutatómunkákat, és szabványokat, ajánlásokat, névírási segédanyagokat dolgoznak ki és tesznek közzé, valamint együttműködnek más szakmai szervezetekkel, pl. a Unicode Consortiummal – a digitális karakterkezelés egységesítése érdekében.66 Az Open Geospatial Consortium (OGC) is foglalkozik a földrajzinév-tárakkal, ajánlást dolgozott ki a névtárak webes szolgáltatásának formátumaira és a protokolljaira (OGC, 2002).

Toponymic Data Files, Report of the Working Group on Toponymic Data and gazetteers for the period 1998–2002, UNGEGN, 2002

66

82


HAGYOMÁNYOS FÖLDRAJZINÉV-TÁRAK, MAGYARORSZÁG FÖLDRAJZINÉV-TÁRA A hagyományos földrajzinév-tárak az egyes földrajzi nevek elhelyezkedését koordinátapárral vagy egyéb térbeli vonatkozással (pl. közigazgatási egység nevével), szöveges vagy táblázatos formában adják meg. Emellett tartalmazzák a nevek különféle változatait, az eredetre vonatkozó információkat stb. A hagyományos névtárakhoz nem feltétlenül kapcsolódik a nevek térképi ábrázolása. A földrajzi nevek egységes használatának igénye Magyarországon is szükségessé tette a névalakok összegyűjtését, helyesírásuk elveinek kidolgozását és a magyar földrajzinévtár létrehozását. Ennek a feladatnak a megoldására alakult meg 1964-ben a Földrajzinév-bizottság. A bizottság munkájának eredményeként jöttek létre a Magyarország Földrajzinévtára (FNT) I. és II. kötetei, melyek nyomtatásban jelentek meg a 70-es, 80-as években. Az FNT I. 715 db országos jelentőségű domborzati, vízrajzi és tájnevet tartalmaz. Az FNT II. részletesebb, 19 kötetben, megyénként tartalmazza a földrajzi neveket. Az FNT II. már nem csak térképészeti célokra készült, hanem a hivatalok névhasználatának segítésére is, számukra a rendelet írja elő az FNT neveinek használatát.67

2. ábra: Részlet az FNT I. kötetének térképmellékletéből és a névtárból

67

Földrajzinév-tár II. Veszprém megye, Bp., 1981.

83


A névtárak felépítése egyszerű, ábécérendben tartalmazzák az elsődlegesen megállapított földrajzi neveket, s térképmellékleten is megtaláljuk őket (2. ábra). A nevekhez sok kiegészítő információ kapcsolódik leíró adatként, több csoportra bontva: •

•

•

•

általános információk: o az objektum típusa o mely táj, megye része o vizeknél az országok, ahonnan v. ahová érkeznek kiegészítő információk: o vizeknél a forrástelepülés és a kiemelt név első települése, a befogadó víz neve, a torkolat helye, ill. a határátlépések helyei o egyéb objektumoknál magasságadat névváltozatok: o használatra nem javasolt névváltozatok o vizeknél a különböző szakaszokra vonatkozó névváltozatok és nem javasolt nevek térbeli elhelyezkedés: a térképmellékletre vonatkozó keresőadat. A térképmelléklet bemutatja a név térképi elhelyezését.68

A felsorolt leíró adatok jellegéből is látszik, hogy a névtár elsősorban térképszerkesztési munkákhoz készült, információkat tartalmaz a nevek pontos vonatkozási helyére is, ezzel a térképi névrajz gondos megtervezéséhez nyújt nagy segítséget. A nyomtatott névtárak használata szótárszerűen történik, egyszerű kereséseket tesznek csak lehetővé. Ezenkívül a keresést általában névmutató könnyíti meg, amely az összes névváltozatot tartalmazza. Egyéb attribútumok szerint azonban nem lehet keresést végezni.

Földrajzinév-tár I. Magyarország fontosabb domborzati-, táj- és víznevei, Bp., 1982.

68

84


Gondot jelent a méretarány kötöttsége, a papírméret korlátozottsága és a kötött példányszám is. Ezenkívül a papír névtárak közvetlenül nem bővíthetők, frissíthetők.

DIGITÁLIS

NÉVTÁRAK

A számítógépek korszakában nem sokáig váratott magára a hagyományos névtárak digitális feldolgozása. A digitális névtáraknál általában relációs adatbázis-szerkezetben történik az adattárolás. Ilyen formában a névalakok a táblák rekordjaiként szerepelnek és külön mezőkben számtalan leíró adat kapcsolható hozzájuk. A digitális adattárak elterjedése kapcsán a Földmérési és Távérzékelési Intézet (FÖMI) is elkészítette az FNT digitális változatát. Ez lényegében a névtár adatainak Access adatbázisban való feldolgozását jelentette (3. és 4. ábra). A digitális FNT a kiemelt nevekről a hagyományos változattól eltérő leíró adatokat ad meg, kevésbé térképszerkesztési szempontú. Nem tartalmaz a térképi névhasználatra vonatkozó információkat, illetve a nem javasolt névalakokat sem jelzi. A felvett objektumok köre azonban jóval szélesebb. A nyomtatott FNT-vel szemben tartalmazza a településeket is lakosságszámmal. Az adatbázis rekordjaihoz nem kapcsolódik térképi ábrázolás, ehelyett EOV koordinátapárral megadott beszúrási pontokat tartalmaz az egyes nevekhez.69

69

http://fish.fomi.hu

85


A névtárak digitális adatbázisként való tárolása bővebb lehetőséget ad arra is, hogy a nevek időbeli vonatkozásait rögzítsük, és a névváltozásokat elemezzük. A digitális adatbázis a papírkorlátok feloldásával bővítette ki a használati lehetőségeket. Az adatbázis-kezelők lehetővé tesznek speciális leválogatásokat, szűréseket. Nemcsak a nevek kereshetők ki (egyesével), mint a nyomtatott változatoknál, hanem névtöredékek is, vagy bármely leíróadat, ill. leíróadat-kombinációk segítségével lehet leválogatásokat végezni, a keresési eredményeket sorba rendezni. Az elemzésekben fontos az idő, mint dimenzió megjelenése, kiszűrhetők a különböző időpontokra, intervallumokra vonatkozó névkészletek, tehát gyakorlatilag megválasztható a névtár érvényességi időpontja. A digitális formátum lehetővé teszi a névtár folyamatos bővítését, javítását, az egyszerűbb sokszorosítás pedig (elméletileg) a széleskörű használatot is elősegíti. A digitális névtáraknál az adatbázis-kezelők leválogatási lehetőségeit annál hatékonyabban és speciálisabban lehet kihasználni, minél részletesebb és jobban strukturált az adatszerkezet. Ez részben a jól megtervezett relációkra vonatkozik, részben pedig az objektumtípus-szótárra.

86


A digitális névtárak fejlesztését elősegítik az informatikában és az interneten jelentkező folyamatok és trendek is (pl. a web 2.0 ill. web 3.0 fogalmak témakörébe tartozó fejlesztések, a mesterséges intelligencia kutatásai stb.). A webes információ-felhalmozás és a kommunikáció rohamos fejlődése maga után vonja új tudásszervezési rendszerek, fogalomszótárak, tezauruszok, ontológiák építését. Egy rugalmas, célszerűen meghatározott kategóriából álló és bizonyos mértékig hierarchikusan szervezett típusszótár erős alapot adhat egy földrajzinév-tárnak is. A legnagyobb világ-névtárak rendelkeznek ilyen szótárakkal, a legismertebb példa az Alexandria Digital Library Gazetteer (ADLG)70 tezaurusza, 4 szintű hierarchiával és 215 objektumtípussal vagy a GeoNET Names Server (GNS)71 kb. 650 objektumtípussal. (A hagyományos és a digitális magyar névtáraknál is szerepelnek objektum-kategóriák, hierarchia nélkül, a nyomtatott FNT I-ben 19 típus szerepel, a digitális FNT-ben 39). Folynak munkálatok magasabb szintű fogalmi rendszerek, „geoontológiák” létrehozására és névtárba történő beépítésére is. Így a névtár modellezheti a világot az objektumok földrajzi nevei alapján, figyelembe véve a térbeli, a topológiai viszonyokat, a hierarchikus alá-fölérendeltségeket és az időbeliséget is. A névtárak feladata (és más, neveket is tartalmazó adatbázisokkal való kötelező különbsége) a földrajzi nevek és referencia-adataik tárolása karakterhelyes, nyelvtanilag korrekt, hivatalos stb. formában. Ennek következtében egyik gyakorlati céljuk az, hogy más, statisztikai, igazgatási, gazdasági, idegenforgalmi, történelmi adatbázisok vagy információs rendszerek számára földrajzi névi szegmensek lehessenek. Ezért már a névadatbázisok létrehozásakor fontos szempont, hogy a nevek mellett tartalmazzanak olyan azonosítót is, amely kulcsmezőként szerepelhet más (akár csak leíró) adatbázisokkal való összekapcsoláskor. Ilyen azonosítók például a NUTS-kód, KSH-kód, irányítószám, ISO országkódok stb. Ezek hiányában a nevek maguk lehetnek az 70 71

http://middleware.alexandria.ucsb.edu/client/gaz/adl/index.jsp http://gnswww.nga.mil/geonames/GNS/index.jsp

87


adatkapcsolás alapjai, de ez esetben már fokozottabb kontrollra és hibaszűrésre van szükség. Ugyanakkor az adatgyűjtés is történhet – a hagyományos módszerek mellett – más digitális adatbázisok integrálásával is. A digitális adatbázisok feldolgozása részben vagy teljesen automatizálható, ha a névtár és a másik adatbázis között valamilyen formálisan leírható kapcsolat van. Ilyen kapcsolat lehet például valamelyik adatmező egyezése (vagy szabályos eltérése, pl. az ékezetes, ill. ékezet nélküli névalakok túlnyomórészt megfeleltethetők). Ebben az esetben a két adatbázis összekapcsolása kulcsmező definiálásával történhet (5. ábra).

88


A külső forrásból származó adatok integrálása tartalmi szempontból is problémákat vethet fel. Három nagy amerikai névtárat vizsgáltunk meg a magyar földrajzi nevek tekintetében, ezek a következők voltak: • • •

GEOnet Names Server (GNS) Getty Thesaurus of Geographic Names (GTGN) Alexandria Digital Library Gazetteer (ADLG)

A névtárak bőséges magyar nyelvű névanyagot tartalmaznak, több magyar név mellett számos idegen nyelvű névváltozatot is feltüntetnek. Használatuk azonban problémákba ütközik: többnyire hibásan kezelik, vagy egyáltalán nem is tüntetik fel a mellékjeles karaktereket (Karpátok, Gocsej). A nevek írásmódja sokszor nem követi a magyar helyesírási elveket (Mátra Hegység, Kis Alföld). A formai hibákon túl sok a tartalmi pontatlanság, amely valószínűleg abból ered, hogy a névtárak nem autentikus forrásokra, hanem külföldi névtárakra, térképekre épülnek (6. ábra). A névtárak rekordjainak felhasználásakor tehát szükség van a nevek ellenőrzésére és javítására. Mindhárom adatbázis jellemzője, hogy a neveket pontszerűen tárolja, egyetlen koordinátapárral. Ezeket a földrajzi koordinátákat fokpercre kerekítve teszik közzé. Ez jelentős probléma, hiszen azt jelenti, hogy hazánkban kb. 1,3– 1,8 km-es élességgel tudjuk kinyerni az adatokat.72 név

Névváltozatok GNS Mátra Mátra Mátra Hegység Kárpátok Karpátok Carpates Carpathian Mountains Carpathians Carpaţi, Munţii Carpaţii Karpaten Karpaty Göcsej Göcsej

Névváltozatok GTGN Mátra

Névváltozatok ADLG Matra Matra Hegyseg Karpátok Karpatok Carpates Carpates Carpathian Mountains Carpathian Mountains Carpathians Carpathians Carpati, Muntii Carpati, Muntii Karpaten Carpatii Karpaty Karpaten Karpaty Göcsej Gocsej

GUSZLEV Antal – LUKÁCS Lilla, Földrajzinév-kutatás térinformatikai eszközökkel, 3. Magyar Földrajzi Konferencia, Budapest, 2006.

72

89


név

Névváltozatok Névváltozatok GNS GTGN Kisalföld Little Hungarian Plain x Little Plain Upper Hungarian Plain Fertő

Fertő Fertő-tó Fertő Tói Fertő Tava Neusiedler See Neusiedler Lake

Névváltozatok ADLG Kis Alfold Little Alfold Little Hungarian Plain Little Plain Ferto Ferto Ferto tó Ferto-to Fertoto Ferto Toi Neusiedler See Ferto Tava Neusiedler Lake Neusiedler See Neusiedler Lake

6. ábra: Magyar földrajzi nevek névváltozatai

NÉVTÁRAK

LÉTREHOZÁSA TÉRINFORMATIKAI KÖRNYEZETBEN

A digitális formátumú földrajzinév-tárak (így a FÖMI FNT-je is) térinformatikai adatbázisnak tekinthetők, mert tartalmaznak a nevekre vonatkozó térbeli adatokat is. Érdemes lehet azonban eggyel továbblépni, a földrajzinév-tárat térinformatikai környezetben – pl. ArcGIS-ben – térinformatikai rendszerként is felépíteni. A térinformatikai szoftverek eszköztára a térbeli elemzéseket, lekérdezéseket, a megfelelő színvonalú térképi megjelenítést, illetve a térképi alapú keresést is támogatja, amelyek egy földrajzinév-tár esetében fontos funkciók. Az adattartalom a leíró adatok szempontjából nem különbözik egy „hagyományos” digitális adatbázistól. A lényegesebb különbség – térképészeti szempontból – a geometriai adatok gyűjtésében és feldolgozásában van. Egy térinformatikai alapú névtárban ugyanis az egyes névalakokhoz egy-egy geometriai alakzat (pont, vonal vagy poligon) tartozik térképi vonatkozási helyként. Ezen objektumhoz rendeljük hozzá a térbeli adatokat, általában a beszúrási pontjuk, a töréspontjaik vagy a befoglaló téglalap sarokpontjainak koordinátáit. Így a névtárban a nevek térbeli és leíró adatait a neveket „hordozó” objektumok azonosítója kapcsolja össze (7. ábra).

90


7. ábra: ArcMap-ben tárolt tájpoligonok és leíró adataik összekapcsolása objektumazonosító segítségével

A térinformatikai rendszerként működő földrajzinévtár tartalmazza a hagyományos névtárak funkcióit (adattárolás, egyszerű keresések, egyszerű megjelenítés). A nem elhanyagolható többletet az összetett lekérdezések, az időbeli vizsgálatok lehetősége és a különféle elemzések és leválogatások eredményeinek térképi megjelenítése adja. A térkép itt nem csak a grafikus ábrázolás eszköze, hanem részt vehet a nevekkel kapcsolatos jelenségek térbeli elemzésében is. Az információk előállítása a névtár adatain elvégzett térbeli műveleteken (pl. átlapolásokon, övezetképzésen, hálózatelemzésen) alapul. A legnagyobb ismert névtárak térinformatikai rendszeren alapulnak, pl. a korábban említett ADLG is (8. ábra).

91


8. ábra: Alexandria Digital Library Gazetteer

NÉVTÁRAK

A WEBEN

A világháló elterjedése és a rajta lévő térbeli információk nagy részének ingyenes hozzáférhetősége azt is eredményezte, hogy a webes felhasználók az interneten egyszerűen és ingyenesen elérhető tartalmakat részesítik előnyben. A térkép mindig is fontos, keresett információ volt a weben. A keresőprogramok statisztikái szerint stabilan a 10 leggyakrabban beírt szó közé tartozik a „térkép”, azaz a felhasználók zömének elsődleges térképforrása az internet lett. Természetesen nem önmagában a „térkép” szót keresik, hanem mindig valamilyen konkrét földrajzi hely (város, régió, ország, stb.) térbeli információira kíváncsiak a felhasználók, és az ilyen jellegű keresések általában valamilyen földrajzi névvel együtt történnek. A találatok tehát nagyban függnek attól is, hogy mennyire egyértelmű helyneveket írnak be keresőszónak, illetve hogy a honlapokon miképpen jelennek meg a földrajzi nevek. Az interneten rengeteg földrajzi nevekre vonatkozó információt érhetünk el. A hozzáférhető adatbázisok tartalma, formája és funkcionalitása rendkívül változatos, jellemzőiket több szempontból is vizsgálhatjuk. 92


A névtár definíciója szerint nem számítanak klasszikus névtárnak a térbeli adatokat nem tartalmazó földrajzinévlisták. Ezek általában a nevek többféle nyelvű, írásrendszerű változatait, vagy más leíró adatait adják meg. A földrajzi névi kutatásokban és a névtárak építésénél nagyon fontos szerepük van, és többnyire tartalmaznak olyan adatot (pl. hivatalos névalakot), amely segítségével térbeli adatbázisba integrálhatók (9. és 10. ábra).

9. ábra: GeoNative Placename Tables

10. ábra: A Magas-Tátra hegyvilága (Futó Endre)

Széles skálán változhat a névtárak tartalmi specifikációja. Vannak egészen speciális tematikus névtárak, amelyek az adott témában általában a legrészletesebb és legpontosabb adatokat közlik, sokszor valamilyen névtípusra (pl. tengerfenék-domborzati nevek), időszakra (pl. ókori helynevek) vonatkozóan (11. ábra). Ennek megfelelően felhasználási területük szűk, de sok olyan nevet, adatot tartalmaznak, ami más forrásokban nem található meg.

93


11. ábra: Orbis Latinus online

Az általános földrajzi névtárak a nevek minden típusát tartalmazzák, természetes és mesterséges objektumokét is, így a tárgyalt területről jó helynévi áttekintést nyújtanak (12. ábra). A gyakorlatban a névtárak általában több, eltérő részletességű forrást integrálnak, így az általános földrajzi névtárak tartalma sem egyenletesen oszlik el területileg, illetve rendelkezhetnek egyes területekre speciális névanyaggal is.

12. ábra: The Gazetteer for Scotland

A felhasználók számára fontos annak az ismerete, hogy az adott névtár mely területre vonatkozik. Az érvényességi terület szerint vannak: •

államnál kisebb vonatkozási területű névtárak

•

egy állam területére vonatkozó névtárak (13. ábra)

•

több állam területére kiterjedő névtárak (14. ábra)

•

világ- vagy globális névtárak, amelyek a teljes Földre kiterjednek (pl. az ADLG, 8. ábra). 94


13. ábra: New Zealand Geographic Placenames Database

14. ábra: Kárpát-medencei Magyar Kutatási Adatbázis

A mai országhatároktól független (annál kisebb vagy nagyobb) területre vonatkozó névtárak alapja sok esetben valamilyen igazgatási (egy-egy tartomány, megye) vagy természeti egység (pl. Magas-Tátra hegyvilága, Antarktisz névtára). A harmadik gyakori típus valamilyen társadalmi jelenség elterjedési területének névtára, pl. valamely népterület (egy nép relatív etnikai többségének területe), valamely nép névterülete (a

95


saját nyelvű névkincs területe),73 de ide tartozhat az előbbiekben említett, ókori és középkori latin neveket tartalmazó Orbis Latinus névtár is. Az interneten található földrajzi névi adatbázisokat, névtár-szolgáltatásokat összetett szempontrendszer szerint vizsgálhatjuk (15. ábra).

15. ábra: Névtárak vizsgálata különböző szempontok szerint

FARAGÓ Imre, A magyar földrajzinév-használat, Könyvtári figyelő, 51. évfolyam (2005), 4. szám.

73

96


FÖLDRAJZI NÉVTÁRAK KÖRNYEZETBEN

WEB 2.0-S

A „web 2.0” (web kettő pont nulla) kifejezés 2004ben jelent meg először, az új generációs on-line szolgáltatások elterjedésével. A web 2.0 újszerűsége abban mutatkozik meg, hogy egyszerű technikai szolgáltatás helyett egyre inkább közösségi, hálózatépítési térként kezelik a felhasználók. Fontos jellemzője a szinergia, a tartalom megoszthatósága, a felhasználó bevonása a tartalom aktív létrehozásába, alakításába, újrafelhasználásába. Az újrafelhasználás kedvelt elnevezése a „mashup”, amely olyan kompozit világhálós alkalmazás, mely több forrásból dinamikusan kombinálja össze a tartalmakat. Jelenleg a legtöbb mashup alkalmazás a Google Maps-hez kapcsolódik, ahol az űrfelvételek, illetve a térképi adatbázis szolgál alapként, és a felhasználók ehhez fűzik hozzá a saját adataikat. Felhasználói szempontból a következő előnyöket kell kiemelni: • • • • •

Teljes világot lefedő, részletes térképi és névrajzi adatbázis Földrajzi hely szerinti keresési funkciók Könnyen kezelhető, intuitív felhasználói felület Testreszabható, kiterjeszthető nyílt programozási felület (API) Ingyenes, mégis magas színvonalú és megbízható szolgáltatás

Ez az öt szempont így együtt soha nem tapasztalt népszerűséget hozott a különféle földrajzi szolgáltatásoknak. Számtalan mashup épül ezekre az új szolgáltatásokra, mert viszonylag egyszerűen lehet külső online adatbázisokhoz kapcsolódni. Bármilyen olyan adatbázist meg tudunk jeleníteni a térképen, amely tartalmaz valamilyen földrajzi vonatkozást, legyen az akár koordináta, valamilyen földrajzi utalás, vagy akár címjegyzék. Ezek gyakorlati megvalósításai a legkülönbözőbb alkalmazási területeket ölelik fel, a bűnözők terü-

97


leti statisztikájától a léggömbversenyek lebonyolításán át az irodalomtörténeti elemzések bemutatásáig.74 A térbeliség előtérbe kerülésével párhuzamosan a földrajzi névterek szerepe is növekszik. Az új generációs földrajzinév-tárak talán legfigyelemreméltóbb példája a Geonames.org (16. ábra). Sokak szerint a 10 leghasznosabb mashup közé tartozik, rögtön a Google Maps után; a statisztikák szerint naponta 3 millió kérés érkezik a szerverhez. A Geonames olyan nyílt hozzáférésű adatbázis, amelyben jelenleg 8 millió földrajzi név szerepel, a hozzájuk kapcsolódó szélességi-hosszúsági koordinátákkal (WGS84), névváltozatokkal, objektumtípussal és egyéb kapcsolódó adatokkal. Legnagyobb számban településneveket találunk (2,2 millió), ám összesen 645 féle definiált objektumtípus van, a különböző közigazgatási egységektől kezdve a fjordokon át a közép-óceáni hátságokig. A Geonames erőssége tehát az, hogy adatbázisa és szolgáltatásai segítségével minden olyan adathoz, amely rendelkezik valamilyen földrajzi vonatkozással, földrajzi nevet tudunk megfeleltetni.

ZENTAI László – GUSZLEV Antal, Web2 és Térképészet, Geodézia és Kartográfia 2006/11. 74

98


A szolgáltatás népszerűségét nagyban növeli, hogy a Geonames által alkalmazott Creative Commons 3.0 licenc lehetővé teszi az adatok szabad felhasználását, az eredeti forrás megjelölése mellett. Sok európai államban, így hazánkban is komoly gondot okoz a megfelelő adatpolitika hiánya. A földrajzi nevek gyűjtése és katalogizálása állami intézmények feladata, számukra azonban gyakran érdekeikkel ellentétes az adatok nyílt és ingyenes szolgáltatása. Ez a tény jelentősen hátráltatja a közösség érdekeit, és egyben ösztönző erő is, hogy minél jobb és teljesebb adatbázist állítsanak össze, akár a hivatalos szervek kikerülésével. Ami a névtárak jövőjét illeti, mindenképp szükséges az ontológia definiálása és bővítése. Ekkora adatmennyiségnél már sokat jelent, ha a számítógépek számára is megpróbáljuk érthetővé tenni az elemek közötti szemantikai kapcsolatokat. A Geonames-ben erre már találunk példát, a World Wide Web Consortium által javasolt szabványos formában (Resource Description Framework – RDF és OWL Web Ontology Language – OWL) (17. ábra).

17. ábra: Geonames ontológia

99


További, földrajzi nevekhez köthető web 2.0 kezdeményezések: • • •

www.wikimapia.org (Let’s describe the whole world) www.placeopedia.com (Connecting Wikipedia articles with their locations) www.openstreetmap.org (A free editable map of the whole world. It is made by people like you.)

ÖSSZEFOGLALÁS A földrajzinév-tárak fejlődésének főbb lépéseit, a nyomtatott, a digitális és a térinformatikai alapú névtárakat mutattuk be. A digitális névtárak tulajdonképpen szintén térinformatikai adattáraknak számítanak (tartalmaznak térbeli adatot is), de az alapvető szemléletbeli különbségek és lehetőségek miatt célszerűbbnek tartottuk kettéválasztani őket. A földrajzinév-tárak digitális formátuma és adatbázisrendszerekké történő alakítása lényegesen kiszélesítette a hagyományos névtárak használati és bővítési lehetőségeit. Alkalmassá tette a névtárakat arra, hogy integrálhatók legyenek természet- és társadalomtudományi, idegenforgalmi stb. információs rendszerekbe is, szemben a hagyományos névtárakkal, amelyek elsősorban csak a térképészek és nyelvészek számára voltak kutatási források. A digitális névtárak térinformatikai környezetbe való átültetése pedig – a meglévő funkciók mellett – a térbeli elemzésekben és a térképi megjelenítésben hozott jelentős fejlődést. Mindhárom forma másmás alapelvekre épül, a nyomtatott névtárak „földrajzi szótárhoz” hasonlóan működnek, a digitálisaknál a relációs adatbázis-szerkezet a meghatározó jellemző, a térinformatikai névtáraknál pedig a térbeliség kap nagyon fontos szerepet. A web 2.0 környezetben létrejött szolgáltatások elősegítik a földrajzi nevek megismerését és hatékonyabb használatát. A jól felépített névtár-ontológiák várhatóan nagy szerepet kapnak a szemantikus web kialakulásában is. 100


HIVATKOZÁSOK 1.

Rob ATKINSON, Jens FITZKE: Gazetteer Service Profile of the Web Feature Service Implementation Specification, OpenGIS Discussion Paper, 2002

2.

FARAGÓ IMRE, A magyar földrajzinév-használat, Könyvtári figyelő, 51. évfolyam (2005), 4. szám.

3.

FÖLDI Ervin, Az ENSZ földrajzinév-egységesítési szakkifejezések szótára, Névtani értesítő, 14.

4.

Földrajzinév-tár I. Magyarország fontosabb domborzati-, táj- és víznevei, Bp., 1982.

5.

Földrajzinév-tár II. Veszprém megye, Bp., 1981.

6.

Glossary of Terms for the Standardization of Geographical Names, United Nations, New York, 2002.

7.

GUSZLEV Antal, LUKÁCS Lilla, Földrajzinév-kutatás térinformatikai eszközökkel, 3. Magyar Földrajzi Konferencia, Budapest, 2006.

8.

Toponymic Data Files, Report of the Working Group on Toponymic Data and gazetteers for the period 1998–2002, UNGEGN, 2002.

9.

ZENTAI László, GUSZLEV Antal, Web2 és Térképészet, Geodézia és Kartográfia, 2006/11.

10. http://gnswww.nga.mil/geonames/GNS/index.jsp 11. http://fish.fomi.hu 12. http://middleware.alexandria.ucsb.edu/client/gaz/adl/index.jsp

101

S A L G M A R I

Á N É M E D V E C Z K I A N N A

AZ ADATTÁRHÁZTECHNOLÓGIÁRÓL DIÓHÉJBAN BEVEZETÉS Az információ- és könyvtártudomány, illetve a könyvtárügy egyik központi és meghatározó kérdésköre az információfeldolgozási, -szervezési, -kezelési, -keresési folyamatok egységesítése, szabványosítása, azaz „nemzetköziesítése”. Hangsúlyt ez a terület már jóval a könyvtári munkafolyamatok automatizálása, az informatika térhódítása előtt kapott, vagyis ez a problémakör valójában a primer és szekunder információ(k) sokféleségéből fakad, és ehhez csak egy adalék, hogy az utóbbi néhány évben/évtizedben kezelésüket számítógépek segítségével próbáljuk megoldani. Új fejlődési irányokat találhatunk, ha az információfeldolgozás egységes elvei mellett az információk tudatos és jól átgondolt szervezése is komoly hangsúlyt kap. Erre egy lehetséges módszert jelentenek az adattárház-rendszerek. Az adattárház-rendszerek megismeréséhez érdemes megvizsgálni alkalmazásuk környezetét, működtetésük alapvető indítékait, céljait. S bár az adattárház-technológiák alkalmazásának mozgatórugója elsősorban a vállalati, piacgazdasági környezet, s az adattárház megoldás megvalósításával többek között gazdasági döntések információs hátterét biztosító adat- és tudásbázishoz juthatunk; mára az adattárház technológia már nem csak döntéstámogatási célokat szolgál,

103

S.MEDVECZKI MARIANNA: ADATTÁRHÁZ-TECHNOLÓGIA

hanem általános adatszervezési és elemzési célokat megvalósító eszközzé fejlődött. Az előadás célja a rohamosan terjedő adattárház-technológia rövid ismertetése, áttekintése az érdeklődés felkeltésére, valamint egy konkrét megvalósításának bemutatása.

OLTP

RENDSZEREK

Az adatbázisok alkalmazási területeit vizsgálva olyan klasszikus alkalmazási területek jutnak az eszünkbe, mint egy könyvtári rendszer, jegynyilvántartás, számlák kezelése, termelési adatok vagy raktárszintek nyilvántartása. Ezen alkalmazások közös jellemzői, hogy e rendszerekben az adatbázis a vizsgált rendszer adminisztrálására szolgál, vagyis az adatbázisban a vizsgált rendszer leírása, a vizsgált rendszer aktuális állapota található. Egy raktári nyilvántartó rendszerben az adatbázis a raktár aktuális feltöltöttségét mutatja, megadva, hogy mely termékekből mennyi és hol helyezkedik el, vagy egy könyvtári rendszerben, hogy adott dokumentum mely olvasónál mennyi ideig lesz kölcsönzésben. Az ilyen rendszereken nyugvó alkalmazásokra jellemző, hogy a lekérdezési funkciók mellett számos olyan funkciót is tartalmaznak, amelyek megváltoztatják az adatbázis tartalmát. Ezek a funkciók a valóságban megjelenő folyamatokat képzik le az információs rendszer szintjén. Ezeket nevezzük OLTP (On Line Transaction Processing) rendszereknek, amelyek elsődleges célja az adatok tárolása. Ma már a vállalatok gyakran használnak valamilyen ERP (Enterprise Resource Planning) informatikai rendszert, azaz integrált vállalatirányítási rendszert, vagy például könyvtárak integrált könyvtári rendszert a napi működésük támogatására. Többek között egy könyvtári kölcsönzési modul tervezésénél például felmerülhet a kérdés, hogy egy kölcsönzési egység mit jelentsen: egy létező, élő kölcsönzést vagy egy valamikor korábban megtörtént kölcsönzést. Fontos döntés tehát, hogy az adatbázis csak az aktuális állapot nyilvántar-

104


tására, vagy a korábbi állapotok megőrzésére is vonatkozzon. Ez utóbbi esetnek is van értelme és célja, hiszen a múltbeli állapotok hasznos információkat adhatnak a felhasználó számára. Technikailag pedig az adatbázis korábbi állapotainak megőrzése rendszerint nem igényel nagy programozói ráfordítást, csak a rendelkezésre álló tárolókapacitás szabhat határt az archív anyagok megőrzésének. A hagyományos, aktuális állapot lekérdezésére vonatkozó alkalmazások mellett kialakultak az információs rendszerek új elemei, amelyek a múltbeli események elemzése alapján a jövőben várható folyamatok megtervezését segítik. Az így kialakuló alkalmazásokat szokás döntéstámogató rendszereknek (DSS, Decision Support System) nevezni. A DSS rendszerek nemcsak az alkalmazott műveleti lépésekben, a felhasznált adatmennyiségben különböznek a hagyományos alkalmazásoktól, hanem felhasználói körükben is. Míg a hagyományos alkalmazásokat az operatív tevékenységben résztvevő dolgozók használják, addig a DSS rendszerek a vállalatok, cégek vezetői számára készülnek. Az adattárház-technológia a döntéstámogatás fontos eleme. Célja, hogy biztosítsa a kulcsfelhasználók, különösen a vezetők számára a cég adatainak elérhetőségét; a bonyolult, összetett kérdésekre adott válaszokkal, a múltbeli események elemzésével a stratégiai döntéshozatalt támogassa. Az adattárház adatbázisának adatai akár több tranzakciós rendszer adatbázisából, külső adatokból és nagy időtartomány összesített adataiból származnak, ezért az adatbázis mérete igen nagy is lehet. Az elsődleges művelet az olvasás, ezért a lekérdezések optimalizálására kell törekedni. A betöltött adatok az adattárház információs adatbázisában kerülnek tárolásra. Az adatstruktúrákat leíró metaadatokat az adatszótár tárolja és rendszerezi. A tárházat adminisztráló és monitoring eszközök felügyelik.

105


ADATTÁRHÁZ

KRITÉRIUMOK

Az adattárház fogalmának meghatározására különböző kísérletek történtek, a szakirodalomban talán leggyakrabban idézett és leginkább elfogadottá vált definíció W. H. Inmon nevéhez fűződik: „Az adattárház tárgyorientált, integrált, tartós és időfüggő adatgyűjtemény, amelyet elsősorban a döntéstámogatásban használnak”. • •

• •

•

Tárgyorientált (tematikus): alkalmazásainkat annak funkcióit, feladatait szem előtt tartva tervezzük. Integrált: az adattárház az adott tárgyterületekhez kapcsolódó adatokat az érintett adatforrásokból szabványosított formára alakítva egy helyre gyűjti, és egységbe rendezve kezeli. Tartós: az adattárházban jelen lévő adatok alapvetően változatlanok. (Ha a forrásrendszer adatai változnának, az adattárház a változást követi, de úgy, hogy a bennlévő adatot megfelelő érvényességi idővel látja el, majd felveszi az új állapotot is, megfelelő időbélyeggel. A bekerült adatok tehát tartósan meg is maradnak, így biztosítva a hosszú távú és reprodukálható elemzések lehetőségét.) Időfüggő: forrásrendszereink adatai nagyrészt egy adott időpontra érvényesek – a jelenre, az adott aktuális állapotokat írják le, ehhez képest a megcélzott elemzések leginkább történeti adatokon, az adatok idősorain használatosak. Az adattárház ennek megfelelően az adatokat időfüggően, időpontok és időintervallumok szerint tárolják és kezelik, a forrásrendszerek változását nyomon követve.

Az adattárház fogalmat az általános technológiai értelmezésén kívül akkor használjuk, ha vállalati szinten lát el adatgyűjtő, adatszolgáltató funkciókat ehhez általában több adatforrást felhasználva.

106


OLAP

RENDSZEREK

Az operatív adatbázisokon működő tranzakciófeldolgozó (OLTP) rendszerekkel összevetve az adattárházak más jellegű adatkezelést igényelnek. Itt az OLAP (On Line Analytical Transaction Processing)-ot támogató adatbáziskezelőkre van szükség, amely hatékonyan valósítja meg az adatok közötti kapcsolatok kezelését, a nagytömegű adatot érintő lekérdezéseket, és analitikus műveletekkel szolgál. Az adattárházak a multidimenzionális adatmodellt támogatják, amelyben könnyebben le lehet kérdezni a különböző mennyiségek közötti összefüggéseket, mint a relációs modellben. Az OLAP rendszerek fő célja tehát az adatkinyerés, ahol hangsúlyos kérdés a komplex lekérdezések végrehajtásának minél hatékonyabb biztosítása. A lekérdezés biztosítása nemcsak a művelet optimalizálását jelenti, hanem annak eldöntését is, milyen kiegészítő információkra van szükség a hatékony kezelés megoldásához. Mára általánosan elfogadottá vált nézet, hogy az OLTP és OLAP rendszerek különböznek annyira céljaikban, felhasználóikban, módszereikben, hogy érdemes az online elemző alkalmazásokat és rendszereket teljesen külön, független rendszerként megvalósítani.

ÜZLETI

INTELLIGENCIA

Az üzleti intelligencia (Business Intelligence) Howard Dresner szerint olyan módszerek, fogalmak halmazát jelenti, amelyek a döntéshozás folyamatát javítják adatok és ún. tényalapú rendszerek használatával, amelyek a következő alrendszereket foglalják magukba: • •

Vezetői információs rendszerek (Executive Information Systems, EIS) Döntéstámogató rendszerek (Decision Support Systems, DSS)

107


• • • •

Vállalati információs rendszerek (Enterprise Information Systems) Online Analytical Processing (OLAP) Adat- és szövegbányászat Adatvizualizáció

Az üzleti intelligencia feladatát képezi a heterogén forrásokból származó, nem összefüggő adatok azonosítása, integrálása és elemzése, vezetői információs igények kiszolgálása, megfontolt üzleti döntések és megfelelő intézkedések meghozatala az üzleti folyamatok javítása és többek között a „Mi lenne, ha …?” típusú elemzések készítése érdekében.

ADATTÁRHÁZ

ÉS A MULTIDIMENZIONÁLIS ADATMODELL

Az adattárház, mint már korábban láttuk, egy gyűjtőhely, ahol az adatrendszer számtalan forrásból származó, integrált adatokat tartalmazhat. Az adattárház azonban több, mint egyszerű adatlerakat, mivel az adattárházban nemcsak maguk az adatelemek, hanem a köztük fennálló kapcsolatok is tárolásra kerülnek. Az adattárházak komponenseiként rendszerint a következők említhetők: • • • • •

Adatok adattárházból történő kinyerését és betöltését segítő eszközök (ETL – Extraction, Transformation and Load – Tools) Adatszolgáltatás az alkalmazások felé (OLAP tools) Adatanalízis, elemző alkalmazások – frontend oldal Felügyelet, adminisztráció és metaadat-kezelés Adatbázis technológiák (MOLAP, ROLAP, HOLAP megoldások)

A bemeneti oldalon az adatforrások állnak, amelyek típusukat tekintve igen heterogének lehetnek. Egy vállalat

108


tranzakciós rendszerei által kezelt adatbázisok mellett külső adatforrások is szerepelhetnek itt, ezért megfelelő eszközök szükségesek az adatok kinyeréséhez az adatforrásokból, az adatok tisztításának és transzformációjának elvégzéséhez, az összegyűjtött adatok betöltésére és frissítésére. A betöltött adatok az adattárház információs adatbázisában kerülnek tárolásra, ahol az adatstruktúrákat leíró metaadatokat az adatszótár tárolja és rendszerezi. A kliens oldalon az adatok kiaknázása lekérdező, jelentéskészítő, analizáló, adatbányászati eszközökkel történik. Az adattárház a vizsgált adatok együttese, a normál és metaadatokkal, a kapcsolatokkal és az integritási szabályokkal együtt. Az adatszótár az adattárház része, amelyben a tárolt adatrendszer leírása, az adatrendszer struktúrája foglal helyet. Az adatszótárban tárolják a funkcionálisan teljes adattárház megvalósításához szükséges metaadatokat, például az adatok típusairól, kapcsolatairól vagy az adatok forrásáról. A felhasználónak úgy kell tudnia hozzáférni az adattárházban tárolt adatokhoz, hogy ne kelljen ismernie az adatok elsődleges forrását és struktúráját. A metaadat-szótárat megvalósító komponensek kulcsfontosságú szerepet játszanak az adattárház adminisztrációjában, de egyben az adattárház használhatósága is nagyban múlik minőségükön. Az adattárház működéséhez elengedhetetlen valamilyen adatbázis-kezelő használata. Az adatbázis-kezelők lehetnek általános célú, hagyományos adatbázis-kezelők, vagy lehetnek speciálisan multidimenzionális adattárolásra kifejlesztett adatbázis-kezelők. A multidimenzionális adatmodellben az adatokat úgy tárolják, hogy minél könnyebben le lehessen kérdezni a különböző adatok, értékek közötti kapcsolatot, szemben a relációs modellel, ahol a különböző adatok szeparált táblákban kerülnek elhelyezésre. A multidimenzionális modell szemantikai rétegének alapfogalmai a következők: Tényadatok (~mutatószámok): azok a mérhető, numerikus adatok, amelyeket elemezni és ehhez tárolni szeretnénk. Ilyenek például az árbevétel, súly, eladott darabszám, nyereség, raktárkészlet stb.

109


Dimenzió (~jellemző): azok a tulajdonságok, amelyek szerint a tényadatokat csoportosítani, jellemezni tudjuk. A dimenziók egymástól független (bár nem feltétlenül teljesen független, ortogonális) jellemzői egy-egy tényadatnak. Dimenzió lehet például idő, hely, termék, alapanyag, szállító neve, raktár, költségnem, költséghely stb. Tag: a dimenzió egy érték-előfordulása, azaz egy koordináta érték a dimenzió él mentén. Hierarchia: a dimenziók elemei hierarchiákba rendezhetők, adott dimenzió esetén az egyes tagok közötti hierarchikus kapcsolatrendszert írja le. Ilyen hierarchikus szerkezet lehet például idő dimenzió esetén egy év – hónap – nap felbontás vagy egy irodai szoba esetén egy épületegyüttes – épület – emelet – szoba felbontás. A dimenziók számára csak a kiválasztott adattárház-rendszer ad megszorítást. Felbontás: az a legkisebb adategység, amely egységekben az adatot még elérhetővé szeretnénk tenni, tehát amikor az adat jellemzéséhez minden dimenziót felhasználunk. Adatkockánként több típusú tényadat is szerepelhet egymás mellett, ekkor azonban mindegyikük granularitása (felbontása) meg kell egyezzen.

A következő példa egy nagyon leegyszerűsített háromdimenziós változatát ábrázolja egy nemzetközi kereskedő cég eladási adataiból alkotott adatkockának. A mutatószámok (tényadatok) a kocka celláiban helyezkednek el, és egyértelműen azonosíthatók egy idő-termék-hely hármassal. Ennek következménye, hogy a kocka legkisebb felbontásként a következő adatot tartalmazza: egy adott napon egy adott fióküzletben mennyi fogyott egy adott termékből, és ebből mennyi árbevétel keletkezett. A multidimenzionális modellben tehát azt a tárolási egységet, mely a kapcsolódó mennyiségeket összefogja, kockának nevezik. A kocka minden éle egy-egy önálló mennyiségnek felel meg, míg a kocka belsejében azon mennyiség előfordulásai foglalnak helyet, melynek az élekben megadott mennyiségektől való függését vizsgáljuk. A kockában az adatok, értékek több más mennyiség függvényében jelennek meg.

110


Az adatkocka modellel jelentősen javítható az összetartozó mennyiségek közötti kapcsolatok feltárása is, hiszen a kockában nem a puszta értékeken keresztül kapcsolódik a kocka belsejében tárolt és a kocka élein elhelyezkedő mennyiség, hanem egy bonyolult pointer láncolatot hoznak létre, mely lehetővé teszi, hogy egy adott értékből közvetlenül elérjük a hozzá kapcsolódó független mennyiségeket. Egy adattárház adatbázisa relációs DBMS-en is megvalósítható, ha az rendelkezik multidimenzionális adatmodellt és OLAP támogatást biztosító kiterjesztésekkel (ROLAP). A multidimenzionális OLAP szerverek (MOLAP) az adatmodellnek megfelelő formában tárolják és kezelik az adatokat.

111


ADATTÁRHÁZ-MŰVELETEK Az adatkockákon végzett elemzésekhez kockák közti műveleteket, operátorokat használhatunk. Ezek a műveletek az adatkockához egy új adatkockát rendelnek, céljuk általában az, hogy az új adatkocka az adatok egy olyan nézetét biztosítsa, ami az elemzési szempontunknak megfelel, esetleg táblázatként meg is jeleníthető. A legelterjedtebb műveletek a következők: • • • • •

Aggregáció (roll up): csoportosításokat végzünk valamely dimenzió mentén (például városok helyett országok szerint nézzük adatainkat). Lefúrás (drill-down): az előzővel ellentétes művelet, amely csökkenti a csoportosítás szintjét, és egyre részletezettebben nézhetjük az adatokat. Elforgatás (pivoting): az adatkocka elforgatását értjük alatta, az adatok multidimenzionális képét alakítja át például kétdimenziós táblázatba. Szelekció (selection, filtering): egy adott dimenzió egy adott elemét kiválasztjuk, és a hozzá tartozó adatokat dolgozzuk fel, míg a többi adatot figyelmen kívül hagyjuk. Szeletelés (slicing and dicing): a kocka szeletekre bontása. A szelekcióhoz hasonlóan azt értjük alatta, amikor egy adott dimenziót fix értékkel lekötünk, és ily módon vizsgáljuk a kocka egy nézetét, egy szeletét. Dicing alatt a kocka egy részkockájának kivágását értjük.

AZ MIS Az MIS napjaink egyik meghatározó adattárházmegoldása, korábban a Systems Union, ma az amerikai Infor Global Solutions égisze alatt fut. Az MIS vállalati teljesítmény menedzsment megoldásai lefedik az összes vállalati operatív, tervezési és elemzési szükségleteket, lehetőséget te-

112


remtve az egyes tevékenységek eredményeinek vállalaton belüli áramoltatására. Lényege: a szigetszerű megoldások helyett egy innovatív, moduláris, rugalmasan bővíthető üzleti intelligencia megoldás kialakítása. Az MIS üzleti intelligencia szoftvercsomagjának neve MIS DecisionWare. Fő komponensei: • a felhasználói felületek: o a tervezés, elemzés eszköze, az MIS Excel Integration, o a vezetőség számára jelentéseket bemutató MIS onVision, o az adatok módszeres elemzését végző MIS DeltaMiner; továbbá • az előre elkészített, később testre szabható alkalmazások: o az integrált pénzügyi tervezést végző MIS Enterprise Planning, o a konszolidációt végző MIS Consolidation, o a leányvállalatokat vagy telephelyeket kezelő MIS Package; • és a közös platformjuk, az MIS Alea multidimenzionális adatbázis-kezelő és a sokféle adatforrásból (pl. SAP, MS SQL Server) adatbetöltést végző MIS ImportMaster. Minden MIS alkalmazás az MIS DecisionWare technológiára épül. Ez a megoldás képes kapcsolódni bármely vállalati forrásrendszerhez. Az alapadatok megbízhatósága és elérhetősége minden tervezés, beszámolás, elemzés alapja. Ezek az adatok leggyakrabban különböző forrásrendszerekben találhatók, és szerkezetileg a legritkább esetben felelnek meg a felhasználók követelményeinek. Az MIS Application Server, vagyis az MIS Alea konzisztens módon fogja össze ezeket az adatokat, és a tervezés, jelentés, elemzés egységes platformját képezi. Az MIS DecisionWare-ben valamennyi – akár előre

113


elkészített, akár egyedi – alkalmazás, felhasználói felület azonos platformot, egyazon adatbázist használ.

Az MIS Alea multidimenzionális, valós idejű OLAP adatbázis technológia érdeme, hogy az adatok és struktúrák importálása tetszőleges forrásrendszerből megoldható (például SAP R/3-ból, BW-ből).

3. ábra: Dimenziók kialakítása az MIS Alea-ban

114


Az MIS Enterprise Planning rugalmas elemző alkalmazás, amely szabványos technológiai megoldásokra épül (többek között adattárház-technológiára) felhasználóbarát testreszabhatósággal ötvözve. Az üzleti felhasználók IT ismeretek nélkül létre tudnak hozni igényeik szerint egyedi struktúrákat, szabályokat, részletes lekérdezéseket, terveket és jelentéseket. Az MIS Enterprise Planning beépített része az üzleti intelligencia, képes többdimenziós táblák, grafikonok készítésére, tetszés szerinti számú paraméter (dimenzió) rugalmas ábrázolására.

4. ábra: Riport definiálás MIS Enterprise Planning-ben

A különböző vállalati felhasználók specifikusan a számukra szükséges mennyiségű és részletességű információt kapják, illetve dolgozhatják fel. Tudásszintjüknek és érdeklődésüknek megfelelő funkciókkal ellátott felhasználói felületet tudnak kialakítani és használni az MIS Excel Integration, az MIS onVision vagy az MIS DeltaMiner valamelyikének alkalmazásával. Az MIS Excel Integration a tervezés, jelentéskészítés és ad hoc elemzés céljára egyaránt alkalmas. A megszokott Excel környezetet használja egy új menüponttal bővítve,

115


amelynek hatására a felhasználó az MIS DecisionWare közös adatbázis adataival dolgozhat, sokdimenziós elemzéseket, tervezést végezhet. Az elemzések egy adatkocka-varázsló segítségével a közös adatbázissal való folyamatos kapcsolat nélkül, offline is elvégezhetők, saját helyi adatterületek létrehozásával. Az elemzések közzétehetők weben, importálhatók és közzétehetők más felhasználói felületen, az MIS onVisionben is.

5. ábra: MIS Excel Integration-ben végzett tervezés és elemzés

Az MIS onVision nagy és kis mennyiségű adatokat érintő jelentéskészítő eszköz, amely dinamikusan tájékoztatja címzettjeit a legfrissebb adatokról. Gyors, közvetlen hozzáférést biztosít például SAP-ben, Microsoft SQL Serverben és más adatforrásokban tárolt adatokhoz. A jelentések automatikusan alkalmazkodnak az adatok és a struktúrák módosításaihoz, ezért karbantartási szükségletük minimális. Az elkészült jelentések a hálózaton (intranet, internet) éppúgy rendelkezésre állhatnak, mint Windows-kliens közvetítésével. Az Excelben létrehozott jelentések szintén importálhatók és közzétehetők a hálózaton.

116


6. ábra: Adatközzététel MIS on Vision-ben

Az MIS DeltaMiner olyan eszköz, amely lehetővé teszi megfelelő elemzési módszerek kiválasztásával az irányítás és az eredmények figyelemmel kísérését, a trendek korai felismerését és a minél gyorsabb reagálást. Segítségével felfedezhetők az adatok, az adattömeg mögötti jelenségek, folyamatok és összefüggések. A MIS DeltaMiner automatizált, rugalmas adatelemző-rendszer, amelyet a felhasználó messzemenően a saját arculatára szabhat igényeinek megfelelően.

7. ábra: Elemzés a MIS DeltaMiner segítségével

117


IRODALOM 1.

R. ELMASRI, S. B. NAVATHE, Fundamentals of Database Systems, Benjamin Cummings, 19942.

2.

W. H. INMON, Building the Data Warehouse, 19962

3.

R. KIMBALL, M. ROSS, The Data Warehouse Toolkit, John Wiley & Sons, Inc., 20022.

4.

MIS DecisionWareManuals, MIS, 2006.

5.

SIDLÓ Csaba, Összefoglaló az adattárházak témeköréről, ELTE, 2004.

118

F

O D O R

J

Á N O S

SZOLGÁLTATÁSOK ÉS IGÉNYEK – A SZÜKSÉGES KOMPLEXITÁS A Web 2.0 kapcsán első asszociációnk a közösségiség, a felhasználó aktív részvétele. Kétségtelen, a legfontosabb és leglátványosabb változások jellemző kulcsszava ez. Ezt a konferenciát azonban az EMIR irodalmi adatbázis fejlesztése során érintett problémák ihlették, s az EMIR egy épített, tervezett adatbázis-szolgáltatás. Ezért szeretném e gondolatmenet kiindulópontjaként a közösség helyett a Web 2.0 másik fontos kulcsszavát, az „adatbázist” választani. Jogosak ugyanis a kételyek, s érthető a gyakran homályos, amorf Web 2.0 definíció: a Web 1.0 tipikus közösségi adatbázis-szolgáltatásaiban, a fórumokban megvolt, fellelhető volt mindaz, amire a mai Web 2.0-ás szolgáltatások építenek. Ismeretfelhalmozás és -megosztás, chat-szerű jelenlét-jelzés, rég nem látott ismerősök, iskolatársak felkutatása, napló-topikok, fényképbemutató, sőt -értékelő topikok. A nagyobb fórumrendszerek felvették látogatóik érdeklődési körének domborzatát, a témák és a hozzászólók aktivitása ott sűrűsödött, ahol igény volt rá, s gyakorlatilag minden mai szolgáltatásról kimutatható, hogy a fórumokban jelentkező hálózati közösségi igényekre tökéletesített, célorientált alkalmazás. Mert a one-fit-for-all közösségi tér nem lehet minden célra tökéletes. Kiküszöbölendő a fogyatékosságokat, a linearitást, a visszakereshetetlenséget és rendezetlenséget, az esetleges topikcímek és tartalmi redundancia frusztráló problémáit, a Web 2.0 az internetes tartalmak átfogó adatbázisba rendezéséről, a publikálás dinamikus, összekapcsolható rend-

119

FODOR JÁNOS: SZOLGÁLTATÁSOK ÉS IGÉNYEK

szerekbe tereléséről szól. Hiszen adatbázisként volt értelmezhető már a honlapok statikus rendszere is – relációként a linkekkel –, ám a statikus Web a hipertext idea forradalmisága ellenére nem hatolt, s nem is hatolhatott sokkal mélyebbre, mint dokumentumok relációinak egyirányú definiálhatóságáig, s a jelentések, gondolatok, asszociációk hálóját átfogni, azt frissen tartani túl merevnek bizonyult. A fórumokban rejlő lehetőségek és az adatbázis alapú tartalomszolgáltató rendszerek összekapcsolásával napjainkra kiteljesedőben van a mindenki számára elérhető és természetes publikálás; automatikus frissüléssel, kereséssel, „wysiwyg” szerkesztéssel fórumok helyett wikiken, honlapok helyett adatbázis alapú blogokon, vagy a passzívabb, névjegyszerű jelenlét lehetőségével a közösségi hálózatok adatlapjain. A formálódó új webtartalomban a relációkat profilok, döntések, választások statisztikai hasonlósága határozza meg, s könnyedén vizionálhatunk ízlésünket „kitaláló” tévéadásokról, vagy baráti köröket szervező szolgáltatásokról. * Amikor 2002 környékén megismertem az EMIR koncepcióját, szinte riasztónak tűnt a maximalista elképzelés, az irodalom filológiai felbontású megközelítése és webrevitele. Kétségesnek tűnt, szükség van-e ennyire komplex adatbázisra, de a negatív példák, a statikus weboldalakon kereshetetlenül sorjázó értékes adatok indokolták a tervezők nagyszabású elgondolásait. Miért ennyire zárt, miért nem lehet minden szempontból lekérdezni, testre szabni, hozzászólni, vitakört alakítani, így nem motivál! S a mai napig, miközben összefüggő, minden elkülöníthető információjában csereszabatos adatbázissá kezd összeállni a hálózati tartalom, továbbra is láthatunk komoly költségvetéssel elkészült, elszomorítóan retrográd megoldásokat. Mert ha leül egy asztalhoz egy irodalmár (vagy bármely tudományterület szakértője), egy programozó és talán egy hálózati kommunikációban, webes fejlesztésekben jártas „webszakértő”, bizony ritkán értik meg egymást. A kommunikáció nehézkes, az együttműködés s főleg az eredmény 120


kétséges, mert a megrendelő nem látja át a lehetőségeket, a programozó nem tudja kitalálni az igényeket, a „webszakértő” pedig nem érti az adott terület sajátos szerkezetét. Rossz esetben győz a megrendelő, a programozó elvégzi a megrendelt munkát, a webszakértő pedig elkullog, s a többi webszakértővel találkozva együtt bosszankodnak az eredményen, ami egy önmagában érvényes, épphogy csak kereshető dokumentumtár. S valóban, hány embert érdekelhet egy szakterület mélyszerkezete – érdemes-e rengeteg munkát befektetni az adatbázisba, ha a megvalósult kompatibilitás jegyében úgyis széthordja a felszínes közérdeklődés, s más logó, más zászló alatt, más kontextusban mutogatják az eredményeket? Inkább legyen nehezen hozzáférhető, egyszerűen feldolgozott, csak a területen amúgy is jártas szakembereknek értelmezhető: akit érdekel, úgyis rászánja az időt. S ijesztő lehet felmérni, hallani és megérteni, hogy a szemantikus Web kialakulásának – akár folkszonómia, akár takszonómia felől közelítünk – alapvető feltétele az adatstruktúra szabályozottsága, az információegységek atomra bontása s a kontextus kialakításának felhasználóra bízása. A szerteágazó dokumentumstruktúrákon bolyongás élményét jórészt leváltja a személyre szabható, birtokolt grafikus interfészek használata, a kezelőfelületté integrált keresés, lekérhető globális kulcsszó szótár, saját ízlés szerint kialakított tartalmú feed-olvasó és számtalan praktikus, rendezett, dinamikus tartalom, mely összesűríti a felhasználók egyedi nézeteibe a különböző hálózati forrásokból leszűrt kivonatos információkat. A bőségnek határt szab az áttekinthetőség, a súlyozást meghatározza a napi rutin, ez dönti el, miből indul ki, s hol hagyja el azt, amit a felhasználó sajátjának tart – érdeklődése belső körét –, s mi felé mozdul el. A választékot a formálódó rendszerben átlagolódva determinálja a tömeg s valamiféle szakértői rendezettség, de kiszorulhat az, ami nehezen kategorizálható, jelentőségében, értékében ellentmondásos, vagy véletlenszerű. Ha a netpolgár esetleges ízlésre és közösségi terekre szabott adatbázis-vetületekbe, kultúravetületek, webnézetek gráfjaiba helyezi magát, a tudás

121


eredeti kontextusa elporladhat, félreértelmezhető vagy értelmezhetetlen, ami megmarad belőle. A szakértők által teremtett tartalmak belső kontextusának megismerése, érzékelése túl komplex ismeret-együttest, előképzettséget, egyirányú elmélyülést igényel, s ha nincs különös motiváció, elmaradhat. A folkszonómia, tömegvélemény átlagoló erejével feltárt információktól tehát sokan, némi joggal, a középszer eluralkodását várják. *

Ahhoz, hogy egy szakértői munkával, fáradságosan előkészített szakterületi adatbázis-szolgáltatást hatékonyan és mégis teljes gazdagságában megőrizve kapcsoljunk ebbe a kivonatolva leegyszerűsítő, testreszabhatóságra és tömörségre törekvő rendszerbe, meg kell keresnünk a mechanizmus mozgatórugóit, a kontextusigényt szervező, komplexitást generáló erőket. Hol és mi kapcsolódik össze ezeken a tematikus helyeken, moduláris grafikus interfészeken, közösségi aktivitási színtereken, s milyen felhasználói igények mentén? A.

Az identitás/otthonosság igénye: intimszféra, térélmény (saját tér otthonossága), időélmény (saját idő, aktivitás-archívum mint identitás) forrásválogatás (RSS feedek választása). – tipikus aktivitás: elkülönítés, kisajátítás, domesztikálás

B.

(+A) a saját/a birtoklás/a hatalom tudatának igénye (kapcsolati hálók, tudásgyűjtemények) jelenlétkészség, annak birtoklása, gyűjtés és választás. – tipikus aktivitás: a felhasználó döntéseivel és felhalmozott javaival profilt szolgáltat magáról: nem tudatos hozzáadás

122


C.

(+ B + A) (egyéniség + az Egy default mű szerzőként birtoklása: A+B=C pl. wikipédia) Része lenni/összeadás, segítés, teremtés, előremozdítás. – tipikus aktivitás: hozzáadás, használva az erre szervezett struktúrákat, adatbázis alapú tartalomszolgáltató rendszereket

D.

A rendszer csúcsa lenni/kreativitás, kitűnés, siker, karrier-üzlet-képesség, ügyesség bizonyításának igénye. – tipikus aktivitás: a felhasználó maga is szervezővé válik (programozás, ráépítés-mashup, vállalkozás, struktúrateremtés mások aktivitásának / A+B+C aktivitások felhasználására)

A pontosabb célkép felé haladva tekintsük át, mit kapcsolnak össze a felsorolt, komplexitást generáló magatartásokra és igényekre épülő, szervezett WEB 2.0-ás szolgáltatások: •

•

•

felhasználói profilok, választások összekapcsolása szolgáltatás-felhasználók lenyomataiból (kereséshez, „targetáláshoz”, Web-intelligencia statisztikai alapon, önkéntes – vagyis nem tudatos – nyersanyagtermelés a szemantikus web-aktivitásokra, profilokra épülő megvalósításához) felhasználói tudatos input alapján termelődő adatforrás: „adatbázis-mederbe” terelt kooperáció (már a fórum mint első megvalósulás – majd üzleti modellek [Amazon.com] – blog – wiki – wikisearch [statisztikai intelligencia]) szakérők teremtette adatforrás bekapcsolása (digitalizálás, lebontás, XML) a csereszabatos adatbázisok kooperációjába

Látnunk kell, hogy ezek a teremtett szolgáltatások „lekérdezési felületek” az adatforrások és a felhasználói kommunikációs csatornák között, metszetei az átjárhatóvá tett, atomizált információk áramlására bomló hálózatnak. Mai divatos kifejezéssel: mash-upok, melyeknek megalkotá-

123


sában inkább az ötlet dominál, munkaként létrehozásuk csak töredéke a felhasznált adatbázisok, felhasználói tömegek információ-bevitelre szánt munkaóráinak. S nem is képviselnek olyan megnyugtató, megalkotott értéket, mint korábbi beidegződésünk szerint egy honlap, webhely. Ugyanazokra a forrásokra bármikor készülhet újabb, jobb ráépülő szolgáltatás, mely elcsábítja a felhasználókat. Mi biztosít értéket, mibe érdemes munkát fektetni tehát? Mennyire érdemes egy teremtett szolgáltatást komplex rendszerként megtervezni és kidolgozni? Milyen célt érdemes kitűzni? Míg a Web 2.0 döntő újdonsága a közösség, s még inkább az imént osztályozott közösségi aktivitások eredményeként teremtődő statisztikai hitelesítés komplexitása, egy adott információszolgáltatás komplexitását a szakértői hitelesítés igénye határozza meg: nagy adatbázisoknál a szakmai hitel ugyanúgy közösségi elvárás, ahogy egy tudományos munkánál a tudományos közösség igényli a hivatkozásrendszert. De egy blogger élményeinek közlésekor – azaz adatbázisba öntésekor – is döntő a személyes, saját tartalmára vonatkozó hitelesség. A sikeres és hatékony szolgáltatásokban e két tényező kerül fedésbe. A saját tartalmi hitelesség és a felhasználó aktivitások, vagyis a visszafejthetőség a kontextust generáló felhasználói igényekre. Ez a felbontás mint a hitelesítő tényezők összessége lesz az adott, épített szolgáltatást értékessé emelő komplexitás, legyen az csak egy személyes blog vagy a kortárs irodalmat feltáró adatbázisrendszer. A.

Legyen egyedi tudás(ok)ra, élményre épülő, azonosulhasson tartalmával – otthonosság igénye: intimszféra, térélmény (saját tér otthonossága), időélmény (saját idő, aktivitás-archívum, mint identitás) forrásválogatás (RSS feedek választása). – kínált aktivitás lehetősége: elkülönítés, kisajátítás a megismerésben és felismerésben

124


B.

Megosztott értéket képviseljen – legyen hasznos, használható valamire – a birtoklás öröme, a sajátnak érzett tudás igénye (kapcsolati háló, tudásgyűjtemény, jelenlétkészség, annak birtoklása), gyűjtés és választás. – kínált aktivitás lehetősége: a felhasználó döntéseivel és felhalmozott javaival profilt szolgáltat magáról: nem tudatos hozzáadás

C.

Statisztikailag hiteles (általunk is) felügyelt legyen – része lenni / összeadás, segítés, teremtés, előremozdítás: – kínált aktivitás lehetősége: hozzáadás, közreműködés

D.

Jól felépített szolgáltatás legyen, mely elismerhető és választható más szolgáltatások közül – kreativitás, kitűnés, siker, karrier-üzlet-képesség, ügyesség bizonyításának igénye. – kínált aktivitás lehetősége: a felhasználó maga is (társ)szervezővé válik, felhasználja eredményeinket (programozás, ráépítés-mashup, vállalkozás, struktúrateremtés / A+B+C aktivitások felhasználására)

Egy szolgáltatás ezzel válhat a háló egy lehetséges metszeteként működőképes, vonzó, aktív lekérdezésévé az összekapcsolt forrásoknak, profiloknak és közreműködésnek. A kapcsolt forrás szerint lehet személyes-hálómetszet, blogként egy megélt élmény vagy élménysorozatban kibontakozó identitás komplex, nyilvánossággal megosztott lenyomata vagy akár „az irodalom” a maga teljességében, „egy könyvtár”, „egy szórakozóhely” vagy fizikai térben is összejáró közösség otthona, mely mind-mind ugyanolyan komplex önmagában, mint egyetlen személyiség, s ez a megjelenített, feltárt komplexitás adja hitelét. Vagyis oda jutunk, ahonnan a Web eredetileg indult, csak magasabb szervezettségi szinten – egy összehasonlíthatatlanul mélyebben feltáró adatbázis lekérdezéseiben. A statikus személyes, közösségi és intézményi honlapok helyett a feldolgozott tartalmat – a hálózati aktivitásokat befogadva –, s azoknak megfelelő komplexitással kell szolgáltatni.

125


Lehetővé kell tenni az adatok, eredmények, publikációk továbbáramlását, különben az alkotóktól függetlenül következik be: szemléznek blogok a híreinkből, „taggelik” átlagolva, egyszerűsítve mindazt, amiről tudjuk, hogy bonyolultságában izgalmas. Ha a tartalomszolgáltató el akarja juttatni a tömegekhez, a lehetséges maximális számú befogadóhoz mindazt a komplexitást, mélységet, értékes összefüggésrendszert, melyet átlátni és feldolgozni képes, akkor úgy kell publikálnia, hogy komplexitásához adekvát szolgáltatások épülhessenek rá, hogy minden ízében részévé válhasson a hálózati adatáramlásnak, hogy ne legyen érdemes egyszerűsíteni, vagy egyszerűsítve is magában hordozza bonyolultsága ígéretét. A webtartalom legértékesebb és értékállóbb, tulajdonolható kincse a hitelesítés birtoklása marad: a rálátás, a saját tudásból, élményből fakadó tapasztalat, a szakszerű adatfeldolgozás, a profi adatbázis-összekapcsolási metódus ismerete és a legadekvátabb lekérdezési lehetőségek definiálni tudása. S egyben az egyetlen eszköz az „átlagolódás”, a középszer térhódítása ellen: élen járni a sajátként megadatott területeken. Ezért fontos a Library 2.0 mozgalom, vagy ezért izgalmas az EMIR projekt, mely egy átvehető, rugalmas rendszerrel kísérletezik, átjárható, adekvát felbontást kínálva különböző szakterületekre. S ezért visszás az adat- és eredményvédelem, a szellemi tulajdon helytelen értelmezése. A szerzői jog merevsége helyett a gyökerek komplexitásának felmutatása szükséges, avagy a művek, személyiségek, eredmények mögötti valós komplexitás leképezése a hálón komplexitást generáló aktivitásokon. Az önmagukat átjárhatóvá, hitelessé tevő információforrások megjelenése visszatérést jelenthet az internet gyökereihez – 2.0-ás szinten – a fórumok egyszerű, virtuális személyiségek között, spontán létrejött agoráihoz.

126

T

Ó T H

T

Ü N D E

AZONOSSÁG ÉS KÜLÖNBÖZŐSÉG AZ EMIR

ADATBÁZIS

Az EMIR adatbázis75 munkálatait 2001-ben kezdtük el.76 A projekt célja az volt, hogy létrehozzunk egy átjárható, összekapcsolt biográfiai és bibliográfiai adatbázist tudományos, intézményi és kereskedelmi adatokkal, importálható és exportálható tartalommal, nyílt kollaboratív és szakértő adatépítés számára. A fejlesztés rövid története, a munkatársak, illetve támogatók listája a http://www.bibliopolisz.hu/ projektek/emir.html oldalon érhető el. Az adatbázis aktuális (alfa) verziójának képességeit az in4 konferencián Vaskó Péter mutatta be. Az adatbázis képességeinek, felhasználói felületének ismertetésére jelen dolgozat nem tér ki (helyesebb is azzal az 1.0-ás verziót megvárni). Jelen dolgozat az adatbázis tervezésének problémái közül azzal foglalkozik részletesebben, hogy milyen nehéz eldönteni, mi kapjon egy ID-t, hogy mi jelentsen egy recordot.

75 Az adatbázis neve az Elektronikus Magyar Irodalom rövidítése – hosszú távú terveink közt ugyan nem csak magyar és nemcsak (szép)irodalmi adatok rögzítése szerepel, de célszerűnek láttuk egy meghatározott területtel kezdeni a munkát, mely kellően gazdag ahhoz, hogy megfelelő modellként szolgálhasson. Időközben egy pályázati nyilvántartó rendszert is az EMIR betűszóval kereszteltek el, ez az Egységes Monitoring Információs Rendszer, melyhez természetesen nincs köze az adatbázisunknak. 76 A cikk szerzője 2002–2005 közt Békésy György Posztdoktori Ösztöndíjban részesült informatikai irodalomtudományi kutatásaiért.

127

TÓTH TÜNDE: AZONOSSÁG ÉS KÜLÖNBÖZŐSÉG

Mielőtt ebbe belefognánk, pár szóval mégis be kell mutatnunk általánosságában az adatbázist. Az EMIR-ben az adatok bevitelének legfontosabb kritériuma az, hogy mindig meg kell adni a rögzítés forrását, vagyis hogy a feltöltő az információját honnét szerezte. Ez a forrás lehet dokumentum is, de lehet a szerző saját közlése is. A forrásokat megbízhatóság szempontjából rangsoroljuk, és a rangsorban hátrébb lévő forrás adatával nem lehet a rangsorban előrébb lévő forrás adatát felülírni. Ha netán mégis szükség lenne rá, mert az adott forrás csak általában jobb a hátrébb soroltnál, a kérdéses ponton azonban rosszabb vagy hibás adatot tartalmaz, akkor a feltöltő ezt pl. a mezőhöz tartozó megjegyzések közt jelezni tudja, és az adatbázis lektora vagy szerkesztője, akihez a változtatásokról folyamatosan érkeznek a jelzések, javítani tudja az adatot. Az adatbázis a tervek szerint alapvetően a következő űrlaptípusokat fogja tartalmazni: személyek, művek és dokumentumok, intézmények, díjak, események, kapcsolatok, fogalmak, galéria (képek, hangok, filmek).

SZEMÉLYEK Az adatbázis személyi77 részének meghatározása és feltöltése első látásra egyszerűnek tűnik: név, születési hely, idő, iskolák, munkahelyek, díjak, stb. Számtalan űrlapot töltöttünk már ki életünkben, tudjuk, milyen adatokat kell rögzítenünk. Legalábbis azt hisszük. Kezdjük a névvel. NÉV A könyvtártudományban a névleírási szabványok és ajánlások – ahogy azt Dudás Anikó előadásából jól láthatjuk Azért nem pusztán „szerzők”, mert a művekhez sok más funkciót betöltő személyek is kapcsolódhatnak, pl. fordítók, sajtó alá rendezők, illusztrátorok stb.

77

128


– nem kifejezetten vágnak egybe a filológiai gyakorlattal. A filológiában nem létező transzliteráción túl talán az jelenti a legnagyobb különbséget, hogy egy összetett, filológiai és könyvtári igényeknek egyaránt megfelelő adatbázis készítése esetén nem lehet utalókkal megoldani a szerzői álnevek problémáját, az irodalomtudományi szempontok ugyanis nem engedik meg, hogy a „Csokonai Lili”, „Sárbogárdi Jolán” és egyéb álnevek önálló űrlapokat kapjanak. Vagyis a szerző mint természetes személy kap egy recordot, és a névváltozatai közt fog szerepelni az álnév, a megfelelő műhöz kapcsoltan. Az álneveken belül is elkülöníthetünk azonban egyes típusokat. Léteznek olyasfajta rögzült álnevek, mint a George Sand, Amantine Aurore Lucile Dupin (rövidebb nevén Aurore Dupin) álneve, ahol a szerzőt az álnevén tartja számon az irodalomtudomány. Másfajta álnevek a meghatározott művekhez kapcsolódó álnevek, mint a már említett „Csokonai Lili”, illetve a szerző különböző típusú munkásságait elkülönítő nevek és álnevek használata, mint a Leslie L. Lawrence – Lőrincz L. László – Frank Cockney névsor, és léteznek olyan álnevek is, melyek nem rögzült álnevek, de a szerző valamikor ezen publikálta műveit, mint pl. Emily Brontë, aki Ellis Bell-ként jelent meg. NÉVTÍPUSOK

ÉS NÉVELEMEK

Az EMIR adatbázisban irodalom-, nyelv- és könyvtártudományi ajánlásokat, szabványokat, illetve gyakorlatokat figyelembe véve az alábbi magyar78 személynévtípusokat, ill. elemeket79 különítettük el egymástól:80

Az idegen nyelvekben szereplő névelemekhez és névtípusokhoz lásd: A személyek neve mint a katalógusok besorolási adata az egyes nemzetek gyakorlatában, ford. ORBÁN Éva, bev. FÜGEDI Péterné, szerk. VARGA Ildikó, OSZK Könyvtári Intézete, Bp., [É.n.] az 1984-es kiadás utánnyomása. 79 A földrajzi nevek problémáiról lásd GUSZLEV Antal és LUKÁCS Lilla cikkét, illetve előadását. 78

129


1.SZEMÉLYNÉVTÍPUSOK:NAMETYPE 2. NÉVELEM-TÍPUS ÉRTÉKE:NAMEPARTTYPE 2007. augusztus 8. Összeállította: Dudás Anikó és Vaskó Péter 1. SZEMÉLYNÉVTÍPUSOK:NAMETYPE A.Z. Abélard, Pierre / Petrus Abaelardus Anonymus Aristotelész-Pszeudo Assisi Szent Ferenc, Szent Ágoston Báthory István (Erdély: fejedelem ; 1533-1586) Beda Venerabilis, Szent Csokonai Lili Der-Hazarjan-Vukić, Andreja ecsedi Báthory István \Az \\Eszter szerzője Eudoxosz, knidoszi, i.e. IV. századi matematikus és csillagász Eudoxosz (komédiaíró) i.e. II. sz. Ézsaiás II. János Pál pápa István király K. Sós Éva Kiss M. Mária Kiss Mária Koós János Kovács Jánosné Sós Éva M. S. mester, Mária életének Mestere Mark Twain Meister des Marienlebens Michelangelo Buonarotti Nagy József Nagy Lajos Nero (Római Birodalom: császár) Medici, Cosimo de’ (Toszkána: fejedelem) Oenopides Oinopidész P. Nagy József Parti Nagy Lajos Petőfi Sándor

A 2007. augusztusi állapot szerint. Az összeállítás DUDÁS Anikó és VASKÓ Péter munkája. A felosztáson jelenleg is dolgozunk, vita tárgyát képezi például a hivatalosan felvett (pl. Toldy Ferenc) és hivatalos okmányban nem rögzíthető, nem anyakönyvezhető (George Sand, Molière, Stendhal) művésznevek elkülönítésének szükségessége vagy szükségtelensége. Az összeállításban idegennyelvű példák is akadnak, de az idegennyelvű nevek feldolgozását még nem végeztük el.

80

130


Petrarca, Francesco Pseudo-Aristoteles Puškin, Aleksandr Sergeevič Sándor Tivadar Stendhal syi -te Teréz anya Vergilius Maro, Publius Vukić, Andreja Der HazarjanАлександр Михайлович Молдован Εύδοξος Σωκράτης Григорий Максимович Бонгард-Левин NÉV

az a név, amelyen a személyt ismerjük vagy amely valahol előfordul, amelyet a személy általában használ a névhasználati szokásokkal azonos módon, de nem tudjuk, hogy a hivatalos, anyakönyvezett nevével megegyezik-e ez a név pl. Ottlik Géza Hegediš-Kovačević Katalin Vujicsics D. Sztoján / Vujičić, Stojan Vujity Tvrtko

A névváltoztatás ténye általában csak akkor ismert, ha a szerző ezt valahol említi, és felvállalja a névváltoztatás nyilvánosságra hozatalát pl. Hoffmann Géza >> Hofi Géza → PIM-nél: Név Hofi Géza Névvariáns Hoffmann Klein György >> Korda György, Kupsa János >> Koós János (ez utóbbiaknál a PIM nem tartalmaz „Névvariáns”-t, azaz születési családnevet) Kracsun Ottó >>Tolnai Ottó (író) – vállalja, említi önéletrajzi jellegű műveiben Név Tolnai Ottó Névvariáns Kracsun

131


EREDETI NÉV NÉV)

(SZÜLETÉSI,

HIVATALOS, POLGÁRI

a születéskor kapott név – az anyakönyvezés korszakától az anyakönyv szerinti hivatalos név, illetve nevek (eseménytípus: névváltoztatás; előbb>>utóbb, vagyis PERSONNAME_EVENT stb.). Az eredeti név megegyezhet a mindennapi névhasználatban előforduló alakkal, ám a hivatalostól eltérően a valóságban – és a történelmi emlékezetben is – más névváltozatok (itt: név, lásd feljebb) is fűződhetnek a személyhez. pl. (születési >> megváltoztatott és anyakönyvezett név) Sós Éva >>Kisné Sós Éva Petrovics Alexander >> Petrovics Sándor >> Petőfi Sándor Hoffmann Géza >> Hofi Géza Klein György >> Korda György Kupsa János >> Koós János Kracsun Ottó >>Tolnai Ottó (születési >> írói, nem anyakönyvezett, felvett név) Henri-Marie Beyle >> Stendhal Samuel Langhorne Clemens >> Mark Twain Rózsa Gabriella >> Pogányné dr. Rózsa Gabriella HÁZASSÁGI NÉV

(ASSZONYNÉV)

hivatalos névváltozatás során és későbbi nem hivatalos használatban variálódó formák pl. Kovács Jánosné, Kovács Jánosné Sós Éva Kisné Sós Éva, K. Sós Éva MŰVÉSZNÉV, ALKOTÓI NÉV

felvett, rendszeresen használt név, művésznév, amelyet az író/alkotó a saját neve helyett használ, külön identitásjelölőként, s ez a tény a nyilvánosság előtt is ismert pl. Mark Twain << Samuel Langhorne Clemens Stendhal <
132


ÁLNÉV

a valódi vagy ismert név helyett, illetve annak elfedésére alkalmilag használt név (kriptonima) pl. Csokonai Lili Sárbogárdi Jolán Quintus Fabius Pictor Pseud. MONOGRAM, SZIGNÓ

a valódi név helyett használt jel, vagy szónak nem minősülő jelcsoport (egy fajta (kriptonima) pl. A.Z. -te syi PÓTNÉV, KÖRÜLÍRÁS

(APELLATÍVUM)

a személy valódi nevét helyettesítő, rendszerint több szóból álló kifejezés, a név körülírása, ismeretlen személynek az utókor által alkotott névhelyettesítő megjelölése pl. Küküllei névtelen M. S. mester Tintoretto Pseudo-Aristoteles Anonymus

Anonymusok, ismeretlenek körülírása: Donner, Georg Raphael műhelye Dunántúli szobrász a Straub-körből Észak-magyarországi (?) szobrász, 16. század vége esztergomi falkép mestere / 15. századi firenzei mester / Sandro Botticelli??? CÍMNÉV

(TITLONIMA)

apellatívum, amely a személyt egy műve szerzőjeként nevezi meg pl. Az Eszter szerzője Meister des Marienlebens / Mária életének Mestere Az esztergomi falkép mestere / 15. századi firenzei mester / Sandro Botticelli ???

133


BECENÉV

pl. Stefi Neo VALLÁSI NÉV

szerzetesek, felvett néven működő vallási vezetők, méltóságok, bibliai (és más szent könyvekben előforduló) nevek pl. Assisi Szent Ferenc Szent Ágoston Beda Venerabilis, Szent János Pál Teréz anya Ézsaiás Horváth Cyrill [Horváth=családnevet megtartja, Cyrill = szerzetesrendbe lépéskor felvett személynév] URALKODÓK NEVE

ÉS

URALKODÓHÁZAK

TAGJAINAK

világi és egyházi uralkodók, méltóságok pl. II. Nagy Katalin III. Nagy Károly István király Edward, Duke of England Nero (Római Birodalom: császár) Medici, Cosimo de’ (Toszkána: fejedelem) II. János Pál pápa Katalin (Franciaország: királyné ; II. Henrik felesége) / de’Medici, Caterina / Medici, Caterina de’ 2. NÉVELEM-TÍPUS ÉRTÉKE:NAMEPARTTYPE VEZETÉKNÉV NAME

) [R]

81

(CSALÁDI

NÉV

,

SURNAME/FAMILY

nameparttype:lastname lehet egyelemű vagy többelemű pl.

egyelemű: Nagy János Kovács Sántha Ábrahám Esterházy Kupsa, Koós (Kupsa János >> Koós János)

81

[R]-rel jelöljük, ha a névelemtípus rendszó pozícióban is állhat.

134


többelemű: Szőke-Milinte Szegedy-Maszák Mihály Szent-Györgyi Albert (többelemű:kötőjeles) Tóth Bagi András (többelemű:szóközzel) FÉRJEZETTSÉGI VEZETÉKNÉV

[R]

nameparttype:husbandnamelastname pl. Nagy Jánosné Nagyné Sós Éva VALLÁSI CÍM

vallási méltóság, szerzetesi cím/rend, kanonizációban kapott cím82 pl. pápa érsek bíboros püspök prépost perjel apát pátriárka láma dervis mullah karmelita jezsuita barát OSB SJ János Pál (pápa) II. Chans-dbyans rgya-mcho (Tibet: dalai láma) VI., Ézsaiás (próféta) Julianus barát / Julianus (domonkos) (XIII. sz.)

Könyvtári konverziónál figyelembe veendő, a HUNMARC almezőkkel való megfeleltetésnél: (1) a vallási címek egy részének: a vallási uralkodói és más méltóság-megnevezések, a szerzetes-rendi hovatartozást jelölő kifejezések (pápa, ellenpápa, bíboros, püspök, próféta, karmelita, OSB stb.) a „c” almezőben van a helyük, sohasem rendszó, (2) a kanonizációban kapott cím (Szent, Boldog), nyilvánvalóan – de sehol sem explikálva – állandósult melléknévnek minősülve, a „g” almezőben szerepel és rendszó is lehet. 82

135


szent, boldog [R] pl. Szent István Szt. István Boldog Gizella VILÁGI CÍM, RANG

[R]

öröklött és adományozott rang pl. gróf vitéz bárónő herceg Orczy Emma bárónő Vitéz nagybányai Horthy Miklós Edward, Duke of Windsor / Edward, Prince of Wales TUDOMÁNYOS CÍM

nameparttype:suffix pl. dr. Pogányné dr. Rózsa Gabriella dr. Komjáthy Miklósné dr. Domonkos Katalin (1925–2004) FÉRJEZETTSÉGI TUDOMÁNYOS CÍM

nameparttype: husbandnamesufix pl. dr. Kovács Józsefné dr. Komjáthy Miklósné dr. Domonkos Katalin (1925-2004) MEGSZÓLÍTÓ CÍM

a személy nemét vagy családi állapotát jelölő, a társadalmi érintkezésben a személy neve mellett használt szó, vagy rövidítés (rögzítéskor jellemzően nem írjuk a névhez) pl. Miss Ms. Mrs. Mister Mrs. nagyságos úr Kovács József, Mrs. (sex: female) << Kovács Józsefné

136


ROKONSÁGJELZŐ ELŐTAG

nameparttype: prefix pl. ifj. id. père fils Dumas, Alexandre (père) NEMESI ELŐNÉV

(PRAEDICATUM) [R]

pl. ecsedi Báthory István gyarmati Balassi Bálint Vitéz nagybányai Horthy Miklós NÉVELŐZÉK

[R]

nameparttype:infix pl. De Chatel Anna L’Homme Ilona Vukić, Andreja Der Hazarjan- << Der-Hazarjan-Vukić, Andreja rank1: Neumann von János rank2: János von Neumann MINŐSÍTŐ NÉVELŐZÉK

[R]

a névelőzékes családnév első elemévé vált, eredeti jelentésében rokonsági kapcsolatot, vagy vallási melléknevet jelentő szó, vagy kifejezés pl. Ap Saint SORSZÁM

[ R ; ] 83

pl. XIV. Lajos II. Rákóczi Ferenc NÉVELŐ

pl. 84 A,Az, L’, Die, De Az Eszter szerzője

Meg kell oldani a sorrendiséget a listás rendezésnél! Nem vesz részt a rendezésben, és a névszerkezetben nem is kerül el máshová a természetes-nyelvi helyéről.

83 84

137


ÍRÁSVÁLTOZATOK A fenti névváltozatoktól megkülönböztetjük a név írásváltozatát, pl. Jókay és Jókai; Bezerédj–Bezerédy– Bezerédi. Balassi Bálint például hol Balassiként, hol Balassaként szerepel – még a saját névhasználatában is; ma a 16. századi, bárói rangban lévő költőt Balassiként, 17. századi (grófi) rokonát pedig Balassaként emlegetjük, de a 17. századi nyomtatványokban rendszeresen Balassaként szerepel a 16. századi költő. NEMEK Az adatbázisban megkülönböztetjük, ill. jelezzük a személy nemét és az (ál)név nemét, így lehetőség nyílik olyan típusú lekérdezésekre, hogy mondjuk hány nő publikált és milyen korszakban férfi álnéven és fordítva. Az ismeretlen személyek esetében természetesen nemcsak az „ismeretlen nemű” kategória létezik, hanem a „neme ismeretlen, de valószínűleg férfi” (ilyen pl. Anonymus) és a „neme ismeretlen, de valószínűleg nő” (ilyenek a női kolostorokban működő ismeretlen szerzők vagy másolók) is választható. IDENTITÁS Többek közt az adatbázis konzisztenciája érdekében is el kell kerülnünk azt, hogy minden ismeretlen egy ID-t kapjon, különben olybá tűnne, hogy a világirodalom legnagyobb alkotója – több évezreden átívelő életművel – egy „Ismeretlen Szerző” nevű személy.85 Jelezni kívánjuk, ha egy-egy személyről a kutatás feltételezi, hogy esetleg másvalakivel lenne azonos, mint például a „Pataki Névtelen”-ként emlegetett szerző esetében, hogy Sokszor persze előfordulhat, hogy két szignálatlan művet ugyanaz a személy szerzett – ám ha ezek nem ugyanabban a forrásban maradtak ránk, az ilyesmi felismerése és bizonyítása szinte lehetetlen. Ilymódon persze lehetséges, hogy jóval több (ismeretlen) személyünk lesz adatbázisban, mint „kellene”.

85

138


egyesek (jelezve persze, hogy kik és hol, milyen tanulmányban) Dobó Jakabnak, mások Balassi Bálintnak tartják. Lehetővé kell tenni továbbá, hogy a későbbiekben – ha azonosságukra fény derül – az adatbázisban különálló személyeket „egyesíteni” lehessen. DÁTUMOK A dátumok rögzítésekor figyelembe kell venni a különböző időszámítások és a naptárváltások problémáját (erre itt most részletesen nem térünk ki), valamint az adat pontosságát. Vannak dátumok, melyeket pontosan ismerünk, van, ahol csak a post quem-et vagy ante quem-et tudjuk megadni, mint például a Pataki Névtelenként emlegetett szerző esetében, aki – ha igaz86 – 1577-ben írta széphistóriáját, tehát „ante quem”, ez előtt az időpont előtt kellett születnie, illetve csak „post quem”, a história megírása után halhatott meg.87 Az Ómagyar Mária-siralom vagy a Halotti Beszéd szerzőiről még ennyire megközelítőleges adatunk sincsen, ott inkább csak a századot tudjuk megadni. TUDOMÁNYTÖRTÉNET Minden esetben jelezni kívánjuk az adatok forrását (pontos forráshivatkozással). Emellett fontosnak tartjuk a tudománytörténeti adatok megőrzését, illetve jelzését, vagyis az új adatokkal nem fölülírjuk a régieket, hanem a régiek megőrzése mellett egyszerűen az új, bizonyított adatot tekintjük „érvényesnek” – nyilván úgy, hogy a „középiskolás fokon” érdeklődő felhasználót ezzel ne terheljük, de „szakA bizonytalansághoz lásd: B. KIS Attila – SZILASI László, Még egyszer a Pataki Névtelenről, ItK, XCVI (1992), 646–675. 87 A főszerkesztő az adatbázis egyik, az oktatásban is jól hasznosítható funkciójának szánja, hogy megjeleníthessük, kik voltak egymás kortársai – az ilyen pusztán egy ponthoz köthető szerzők esetében becsléssel jelezve, hogy esetleg 20–30 évvel korábban már, illetve 20–30 évvel később még élhettek, jelezve persze a bizonytalanságot. 86

139


értői szinten” mindenképpen hozzáférhetővé tegyük. Vagyis jelezzük, hogy Janus Pannonius „valódi” nevét mikor határozta meg a kutatás Csezmicei Jánosként, aztán mikor cáfolták ezt, majd mikor tértek vissza ugyanehhez a későbbiekben – mindig jelezve persze, hogy ki és milyen cikkben publikált eredményei alapján volt ez „a tudomány aktuális álláspontja”.

MŰVEK

ÉS DOKUMENTUMOK

Adatbázisunkban meg kell különböztetnünk a művet a hordozójától. Ez utóbbit a könyvtártudományban dokumentumnak nevezik. A MŰ MÁJA

MEGHATÁROZÁSÁNAK

PROBLÉ-

A könyvtártudomány és az irodalomtudomány gyakorlata itt is eltérő. Az FRBR kísérletet tesz arra, hogy meghatározza egy mű lehetséges változatait, feltünteti pl. a fordítást és a nagyobb nyelvterületeken gyakori, nyelvtanulóknak szánt párezer szavas átköltést is (nálunk a „kötelezők röviden” típusú puskák tartoznak ebbe a csoportba) – ezeket a „könnyített olvasmányokat” az irodalomtudományban nem igazán sorolnánk az adott mű változatai közé, hiszen nem csupán a szüzsé, a fabula, hanem a szövegszerű megformálás is a mű része. Benedek Elek prózai Szigeti veszedelem-átdolgozása nem olvasható és tárgyalható Zrínyi munkája helyett, pláne nem akként. De a Beowulf filmes feldolgozásait sem tekinthetjük azonosnak az eredeti irodalmi művel. Ami a fordításokat illeti, köztudott, hogy a régiségben nem létezett ez a kategória, minden fordítást önálló műként emlegetünk az illető „fordító” neve alatt. A korabeli mesterek gyakran egyúttal át is alakítják a művet, de az átalakítás mértékétől függetlenül sem vehetjük ezeket a szövegeket fordításoknak. Tehát önálló műnek tekintjük például a 140


Görög Antológia ókori epigrammáját, Angerianusnak az ebből készült reneszánsz kori latin átköltését és Balassi Bálint de voce ad vocem („szóról szóra”) Angerianust követő magyar versét. Mi magyarok nehezen boldogulunk az Ómagyar Máriasiralom betűhű átiratával, az óangol szövegeket azonban csak a szakértők tudják elolvasni, mert a nyelvük, ahogy mondják, jobban emlékeztet a mai németre, mint a mai angolra. Ha a művet mindezek után mégis meg tudtuk valahogy határozni, akkor szembesülnünk kell azzal a problémával, hogy a mű különböző kiadásai vagy kéziratos másolatai eltérnek egymástól, nem pontosan ugyanazt a szöveget hozzák – ezzel foglalkozik a textológia.88 A net első nagy hullámában a digitalizálás, a szövegek online közzététele kapta a legnagyobb szerepet, és a textológusok, filológusok nem győztek eleget tiltakozni, konferenciázni és publikálni, hogy köztudatba hozzák, hogy a sajtó alá rendezés is szakma, sőt tudomány, és egy szöveg kiadása nem csak abból áll, hogy egy kézreeső edíciót beviszünk a számítógépbe. E tiltakozások során a fő hangsúly a sajtó alá rendezésre, a helyes jó szöveg megállapítására, jegyzetelésére és kommentálására került,89 kevésbé került reflektorfénybe a kiadás másik fontos A nyelvtudomány egyik ágát is textológiának hívják, ez azonban egész mással foglalkozik, mint az irodalomtudomány textológiája. A szövegkiadás, pontosabban a sajtó alá rendezés tudományát nevezik még filológiának is, ez azonban nem csak a pontos szöveg megállapításával foglalkozik, hanem annál bővebb területtel, irodalom-, történet- és kultúrtudománnyal is. 89 A legfőbb tanulság, amit a filológusok kommunikálni igyekeztek, az, hogy nem egyszerűen arról van szó, hogy tudni kell, hogy melyik kiadást válasszuk, vagy hogy azt minél kevesebb hibával rögzítsük, hanem arról, hogy az irodalomtudomány (is) állandó fejlődésben, változásban van, s az aktuális tudásunk mindig több, mint amit egy bármikori edíció tartalmazhat. Senkinek nem jutna eszébe „lejárt szavatosságú” természettudományi szakkönyveket aktuálisként kiadni, mondjuk a flogiszton-elmélettel magyarázni az égést, vagy sebgyógyításra pókhálót ajánlani – ezek közismert példák, de a nem közismert elméletekről csak a szakértő tudja megállapítani, hogy érvényesnek tekintik-e még őket – a bölcsészettudományi kérdéseket is szakértők tudják megválaszolni; csak persze ott az átlagember az esetek jórészében nem tudja észrevenni a kérdéseket; pedig nemhogy a magyar–történelem érettségi, de sokszor még a magyar 88

141


része, a szöveg elektronikus feldolgozása, tagelése. Ez utóbbira is egyébként történtek érdekes kísérletek, melyeket érdemes tanulmányozni, mielőtt online szövegkiadásba vágjuk a fejszénket – jelen tanulmány azonban nem kíván ezzel a témával részletesebben foglalkozni, mivel adatbázisunkban, az EMIR-ben (legalábbis egyelőre) nem terveztünk szövegkiadói részt; a művek adatait kívánjuk „csak” rögzíteni. Hogy ez sem kis feladat, azt talán mutathatja, hogy 1500 régi magyar vers adatait több mint 15 évig tartott adatbázisba rögzíteni – beleértve persze a legfontosabb és legnehezebb munkafázist is, az adatbázis megtervezését.90 A mű megállapításának fent említett nehézségei talán már érzékeltettek eddig is valamit a feladat súlyából. Tehát, ha egy mű adatait kívánjuk rögzíteni, akkor az első nehézséget mindjárt az jelenti, hogy meg kell határoznunk a művet. Mi határoz meg egy szöveges művet?91 Egy adott karaktersorozat?92 Csakhogy ebben az esetben nem engedjük meg, hogy a szöveg pl. sajtóhibákat tartalmazzon: két nem egyező karaktersorozatot két műnek kellene tekintenünk, vagyis a szöveg összes ún. variánsát önálló műnek. Ez talán nem lenne helyes. Engedjünk meg akkor bizonyos mennyiségű terjedelmi eltérést, hozzátéve, hogy előfordulhatnak töredékek is, mondjuk a műnek egy olyan változata (kézirata vagy kiadása), melyből csak kétsornyi töredék maradt meg egy kis papírszeletkén. Vagyis a karaktersorozat eltérését mennyiségileg nehéz definiálni, hiszen ha mondjuk kétsornyi (pár száz karakternyi) nagyjábóli egyezés esetén azonosnak tekintjük a két művet, akkor előfordulhat, hogy vagy történelem (stb.) szakos végzettség sem garantálja, hogy az illető tudná, hogy mi a kérdés (nemhogy magát a választ). 90 RPHA – A régi magyar vers repertóriuma, Répertoire de la poésie hongroise ancienne, főszerkesztő HORVÁTH Iván, szerkesztő H. HUBERT Gabriella, munkatársak FONT Zsuzsa, HERNER János, SZŐNYI Etelka, VADAI István, adatszerkezet, programozás: DOS-os verzió: GÁL György, VADAI István, web-es verzió: KARSAI Róbert, v. 3.0, Nouvel Objet, Paris, 1992, v. 5.0.5, Gépeskönyv, Bp., 2000 (http://magyar-irodalom.elte.hu/repertorium/). 91 A szövegek hangzó verzióit most figyelmen kívül hagyjuk. 92 A képversekről és azokról a művekről nem beszélve, ahol a tipográfiai, képi megjelenítés is része az alkotásnak.

142


olyan műveket tekintünk azonosnak, ahol a hosszabb mű csupán idéz két sort (pár száz karaktert) egy másikból. A mechanikus megközelítés nem látszik járható útnak. A mű és akcidentális megtestesülése, illetve egy szöveg szerzői változatai közti viszonyról rengeteget olvashattunk az elmúlt időben:93 a szöveg csak megtestesülésében ismerhető meg, ezek azonban – ahogy Horváth Iván fogalmaz – többes számúvá teszik, s a mű leírása mindig az adott hordozón fellelhető változattól függ, még olyan állandónak tekintett tulajdonságai is változhatnak, mint a szerzőség vagy a terjedelem. A mű adatainak rögzítése tehát – ha tudományos igénnyel kívánjuk készíteni adatbázisunkat94 – mindig együtt kell, hogy járjon a különböző dokumentumokban történő Összefoglaló tanulmányok a témában: KISS Farkas Gábor, A filológia és a szövegkritika története (http://www.hik.hu/tankonyvtar/site/books/ b161/tortenet.html); KISS Farkas Gábor, Szövegkritika és textológia (http://www.hik.hu/tankonyvtar/site/books/b161/szoveg.html); PARÁDI Andrea, Internetes kritikai kiadás (http://www.hik.hu/ tankonyvtar/site/books/b161/paradi.html) mindegyik az alábbi tanulmánygyűjteményből: A magyar irodalom filológiája, szerk. HEGYI Ádám, szerzők BIBOR Máté, FÖLDES Zsuzsanna, GULYÁS Borbála, HEGYI Ádám, KISS Farkas Gábor, LACZHÁZI Gyula, OROSZ Andrea, PARÁDI Andrea, Bp., HIK KFDT, 2005 (http://www.hik.hu/tankonyvtar/ site/books/b161/), illetve TÓTH Tünde, Online kritikai szövegkiadás Magyarországon az ezredfordulón, Helikon – Irodalomtudományi Szemle, L. évf. (2004), 3. szám: A hipertext, szerk. KAPPANYOS András, 417–441. Uez.: http://magyar-irodalom.elte.hu/biop/otka038043/cikkek/tt.htm; A magyar digitális irodalom alakulása – a hypertext, 2001–2004 (OTKA T038043 sz. kutatási program), szerk. MILOSEVITS Péter, SZŰTS Zoltán és TÓTH Tünde, írta MILOSEVITS Péter, TÓTH Tünde, ORLOVSZKY Géza, SZŰTS Zoltán, BALÁZS Géza, Bp., Ördöglovas Kiadó, 2005 (http://magyarirodalom.elte.hu/biop/otka038043/). 94 A legtöbb adatbázis készítői bevallottan nem tudományos igénnyel látnak munkához. Meggyőződésünk azonban, hogy a nem tudományos igényű adatbázisoknak a tudományos igényű adatbázisok egyszerűsített változatainak kellene lenniük. Különösen elszomorító, hogy sokan szembesülhettek azzal az elmúlt évtizedben, hogy nem tudományos igényű adatbázisok építésére rengeteg közpénzt ítéltek meg, a tudományos igényűeket pedig olyan jelszóval nem támogatták, hogy ezek „nem közhasznúak, mert nem tartanak számot közérdeklődésre” – olyan ez, mintha a náthát, ami mindenkit érint, fontosságban előbbre sorolnánk a szívműtéteknél, mert azok jóval ritkábbak. 93

143


megtestesülések, a szövegváltozatok jellemzőinek a rögzítésével. Az RPHA95 által javasolt adatmodellben96 egy mű és egy dokumentum találkozása (egy mű megjelenése egy dokumentumban) számít egy recordnak – kérdés azonban, hogy lehet megoldani, hogy a „János vitéz” című vers keresésekor, amikor a kereső arra kíváncsi, hogy mikor írták a művet, vagy hogy ki a szerzője, ne többezer találatot kapjon szerencsétlen felhasználó – szükség van tehát valamiféle szuperűrlapra vagy szuperrecordra, ami egyesíti a különböző dokumentumokhoz tartozó leírásokat, nem csupán a találatok megjelenítésekor, hanem az adatok rögzítésekor is, hiszen elég örömtelen lenne több ezerszer rögzíteni (dokumentumonként mindig) azt, hogy Petőfi Sándor írta 1844ben, tudván tudva azt, hogy bizonyos forrásokban esetleg más a szerző neve, pl. számos 17. századi kiadásban a Balassi Bálint halálát megéneklő Epicédium is Balassi Bálint művei közt szerepel.

SZÁRMAZTATOTT ADATOK ÚTJA

–

A JÖVŐ

Ha a mesterséges intelligencia felől közelítjük meg a kérdést, irodalomtudományi adatbázisok építésekor ma még mindig kemény kompromisszumokat kell kötnie az irodalomtudósnak. Az adatbázisok űrlapjai ugyanis nem származtatott adatokkal dolgoznak. 97 Hiába tudjuk, hogy a Rimay János születési évére vonatkozó információink Rimay két szövegére mennek vissza, ahol az egyikből az derül ki, hogy RPHA. HORVÁTH Iván, Szöveg, 2000, VI. (1994), november, 42–53 (= UŐ., Magyarok Bábelben, JATEPress, Szeged, 2000, 139–174, = Ua., Gépeskönyv, Bp., 2000 (http://magyar-irodalom.elte.hu/babel/3100.htm). 97 Származtatott adatnak nevezem azt az adatot, amit nem közvetlenül rögzítünk az adatbázisba, hanem egy (vagy több) másik mező adatából számolja ki a program, illetve (szöveges mező esetén) onnan meríti egy meghatározott utasítássort követve. 95 96

144


1569-es, a másikból viszont az, hogy 1573-as születésű, mindezt nem tudjuk programozott (levezetett, származtatott) módon rögzíteni. Természetesen most nem a – többnyire szintén rögzíthetetlen – bizonytalan, kettős születési dátumra gondolok.98 A jelenleg sehol sem alkalmazott megoldásnak az ad fontes elvén kellene alapulnia. Vagyis nem a lexikonok sokadlagos tudásán, hanem magán a forráson, a dokumentumok szövegén, és ezek megfelelő helyei kellenek, hogy belinkelődjenek az adatbázisok űrlapjainak megfelelő rovatába (mezőibe), és ott maga a program kellene, hogy kiszámolja a kívánt adatot, jelen esetben a születési évet. Miért fontos ez? Azért, mert a legtöbb ún. adatunk az irodalomtudományban voltaképpen nem adat a szónak abban az értelmében, hogy adva lennének, hanem többségükben mind következtetések. Ha egy meglehetősen hosszú következtetési lánc valamelyik közbülső „adata” új dokumentumok vagy új elméletek következtében megváltozik, az kihatással lehet, többnyire van is, a lánc további, arra épülő elemeire. Ilyen módon a ma használatos dinamikus rendszerek jórésze is „statikus” – ha a statikusság definíciójának azt tekintjük, hogy egy ponton történő módosítással nem módosul minden olyan helyünk, mely az adott ponthoz kapcsolódik.99 Adatbázisokat azért alkalmazunk, hogy gyorsan jussunk biztos információkhoz. Ha az adatbázisok rovatait nem származtathatjuk egymásból, ha minden rovatot (mezőt) „diszkrét”, egymásból le nem vezethető adatokkal töltünk fel, nemcsak hogy rosszul modellezzük tudásunkat, hanem ráadásul kitesszük magunkat annak a veszélynek, hogy pontatlan adatokat örökítsünk tovább, hiszen ha egy közbülső adatot A legtöbb adatbázisba csak egy dátumot lehet felvenni, vagy rosszabb esetben, ha szabad szöveges állományokról van szó, akkor el lehet ugyan helyezni egy narratív szöveget erről a dátumproblémáról, ez látszólag előnye ezeknek az adatbázisoknak, ezekben viszont nem lehet egyértelmű és pontos listákat, statisztikákat készíteni az adatokról („listázzuk ki az 1673as születésű szerzőket”), vagy ha igen, akkor azt nem automatikusan, hanem kézi kódolással (tag-eléssel) lehet csak elérni. Többek közt ezért sem szerencsés az efféle az adatbázisfajták használata (mármint készítése). 99 A konferenciaelőadás címe ezt emelte ki. 98

145


később javítani kell, az adatrögzítő munkatárs nyilván nem lesz tisztában azzal, hogy az az adat milyen más további rovatokban kellene, hogy módosulásokat okozzon, így aztán azokat változatlanul hagyja, minek következtében értelmetlenné válik a rendszer. Az effajta adatbázisok használata tehát végső soron a rendszerben való gondolkodás képességének rovására mehet, főként, ha alkalmazásuk az oktatásban történik. A származtatott adatokkal operáló adatbázis-program létrehozását nehezíti az a körülmény, hogy a bölcsészettudományokban az összefüggésháló többnyire leképezetlen, nincsenek leírva a „képletek”, melyek az összefüggéseket leírnák. Nézzünk néhány példát az összefüggésekre. Azt, hogy egy szövegnek ki a szerzője, tudhatjuk például az akrosztichonból, a vers strófáinak kezdőbetűiből összeállítható szövegből.100 De az akrosztichon gyakran nem a szerző nevét tartalmazza, hanem azét, akinek a szerző a művét ajánlotta. Emiatt például vita tárgyát képezi, hogy az ún. Horvát Ilona énekének Horvát Ilona a szerzője-e vagy a címzettje. Nézzünk egy másik példát! Egy verset mindmáig azon az alapon, hogy Nyéki más művével vagy műveivel egy kötetben jelent meg, Nyéki Vörös Mátyásnak tulajdonított a szakirodalom; ám nemrégiben a vers akrosztichonjának helyreállításával Pap Balázs a helyreállított akrosztichonból kiolvasható névhez (Kornis Zsigmond) köti a szöveget, s ez alapján – a régi gondolatmenetet továbbvezetve, hogy egy kötetben szerepel más művekkel – egy másik kötetbeli mű,

Hogy még honnét, azt szépen összefoglalja az RPHA SIGNE rovata, mely szerint a következő esetek lehetségesek: „1) A verset a szerző látta el névmegjelöléssel. 2) A vers szerzőjét nem ismerjük. 3) A verset a keletkezését követően a szerzőnek tulajdonították. 4) A verset a modern kutatás tulajdonítja a szerzőnek. 5) A vers maga nem szignált, de a gyűjtemény, amelyben szerepel, a szerző neve alatt jelent meg. 6) A vers anagrammatikusan szignált, vagyis a szerző neve nem olvasható a vers felett, de nevének anagrammája igen.” 100

146


az SK monogrammal szignált Tintinnabulum szerzőségét is Kornisnak (nevének latin monogramja SK) tulajdonítja. 101 Ideális adatbázisunkban tehát először egy olyan képletet kellett volna érvényesítünk, mely szerint a Tintinnabulum az 1644-es kiadásban együtt szerepel a Nyékinek tulajdonított Dialogussal, így ez és a kötetben szereplő egyéb versek, köztük az Egy szentelt vitéznek készülőt fújó trombitája az emberi gyarlóságról című vers mind Nyéki szerzeménye. (A Tintinnabulum előszavának SK monogramját ebben az elméletben Soproni Keresztesnek próbálta olvasni a filológus, bár ez a megnevezés soha nem fordult elő a korban, ám Nyékire érthető.) Pap Balázs érvelését követve, úgy kell „átdrótoznunk” az adatbázist, hogy az Egy szentelt vitéz… akrosztichonjából vezetjük le annak szerzőségét, s az akrosztichonban szereplő név Sigismundus Kornis monogramjának tekintjük a Tintinnabulum SK-ját, így annak szerzőségét is Kornisnak tulajdonítjuk. Vagyis adatbázisunk frissítésekor nem pusztán a Tintinnabulum szerzőségi adatát módosítjuk Nyékiről Kornisra (és persze az adat forrását Jenei Ferenc RMKT-kiadásáról Pap Balázs ItK-cikkére), hanem a szerzőségi adatot most már nem a Dialogus szomszédságából és az SK „Soproni Keresztes”-ként való feloldásából származtatjuk, hanem a Trombita szomszédságából, és az SK „Sigismundus Kornis”-os feloldásából. Maga a logika voltaképp tehát változatlan, a szövegszomszédság és a monogram feloldása a levezetés alapja, csak a kiindulópont, a kiinduló értékek mások. Nézzünk egy olyan esetet is, ahol a levezetés útja és logikája is változik! Mi a sorszáma Rimay János „Én édes Ilonám…” kezdetű énekének? A vers a Balassa-kódexben maradt ránk, szövege a 161–162. lapokon olvasható; a kódexben a vers előtt sorszám nem szerepel. Az egyik elmélet szerint azért nem találunk itt sorszámot, mert számozatlan a vers. Egy másik elmélet szerint a vers sorszáma 15, csak a kódex PAP Balázs, A Tintinnabulum tripudantium szerzőségéhez, ItK, CX. évf. (2006), 585–590.

101

147


forrása csonkult a másolás előtt, így az nem kerülhetett át, nem másolhatták be a kódexbe. Az első, a számozatlanelmélet tulajdonképpen csak egy „nyomot” vesz figyelembe: azt, hogy a Balassa-kódexben nem szerepel sorszám. A másik elmélet viszont számításba veszi, hogy 1) a verset megelőző vers a kódex előző, 160. lapján a 12-es sorszámot viseli; 2) hogy a kódexben a 160. és a 161. lapok közt nincs fizikai hiány (laphiány); 3) hogy az Én édes Ilonám... után a 162. lapon következő vers 16-os sorszámú; 4) hogy Én édes Ilonám... után (a 16. ének előtt) szerepel a finis (’vége’) szó, illetve hogy a kódex forrásának csonkulása (melynek minden bizonnyal be kellett következnie, különben nincs magyarázat a 12. és 16. ének közt hiányzó sorszámokra) nem következhetett be az Én édes Ilonám... után; számításba veszi továbbá, hogy 5) az Én édes Ilonám... előtti csonkulás során a 12. ének vége esetleg, a 13., a 14. énekek pedig teljes egészükben, valamint a 15. ének (=Én édes Ilonám...) sorszáma valószínűleg rajta lehetett a kihulló papírokon – így egyetlen esemény ad magyarázatot az összes anomáliára (hiányra); 6) s ezt a csonkulást feltételezve a kieső lapokon szereplő szöveg kezdetére és végére vonatkozóan csak a szöveg vége kötött: ehhez a verso alján kellett szerepelnie a 15-ös sorszámnak, viszont a szöveg elejére vonatkozóan csak annyi megkötés van, hogy valahol a 12. ének vége felé, – ellenben a 16. ének előtt bekövetkező csonkulás csak úgy jöhet létre, ha a 13. ének pont recto tetején kezdődik, a 15. ének pedig pont verso alján fejeződik be, különben az Én édes Ilonám... és a 16. ének közti átmenet nem lehetne folyamatos; illetve az eddigieken kívül használ más, segédbizonyítást is, amire most nem érdemes kitérni. A „nincs ott, tehát nem is volt” logikája talán első látásra egyszerűbbnek tűnik, mint a hatpontos bizonyítás, csakhogy ez utóbbinak az a nagy előnye, hogy sokkal több jelenségre („nyomra”) ad logikus magyarázatot egyetlen esemény feltételezésével, mint a másik, amely minden jelenséget különálló hipotézisekkel, egymással összefüggésben nem lévő „eseményekkel” tud csak magyarázni.102 102

HORVÁTH Iván – TÓTH Tünde, Rimay János ifjúkori versgyűjteményének

148


AHÁNY

ÉRVELÉS, ANNYI LOGIKAI ÚT

Vagyis az irodalomtudományi adatbázisok származtatott adatai nem fix képleteken nyugszanak, két érvelés az esetek jórészében kétféle logikával működik. Így a gondolatmenetet követő, az irodalomtudományi tudást modellező adatbázis programozásakor nem lehet az adatbázis feltöltése előtt megírni úgy a programot, hogy a mezők fix helyről vett származtatott adatokat tartalmazzanak, hanem csak úgy, hogy az adatbázis feltöltésekor hozza létre a megfelelő kapcsolatokat az adatok feltöltője. A

HIPERLINK CSUPÁN

ÉS-KAPCSOLAT

Természetesen az a köztudott tény is jól látható a fentiekből, hogy hiperlink logikai ÉS kapcsolata mennyire kevés ahhoz, hogy a tudást megfelelően modellezhesse. A hiperhivatkozás csupán összekapcsol két dokumentumot, a viszonyukat nem határozza meg. Ráadásul dokumentumokat vagy kitüntetett dokumentumpontokat (A NAME) kapcsol össze, nem pedig logikai állításokat. TUDÁSTRANSZFORMÁCIÓ

ÉS A SZÖVEG MŰVÉSZI MEGFORMÁLTSÁGA

Az informatikusok ezzel persze tisztában vannak, az irodalomtudósok jó része azonban még nem tudott elszakadni a narratív ismeretközléstől, publikációik készítésekor sokan nem elsősorban új információk átadására, harekonstrukciója, Palimpszeszt, 17. szám, 2002. május 8., „Tanulmányok és műfordítások Zemplényi Ferenc 60. születésnapja tiszteletére”, 2002. május 8., szerk. BÁNKI Éva és TÓTH Tünde (http://magyar-irodalom. elte.hu/palimpszeszt/zemplenyi/06.htm), Uez., „Ámor, álom és mámor. A szerelem a régi magyar irodalomban és a szerelem ezredéves hazai kultúrtörténete. Tudományos konferencia, Sátoraljaújhely, 1999. május 26– 29 .”, szerk. SZENTMÁRTONI SZABÓ Géza, Universitas Kiadó, Bp., 2002, 457–467.

149


nem inkább a szöveg nagyobb retorikai megformáltságára törekszenek – bizonyos iskolák esetében pedig az irodalomtudományi szöveg célja szinte művészinek mondható: nem logikai érvelésen alapuló állítások megfogalmazására törekszik, hanem a szavak szinonimikájának és egyéb jellemzőinek segítségével elbizonytalanítani igyekszik hallgatóságát, és valami álomszerű, irracionális világot teremteni. Egy vers, egy jó vers nem írható át, nem egyszerűsíthető le logikai képletekké; az irodalomtudományi szöveg viszont logikai hálóvá transzformálható kellene, hogy legyen – többek közt ez különbözteti meg a tudományt a művészettől.103 A

FOGALMAK

Ha származtatott adatokkal dolgozunk, nemcsak pontosabb, naprakészebb lehet az adatbázisunk – és minden más adatbázis, ami erre épül, hanem – értelemszerűen – rengeteg plusz munkát is megspórolhatunk – persze nem a programozóknak, hanem a felhasználóknak. Ahhoz azonban, hogy mondjuk olyan fogalmakat, mint a „reneszánsz” a származtatott adatok következtetési sorának végére tehessünk („tehát: reneszánsz”), nagyon sok remek tudós rengeteg munkaórájára lesz szükség.104 Véleményünk szerint azonban a mesterséges intelligencia nagy áttöréséhez ez a munkabefektetés elengedhetetlen.

103 Bizonyos irodalom- és nyelvtudományi iskolák tulajdonképpen már az ókor óta dolgoznak azon, hogy a műalkotások is leírhatók legyenek efféle transzformációkkal. A műelemzés bizonyos értelemben ennek a transzformációnak az alapjait teremti meg. 104 Ahhoz, hogy azt mondhassuk, Balassi Bálint reneszánsz költő, ahhoz mind a reneszánszt, mind a költőt definiálnunk kell, vagyis le kell tudnunk vezetni, hogy miért költő, mi az, hogy költő, miért reneszánsz, mi az, hogy reneszánsz. Talán szükségtelen mondanom, hogy arról, hogy mi a reneszánsz, milyen stílusjegyek jellemzik (mi az, hogy stílusjegy), és hogy létezik-e a reneszánsz egyáltalán, könyvtárnyi szakirodalom létezik.

150


HIVATKOZÁSOK 1.

A magyar digitális irodalom alakulása – a hypertext, 2001–2004 (OTKA T038043 sz. kutatási program), szerk. MILOSEVITS Péter, SZŰTS Zoltán és TÓTH Tünde, írta MILOSEVITS Péter, TÓTH Tünde, ORLOVSZKY Géza, SZŰTS Zoltán, BALÁZS Géza, Bp., Ördöglovas Kiadó, 2005 (http://magyar-irodalom.elte. hu/biop/otka038043/)

2.

A magyar irodalom filológiája, szerk. HEGYI Ádám, szerzők BIBOR Máté, FÖLDES Zsuzsanna, GULYÁS Borbála, HEGYI Ádám, KISS Farkas Gábor, LACZHÁZI Gyula, OROSZ Andrea, PARÁDI Andrea, Bp., HIK KFDT, 2005.

3.

A személyek neve mint a katalógusok besorolási adata az egyes nemzetek gyakorlatában, ford. ORBÁN Éva, bev. FÜGEDI Péterné, szerk. VARGA Ildikó, OSZK Könyvtári Intézete, Bp., [É.n.] – az 1984es kiadás utánnyomása.

4.

B. KIS Attila, SZILASI László, Még egyszer a Pataki Névtelenről, ItK, XCVI (1992), 646–675.

5.

HORVÁTH Iván, Szöveg, 2000, VI. (1994), november, 42–53 (= UŐ., Magyarok Bábelben, JATEPress, Szeged, 2000, 139–174, = Ua., Gépeskönyv, Bp., 2000, http://magyar-irodalom.elte.hu/ babel/3100.htm

6.

HORVÁTH Iván, TÓTH Tünde, Rimay János ifjúkori versgyűjteményének rekonstrukciója, Palimpszeszt, 17. szám, 2002. május 8., „Tanulmányok és műfordítások Zemplényi Ferenc 60. születésnapja tiszteletére”, 2002. május 8., szerk. BÁNKI Éva és TÓTH Tünde (http://magyar-irodalom.elte.hu/palimpszeszt/ zemplenyi/06.htm), Uez., „Ámor, álom és mámor. A szerelem a régi magyar irodalomban és a szerelem ezredéves hazai kultúrtörténete. Tudományos konferencia, Sátoraljaújhely, 1999. május 26–29 .”, szerk. SZENTMÁRTONI SZABÓ Géza, Universitas Kiadó, Bp., 2002, 457–467

7.

KISS Farkas Gábor, A filológia és a szövegkritika története (http:// www.hik.hu/tankonyvtar/site/books/b161/tortenet.html), A magyar irodalom filológiája, 2005.

8.

KISS Farkas Gábor, Szövegkritika és textológia (http://www. hik.hu/tankonyvtar/site/books/b161/szoveg.html) A magyar irodalom filológiája, 2005.

9.

PAP Balázs, A Tintinnabulum tripudantium szerzőségéhez, ItK, CX. évf. (2006), 585–590.

151


10. PARÁDI Andrea, Internetes kritikai kiadás (http://www.hik. A magyar hu/tankonyvtar/site/books/b161/paradi.html) irodalom filológiája, 2005. 11. RPHA – A régi magyar vers repertóriuma, Répertoire de la poésie hongroise ancienne, főszerkesztő HORVÁTH Iván, szerkesztő H. HUBERT Gabriella, munkatársak FONT Zsuzsa, HERNER János, SZŐNYI Etelka, VADAI István, adatszerkezet, programozás: DOS-os verzió: GÁL György, VADAI István, web-es verzió: KARSAI Róbert, v. 3.0, Nouvel Objet, Paris, 1992, v. 5.0.5, Gépeskönyv, Bp., 2000, http://magyar-irodalom.elte.hu/ repertorium/ 12. TÓTH Tünde, Online kritikai szövegkiadás Magyarországon az ezredfordulón, Helikon – Irodalomtudományi Szemle, L. évf. (2004), 3. szám: A hipertext, szerk. KAPPANYOS András, 417–441.

152

VISSZHANGOK

A konferenciáról több netes orgánum is beszámolt vagy hírt adott róla. Az „in4 konferencia” kifejezésre a Google 926 találatot ad. Az Origo és a Worldshots nevű blogger elismerő írásait számos site hivatkozta. Másutt is elismeréssel emlékeztek meg róla, néhány idézet a teljesség igénye nélkül:

"nem vártam, hogy a világ megváltása meg fog történni. Kellemes csalódás volt." (worldshots)

● „az utóbbi 2 év legizgalmasabb, az internet jövőjét feszegető és a jelenlegi eredményeket bemutató konferenciája” (Web Koncept)

● „lenyűgöző munkát végeztek” (az Origo Techbázis a konferencia fókuszában levő, ott bemutatott EMIR adatbázisról)

● „összességében az utóbbi idők legjobb konferenciája” (worldshots)

A

KONFERENCIA VISSZHANGJA AZ ONLINE SAJTÓBAN

WORDLSHOTS

http://www.worldshots.hu/2007-04/in4-igy-kellkonferenciazni/ [ORIGO] TECHBÁZIS

http://www.origo.hu/techbazis/internet/20070428in4konf. html TÉRKÉPES EGOBLOG 2.0

http://geo2.freeblog.hu/archives/2007/04/28/Miert_nem_ lennek_konyvtaros/ KÖNYVTÁRPONTINFÓ

http://konyvtar.info/blog/2007/04/in4.php NDA – NEMZETI DIGITÁLIS ADATTÁR

http://www.nda.hu/engine.aspx?page=showcontent&conte nt=konferenciak SG.HU

http://www.sg.hu/cikkek/52399/webketto_felsofokon_a_k onyvtaraknak_befellegzett/0 WEB KONCEPT

http://webkoncept.blog.hu/2007/05/20/egy_konferencia_l abjegyzetere_in4_web3_0

ISBN 978-963-87640-0-3 Bibliopolisz Kiadó Felelős kiadó Tóth Tünde Tördelte Egervári Johanna Garamond és Arial betűkkel

A WEB 2.0 JÖVŐ JE ÉS A SZEMANTIKUS WEB

Recommend Documents