Az ontológiaépítés módszertana Tóth Máté és Kovács Zoltán Csaba
Tartalom
1
Bevezetés......................................................................................................................................... 4
2
A fogalmak osztályozásának alapkérdései ...................................................................................... 6
3
Tudásszervezési rendszerek .......................................................................................................... 11 3.1
A metaadat fogalma .............................................................................................................. 11
3.2
Tárgyszavas osztályozás ........................................................................................................ 16
3.3
Ellenőrzött szótárak ............................................................................................................... 18
3.4
Taxonómiák ........................................................................................................................... 19
3.5
Tezauruszok ........................................................................................................................... 23
3.6
Facettás osztályozás .............................................................................................................. 26
4
Az ontológia fogalma ..................................................................................................................... 30
5
Ontológia szintaxisok..................................................................................................................... 39
6
5.1
RDF ........................................................................................................................................ 39
5.2
OWL ....................................................................................................................................... 46
5.3
SKOS....................................................................................................................................... 48
5.4
XTM ....................................................................................................................................... 49
5.5
További Topic Maps szintaxisok ............................................................................................ 50
5.5.1
HyTM ............................................................................................................................. 51
5.5.2
LTM ................................................................................................................................ 51
5.5.3
CTM ............................................................................................................................... 51
5.5.4
GTM ............................................................................................................................... 52
Ontológiaépítés a gyakorlatban .................................................................................................... 54 6.1
Az ontológiaépítés eszközei................................................................................................... 54
6.1.1
Szemantikus web ontológiák fejlesztésére szolgáló eszközök ...................................... 54
6.1.2
Tématérképek fejlesztésére szolgáló eszközök ............................................................. 55
6.2
Ontológiaépítés az OKS segítségével..................................................................................... 57
6.2.1
Az OKS letöltése és használata ...................................................................................... 57
6.2.2
Az ontológiák építésének első lépései........................................................................... 59
6.2.3
Tartalmak formalizálása LTM szintaxis segítségével ..................................................... 61
6.2.4
Ontológiaépítés az Ontopolyval .................................................................................... 65
7
Az ontológiák használata ............................................................................................................... 78 7.1
döntéstámogatás................................................................................................................... 78
7.2
tudásmenedzsment ............................................................................................................... 79
7.3
Oktatás .................................................................................................................................. 83
7.4
szemantikus web ontológiák ................................................................................................. 85
8
Összefoglalás ................................................................................................................................. 92
9
Irodalomjegyzék ............................................................................................................................ 94
1 Bevezetés Az információtechnológia minden kétséget kizáróan forradalmi változásokat okozott az elmúlt évek társadalmi és gazdasági folyamataiban. Az információtechnológia mindenütt jelen van, gyakorlatilag a társadalom életének nincs olyan szegmense, a gazdaságnak nincs olyan szektora, amely ne támaszkodna kisebb vagy nagyobb mértékben informatikai támogatásra. Az elmúlt években a technikáról egyre inkább a tartalomra, a keresésre, az informatikai eszközökön közvetíthető szolgáltatásokra terelődött a hangsúly. Ezt a tendenciát jelzi az is, hogy egyre többen és egyre magasabb szinteken kezdenek foglalkozni a szemantikus technológiákban rejlő lehetőségek kiaknázásával. Megjelent az igény arra, hogy a tartalmakat gépi olvasásra is alkalmas formátumban rögzítsék, és az adatok újrahasznosíthatók legyenek különböző kontextusokban, sokféle alkalmazás fejlesztése során. Mindezek egyik legfontosabb előzményét a szemantikus web elképzelés jelenti. Tim Berners-Lee és kollégái 2001-ben a következőképpen fogalmazták meg a szemantikus web lényegét. “A szemantikus web nem egy önálló web, hanem a jelenleginek a kiterjesztése, ahol az információnak jól definiált jelentést adunk, amely elősegíti a számítógépek és az emberek közti együttműködést. Az első lépéseket már megtettük abban az irányban, hogy a jelenlegi web struktúrájába beleszőjük a szemantikus webet. A közeli jövőben ezek a fejlesztések jelentős új funkciókat kaphatnak, ahogy a gépek egyre alkalmasabbak lesznek azon adatok feldolgozására és “megértésére”, amelyeknek ma csupán a megjelenítésére képesek.” (Berners-Lee et al. 2001.) Elmondható, hogy a szemantikus web immáron több mint 10 éves története során sem volt képes beteljesíteni azokat az álmokat, amelyeket a koncepció megjelenését követően vizionáltak. Elindult ugyanakkor egy erős kutatási irány, amely hosszú távon az adatok formális kódolásán keresztül egyre több, különböző forrásból származó információk integrálásán alapuló, izgalmas alkalmazás kifejlesztését teszi lehetővé. Jelen dolgozat célja, hogy összefoglalja az ontológiafejlesztéssel kapcsolatos legalapvetőbb ismereteket a hazai egyetemek hallgatói és oktatói számára. Tekintettel arra, hogy az ontológiaépítés alapvetően a fogalomalkotásban, a fogalmak osztályozásában és egymáshoz képest fennálló kapcsolataik leírásában gyökerezik, szükségesnek tartottuk, hogy ezekkel a kérdésekkel is érdemben foglalkozzunk. A dolgozat második felében egy konkrét ontológiafejlesztésre szolgáló szoftver (Ontopoly) használatán keresztül nyomon követhetjük egy tématérkép ontológia kereteinek felépítését és adatokkal történő feltöltését.
Az ontológiák építésének társadalmi motivációi között első helyen áll a tartalmak kereshetőségének, megjelenítési és kreatív újrahasznosítási lehetőségeinek növelése. Ez olyan szótárak fejlesztését teszi szükségessé, amelyek a vállalkoznak a világ létezőinek lehető legteljesebb szabványos leírására. Minden ontológia a világ tudásának egy-egy fontos szegmensét reprezentálja, amelyek együttesen egy globális hálózati metaadat-infrastruktúra kiépítésének a lehetőségét hordozza magában.
2 A fogalmak osztályozásának alapkérdései Tekintve, hogy az ontológia egy tudásszervezési rendszer, amelyben a valóságot kell formalizálni, tisztáznunk kell a fogalomalkotásnak és a fogalmak osztályozásának alapkérdéseit. A legkézenfekvőbb párhuzam maga az emberi nyelv, amely a valóság jelenségeit kategóriákba sorolva, nyelvi jelekkel (szavakkal) azonosítva ragadja meg. Az információközvetítő tevékenység a tudástársadalomban értelmezett ismeretek közvetítését jelenti. Jellemzően a tudás szövegekben jelenik meg. A szöveg szemantikája, jelentése maga a tartalom, ami különböző formátumokban, hordozókon is megjelenhet. Ilyen értelemben tehát a tartalom absztrakt fogalom. A szövegek tartalmának a reprezentálására szurrogátumok szolgálnak a tartalomkezelés hagyományos intézményeiben, mint például a könyvtárakban. A szurrogátum az eredeti dokumentum mása, helyettesítője, amelyben az arra vonatkozó adatelemek rendezett halmazként vannak jelen. „A szurrogátum a dokumentumokat mint tárolási-keresési egységeket képviseli az információtárolás és -keresés során.” (Varga 2012) A fogalmak osztályozása és a tartalmak reprezentálása jellemzően könyvtári tevékenység, ugyanakkor nem tekinthetünk el attól a ténytől, hogy több más tartalomszolgáltató intézmény is foglalkozik ezekkel a kérdésekkel. A feldolgozó munkának két területét különböztethetjük meg: -
A dokumentumok formai leírását és azonosítását, ez a formai feltárás, katalogizálás, illetve a bibliográfiai leírás feladata. A dokumentumok tartalmi vagy tárgyi feltárását, mellyel a tartalmi feltárás foglalkozik.
Ezen feldolgozási tevékenység eredménye a szurrogátum. (Varga 2012) A fogalmak osztályozása és a tartalmak reprezentálása során azt az üzenetet kell megkeresni és kifejezni, amelynek információs értéke van azok számára, akiket az információs rendszer célközönségének, használóinak tekintünk. A dokumentumok formai és tartalmi feltárása során több funkciónak kell eleget tenni. A feldolgozásnak célja lehet -
egy dokumentumállomány reprezentálása, áttekinthetővé tétele (formai és tárgyi szempontok), az információk visszakereshetővé tétele,
-
a kompatibilitás, szabványosság biztosítása, vagy azonosítás (egyértelmű kapcsolat a dokumentum és a szurrogátum között). (Varga 2012)
Az ontológiaépítés során az egyes dokumentumok formai és tartalmi szempontú osztályozásának szempontja egyaránt megjelenik. A tartalmi feltárás különböző szinteken valósul meg. Egyrészt szükséges hozzá egy visszakereshetőséget biztosító adatszerkezet, másrészt a szöveg egyedi információinak elemzése. A munka során le kell írnunk magát a tartalmat, amelynek célja, hogy a hasonló szemantikai jellemzőkkel bíró entitások együtt maradjanak, illetve, hogy valamennyi tartalmi információ visszakereshető legyen. A tartalom leírása során tartalmi csoportokat kell kialakítani, amelyhez a fogalmak osztályozása szükséges. A fogalmakból az osztályok kialakítás és az egyes egyedek ezekbe történő besorolása az emberi gondolkodás egyik legalapvetőbb tevékenysége. A megismerés során az egyedeket jellemzőik alapján csoportokba soroljuk. Amennyiben egyedek egy bizonyos csoportja kitüntetett, érzékelhető és jól definiálható közös jellemzőkkel bírnak. Például a személyautók csoportjába sorolhatjuk a 2-7 személyes, jellemzően négy kerékkel bíró, első számú funkcióját tekintve személyszállításra szolgáló közúti járműveket. Az osztályok kialakítása nyomán gazdaságosan kezelhetjük a saját memóriakapacitásunkat, hiszen egy-egy jármű esetében elegendő megjegyeznünk, hogy az személyautó és így nem kell valamennyi típushoz (Skoda Octavia, Audi A4, Ford Focus) rögzítenünk a fent felsorolt jellemzőket. A világ létezőit így egyrészt szétválogatjuk eltérő tulajdonságaik alapján, másrészt összevonjuk a hasonlóságok mentén. A fentiek alapján egy osztályba tartoznak azok az objektumok, amelyek ugyanazzal vagy ugyanazokkal a közös tulajdonságokkal rendelkeznek. Az osztályalkotás nem más, mint az osztályt jellemző kritériumok meghatározása. Az osztályba sorolás pedig a hasonló egyedek csoportosítása, illetve annak a megállapítása, hogy mi mibe tartozik bele. (Varga 2012) Pálvölgyi (2011) a következőképpen magyarázza mindezt. „Amikor a valóságos dolgokat (jelenségeket, egyedeket stb.) érzékeljük, értelmezzük, tudatosítjuk, elengedhetetlen, hogy (1) képesek legyünk arra, hogy megkülönböztessük őket egymástól, (2) és arra is, hogy különböző dolgok közös ismérveit megállapítsuk. Ha képesek vagyunk dolgok valamely közös ismérvét megállapítani, akkor meg tudjuk határozni (el tudjuk határolni) azon dolgok körét, amelyekre a közös ismérv vonatkozik. Ez a művelet osztályozási művelet, és a neve osztályalkotás. A művelet eredménye: meghatározott dolgok (jelenségek, egyedek stb.) egy osztályának a létrehozása, megalkotása. Ehhez kapcsolódik az osztályba sorolás művelete. Az osztályozás valamennyi esetben fogalmi síkon történik. „A fogalom olyan gondolat, amely a valóság objektumait, jelenségeit az adott tárgyakra nézve közös, más tárgyaktól őket
elválasztó ismertetőjegyeik szerint általánosítja, emeli ki.” (Varga 2012) A szakirodalom két terminussal írja a fogalom alapvető jellemzőit. -
A fogalom tartalma – intenzió – a benne általánosított dolgok lényeges ismertetőjegyeinek összessége. A fogalom terjedelme - extenzió - a benne általánosított dolgok összessége. (Barátné 1998)
A fogalom a terjedelmét alkotó dolgok osztályát képviseli. Az osztály az elemek olyan nyílt összessége, melyet közös tulajdonságok, ismertetőjegyek jellemeznek. Az osztályok elemei rendelkeznek kitüntetett szemantikai jellemzőkkel illetve más megkülönböztető ismérvekkel. (Varga 2012) Ha egy osztályon belül az elemek egy csoportja a kitüntetett szemantikai jellemzők mellett más közös tulajdonságokkal is rendelkezik, alosztályt alkot. Minél nagyobb mértékben általánosítunk egy-egy fogalmat, annál kevesebb ismertetőjeggyel vagyunk képesek azt leírni. Az ismérvek számának növelésével egyre speciálisabb, a csökkentésével egyre általánosabb fogalmakhoz jutunk. Bizonyos fogalmakat már csupán egyetlen ismérvvel, önmagával lehet jellemezni, ezeket fogalmi kategóriáknak nevezzük. Erre lehet példa az anyag, az energia, az idő, a mozgás vagy a tulajdonság. „A facetták a fogalmi kategóriák olyan alkategóriái, amelyek egy-egy szakterület általános fogalmait képviselik.” (Varga 2012) Összefoglalva tehát az osztályozás az emberi gondolkodás alapvető formája, mely párhuzamba állítható a fogalomalkotással. Természetes logikán alapul. Azt a logikai tevékenységet, mely során a jelenségeket, tárgyakat hasonlóságuk foka alapján egybegyűjtünk, és különbségeik foka alapján elkülönítjük egymástól, osztályozásnak nevezzük. Ha az osztályozás tárgyai a könyvtár állományába tartozó dokumentumok vagy szolgáltatási körébe tartozó információk, akkor könyvtári osztályozásról beszélünk. Ha valamely bibliográfiában felsorakoztatott mű, akkor pedig bibliográfiai osztályozásról beszélünk. Az osztályok a gondolkodásunkban definiálhatók más osztályok uniójaként, metszeteként, komplementereként stb. Az alapvető halmazelméleti műveletekkel képesek lehetünk leírni az egyes fogalmak közötti átfedéseket, különbségeket, sajátos viszonyokat. „A reláció a halmazok vagy egy halmaz elemei között megállapított kapcsolat. Fogalmi reláción - teljesen analóg módon - a fogalmak vagy ismérvek közötti kapcsolatokat értjük.” (Varga 2012) Ennek általános jelölése aRb. A relációkat is különféleképpen osztályozhatjuk azok természete szerint. Most csak azon legjellemzőbb kapcsolattípusokat soroljuk fel, amelyek az osztályozási rendszerek kialakítása során jelentőséggel bírnak. -
Ekvivalencia reláció. Abban az esetben, amikor két osztályba ugyanazon egyedek tartoznak. Tipikusan a szinonimákra, illetve különböző nyelvű megnevezések közötti
-
-
ekvivalencia leírására szolgál. Pl. ekvivalencia reláció áll fenn a macska – cat – katt különböző nyelvű elnevezések között, vagy a kutya – eb szinonimák között. Ezekben az esetekben elmondható, hogy minden olyan egyed, amely a kutya szóval leírható, biztosan leírható az ebbel is. A valóság minden olyan eleme, amelyet macskaként definiálunk, az meghatározható mint cat vagy mint katt is. Generikus reláció van két olyan egyed között, amelyek egymás fölé- vagy alárendeltjeinek tekinthetők. Pl. Minden személyautó jármű, de nem minden jármű személyautó. Tehát a jármű a személyautó fölérendeltje. Valamennyi személyautó osztályba tartozó egyed része a járművek osztályának is. A generikus reláció az ontológiák esetében kifejezetten nagy jelentőséggel bír, amelyet Ungváry (2004) a következőképpen magyaráz: „Az ontológia részét alkotó fogalmi hierarchia kifejezéseivel dokumentumok (források, elsősorban webforrások) tartalma osztályozható, írható le. E hierarchia kifejezései tehát a dokumentumok (források) tartalmára vonatkozó másodlagos vagy ún. metaadatokat képviselnek, maga a hierarchia pedig tekinthető osztályozási rendszernek, illetve információkereső nyelvnek. A különbség a hagyományos osztályozási rendszerekhez (ETO) és információkereső nyelvekhez (tezauruszok) képest az, hogy az ontológiákkal a logikai szerkezet jóvoltából automatizáltan kihasználható a generikus hierarchia eddig csak intellektuálisan hasznosított tulajdonsága, a generikus öröklődés. Az öröklődés az ontológiákban például azt jelenti, hogy ha a kutya fogalmának ismertetőjegye az ugatás, akkor a kutyák minden fajtájára érvényes, hogy ugatnak. Ez a következtetés minden nyelvhasználó, és vele minden kereső számára magától értetődő, mégpedig anélkül, hogy kutyák minden egyes fajtájára nézve külön-külön rögzítenie kellene magának ezt a ismeretet. Mind a mai napig azonban a logika egyetlen változata sem teszi igazán lehetővé ennek a következtetésnek a formális végrehajtását (azaz ezt az ismeretet egy formális rendszerben az egyes kutyafajták esetében külön-külön rögzíteni kell). Az ontológiákat azért találták ki, hogy ezt a problémát a mesterséges intelligencián alapuló rendszerekben és az ismeretbázisokban, rajtuk keresztül pedig valamiképpen az információkeresésben is valahogy áthidalják.” Szerkezeti relációnak tekinthetők az egész-rész viszonyokat leíró kapcsolatok. Magyarország része Budapest, ugyanakkor Budapest egésze Magyarország. Ez a viszony jellemzően hierarchikus, de a hierarchia nem generikus természetű. Gondoljunk csak a város – megye – ország – kontinens fogalmak közötti viszonyokra konkrét példákon keresztül. Pécs város része Baranya megyének; Baranya megye része Magyarországnak; Magyarország része Európának. Ha generikus viszonyról lenne szó, akkor igaznak kellene lenni annak az állításnak, hogy az alosztály egyede a főosztály egyede is. Ez azonban nem igaz, hiszen egy város semmiképpen sem lehet egy megye is. A relációtípust hívhatjuk partitív hierarchiának is.
Ezen relációkkal az egyes fogalmakat reprezentáló osztályok egymáshoz való viszonya írható le. Az ontológiák különösen hatékonyak ezen relációk megragadásában és ezáltal a választott fogalmak közötti összefüggések reprezentálásában.
Az ontológiák mellett számos más tudásszervezési rendszer is létezik. Ezeket tekintjük át a következő fejezetben.
3 Tudásszervezési rendszerek1 A tudásszervezési rendszerek feladata, hogy segítségükkel sikerüljön úgy elrendezni a tartalmakat, hogy a felhasználók könnyedén megtalálják, amit keresnek. Ahogy az információs túlterheltség egyre növekszik, a nem keresett dolgok egyre mélyebben elfedik azt, amit keresünk, ezek az eszközök egyre fontosabbá válnak. Tudásszervezési rendszereket alkalmaznak honlapok készítése során is, de legfontosabb eszközei a más tudományágakban kifejlesztett információszervezési technikák. Ezek közül a legtöbb a könyvtártudományból jön, mint például a tezauruszok, taxonómiák vagy a facettás osztályozás. A tudásszervezési rendszerek kapcsán számos probléma megfogalmazható: -
A tudományok fogalmi rendszere változik, nehéz követni. A hierarchikus osztályozási rendszerek követőek, nem tükrözik az újdonságot. Információkereséskor ritkán gondolkodunk tudományokban, inkább témákat keresünk. (Garshol 2003)
A szemantikus technológiák viszonylag új szereplői ennek a területnek, és az eddig létező technikák nyújtotta lehetőségekkel összehasonlítva jobban szervezett tartalmakat ígérnek. Jelen fejezet célja, hogy áttekintse a létező tudásszervezési rendszereket, hogy azok fényében világossá válhasson az ontológiák jelentősége, erősségei és hátrányai. Garshol (2003) áttekintette a legalapvetőbb fogalmakat a tudásszervezési rendszerekkel kapcsolatosan. Ez a fejezet ezen tanulmány gondolatmenete, meghatározásai és logikája alapján készült.
3.1 A metaadat fogalma A metaadat minden információ-visszakeresés alapja, így azzal kezdjük, hogy megvizsgáljuk, mit takar ez a fogalom. Az az általános feltételezés az információszervezésről, hogy az különálló egységekből áll, bár ezen egységek szakszerű megnevezése változó. Időnként úgy hivatkoznak rájuk, mint „dokumentumok”, máskor mint „dolgok”. Ebben a fejezetben a továbbiakban az objektum kifejezést fogjuk használni ezen egységekre, mivel nem tűnik
1
Garshol (2004) alapján.
megfelelőnek az a feltételezés, hogy a szó hagyományos értelmében ezek mind dokumentumok lesznek. A metaadatot általában úgy definiálják, hogy „adat az adatról”, ami természetesen nagyon tág meghatározás. Az informatika világában ez általában egy adott reprezentáció adatkészletéről szóló információra vonatkozik, amely jellemzően sémainformációt (schema), adminisztratív információt stb. jelent. Mindazonáltal a tartalomszervezésben (content management) és a tudásszervezésben a metaadat általában azt jelenti, hogy „információ az objektumokről” (az „objektum” itt a fent meghatározott értelemben szerepel), azaz információ egy dokumentumról, képről, egy újra felhasználható tartalommodulról stb. Miután minket most elsősorban a tartalomkezelés érdekel, ezt a definíciót fogjuk alkalmazni a továbbiakban. A metaadatok legismertebb szógyűjteménye a Dublin Core (DC). A készlet 15 tulajdonságból áll, amelyek alkalmazhatók információs források leírására. (DCMI 2001) A DC metaadat elemkészlet (DCMES 2006), a DC metaadat kifejezések (DCMT 2006), valamint a finomított elemkészlet (DC 2004) információs erőforrások leírására szolgál elsősorban. A tulajdonságok olyan információkat tartalmaznak, mint például „cím”, „alkotó”, „tárgy”, „leírás”, „kiadó”, „dátum”, „nyelv” stb. A Dublin Core specifikáció mindegyik tulajdonság jelentését meghatározza, de arról nem szól, hogy miként lehet ábrázolni a tulajdonságokat és azok értékeit is egyszerre, és így független minden konkrét technológiától. A Dublin Corenak az a célja, hogy a források, a tartalmak felfedezését segítse, vagyis az információ visszakeresését támogassa. A metaadatok éppen olyan hasznosak a tartalomkezelés során, mint a tartalom közreadás utáni megismerésében, és így metaadatokat a gyakorlatban mindkét célra használunk. Az Országos Széchényi Könyvtár egy Dublin Core metaadatelemkészlet-generátorral segíti a Dublin Core használatát. (http://mek.oszk.hu/dc/)
A DC metadatelem-készletnek számos más erőforrásokat leíró nyelv számára konvertálható. A világháló alapvető szabványához illeszkedik a DC HTML (2003), a legfontosabb szemantikus web ajánláshoz a DC RDF (2002) és a tématérkép technológia csereformátumához a DC XTM (2003). Általában véve a metaadat legjobb meghatározása az, hogy „bármilyen állítás egy információs forrásról”, függetlenül attól, hogy mire használjuk, melyik metaadatkészletet vesszük alapul, vagy hogy miként ábrázoljuk. A metaadatok legfontosabb funkciója, hogy segítik a dokumentumok és tartalmak visszakeresését. Eleinte csak dokumentum-visszakeresésre használták ezeket, a szemantikus technológiák térhódításával vált nyilvánvalóvá, hogy a felhasználó szempontjából a tartalmak – dokumentumtól függetlenül való – kereshetővé tétele az igazán releváns. Erről szól a „tárgyközpontúság forradalma”. (Pepper 2008a, 2009) Nyilvánvaló, hogy egy nagy dokumentumkorpuszban egy adott információt keresni bármilyen metaadat (vagyis a tárgyakról szóló információ) nélkül meglehetősen reménytelen feladat. A kérdés az, hogy milyen típusú információ segítene a legtöbbet a felhasználónak? Az egyik gyakori eset, amikor a felhasználó már látta egyszer a keresett tárgyat és így talán emlékszik bizonyos részleteire, mint például szavakra a címből, vagy a szerző nevére vagy hogy mikor írták. Ebben az esetben ezek a nyomok felhasználhatók a dokumentum megtalálásához a nyomokra rákeresve és addig próbálgatva a különböző kereséseket, amíg elő nem kerül a megfelelő dokumentum. A Dublin Core metaadat meglehetősen jól támogatja a visszakeresésnek ezt a formáját, mivel ez pontosan az a fajta információ, amelyet tartalmaz. Általánosabb esetben a felhasználó egy adott tárgyról szeretne információt kapni, és ezért bármilyen rendelkezésre álló felhasználói felület elé leül, hogy választ kapjon a kérdésére: vajon milyen objektumok szólnak X tárgyról? Ebben az esetben az a kérdés, hogy mennyi segítséget tud adni a felhasználói interfész ennek a felhasználónak? Ha feltételezzük, hogy az interfész a Dublin Core metaadaton alapszik, kiderül, hogy nem túl sokat. Alább láthatók a Dublin Core metaadatai egy 2005-ben megjelent egyetemi tankönyvnek. Cím
A szemantikus világháló elmélete és gyakorlata
Létrehozó Szeredi Péter, Lukácsy Gergely, Benkő Tamás Tárgy
Szemantikus web, RDF, OWL, ontológia, tudásreprezentáció
Kiadó
Typotex
Dátum
2005
Nyelv
Magyar
Terület
Magyarország
Formátum Könyv
Nyilvánvaló, hogy ez az információ nem sokat segít, ha az olvasó meg akarja állapítani, miről szól a könyv, bár a tárgyból láthatjuk, hogy a szemantikus webhez, az RDF-hez (Resource Description Framework), az OWL-hoz (Web Ontology Language), tudásszervezési rendszerek közül az ontológiákhoz és általában a számítógépes tudásreprezentációhoz van valami köze. Ez rávilágít a problémára, miszerint a sztenderd metaadat főként adminisztratív információkat nyújt és nagyon keveset mond egy objektum tárgyáról. A Dublin Core metaadat tulajdonságai közül csak néhány foglalkozik ezzel a kérdéssel, és még ezek közül is a legtöbb csak közvetett módon. -
-
-
Cím. Egy dokumentum címe általában jó támpontokat ad arra nézve, hogy miről szól egy dokumentum, de nem feltétlenül említi meg az összes olyan tárgykör összes nevét, amelyre a felhasználó kíváncsi, és esetleg olyan tudást is feltételez, amelynek a felhasználó nincs birtokában. (A mű tárgya jelen esetben azt jelenti: „bármilyen fogalom, ami a felhasználót érdekelheti”.) Leírás. Ez a mező valószínűleg azt írja le, hogy miről szól a dokumentum, de lehetséges, hogy ez sem segíti hatékonyan a keresést és a megtalálást, ugyanazokból az okokból, amelyek miatt a „cím” mező sem Tárgy. Ez a mező, amely általában kulcsszavak egy készletét tartalmazza, arra szolgál, hogy pontosan közvetítse, miről szól a dokumentum. Mindazonáltal sok múlik azon, hogy mennyire széleskörű a kulcsszó-készlet, említésre kerül-e minden vonatkozó tárgy vagy netán épp túl sok tárgy szerepel a listán, ami miatt a felhasználó túl sok találatot kap.
A következő kérdés a pontosság, hiszen kérdés, hogy mennyiben lehetünk képesek hitelesen reprezentálni a világ létezőit. Amellett, hogy a metaadat nem feltétlenül mond el sokat egy objektum tartalmáról, szintén probléma az is, hogy nem könnyű olyan készletet létrehozni, amely pontosan leírja a tárgyat. Képzeljünk el egy felhasználót, amint leül egy interfész elé, amellyel hozzáfér az összes, Typotex kiadó által közzétett könyvhöz, egy Dublin Core-on alapuló keresési interfészt használ és a szemantikus webről keres információt. A felhasználó most ismerkedik a témával, így még nem érdekli annak semmilyen specifikus részlete, csupán a tárgykör maga általánosságban. Ha a felhasználó ekkor végez egy keresést a „szemantikus web” kulcsszóval (vagyis ez szerepel a tárgy mezőben), az összes olyan könyv, amely tartalmazza a „szemantikus web” kulcsszót, szerepelni fog a keresési eredmények között. Az egyik probléma ezzel az, hogy ezek között lesznek bevezető anyagok és haladóbbaknak szólók is, az eredmény pedig egy egyszerű dokumentumlista lesz, amely valószínűleg mutatja a címet, szerzőt és a dátumot.
A cím, szerző, dátum és leírás mezők ez esetben nagyon hasznosak, mivel segítik a felhasználót az eredmények közötti választásban, de vajon milyen maguknak az eredményeknek a minősége? Ezt kipróbálva egy dokumentumkorpuszon az alábbi eredményt kapjuk, a „leggyakoribb legelöl” sorrendben. (Egy olyan egyszerű metaadat struktúra, mint a Dublin Core, nem teszi lehetővé a „legrelevánsabb” rendezést.) Szerző
Cím A szemantikus gyakorlata
világháló
elmélete
Dátum
és Szeredi Péter, Lukácsy Gergely és 2005. Benkő Tamás
Szemantikus web Bevezetés a tudásalapú Gottdank Tibor Internet világába
2005
Explorers’ guide to the semantic web
Thomas Passin
2004
Semantic Web Servers - Engineering the Graham Moore Semantic Web
2003
Information Architecture with XML
2003
Peter Brown
BookBuilder: Content Repurposing with Nikita Ogievetsky & Roger Sperberg 2003 Topic Maps The TAO of Topic Maps
Steve Pepper
2003
Egy pillantást vetve erre a táblázatra láthatjuk, hogy a fenti dokumentumok legtöbbje nem elsősorban a szemantikus webről szól, hanem a szemantikus világhálóval összefüggő témákról. Viszont ha a szerzők nem szerepeltetnék a „szemantikus webet” kulcsszóként, akkor azok, akik a „szemantikus webre” kerestek, egyáltalán nem találtak volna rá az előadásaikra. Egy másik problémája ennek a korpusznak, hogy a szerzőknek maguknak kellett meghatározniuk a saját kulcsszavaikat, ami azt jelenti, hogy a kulcsszavak megválasztása meglehetősen eklektikus lehet. Íme a fent említett korpusz néhány szokatlanabb kulcsszava véletlenszerűen kiemelve: „xml”, „Dublin Core”, „egyetemi tankönyv”, „ontológia”, „tudásszervezési rendszer”, „funkcionális kompozíció”, „szemantikus”, „Topic Maps”, „Magyarország újkori története” stb. Nyilvánvaló, hogy ezek több ok miatt sem jó kulcsszavak. Szintén problémát jelentenek ugyanazon kulcsszó különböző formái, illetve a szorosan összefüggő kulcsszavak. A korpuszban találkozhatunk az „intelligens világháló” (a szemantikus web szinonimája), az „RDF”, „OWL” (a szemantikus web formátumai) stb. kifejezéseket. Ezzel az a probléma, hogy négy kulcsszó utal két tárgyra és ez a két tárgy
nagyon szorosan összefügg egymással. Ez egyáltalán nem derül ki, és a felhasználónak vagy előre kell ezt tudnia vagy egyszerűen keresnie kell, ha rá akar jönni. Összegezve megállapíthatjuk, hogy a leghasznosabb metaadatok egy dokumentumról a kulcsszavak, mivel egyedül ezek írják le egyértelműen, hogy miről szól a dokumentum. A többi metaadat hasznos a dokumentum menedzseléséhez, illetve segít a felhasználónak eldönteni, hogy melyik keresési találatot akarja alaposabban megnézni.
3.2 Tárgyszavas osztályozás Garshol (2004) a tárgyszavas osztályozással folytatja a tudásszervezési rendszerek bemutatását. A könyvtári osztályozás a 19. század végén alakult ki. Addig is létezett tartalmak csoportosítása, de a fogalmat a mai értelemben csak ettől kezdve használjuk. A könyvtár funkciói változnak. Régen a megőrzés dominált. Az állomány kialakítása, megőrzése volt a cél, a használat elsődleges preferenciává később vált. Ma a könyvtár már nem csak könyveket, hanem minden típusú információt gyűjt és szolgáltat. A könyvek az emberi ismeretek és tudományok minden területéről merítik tárgyukat. A tartalmak alapján történő osztályozás kapcsolata nyilvánvaló a valósággal és a tudományok osztályozásával. A könyvtári osztályozás és a tudományok osztályozása között azonban lényeges elvi és gyakorlati különbségek vannak. Elvi különbség, hogy a tudományok osztályozásában a természet és a társadalom jelenségei az adott kor tudományának színvonalán közvetlenül tükröződnek, ellenben a könyvtári szakrendszerekben, a dokumentumokban felhalmozódott és a különböző korok tudományosságát tükröző ismeretek egyszerre és eltérő szinteken jelentkeznek. Gyakorlati különbségek a következők. -
-
-
A tudományok osztályozása valamilyen tudományos dolgozat formájában valósul meg, mely a tudomány területeinek és fogalmainak körülhatárolásával és meghatározásával zárul; A könyvtári szakrendszerek az ismeretek és tudományok fogalmait, és azoknak egymással való összefüggéseit a könyvek gyakorlati osztályozását biztosító táblázatokban rögzítik, szabályrendszerekben adják meg. A tudományok osztályozásának csak tartalmi, módszertani, szervezeti elemei vannak; A könyvtári osztályozásnak a dokumentumok fizikai oldalát, megjelenési formáját is ki kell fejeznie. A tudományok osztályozását csak tartalmi határok zárják körül; A könyvtári osztályozásban általános, interdiszciplináris enciklopédikus és vegyes tartalmú művek osztályozására is gondolni kell.
-
A tudományok osztályozásának célja elméleti szempontból a tudomány fejlődésének számbavétele, gyakorlati célja pedig a tudomány rendszerének (oktatás, kutatás) szervezése; a könyvtári osztályozás gyakorlati célja a szakkatalógus vagy más tájékoztatási, információkereső eszköz létrehozása, és ennek segítségével a kutatási és egyéb olvasói igények támogatása.
A könyvtári osztályozásnak elsődlegesen tehát gyakorlati célja van, és a tudományok osztályozásának tükrözése csak másodlagos, eszköz szerepet játszik. A könyvtári osztályozás célja az információk és hordozóik, a dokumentumok visszakeresésének biztosítása. Azt az eszközt, melynek segítségével az osztályozást végezzük, osztályozási rendszernek vagy információkereső nyelvnek nevezzük. A könyvtári osztályozás rendszerint a következő három funkció mentén értelmeződik: -
a dokumentumok feltárása; a dokumentumok tárolása; a visszakeresés biztosítása.
A tárgyszavas osztályozás pedig minden olyan tartalomosztályozást jelent, amely az objektumokat azok alapján a tárgyak alapján csoportosítja, amelyről szólnak. Ennek számos formája lehet és általában egyéb technikákkal van kombinálva azért, hogy komplex megoldást nyújtson. A nyelvi alapozású osztályozási eljárások legelterjedtebb típusa a tárgyszavas osztályozás; lényege, hogy a dokumentumtartalmak leírására a természetes nyelv szavait, kifejezéseit használja szabályozott formában (tárgyszavakat). Az osztályozó fogalmakat egymástól függetlenül hozza létre, tehát ez egy mellérendelő osztályozási eljárás. A tárgyszavas osztályozási rendszerek igen rugalmasak, könnyen fejleszthetők és egyszerűek, amellett, hogy magas követelményeket támasztanak. A tárgyszavaktól elvárják, hogy az osztályozott szakterület, tudomány teljes lefedését adja; tehát a szakterületet hézagmentesen fedje le. (Sándor, 2002) Megengedett, sőt szükséges hogy legyenek átfedések; a cél az osztályozásra szánt dokumentum teljes, sok szempontú leírása a tárgyszavak segítségével. A tárgyszavas osztályozási rendszerek feladatai: a tárgyszavakkal le kell tudni írni a dokumentum lényeges vonásait; a tárgyszavak rendje meghatározza a tárolási rendszer (pl. katalógus) szerkezetét és a tárgyszavaknak alkalmasnak kell lenniük, hogy a használó kérdéseit kifejezzék. A tárgyszó a dokumentum, információ, szöveg lényegének leírására kiválasztott tömör és egyértelmű kifejezés. (Sándor, 2002) Tárgyszók fajtái (Sándor, 2002 alapján): -
tudomány neve (logika, művelődéstörténet, alkalmazott matematika) tudományos elmélet neve (relativitáselmélet, értéktöbblet elmélet)
-
tudományos irányzat, iskola neve (romantika, szellemtörténet) tudományos témák, eljárások megnevezései (répatermesztés, bibliográfia) létezők, dolgok, élőlények nevei (bazalt, sugárzás, ragadozók) folyamatok, történések nevei (párolgás, földrengés) módszerek megnevezései (kísérlet) tudományos műszók (kamat, eposz) formai tulajdonságok, műfajok (évkönyv) intézmények, testületek, szervezetek nevei (Magyar Könyvtárosok Egyesülete) dolgok, folyamatok tulajdonságai (képlékeny) események nevei (mohácsi csata) földrajzi nevek, helyszín (Duna folyó) időpontok, időtartamok, korszakok neve (Bach-korszak, századforduló) személynevek, alkotások neve (Ady Endre, Biblia) közismert rövidítések (IFLA, FTC)
A tárgyszavas osztályozás és a metaadat között az a kapcsolat, hogy azok a metaadat tulajdonságok és mezők, amelyek különálló tárgyak felsorolásával közvetlenül leírják, miről szólnak az objektumok, tárgyszavas osztályozást használnak. Ez az alapvető vonás minden tárgyi alapú osztályozásban közös, és amint látni fogjuk, az egyes technikák közötti különbségek nem abban vannak, hogy mit mondanak az objektumokról, hanem abban, hogy mit mondanak a tárgyakról. Azt hangsúlyoznunk kell, hogy különbség van az osztályozott objektumok leírása és az azok osztályozásához használt tárgyak leírása között. A metaadat objektumokat ír le, és ennek egyik módja, hogy összekapcsolja az objektumokat azokkal a tárgyakkal, amelyekről szólnak.
3.3 Ellenőrzött szótárak Az ellenőrzött szótárak egy meglehetősen tág fogalom, de itt most megnevezett tárgyak egy zárt listáját értjük alatta, amelyet osztályozásra lehet használni. A könyvtártudományban ez néha jelölő nyelvként ismeretes. Az ellenőrzött szógyűjtemény alkotóelemeit általában kifejezésként ismerjük, ahol a kifejezés egy bizonyos fogalom egy bizonyos neve. (Ez nagyjából ugyanolyan, mint a kulcsszó közértelmű meghatározása). Szokás különbséget tenni kifejezés és fogalom között úgy, hogy az előbbi egy fogalom neve, és hogy ugyanannak a fogalomnak több neve is lehet, és hogy ugyanaz a kifejezés több tárgyat is megnevezhet. Egy ellenőrzött szógyűjtemény kifejezésekből áll és nem közvetlenül fogalmakból áll, és általában véve minden kifejezés egyértelmű, hiszen csak egyetlen tárgyra vonatkozik (azaz nincsenek duplikált kifejezések). A „tárgy”, ahogy eddig használtuk ezt a kifejezést, megfelel a „fogalomnak”.
Pepper (2009) amikor tárgyközpontú forradalomról beszél, akkor is lényegében egy olyan világot vizionált, amelyben a fogalmak állnak a tudásreprezentáció centrumában és nem a számítógépes alkalmazások. A szógyűjtemény kifejezésnek is némiképp eltérő jelentése van az „ellenőrzött szógyűjtemény”, illetve a „metaadat szógyűjtemény” kifejezésekben. Az első, amint azt megállapítottuk, bizonyos jelölők vagy osztályozásra használt tárgyak készlete, míg a második objektumok tulajdonságainak készlete. A szótárak ellenőrzésének célja annak megakadályozása, hogy a szerzők semmit sem jelentő kifejezéseket definiáljanak, esetleg túl tág vagy túl szűk értelműeket, illetve annak megelőzése is, hogy a különböző szerzők hibásan betűzzék vagy enyhén eltérő formáját használják ugyanannak a kifejezésnek. Vagyis elkerülhetjük, hogy a szerzők a „téma navigációs térkép” és a „tématérkép” kifejezést használják, ha rákényszerülnek a „tématérképek” választására. Azt is megakadályozzuk, hogy a „fukcionális összetétel” kifejezést használják a helyes „funkcionális összetétel” helyett. Az ellenőrzött szógyűjtemény legegyszerűbb formája egy kifejezéslista és semmi több.
3.4 Taxonómiák Horváth Zoltánné (2006) definíciója szerint „a taxonómia olyan ellenőrzött szótár (egyben osztályozási rendszer), amely a dokumentumokat, illetve egyéb információforrásokat az általuk képviselt fogalmak hasonlósága alapján rendezi és csoportosítja – automatikus osztályozás esetén klaszteres, nyelvi analízis, illetve numerikus, statisztikai, vagy kombinált módszerek alapján, viszonylag alacsony hierarchiaszinten –, ezért számítógépes kezelése áttekinthetőbbnek tűnik, mint a bonyolultabb struktúrákat képviselő osztályozási rendszereké. Garshol (2004) ugyanezt a következőképpen írja le: „Taxonómiának egyrészt azokat a hierarchikus struktúrákon alapuló osztályozási rendszereket nevezik, melyeket tudományos rendszerező céllal készítenek. A biológiában az élő szervezetek (és szervek) rendszerei taxonómiák. A tudománytanban az ismeretterületek rendszerét nevezik taxonómiának. A tanuláselméletben és a mesterséges intelligenciakutatásban is kialakultak taxonómiák és a nyelvészetben is. A mérhető különbségeken és hasonlóságokon alapuló hierarchiákat numerikus taxonómiának nevezik. Gazdasági szervezetekben véletlenszerű, hogy a kialakított hierarchikus rendező rendszert osztályozási rendszernek vagy taxonómiának nevezik. A szoftverkínálók egy része pl. automatikus és szemiautomatikus taxonómiákat kínál, más részük meg automatikus osztályozási rendszereket.” Az információkereső és osztályozási célból készült hierarchikus rendszereket általában osztályozási rendszereknek nevezik, de az átmenet nem éles az adminisztráció célból készült
osztályozási rendszerek/taxonómiák felé. Az áruk esetében áruosztályozásról (TEÁOR = Termékek Átfogó Osztályozási Rendszere), a foglalkozások esetében ugyancsak osztályozásról (pl. FEÁOR) szoktak beszélni, de egyes publikációkban használják (szinonim kifejezésként) olykor a taxonómia szót is. Ha értékeken alapuló adminisztratív hierarchiákat készítenek, akkor inkább a taxonómia szót használják (lásd a numerikus taxonómia esetét is). Vagyis: A tudományos, numerikus és értékalapú, hierarchián alapuló rendező rendszereket taxonómiának nevezik. Vállalati körülmények között is előfordul, hogy az alkalmazott osztályozási rendszert taxonómiának nevezik. Az információkereső, osztályozási, besorolási célú, hierarchián alapuló (gyakorlati) rendező rendszereket általában és főleg könyvtári-dokumentációs körülmények között osztályozási rendszernek nevezik. Elvileg, legáltalánosabb értelemben a taxonómia és a hierarchikus osztályozási rendszer kifejezések szinonimák, mindkettő hierarchián alapuló rendező rendszert jelent. Rendező rendszer: fogalmak meghatározott célból kialakított rendszere (lehet hierarchikus taxonómia és osztályozási rendszer) és enumeratív (ilyen a felsoroló rendező rendszer, mint például egy egyszerű online mutató), továbbá összetett (ilyen a deszkriptoros.) A rendező rendszereket foglalják ellenőrzött szótárakba (tárgyszójegyzékekbe, tezauruszokba, osztályozási táblázatokba, taxonómiai struktúrákba stb.).” (Ungváry 2004) A Wordmap meghatározása szerint a taxonómiaszoftver lehetőséget ad egy szervezet számára, hogy a szervezeti információk rendezésére szabványos sémát hozzon létre. A taxonómia-eszközzel ellenőrizhetők azok a kategóriák, terminológiák, és metaadatok, amelyeket a szervezet az információs rendszerében használ(hat), elősegítve a navigáció sikerességét. Egy másik forrás leszögezi, hogy a taxonómia olyan navigációs eszköz, amelyben a szabványos metaadatok és az ellenőrzött szótár lexikai egységeinek fejlesztése kombináltan adja azt a navigációs struktúrát, amely segít a felhasználónak a szükséges tartalmat elérni. Összességében a következő megállapítások jellemzők (Horváth 2006): -
-
a taxonómia webes környezetben biztosítja az információforrások, illetve dokumentumok csoportba rendezését hasonlóságaik alapján a tartalomfeltárás céljára; szisztematikus és szintetikus osztályozási eszköz a tudás-, illetve ismeretreprezentáció céljára, hierarchikus struktúrában tartalmazza a fogalmakat, és terminusai a tudásmegosztás nézőpontjából fejlesztik az adott közös nyelvet.
A taxonómia kifejezést régóta széles körben használják és ki is használják olyannyira, hogy ha valamire taxonómiaként utalunk, akkor tulajdonképpen bármire vonatkozhat, bár általában valamilyen absztrakt szerkezetet jelent. A taxonómiák eredete Carl von Linné nevéhez köthető, aki a 18. században hierarchikus osztályozási rendszert fejlesztett ki az élet formái
számára, és ez ma a modern zoológiai és botanikai osztályozás és a fajok névrendszerének alapja. Jelen tanulmányban a taxonómia kifejezésen olyan tárgyi alapú osztályozást értünk, amely a kifejezéseket az ellenőrzött szógyűjteményben hierarchiába rendezi, de nem csinál semmi mást, bár a való életben azt tapasztalhatjuk, hogy a „taxonómia” kifejezést összetettebb struktúrákra is használják. E megközelítés előnye, hogy lehetővé teszi azt, hogy az egymással összefüggő kifejezéseket csoportosítsuk és úgy kategorizáljuk, hogy könnyebben megtaláljuk a megfelelő kifejezést akár kereséshez akár egy objektum leírásához akarjuk azt használni. Például ez segítheti a felhasználókat, mivel egyértelművé teszi, hogy van két szorosan összefüggő kifejezés: „tématérképek” és „XTM”, és segít kiválasztani a megfelelőt. (Vagy legalábbis jelzi a felhasználónak, hogy esetleg mindkettővel próbálkoznia kéne.)
Példa taxonómiára (Garshol, 2004) Az ábra a tématérképek elhelyezkedését jelzi egy hipotetikus taxonómiai struktúrában. Amint látható, ez a struktúra könnyen segíthet kiválasztani a megfelelő kifejezést, ha valaki információt keres a tématérképekről vagy osztályozni akar egy tématérképekről szóló dokumentumot. A taxonómia a tárgyak leírásával segíti a felhasználót; a metaadat szempontjából igazán nincs különbség egy egyszerű ellenőrzött szógyűjtemény és egy taxonómia között. A metaadat csupán objektumokat kapcsol tárgyakhoz, míg itt a tárgyakat hierarchiába rendeztük. Tehát a taxonómia az osztályozáshoz használt tárgyakat írja le, de ő maga nem metaadat; mindazonáltal használható metaadatban. A következő ábra ezt mutatja be.
A taxonómiák és metaadatok (Garshol, 2004) Ebben a diagramban a kék vonalak a metaadatok, míg a fekete vonalak, amelyekből a taxonómia áll, a tárgyi alapú osztályozási séma részei. A megkülönböztetés onnan ered, hogy a kék vonalak az előadásról szóló állítások, de a fekete vonal a „tématérképek” és a „tudásreprezentáció” között nem az előadásról, hanem a tématérképekről szóló állítás. Ennek egyik következménye, hogy ha van egy másik előadásunk a „tématérképekről”, nem kell megismételnünk, hogy a „tématérképek” a „tudásreprezentáció” alá tartozik. A taxonómia több információt nyújt a fogalmakról, és ezt a felhasználó segítése érdekében teszi. Mindazonáltal míg a taxonómia segíti a felhasználót, a fogalmakkal kapcsolatos számos fontos információról nincs szó, úgy mint: -
A tényről, hogy az „XML Tématérképek” és az „XTM” szinonimák. Az „XTM” és a „tématérképek” közötti különbségről. (Sok felhasználó ezeket egymással felcserélhetőként használja, pedig nem ugyanazt jelentik.) A tényről, hogy a „téma navigációs térképek” a „tématérképek” szinonimája, de már nem használatos. A tématérképek és a tárgyi-alapú osztályozás, illetve a tématérképek és a szemantikus web közötti kapcsolatról. Az XTM és az XML, illetve a HyTM és az SGML közötti kapcsolatról. A HyTM és az XTM közötti hasonlóságról, illetve arról, hogy miben különböznek a TMQL-től és a TMCL-től, valamint a TMQL és az XQuery közötti hasonlóságról.
Mindez következményekkel jár a végfelhasználó számára, hiszen ez azt jelenti, hogy pontosan a megfelelő kifejezést használva kell keresnie, pont a megfelelő helyen kell
keresnie ahhoz, hogy megtalálja a kifejezéseket stb. Egy taxonómia, ahogy azt itt definiáltuk, nem tudja kezelni ezeket a problémákat, bár észre kell vennünk, hogy sok rendszer, melyekre taxonómiaként utalunk, bizonyos mértékben tudja kezelni, mivel túllép az itt meghatározott alapmodellen. Szóljunk még néhány szót a vállalati alkalmazásokról is. „A taxonómiákat vállalati környezetben gyakran nevezik a tudásmenedzsment (TM) közösség által fejlesztett tudásfeltárás (tudásreprezentálás) explicit eszközének. A taxonómia olyan terminusokat tartalmaz, amelyek a tudásmegosztás nézőpontjából megfelelnek adott környezet közös nyelvének. Nem szükséges egy tudományág teljes fogalmi reprezentációját képviselnie, de kialakításakor nélkülözhetetlen segítséget jelent a fogalmi elemzés. Gazdasági szervezeteknél az üzleti vagy szakmai tevékenység (misszió) a vezérelv, amelynél a legfelső kategória a misszióra vonatkozó általános megnevezés, és ezt követik olyan általános és gyűjtőfogalmak, mint: szolgáltatás, marketing, termékek stb. A megnevezések kodifikálását a tudásmenedzsment közösség vagy szerkesztőbizottság végzi egy tesztcsoport közreműködésével. A tesztelés társult eredménye a megnevezések „megtanulása” is. A konszenzuson alapuló megnevezések eltérőek is lehetnek az általánosan használtaktól – a fogalmi definícióban szerepelnek az értelmezés helyi sajátosságai.” (Horváth 2006).
3.5 Tezauruszok Garshol (2004) a tezauruszokról is hosszas áttekintést ad, ebben a részben az ő gondolatmenetét tovább folytatva mutatjuk be ezeket a tudásszervezési rendszereket. A „taxonómiához” hasonlóan a „tezaurusz” kifejezést is mindenféle tárgyi alapú osztályozási struktúra leírására használják, habár a tezauruszok szerkezetét két ISO-szabvány is meghatározza. Az ISO 2788 az egynyelvű tezauruszokat írja le, míg az ISO5964 a többnyelvűeket. Mi itt most abban az értelemben fogunk a tezauruszokról beszélni, ahogy azokat az ISO-szabványok meghatározzák, miközben azt is észrevesszük, hogy a gyakorlatban sok felhasználó valamennyire kibővíti a szerkezetet, és néhány esetben a kifejezést olyan struktúrákra is használják, amelyek az itt leírtaktól lényegesen különböznek. A tezaurusz olyan szótár, amelyben a szókészletet a szavak expliciten kifejezett összefüggéseivel együtt adják meg. Ezért nevezik ellenőrzött szótárnak. A szócikkek (tezauruszcikkek) azonban nem csak a szemantikai és morfológiai (együttesen paradigmatikus) összefüggéseket hanem a vezérszóval összefüggő magyarázatokat, meghatározásokat, használati, történeti, forrás stb. megjegyzéseket is tartalmaznak, ezért a tezaurusz a terminológiai szótárra is emlékeztet.
Elvileg sokféle tezaurusz készülhet (nyelvészeti, terminológiai, információkereső); itt az utóbbival foglalkozunk. A tezaurusz görög szó /thesaurus/, kincset, kincstárat jelent. A tezaurusz szó maga az idők folyamán több értelmet kapott: -
tudományos tezaurusz ókorban és koraközépkorban: valamilyen nagy tudományos gyűjteményre, anyaggyűjteményre vonatkozott. Nyelvészeti tezaurusz a 19. századtól egy nyelv szókincsét felölelő, a szavak, kifejezések relációit is bemutató szótárat jelentett (pl. Roget angol nyelvi tezaurusza) Információs tezaurusz (1960-as évektől) az információk rendszerezett és sokrétű feldolgozását és keresését segítő fogalomgyűjtemény (a fogalmakat pontosan, megbízhatóan, sok szempontúan tükrözi) (a továbbiakban tezauruszként ezt jelöljük)
A tezauruszok alapvetően a fent leírt taxonómiákból indulnak ki és úgy terjesztik ki azokat, hogy jobban leírhassák a világot azáltal, hogy nem csak a tárgyak hierarchiába való rendezését teszik lehetővé, hanem a tárgyakról szóló egyéb állítások megfogalmazását is.
Fogalmi kapcsolatok vizuális megjelenítése (Forrás: http://www.jayday.org/thesaurus.jpg) Az ISO 2788 a következő tulajdonságokat határozza meg a tárgyak leírásához (a hagyományos – angol nyelvben bevett – rövidítésekkel éltünk Garshol 2004 alapján) BT A „broader term” (tágabb kifejezés) rövidítése, a hierarchiában fölötte álló kifejezésre utal: annak a kifejezésnek tágabb vagy kevésbé specifikus jelentésűnek kell lennie. A gyakorlatban néhány rendszer lehetővé teszi, hogy egy kifejezésnek több BT-je legyen, míg más rendszerekben erre nincs mód. (Létezik egy inverz tulajdonság is, az
ún. NT – „narrower term”, azaz szűkebb kifejezés –, amelyre a BT utal.) Mondhatnánk azt is, hogy a fent leírt taxonómiák olyan tezauruszok, amelyek csak a BT/NT tulajdonságokat használják a hierarchia létrehozásához, és nem használják egyik lent leírt tulajdonságot sem, tehát kijelenthetnénk, hogy minden tezaurusz tartalmaz egy taxonómiát. SN Ez a kifejezéshez csatolt karakterlánc, amely annak a tezauruszon belüli jelentését magyarázza meg. Ez azokban az esetekben lehet hasznos, amikor a kifejezés pontos jelentése nem egyértelmű a kontextusból. Az „SN” a „scope note” rövidítése. Mivel a felhasználók gyakran használják az „XTM” kifejezést a tématérképekre, hasznos lenne az XTM-hez egy olyasmi scope note-ot adni, hogy „A tématérképek sztenderd XML csereformátuma. A tématérképekről beszélve általánosságban, és nem csak specifikusan a formátumukról, használja a ’tématérképek’ kifejezést.” USE Egy másik kifejezésre utal, amely az adott kifejezésnél jobban kedvelt; arra utal, hogy a két kifejezés egymás szinonimája. (Létezik egy inverz tulajdonság is, az UF.) Például a „téma navigáviós térképekre” tehetnénk egy USE tulajdonságot a „tématérképekre” utalva. Ez azt jelentené, hogy elismerjük a „téma navigációs térképeket”, de a „tématérképek” ugyanazt jelenti és ezért az utóbbi használatát javasoljuk. Ha ezt tesszük, akkor a „tématérképeken” is lenne egy UF tulajdonságunk a „téma navigációs térképekre” utalva, mivel ezt jelöli a „USE” kapcsolat. TT Ez a „top term” (top kifejezés) rövidítése, amely az adott kifejezés legfelső ősére (topmost ancestor) utal. Az ezen tulajdonságnak a másik végén lévő kifejezés az, amelyet akkor találnánk, ha a BT tulajdonságot követnénk egy BT nélküli kifejezés eléréséig. Szoros értelemben ez a tulajdonság redundáns, mivel nem hordoz többlet információt, bár talán hasznos lenne. RT A „related term” (kapcsolódó kifejezés) rövidítése, az adott kifejezéshez kapcsolódó kifejezésre utal, amely azonban az adott kifejezésnek nem szinonimája és nem is tágabb/szűkebb kifejezése. A „tématérképek” esetében használhatnánk ezt annak kifejezésére, hogy a „tárgyi osztályozás” és az „ontológiák” a „tématérképekhez” kapcsolódó kifejezések. Röviden, a tezauruszok sokkal gazdagabb szókincset (vocabulary) kínálnak a kifejezések leírásához, mint a taxonómiák, és emiatt sokkal erősebb eszközök. Amint látható, ha
taxonómia helyett tezauruszt használnánk, számos gyakorlati problémát megoldanánk az objektumok osztályozásával, illetve keresésével kapcsolatban. Magyarországon a legnagyobb általános tezaurusz az Országos Széchényi Könyvtáré, amelynek kereshető változata a http://mek.oszk.hu/adatbazis/thes.htm címen érhető el. A következő kép ebből mutatja be a kutya szót, annak kapcsolódó fogalmaival együtt.
3.6 Facettás osztályozás A facettás osztályozás kifejezést számos különböző dolog jelölésére használják. Eredetileg S.R. Ranganathan javasolta az 1930-as években (Ranganathan 2002), és úgy működik, hogy egy bizonyos számú facettát határoz meg, amelyekre a kifejezések feloszlanak. A facettákra tekinthetünk úgy is, mint különböző tengelyekre, amelyek mentén osztályozhatjuk a
dokumentumokat, és minden facetta tartalmaz egy bizonyos számú kifejezést. A kifejezések leírásának módja a facettákon belül változó, bár általában egy tezauruszféle struktúra a használatos, és általában egy kifejezés csupán egyetlen facettához tartozhat (Svenonius, 2000)
A facettás osztályozás egy konkrét digitális könyvtár vonatkozásában (Forrás: Maria Theodoridou, Martin Doerr 1998) A facettás osztályozás lényegét legjobban Horváth Tibor és Sütheő Péter (2003) írják le. „Az információkereső nyelvek önálló típusát jelenti. Nincs ellentétes típuspárja, mert az összes többi, „nem facettás” információkereső nyelv kínálná magát erre, de a facetta elv megjelenhet alkalmazási előírásként bármely másik indexelő-osztályozó eljárásban. A facetta jelentését leginkább a magyar „vetület” kifejezés adja vissza: eszerint vetületes osztályozásnak is lehetne hívni. A facetta minden kognitívum számára ugyanazt a kérdést teszi fel: az ismérvek sorozata, a logontartalom milyen arculatot ölt az indextételben? Hogyan kell az ismérveket elhelyezni az információt leíró ismérveket tartalmazó vetületek rendjében? Egy „rádiókészülék” – mint egy tétel ismérve – lehet egy folyamat (pl. munkafolyamat) tárgya. Lehet végterméke. Lehet tulajdonságok hordozója. Lehet eszköz, ha rádióval, a rádió segítségével egy végbe valami. A facettás osztályozás szerint egészen más a rádió szerepe, ha más vetületben helyezkedik el. A facettás osztályozás fordulópontot jelentette az információtudomány történetében. Ugyanis egy feldolgozási egységhez rendelt ismérvsorozat ugyanúgy nem áll össze
indextétellé, ahogyan a szavaknak egy kupaca még nem alkot mondatot. Módot kell találni a viszonyok meghatározására. Ezeket a viszonyokat az ismérvek szótárába, tárgyszórendszerekbe, tezauruszokba, hierarchiákba igyekeztek beépíteni, még az indexelési-osztályozási folyamat előtt. A facettás osztályozás volt az első hatékony eljárás arra, hogy az ismérvek kapcsolata magában az indextételben jelenjenek meg. (kezdetben még tartotta magát az a tévhit, hogy a minden egyes tétel ugyanazokkal a facettákkal írható le.) A facettás osztályozás kidolgozója Ranganathan, bár az elv egészen Arisztotelészig vezethető vissza. Ranganathan szerint a facetta bármely téma összetevőjét megjelenítő általános fogalom. Nála még öt facetta létezett, amelyek bizonyos szintaxist kölcsönöztek az indextételnek.” A facettás osztályozás azon a dokumentumosztályozási elven alapul, hogy minden facettából egy kifejezést kiválasztva leírjuk a dokumentumot az összes különféle tengely mentén. Ezzel a dokumentum sok különböző perspektívából leírható. Ranganathan eredeti javaslata (Kettőspontos Osztályozás néven is ismeretes) öt facettából állt: Személyiség Az eredeti szándék szerint ez a facetta a dokumentum elsődleges subject-je számára van, és a főfacettának tartjuk. Anyag Az anyag vagy állomány/lényeg/összetétel, amellyel a dokumentum foglalkozik. Energia A folyamatok vagy tevékenységek, amelyeket a dokumentum leír. Tér A dokumentum által leírt helyek. Idő A dokumentum által leírt időintervallum. A facettás osztályozás talán nagyon különbözőnek tűnik egy tezaurusztól, de valójában a tekinthető úgy is, mint egy nagyon fegyelmezett módja a tezaurusz építésének, és használható osztályozási célokra is. Létezik egy XML csereszintaxis a facettás osztályozás számára, amely XFML-ként (eXchangeable Faceted Metadata Language, azaz Facettás Metaadat Csereszintaxis) ismeretes, és az XTM inspirálta és vannak is azzal közös vonásai. Az XFML nem kívánja meg semmilyen specifikus facettakészlet használatát, sem az egyes facettákon belüli specifikus
kifejezéskészletét, hanem egy tezaurusz-szerű struktúrát használ a kifejezésekhez a facettákon belül. (van Dijck, 2003) Létezik egy általános nézet a facettás osztályozásról, amely szerint minden facettát addig a pontig általánosítunk, amíg általános tulajdonsággá válik, a dokumentum fogalma pedig annyira általános, hogy bármilyen típusú objektum lehet a jelentése. E szerint a nézet szerint csak kis különbség van a facettás osztályozás és az ontológiák között. Az ontológiák szintén tudásszervezési rendszerek, amelyek a jelen módszertani útmutatóban kiemelt jelentőséggel bírnak, ezért ezeket önálló fejezetben tárgyaljuk.
4 Az ontológia fogalma
Az ontológia eredetileg filozófiai terminus, amely a világ létezőinek valamint a lételméletnek a megnevezésére szolgál. Kizárólag ez a kontextus határozta meg az ontológiákról szóló diskurzusokat egészen az elmúlt néhány évtizedig. A fogalom az 1970-es években nyert új jelentéseket, amikor a mesterségesintelligencia-kutatásban a szoftverekkel generált mesterséges világok megnevezésére is használták. Később a tudásmenedzsmentben az 1990es években kezdtek ontológiákról beszélni a formális logikai leírásokkal ellátott generikus hierarchiaszerkezetekkel kapcsolatban. Az ontológiák a szemantikus-web fejlesztések kapcsán kaptak különösen nagy figyelmet az elmúlt években. Azt hogy pontosan milyen szerepet játszanak az ontológiák a szemantikus web működési mechanizmusaiban, Berners-Lee, Handler és Lassila (2001) a következőképpen magyarázzák. „Elképzelhető, hogy két adatbázis különböző azonosítókat használ azonos dolgokra. A programnak, amely össze szeretné hasonlítani, vagy kombinálni a két adatbázisból származó adatokat egymással, tudnia kell, hogy a két terminus ugyanazt jelenti. Ideális esetben a program képes felkutatni az ilyen közös jelentéseket, bármilyen adatbázissal is találkozik. Az ilyen problémákra a szemantikus web harmadik nagy komponense jelenti a megoldást, az ún. ontológiák.” Szakadát István (2007) hívja fel a figyelmet arra, hogy az informatika és a tudásmenedzsment területén szerencsésebb lenne a formális ontológia vagy ipari ontológia terminusokkal élni. Tény, hogy így mindez világosan elkülöníthető lesz a filozófiai fogalom eredeti jelentésrétegeitől. Az ontológia fogalma vonatkozásában most kizárólag az informatika és a tudásmenedzsment területén ismert definíciókat soroljuk fel a főbb tartalmi elemekre koncentrálva a teljesség igénye nélkül. A definíciók tekintetében részletesebben kitérünk az intelligens webes alkalmazásokban használatos meghatározásokra, köztük az ISO 13250 szabványban leírt Topic Maps technológia kapcsán született ismert definíciókra is. Az első és legalapvetőbb definíció Gruberttől származik, amelyet Szakadát, Szőts, Szaszkó (2006) a következőképpen mutat be. „Talán a leggyakrabban idézett meghatározás Thomas Grubertől származik (1993a, 1993b), amely szerint az ontológia „egy fogalmi rendszer konszenzuson alapuló, explicit, formális specifikációja”. Mivel nagy vonalakban – egy-két kiegészítéssel együtt – a MEO-projekt számára elfogadhatónak tűnik ez a meghatározás, de
érdemes alaposabban kibontani, hogy pontosan mit is értünk a definíció egyes elemein. A mondatot az alábbi összetevőkre bonthatjuk: 1) 2) 3) 4) 5) 6)
egy fogalmi rendszer konszenzuson alapuló explicit formális specifikációja.
Bizonyos értelemben mindent meghatároz a definíció első két eleme, amely szerint az ontológiákban a létező dolgokra vonatkozó képzetekeinket reprezentáló fogalmakat akarjuk egységes rendszerbe foglalni (1). Ehhez természetesen alaposan körbe kell járni, mit is jelent a fogalom fogalma, illetve milyen típusait érdemes elkülöníteni, de ezzel itt most nem kell törődnünk. 1 Az ontológiák építésével azt a fajta paradigmatikus tudást akarjuk rögzíteni, ami a természetes nyelvi kommunikáció során a szó szintű nyelvi megnyilatkozásainkkal fejezünk ki. A fogalommal a világ valamilyen létező elemére, összetevőjére, dolgára akarunk utalni úgy, hogy jegyek, tulajdonságok felsorolásával kifejezzük a fogalom tartalmát (intenzióját) és rámutatunk a világ azon konkrét létező dolgaira, amelyek a fogalom terjedelmét (extenzióját) alkotják. Az ontológiákba azonban nem pusztán az egyes fogalmakat vesszük fel, hanem rögzítenünk kell a fogalmak közötti kapcsolatokat is. Amikor ilyet teszünk, akkor valamiféle struktúrát építünk a fogalmak halmazán, amivel túllépünk a fogalmak egyszerű felsorolásán, s valamilyen fogalmi rendszerről kell beszélnünk. Ezért kell beemelni a fogalmi rendszer (vagy másként: konceptualizáció) kifejezést a meghatározásunkba (2). Ebben az esetben kijelentéseket vagy formulákat, azaz a természetes nyelv mondat szintű megnyilatkozásainak megfelelő, igazságértékekkel jellemezhető logikai egységeket kell létrehoznunk (specifikálnunk) és egységes rendszerben konzisztensen kezelnünk (6).” (Szakadát – Szőts – Szaszkó 2006) Szintén gyakran idézett meghatározás Ungváry definíciója, amely szerint az ontológia „egy meghatározott ismeretterület formális modellje” (Ungváry 2004). A definíció kevésbé szigorú, hiszen az előzőekkel ellentétben nem foglalkozik explicit módon a konceptualizálás kérdéskörével, hanem sokkal inkább adottságnak veszi azt, hogy egy ismeretterület formalizálása során fogalmak alkotására van szükség. Szintén nem foglalkozik a definíció a formalizálás mikéntjével, tehát az egyes – a tudásszervezési rendszerben felsorolt – fogalmak egymáshoz való viszonyát meghatározó lehetőségekkel. Egy meghatározott ismeretterület formális modellje bizonyos értelemben lehet egy tezaurusz is, hiszen abban is egy előre definiált modell által meghatározott keretek között, géppel olvasható formában (formalizáltan) vannak jelen az egyes fogalmak, amelyek a könyvtári dokumentumok osztályozása során deszkriptorokként kerülnek használatba.
A Gene Ontology Consortium ontológiájának részlete http://www.godatabase.org/ (Forrás: Ungváry – Vajda) „Megosztott konceptualizálás formális, explicit leírása” (Vickery 1997, Horváth Tibor fordítása).
megosztott: arra vonatkozik, hogy egy ontológia magáévá tette a megegyezéses tudást, azaz nem személyi vagy individuális, hanem egy szélesebb közösség által elfogadott. konceptualizálás: a világ jelenségeinek (fenomenon) absztrakt modellje azáltal, hogy e fenomenonnak releváns fogalma (concept) határozható meg; explicit: a használt fogalmak típusát jelenti, a használat megkötöttségeit, amelyeket határozottan definiálnak; formális: géppel olvasható (szabályokkal leírt, előírásos);
Az ontológiák lényegében speciális taxonómiák, amelyek a mellett, hogy megmutatják a fogalmak egymáshoz képesti fogalmi hierarchiáját, a formális logikai szabályok megjelenítésével még többre képesek az emberi gondolkodás reprezentálásában. (BernersLee, 2001) „Egy meghatározott ismeretterület formális modellje” (Ungváry, 2004) Az ontológiákkal kihasználható a tulajdonságok generikus öröklődése a speciálisabb fogalmak irányába.
A szemantikus web fejlesztésekhez képest a tématérképekkel foglalkozó nemzetközi közösség ontológia definíciója lényegesen lazább. Az ontológiák meghatározása tématérképes környezetben nem egyezik a szemantikus webet fejlesztő közösség definícióival. A tématérképek esetében „az ontológia meghatározott tématérképben használt téma-, név-, előfordulás-, asszociáció- és szereptípusok összessége.” (Garshol 2007) Mindehhez célszerű a fogalmakat röviden értelmezni. Minderre ráadásul később az ontológiafejlesztés gyakorlatáról szóló fejezetben közvetlenül is szükségünk lesz. A tématérképek eredete az elektronikus indexek összeolvasztásán történő munkához köthető, ezért nagyon is tárgyi osztályozási technikát alkotnak. A tématérképek tulajdonképpen témák köré rendeződnek, és minden téma valamilyen valós dolog ábrázolására használatos. A fent használt terminológia szerint a témák fogalmakat jelölnek, ugyanúgy, ahogy egy jelölő nyelvben a kifejezések fogalmakra vonatkoznak. A tématérképekben a fogalmakat tárgyaknak hívjuk, és a szabvány hangsúlyozza, hogy „bármi” lehet tárgy.
Téma (topic) – A tématérképekben tárolt információ alapvető egységei a témák. Minden olyan dolgot témának kell tekintenünk, amelyről állítást kívánunk tenni. A témát meg kell nevezni, és biztosítani számára az egyértelmű címezhetőséget. A szemantikus web vízióban az egyértelmű címezhetőséget az URI-k (Universal Resource Identifier-ek) biztosítják, ahogy lényegében a tématérkép technológia esetében is. Minden témához rendelnünk kell egy olyan (külső) erőforrást, amely egyértelműen azonosítja a témát, és minden más témával szemben összetéveszthetetlenné teszi. A Topic Maps technológia alkalmazása során PSI-ket (Public Subject Identifier) használnak a témák azonosítására, de bármely ellenőrzött szótár elemei alkalmasak az egyértelmű címezhetőség biztosítására. Ilyen azonosíthatók lehetnek például a DBpedia szótár elemei. Asszociáció (association) – A témák közötti relációkat az asszociációk írják le. Az asszociációk segítségével állításokat fogalmazhatunk meg két egymással összefüggő témáról. Az asszociációk esetében is szükséges lehet az egyértelmű címezhetőség biztosítására, így ezekhez is rendelhetünk azonosítókat. Előfordulás (occurence) – A tématérkép technológia harmadik meghatározó elemei az előfordulások. A tématérképekben az előfordulások azok az elemek, amelyek tényleges információt hordoznak, és nem egy adott dolgot reprezentálnak, mint az asszociációk, vagy a témák. Megkülönböztetünk külső és belső előfordulásokat. Előbbiek a tématérképen kívüli erőforrásokra mutató linkek, utóbbiak a tématérképbe írt információk, magyarázatok, adatok, tények. Nevek és névtípusok (name types) – Minden téma állhat különböző neveken. Minden témának van egy kitüntetett neve, amely szerepel az asszociációkban és amely az adott fogalom reprezentánsaként funkcionál. Ezen túl azonban bármennyi névtípust meghatározhatunk. Például beírhatjuk mindennek az angol nevét (tématérkép – topic
map); de személyek becenevét is (Kovács István – Kokó), vagy intézményi rövidítéseket (Központi Statisztikai Hivatal – KSH). Szerepek és szereptípusok (role types) – A témák közötti kapcsolatok definiálása során gyakran nagy jelentősége van annak, hogy egy téma milyen szerepben vesz részt egy relációban. Egy személy például kutatóként rendelkezik kutatási területtel, munkavállalóként vesz részt egy munkáltatói viszonyban, és például apaként vesz részt egy szülő-gyermek viszonyban. Ezen szerepek definiálására használják a szerepeket, szereptípusokat.
A tématérképek világában az ún. TAO modell a fenti elemek legfontosabb három elemére, a témákra (topics) az asszociációkra (associations) és az előfordulásokra (occurences) utal. A tématérképekben szükség lehet bizonyos állítások irányának, bizonyos névtípusok érvényességi körének meghatározására. Erre szolgál az érvényesség (scope) definiálása. Ennek tipikus példája a nyelvi meghatározottság. Névtípusok esetében egy megnevezés csak bizonyos kontextusokban, nyelveken értelmezhető. Az alábbi ábra a tématérkép technológia általános modelljét mutatja be:
A tématérképek egyszerűsített (TAO) modellje
Ahogy a fenti ábrán is látható, minden tématérkép hátterében van egy ontológia, amely meghatározza a fogalmak hierarchikus rendszerét, egy egyszerű, néhány témát, tématípust, asszociációt és előfordulást tartalmazó tématérkép készítése során azonban ez nem feltétlenül tudatosul. Egy bonyolultabb, nagyon sok tématípust, generikus relációkat (elvont
fölérendelt nem- és alárendelt fajfogalmakat), tartalmazó tématérkép kidolgozása során előbb kell az ontológiát elkészíteni és csak azt követően megtölteni tartalommal (információval), azaz konkrét eseteket rendelni a típusokhoz. Ezt hívják ontológiavezérelt tématérkép-szerkesztésnek. (Pepper 2007, Tóth 2008) Az ontológiavezérelt tématérképszerkesztés során lehetőség van arra, hogy más készítse el az ontológiát és más töltse fel a tartalmat, hiszen más típusú szakértelemre van szükség a két művelethez. Erre fogunk példát mutatni a gyakorlati ontológiaszerkesztésről szóló fejezetben. A tématérkép ontológiák a humán interpretáció szempontjából nagyon hatékonyak: elsősorban erre optimalizálták ezeket. A géppel végeztetett következtetésekhez ugyanakkor nem kellően kifinomultak, hiszen nem formális logikákon alapulnak, így nem tudnak olyan mértékben konzisztensek lenni, mint az RDFS/OWL ontológiák. A következő ábra az olasz opera egy jeles alakjának az életművét mutatja be egy OKS segítségével elkészített tématérképben.
A formális logikák hiánya egyrészt előny: biztosítja a világ létezőinek és az azok közötti kapcsolatok formalizálása szempontjából elengedhetetlen rugalmasságot. Ezért a tématérképek hatékonyan le tudják képezni a strukturálatlan információkat. (Kormos, Kovács, Tóth 2008) Másrészt viszont hátrány, mivel a tématérképek így nem állhatnak össze egy következtetésre is alkalmas globális metaadat-infrastruktúrává, amelynek létrehozása a szemantikusweb-fejlesztések végső célja, és amelyet a szakirodalomban több helyen reális célként fogalmaznak meg. (Newcomb 2003, Passin 2004, Pepper 2006) A MEO (Magyar Egységes Ontológia) projekt tapasztalatai alapján erősen kérdéses a felsőbb szintű ontológiák valódi haszna. Szakadát István szerint „nemhogy az ontológiák tényleges ipari alkalmazásától messze vagyunk, de ma még mindenhol az alapok kialakításánál, megszilárdításánál tartanak.”
Könnyen belátható, hogy minél szélesebb körben végezzük el a tudásreprezentációt, annál kevésbé tudunk mélyre hatolni az emberi gondolkodás struktúráinak modellezésében. Minél felszínesebb lesz a tudásreprezentáció, annál kevésbé lesz a kialakított rendszerünk alkalmas a következtetésekre, valós problémák megoldására. A tématérkép ontológiák kapcsán mindenképpen szót érdemelnek az azonosítási mechanizmusok. Míg az RDF/OWL ontológiák esetében az egyes fogalmak közötti kapcsolatok eleve jól definiált erőforrások között létesülnek. A tématérkép technológia esetében fogalmak vannak a középpontban, amelyeket URI-kkal utólag azonosítani kell. A tématérkép technológia PSI-ket (Published Subject Identifier/Indicator – Publikált Tárgyazonosító/Indikátor) használ a fogalmak egyértelmű azonosítására. A PSI elsődleges célja, hogy két tématérkép összeolvasztásakor biztosítsa, hogy a számítógép felismerje azokat a témákat, amelyek a valóság ugyanazon létezőjére utalnak. Az OASIS Topic Maps Published Subject Technical Committee (OASIS Tématérkép Publikált Tárgyak Technikai Bizottság) azzal a céllal állt fel 2003-ban, hogy tématérképek és egyéb szemantikus technológiák (RDF, OWL) közötti interoperabilitást biztosító ajánlásokat dolgozzon ki. 2003 júniusában jelent meg a PSI-kre vonatkozó ajánlás. (Pepper 2003) A dokumentum részletesen ismerteti a PSI-k legfőbb követelményeit. A PSI rövidítésnek két feloldása is van. A Published Subject Indicator (Publikált tárgyindikátor) egyértelműen azonosítja az adott tárgyat az emberek számára. Ez lehet egy szöveges definíció, egy audio, vagy vizuális reprezentáció. Egy város esetében például állhat a következő: „Debrecen, magyar megyei jogú város, Hajdú-Bihar megye székhelye.” A tárgyindikátorokat rendszerint egy önálló HTML oldalon helyezik el. A Published Subject Identifier (Publikált tárgyazonosító) a címzés, amely a gép számára azonosítja az adott dolgot. Amennyiben két témának azonos a publikált tárgyazonosítója, azt a számítógép összeolvasztáskor azonos témaként fogja kezelni. Az indikátor és az azonosító nem azonos a fogalommal, tárggyal, amelynek az identitását meghatározza. Ezért nem tekinthető PSI-nek, ha egy online elérhető dokumentum a saját URL-jével azonosítja magát. Megkülönböztethetők címezhető és nem címezhető dolgok. Csak a nem címezhetőknek van szükségük tárgyazonosítóra.
A Publikált tárgyi azonosítók működési mechanizmusa (Pepper, Schwab 2003 nyomán) Különbséget kell tenni a tárgyi azonosító és a publikált tárgyi azonosító között is. Publikált tárgyi azonosító, amelyet a tématérkép alkalmazásunk készítéséhez tettünk közzé, tárgyi azonosító ezzel szemben bármi lehet, ami a reprezentálni kívánt dolog identitását meghatározza (wikipédia oldal, egy adott személy email címe, egy vállalat honlapja). A PSI-kkel szemben támasztott követelmények a következők: -
A PSI-nek URI-nak kell lenni. A Publikált tárgyazonosítónak egy humán interpretációra alkalmas publikált tárgyindikátorra kell mutatnia. A Publikált tárgyindikátornak ki kell fejeznie az egyedi URI-t, amely publikált tárgyazonosítóként használandó. (Pepper 2003)
Az OASIS bizottsága által a PSI-kre vonatkozóan megfogalmazott ajánlások a következők: 1. 2.
A Publikált tárgyindikátor ember által olvasható metaadatokat kell adjon saját magáról. A Publikált tárgyindikátor megadhat géppel olvasható metaadatokat saját magáról.
3. 4. 5.
Az első és a második ajánlás metaadatainak következetesnek, de nem feltétlenül azonosnak kell lenni. A Publikált tárgyindikátornak jeleznie kell, hogy PSI-ként használandó. Publikált tárgyindikátornak azonosítania kell a publikálóját. (Pepper 2003)
Az ajánlás arra nem ad választ, hogy hogyan kezeljük azt a problémát, amikor egy dolgot több URL is egyértelműen azonosít. A hálózati társadalomban a kérdés sokkal életszerűbb. Egy személyt azonosíthatja az email címe, a róla készült Wikipédia oldal, a saját honlapja, bármelyik profilja közösségi oldalakon (Iwiw, Facebook, LinkedIn). Tárgyak, fogalmak esetében Wikipédia oldal vagy a www.everything2.com definíciói. Online szótárak definíciói ugyanúgy meghatározhatják a dolgokat, amelyekről állításokat kívánunk tenni. A különböző forrásokból származó tématérképek összeolvasztása akkor valósulhat meg, ha egy adott tárgyra vonatkozóan valamennyi alkalmazás ugyanazt a PSI-t alkalmazza, ugyanis a számítógép ebben az esetben lesz csak képes felismerni, hogy ezek ugyanazon valóságban létező dologról tesznek állításokat.
5 Ontológia szintaxisok Az ontológiákban lévő fogalmak leírására több szintaxis is létezik, amelyekkel az eltérő igényekhez igazodva lehetünk képesek a valóság formális reprezentálására. A következőkben először a szemantikus web ajánlásokban leírt leíró szintaxisokat mutatom be, amelyek közül a legfontosabbak az RDF és az OWL nyelvek. Ezt követően foglalkozunk a tématérképes közösség által kifejlesztett leíró nyelvekkel is, hiszen ezekről sokkal kevesebb szó esett a hazai és a nemzetközi szakirodalomban egyaránt az ontológiaépítéssel kapcsolatosan. A tématérkép technológia szabványos csereszintaxisa az XTM nyelv, de az ISO 13250-es szabványcsaládban (és azon kívül is léteznek további szintaxisok).
5.1 RDF A szemantikus web vízió alapját jelenti az RDF elképzelés, amelynek lényege, hogy a világhálón megjelenő tartalmat hármas állításokkal (ún. tripletekkel) írják le. A hármas állítások tagjai más állításokban is részt vehetnek, így a tartalmak valós asszociációs mezejükkel együtt jeleníthetők meg. A világhálón egyértelműen azonosított entitások közötti relációk mentén a valóság bonyolult struktúrái írhatók le. Az XML (a szemantikus web lépcsős modelljében az RDF alatt elhelyezkedő szint) nagy lépést tett a tartalmak gépi feldolgozhatóságának irányába azzal, hogy biztosítja az egységes szintaxist szabványos adatcsere-formátumként. Van egy jelentős probléma az XML-lel: az alkalmazások közötti interoperabilitás előfeltétele, hogy az átvitt információ szemantikáját egyeztetni kell. Ezt oldja fel az RDF, amellyel tetszőleges webes tartalomhoz társíthatunk szabványos metainformációt. Az RDF (Resource Description Framework), a szemantikus web legrégebbi specifikációja. Két generációja létezik, az első verzió a ’90-es évekből származik, a legutóbbi 2004. február 10én jelent meg. (Klyne, Caroll 2004) Ez a verzió elérhető magyar fordításban is a World Wide Web Konzorcium magyar irodájának oldalán. (Pataki E. 2004) Ez összesen hat dokumentumot jelent: -
az RDF/XML szintaxis specifikációja; az RDF szókészlet leíró nyelv 1.0: RDF séma; az RDF bevezető tankönyve; az RDF alapfogalmai és absztrakt szintaxisa;
-
az RDF szemantikája; az RDF tesztsorozata. (Pataki M. 2005)
Az RDF-et úgy tervezték, hogy bármiről lehessen vele állításokat tenni, ami azonosítható a weben. A szemantikus weben az információkat úgy kell megjeleníteni, hogy azok a számítógépes programok által is feldolgozhatók legyenek. Az RDF egységes keretet biztosít az információtartalom leírására, amelyben azok átvihetők egyik alkalmazásból a másikba. (A különböző alkalmazások közötti információcsere lehetősége azt jelenti, hogy nemcsak azok az alkalmazások használhatják az információt, amelyek számára azt eredetileg ábrázolták, hanem a más célokra készült, későbbi alkalmazások is.) Az RDF segítségével létrejöhet az alkalmazások határain átnyúló tudásreprezentáció. Az egységes erőforrás azonosítók (URI-k) által azonosított dolgok egyszerű tulajdonságokkal és tulajdonságértékekkel írhatók le. Ez lehetővé teszi az RDF számára, hogy az erőforrásokkal kapcsolatban egyszerű állításokat ábrázolhassunk gráf formájában, ahol a csomópontok és az élek az erőforrásokat, ezek tulajdonságait és a tulajdonságok értékeit reprezentálják. (Manola, Miller 2004) Az RDF szabvány tartalmaz egy XML alapú szintaxist is. Az RDF-adat tehát megjelenhet hármasok halmazaként, mint címkézett, irányított gráf és mint XML-adat. Az RDF elmélet szempontjából a gráfmodell az elsődleges fontosságú, a hordozhatóság és a gépi reprezentáció oldaláról viszont az XML-reprezentáció az igazán releváns. (Szeredi, Lukácsy, Benkő 2005) Az RDF szempontjából kiemelt jelentősége van az URI-knak, hiszen azok biztosítják az egységes címezhetőséget. Az URI-k rövid literálok, amelyek weben található objektumokat, erőforrásokat azonosítanak. Erőforrás lehet egy weblap, annak egy része, egy kép, egy tetszőleges állomány, hanganyag, erőforrások egy csoportja, egy portál, egy videofelvétel, függetlenül a formátumtól. Az RDF-fel ezekről tehetünk állításokat. Két metaadat-leírás bárhol lehet a weben, ha ugyanazt az URI-t használja, akkor a számítógép felismeri, hogy ugyanarról az erőforrásról szólnak a kijelentések. Az URI-kkal azonosított erőforrások esetében tehát nem szükséges egyeztetni, hogy az mit azonosít, ugyanis azok önmagukat azonosítják. (Természetesen ez csak a direkt reprezentáció esetében érvényes. Indirekt reprezentációról akkor beszélhetünk, amikor az erőforrás nem önmagát, hanem egy weben nem létező dolgot reprezentál. Jellemző esetben egy fogalmat, vagy egy személyt, vagy bármi olyan entitást, amely önnön jellemzőiből adódóan nem lehet jelen a weben.) Pepper nyomán ezért beszélhetünk identitás-alapú technológiákról az RDF és az OWL esetében egyaránt. (Pepper 2008) Az RDF adatmodellben négy halmazt definiáltak: -
erőforrások – ez a halmaz bármi előforduló entitást tartalmazhat, aminek van URI-ja. Ez az összes olyan dolog halmaza, amelyre RDF kijelentés vonatkozhat.
-
-
tulajdonságok – az erőforrásokhoz kapcsolódó jellemzők, amelyeknek szintén van URI-ja. A tulajdonságok lehetnek erőforrások is, tehát részhalmazát képezik az előbbinek. Minden tulajdonságnak van jelentése, meghatározható, hogy milyen erőforráshoz kapcsolható és milyen értéket vehet fel, valamint, hogy milyen viszonyban van más tulajdonságokkal. literálok – karaktersorozatok. kijelentések – ez utóbbiak alany, állítmány és tárgy kapcsolatok. Mindhárom elem egy-egy URI: az alany tetszőleges RDF erőforrás, az állítmány tetszőleges RDF tulajdonság, a tárgy pedig tetszőleges RDF tulajdonság vagy literál lehet. (Szeredi, Lukácsy, Benkő 2005)
Sok RDF kijelentéssel létrejöhet hálózati környezetben egy globális metaadat-infrastruktúra, amely elvileg a világ teljességének a leírásán alapul. Ezt is szemlélteti a következő példa. 2006 májusában a 15. nemzetközi World Wide Web konferencián, Edinburgh-ban bemutatott szemantikus Wikipédia például a következő RDF kijelentéseket tartalmazta. (Völkel, Krötzsch, Vrandecic, Haller, Studer 2006) -
London is the capital of the United Kingdom (London az Egyesült Királyság fővárosa) London is the capital of England (London Anglia fővárosa) England is a part of the United Kingdom (Anglia az Egyesült Királyság része)
„London”, az „Egyesült Királyság” és „Anglia” a kijelentésekben erőforrások, és rendelkeznek egy-egy URI-val. A „része” és a „fővárosa” esetünkben tulajdonságok, amelyek szintén rendelkeznek URI-val. Anglia az egyik kijelentésben tárgyként, a másikban alanyként szerepel. Az RDF-et szemléletesen tekinthetjük címkézett gráfoknak, amelyek kiindulási pontja egy alany, a végpontja egy tárgy, a gráf éle pedig az állítmány. A fenti kijelentések a következőképpen jeleníthetők meg címkézett gráfok segítségével:
Így lényegében valamennyi weben tárolt információt le tudjuk írni, egymáshoz tudjuk rendelni, közöttük kapcsolatokat tudunk definiálni további URI-k segítségével. Ha két, egymástól különböző hármasban azonos URI-k találhatók, akkor azok egybeolvaszthatók, és a leírást tovább folytathatnánk London lakosságának számával, az Egyesült Királyság többi részével stb. Az információ RDF-es reprezentációja olyannyira hatékony, hogy – hasonlóan az XML-hez – a szemantikus web többi rétegétől függetlenül is nagyon sok alkalmazás használja önállóan a technológiát. Ilyenek például az Arizonai Egyetemi Könyvtár által kifejlesztett RDF alapú digitális könyvtári rendszer (Han 2005), és a BRICKS projekt. (Hecht, Haslhofer 2005). Az RDF elkézelés alapötlete tehát, hogy az URI-kkal azonosított erőforrásokat tulajdonságok segítségével más erőforrásokkal vagy közönséges literálokkal köti össze. Az RDF alapötletét mutatja be a következő ábra, amivel egy állítást formalizálunk: „Kovács Zoltán (aki ember) emailcíme:
[email protected]”. (Szeredi, Lukácsy, Benkő 2005 nyomán)
A példaábra XML szintaxissal a következőképpen írható le: <%xml version=”1.0” encoding=”ISO-8859-2”?>
<s:neve>Kovács Zoltán <s:levélcíme rdf:resource=”mailto:[email protected]”/>
Helyesen valamennyi tulajdonság (beleértve a jelen példában közönséges névvel hivatkozottak is: neve, levélcíme, típusa) erőforrás. A példában azonban az egyszerűség kedvéért hivatkoztunk rájuk ebben a formában. Ezen erőforrások kiválaszthatók a FOAF szótár elemei közül, amelyben a név tulajdonság például foaf:name-ként írható le. A fenti leírás sorai bizonyos értlmezésre szorulhatnak. Az XML leírás első sora azt jelzi a feldolgozó alkalmazásnak, hogy milyen verziójú XML adatfolyam következik, adott karakterkódolással. A következő sor jelzi, hogy RDF-ként kell értelmezni az elemen belüli tartalmat. Ezt követően jelennek meg a névterek. Ezek közül először az RDF-hez tartozó specifikációra utal a leírás, majd a következő névtér-deklaráció az s nevet rendeli a megadott URI-val azonosított névtérhez.
A következő példában Kovács Zoltán tanulmányát rendeljük a szerzőjéhez, bemutatva ezzel egyetlen alany, állítmány, tárgy hármast (tripletet) tartalmazó állítást. Egy kijelentésben erőforrások, tulajdonságok és literálok lehetnek. Az állítás elemei a következők: alany (http://webadmin.kripto.hu/webadmin/portals/kovex/attachments/TopicMaps_2_2008.pdf) – erőforrás; predikátum: szerzője – tulajdonság; tárgy: Kovács Zoltán – literál. RDF állítás alanya és tárgya tetszőleges erőforrás lehet, ezért a gráfban az élcímke megjelenhet csomópontokban is. Az RDF arra is alkalmas így, hogy tulajdonságokról állításokat fogalmazzanak meg. Egy RDF kijelentés a következőképpen reprezentálható tripletként: {[http://…/TopicMaps_2_2008.pdf],szerzője,”Kovács Zoltán” } Nem jó azonban a példában, hogy literálként került meghatározásra a kijelentés tárgya, azaz Kovács Zoltán. Célszerű lenne egy olyan URI-t használni, ami egyértelműen azonosítja Kovács Zoltánt, így a jelenlegi literál helyére kerülhetne egy olyan URI, ami Kovács Zoltánt azonosítja egyértelműen. Az RDF egyik erőssége, hogy lehetőség van üres (vagy névtelen, vagy köztes) csomópontok (blank node) meghatározására is. Ezek a gráf-reprezentációban – ahogy a nevük is mutatja – üresek. Egy ilyen üres csomópontból bármennyi további állítás tehető. Ha a fenti példában nincs lehetőségünk olyan URI-t alkalmazni, amely egyértelműen azonosítja Kovács Zoltánt, úgy célszerű az üres csomópont beiktatásával élni. Az üres csomópontból kiindulva leírható, hogy az általa reprezentált entitásnak mi a neve, beosztása, email címe stb.
A példaábra a következőképpen írható le: {[http://…/TopicMaps_2_2008.pdf],szerzője,[üres cspont]}
{[üres cspont],neve,”Kovács Zoltán” } {[üres cspont],beosztása,”ügyvezető” } {[üres cspont],email címe,[mailto:
[email protected]]}
Az RDF segítségével tripletekkel leírhatók azok az ismeretek, amelyeket reprezentálni kívánunk. A szemantikus web elképzelés, azonban ennél továbbmegy. Egy olyan metaadatinfrastruktúra megalkotását tűzte ki célul, amely következtetésekre is alkalmas. A következtetésekhez a világról szóló ismereteinket formálisan le kell írni a számítógép számára is interpretálható formában. A háttértudás leírására több szemantikus web technológiát is kifejlesztettek a különböző igények kielégítésére (RDFS, OWL, SKOS, RIF). Szeredi, Lukácsy, Benkő (2005) szemléletes példáját idézve megérthetjük azt, hogy az egyszerű RDF állításokhoz képest milyen további fejlesztések szükségesek. „RDF segítségével képesek vagyunk leírni azt, hogy egy ember barátja egy másiknak. Ezt úgy tehetjük meg, hogy konstruálunk egy RDF kijelentést, amelynek alanya és tárgya két ember, predikátuma egy olyan erőforrás, amelyről tudjuk, hogy a „barátja” viszonyt azonosítja valahogy. (…) Kérdés ezek után, hogy el tudjuk-e dönteni, hogy az egyik ember ismeri-e a másikat? A válasz evidens, hiszen józan paraszti eszünkkel tudjuk, hogy egy ember nyilván ismeri a saját barátját. Vegyük észre ugyanakkor, hogy valójában ez egy olyan következtetés volt a részünkről, amelyhez háttértudásra volt szükségünk. Mi tudjuk ugyanis, hogy valakik nem lehetnek barátok, ha nem is ismerik egymást. (…) Valami olyan kijelentésre lenne szükségünk, hogy ’bármely két erőforrás között, amelyek n:barátja viszonyban állnak egymással, fennáll az s:ismerőse viszony is.’ Ezen tudás birtokában egy gép más képes lenne kikövetkeztetni, hogy a két ember ismeri egymást, bár ez így explicit módon továbbra sem lenne leírva.” A sémák és az ontológiák a következtetésekhez szükséges háttértudást tartalmazzák. Az RDF séma olyan további erőforrások halmaza, amellyel kibővült az RDF által meghatározott szótár és amelyek jelentése jól meghatározott. Ezek az erőforrások RDF kijelentésekben használhatók fel. Alkalmazásspecifikus tulajdonságok és osztályok definiálhatók, megadhatók ezek egymáshoz való hierarchikus viszonya, illetve jellemzői. (Szeredi, Lukácsy, Benkő 2005) Az RDF sémák kifejezéseknek, dolgok osztályainak definiálására szolgál. Nem kínál önmagában egy ellenőrzött szótárt, csak megteremti annak a lehetőségét, hogy egy-egy alkalmazáson belül általánosan érvényes kijelentéseket tegyünk. Lényegében az RDF séma az RDF-hez kínál egy szabványos tipologizáló metódust. Az RDF Séma legfrissebb W3C ajánlása 2004. február 10-én jelent meg. (Brickley, Guha 2004) A bevezető példában a dokumentum, szerződés, irat és oldalszám (mint tulajdonság) fogalmak egymáshoz való viszonyát írjuk le RDF séma segítségével. Meghatározásra kerül az iratok és a szerződések osztálya. Leírjuk, hogy a szerződések dokumentumok is egyben.
Definiáljuk továbbá a bázis URI-t (jelen esetben ez a képzeletbeli http://www.pelda.hu/dokumentumok lesz) és az RDF sémakonstrukciók eléréséhez szükséges rdfs névteret URI-ként. (Szeredi, Lukácsy, Benkő 2005 alapján). <%xml version=”1.0” encoding=”ISO-8859-2”?>
Szerződések osztálya
5.2 OWL Az OWL specifikáció (Web Ontology Language) 2004 februárjában jelent meg W3C ajánlásként. (McGuiness, Van Harmelen 2004) Előzménye a DAML+OIL (DARPA Agent Markup Language + Ontology Inference Layer vagy Ontology Interchange Language) leíró nyelv volt, amelyet az OWL teljes egészében felváltott. (Conolly et al. 2001) A következő dokumentumokat fordították le és tették közzé magyarul is: Áttekintés; -
Útmutató – amely az OWL-t egy kiterjedt példán keresztül szemlélteti; Referencia – az OWL modellezési primitívek jól szerkesztett, informális leírása; Szemantika és absztrakt szintaxis – az OWL nyelv normatív definíciója;
-
OWL Web Ontológia Nyelv tesztsorozata – az OWL használatát illusztráló példák, a konstrukciók formális jelentése és a témák kifejtése; OWL alkalmazási esetek és követelmények – egy webontológia nyelv felhasználási forgatókönyve, céljai és követelményei. (Pataki E. 2004b)
Az OWL célja, hogy formális logikákon alapuló bonyolult szemantikai relációkat is lehessen a számítógép számára reprezentálni. Az OWL lehetővé teszi, hogy explicit módon ábrázoljuk egy meghatározott szókészlet kifejezéseinek jelentését, valamint ezek összefüggéseit. Az OWL szemantikai kifejezőereje jóval nagyobb mint az XML, az RDF és az RDFS nyelveké, így hatékonyabb a webtartalom explicit formális leírásában. Ugyan az RDF séma is képes osztályokat és alosztályokat definiálni, nem tudja végrehajtani valamennyi halmazelméleti műveletet. Az OWL nyelv segítségével konstruálhatók osztályok más osztályok uniójaként, metszeteként, komplemenseként. Lehetséges az osztályok egyedeinek felsorolása. Lehet az osztályokba tartozó egyedeket a tulajdonságaik szerint definiálni. Az OWL a tulajdonságok terén is magasabb szintjét képes megragadni a gondolkodásnak. Tulajdonságokat lehet szimmetrikusnak, tranzitívnek, függvénynek stb. deklarálni általa. Az OWL esetében megragadható az osztályok, tulajdonságok, vagy egyedek ekvivalenciájának problémája. (Herman 2006) A következő példa az OWL nyelvről egy bemutató példa, amely a fő jellemzőit hivatott szemléltetni. A példában egy cég kollektíváját írjuk le úgy, hogy felsorolja valamennyi alkalmazott nevét. (Szeredi, Lukácsy Benkő 2005) A példa szemantikailag akkor helytálló, ha a cég kollektíváját teljes egészében leírjuk, vagyis nem hagyunk ki senkit. Tegyük fel, hogy a vállalatnak öt dolgozója van.
OWL-nak három növekvő erejű kifejező alnyelve van a különböző felhasználási igényekhez igazítottan: -
OWL Lite – osztályozási hierarchiákat és egyszerű korlátozásokat alkalmazó felhasználók támogatására készült.
-
-
OWL DL – a maximális kifejezőképességet igénylő felhasználóknak készült. Az OWL DL-ben a számíthatóság és az eldönthetőség is megmarad. Az összes nyelvi konstrukciót tartalmazza, de azok használhatósága csak bizonyos korlátozásokkal lehetséges. A DL (Description Logic) a leíró logikákra utal. OWL Full – olyan maximális kifejezőképességet és az RDF teljes szintaktikai szabadságát igénylő használóknak készült, akik lemondanak a kiszámíthatósági garanciákról. A szoftvertámogatás az OWL Full esetében – éppen a túlságosan gazdag logikai struktúrák következtében – kérdéses, hogy megvalósítható-e. (Pataki E. 2004b)
Az alnyelvek mindegyike az egyszerűbbnek a kiterjesztése. Így például minden érvényes OWL Lite következtetés egyben érvényes OWL DL következtetés is, és minden érvényes OWL DL következtetés egyben érvényes OWL Full következtetés is. Minden legális OWL Lite ontológia egyben legális OWL DL ontológia is, és minden legális OWL DL ontológia egyben legális OWL Full ontológia is. (Pataki E. 2004b) A használóknak maguknak kell eldönteni, hogy mely alnyelv a leginkább alkalmas a céljaikra. (Digitális könyvtári környezetre való alkalmazhatóság tekintetében érdekesség, hogy a DL mögött egyesek a Digital Library kezdőbetűit vélik felfedezni. Krause 2008)
5.3 SKOS A SKOS (Simple Knowledge Organization Systems) tudásszervezési rendszerek (tezauruszok, osztályozási rendszerek, tárgyszójegyzékek, taxonómiák, folkszonómiák) szabványos reprezentálására kifejlesztett specifikáció a szemantikus web alkalmazások számára. A fejlesztése viszonylag későn kezdődött az intelligens világháló többi technológiájához képest, ugyanakkor maga a szintaxis olyannyira ígéretes volt, hogy bő két év alatt a SKOS szemantikus web ajánlássá nőtte ki magát. Az első munkaterv 2007. május 16-án jelent meg, (Isaac, Phipps, Rubin 2007) egy 2009. június 15-i javaslatterv után (Miles, Bechhofer 2009a) ugyanazon év augusztusában megjelent a W3C ajánlás (Miles, Bechhofer 2009b). A SKOS segítségével létező tudásszervezési rendszereket lehet exportálni a szemantikus web számára szabványos formátumba. A SKOS félig formális tudásszervezési rendszerek szemantikus web számára való egyszerű újrahasznosíthatóságát hivatott biztosítani. Nem a tudásszervezési rendszerek eredeti helyükön való újraírása a cél, hanem azok exportálása olyan formába, amely szélesebb körű használhatóságot eredményez. Lényegében a SKOS jelenti a hidat az OWL ontológiák szigorú formális logikái és a weben található szabad és strukturálatlan közösségi osztályozási rendszerek között. A nyelv RDF-en alapul, így megvalósulhat az általa leírt információ számítógépek közötti cseréje. (Isaac, Summers 2009)
A SKOS fejlesztésére az igény akkor jelentkezett, amikor világossá vált, hogy nem készülnek megfelelő számban szakterületi ontológiák, amelyek nélkül még sokáig nem lesz lehetséges együttműködő rendszereket fejleszteni. A legígéretesebb stratégia a meglévő tudásszervezési rendszerek, ellenőrzött szótárak újrahasznosítása lett. E mellett nem bizonyos, hogy valamennyi alkalmazás igényel bonyolult ontológiát, sőt bizonyos esetekben hatékonyabb lehet az egyszerűbb megoldást választani. Egy szemléletes példát idézve „amíg az OWL egy nehéz kalapács, addig a SKOS egy egyszerű diótörő gép, illetve amíg az OWL egy Harley Davidson, addig a SKOS egy sima kerékpár. A SKOS az OWL-lal együttműködhet, így optimalizálható a tudásreprezentáció mélysége. (Krause 2008) A digitális könyvtári alkalmazás szempontjából a SKOS közvetlen eredményeket jelenthet a tudásszervezési rendszerek és a szemantikus web integrálása terén. A könyvtáros társadalom a fejlesztések kezdeti stádiumától kezdve figyelemmel kísérte a SKOS-t. (Cantara 2006) Lényegében a SKOS célja, hogy a könyvtári osztályozást és a szemantikus web technológiákat egységes keretek közé integrálja. (Krause 2008) A könyvtári osztályozási rendszerek évezredes tapasztalatait ez a specifikáció lesz képes a szélesebb webes közösség számára elérhetővé és használhatóvá tenni. A könyvtárak már a szintaktikai paradigmában is rendelkeztek nagy mennyiségű szemantikailag kódolt adattal.
5.4 XTM Az XTM (XML Topic Maps = XML Tématérkép) – ahogy a nevében is benne van – az XML (eXtensible Markup Language = Kiterjesztett Jelölőnyelv) alapján tématérképek készítésére kifejlesztett nyelv. Ez a leggyakrabban használt szintaxis, a tématérképek nemzetközi csereformátuma. (Pepper, Moore, 2001; Hunting 2003) A nyelv legújabb verziója, az XTM 2.0, amely az ISO/IEC 13250:2007(E) szabvány szabvány része. Az 1.0 verzióhoz képest meglévő különbségeket a szabvány D függeléke tartalmazza. (ISO 13250, 2007) A nyelv alkalmazására manuálisan nincs szükség, így nem okoz problémát annak terjengőssége. Több tématérkép-szerkesztő program is van forgalomban, amelyekkel ontológia-vezérelt módon készíthetők alkalmazások. Az alábbi példa szemlélteti a szintaxis jellegzetességeit.
Person
<subjectIdentifier href="http://dbpedia.org/page/City"> City Date of birth <subjectIdentifier href="http://dbpedia.org/page/Hungarian"> Hungarian Population
5.5 További Topic Maps szintaxisok Léteznek további szintaxisok, amelyekkel ontológiák alkothatók. Ezek közül némelyeknek már csak történeti jelentőségük van – ilyen például a HyTM –, más nyelvek pedig nem képezik az ISO 13250 szabványcsalád részét, de jelentősége miatt mégis érdemes néhány mondatban megemlékezni róluk. Ez utóbbiakra példa az LTM amelyet tekintve, hogy oktatásra fejlesztették ki, számunkra is jó eszköz lesz a későbbiekben az ontológiaszerkesztés alapjainak bemutatására.
5.5.1 HyTM
Az SGML alapú HyTM-nek (HyTime Topic Maps) csak történeti jelentősége van már, hiszen ez a tématérképek számára eredetileg kifejlesztett szintaxis nem része a legújabb ISO szabványnak. A tématérképek történetének kezdeti szakaszában ez volt az egyetlen szintaxis. A HyTM alapjául szolgáló HyTime nyelvet eredetileg az SMDL-lel (Standard Music Description Language) együtt kezdték el fejleszteni az 1980-as évek végén. Arra keresték a választ, hogy miként lehetne zenei utalásokat hiperlinkekkel reprezentálni. Az első szabvány javaslat 1989ben született, 1992. november 1-től az ISO és az IEC közös szabványa lett ISO/IEC 10744 tételszámon. A HyTime-ból született a HyTM nyelv, amely a tématérképek leírására szolgál, és amely hosszú időn keresztül része volt az ISO/IEC 13250 szabványnak.
5.5.2 LTM
A képzés szempontjából van jelentősége az LTM szintaxisnak (The Linear Topic Map Notation). Az LTM az Ontopia által kifejlesztett nyelv, amely rendkívül egyszerű, az XTM-mel szemben sokkal „szűkszavúbb” és hatékonyabb. Ennek oka, hogy az LTM elsősorban oktatási célokra készült, segítségével viszonylag rövid idő alatt el lehet készíteni egy kisebb tématérképet, és a gyakorlati alkalmazás során megérthetők az alapvető fogalmak. Az LTM nem része semmilyen nemzetközi szabványnak. A fejlesztés motivációja az volt, hogy bár kiváló tématérkép-szerkesztő programok vannak, szükség mutatkozott egy olyan szövegalapú leíró nyelvre, amely tömör és szűkszavú, így alkalmas tématérképek manuális szerkesztésére, a tématérkép modell reprezentálására akár emailben, vagy hasonló szövegekben. Az LTM-et jelenleg mindössze az Ontopia által készített technikai dokumentáció írja le. (Garshol 2006) Ebben a jelentésben még nem tartották kizártnak, hogy a nyelv szabvánnyá növi ki magát, azonban mára bizonyossá vált, hogy erre nem kerül sor. Ugyanilyen céllal kezdődött el a CTM fejlesztése az ISO/IEC keretein belül.
5.5.3 CTM
A CTM (Compact Topic Maps) szöveg alapú tématérkép-leíró szintaxis. Az XTM szabvány kiegészítésére fejlesztik. A nyelv egyaránt alkalmas arra, hogy manuálisan hozzunk létre tématérképeket, hogy dokumentumokban érthető példákat nyújtsunk általuk, és hogy szintaktikai bázisául szolgáljon a TMCL-nek és a TMQL-nek. Fő szempont a fejlesztés során az egyszerűség, a könnyű írhatóság és olvashatóság. Funkcióját tekintve ugyanarra a szerepre
szánják, mint az LTM-et: oktatásra, tématérképek szöveges reprezentálására, manuális tématérkép-szerkesztésre.
5.5.4 GTM
Szintén a tématérképek humán interpretációját segíti a GTM (Graphical Notation for Topic Maps) szintaxis, amely azonban nem szöveg, hanem vizuális alapon reprezentálja az alkalmazásban leírt viszonyrendszereket. Egy grafikus leíró szabvány segítségével lehet megkönnyíteni a humán interpretációt, ami a fejlesztések során az egyik kulcsfontosságú tényező. A fejlesztés a következőket tűzte ki célul:
Minden reprezentálható legyen grafikusan, ami LTM-ben vagy XTM-ben is leírható. Rajzolással is lehessen készíteni tématérképeket anélkül, hogy bármilyen külső erőforrásra, utalásra lenne szükség. Kifejleszthető legyen egy olyan tématérkép-szerkesztő szoftver, amely képes egy GTM fájlt exportálni LTM-be, vagy XTM-be. (Lehessen az LTM vagy az XTM ismerete nélkül is tématérképeket készíteni.) Szoftverrel egy XTM, vagy LTM fájlból létre lehessen hozni egy GTM alapú vizuális modellt. A rajzok a haszálók által is könnyedén olvashatók legyenek. (Henriksen 2006)
A következő ábra egy norvég nyelven született GTM példa, amelyen jól látható, hogy a szabványos jelölések alapján egyértelmű, hogy az egyes fogalmak milyen tématérkép szerkezeteket reprezentálnak.
Bár a GTM fejlesztése meglehetősen előrehaladott állapotban van, a tématérképek fejlesztői mind a mai napig csak szűk körben használják ezt a grafikus szintaxist. (Hendrik, Redmann, Pressler, Markscheffel 2008) A tématérképekkel kapcsolatos ISO szabványok fejlesztésével foglalkozó oldalon is csak igen szűkszavú tájékoztatás van a GTM fejlesztéséről. (www.isotopicmaps.org/gtm/)
6 Ontológiaépítés a gyakorlatban Ebben a fejezetben az ontológiaépítés gyakorlatába nyújtunk betekintést egyrészt az eszközök, másrészt pedig a fejlesztés lépéseibe avatva be az olvasót. Az eszközök vonatkozásában néhány szóban ismertetünk egy RDF/OWL ontológiák építésére szolgáló eszközt, majd pedig egy ontológiavezérelt tématérkép szerkesztésre szolgáló programot. A későbbiekben ez utóbbival gyakorlatban is megismerkedünk, amikor egy ontológia építésének a lépéseit követjük nyomon.
6.1 Az ontológiaépítés eszközei Ontológiák építésére számos fejlesztő eszköz áll a rendelkezésünkre. Az eszköz kiválasztásánál figyelembe kell vennünk, hogy milyen célból fogják az általunk elkészített ontológiát használni. Amennyiben az a célunk, hogy a kifejlesztett tudásszervezési rendszerben lévő adatokat más webes alkalmazások számára tegyük „fogyaszthatóvá”, akkor célszerű az RDF/OWL paradigmán alapuló szemantikus web ontológiák fejlesztésére szolgáló eszközök közül választani. Amennyiben a közvetlen humán interpretáció elősegítése a célunk, úgy tématérkép fejlesztő eszközök közül kell választani egy igényeinknek megfelelőt.
6.1.1 Szemantikus web ontológiák fejlesztésére szolgáló eszközök
A szemantikus web ontológiák fejlesztésére szolgáló eszközök közül a legszélesebb körben ismert eszköz a Protégé, ingyenes, nyílt forráskódú szoftver és tudásbázis keretrendszer. A Protégé platform segítségével létrehozott tudásszervezési rendszerek több nyelvre is konvertálhatók (RDF, RDFS, OWL és XML Schema). A program JAVA alapú, ami egyszerű tudásmodellezést és alkalmazásfejlesztést tesz lehetővé. A program fejlesztését a Stanford és a Manchesteri egyetemek kezdték el közösen, majd ők tették nyílt forráskódúvá. A professzionalizmust azonban elsősorban a program használóinak a közössége jelenti. A fejlesztők között egyaránt megvannak az egyetei, kutatói, a kormányzati, az üzleti és magán szereplők. A program jellemzője, hogy számos segédlet áll rendelkezésre a használatához, amelyek eligazítanak a nagy ablakos webes felületeken való eligazodásban.
A program letölthető a http://protege.stanford.edu/download/download.html oldalról egyszerű regisztrációt követően. Szintén szemantikus web ontológiák létrehozását szolgálják a következő programok: -
NeOn Toolkit , http://neon-toolkit.org/ SWOOP, http://www.mindswap.org/2004/SWOOP/ Neologism, http://neologism.deri.ie/ TopBraid Composer, http://www.topquadrant.com/products/TB_Composer.html Knoodl, http://www.knoodl.com/, Anzo for Excel, http://www.cambridgesemantics.com/products/anzo_for_excel
6.1.2 Tématérképek fejlesztésére szolgáló eszközök
Az OKS (Ontopia Knowledge Suite) az oslói székhelyű Ontopia AS terméke, amelynek ingyenes verziója tartalmaz egy tématérkép-szerkesztő (Ontopoly) és egy vizualizáló (Omnigator) szoftvert. Az Ontopoly lehetőséget teremt arra, hogy először a tématérképben
előforduló téma-, asszociáció-, előfordulás-, szerep-, és névtípusokat definiáljuk, majd feltöltsük, „benépesítsük” azok konkrét eseteivel. Az Omnigatort a tématérképek működésének demonstrálására, oktatására fejlesztették ki. A szoftver tématérképeket illetően „mindenevő”. Mind XTM, LTM, HyTM és RDF tématérképek megjeleníthetők a segítségével. Létezik egy online demo változata is, amelyen megtekinthető a működése. (http://www.ontopia.net/omnigator/models/index.jsp) Az OKS-t Norvégiában az Oslói Főiskola Újságírás Könyvtár- és Információtudományi Karán és Magyarországon a Pécsi Tudományegyetem Felnőttképzési és Emberi Erőforrás Fejlesztési Karán is sikerrel alkalmazzák a könyvtárosképzésben. (Tóth 2008) A TM4L (Topic Maps for e-Learning) ontológiavezérelt tématérkép-szerkesztő program jelenleg az egyetlen magyar nyelven is ingyenesen elérhető szoftver. (Kovács, Tóth 2008) A programot a Winston-Salem State University kutatói fejlesztették ki a tématérképek legfőbb alkalmazási területén, az e-learningben felmerült igények figyelembe vételével. Az a gondolat vezérelte a fejlesztőket, hogy a tananyagok fogalmak alapján való megközelítése segíti a tanulót az ismeretek hatékony befogadásában. E mögött pedig az húzódik, hogy a tématérképek a fogalmakat környezetükkel együtt, azok valós kontextusában és nem egy kényszerű struktúra hálójában képesek mutatni. (Dicheva, Dichev 2006) A TM4L felületét a következő ábra szemlélteti.
További eszközök – a teljesség igénye nélkül: -
Wandora (http://www.wandora.org/wandora/wiki/index.php?title=Download) TinyTiM (http://tinytim.sourceforge.net) QuaaxTM (http://quaaxtm.sourceforge.net), mappa (http://code.google.com/p/mappa/), Perl TM (http://search.cpan.org/dist/TM/) K-Discovery (http://gtm.upb.de).
6.2 Ontológiaépítés az OKS segítségével Az ontológiaépítés gyakorlatát most egy tématérkép szerkesztő szoftverrel mutatjuk be. Ennek oka, hogy így egy közvetlen humán interpretációra is alkalmas, látványos alkalmazást kapunk eredményül, amely minden szemantikus technológiák iránt érdeklődő tanuló számára motiváló lehet. Szintén fontosnak tartjuk, hogy míg a szemantikus web technológiákkal kapcsolatosan jelentős mennyiségű technikai dokumentáció, útmutatás érhető el, addig a tématérképek vonatkozásában a következő leírás teljes mértékben nóvumnak lesz tekinthető a hazai szakirodalomban.
6.2.1 Az OKS letöltése és használata
Az OKS (Ontopia Knowledge Suite) programcsomagot a http://www.ontopia.net oldalról lehet letölteni. Célszerű a letöltésnél a C meghajtót kiválasztani és a csomagot a programfájlok közé menteni. (A továbbiakban az elérési útvonalakat azt feltételezve adom meg, hogy a programcsomag a C meghajtón van.) Az indításhoz ki kell választani a startup windows kötegfájlt, amelyet a C:\Program Files\oks-samplers\apache-tomcat\bin mappában találhatunk meg. Ekkor megjelenik egy fekete ablak Tomcat felirattal, amit le lehet tenni tálcára, de nem szabad bezárni. Ekkor a böngészőbe beírva a http://localhost:8080/ címet csatlakozhatunk a távoli szerverhez és elkezdhetjük a program használatát. A csatlakozást követően a következő ablaknak kell megjelennie a böngészőben:
Tipikus probléma, hogy a fekete ablak felugrik, majd a következő pillanatba el is tűnik úgy, hogy a benne kiírt hibaüzenetet sem hagyja elolvasni. Ennek az oka az szokott lenni, hogy vagy nincs a gépen Java, vagy a JAVA_HOME környezeti változó nincs megfelelően definiálva. Ekkor célszerű ellenőrizni, hogy van-e a gépen a Program Files között Java. Ha nincs, akkor ingyenesen telepíthető a http://www.java.com/en/download/index.jsp oldalról. Ha van, vagy ha már telepítettük, akkor a Vezérlőpult Rendszer Speciális Környezeti változók útvonalon megnyithatjuk a rendszerváltozók definiálásához szükséges panelt. Az Új gombra kattintva két szövegdoboz jelenik meg, ahol a változó neve JAVA_HOME, a változó értéke pedig a Java program aktuális gépen lévő elérési útja. (Pl. C:\Program Files\Java\jre7). Windows 7 operációs rendszerrel a következő ablakban állítható be ez a bizonyos környezeti változó:
6.2.2 Az ontológiák építésének első lépései
Valamennyi tématérkép ontológia építését papíron érdemes kezdeni, amikor is összeírjuk, hogy melyek azok a téma-, asszociáció-, előfordulás-, szerep- és névtípusok, amelyek segítségével formálisan leírható a kiválasztott tudástartalom. A papíron szintén érdemes összeírni, hogy mely típus mely esetekkel népesíthető be. AZ alábbiakban erre láthatunk egy példát. A következő alkalmazásunk tárgyát hazai nagyvárosok jelentik, amelyekhez egy-egy nevezetes helyet,illetve a települések egy-egy híres szülöttjét kapcsolhatjuk. A szülöttekről, a nevezetes helyszínekről és a városokról magukról szeretnénk látni képet, egy-egy Wikipédia oldalt, és – amennyiben létezik – hivatalos honlapot. Egyértelmű azonosítóként a www.dbpedia.org URL-jeit használjuk. Az így elkészített minialkalmazással a célunk az volt, hogy elejétől a végéig – minden lépést bemutatva – felépítsünk egy ontológiát és azt be is népesítsük „esetekkel”. Az alkalmazás természetesen kicsi, és ebből kifolyólag nem is tartalmazhat minden apró trükköt, viszont lehetőséget teremt arra, hogy ez alapján egy sokkal nagyobb volumenű projektet is fel lehessen építeni. Papíron az alkalmazásunk vázlata a következőképpen írható le:
1. Tématípusok (Itt azokat a fogalmakat írjuk le, amelyekhez konkrét eseteket tudunk rendelni, és amelyek így alkalmasak lehetnek a választott tartalom leírására. Ezek egy alkalmazás felső szintű fogalmai. o város o személy o nevezetesség 2. Asszociációtípusok o szülötte (város – személy) o nevezetessége (város – nevezetesség) 3. Előfordulástípusok o kép (városról, nevezetességről, személyről) o hivatalos honlap (város, nevezetesség) o Wikipédia oldal (város, nevezetesség, személy) o születési év (személy) 4. Szereptípusok o szülőhely (város) o szülött (személy) o nevezetesség (ez a szereptípus megegyezik a tématípussal) o város (ez a szereptípus megegyezik a tématípussal) 5. Névtípusok o Angol név (város, nevezetesség) o Német név (város, nevezetesség) A tématípusok definiálása nem csak technikai jellegű tevékenység, hiszen kellően hatékonynak kell lennünk az adott ismeretterület formális modellezése vonatkozásában is. A következő szabályok szem előtt tartása szükséges. -
-
-
A tématípus legyen kellően általános (az ország jobb tématípus, mint például az európai ország, mert általánosabb fogalomra utal. Igaz ez akkor is, ha ebből az következik, hogy valamennyi európai ország esetében definiálnunk kell egy újabb asszociációt, miszerint Európában található.) Ne legyen nagyon általános sem, mert zavarhatja a megértést. (Az ország tehát jobb, mint a hely, amely képes lenne összemosni a városokat, kontinenseket és az országokat). A tématípus neve legyen rövid a könnyű kezelhetőség, megjeleníthetőség kedvéért. Minden tématípus legyen egyes számban (a tématípus tehát ország és nem országok)
A következőkben célszerű legalább néhány példa erejéig összegyűjteni azokat a fogalmakat, amelyekkel az ontológia benépesíthető. Ezek esetünkben például a következők lehetnek. 1. Városok: Debrecen, Miskolc, Pécs 2. Személyek: Csokonai Vitéz Mihály, Szabó Lőrinc, Victor Vasarely 3. Nevezetesség: Nagytemplom, Diósgyőri vár, Barbakán
A fenti információk birtokában már el tudjuk kezdeni a tématérképünk szerkesztését, amelyet a következő fejezetben fogunk megtenni az LTM szintaxis segítségével.
6.2.3
Tartalmak formalizálása LTM szintaxis segítségével
Ebben a részben egy tématérképet fogunk létrehozni LTM szintaxis segítségével. A nyelv sajátosságairól fentebb már szóltunk, most a gyakorlati tudnivalókat mutatom be egy konkrét példa megalkotásával. Első teendőnk, hogy nyitunk egy üres jegyzettömb fájlt, amelyet letöltünk a következő helyre: C:\Program Files\oks-samplers\apachetomcat\webapps\omnigator\WEB-INF\topicmaps. Fontos tovább, hogy a fájl kódolása UTF-8, a kiterjesztése pedig .ltm legyen. Amennyiben ez megtörtént, az Omnigatort megnyitva a bal oldali oszlopban meg kell jelennie a tématérképünk elnevezésének, illetve arra kattintva meg tudjuk nézni, hogy eddig mi az eredménye a munkánknak. Először a tématípusokat definiáljuk, amelyhez a [ ] karakterek használata szükséges. Az első pozícióba írt szavak fogják a tartalomleírás során a továbbiakban azonosítani az egyes fogalmakat a program számára, az egyenlőségjel után idézőjelbe írt szavak pedig a humán interpretációra szolgáló megjelenítés során használatosak. Itt a következőkre kell odafigyelnünk. -
A leírás során csak az angol ABC karakterkészletéből válogathatunk. Az azonosító kizárólag egyetlen szó lehet (Amennyiben többre van szükségünk. Pl. hires-ember, akkor kötőjellel írjuk ezeket egybe!) Lehetőleg olyan szavakat használjunk, amelyek a későbbiekben is megjegyezhetők és egyértelműen utalnak az adott téma jelentésére. Így például a hn-19 azonosító, bár teljesen alkalmas bármely fogalom azonosítására, nem szerencsés, mert emberi olvasásra alkalmatlan.
A fentebb leírt tématípusokkal kezdjük. Tekintve, hogy a tématérkép technológiában minden típus téma. Azaz az asszociáció, a szerep, a név és az előfordulástípusok, ugyanezen metódus szerint kell ezeket is definiálni a következőképpen: /*--------TÉMATÍPUSOK--------*/ [varos = "Város"] [szemely = "Személy"] [nevezetesseg = "Nevezetesség"] /*------ASSZOCIÁCIÓTÍPUSOK----*/
[szulotte = "szülötte" = "szülötte a következőnek" /szulott] [nevezetessege = "nevezetessége" = "nevezetessége a következőnek" /nevezetesseg] /*-------SZEREPTÍPUSOK-------*/ [szulott = "Szülött"] [szulohely = "Szülőhely"] /*--------ELŐFORDULÁSTÍPUSOK------*/ [kep = "Kép"] [wikipedia = "Wikipédia oldala"] [szulev = "Születési éve"] [honlap = "Hivatalos honlapja"] /*---------NÉVTÍPUSOK-------*/ [angol = "angol nyelven"] [nemet = "német nyelven"]
Az eddig összeállított típusok összessége maga az ontológia. Ha ezt megjelenítjük az Omnigatorban, akkor azonban azt láthatjuk, hogy valamennyi általunk megadott kifejezést témaként regisztrált a rendszer. Az Omnigatorba a Master Indexre kattintva a következőket láthatjuk.
Az LTM esetében (amikor is nem ontológiavezérelt tématérkép-szerkesztésről beszélünk) a benépesítés fogja kijelölni az egyes tématérkép szerkezetek tényleges szerepeit. Ennek érdekében a következőkben a benépesítést is elvégezzük a fentebb már felsorolt elemekkel.
A benépesítést a témákkal kezdjük, amikor is a fentiekhez hasonlóan [ ] zárójelben azonosítóval látjuk el az egyes elemeket. [debrecen = "Debrecen" @"http://dbpedia.org/page/Debrecen"] [miskolc = "Miskolc" @"http://dbpedia.org/page/Miskolc"] [pecs ="Pécs" @"http://dbpedia.org/page/P%C3%A9cs"] [vasarely = "Victor Vasarely"] [csokonai = "Csokonai Vitéz Mihály"] [szabo = "Szabó Lőrinc"] [diosgyori-var = "Diósgyőri Vár"] [nagytemplom = "Nagytemplom"] [barbakan = "Barbakán"]
Hogy a rendszerben egyértelmű legyen, hozzá kell rendelnünk az egyes eseteket a tématípusokhoz. Ezzel válik egyértelművé, hogy mi van tématípus és mi annak esete szerepben. [vasarely : szemely] [csokonai : szemely] [szabo : szemely] [diosgyori-var : nevezetesseg] [nagytemplom : nevezetesseg] [barbakan : nevezetesseg] [miskolc : varos] [pecs : varos] [debrecen : varos]
A következőkben az egyes témákat asszociációkkal rendeljük egymáshoz a következőképpen: /*------ASSZOCIÁCIÓK----*/ szulotte(csokonai : szulott, debrecen : szulohely) szulotte(szabo : szulott, miskolc : szulohely) szulotte(vasarely : szulott, pecs : szulohely) nevezetessege(diosgyori-var : nevezetesseg, miskolc : varos) nevezetessege(nagytemplom : nevezetesseg, debrecen : varos) nevezetessege(barbakan : nevezetesseg, pecs : varos)
Itt meg kell jegyeznem, hogy az egyes elemek mellett fel kell tüntetnünk a szerepet is, amelynek mentén kapcsolódik az adott téma a másikhoz. Jelen esetben ezek a nevezetesség, a város, a szülött és a szülőhely. A város és a nevezetesség véletlenül egybeesik a tématípussal is, ami azonban nem jelent problémát a későbbiekben. Az előfordulások definiálása során lényegében az egyes témákat rendeljük az információs egyes pontjaihoz. Megkülönböztetünk külső előfordulások, amelyek a tématérképen kívül létező erőforrásra mutatnak. Ezt a következőképpen írjuk le. /*-----ELŐFORDULÁSOK------*/ {barbakan, wikipedia, "http://hu.wikipedia.org/wiki/Barbak%C3%A1n"} {diosgyori-var, wikipedia, "http://hu.wikipedia.org/wiki/Di%C3%B3sgy%C5%91ri_v%C3%A1r"} {nagytemplom, wikipedia, "http://hu.wikipedia.org/wiki/Reform%C3%A1tus_nagytemplom_(Deb recen)"} {diosgyori-var, kep, "http://upload.wikimedia.org/wikipedia/hu/e/e2/Di%C3%B3sgy%C5% 91ri_v%C3%A1r1.jpg"} {nagytemplom, kep, "http://upload.wikimedia.org/wikipedia/commons/f/f7/Debrecenhungary-greatprotestantchurch.JPG"} {barbakan, kep, "http://upload.wikimedia.org/wikipedia/commons/6/61/0045_Barbi can.jpg"} {szabo, wikipedia, "http://hu.wikipedia.org/wiki/Szab%C3%B3_L%C5%91rinc"} {vasarely, wikipedia, "http://hu.wikipedia.org/wiki/Victor_Vasarely"} {csokonai, wikipedia, "http://hu.wikipedia.org/wiki/Csokonai_Vit%C3%A9z_Mih%C3%A1ly" } {miskolc, kep, "http://upload.wikimedia.org/wikipedia/commons/1/15/Miskolc_mo ntage.JPG"} {debrecen, kep, "http://upload.wikimedia.org/wikipedia/commons/7/70/Debrecen_m ontage.JPG"} {pecs, kep, "http://upload.wikimedia.org/wikipedia/commons/b/b2/Pecs__Hungary_-_EU.JPG"}
A belső előfordulások leírása némileg eltér a fentiektől. Az egyes híres személyek születési évét a következőképpen rendelhetjük hozzájuk.
{szabo, szulev, [[1900]]} {csokonai, szulev, [[1773]]} {vasarely, szulev, [[1906]]}
A kész tématérképünk ontológiáját mutatja be a következő kép, amely szerint összesen három tématípust, kettő asszociációtípust, négy szereptípust és három előfordulástípust definiáltunk.
6.2.4 Ontológiaépítés az Ontopolyval
Az Ontopoly egy ontológiavezérelt tématérkép szerkesztésre szolgáló eszköz. Ontológiaépítés Ontopolyval – ez egy képernyőképekkel ellátott útmutató, amivel a legelejétől kezdve bemutatunk egy ontológia elkészítését. A program külön kezeli az ontológia elemeit (téma-, asszociáció-, előfordulás-, szerep- és névtípusok), és külön az ezek esetekkel történő feltöltéséhez szükséges funkciókat. Az Ontopoly szintén az Ontopia Knowledge Suite kezdőoldaláról érhető el. A nyitólapon a következő szövegre kell kattintanunk: Create and edit Topic Maps with Ontopoly. Ekkor a meglévő tématérképeinket felsoroló felülethez érkezünk, amelyek mellett a jobb oldali oszlopban van lehetőség Create New Topic Map alatti mező kitöltésével egy új tématérképet létrehozni.
Ide a címet begépelve majd a Create gombra kattintva elkezdhetjük a munkát. Az Ontopoly egy ontológiavezérelt tématérkép szerkesztésre szolgáló program, ami a gyakorlatban azt jelenti, hogy lehetőség van az ontológiát és annak esetekkel feltöltését külön végezni. Az ontológia önállóan is megállja a helyét, nem függ attól, hogy vannak-e esetek rendelve az egyes típusokhoz. Az Ontopoly nyitó oldalán összesen négy fül van, amelyek közül a Description alatt lehet a dokumentumra vonatkozó metaadatokat megadni a következőképpen. Ez az Omnigator vizualizáló programban a tématérkép főoldalán fog megjelenni.
A metadaatok megadását követően következhet magának az ontológiának a kialakítása, amelyet az előzetesen összeállított vázlatunk alapján az Ontology fül alatt tudunk megtenni.
Erre kattintva megjelennek az alapvető tématérkép-szerkezeteket reprezentáló aloldalakra vezető pontok. A Topic types-ra kattintva megjelenik a jobb oldalon egy szövegdoboz, amelybe az új tématípus nevét írhatjuk. A Create gombra kattintva létre is jön egy tématípus, amelynek a jellemzőit a következő felületen állíthatjuk be.
Az egyes eszközök értelmezésre szorulnak. -
-
-
Name: a tématípus definiálására szolgáló mező. Az ide beírt névváltozat lesz ún. untyped name, azaz nem tipizált név. Alatta helyezkedik az azonosító megadásához szükséges mező (Subject identifier). Ennek – mint már fentebb említettük – több tématérkép összeolvasztása esetén van nagy szükség, hiszen ez alapján „látja” a két alkalmazás, hogy adott esetben ugyanarról a témáról tesznek állításokat. A Description mezőben leírást készíthetünk a tématípusról. Az Abstract dobozba akkor kell pipát helyezni, ha az adott tématípus elvont, azaz nincsenek közvetlen esetei. Ez a tudás modellezésétől függ. Pl. Amennyiben készítenénk egy Település tématípust, amelynek az alosztálya lenne a főváros, megyei jogú város, város, nagyközség, község, akkor a konkrét településneveket nem a Település, hanem a főváros, megyei jogú város, város, nagyközség, község altípusok eseteiként regisztrálnánk. A Subclass és a Superclass mezőkben legördülő mezőkből választhatunk a már létrehozott tématípusokból, ezzel a tématípusok közötti hierarchiát állíthatjuk fel.
Jelen esetben definiáltuk a három tématípusunkat, amelyet követően elkészíthetjük az asszociációs viszonyokat, vagyis a fogalmakat egymáshoz való viszonyuk szerint is rendezhetjük. Ehhez először a szereptípusokat kell definiálni, amennyiben a szerepek nem esnek egybe a tématípusokkal. A szereptípusok megadásához lényegében ugyanaz a felület áll rendelkezésre mint a tématípusokhoz, így ezt nem mutatom be képernyőképen. A Role types-ra kattintva a jobb oldali szövegdobozban megadhatjuk a szereptípus nevét, majd az azonosítóját és a hozzá tartozó leírást. Most a szülőhely és a szülött szereptípusokra van szükségünk a továbbiakhoz. Az asszociációtípusok jellemzőinek definiálásához a következő felület használatos. Fentebb az eddigiekhez hasonlóan megadtuk az asszociáció elnevezését, azonosítóját és leírását.
Az egyes mezők kitöltésére vonatkozóan az alábbiakat kell szem előtt tartanunk: -
-
Egy asszociáció akkor szimmetrikus, ha ugyanazon szerepek között értelmeződik. Például ilyen a barátja reláció, amelyben feltételezzük, hogy ha valaki barátja valakinek, akkor az fordítva is igaz. Az asszociációk két oldalról is „olvashatók”. Pl. Miskolc (város) szülőhelye a következőnek: Szabó Lőrinc (személy); illetve Szabó Lőrinc (személy) szülőhelye Miskolc (város). Ezért kell kétféle elnevezést is megadnunk annak függvényében, hogy milyen szerepek szempontjából írjuk le a relációt.
-
-
-
A role type mellett legördülő menüből választhatjuk ki azt a szerepet, amelyben egy bizonyos téma részt vesz a relációban. A used by azokra a tématípusokra utal, amelyek használhatják a fentebb meghatározott szereptípust. Tetszőleges számú témát hozzáadhatunk a jobb oldalon található plusz jel segítségével. A Cardinality mezőben a számossági tulajdonságokat lehet megadni. Itt négy lehetőség közül választhatunk a legördülő menüből. Az exactly one jelenti, hogy pontosan egy szereplője van ennek a viszonynak ebből a szempontból. Ilyen például a szülőváros, amelyből mindenkinek csak egyetlen van. További lehetőségek a zero or one (nulla vagy egy), a one or more (egy vagy több), illetve a zero or more (nulla vagy több). A példánkban ezt választottuk a városok esetében, amelyek elvileg és gyakorlatilag is nulla vagy több embernek lehetnek a szülőhelyei. Az interface controll alatt a megjelenítési sajátosságokat állíthatjuk be.
Az előfordulástípusok jelentik a következő olyan tématérkép szerkezetet, amelyet mindenképpen le kell írnunk a készülő tématérképünkben. Ezek az elemek lényegében a témák szempontjából releváns tartalmak helyeit jelentik az információs térben. Léteznek külső és belső előfordulások. Előbbiek a tématérképen kívüli pontokra mutatnak, utóbbiakat mi magunk írhatjuk be a megfelelő helyre. Az Ontopolyban ugyanazon a felületen lehet ezeket szerkeszteni. Az előfordulástípusok leírásához szükséges mezőket az Occurence types fülön keresztül érhetjük el. Az Ontopolyban a Creator, Description és Version előfordulástípusok alapértelmezetten benn vannak, de amennyiben nem szükségesek el lehet őket távolítani. (Ennek módja, hogy rákattintunk az eltávolítandó elemre, majd a jobb oldali oszlopban megjelenő oszlopban kiválasztjuk a Delete this topic lehetőséget. Megerősítést követően törlésre kerül az adott előfordulástípus.) Jelen példánkban képeket, Wikipédia oldalakat és születési évszámot fogunk rendelni azon elemekhez, amelyek esetében azok relevánsak lehetnek. Az előfordulástípusokat a következő felületen tudjuk szerkeszteni.
A fenti példában a kép előfordulástípus tulajdonságait szerkeszthetjük. -
-
-
A Name mezőben az Omnigatorban megjelenő nevet lehet megadni. Az adattípusok vonatkozásában több opció is rendelkezésre áll. Jelen esetben a képet stringként, azaz egy URL-t reprezentáló karaktersorozatként fogjuk megadni, ezért célszerű ezt az adattípust kiválasztani. Ezen kívül a programban a következő adattípusok állíthatók be: Dátum, dátum és idő, HTML, kép, szám, karakterlánc, URI. A Used by mezőbe – hasonlóan az asszociációtípusokkhoz – azokat a tématípusokat lehet felvenni, amelyek vonatkozásában releváns az adott előfordulástípus. A Cardinality mezőben a számossági tulajdonságokat lehet beállítani. Jelen esetben a Zero or more opciót választottuk, hiszen nem lehetünk biztosak abban, hogy minden nevezetességhez, személyhez, illetve városhoz tudunk találni képet, ugyanakkor meg szeretnénk magunknak engedni, hogy akár több képet is szerepeltessünk a tématérképünkben. A Height és a Width mezőkben azt adtuk meg, hogy a képernyőn hány sor magasságú és hány karakter hosszú lehet egy-egy konkrét előfordulás. Szinte minden mezőt követően találunk egy csillagot. Ezzel azokat a hiányzó elemeket hozhatjuk létre, amelyeket esetlegesen korábban nem hoztunk létre. Például amennyiben egy olyan tématípusnak is meg szeretnénk engedni az adott
előfordulástípus használatát, amelyet még létre sem hoztunk, úgy a csillagra kattintva az alábbi mező kitöltésével közvetlenül erről a felületről pótolhatjuk a hiányt.
Amennyiben bizonyos információkat más nyelven is be akarunk mutatni, vagy bizonyos kontextusoktól függően más neveken is meg akarunk határozni, akkor névtípusokat kell definiálnunk. Ezeket a Name types fül alatt tudjuk kiválasztani. Az ezek definiálására szolgáló felületen csupán a következő elemeket találjuk:
A fenti példában az angol nyelvű alakok definiálásának az első lépéseit tettük meg. Valamennyi elem használatának alapelvei megegyeznek a fentebb már bemutatottakkal. Tudnunk kell, hogy minden tématípusnak van egy alapértelmezett neve. Ezen hivatkozunk tulajdonképpen az adott fogalomra. A névtípusokat csak akkor kell megadnunk, ha több névváltozatot is szeretnénk a tématérképünkben. Amikor valamennyi téma-, előfordulás-, asszociáció-, szerep- és névtípust definiáltunk, lehetőségünk van az egyes tématípusok esetében áttekinteni azt az asszociációs mezőt, amely körülveszi a fogalmat. Amikor az egyes típusokat esetekkel fogjuk feltölteni, akkor ezen kitöltendő mezők fognak megjelenni.
Ezen a felületen bármely tématérkép-szerkezet vonatkozásában végezhetünk változtatásokat az alábbiak szerint. -
-
A vízszintes tengely mentén elhelyezkedő mezők (Names, Occurences, Associations, Identities és Queries) esetében a csillagra kattintva neveket, előfordulásokat, és asszociációkat rendelhetünk az adott tématípushoz. Szintén hozzáadhatunk elemeket, amelyek az adott elemek identitását meghatározzák. (praktikusan ide jönnek a fentebb tárgyalt PSI-k). A Queries a lekérdezések menedzselésére szolgáló gomb. A számossági tulajdonságok legördülő menüből való választással változtathatók minden egyes elem mellett. A mínusz gombbal az adott elem eltávolítható, ha még sincs rá szükség az adott tématípus vonatkozásában. A sorrend a bal szélen lévő gombokkal változtatható igény szerint.
Ha ezen a felületen véglegesítettük az adott típusok tulajdonságait, akkor lényegében elmondhatjuk, hogy kész vagyunk az ontológiával, amelynek már csak az esetekkel való feltöltése van hátra.
Ezt az Instances fülre kattintva tehetjük meg, amikor is az előzetesen definiált tulajdonságok minden egyes tématípus vonatkozásában megjelennek egy olyan felületen, mint amely a következő képen látható.
Ezen a felületen lényegében konkrétumokkal, adatokkal kell feltöltenünk az előzetesen elkészített ontológiánkat. Ehhez szövegdobozok és legördülő menük állnak rendelkezésünkre annak megfelelően, ahogyan az előzőekben az ontológia elemeit definiáltuk. -
-
A legördülő menükben azok az elemek kerülnek felsorolásra, amelyeket létrehoztunk. Ha olyanra van szükségünk, amelyet nem találunk ezen elemek között, akkor a jobb oldalon lévő csillag segítségével tudunk eseteket létrehozni. A mínusz és plusz jelekkel az ontológiában leírt kardinalitási feltételek szerint tudunk hozzáadni vagy elvenni elemeket. Ha valamihez azt írtuk, hogy több eset is tartozhat hozzá egy adott relációban, akkor értelemszerűen megjelenik a plusz jel, így tetszőleges számú újabb elemet hozzáadhatunk. Ha valamiből pontosan egy van, akkor sem plusz, sem mínusz jelet nem találunk mellette, viszont ha a szövegdobozt üresen hagyjuk, akkor „Missing required value” (hiányzó kötelező érték) hibaüzenetet kapunk.
A tématérképek szerkesztése és az ontológiák létrehozása általában iteratív folyamat. Valószínűleg nem tudjuk a világ létezői közötti viszonyokat azonnal a leghatékonyabban és
leghelyesebben modellezni, így szükség lehet arra, hogy visszatérjünk az esetektől az ontológiához és ott – a gyakorlati tapasztalatok tükrében – változtassunk a feltételeken. A szerkesztés közbeni aktuális állapotokat mindig a jobb oldali menüsorban található Omnigate gombbal tudjuk megtekinteni. Az általunk szerkesztett és esetekkel feltöltött tématérképen például a fentebb megszerkesztett Pécs téma a következőképpen vizualizálható.
Amennyiben egy adott téma asszociációs mezejét grafikusan is meg szeretnénk tekinteni, akkor a lap tetején lévő menüsorban lévő Vizigator segítségével tehetjük ezt meg. A fenti szöveges oldal esetében ez a következőképpen jelenik meg.
Az ontológiaszerkesztés során fontos lehet, hogy egy-egy tartalmat más formátumokba is át tudjunk konvertálni, hogy biztosítsuk más-más alkalmazásokkal való kompatibilitását. Az Omnigatorban erre az Export menüpontban van lehetőség. Itt a következő képen látható szintaxisokba menthető el az elkészített tématérképünk.
A fentiek közül a legérdekesebb és legtöbb lehetőséget magában foglaló az RDF/XML szintaxisba való automatikus konverzió, hiszen ezzel más szemantikus web alkalmazásokkal is biztosítható a kompatibilitás. Az ontológiánk és az ezen alapuló tématérképünk elkészültét követően további lehetőségek állnak a rendelkezésünkre, amelyekkel növelhetjük a használó lehetőségeit. -
-
-
-
A Merge fül alatti lehetőségekkel lehetőségünk van több tématérkép összeolvasztására. Az egyes témák a PSI-k mentén olvadhatnak egybe. A tevékenységhez ki kell jelölnünk két vagy több tématérképet, amelyeket egybe kívánunk tenni. A Statistics menüpontban van lehetőségünk megtekinteni, hogy egyes tématérképszerkezetekből mennyi van jelen az alkalmazásunkban. A DB2TM segítségével szinkronizálhatjuk a tématérképünket egy relációs adatázissal. Ennek használatához készíteni kell egy konfiguráló fájlt és elhelyezni a C:\ontopia-5.1.3\apachetomcat\webapps\omnigator\plugins\db2tm\db2tm.xml mappában. A Customize fül alatt a megjelenítésre vonatkozó beállításokat állíthatjuk be. A Nontopoly modelben csak azokat az értékeket jeleníti meg az Omnigator, amelyeket mi adtunk meg, a Complete model a rendszer által automatikusan generált jellemzőket és relációkat is. A Support fül egyenesen az OKS-t használó nemzetközi közösség levelezőlistájára vezet minket, ahol választ kaphatunk esetlegesen felmerülő kérdéseinkre, bizonytalanságokra.
7 Az ontológiák használata Az ontológiák hasznáról a kutatók is eltérően vélekednek. A szkepticizmus alapja jellemzően az, hogy nagyon sok szakterületen erősen kétséges a formalizálás lehetősége. A nyelvi jelekkel történő emberi kommunikáció is erősen támaszkodik a kontextusra, a gesztusokra, a kommunikáló felek közötti közös előismeretekre és osztott nézetekre, és a megértés még így is kérdéses. Az ontológiákban formalizált tudásra teljes mértékben érvényes az ún. „zártvilág effektus”, azaz a számítógép a következtetések levonása során kizárólag a saját tudásbázisában tárolt ismeretekre képes támaszkodni. Mindezek ellenére az ontológiákat több területen is sikerrel alkalmazzák. Ezek közül jelenleg három ismertebbet, a döntéstámogatást, a tudásmenedzsmentet és a szemantikus web alkalmazásokat emeljük ki.
7.1 döntéstámogatás
A tudás hatékony modellezése nyomán képesek lehetünk automatizált döntéstámogatásra is az ontológiák segítségével. Ennek eszközei lehetnek a szakértői rendszerek, amelyek döntéshozáshoz szükséges szakértői tudás formalizálásával képesek automatizált döntéstámogatásra. Futó Iván (2003) definíciója szerint a „szakértői rendszerek a tudásalapú rendszerek közül azok, amelyek szakértői ismeretek felhasználásával magas szintű teljesítményt nyújtanak egy szűk problémakör kezelésében.” A szakértői rendszerek a mesterséges-intelligenciakutatások egyik – legsikeresebb – területét jelentik, amelyek szakvéleménnyel, tanáccsal, konkrét értékeléssel segítik a döntéshozatalt. A problémakör mérete jelenti ezen eszközök legfőbb korlátját. Hasonlóan a tudásalapú rendszerek többségéhez minél kisebb szakterület formalizálását tűzzük ki célul, annál nagyobb esélyünk van rá, hogy a valóság bonyolult struktúráit megközelítsük és képesek legyünk automatizálni a gondolkodási, döntéshozatali folyamatokat. A szakértői rendszereknek 3 fő összetevője van, a tudásbázis, a következtető gép és a felhasználói interfész. Az ontológiák és a logikai formalizmusok a tudásbázisok építésében bírnak jelentőséggel. A három legfontosabb elem önálló komponenseket alkot, így önállóan fejleszthető. Ez azért előnyös, mert a következtetőgép változatlansága mellett bővíthetjük, aktualizálhatjuk a tudásbázisban tárolt szakértői tudást. A rendszerek teljesítménye elsősorban a tudásbázis méretétől és a benne tárolt ismeretektől függ. A következtető gép a rendszer válaszadó része, amely hozzáfér a tudásbázishoz, onnan állítja elő a szükséges
kapcsolatokat, összefüggéseket, következtetéseket. A szabályok típusa és száma nem befolyásolja a következtető gép működését. A szakértői rendszerek sikere részben annak köszönhető, hogy számos szakértői shell (keretrendszer) áll rendelkezésre, amelyekkel viszonylag egyszerűen képesek lehetünk a szakértői tudás formalizálásával kész rendszereket készíteni. „A szekértői shellek azon fejlesztőeszközök, amelyek tudásbázisból, következtető gépből és felhasználói interfészből épülnek fel, támogatják a tudásalapú rendszerek fejlesztését és tudásbázisuk üres.” (Futó, 1998) Lényegében a shell tudásbázisának feltöltése működőképes szakértői rendszert eredményez. Vannak, amelyek rendelkeznek különböző környezeti eszközökkel, amelyek barátságosabb használatot tesznek lehetővé. Vannak, amelyek mint fejlesztői környezetek együttműködnek más programokkal, adatbázisokkal. A szakértői rendszerek legfőbb problémáját az ún. zártvilág effektus jelenti. Ez arra a tényre utal, hogy a következtetés és döntés csak az adott pillanatban explicit formában rendelkezésre álló tudásbázis-tartalom alapján történhet. Míg egy humán szakértő folyamatos kölcsönhatásban van a valósággal, egy gép kénytelen azokra az ismeretekre hagyatkozni, amelyeket rendelkezésére bocsátottak és így formális leírások formában rendelkezésére áll.
7.2 tudásmenedzsment
Az ontológiák használata a tudásmenedzsment világában szintén egyre növekvő jelentőséggel bír, hiszen az ismeretek formalizálása, explicitté tétele a szervezetek tudásvagyonának megragadását segíti elő. A tudásmenedzsment az információs társadalom kialakulásának kezdetétől kezdve fokozódó mértékben része a vállalatok, szervezetek életének. Ahogy a materiális tőke felől a figyelem mind nagyobb mértékben az immateriális felé fordul, úgy van egyre nagyobb szükség a tudásvagyon megragadására szolgáló eszközök, technikák fejlesztésére. A tudásmenedzsmentnek több megközelítése is létezik. Géró Katalin (2000) a definíciók alapján háromféle megközelítést azonosított. „A használatban lévő KM-definíciók száma több tucatra rúg, aszerint, hogy az adott forrás milyen megközelítésben tárgyalja a témát. A klasszikus értelmezés szerint tudásgazdálkodás és hasznosítás alatt értünk minden olyan tevékenységet, amelynek célja egy szervezeten belül felhalmozott mindennemű dokumentált (explicit), illetve láthatatlan (tacit) tudás, ismeret, szakértelem, tapasztalat feltérképezése, összegyűjtése, rendszerezése, hatékonyan történő szolgáltatása és hasznosítása. Röviden, a minél eredményesebb döntéshozatali
munkát elősegítendő, a megfelelő információ eljuttatása a megfelelő embereknek a megfelelő formában és időben. Eszerint a KM célja, hogy keretet szolgáltasson egy közösség (vállalat, intézmény, szervezet) szellemi javainak minél gazdaságosabban történő kiaknázásához és felhasználásához. Az elmélet gyakorlatban való megvalósítását sokan sokféleképpen értelmezik, s bár a tudásgazdálkodás végleges rendszerezése még várat magára, már jelenleg is megfigyelhető két, egymástól eltérő felosztási rendszer. Az első szerint a tudásmenedzsment két nagy iránya – talán inkább feladata – az információkkal, valamint a humán erőforrásokkal történő gazdálkodás. Az előbbi szerint tudás alatt az információs rendszerekben nyomon érhető és kezelhető objektumokat, míg utóbbi szerint az állandóan változó, formálódó folyamatokat, a képességek és szakértelem komplex rendszerét értjük. A másik értelmezés szerint a tudásmenedzsment három nagy tárgyalási módja a mechanisztikus, a kulturális/magatartási, valamint a rendszerező szemlélet szerinti megközelítés. Az első mód inkább a technológiai eszközökkel történő információkeresés tökéletesítését vizsgálja, a másodikban a tudást és annak kezelését mint vezetés, illetve szervezéselméleti problémát értelmezik, míg a harmadik tárgyalásmód a tudás–problémakör szisztematikus elemzésére, modellezésére helyezi a hangsúlyt.” (Géró 2000) Az ontológiák jelentősége a technológiai alapú megközelítésekben nagy. Ebben a vonatkozásban él az az elképzelés, miszerint a tudás megragadható, modellezhető és áramoltatható tudásszervezési rendszerek segítségével. Ugyanakkor az is egyértelművé vált, hogy egy hatékony tudáskezelő rendszer elősegítheti ugyan a tudás áramoltatását és megragadását, de nem egyedüli záloga a tudásmenedzsment tevékenység hatékonyságának. A tudásmenedzsment vállalati környezetben az ún. tudásmenedzsment ciklussal írható le, amely a következő lépéseket foglalja magában. (Nuridsányi 2006 alapján)
Az ábrán látható fogalmakhoz némi magyarázat szükséges. Kezdjük a stratégiai alappillérekkel. -
-
Stratégiai alapok. A tudásmenedzsment a szervezet létező üzletstratégiájára, annak céljaira épül, azok megvalósítását szolgálja. Folyamatok. A tudásmenedzsment tevékenységek szervesen beépülnek a szervezet üzleti folyamataiba. Technológia. Épít a hatékony, részben már meglévő, a szervezet által már használt, részben pedig speciálisan a tudásmenedzsmentet kiszolgáló, korszerű technológiákra. Ebben a vonatkozásban különösen nagy jelentősége van az ontológiáknak. Kultúra. A tudásmenedzsment gondolkodásmódot, megközelítésmódot, viselkedést is jelent, amely beépül a szervezeti kultúrába. (Nuridsány 2006)
Az egyes lépések a következők. -
-
Szükségletek. Ebben a fázisban történik azon tudáselemek azonosítása, meghatározása, amelyekre szert kell tennie a szervezetnek. Formái lehetnek: felmérés, audit; az igények folyamatos gyűjtése; kutatás, piacelemzés, szakmai kutatás. Létrehozás. EZ a lépés az új tudás létrehozása a szervezet számára, amely többféleképpen valósítható meg: tanulással, vásárlással, kitalálással (innovációval), fejlesztéssel. A létrehozás forrásai lehetnek a meglévő tudáselemek kombinációja,
-
-
-
-
-
-
külső források megismerése (könyvek, folyóiratok, konferenciák, ülések, jelentések, szabványok stb.), külső személyek. Megragadás, azaz a tudás újrafelhasználható formába öntése; általában externalizáció (tacit tudásból explicit tudás létrehozása). Kétféle alapvető formája a „Hard copy” (papíron vagy elektronikus formában való dokumentálás; meglévő rendszerbe történő rögzítés; hangfelvétel; képfelvétel); „Soft” (pl. működésbe, folyamatba való beépítése; új tudáselem azonosítása, másokkal való megosztással együtt.) A szakirodalom felhívja rá a figyelmet, hogy a puha megragadást mindig hard lépésnek kell követnie. Hozzáférhetővé tétel a felhasználók számára, akiknek a tudásra a szervezeti feladataik végzéséhez szükségük van. (pl. kereshetőség biztosítása, direkt módon való eljuttatása a használóhoz, a tudással rendelkező informális kommunikáció biztosításával. Ez történhet elektronikusan (pl. tudásmenedzsment rendszerbe való bevitel; egyéb információs rendszerbe való bevitel; egyszerű elektronikus tárolás) vagy papírhordozón (pl. irattár, könyvtár) Megosztás, vagyis a tudáselemek megosztása azok potenciális használóival, amelynek szintén háromféleféle formája van: 1. Passzív hozzáférhetővé tétel (explicit-explicit), pl. Papír formában (könyv, cikk, belső dokumentáció); internet vagy intraneten. 2. Aktív hozzáférhetővé tétel (explicit-tacit). Pl. direkt küldés, előadás, konferencia, képzés, oktatás 3. „Közösségi” (tacit-tacit). Pl. közösségi fórumokon való megbeszélés, elemzés, munka közbeni kommunikáció. Konszolidálás. A tudáselemek osztályozása, rendszerbe sorolása, a megtalálás, hozzáférés, felhasználás hatékonyabbá tétele érdekében. Ennek formái lehetnek a tudástérkép készítés, indexelés, kulcsszavazás, klasszifikáció, beillesztés adott rendszerbe (irattár, elektronikus könyvtári rendszer, stb.), információs rendszerben való rögzítés. Használat. A megszerzett illetve meglévő tudás felhasználása, hasznosítása a szervezeti feladatok elvégzésekor. Ennek során további tudásigények merülhetnek fel. Formái lehetnek: közvetlen eladás, tanácsadás, szakértés, információ eladás, termékbe való beépítés, termékfejlesztés, szolgáltatás, követés, támogatás; Stratégiai, taktikai döntések támogatása, piacelemzés. Értékelés. A szervezetben lévő tudás értékelése az üzleti értékhez való hozzájárulás szempontjából. Pl. Balanced Scorecard, megtérülés elemzés, szervezeti egységek értékelése, munkatársak értékelése, rendszer értékelése. (Nuridsány 2006)
A fenti ciklus lépéseit végiggondolva világos, hogy az ontológiák és közvetve a szemantikus technológiák tudásmenedzsmentben való hasznosításával kapcsolatosan az elképzelhető alkalmazások nagyon sokfélék lehetnek. Most csak egyet, a tudástérképet mutatjuk be. Tudástérképek készítésére a tématérkép technológia különösen alkalmas. Géró Katalin (2000) a következőképpen foglalja össze a tudástérképek vállalati hasznosítását.
„Egy szervezet információs és tudásvagyona dokumentálásának, megjelenítésének alapvető feltétele, hogy a szervezet rendelkezzék olyan közösen kialakított, előre definiált fogalmi rendszerrel, illetve taxonómiával, amely alapján az ismeretek hatékonyan visszakereshetővé válnak. Olyan eszközrendszert kell a használók kezébe adni, amelynek segítségével a tárolt ismereteket a megközelítési módtól függetlenül, hatékonyan tudják használni. Ha úgy tetszik, létre kell hozni a szervezet profilját alapul vevő osztályozási rendszert, amely által lehetővé válik a tudásvagyon ésszerű katalogizálása és a tudásrendszerben való megjelenítése. A tudáskatalógus a vállalat szellemi értékeinek olyan rendszerezett forrásgyűjteménye, amely teljességre törekedve feltárja az önálló fájlok weboldalak, dokumentumkezelő rendszerek, adatbázisok, adattárak és adattárházak stb. tartalmát. A katalógus egyes elemeit az ún. metaadatok írják le, amelyek rögzítik az egyes információforrások jellemzőit (lelőhely, szerző, keletkezés időpontja). A vállalati tudáskatalógus hatékonysága növelhető az ún. tudástérképek alkalmazásával, lehetőséget adva a katalogizált tudástartalom vizuális megjelenítésére. A tudástérképek készítésekor az ismereteket grafikusan ábrázoljuk, azaz megkíséreljük leképezni egy adott fogalmi hálózatot az azt felépítő egyes fogalmak, illetve a köztük fennálló kapcsolatok rögzítésével. Az így kapott ábrák – a tartalmat megszabadítva a szövegkörnyezet adta korlátoktól – lehetővé teszik egy tudáskör általános, környezettől független feltérképezését és megértését. Ezáltal pedig könnyebbé válhat új ismeretek és összefüggések felfedezése és az ismeretek egymással történő megosztása is. Ehhez azonban szükség van a szervezet tudáskezelő rendszerének megtervezésére és kialakítására is.” (Géró 2000) Összefoglalva tehát a vállalatok életében egyre nagyobb jelentősége van a tudásnak, amelynek megragadására, konszolidálására, termelővé tételére hatékony eszközöket kínálnak az ontológiák. A tématérkép technológia különösen alkalmas vállalati tudástérképek készítésére a humán interpretációra való optimalizáltsága miatt.
7.3 Oktatás Az ontológiák és az oktatás kapcsolata egyértelműnek tűnhet, hiszen előbbinek a célja az ismeretek formalizálása, ezzel „fogyaszthatóvá” tétele, amely az oktatás és a tananyagok készítésének is az egyik alapvető folyamata. Néhány alkalmazás bemutatásával azonban példákat is szeretnénk mutatni a használat lehetőségeire. A tématérképek e-learningben való használhatóságát szemlélteti a Magyar Elektronikus Könyvtárban a klasszikus magyar irodalom tématérképe (http://mek.oszk.hu/itm). Ezt a kísérleti jelleggel elkészített alkalmazást az Empolis Magyarország Kft. készítette. Céljuk a hazai piacon való sikeres szereplés előfeltétele, egy látványos referenciamunka elkészítése volt. Tartalmilag a középiskolás tananyag tényeit ragadja meg az alkalmazás és jeleníti meg szemantikus kapcsolatok hálójában. Az alkalmazás erénye, hogy magyar nyelven
reprodukálta a tématérképek alapfogalmait, sikeresen alkalmazta a nyelvet a konkrét esetek feltöltésénél.
A Wellingtoni egyetemen működő Új-Zélandi Elektronikus Szövegközpontban egy szöveggyűjteményt reprezentáltak egy ontológiában. (NZETC New-Zealand Electronic Text Centre http://www.nzetc.org/). Témák (összesen körülbelül 110.000 téma) reprezentálják a szerzőket, kiadókat, képeket és szövegeket, a közöttük lévő kapcsolatokat asszociációk írják le, előfordulásként pedig külső erőforrásokat rendeltek a tartalmakhoz. (Stevenson, Tuohy, Norrish 2008) Az NZETC projektje lényegében a teljes digitális könyvtárat tématérkép alapokra helyezte, és ezzel egy rendkívül felhasználóbarát felületet alkotott.
A tématérképek lehetőséget adnak tematikus portálok készítésére. Könyvtári tematikus portál kialakítását célozta a zaragozai egyetemen indult Potnia projekt, amely tématérkép, RDF és Dublin Core metaadat szabványokon alapul. Az alkalmazás a keresések további finomítását tette lehetővé azzal, hogy relációkat definiált a kulcsszavak között. A Potnia projekt fejlesztései felhasználói igényvizsgálaton alapulnak, az eredményként megjelenő szoftvereket (két verzió is megjelent) pedig valódi környezetben próbálták ki. (Tramullas, Garrido 2006)
7.4 szemantikus web ontológiák
Az ontológiák fejlesztésének az egyik legfontosabb motivációját az elmúlt években egy globális hálózati metaadat-infrastruktúra létrehozása jelentette. Ebben a részben röviden áttekintést adunk a szemantikus web felépítéséről, és arról, hogy ebbe a struktúrába miként illeszkednek az ontológiák. A világhálón a tudás tárolására korlátlan lehetőségek állnak rendelkezésre. A tartalom szerinti visszakeresésnek azonban két nagyon jelentős gátja van. Egyrészt az emberi erőforrások mértéke, másrészt a szintaxison alapuló heurisztikák korlátozottsága szabnak határt a szemantika alapján való keresés lehetőségeinek. Ezen problémákra adott válaszként jelent meg a szemantikus web vízió. Tim Berners-Lee 1998 szeptemberében tette közzé a Semantic Web Road Map (Szemantikus web autóstérkép) c. cikktervezetét, amely – alcíme szerint – nem több mint tapasztalatok továbbgondolása, egy kipróbálatlan architektúra terve, illetve egy autóstérkép a jövőhöz. A cikk, amely az RDF logika mentén vázolja fel a szemantikus web struktúráját, egy 20 000 láb
magasságból kirajzolódó kép, amelynek a részletei még kidolgozásra várnak. (Berners-Lee 1998) A szemantikus web alapvetése 2001 májusában látott napvilágot a Scientific American hasábjain. Ebben Berners-Lee és szerzőtársai leírják a szemantikus web lépcsős modelljét, amelynek a legalsó szintjén az egyedi adatok megragadására, következő szintjén a közös szintaxisra, harmadik szintjén a szemantikus tartalomra, majd a logikára vonatkozó metaadat-szabványok foglalnak helyet. A szerzők egy példával illusztrálják a szemantikus web fejlesztések várható eredményét. E szerint Pete és Lucy testvérek, akik együtt keresnek édesanyjuknak fizikoterápiás kezelést kétheti rendszerességgel. Az intelligens kereső kikeresi az édesanyjuknak előírt kezelést nyújtó szolgáltatók közül azokat, amelyeknél érvényes a mama biztosítása. Kiválogatja azokat, amelyek a lakhelyének 20 mérföldes körzetében vannak, és az értékelésük kiváló, vagy nagyon jó a minősítések szerint. Ezt követően összeegyezteti az időpontot Lucy és Pete naptárával, hogy nekik is megfelelő időben legyen a kezelés. Az intelligens kereső vázolja a tervet. Pete-nek nem tetszik, mert éppen csúcsforgalom idején kellene autóznia, ezért megismétli a keresést szigorúbb kritériumokkal. Szinte azonnal jön a válasz a módosított tervvel, amelyhez azonban a gép figyelmezteti Peteet, hogy néhány kevésbé fontos találkozót át kell tennie más időpontra. (Berners-Lee, Handler, Lassila 2001) Az elképzelt történet és az utána felvázolt technológiai megoldások recepciója a tudományos irodalomban nagyon gazdag. Passin (2004) nyolc fő csapásirányt vázol fel a szemantikus web vízió első interpretációiból. Ezek a fenti történetből kiragadott elemekre alapulnak. -
-
-
-
Az információ indexelése és visszakeresése. Az információ-visszakeresésben a szemantikus web túlmegy a tárgyszók és az alfabetikus indexek mélységén, így a használók képesek fogalmak és kategóriák mentén keresni. Metaadatok. A szemantikus web metadatok tömege, amelyek a weben lévő adatok közötti hatékonyabb keresést tesz lehetővé. Magyarázó jegyzetek, kommentárok. A szemantikus web legfőbb újítása a felhasználó által generált tartalom: a kommentárok, bejegyzések. Egy nagy együttműködő adatbázis. Az adatok legnagyobb részét adatbázisokon kívül tárolják a weben. A tárolt adatok leírásának és visszakeresési lehetőségeinek egységesítése nyomán a szemantikus web egy nagy virtuális adatbázisként is értelmezhető. Az adatok gépi visszakeresése. Ez a megközelítés az adatok visszakeresésének az automatizálására koncentrál. E szerint nem kell az oldalakat egyenként betölteni és azokról az adatokat kinyerni, hiszen az adatok formátuma és hozzáférési lehetőségei lehetővé teszik, hogy azokat a számítógép emberi közreműködés nélkül kezelje. Szolgáltatások. A szolgáltatások géppel olvasható adatokat tesznek közzé, így a számítógép az ember helyett végzi az egyeztetéseket.
-
Szolgáltatások felderítése. Azon szolgáltatások felderítése, amelyek lehetővé teszik a szabványok szerinti hozzáférést. Intelligens „titkár”. Egy olyan intelligens számítógépes alkalmazás, amely az ember helyett cselekszik gyakorlati ügyek intézése során, például repülőjegyet, vagy szállodai szobát rendel. A szemantikus weben ebben a megközelítésben emberek intelligens „titkárainak” interakciója zajlik. (Passin 2004)
Minden megközelítés hordoz igazságot. Összefoglalva azonban a szemantikus web célja egy olyan globális hálózati metaadat-infrastruktúra létrehozása, amely lehetővé teszi a világhálón lévő adatok integrálását, a közöttük lévő kapcsolatok definiálását és jellemzését, illetve az adatok értelmezését. A szemantikus web három különböző rétegből áll: 1. 2. 3.
metaadatok: az erőforrások és tulajdonságok leírása; sémák: a fogalmak hierarchikus leírása; logikák: leíró logikák. (Lu, Dong, Fotouhi 2002)
A fenti három rétegben nyelvek találhatók, amelyeknek a következő feladatokat kell ellátniuk. Ezeket tekinthetjük a szemantikus web építőelemeinek is. (Zárójelben az egyes építőelemekhez kapcsolódó szintaxisok vannak): 1.
2. 3. 4. 5. 6.
Az adatokat egyértelműen meg kell címezni a weben, vagyis el kell őket nevezni. (URI=URL+URN) Lényegében a weben lévő dokumentumoknak önleíróknak kell lenniük, hogy egyértelműen azonosíthatók legyenek az információk. Az önleíró dokumentumnak egységes szintaktikájúnak is kell lenni. (XML) Szükség van egy precíz adatmodellre, amely formális keretet ad az adatok egymáshoz való kapcsolatainak definiálására, és a kapcsolatok leírására (RDF). Az adatok közti kapcsolatokat, illetve a kapcsolt adatok referenciáit el kell tudni érni, le kell tudni kérdezni (SPARQL). A kapcsolatok leírására szolgáló terminológiát definiálni kell tudni (RDFS, OWL, SKOS). A kapcsolatokon, illetve azok leírásán, logikai következtetéseket kell tudni levonni (OWL, RIF).
Az URI és az XML nem specifikus a szemantikus webre. Kifejezetten erre lett viszont kifejlesztve az RDF, az OWL, a SPARQL és a SKOS amelyek már ajánlások, vagy a RIF. A fent megnevezett specifikációk határozzák meg a szemantikus web lépcsős modelljét (Berners-Lee, Handler, Lassila 2001; Fülöp, Kovács, Micsik 2005; Passin 2004), amely alapján az intelligens háló az önleíró dokumentumra épülve a metaadatok segítségével, a formális logikai szabályok szerinti következtetések levonására lesz képes.
A szemantikus web lépcsős modellje (Forrás: http://mmt.me.uk/slides/barcamp09/images/semantic-web-layer-cake.png) Minden egyes réteg az alatta elhelyezkedőkre épít. A nyelvek alapja az XML. Minden szint bonyolultabb, mint az alatta elhelyezkedő. Az alsóbb rétegek függetlenek a fölöttük elhelyezkedőktől. Az egyes rétegek egymástól függetlenül is fejleszthetők és alkalmazhatók. (Passin 2004) A szemantikus web lépcsős modelljét már különböző változatokban felvázolták. Minden változatban szükség van radikális egyszerűsítésekre, mert a rendszer működése a valóságban sokkal több együttműködő szabvány függvénye. A szemantikus web megvalósulásának előfeltétele, hogy a tartalmak létrehozói általánosan elfogadott szabványokhoz, illetve ajánlásokhoz tartsák magukat a fejlesztések során. A World Wide Web konzorciumot (W3C) 1994-ben hozta létre Tim Berners-Lee azzal a céllal, hogy elősegítse a webtechnológiák összhangját, előmozdítsa a világháló fejlődését és garantálja a széleskörű felhasználhatóságát. A jelenleg több mint 400 tagot számláló szervezet három „anyaintézmény” égisze alatt indult. Ezek az amerikai MIT, a franciaországi székhelyű ERCIM és a japán Keio Egyetem. A szervezet által kidolgozott szabványok a széles nyilvánosság előtt kerülnek kifejlesztésre, valamennyi szabvány elfogadásához széleskörű egyetértés szükséges.
A konzorcium tagjai olyan szereplők, amelyek elkötelezettek a web egységesítése iránt (kutatólaboratóriumok, termékforgalmazók, tartalomszolgáltatók, fejlesztők). Az ontológiák szerepe a szemantikus web elképzelésben elsősorban a valóság leírásában ragadható meg. Az ontológiákban írhatók le azok az igazságok, amelyek mentén automatikus következtetéseket lehet levonni a szemantikai kapcsolatok leírása alapján. Az ontológiák szerepét a következőkben néhány konkrét alkalmazás példáján keresztül mutatjuk be. A példák a metaadatok kezelése tekintetében élenjáró intézményrendszer, a könyvtárak területéről valók. Az Amerikai Egyesült Államokban a Cornell Egyetem kutatói 1997-ben indították útjára a FEDORA (Flexible Extensible Digital Object Repository Architecture) projektet (http://www.fedora.info). A FEDORA digitális objektumok formális leírását tűzte ki célul: egy olyan architektúra létrehozását, amely egyaránt alkalmas digitális tartalmak tárolására, menedzselésére és hozzáférhetővé tételére. A szemantikus web ajánlások megjelenését követően implementálták a projektbe az RDF-et. A FEDORA RDF tripleteket tartalmaz, amely átjárhatóságot biztosít más szemantikus web alapú rendszerekkel. A FEDORA körül, hasonlóan más platformokhoz, egy közösség van, amely amellett, hogy használja a rendszert, újabb alkalmazásokat, további eszközöket fejleszt hozzá. A közösségre utal a Fedora Commons név. Tekintve, hogy a FEDORA egy általános digitális tartalmak kezelésére alkalmas szoftver, a használók között a könyvtárak mellett innovatív szakmai szervezetek, kutatóintézetek, múzeumok, kulturális intézmények, kormányzati szervek, vállalatok is találhatók. Fedorán alapul többek között a PloS (Public Library of Science), a University of Virginia Library, a National Science Digital Library, az Irish Virtual Research Library and Archive Project digitális tartalomkezelő rendszere. A svéd nemzeti könyvtár (Kungliga Biblioteket) az eddigi példáktól eltérően nem egy teljesen új rendszert fejlesztett, hanem arra tett kísérletet, hogy az ország közös katalógusát, a LIBRIS-t, amely nagy mennyiségű strukturált és ellenőrzött adatot tartalmaz átkonvertálják a szemantikus webhez kompatibilis módon. A hangsúlyt az erőforrásokra mutató és az erőforrások közötti kapcsolatokra helyezték és nem az egyes tételek minél részletesebb megjelenítésére. A különböző alkalmazásokkal való együttműködés és a MARC rekordok szemantikai tartalmának biztosítása érdekében Dublin Core, SKOS és FOAF elemeket egészítettek ki egy saját maguk által generált ontológiában. Az adatokhoz való hozzáférést a SPARQL biztosítja. (Malmsten 2008) A következő ábra egy rekordhoz kapcsolódó elemeket mutatja be irányított gráfok segítségével. (Forrás: http://ki.oszk.hu/kf/wpcontent/uploads/2010/10/1003tothm4.jpg)
Az Országos Széchényi Könyvtár szintén a katalógusában tárolt metaadatokat tette közzé a létező a szemantikus web szabványokhoz és ellenőrzött szótárakhoz illeszkedve. A legújabb szemantikus web alapú fejlesztések célja a tartalmak kreatív újrahasznosítása, amelyet az Europeana oldalain és a hozzá kapcsolódó nemzeti szolgáltatásokban is tetten érhetünk. Az alábbi képen a svéd Kringla digitális gyűjtemény egy régi budapesti fényképét láthatjuk a hozzá tartozó – a tartalom újrahasznosításához szükséges – metaadatokkal együtt.
A kulturális célú tartalmak szemantikus web szabványok szerint történő közzétételében jelentős előrelépések történtek az elmúlt egy évtizedben. A közgyűjtemények elkötelezettek az iránt, hogy a tartalmaikat korlátozásoktól mentesen, ingyenesen közzétegyék. Ennek a következményeként számos projekt született, amelyben gazdag metaadatállományok váltak közkinccsé, elősegítve azok – akár újszerű kontextusban történő – újrahasznosítását.
8
Összefoglalás
Jelen írással azt a célt tűztük ki, hogy egy gyakorlatorientált összefoglalást adjunk ontológiaszerkesztésről. Elsősorban az oktatás céljait tartottuk szem előtt, de röviden tettünk némi kitekintést más területekre is (tudásmenedzsment, szemantikus web fejlesztések, döntéstámogatás, szakértői rendszerek.) Az összefoglalás végén nem tekinthetünk el attól, hogy röviden felvázoljuk a szemantikus technológiák számára felrajzolható jövőképet, ami nagymértékben az ontológiafejlesztések kontextusát is jelentik. A szemantikus web erősségét a metaadatok és a tudást reprezentáló ontológiák jelentik. A koncepció értelmében ez utóbbiak biztosítják a következtetések lehetőségét, amely nyomán valóban „intelligens webről” lehetne beszélni. Már az OWL fejlesztésekor világossá vált, hogy egy OWL Full alkalmazásban képtelenség lenne a világról való ismereteinket olyan módon formalizálni, hogy abban ne legyenek ellentmondások, amelyek lehetetlenné teszik a szoftverekkel végzett következtetéseket. A világ dolgainak leírhatatlanságára elég a természetes nyelveket példának hozni. A természetes nyelvek az ontológiákhoz hasonlóan megosztott konceptualizálással formalizálják a világ létezőit. (Vickery 1997) A világ létezői azonban bonyolultságuknál fogva olyannyira sokféleképpen képezhetők le, hogy elkerülhetetlenek az ellentmondások. (A nyelvi relativizmus elmélete szerint a természetes nyelvek determinálják a gondolkodást is, így a más anyanyelvűek másképpen szemlélik a világot, Robins 1999.) A magyar csúcsontológia projekt bebizonyította, hogy egyetlen nyelv legáltalánosabb fogalmait sem lehetséges hatékonyan megragadni. Elsősorban ennek eredményeként az ontológiák fejlesztése a szemantikus webről szóló diskurzus kezdete óta eltelt tíz évet követően még mindig gyerekcipőben jár, és nem is várható áttörés ebben a tekintetben. (Krause 2008) Nem jelent igazi megoldást a létező tudásreprezentációs eszközökhöz való fordulás sem (pl. SKOS), mert ezekkel éppen a szemantikus web legfőbb ígéretéről, a formális logikákon alapuló, szoftverekkel elvégeztethető következtetésekről kellene lemondani, tehát a Berners-Lee, Handler és Lassila (2001) által felvázolt lehetőségek csak nagyon szerény mértékben válnának valóra. Egyre inkább világossá válik, hogy globális metaadat-infrastruktúra építése elképzelhetetlen tömegek munkája nélkül. A világháló szintaktikai paradigmájának sikere nagyban köszönhető az egyszerűségnek. A szabványokat felhasználói szintű számítógép-kezelői ismeretekkel rendelkező személyek is képesek alkalmazni a HTML-szerkesztő programok segítségével. A szemantikus web bonyolult szerkezete megnehezíti az alkalmazást, így ezek a szabványok nem is tudtak elterjedni. A szemantikus web technológiák olyan szakismeretet igényelnek,
amely lehetetlenné teszi a tömeges alkalmazást. Ennek némileg ellentmond, hogy az RDF alapú tudásreprezentáció egyre elterjedtebbé válik. Minden létezőt magában foglaló ontológia alkalmazás hiányában a szemantikus web nem válhat globális metadat-infrastruktúrává, hanem megmarad a webes tartalmak hatékonyabb együttműködését elősegítő technológiák gyűjtőfogalmának. Szakterületi ontológiák építésében történt ugyan némi előrelépés, ezek azonban nem feltétlenül biztosítják a megfelelő szintű átjárhatóságot, így a következtetések érvénye is szükségszerűen korlátozott. Az áttekintésünk végkövetkeztetéseként csatlakozunk Szakadát István 2007-ben megfogalmazott véleményéhez. „A szemantikus web (…) ma még sokkal inkább csak ígéret, mint valóság, és egyelőre nem is nagyon látszik, mikorra és hogyan leszünk képesek a szemantikus web program céljait megvalósítani.” (Szakadát 2007)
9 Irodalomjegyzék Barátné Hajdú Á. (1998) Bevezetés a könyvtári osztályozás elméletébe és gyakorlatába. Budapest.
Berners-Lee, T. – Handler, J. – Lassila, O. (2001) The Semantic Web = Scientific American, May 17 http://www.scientificamerican.com/article.cfm?id=the-semantic-web [letöltve: 2013. március 20.]
Brickley, D. – Guha, R. V. (2004) RDF Vocabulary Description Language 1.0: RDF Schema W3C Recommendation 10 February 2004 http://www.w3.org/TR/rdf-schema/ [letöltve: 2013. március 21.]
Conolly, D. et al. (2001) DAML+OIL (March 2001) Reference Description W3C Note 18 December 2001 http://www.w3.org/TR/daml+oil-reference [letöltve: 2013 április 2.]
DC (2004) Finomított DC-elemkészlet, Rövid változat (2004-05-11) NDA Tartalom munkacsoport [Kézirat]
infrastruktúra
DC HTML (2003) Expressing Dublin Core in HTML/XHTML meta and link elements. DCMI Recommendation (November 11, 2003), http://dublincore.org/documents/dcq-html/ [letöltve: 2013. március 21.]
DCMES (2006) Dublin Core Metadata Element Set, Version 1.1. DCMI Recommendation (December 18, 2006), http://www.dublincore.org/documents/dces/ [letöltve: 2013. március 10.]
DCMI (2001) Dublin Core Metadata Initiative „DC1: OCLC/NSCA metadata workshop”, http://dublincore.org/workshops/dc1/ [letöltve: 2013. március 10.]
DCMT (2006) DCMI Metadata Terms. DCMI Recommendation (December 18, 2006), http://www.dublincore.org/documents/dcmi-terms/ [letöltve: 2013. március 5.]
DC RDF (2002) Expressing Simple Dublin Core in RDF/XML. DCMI Recommendation (July 31, 2002), http://dublincore.org/documents/dcmes-xml/ [letöltve: 2013. április 5.] DC XTM (2003) Guidelines for implementing Dublin Core in XML. DCMI Recommendation (April 2, 2003), http://dublincore.org/documents/dc-xml-guidelines/ [letöltve: 2013. április 3.]
Dicheva, D. – Dichev, C. (2006) TM4L Creating and Browsing Educational Topic Maps = British Journal of Educational Technology 2006. (37. köt.) 3. sz. 391–404. p.
van Dijck, P. (2003) Introduction to XFML, XML.com, January 22, 2003, http://www.xml.com/pub/a/2003/01/22/xfml.html [letöltve: 2013. március 31.]
Futó Iván (2003) Mesterséges Intelligencia, Budapest, Aula kiadó.
Garshol, L. M. (2004) Metadata? Thesauri? Taxonomies? Topic Maps! Making sense of it all http://www.ontopia.net/topicmaps/materials/tm-vs-thesauri.html [letöltve: 2013. március 2.]
Garshol, L. M. (2006) The Linear Topic Map Notation, Definition and introduction, version 1.3 2006/06/17, Ontopia AS http://www.ontopia.net/download/ltm.html [letöltve: 2013. március 22.]
Garshol, L. M. (2007) Towards a Methodology for Developing Topic Maps Ontologies = Leveraging the Semantics of Topic Maps. Berlin – Heidelberg, Springer, 20-31. p.
Géró Katalin (2000) Knowledge management – múló hóbort avagy a jövőnk? = Könyvtári Figyelő, 2000. 1-2. sz. 104-112. p. http://ki.oszk.hu/kf/kfarchiv/2000/1_2/gero.html [letöltve: 2013. április 14.]
Gruber, T. R. (1993a) Towards principles for the design of ontologies used for knowledge sharing. In N. Guarino – R. Poli (szerk.): Formal Ontology in Conceptual Analysis and Knowledge. Representation (konferenciaanyag). Deventer, The Netherlands. Kluwer Academic Publishers.
Gruber, T. R (1993b) A translation approach to portable ontology specification. 5. évf., Knowledge Acquisition, 199–220. p.
Han, Y. (2005) A RDF-based digital library system = Library Hi Tech (24. köt.) 2. sz. 234-240. p.
Hecht, R. – Haslhofer, B. (2005) Joining the BRICKS Network – A Piece of Cake = The International Conference EVA 2005. Moscow http://cs.univie.ac.at/research/publications/publikation/infpub/742/ [letöltve: 2013. április 20.]
Hendrik, T. – Redmann, T. – Pressler, M. – Markscheffel, B. (2008) GTM – Towards a Graphical Notation for Topic Maps = Subject-centric Computing. Forth International Conference on Topic Maps Research and Applications. TMRA 2008. ed. Maicher, L., Garshol, L. M Leipzig Germany, 16–17 October, 2008 http://tmra.de/2008/talks/pdf/137-152.pdf [letöltve: 2013. március 15.]
Henriksen, I. (2006) Graphical Notation for Topic Maps, Draft. 2006-10-15 http://cafe.teria.no/ingeh/files/6/13/GTM.pdf [letöltve: 2013. március 25.]
Herman I. (2006) Szemantikus Web: egy rövid bevezetés, elhangzott az I. Magyar Webkonferencián 2006. március 18-án http://www.w3.org/2006/Talks/0318-Budapest-IH/cikk.html [letöltve: 2013. március 16.]
Horváth T. – Sütheő P. (2001) A tartalmi feltárás = Könyvtárosok kézikönyve 2. Feltárás és visszakeresés. szerk. Horváth T. – Papp I. Budapest, Osiris kiadó, 35-186. p.
Horváth Z. (2006) Taxonómia – az egyezményes nyelvek szerepe és rokonságai – útközben a szemantikus webhez = Tudományos és Műszaki Tájékoztatás, (53.) 5. sz. http://tmt.omikk.bme.hu/show_news.html?id=4410&issue_id=472 [letöltve: 2013. március 7.]
Hunting, S. (2003) How to Start Topic Mapping Right Away with the XTM Specification (Chapter 6.) = XML Topic Maps: Creating and Using Topic Maps for the Web. (szerk.) Park, J. – Hunting, S., Boston, Addison-Wesley, 81–102. p.
ISO 13250 (2007) Information technology – Topic Maps Part 3: XML Syntax, International Standard, ISO/IEC 13250 First edition 2007-03-15 ISO/IEC 13250:2007(E)
Klyne, G. – Carroll, J. J. (2004) Resource Description Framework (RDF) concepts and abstract syntax, W3C recommendation, Febr. 10, 2004. http://www.w3.org/TR/rdf-concepts/ [letöltve: 2013. április 19. ]
Kormos J. – Kovács Z. Cs. – Tóth M. (2008) Topic map and ontological support for knowledge management in the enterprise = Proceedings of ECKM 2008, The 9th European Conference on Knowledge Management, Southampton Solent University, Southampton, UK, 4-5 September 2008, 377–388. p. http://www.veforum.com/projects/408/ICE%202008/Knowledge%20Engineering%20&%20Management/0 72%20-%2019.pdf [letöltve: 2013. március 22.]
Kovács Z. Cs. – Tóth M. (2008) A tématérkép technológia bemutatása, a TM4L szerkesztő magyarosításának folyamatán keresztül = MicroCAD 2008 International Scientific Conference, Miskolc, 20-21 March 2008 Miskolci Egyetem, Konferencia kiadvány Section O: Applied Information Engineering, 75-82. p. http://webadmin.kripto.hu/webadmin/portals/kovex/attachments/TopicMaps_2_2008.pdf [letöltve: 2013. március 28.]
Krause, J. (2008)
Semantic heterogenity: comparing new semantic web approaches with those of digital libraries = Library Review (57. köt.) 3. sz. 235-248. p.
Manola, F. – Miller, E. (2004) RDF Primer, W3C Recommendation, 10 February 2004 http://www.w3.org/TR/rdf-primer/ [letöltve: 2013. április 2.]
McGuiness, D. L. – Van Harmelen, F. (2004) OWL Web Ontology Language – Overview, W3C Recommendation, 10 February 2004 http://cies.hhu.edu.cn/pweb/~zhuoming/teachings/MOD/N4/Readings/5.3-B1.pdf [letöltve: 2013. április 22.]
Newcomb, S. R. (2003) A Perspective on the Quest for Global Knowledge Interchange (Chapter 3.) = XML Topic Maps: Creating and Using Topic Maps for the Web. (szerk.) Park, J. – Hunting, S. Boston: Addison-Wesley, 31-50. p. http://ptgmedia.pearsoncmg.com/images/0201749602/samplechapter/parkch03.pdf [letöltve: 2013. április 10.]
Nuridsány Judit (2006) Az információbróker a tudásmenedzsment birodalmában = Információból üzleti érték. Az információbróker környezete és munkája. Budapest, Magyar Információbrókerek Egyesülete, 123-130.
Pálvölgyi Mihály (2011) Információkereső nyelvek I. http://www.tankonyvtar.hu/hu/tartalom/tamop425/0005_11_infkereso_nyelvek_i_pdf/ada tok.html [letöltve: 2013. április 14.]
Passin, T. B. (2004)
Explorer’s Guide to the Semantic Web, Greenwich, Manning, 281 p.
Pataki E. ford. (2004a) Az RDF Erőforrás Leíró Keretrendszer alapfogalmai és absztrakt szintaxisa, W3C ajánlás, 2004-02-10 http://www.w3c.hu/forditasok/RDF/REC-rdf-concepts-20040210.html [letöltve: 2013. március 23.]
Pataki E. ford. (2004b) OWL Web Ontológia Nyelv – Áttekintés, 2004-09-19 http://www.w3c.hu/forditasok/OWL/REC-owl-features-20040210.html [letöltve: 2013. március 24.]
Pataki M. (2005) W3C ajánlások magyarul = Tudományos és Műszaki Tájékoztatás (52. köt.) 9. sz. 430. p. http://tmt.omikk.bme.hu/show_news.html?id=4051&issue_id=465 [letöltve: 2013. április 10.]
Pepper, S. (2003) Published Subjects: Introduction and Basic Requirements. OASIS Published Subject Technical Committee Recommendation, 2003-06-24 http://xml.coverpages.org/PublishedSubjectsIntroAndRequirements20030624.pdf [letöltve: 2013. március 29.]
Pepper, S. (2006) Towards the Semantic Superhighway: A Manifesto for Published Subjects, 2006. http://www.ibiblio.org/hhalpin/irw2006/spepper.html [letöltve: 2013. március 30.]
Pepper, S. (2007) Understanding Topic Maps Grasping the Fine Points, Oslo University College, 2007-09-27 http://www.ontopedia.net/pepper/slides/UnderstandingTopicMaps.ppt [letöltve: 2010. január 23.]
Pepper, S. (2008a) Expressing Dublin Core in Topic Maps = TMRA 2007. Maicher L and Garshol L. M (eds.) LNAI 4999. pp. 186–197. http://www.ontopedia.net/pepper/papers/DCinTopicMaps.pdf [letöltve: 2010. október 5.]
Pepper, S. (2008b) Topic Maps and the Semantic Web = Topic Maps and All That, 2008-05-11 http://topicmaps.wordpress.com/2008/05/11/topic-maps-and-the-semantic-web/ [letöltve: 2013. március 23.]
Pepper, S (2009) Introduction to Topic Maps and Subject-centric Computing = Topic Maps Workshop, Neumann János Számítástudományi Társaság Mesterséges Intelligencia Szakosztály. Budapest, 2009. július 21.
Pepper, S. – Schwab, S. (2003) Curing the Web’s Identity Crisis. Subject Indicators for RDF. Ontopia AS. May. http://www.ontopia.net/topicmaps/materials/identitycrisis.html [letöltve: 2013. március 13.]
Ranganathan (2002) Ranganathan for IAs; Steckel, Mike, Boxes and Arrows, October 7, 2002, http://www.boxesandarrows.com/view/ranganathan_for_ias [letöltve: 2013. február 1.]
Sándor J. (2002) Információkereső nyelvek, Eszterházy Károly Főiskola, Eger, 2002 http://eznemblabla.uw.hu/tananyagok/ekf/kvt/infkernyszig.pdf [letöltve: 2013. április 9.]
Stevenson, A. – Tuohy, C. – Norrish, J. (2008)
Ambient Findability and Structured Serendipity: Enhanced Resource Discovery for Full Text Collections, New-Zealand Electronic Text Centre Papers, 2008. 10 p. http://hdl.handle.net/10063/267 [letöltve: 2013. január 23.]
Svenonius, E. (2000) The Intellectual Foundation of Information Organization MIT Press, 2000
Szakadát I. – Szőts M – Szaszkó S (2006) MEO Magyar Egységes Ontológia szakmai zárójelentés. Budapest, 2006-12-18. 13 p. http://www.ontologia.hu/MEO_final.pdf [letöltve: 2013. április 3.]
Szakadát I. (2007) Egyben az egész egytől egyig. Budapest, Typotex, 142. p.
Szeredi P. – Lukácsy G. – Benkő T. (2005) A szemantikus világháló elmélete és gyakorlata, Budapest Typotex, 501 p.
Theodoridou, M. – Doerr, M. (1998) Classifying historical documents Paper Proposal for “Applications of IT to Biblical Studies”, Summer School, Sofia 25 July - 8 August 1998 http://www.ics.forth.gr/isl/publications/paperlink/CHD/html/chd.w6.html [letöltve: 2013. február 21.]
Tóth M. (2008) Tématérképek a könyvtárosképzésben = Tudományos és műszaki tájékoztatás (55. köt.) 6. sz. 251-269. p. http://tmt.omikk.bme.hu/show_news.html?id=4916&issue_id=494 [letöltve: 2013. március 20.]
Tramullas, J. – Garrido, P. (2006)
Constructing Web subject gateways using Dublin Core, The Resource Description Framework and Topic Maps = Information Research, 2006. (11. köt.) 2. sz. http://informationr.net/ir/112/paper248.html [letöltve: 2013. február 23.]
Ungváry R. (2004) Tezaurusz és ontológia, avagy a fogalmi ismertetőjegyek generikus öröklődésének formalizálása = Tudományos és Műszaki Tájékoztatás (51. köt.) 5. sz. 175-191. p. http://tmt.omikk.bme.hu/show_news.html?id=3615&issue_id=450 [letöltve: 2013. március 25.]
Ungváry Rudolf – Vajda Erik (s.a.) Könyvtári Információkeresés. Budapest, Typotex http://www.tankonyvtar.hu/hu/bongeszes/konyvek/altalanos/konyvtartudomany [letöltve: 2013. április 14.]
Varga K. (2012) Osztályozási rendszerek és információkereső nyelvek. Pécs, PTE-FEEK [kézirat]
Vickery, B. C. (1997) Ontologies = Journal of Information Science (23. köt.) 4. sz. 277–286. p.
Völkel, M. – Krötzsch, M. – Vrandecic, D. – Haller, H. – Studer, R. (2006) Semantic Wikipedia = www2006 Proceedings,The 15th International World Wide Web Conference, Edinburgh, Scotland http://www2006.org/programme/files/pdf/4039.pdf [letöltve: 2013. április 11.]