Miskolci Egyetem
´pe ´szme ´rn¨ ´s Informatikai Kar Ge oki e
´ gia-alapu ´ szemantikai annota ´ cio ´ e ´s Ontolo ´ sa ´ bra ´ zola ´ s nyelvtantanulo ´ rendszerben tuda Ph.D. ´ertekez´es t´ezisei
´sz´ıtette: Ke Baks´ an´ e Varga Erika okleveles m´ern¨ ok-informatikus okleveles m´ern¨ ok-k¨ ozgazd´ asz ´se ´re pa ´ lya ´ zik aki doktori fokozat elnyere
´ zsef Informatikai Tudoma ´ nyok Doktori Iskola Hatvany Jo ´ m´ıta ´ studoma ´ ny te ´mater¨ Alkalmazott sza ulet ´s tuda ´ sba ´ zisok, tuda ´ sintenz´ıv rendszerek te ´macsoport Adat- e ˝: Doktori Iskola vezeto Prof. T´ oth Tibor a m˝ uszaki tudom´ any doktora ´mavezeto ˝: Te Dr. habil. Kov´ acs L´ aszl´ o
Miskolc, 2011.
Baks´ an´e Varga Erika
´ gia-alapu ´ szemantikai annota ´ cio ´ e ´s Ontolo ´ sa ´ bra ´ zola ´ s nyelvtantanulo ´ rendszerben tuda Ph.D. ´ertekez´es t´ezisei
Miskolc, 2011.
´de ´si bizottsa ´g Ve
Eln¨ ok: Dr. T´ oth Tibor, DSc
ME, egyetemi tan´ ar
Titk´ ar: Dr. K¨ orei Attila, PhD
ME, egyetemi docens
Tagok: Dr. Baranyi P´eter, DSc
MTA SZTAKI
Dr. habil. Radeleczki S´ andor, CSc
ME, egyetemi docens
Dr. habil. Szigeti Jen˝ o, CSc
ME, egyetemi tan´ ar ´ Obudai Egyetem, egyetemi docens
Dr. Tar J´ ozsef, CSc
Opponensek: Dr. Cser L´ aszl´ o, DSc
Corvinus Egyetem, egyetemi tan´ ar
Dr. Dud´ as L´ aszl´ o, CSc
ME, egyetemi docens
´k Tartalomjegyze
1. Bevezet´ es 1.1. Irodalmi ´ attekint´es . . . . . . . . . . . . . . . . . . 1.1.1. A fogalomalkot´ as folyamata . . . . . . . . . 1.1.2. Tud´ as´ abr´ azol´ as ´es ontol´ ogia . . . . . . . . . 1.1.3. Annot´ al´ asi technik´ ak a nyelvtantanul´asban 1.2. A kutat´ as c´elja . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
2 2 3 4 7 9
´ tudom´ 2. Uj anyos eredm´ enyek 2.1. Az ECG szemantikai modell . . . . . . . . . . . . . . . . . 2.2. Az ECG be´ agyaz´ asa nyelvtan formalizmusba . . . . . . . 2.3. A fogalomalkot´ as folyamat´ anak modellez´ese ECG gr´afokon
10 10 11 13
3. Az elm´ eleti eredm´ enyek alkalmaz´ asa
15
4. Tov´ abbi kutat´ asi feladatok
16
5. Summary
17
´ t publika ´ cio ´ k az e ´rtekeze ´ s te ´mak¨ ´ben Saja ore
20
´ sok Hivatkoza
22
1
´s 1. Bevezete A kutat´ as f˝ o c´elja egy ´ altal´ anos, szemantikai annot´aci´ot alkalmaz´o statisztikai szab´ alytanul´ asi m´ odszertan kidolgoz´asa. Miut´an a szimbolikus nyelvek szab´ alyrendszere (nyelvtana) b´ır a legnagyobb gyakorlati jelent˝ os´eggel, ez´ert ezt vessz¨ uk alapul a m´ odszertan alapjainak meghat´ aroz´ asakor. A statisztikai m´ odszerek alkalmaz´asa a nyelvtantanul´asban [Charniak, 1996], [Manning & Sch¨ utze, 1999] azt jelenti, hogy a vizsg´alt nyelv szintaktikailag nem ker¨ ul elemz´esre, puszt´an az egyes szintaktikai elemek gyakoris´ agi adatai alapj´ an k¨ ovetkeztet¨ unk a szab´alyokra. Azonban Gold m´erf¨ oldk¨ ovet jelent˝ o publik´ aci´ oja [Gold, 1967] ´ota tudjuk, hogy a Chomsky-hierarchi´ aban [Chomsky, 1956] szerepl˝o nyelvoszt´alyok egyike sem tanulhat´ o csak pozit´ıv mint´ ab´ ol. Ez´ert a tan´ıt´omint´at ki kell eg´esz´ıteni negat´ıv p´eld´ akkal vagy szerkezeti inform´aci´oval (annot´aci´oval). Ez alapj´ an, a kutat´ as abb´ ol az el˝ ofeltev´esb˝ol indult ki, hogy a szab´ alytanul´ asban alkalmazott statisztikai m´ odszerek szemantik´aval t¨ort´en˝o otv¨ oz´ese pozit´ıvan befoly´ asolja a tanul´ o algoritmusok hat´ekonys´ag´at. A ¨ szemantikai inform´ aci´ o t´ arol´ as´ ahoz a mesters´eges intelligencia egy napjainkban felfut´ o ´ ag´ anak, az ontol´ ogi´ anak a lehet˝os´egeit ´es m´odszereit haszn´ aljuk fel, mivel az ontol´ ogi´ akat egyre sz´elesebb k¨orben alkalmazz´ak olyan ter¨ uleteken ahol a szemantikai inform´ aci´o felhaszn´al´asa tov´abbi el˝ ony¨ okkel kecsegtet. A feladat m´erete ´es bonyolults´ aga miatt a dolgozat nem terjed ki az u ´j m´ odszertant alkalmaz´ o tanul´ o´ agensek teljesk¨or˝ u m˝ uk¨od´esi modellj´enek le´ır´ as´ ara ´es egy ilyen ´ agens implement´ al´ as´ara. Csup´an a feldolgoz´as els˝ o, adatel˝ ok´esz´ıt˝ o f´ azis´ ara koncentr´ al, ahol els˝ odleges c´el egy megfelel˝ o, nyelvtantanul´ asra optimaliz´ alt szemantika alap´ u tud´ as´ abr´ azol´ asi m´ odszer kidolgoz´ asa ´es kiterjedt c´elorient´ alt vizsg´ alata.
1.1. Irodalmi ´ attekint´ es Az ´ agenstechnol´ ogia, a nyelvtantanul´ as ´es az ontol´ogia egyar´ant a mesters´eges intelligencia (MI) t´ argyk¨ or´ebe tartoz´o fogalmak. Eredetileg a mesters´eges intelligencia c´elja az volt, hogy olyan sz´am´ıt´og´epes rendszereket hozzon l´etre, amelyek intelligens m´odon k´epesek feladatokat megoldani. Az u ´j szeml´elet˝ u, viselked´esalap´ u megk¨ozel´ıt´es szerint azonban a mesters´eges intelligencia c´elja az, hogy a feladatmegold´ast olyan agensekkel v´egeztesse el, amelyek az intelligens viselked´es bizonyos vo´ n´ asaival rendelkeznek. Egy ´ agens lehet b´ armi, ami ´erz´ekel˝oi seg´ıts´eg´evel 2
´eszleli k¨ ornyezet´et, majd – megfelel˝ o d¨ ont´eseket hozva – tev´ekenys´eg´evel visszahat r´ a [Fut´ o, 1999]. A nyelvtantanul´ as (Grammar Induction / Grammar Inference, GI) a nyelvtechnol´ ogia egyik r´eszter¨ ulete. A nyelvtechnol´ogia (Natural Language Processing, NLP) a mesters´eges intelligencia azon hat´arter¨ ulete, amelynek c´elja a sz´ am´ıt´ og´epekkel term´eszetes nyelven t¨ort´en˝o kommunik´ aci´ o megval´ os´ıt´ asa [Jurafsky & Martin, 2000]. Sajnos azonban az ember´ehez hasonl´ o m´elys´eg˝ u g´epi meg´ert´esr˝ ol egyenl˝ore nem besz´elhet¨ unk, mert az emberi meg´ert´es igen bonyolult ´es hossz´ u elsaj´at´ıt´asi folyamat eredm´enye, melyben a nyelvi eszk¨ oz¨ ok¨ on k´ıv¨ ul sok m´as nem nyelvi intelligenciakomponens is r´eszt vesz [Fut´ o, 1999]. Ez´ert a nyelvtechnol´ogia alkalmazott ir´ anyzata nem azt v´ arja el, hogy a sz´am´ıt´og´ep meg´ertse a term´eszetes nyelv˝ u bemenetet, hanem mind¨ ossze azt, hogy az elv´artnak megfelel˝ o v´ alaszokat adja (racion´ alisan tudjon k¨ovetkeztetni).
1.1.1. A fogalomalkot´ as folyamata A nyelvtantanul´ o rendszer modellez´es´ehez el˝osz¨or az emberi inform´ aci´ o feldolgoz´ ast kellett tanulm´ anyozni. Az emberek vel¨ uk sz¨ uletett kognit´ıv k´epess´egeiknek k¨ osz¨ onhet˝ oen k´epesek ´erz´ekelni a k¨ornyezet¨ ukb˝ ol ´erkez˝ o jeleket, majd a fogalomalkot´ as (conceptualization) sor´an kialakul azok bels˝ o reprezent´ aci´ oja (´ uj inform´ aci´o + kor´abbi ismeretek = tud´ as). Ha ezt a modellt egy kommunik´ aci´ os k¨ozegben helyezz¨ uk el, akkor m´eg hozz´ atessz¨ uk, hogy az ember a k¨ ornyezet´er˝ol ily m´odon alkotott ismereteit, megfigyel´eseit jelek seg´ıts´eg´evel adja tov´abb, k¨ozli m´asokkal. A jel¨ ol´es az a folyamat, amelynek sor´ an egy bonyolultabb jelens´eghez egy azzal bizonyos szempontok alapj´ an azonos´ıtott, egyszer˝ ubb jelens´eget kapcsolunk (szemi´ ozis) [Sowa, 2000]. A jelek oszt´alyoz´asi rendszere Peirce m˝ uve (1867), ´es e szerint az emberi kommunik´aci´o alapvet˝o eszk¨oze, a nyelv, szimbolikus term´eszet˝ u jelrendszer. Ak´arcsak Arisztotel´esz, Peirce is egy h´ aromsz¨ oggel (semiotic triangle) ´ırta le a k¨ornyezet objektumai valamint az azokat helyettes´ıt˝ o jelek (szimb´olumok) viszony´at, a jelek ´ertelmez´es´enek folyamat´ at [Hartshorne et al., 1958]. Peirce elm´elet´et Ogden ´es Richards [Ogden & Richards, 1923] a nyelvi szimb´olumok jelent´es´enek meghat´ aroz´ as´ ara haszn´ alta. Modellj¨ uk szerint a nyelvi szimb´ olumok ´ertelmez´ese sor´ an minden kor´ abbi tapasztalat ´es kontextus felid´ez´esre ker¨ ul, amely alapj´ an egy´ertelm˝ uv´e v´alik a hivatkozott objektum. Mivel azonban mindenki m´ as tapasztalatokkal rendelkezik ´es 3
esetleg elt´er˝ o kontextusban tal´ alkozik ugyanazzal a szimb´olummal, ´ıgy mindenki sz´ am´ ara m´ ast jelent(het) ez a jel. Egy ´ agens bels˝ o tud´ asb´ azis´ anak fel´ep¨ ul´es´et Peirce elm´elet´ere alapozva Sieber ´es Kov´ acs [Kov´ acs & Sieber, 2009] t¨obbszint˝ u szemantikai adatmodellje ´ırja le. A modell szerint a fogalomalkot´as folyamata t¨obb l´ep´esben zajlik. A szintek sz´ ama, a folyamat bonyolults´aga az ´agens kognit´ıv k´epess´egeit˝ ol f¨ ugg˝ oen v´ altozik. Az ´ertelmez´es els˝o szintje mindenk´eppen a k¨ ornyezet objektumainak ´es a k¨oz¨ott¨ uk fenn´all´o viszonyoknak direkt lek´epz´ese a bels˝ o reprezent´ aci´ ora, ami egy szemantikus h´al´o. Mivel a gyakorlati ´ agensek k¨ ornyezete id˝ oben v´altoz´o, a bels˝o tud´asb´azist is az id˝ oben dinamikusan v´ altoz´ onak t´etelezz¨ uk fel. Ebb˝ol Ogden ´es Richards elm´elete szerint az k¨ ovetkezik, hogy egy jel jelent´ese a bels˝o tud´ asb´ azis kor´ abbi ´ allapotainak f¨ uggv´enye.
1.1.2. Tud´ as´ abr´ azol´ as ´ es ontol´ ogia A nyelvtantanul´ o´ agens ismereteinek, tud´ as´anak ´abr´azol´as´ahoz sz¨ uks´eges a l´etez˝ o tud´ as´ abr´ azol´ asi eszk¨ oz¨ ok sz´ ambav´etele. Ezek k¨oz¨ ul is az MI-n bel¨ ul jelenleg legintenz´ıvebben m˝ uvelt ter¨ ulet, az ontol´ogia mint tud´ asreprezent´ aci´ os modell ´ allt a vizsg´ alat k¨oz´eppontj´aban. Az ontol´ ogia eredetileg a filoz´ ofia egyik ´ agazata, a l´etelm´elet (a l´etez˝o dolgok tudom´ anya), amely a l´etez˝ o dolgok szisztematikus sz´ambav´etel´evel foglalkozik. Egy szakter¨ ulet ontol´ ogi´ aja az adott ter¨ uletre jellemz˝o kateg´oriakat (fogalmakat, objektumokat, kifejez´eseket), illetve a k¨ozt¨ ´ uk fenn´all´o kapcsolatokat ´ırja le – jelent´es¨ ukkel egy¨ utt. Az MI-n bel¨ ul a jelenleg elfogadott meghat´aroz´as szerint egy adott t´ argyter¨ ulet vonatkoz´ as´ aban az ontol´ ogia a fogalomalkot´as explicit specifik´ aci´ oja: egy t´ argyter¨ ulet fogalmainak ´es az azok k¨oz¨ott fenn´all´o kapcsolatoknak form´ alis specifik´ aci´ oja, amelyhez ´ altal´aban term´eszetes nyelv˝ u le´ır´ as is t´ arsul [Gruber, 1993]. Egy adott t´ argyter¨ ulet ontol´ogi´aja egy olyan reprezent´ aci´ os sz´ ojegyz´ek, amely a t´ argyter¨ ulet le´ırand´o fogalmair´ ol ´es objektumair´ ol, azok tulajdons´ agair´ ol ´es kapcsolatair´ol sz´ol. Tartalmazza azok olvashat´ o form´ aban le´ırt megnevez´es´et, a nevek jelent´es´et (interpret´ aci´ oj´ at) ´es jellemz´es´et (pl. az interpret´aci´os korl´atoz´asokat) [S´ ant´ an´e-T´ oth, 2006]. Azaz minden ontol´ ogia megad egy olyan kommunik´ aci´ os sz¨ ovegk¨ ornyezetet (domain of discourse), amelyben az adott ter¨ ulet fogalmai vitathat´ ok, egy´ertelm˝ uen elemezhet˝ok [Szeredi et al., 2005]. Ez´ altal az ontol´ ogia alkalmas eszk¨ oz a sz´ am´ıt´og´eph´al´ozatokon kereszt¨ ul t¨ort´en˝ o inform´ aci´ o- ´es tud´ asmegoszt´ as ´es u ´jrafelhaszn´al´as t´amogat´as´ara. 4
Emellett az ontol´ ogia, mivel jelent´est hordoz ´es tartalmi (szemantikai) k´erd´esekkel foglalkozik, lehet˝ os´eget biztos´ıt a sz¨oveges adatok tartalomorient´ alt feldolgoz´ as´ ara is. Az ontol´ ogia le´ır´ o nyelvekr˝ ol r´eszletes jellemz´est ´es ¨osszefoglal´ast ny´ ujt [Bechhofer, 2002], [Cal´ı et al., 2005] ´es [Scriptum, 2005]. Egy ontol´ogia abr´ ´ azolhat´ o sz¨ oveges vagy grafikus form´ aban. Az ontol´ogi´at sz¨oveges form´ aban modellez˝ o nyelvek nagyobb r´esze a logikai tud´asreprezent´acios eszk¨ ´ oz¨ ok csal´ adj´ aba tartozik, de l´eteznek m´as, p´eld´aul keret-alap´ u megk¨ ozel´ıt´esek is. Grafikus ontol´ ogia modellez˝o nyelv nem l´etezik, de miut´ an a fogalmi adats´em´ ak ´es az ontol´ ogi´ ak sok hasonl´os´agot mutatnak, sz´ amos k´ıs´erletet tettek m´ ar a l´etez˝ o fogalmi modellek (f˝oleg az UML) ontol´ ogia-modellez´esben t¨ ort´en˝ o alkalmaz´as´ara [Xueming, 2007], [Jarrar et al., 2003], [Wang & Chan, 2001], [Cranefield & Purvis, 1999]. Az ismeretalap´ u rendszerekben az els˝ odleges deklarat´ıv tud´as´abr´azol´ asi m´ od a logika, b´ ar eredeti form´ aj´ aban (predik´atumkalkulus + rezol´ uci´ o) gyakorlatilag nem haszn´ alj´ ak. Ez a nyelv kell˝oen rugalmas a bonyolult ´ all´ıt´ asok form´ alis le´ır´ as´ ahoz, ´es pontos szintaxissal, j´ol defini´ alt szemantik´ aval rendelkezik. Tov´ abb´ a a nyelvhez tartoz´o bizony´ıt´o, k¨ ovetkeztet˝ o elj´ ar´ as helyes ´es teljes, azaz minden formaliz´alhat´o (´es megoldhat´ o) feladat megoldhat´ o vele, b´ ar nem hat´ekonyan. A nulladrend˝ u predik´ atumkalkulussal (vagy ´ıt´eletkalkulussal) kev´es gyakorlati probl´em´ at lehet le´ırni, ezzel szemben az els˝ orend˝ u predik´atumkalkulus nyelve j´ oval nagyobb kifejez˝ o er˝ ovel rendelkezik. Ez ut´obbit ´altal´aban ¨osszehasonl´ıt´ asi alapk´ent haszn´ alj´ ak a reprezent´ aci´ os eszk¨oz¨ok kifejez˝o erej´enek meghat´ aroz´ as´ an´ al, de a gyakorlatban a legt¨ obb probl´ema megold´as´an´al valamely nem-standard logik´ at r´eszes´ıtik el˝ onyben [Fut´o, 1999]. A logika-alap´ u ismeret´ abr´ azol´ asi nyelvek k¨oz¨ ul a le´ır´o logik´ak (Description Logics, DL) oszt´ alya [Baader et al., 2003], [Bogn´ar, 2000] a legjelent˝ osebb. Kutat´ asuk a korai szemantikus h´ al´o kutat´asokb´ol indult ki, form´ alis ´es oper´ aci´ os szemantik´ at adva azoknak. A kutat´ok az els˝orend˝ u logika egy olyan szegmens´et kerest´ek, amely el´eg magas kifejez˝o er˝ ovel rendelkezik, de (m´eg) adhat´ o hozz´ a eld¨onthet˝o ´es hat´ekony k¨ovetkeztet˝ o elj´ ar´ as. A le´ır´ o logik´ ak kifejez˝ o ereje az els˝orend˝ u logik´aval osszehasonl´ıtva csek´ely, viszont a k¨ ovetkeztet´esi feladatok sz´am´ıt´og´eppel ¨ j´ ol kezelhet˝ ok ´es polinomi´ alis idej˝ u algoritmusokkal a probl´em´ak mindig eld¨ onthet˝ ok. A le´ır´ o logika seg´ıts´eg´evel le tudjuk ´ırni egy szakter¨ ulet fogalmi rendszer´et, mert alapvet˝ o elemei a fogalmak, a szerepek ´es az egyedek. A fogalmak az egyedek valamely ¨ osszess´eg´enek k¨oz¨os saj´atoss´agait ´ırj´ ak le, ´es az egyedek halmazaik´ent ´ertelmezett un´aris predik´atumnak 5
tekinthet˝ ok. A szerepek egyedek k¨ oz¨ otti bin´ aris rel´aci´ok (tulajdons´agok, attrib´ utumok). Minden le´ır´ o logika tartalmaz olyan nyelvi szerkezeteket, amelyek seg´ıts´eg´evel u ´j fogalmakat ´es szerepeket k´epezhet¨ unk; ´es osszetett le´ır´ asok megad´ asa is lehets´eges, bele´ertve a szerepek bin´aris ¨ rel´ aci´ oira vonatkoz´ o megszor´ıt´ asokat. A le´ır´ o logik´ an alapul´ o modellek matematikai megalapozotts´aga ´es v´egrehajt´ asi hat´ekonys´ aga miatt ontol´ ogia modellez˝o nyelvnek a szabv´ anyos OWL (Web Ontology Language) [Bechhofer et al., 2004] nyelvet c´elszer˝ u v´ alasztani, ami 2004. febru´ ar ´ ota hivatalos W3C aj´anl´as, ´es amelyet az RDF s´ema nyelv [Brickely & Guha, 2004] kib˝ov´ıt´esek´ent dolgoztak ki. Egy OWL le´ır´ as nem m´ as, mint j´ ol-defini´alt jelent´essel b´ır´o XML elemek ´es attrib´ utumok halmaza, amelyek felhaszn´al´as´aval termeket, rel´ aci´ oikat ´es azok kapcsolatait ´ırhatjuk le. Az OWL nyelv fontos tulajdons´ aga, hogy ny´ılt vil´ agszeml´eletet alkalmaz ´es nem ´el azzal a feltev´essel, hogy a k¨ ul¨ onb¨ oz˝ o sz´ oalakok k¨ ul¨ onb¨ oz˝ o fogalmakat, egyedeket jel¨ olnek. Legf˝ obb hi´ anyoss´ aga, hogy v´ altoz´ okat nem lehet haszn´alni benne, emiatt kisebb a kifejez˝ o ereje, mint egy olyan nyelvnek, amely megenged els˝ orend˝ u logikai formul´ akat a defin´ıci´ okban; tov´abb´a a kett˝on´el nagyobb arit´ as´ u rel´ aci´ ok kifejez´ese kiss´e k¨ or¨ ulm´enyes. El˝onye viszont, hogy sz´amos projektben alkalmazz´ ak ´es j´ ol alkalmazhat´o szerkeszt˝o eszk¨oz¨oket, ellen˝ orz˝ o programokat fejlesztettek ki hozz´ a. Ezeknek k¨osz¨onhet˝oen el´eg sok az ontol´ ogia-´ep´ıt´essel kapcsolatos tapasztalat. Az OWL h´ arom r´esznyelvet foglal mag´ aba, amelyek kifejez˝o er˝o szempontj´ ab´ ol elt´ernek egym´ as´ ol. Az OWL Full a teljes OWL nyelv. Itt minden, az RDF ´ altal megengedett konstrukci´o haszn´alhat´o (pl. egy oszt´ aly p´eld´ anya lehet egy m´ asik oszt´ alynak), ami esetenk´ent komoly probl´em´ akat vet fel a k¨ ovetkeztet´esn´el. Az OWL DL bizonyos megk¨ot´esekkel megszor´ıtott OWL nyelv, ami a le´ır´ o logik´akon alapszik. Ez a nyelv biztos´ıt egyidej˝ uleg el´eg magas kifejez˝ o er˝ot, valamint eld¨onthet˝o ´es hat´ekony k¨ ovetkeztet˝ o elj´ ar´ ast. Az OWL Lite bizonyos OWL konstrukci´ okat nem enged meg, kifejez˝ o ereje nem sokkal haladja meg az RDF s´em´ a´et. A klasszikus grafikus tud´ asreprezent´ aci´ os modelleket [Kremer, 1998] t´ argyalja r´eszletesen. K¨ oz¨ ul¨ uk a szemantikai adatmodellek [Kov´acs, 2004], a szemantikus h´ al´ ok [Quillian, 1968], azon bel¨ ul is [Klyne & Carroll, 2004] az RDF modell ´es a fogalmi gr´ afok (Conceptual Graph, CG) [Sowa, 1976], [Sowa, 1991], valamint a keret-alap´ u modell [Minsky, 1975] feladat-specifikus vizsg´ alata val´ osult meg. A szemantikai adatmodellekn´el az egyedt´ıpusok ´es az egyedel˝ ofordul´ asok ´eles elv´ alaszt´ asa, elt´er˝o kezel´ese, tov´abb´a 6
a kapcsolatok nem egy´ertelm˝ u´ abr´ azol´ asa kifog´asolhat´o. Ezek a modellek nem predik´ atum-k¨ ozpont´ uak ´es a fogalomalkot´as k¨ ul¨onb¨oz˝o szintjeit nem lehet vel¨ uk modellezni. A keret-alap´ u modell el˝onye, hogy term´eszetes m´ odon tudja kezelni a megk¨ ot´eseket, viszont a fogalmak k¨oz¨otti kapcsolatok ´ abr´ azol´ asa itt sem egy´ertelm˝ u. R´ aad´ asul a logik´an alapul´o OWL sz¨ oveges le´ır´ ashoz a szemantikus h´ al´ o grafikus reprezent´aci´o megfelel˝obb v´ alaszt´ as lenne. Azonban az RDF szemantikai gr´afban nincs k¨ ul¨onbs´eg az ´ all´ıt´ asok predik´ atum ´es nem-predik´ atum fogalmainak ´abr´azol´asa k¨oz¨ ott. A vizsg´ alat szempontj´ ab´ ol a fogalmi gr´afok legnagyobb h´atr´anya az er˝ os nyelvi k¨ ot˝ od´es. Igaz ugyan, hogy a CG modell predik´atumk¨ ozpont´ u, de a predik´ atum nyelvi megfogalmaz´as´at´ol f¨ ugg˝oen azonos szemantikai tartalm´ u ´ all´ıt´ asokhoz elt´er˝ o fogalmi gr´af ´abr´azol´as tartozhat. A r´eszletes elemz´es ´es ¨ osszehasonl´ıt´ as a [3], [4], [5] publik´aci´okban olvashat´ o. ´ Ujszer˝ u megk¨ ozel´ıt´es Ilieva univerz´ alis grafikus jel¨ol´esrendszere, amely egys´eges keretben k´epes ´ abr´ azolni a term´eszetes nyelv˝ u ´all´ıt´asokat ´es az azokban megfogalmazott szakter¨ ulet-specifikus tud´ast [Ilieva, 2007]. Az abr´ ´ azol´ as el˝ ok´esz´ıt˝ o l´ep´esek´ent a mondatokat m´ely szintaktikai elemz´esnek vetik al´ a, majd a kinyert szintaktikai ´es szemantikai inform´aci´okat t´ abl´ azatos form´ aban t´ arolj´ ak. A grafikus nyelv f˝o ´ep´ıt˝oelemei a fogalmak (a mondat f˝ onevei), amelyeket ellipszissel ´abr´azolnak, valamint a k¨ oz¨ ott¨ uk fenn´ all´ o kapcsolatok (predikat´ıv, prepoz´ıci´os, ok-okozati, felt´eteles stb.), amelyeket ir´ any´ıtott, c´ımk´ezett ´elek reprezent´alnak. Az ´ıgy fel´ep¨ ul˝ o gr´ af egy speci´ alis szemantikus h´ al´o. A gyakorlatban a term´eszetes nyelven megadott felhaszn´ al´ oi k¨ ovetelm´enyek UML-re (vagy m´ as, a szoftverfejleszt´esben alkalmazott diagrammra) t¨ort´en˝o automatikus ´ atford´ıt´ as´ ara haszn´ alj´ ak k¨ oztes nyelvk´ent. A disszert´aci´oban t´argyalt nyelvtantanul´ o ´ agens tud´ asb´ azis´ anak grafikus ´abr´azol´as´an´al nem alkalmazhat´ o, mert a term´eszetes nyelv szintaktikai elemz´es´ere ´ep¨ ul. Tov´ abbi h´ atr´ anya, hogy a predik´ atumot nem fogalomk´ent kezeli, hanem kapcsolat-t´ıpusk´ent.
1.1.3. Annot´ al´ asi technik´ ak a nyelvtantanul´ asban A nyelvtan defin´ıci´ o szerint az a szab´ alyrendszer, amely le´ırja, hogy hogyan j¨ onnek l´etre a nagyobb nyelvi egys´egek az alacsonyabb szint˝ u form´ alis elemekb˝ ol. A nyelvtantanul´ as teh´ at egyfajta szab´alytanul´as, az indukt´ıv g´epi tanul´ as egy speci´ alis esete. Egy nyelvtantanul´o ´agens a 7
k¨ ornyezet´et k´epez˝ o adatokb´ ol k´epes megtanulni az adatok nyelv´et el˝o´all´ıt´ o form´ alis nyelvtant produkci´ os szab´ alyok form´aj´aban [Bach, 2004]. A feladat neh´ezs´eg´et bizony´ıtja, hogy Gold [Gold, 1967] szerint a Chomskyhierarchi´ aban [Chomsky, 1956] szerepl˝ o nyelvtanok k¨oz¨ ul egyik sem tanulhat´ o puszt´ an pozit´ıv mint´ ak alapj´ an. Az egyik megk¨ozel´ıt´es a probl´ema megold´ as´ ara a tan´ıt´ ominta b˝ ov´ıt´ese negat´ıv p´eld´akkal, illetve szerkezeti inform´ aci´ okkal. Ez ut´ obbi a mintaadatok annot´al´as´at jelenti (k´ezi vagy automatikus technik´ aval), ´es az ilyen (c´ımk´ezett) adatokb´ol tanul´ o m´ odszereket fel¨ ugyelt tanul´ asi m´ odszereknek nevezz¨ uk, amelyekr˝ ol [McEnery et al., 2005] ny´ ujt ´ attekint´est. Ezek a m´odszerek hat´ekonyabbak ´es pontosabb eredm´enyt szolg´ altatnak, mint a nem-fel¨ ugyelt tanul´ asi m´ odszerek, amelyek annot´ aci´ o n´elk¨ uli adatokb´ol tanulnak. Ennek ellen´ere a nem-fel¨ ugyelt tanul´ asi m´ odszereket is intenz´ıven kutatj´ak [Clark, 2001], [Roberts & Atwell, 2002], mert az annot´alt adatok el˝o´all´ıt´ asa id˝ o- ´es er˝ oforr´ asig´enyes, ´es ennek k¨ ovetkezt´eben hozz´af´erhet˝os´eg¨ uk korl´ atozott. A nem-fel¨ ugyelt tanul´ asi m´ odszerek ¨osszefoglal´asa az [1], [2] publik´ aci´ okban olvashat´ o, egy konkr´et megval´os´ıt´ast pedig [11] dokument´ al. A gyakorlatban szintaktikai ´es szemantikai annot´aci´os s´em´akat k¨ ul¨onb¨ oztet¨ unk meg. A szintaktikai (nyelvtani) annot´al´as k´etf´elek´eppen val´ osulhat meg [Atwell et al., 2000]: vagy megadjuk minden sz´ohoz, hogy milyen mondatr´esz szerep´et t¨ olti be (Part-Of-Speech tagging); vagy minden sz´ o eset´en meghat´ arozzuk a f˝ oig´et˝ ol val´ o f¨ ugg´es´et (dependency-based tagging). A szemantikai k´ odol´ as megval´ os´ıt´ as´ ara a szakirodalom szint´en k´etf´ele m´ odszert eml´ıt [Reeve & Han, 2005]. Egyr´eszt minden sz´ohoz hozz´ arendelhet˝ o a mondatban bet¨ olt¨ ott szemantikai szerepe, m´asr´eszt a szavakhoz megadhatjuk azt az u ´tvonalat, amely le´ırja, hogy egy r¨ogz´ıtett (rendszerint szakter¨ ulet-specifikus) ontol´ogi´aban hol helyezkedik el. Ez ut´ obbi, ontol´ ogia-alap´ u szemantikai annot´al´as csak n´eh´any ´eve ker¨ ult a kutat´ ok ´erdekl˝ od´es´enek k¨ oz´eppontj´ aba, a szemantikus web koncepci´ oj´ anak [Berners-Lee et al., 2001] megsz¨ ulet´es´evel p´arhuzamosan. A kit˝ uz¨ ott c´el a weben el´erhet˝ o sz¨ ovegek ´es multim´edi´as adatok sz´o-alap´ u fogalmi annot´ aci´ oj´ anak automatiz´ al´ asa. Ontol´ ogi´ aval annot´ alt pozit´ıv mint´ ab´ ol megszor´ıt´as-alap´ u nyelvtant tanul Muresan rendszere [Muresan, 2006], ahol a szakter¨ ulet-specifikus ontol´ ogia a szavakat ´es jelent´es¨ uket keret-alap´ u rendszerben t´arolja. A disszert´ aci´ oban t´ argyalt megk¨ ozel´ıt´esben a szemantikai annot´al´as ontol´ ogia-alap´ u, de ´ all´ıt´ as-szint˝ u, azaz minden ´all´ıt´ashoz k¨ ul¨on ontol´ogia (fogalmi h´ al´ o) tartozik. 8
1.2. A kutat´ as c´ elja Az ´ertekez´es az ontol´ ogia egy u ´jszer˝ u alkalmaz´asi lehet˝os´eg´et t´argyalja. Az 1.1. ´ abr´ an v´ azolt nyelvtantanul´ o´ agens tud´asb´azis´anak ´abr´azol´ as´ ara, valamint a tan´ıt´ omint´ ak mondatszint˝ u szemantikai annot´al´as´ara szolg´ al. Szemantikai Szemantikai jelek jelek
Mintafelismerés
Belső Belső szemantikai szemantikai reprezentáció reprezentáció
Asszociáció Általánosítás
Tudásbázis Tudásbázis Tudásbázis Tudásbázis Tudásbázis Tudásbázis
Hozzárendelés
Szimbolikus Szimbolikusleírás leírás Lokális Lokális nyelvtan nyelvtan
Nyelvtantanuló ágens
Nyelvtan Nyelvtan Nyelvtan Nyelvtan Nyelvtan Nyelvtan
1.1. ´ abra: A nyelvtantanul´ o rendszer modellje
Az ´ agens az al´ abbi el˝ ore r¨ ogz´ıtett k´epess´egekkel rendelkezik: – mintafelismer´ es, azaz az ´ agens k´epes ´erz´ekelni ´es felismerni a k¨ ornyezet´eben l´ev˝ o objektumokat ´es azok viszony´at; – asszoci´ aci´ o, azaz az ´ agens be tudja ´ep´ıteni az u ´j inform´aci´okat a tud´ asb´ azis´ aba; – ´ altal´ anos´ıt´ as, azaz az ´ agens a megszerzett ´es elt´arolt ismeretei alapj´ an k´epes absztrakt – vagyis u ´j, ¨ osszetett – fogalmakat alkotni. Ezen feladatok megval´ os´ıt´ asa ´erdek´eben az ´agens olyan szemantika alap´ u tud´ as´ abr´ azol´ asi modellt ig´enyel, amire az al´abbiak jellemz˝ok: – – – –
f˝ o ´ep´ıt˝ oelemei a fogalmak ´es a k¨ oz¨ ott¨ uk fenn´all´o kapcsolatok, predik´ atum-k¨ ozpont´ u, ahol a predik´ atum egy fogalomt´ıpus, sz˝ uk, r¨ ogz´ıtett elemk´eszlettel rendelkezik, k¨ ul¨ onbs´eget tesz az adott ´es a tanult (´ altal´anos´ıtott) fogalmak k¨oz¨ ott, – k´epes ´ abr´ azolni a fogalomalkot´ as t¨ obbszint˝ u folyamat´at, – rugalmas ´es b˝ ov´ıthet˝ o.
A vizsg´ alt l´etez˝ o grafikus tud´ as´ abr´ azol´ asi technik´ak egyike sem teljes´ıti marad´ektalanul a fenti k¨ ovetelm´enyeket. Ez´ert a disszert´aci´o els˝ odleges feladata a deklar´ alt k¨ ovetelm´enyeket kiel´eg´ıt˝o u ´j szemantikai 9
modell kidolgoz´ asa ´es kifejez˝ o erej´enek sz´elesk¨or˝ u vizsg´alata. M´asodik feladata egy megfelel˝ o nyelvtani formalizmus kialak´ıt´asa, amely egys´eges m´ odon ´ abr´ azolja a szimbolikus nyelvi mondatokat ´es a hozz´ajuk tartoz´ o szemantikai le´ır´ ast (annot´ aci´ ot). Harmadik feladata a fogalomalkot´as folyamat´ anak modellez´ese a megalkotott u ´j szemantikai modell seg´ıts´eg´evel. V´egezet¨ ul implement´ alni kellett egy mintarendszert, amelyen bemutathat´ o az elm´eleti eredm´enyek gyakorlati alkalmazhat´os´aga.
´ tudoma ´ nyos eredme ´nyek 2. Uj 2.1. Az ECG szemantikai modell Kidolgoztam a k´etszint˝ u fogalomh´ al´ o (Extended Conceptual Graph, ECG) szemantikai modellt [8], amely rendelkezik egy alkalmasan kiterjesztett magasabb-rend˝ u predik´ atum logikai le´ır´asm´oddal (ECG-HOPL) ´es egy ezzel ekvivalens grafikus le´ır´ asm´ oddal (ECG Diagram). Igazoltam, hogy a modell teljes´ıti a vizsg´ alt nyelvtantanul´o ´agens megval´os´ıt´as´ahoz sz¨ uks´eges tud´ as´ abr´ azol´ asi m´ odszerrel szemben t´amasztott k¨ovetelm´enyeket, azaz a modell – predik´ atum-k¨ ozpont´ u; – f˝ o ´ep´ıt˝ oelemei a fogalmak, a k¨ oz¨ ott¨ uk fenn´all´o kapcsolatok, ´es a modell struktur´ al´ as´ at lehet˝ ov´e tev˝ o kont´enerelemek; – a modell eszk¨ ozk´eszlete r¨ ogz´ıtett: h´et fogalomt´ıpusb´ol ´es n´egy kapcsolatt´ıpusb´ ol ´ep´ıtkezik; – k´et szintet k¨ ul¨ onb¨ oztet meg: az objektum szinten t¨ort´enik a k¨ornyezet objektumainak k¨ ozvetlen statikus lek´epz´ese, m´ıg az absztrakt szinten az objektum-szint˝ u fogalmak ´es kapcsolatok ´altal´anos´ıt´ asa val´ osul meg; – elt´er˝ oen ´ abr´ azolja az objektum- ´es az absztrakt-szint˝ u fogalmakat ´es kapcsolatokat; – a modell modul´ arisan ´ep´ıtkez˝ o rendszer, ez´ert v´egtelen sok ´all´ıt´as konstru´ alhat´ o a r¨ ogz´ıtett, sz˝ uk elemk´eszletb˝ol. Mivel az ECG modell f˝ o ´ep´ıt˝ oelemei a fogalmak ´es a k¨oz¨ott¨ uk l´ev˝o kapcsolatok, ez´ert ontol´ ogia le´ır´ o nyelvnek tekinthet˝o. Ebb˝ol k¨ovetkezik, hogy a modell grafikus eszk¨ ozk´eszlete alkalmas ontol´ogi´ak grafikus megjelen´ıt´es´ere. Ennek igazol´ as´ ara kidolgoztam egy O(n2 ) m˝ uveletig´eny˝ u 10
algoritmust, amely elv´egzi az ECG Diagram gr´af el˝o´all´ıt´as´at OWL sz¨oveges ontol´ ogia le´ır´ asb´ ol (ahol n a megjelen´ıtend˝o OWL elemek sz´ama). Elv´egeztem a modell term´eszetes nyelvi kifejez˝o erej´enek vizsg´alat´at [10]. Mivel a vizsg´ alt nyelvtantanul´ o ´ agens nyelvi kifejez˝ok´epess´ege a megfigyel´eseire korl´ atoz´ odik, ez´ert csak olyan nyelvi jelens´egek ker¨ ultek megvizsg´ al´ asra, amelyekkel igaz logikai ´ert´ek˝ u, egy´ertelm˝ uen ´ertelmezhet˝ o, t´enyszer˝ u kijelent´eseket lehet megfogalmazni. A vizsg´alat eredm´enye alapj´ an kijelenthet˝ o, hogy a kompoz´ıci´ o-˝ orz´es krit´erium´anak figyelembe v´etel´evel minden ECG-HOPL ´ all´ıt´ as egy´ertelm˝ uen lek´epezhet˝o egy vizsg´ alt term´eszetes nyelvi mondatra, ahol a lek´epz´est szemantikai ekvivalencia-oszt´ alyokra ´ertelmezz¨ uk. Szint´en teljes¨ ul, hogy amennyiben a nyelv pragmatikai szintj´et figyelmen k´ıv¨ ul hagyjuk, minden vizsg´alt term´eszetes nyelvi mondathoz konstru´ alhat´ o vele ekvivalens szemantikai tartalm´ u ECG-HOPL ´ all´ıt´ as. A vizsg´ alt ´ agens tekintet´eben ez a lek´epz´es is egy´ertelm˝ u. Ez´ert az ECG modell alkalmazhat´o mondatszint˝ u szemantikai annot´ aci´ os nyelvk´ent. Siker¨ ult bel´ atni, hogy az ECG-HOPL megadhat´o k¨ornyezetf¨ uggetlen nyelvtannal (Context Free Grammar, CFG) [9]. Ez´altal igazol´ast nyert, hogy az ECG nyelv szintaktik´ aja el´eg egyszer˝ u, ´ıgy k´esz´ıthet˝o hozz´a hat´ekony tanul´ o algoritmus, ´es k¨ ovetkez´esk´eppen az ECG-vel annot´alt term´eszetes nyelvi mint´ akb´ ol t¨ ort´en˝ o nyelvtantanul´ashoz is.
1. t´ ezis: Megalkottam a fogalomalkot´ as t¨ obbszint˝ u folyamat´ at t¨ ukr¨ oz˝ o, nyelvtantanul´ asra optimaliz´ alt ECG szemantikai modellt, amely alkalmas nyelvtantanul´ o´ agensek tud´ as´ anak ´ abr´ azol´ as´ ara, valamint az ilyen ´ agensek tan´ıt´ omint´ ainak ´ all´ıt´ as-szint˝ u szemantikai annot´ al´ as´ ara [8, 9, 10].
2.2. Az ECG be´ agyaz´ asa nyelvtan formalizmusba M´ asodik feladat a szimbolikus nyelvi ´ all´ıt´ asok ´es a szemantik´ajukat le´ır´ o ECG ontol´ ogi´ ak (annot´ aci´ ok) ¨ osszerendel´esi szab´alyainak kifejez´es´ere alkalmas nyelvtani formalizmus megalkot´asa. T¨obb ´evtizede vitatott k´erd´es, hogy a term´eszetes nyelvek milyen nyelvtani formalizmussal ´ırhat´ ok le. Napjainkban az az elfogadott elm´elet, hogy a term´eszetes nyelvek val´ osz´ın˝ uleg olyan nyelvoszt´ alyba tartoznak, ami a k¨ornyezetf¨ uggetlen (context-free) ´es k¨ ornyezetf¨ ugg˝ o (context-sensitive) nyelvoszt´alyok 11
’k¨ oz¨ ott’ helyezkedik el. A probl´ema megold´ as´ at a [6] publik´aci´o f¨ ugg˝os´egalap´ u algoritmussal oldja meg. Az ´ertekez´esben a szakirodalomban fellelhet˝ o sz´ amos javasolt formalizmus k¨ oz¨ ul a TAG (Tree Adjoining Grammar) [Joshi & Schabes, 1997] faegyes´ıt˝ o nyelvtant vettem alapul, mert sz´ am´ıt´ asi id˝ okomplexit´ as´ at tekintve a gyakorlatban alkalmazhat´o, polinomi´ alis id˝ oben feldolgozhat´ o algoritmuson alapszik; a nyelvi jelens´egek sz´eles k¨ or´et lefedi; ´es az ECG aciklikus gr´ afok ´atalak´ıthat´ok ilyen fastrukt´ ur´ av´ a. A TAG kiterjeszt´esek´ent kialak´ıtott ECG-TAG formalizmus defin´ıci´ oja: ECG-T AG(G) = hV, E, R+ , T (S), T (I), T (A)i,
(2.1)
ahol V a csom´ opontok v´eges halmaza u ´gy hogy V = C ∪ {S}, ahol C az ECG fogalmak v´eges halmaza ´es S a start szimb´olum. E az ´elek v´eges ¯ ahol RS az ECG kapcsolatok v´eges halhalmaza u ´gy hogy E = RS ∪ E, ¯ maza ´es E a predik´ atum fogalmakhoz tartoz´ o ´elek v´eges halmaza. Az ´elek c´ımk´ezettek, ahol az ´elc´ımk´ek v´eges halmaza R+ = R ∪ {predicate}, ahol R a szemantikai szerepek v´eges halmaza. T (S) az egyelem˝ u start-fa halmaz, T (I) az alapf´ ak (initial trees) v´eges halmaza, ´es T (A) a b˝ov´ıtm´enyf´ ak (auxiliary trees) v´eges halmaza. A f´ak egyes´ıt´ese a TAG formalizmusban alkalmazott behelyettes´ıt´es (substitution) ´es kiterjeszt´es (adjunction) m˝ uveletekkel val´ osul meg. 2. t´ ezis: A TAG kiterjeszt´esek´ent megalkottam az ´elc´ımk´ezett lexik´ alis f´ akb´ ol fel´ep¨ ul˝ o ECG-TAG formalizmust, ahol az ´elc´ımk´ek szemantikai f¨ ugg˝ os´egi viszonyt fejeznek ki. Bel´ attam, hogy az ECG Diagram gr´ afok lek´epz´ese ECG-TAG formalizmusra vesztes´egmentes ´ atalak´ıt´ as, ´es ennek v´egrehajt´ as´ ara kidolgoztam egy O(n2 ) m˝ uveletig´eny˝ u algoritmust, ahol n az ECG gr´ af elemeinek (csom´ opontjainak ´es ´eleinek) a sz´ ama [7]. Az ECG-TAG formalizmus az ´ all´ıt´ asok szemantikai szintj´et ´abr´azolja, nem foglalja mag´ aba a szimbolikus nyelvi szint megjelen´ıt´es´et. Ehhez az ECG-TAG formalizmust ki kellett b˝ ov´ıteni egy szintaktikai szinttel. Az ilym´ odon kiterjesztett formalizmus az S-ECG-TAG elnevez´est kapta. Ezen a szinten val´ osul meg a szimbolikus nyelvi egys´egek (¨osszef¨ ugg˝ o sz´ oszerkezetek) hozz´ arendel´ese a szemantikai-szint˝ u fogalmakhoz (csom´ opontokhoz). Ez a hozz´ arendel´es egy nem k¨olcs¨on¨osen egy´ertelm˝ u f¨ uggv´eny, azaz minden szimbolikus nyelvi egys´egnek van pontosan egy megfelel˝ oje a szemantikai szinten, de nem minden fogalom jelenik 12
meg a szimbolikus szinten, illetve egy fogalomhoz t¨obb szimbolikus nyelvi egys´eg is tartozhat (nem-¨ osszef¨ ugg˝ o sz´ oszerkezetek). Az S-ECG-TAG formalizmus defin´ıci´ oja: S-ECG-T AG(G) = hV, E, R+n , T (D)i,
(2.2)
ahol V a csom´ opontok v´eges halmaza u ´gy hogy V = C ∪ {S} ∪ SN , ahol C az ECG fogalmak v´eges halmaza, S a start szimb´olum, ´es SN a szimbolikus-szint˝ u csom´ opontok v´eges halmaza. E az ´elek v´eges hal¯ ∪ E, ˜ ahol RS az ECG kapcsolatok v´emaza u ´gy hogy E = RS ∪ E ¯ ges halmaza, E a predik´ atum fogalmakhoz tartoz´o ´elek v´eges halma˜ a szimbolikus-szint˝ za, ´es E u csom´ opontokhoz tartoz´o ´elek v´eges halmaza. Az ´elek c´ımk´ezettek, ahol az ´elc´ımk´ek v´eges halmaza R+n = R ∪ {predicate} ∪ {n1 . . . nk }, ahol R a szemantikai szerepek v´eges halmaza, ´es a szimbolikus-szint˝ u csom´ opontokat szemantikai-szint˝ u csom´opontokhoz k¨ ot˝ o ´elek a szimbolikus nyelvi egys´egek sorrendis´eg´et le´ır´o megel˝ oz´esi rel´ aci´ ot fejeznek ki. T (D) pedig az egyelem˝ u lesz´armaztat´asifa (derivation tree) halmaz. 3. t´ ezis: Az ECG-TAG szimbolikus szinttel val´ o kiterjeszt´es´evel megalkottam az S-ECG-TAG formalizmust, amely alkalmas a szimbolikus nyelvi ´ all´ıt´ asok ´es a szemantik´ ajukat le´ır´ o ECG ontol´ ogi´ ak egy¨ uttes ´ abr´ azol´ as´ ara, valamint a hozz´ arendel´esi szab´ alyok tanul´ as´ anak t´ amogat´ as´ ara. A formalizmusban az ¨ osszef¨ ugg˝ o sz´ oszerkezetek sorrendje lok´ alisan van t´ arolva a szimbolikus-szint˝ u csom´ opontokhoz tartoz´ o ´elek c´ımk´ej´eben, ´es a nem-¨ osszef¨ ugg˝ o sz´ oszerkezetek ´ abr´ azol´ asa a szimbolikus szinten testv´ercsom´ opontokkal val´ osul meg. Kidolgoztam a szimbolikus nyelvi egys´egek szemantikai-szint˝ u csom´ opontokhoz t¨ ort´en˝ o hozz´ arendel´es´enek statisztikaalap´ u tanul´ o algoritmus´ at, amelynek m˝ uveletig´enye a tan´ıt´ ominta halmaz rendelkez´esre ´ all´ as´ at ´es kiv´ alaszt´ as´ at k¨ ovet˝ oen a szimbolikus nyelvi mondat hossz´ anak line´ aris f¨ uggv´enye.
2.3. A fogalomalkot´ as folyamat´ anak modellez´ ese ECG gr´ afokon A fogalomalkot´ as a g´epi tanul´ as eset´en az a folyamat, mely sor´an az ´ agens a megfigyel´esei k¨ oz¨ otti szab´ alyszer˝ us´egek felt´ar´asa r´ev´en megtanulja besorolni azokat ´ altal´ anos kateg´ ori´ akba (oszt´alyokba). A folyamat sz´ am´ıt´ og´eppel t¨ ort´en˝ o kezelhet˝ os´ege ´erdek´eben az absztrakci´o ´es 13
az ´ altal´ anos´ıt´ as m˝ uveleteinek alkalmaz´ asa elengedhetetlen¨ ul sz¨ uks´eges. Peirce [Hartshorne et al., 1958] megk¨ ozel´ıt´es´et alapulv´eve, a disszert´aci´ oban t´ argyalt ´ertelmez´esben a fogalomalkot´as sor´an a vizsg´alt nyelvtantanul´ o ´ agens a tud´ asb´ azis´ aba be´ep´ıti (asszoci´ aci´ o ) ´es ´altal´anos´ıtja (´ altal´ anos´ıt´ as) megfigyel´eseit. Miut´ an az a´gens megfigyel´eseit ontol´ ogi´ ak ´ırj´ak le ´es tud´asb´azis´at ECG gr´ afokkal ´ abr´ azoljuk, az asszoci´ aci´ o az ECG gr´afok illeszt´es´et (graph matching) foglalja mag´ aba. Az ECG gr´ afok illeszt´ese pedig az elemek illeszt´es´et, ¨ osszehasonl´ıt´ as´ at jelenti az elemek kateg´oria-t´ıpusa alapj´an fel´ep´ıtett fogalomh´ al´ o felhaszn´ al´ as´ aval. Az ´ertekez´esben az ECG fogalmak ´ altal´ anos´ıt´as´an azt a folyamatot ´ertj¨ uk, mely sor´ an ismert fogalmak k¨ oz¨ os elemeinek kiemel´es´evel u ´j, osszetett fogalmak j¨ onnek l´etre, melyek ´ abr´ azol´as´ahoz az ECG modell ¨ k¨ ul¨ on elemeket defini´ al. Egy adott t´emater¨ ulet u ´j (tanult) fogalmainak el˝ o´ all´ıt´ as´ at ´es fogalomh´ al´ oba szervez´es´et pedig absztrakci´onak nevezz¨ uk. Az ´ altal´ anos´ıt´ as algoritmusa az asszoci´ aci´o m˝ uvelet´en bel¨ ul val´osul meg. Ennek sor´ an hasonl´ o r´eszgr´ afokat kell keresni, amelyek csak egy, kateg´ oria-t´ıpusuk alapj´ an szemantikailag ¨ osszehasonl´ıthat´o csom´opontban t´ernek el egym´ ast´ ol. Ehhez be kellett vezetni az ECG gr´afok metszet´enek (∩) ´es a metszet kiterjeszt´es´enek (∩∗ ) m˝ uvelet´et. Az elt´er˝o csom´ opontok helyett bevezet´esre ker¨ ul egy u ´j fogalom, ami az absztrakci´ o sor´ an az elemek egyed-t´ıpusa alapj´ an fel´ep´ıtett fogalomh´al´oban az elt´er˝ o elemek legkisebb k¨ oz¨ os ´ altal´ anos´ıt´ asa. Ez al´a ¨osszevonhat´ok a hasonl´ o r´eszgr´ afok k¨ oz¨ os elemei, az elt´er˝ o csom´opontok pedig hozz´ak¨othet˝ ok specializ´ aci´ os kapcsolattal. 4. t´ ezis: A vizsg´ alt tanul´ o ´ agens tud´ asb´ azis´ anak fel´ep¨ ul´es´et le´ır´ o fogalomalkot´ asi folyamat modellez´es´ere kidolgoztam egy m´ odszert, amely az asszoci´ aci´ o ´es az ´ altal´ anos´ıt´ as algoritmusain alapszik. Ennek sor´ an az ´ agens megfigyel´eseit kifejez˝ o ECG gr´ afok az asszoci´ aci´ o algoritmusa szerint inkrement´ alisan beilleszt´esre ker¨ ulnek egy kezdetben u af halmazba. ¨res ECG gr´ Az elj´ ar´ as alapja egy hibrid, kontextus-f¨ ugg˝ o ECG gr´ af illeszt´esi algoritmus. A beilleszt´es sor´ an az ´ altal´ anos´ıt´ as algoritmus´ at alkalmazva a felt´ art hasonl´ o r´eszgr´ afok elt´er˝ o csom´ opontjai helyett u ´j, ¨ osszetett fogalmak (csom´ opontok) ker¨ ulnek bevezet´esre. A folyamat v´eg´en kialakul´ o ECG gr´ af ´ırja le a vizsg´ alt tanul´ o´ agens megfigyel´eseib˝ ol kinyert ´ altal´ anos´ıtott ’tud´ as´ at’ [13].
14
A 4. t´ ezis k¨ ovetkezm´ enyei: 1. Az els˝ odleges-szint˝ u ECG gr´ afokb´ ol valamint az asszoci´aci´o ´es ´altal´ anos´ıt´ as v´egrehajt´ asi l´ep´esei ut´ an kialakul´o ¨osszevont gr´afokb´ol h´ al´ o ´ep´ıthet˝ o. Az ´ agens ’tud´ as´ at’ a h´ al´o legfels˝o eleme reprezent´ alja. ´ 2. Ugyszint´ en h´ al´ o ´ep´ıthet˝ o az els˝ odleges-szint˝ u ECG gr´afokb´ol ´es a rajtuk ´ertelmezett metszet m˝ uvelet´enek rekurz´ıv v´egrehajt´asa sor´ an kapott r´eszgr´ afokb´ ol, ahol a h´ al´ o elemei k¨oz¨ott ⊆ rel´aci´o all fenn. A h´ ´ al´ o als´ o szintj´en elhelyezked˝o elemek az egyedi ECG gr´ afok, m´ıg a fels˝ o szintj´en l´ev˝ o elemek a gyakori (´altal´anos) r´eszgr´ afok.
´leti eredme ´nyek alkalmaza ´ sa 3. Az elme Az elm´eleti eredm´enyek alkalmazhat´ os´ ag´ anak bemutat´as´ara elk´esz¨ ult egy Java-ban implement´ alt mintarendszer [12], ami az al´abbi funkci´okat val´ os´ıtja meg: – grafikus fel¨ uletet biztos´ıt egy el˝ ore r¨ ogz´ıtett elemekb˝ol ´all´o mikrovil´ ag l´etrehoz´ as´ ahoz (a mikrovil´ ag egyedei s´ıkidomok, amelyeket alakjuk, m´eret¨ uk ´es sz´ın¨ uk jellemez), – a mikrovil´ agra vonatkoz´ o´ all´ıt´ asokhoz (amik a mikrovil´ag egyedei k¨ oz¨ ott ´ertelmezhet˝ o geometriai ´es m´eretviszony rel´aci´okra vonatkoznak) megadhat´ o azok szimbolikus nyelvi megfogalmaz´asa, – a program OWL le´ır´ ast gener´ al minden ´all´ıt´ashoz, amely tartalmazza a szitu´ aci´ o szemantikai ´es szintaktikai le´ır´as´at, – az OWL le´ır´ asb´ ol el˝ o´ all´ıtja annak ECG modell szerinti logikai ´es grafikus megjelen´ıt´es´et. Az ilym´ odon l´etrej¨ ov˝ o ECG gr´ afokkal szemantikailag annot´alt mikrovil´ agra vonatkoz´ o ´ all´ıt´ asok alaphalmaz´ an ker¨ ul modellez´esre a fogalomalkot´ as (asszoci´ aci´ o ´es ´ altal´ anos´ıt´ as) folyamata. Ehhez el˝o kellett all´ıtani a mikrovil´ ´ agra jellemz˝ o, az elemek egyed-t´ıpusa alapj´an fel´ep¨ ul˝o fogalomh´ al´ ot. Az ECG modellben az ´ altal´ anos´ıt´as t¨obb szinten ´ertelmezhet˝ o: • az els˝ o szinten felt´ arhat´ ok a fogaloms´em´ak a k¨oz¨os jellemz˝ok alapj´ an; 15
• a m´ asodik szinten megtanulhat´ o az objektumok helyettes´ıthet˝os´ege a predik´ atumhoz k¨ ot˝ od˝ o szerepk¨ or¨ ok alapj´an; • a harmadik szinten felt´ arhat´ ok a predik´ atums´em´ak. Jelen kutat´ as keretein bel¨ ul azonban csak az 5. t´ezisben megfogalmazott ´ertelmez´es ´es elj´ ar´ as ker¨ ul bemutat´ asra, mert a l´etrehozott mikrovil´ agban az ´ altal´ anos´ıt´ as csak az els˝ o szinten domin´ans. A r¨ogz´ıtett elemk´eszlet a m´ asik k´et szint szeml´eltet´es´ere nem alkalmas.
´ bbi kutata ´ si feladatok 4. Tova A kidolgozott elm´eletet c´elszer˝ u olyan p´eldahalmazon is kipr´ob´alni, ´ ahol az ´ altal´ anos´ıt´ as mindh´ arom szintje szimul´alhat´o. Ugyszint´ en fontos feladat az ´ altal´ anos´ıt´ as inverz´enek, a specializ´ aci´o m˝ uvelet´enek a modellez´ese. Mivel a kutat´ as t´ avlati c´elja igazolni, hogy a nyelvtantanul´as hat´ekonyan megval´ os´ıthat´ o ontol´ ogi´ aval annot´ alt pozit´ıv mint´ab´ol. Ehhez implement´ alni kell az ´ abr´ an l´ athat´ o statisztikai m´odszereket alkalmaz´ o nyelvtantanul´ o´ agenst. Ezt k¨ ovet˝ oen k´ıs´erletez´esre, ¨osszehasonl´ıt´asra sz´ amtalan lehet˝ os´eg ny´ılik a szimbolikus nyelv, valamint a form´alis nyelvtan megv´ alaszt´ as´ anak f¨ uggv´eny´eben. A javasolt m´ odszertan a g´epi ford´ıt´ as t´ amogat´as´ara is alkalmas. Ehhez implement´ alni kell egy a nyelvtantanul´ o´ agenssel kommunik´al´o mondatgener´ al´ o´ agenst, amely k´epes szimbolikus nyelvi le´ır´o mondatot t´ars´ıtani egy ontol´ ogia modellhez. Amennyiben a c´elnyelv nyelvtana m´ar rendelkez´esre ´ all, a forr´ asnyelven megfogalmazott ´es ontol´ogi´aval annot´ alt ´ all´ıt´ asokhoz a rendszer el˝ o tudja ´ all´ıtani a c´elnyelvi le´ır´ast a nyelvtan felhaszn´ al´ as´ aval abb´ ol kiidulva, hogy az azonos szemantikai tartalm´ u (k¨ ul¨ onb¨ oz˝ o szimbolikus nyelv˝ u) ´ all´ıt´ asok ontol´ogia ´abr´azol´asa megegyezik. A mondatgener´ al´ o´ agenssel kib˝ ov´ıtett nyelvtantanul´o rendszer az ECG szemantikai modell term´eszetes nyelv˝ u interf´esz´enek tekinthet˝o. Amennyiben kieg´esz¨ ul tov´ abbi konvert´ al´ o modulokkal, tetsz˝oleges szemantikai modell term´eszetes nyelv˝ u interf´eszek´ent alkalmazhat´o. ´ Erdekes ´es fontos felhaszn´ al´ asi ter¨ ulet lehet, ha a kib˝ov´ıtett rendszert k´epfelismer˝ o´ agenshez illesztj¨ uk, hogy annak term´eszetes nyelv˝ u interf´eszek´ent szolg´ aljon.
16
5. Summary Ontology-based semantic annotation and knowledge representation in a grammar induction system The main motivation for the research is to develop a new general rule learning methodology that alloys statistics with semantics. With that, our aim is to improve the performance of statistical grammar induction by utilizing semantic information in the learning process. The dissertation covers the first phase in the development of this system, that is the specification and deep examination of an appropriate semantic representation optimized for grammar induction. A learning agent needs abstraction and generalization to make learning feasible and tractable in complex domains. Therefore the process of conceptualization (involving the operations of association and generalization) should also be modeled within the grammar induction system examined by means of the semantic model developed. The new scientific results can be summarized as follows. Thesis 1: [8], [9], [10] A novel semantic model is developed, called ECG, which has a logicbased ECG-HOPL and a semantically equivalent graphical ECG diagram representation. The model satisfies the requirements of the knowledge representation format in the investigated grammar induction system, and can be used as an ontology modeling language because its main building blocks are concepts and their relationships. It is predicate-centered and it defines two levels and distinct elements for describing the different phases of conceptualization. It provides high levels of functionality, flexibility and extendibility. It is computationally tractable while highly expressive, that is it covers a wide range of linguistic phenomena. Consequences of Thesis 1: 1. Since ECG can be considered as an ontology modeling language, ECG diagram can be used for visual ontology representation. The generation of ECG diagram graphs can be accomplished by an O(n2 ) algorithm, where n is the number of OWL elements to be displayed. 2. ECG can also be applied as a sentence-level semantic annotation language, because every ECG-HOPL statement can be semantically unambiguously rendered into an NL sentence examined and 17
every NL sentence under examination can be approximated by an ECG-HOPL statement. 3. ECG-HOPL can be defined with CFG, which proves that the syntax of ECG is simple enough so that a computationally effective learning algorithm can be constructed for inducing a set of grammar rules from ECG, and consequently from the sentences annotated by ECG.
Thesis 2: [7] ECG fragment diagrams are acyclic graphs, therefore they can be converted to a tree structure the root of which is the kernel predicate. The mapping is proved to be lossless and is accomplished by an O(n2 ) algorithm, where n is the number of ECG diagram elements. The new ECG-TAG grammar formalism consists of edge-labeled lexicalized tree structures, the nodes of which correspond to ECG concepts, while the edges represent ECG relationships. The formalism is TAG-based, because it uses the same tree set (with different interpretation) and the same operations for tree construction as the original TAG formalism. At the same time, it is also dependency-based in the sense that edge labels represent semantic dependency relations. Thesis 3: The next task is to represent the semantic models and their symbolic language descriptions in a common framework. The algorithm that performs the assignment of symbolic sentence units to ECG concepts results in a new grammar formalism, called S-ECG-TAG, which combines the levels of semantics and syntax. The formalism extends the ECG-TAG formalism with a symbolic level, where the nodes include word sequences, while the edges are labeled by precedence relations representing the order of word sequences in the corresponding symbolic sentence. Hence, the symbolic level encodes word order locally and discontinuous constructions are represented by sibling nodes. Consequences of Thesis 3: 1. The S-ECG-TAG formalism can be applied as a common framework for representing ECG diagrams and the corresponding symbolic sentences. 18
2. The S-ECG-TAG formalism can be applied as a formal grammar to be learnt in the grammar induction process. Thesis 4: [13] A method is developed for the execution of the conceptualization process within the learning agent examined, which involves the operations of association and generalization. According to the association algorithm, primary-level ECG diagram graphs are matched to and incorporated in an initially empty knowledge base, which is itself another (accumulated) ECG diagram graph. The matching of ECG diagram graphs is based on a hybrid context-dependent ECG diagram graph matching algorithm, and is traced back to the matching of element instances, for the examination of which an element category type lattice is defined. The generalization algorithm is implemented as part of the association process and proceeds by introducing new (not observed) higher-level concepts into the knowledge base. First, the algorithm searches for maximal similar subgraphs which differ in only one ECG diagram graph node. For their exploration the intersection operation of two ECG diagram graphs and its extension are defined. If the differing nodes are semantically comparable on the basis of the element category type lattice, a new concept is inserted from the element instance type lattice determined as the least common generalization of the differing concepts. Finally, the relationships are updated in the knowledge base. Consequences of Thesis 4: 1. The two operations of association and generalization together accomplish the process of conceptualization. At the end of the process, the generalized knowledge of the agent can be obtained as the top element of the lattice constructed from the set of primary-level ECG diagram graphs and the set of accumulated ECG diagram graphs resulting from the association and generalization steps executed. 2. Recursively performing the operation of graph intersection on the set of ECG diagram graphs and on the resulting sets of common subgraphs, a lattice can be built. The lower-level nodes of the lattice include individual (infrequent specialized) ECG diagram graphs, while at the top levels of the lattice frequent general subgraphs are located.
19
´ t publika ´ cio ´ k az e ´rtekeze ´ s te ´mak¨ ´ben Saja ore [1] Varga, E. & Kov´ acs, L. (2005). Review of Unsupervised Grammar Induction Systems. In: 5th International Conference of PhD Students, Miskolc, Hungary, pp. 201–206. [2] Varga, E. & Kov´ acs, L. (2005). Quality Measures of Language Learning Systems. In: 5th International Conference of PhD Students, Miskolc, Hungary, pp. 207–212. [3] Baksa-Varga, E. & Kov´ acs, L. (2008). A Semantic Model for Knowledge Base Representation in a Grammar Induction System. In: 1st Workshop on Computational Intelligence in Measurement, Control and Instrumentation (CIMCI 2008), Timisoara, Romania, 3, pp. 27–32. [4] Kov´ acs, L. & Baksa-Varga, E. (2008). Logical Representation and Assessment of Semantic Models for Knowledge Base Representation in a Grammar Induction System. In: 7th International Conference on Renewable Sources and Environmental Electrotechnologies (RSEE 2008), Oradea, Romania, pp. 48–53. [5] Kov´ acs, L. & Baksa-Varga, E. (2008). Logical Representation and Assessment of Semantic Models for Knowledge Base Representation in a Grammar Induction System. Journal of Computer Science and Control Systems, University of Oradea, Romania, pp. 48–53. [6] Kov´ acs, L. & Baksa-Varga, E. (2008). Dependency-Based Mapping between Symbolic Language and Extended Conceptual Graph. In: 6th International Symposium on Intelligent Systems and Informatics (SISY 2008), Subotica, Serbia, pn. 13. [7] Baks´ an´e Varga, E. & Kov´ acs, L. (2008). Ontol´ ogia-alap´ u nyelvtantanul´ o rendszer nyelvtan-modellje. A Duna´ ujv´ arosi F˝ oiskola K¨ ozlem´enyei, A Magyar Tudom´ any Hete 2008 konferenciasorozat, Informatikai konferencia (DFTH 2008), XXX/1, pp. 219–226. [8] Baksa-Varga, E. & Kov´ acs, L. (2008). Knowledge Base Representation in a Grammar Induction System with Extended Conceptual Graph. Transactions on Automatic Control and Computer Science, Scientific Bulletin of ”Politehnica” University of Timisoara, Romania, 53(67), pp. 107–114. [9] Baks´ an´e Varga, E. (2009). Magasabb rend˝ u logika a term´eszetes nyelvek szemantik´ aj´ anak reprezent´ al´ as´ an´ al. A G´epipari Tudom´ anyos Egyes¨ ulet ´ M˝ uszaki Foly´ oirata (GEP), LX. ´evfolyam, 2009/6, pp. 49–55.
20
[10] Baksa-Varga, E. & Kov´ acs, L. (2009). Semantic Representation of Natural Language with Extended Conceptual Graph. Journal of Production Systems and Information Engineering, Vol. 5, pp. 19–39. [11] Kov´ acs, L. & Baksa-Varga, E. (2010). Induction of Probabilistic ContextFree Grammar Using Frequent Sequences. Journal of Advanced Computational Technologies, in press. [12] Baks´ an´e Varga, E. (2010). Ontol´ ogia-alap´ u szemantikai annot´ al´ ast v´eg´ z˝ oa ´gens dokument´ aci´ oja. Projektjelent´es. ME Altal´ anos Informatikai Tansz´ek, Tansz´eki K¨ ozlem´enyek. http://www.iit.uni-miskolc.hu/iitweb/opencms/research/TechReports/. [13] Baksa-Varga, E. & Kov´ acs, L. (2011). Generalization and Specialization Using Extended Conceptual Graphs. In: 11th International Scientific Conference on Informatics (INFORMATICS’2011), Roˇzn ˇava, Slovakia, in press.
21
´ sok Hivatkoza [Atwell et al., 2000] Atwell, E., Demetriou, G., Hughes, J., Schiffrin, A., Souter, C., & Wilcock, S. (2000). A comparative evaluation of modern English corpus grammatical annotation schemes. ICAME Journal, 24, pp. 7–23. [Baader et al., 2003] Baader, F., Calvanese, D., McGuinness, D., Nardi, D., & Patel-Schneider, P. (2003). The Description Logic Handbook: Theory, Implementation and Applications. Cambridge University Press. [Bach, 2004] Bach, I. (2004). Form´ alis nyelvek. Budapest: Neumann Kht. [Bechhofer, 2002] Bechhofer, S. (2002). Ontology Language Standardization Efforts. Technical Report IST Project IST-2000-29243, Information Management Group, Department of Computer Science, University of Manchester, UK. [Bechhofer et al., 2004] Bechhofer, S., van Harmelen, F., Hendler, J., Horrocks, I., McGuinness, D., Patel-Schneider, P., & Stein, L. (2004). OWL Web Ontology Language Reference, W3C Recommendation. [Berners-Lee et al., 2001] Berners-Lee, T., Hendler, J., & Lassila, O. (2001). The Semantic Web. Scientific American. [Bogn´ ar, 2000] Bogn´ ar, K. (2000). Le´ır´ o logik´ ak az ismeret´ abr´ azol´ asban. Alkalmazott Matematikai Lapok, 20(2), pp. 183–193. [Brickely & Guha, 2004] Brickely, D. & Guha, R. (2004). Resource Description Framework (RDF) Schema Specification. W3C Recommendation. [Cal´ı et al., 2005] Cal´ı, A., Calvanese, D., Grau, B. C., Giacomo, G. D., Lembo, D., Lenzerini, M., Lutz, C., Milano, D., M¨ oller, R., Poggi, A., & Sattler, U. (2005). State of the art survey. Technical Report WP1 – Assessment of Fundamental Ontology Based Tasks, FP6-7603 Thinking ONtologiES (TONES) project. [Charniak, 1996] Charniak, E. (1996). Statistical Language Learning. Cambridge, MA: MIT Press. [Chomsky, 1956] Chomsky, A. (1956). Three models for the description of language. IRE Transactions on Information Theory, 2(2), pp. 113–123. [Clark, 2001] Clark, A. (2001). Unsupervised Language Acquisition: Theory and Practice. PhD thesis, COGS, University of Sussex.
22
[Cranefield & Purvis, 1999] Cranefield, S. & Purvis, M. (1999). UML as an ontology modeling language. In In Proceedings of the Workshop on Intelligent Information Integration, 16th International Joint Conference on Artificial Intelligence (IJCAI-99): pp. 46–53. [Fut´ o, 1999] Fut´ o, I., Ed. (1999). Mesters´eges Intelligencia. Aula Kiad´ o. [Gold, 1967] Gold, E. (1967). Language identification in the limit. Information Control, 10, pp. 447–474. [Gruber, 1993] Gruber, T. (1993). A translation approach to portable ontology specifications. Knowledge Acquisition, 5(2), pp. 199–220. [Hartshorne et al., 1958] Hartshorne, C., Weiss, P., & Burks, A., Eds. (1931– 1958). Collected Papers of C. S. Peirce. Cambridge, MA: Harvard University Press. [Ilieva, 2007] Ilieva, M. (2007). Graphical notation for natural language and knowledge representation. In 19th SEKE. [Jarrar et al., 2003] Jarrar, M., Demey, J., & Meersman, R. (2003). On using conceptual data modeling for ontology engineering. Journal on Data Semantics, pp. 185–207. [Joshi & Schabes, 1997] Joshi, A. & Schabes, Y. (1997). Handbook of Formal Languages, chapter Tree-Adjoining Grammars, pp. 69–123. Springer: Berlin. [Jurafsky & Martin, 2000] Jurafsky, D. & Martin, J. (2000). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. New Jersey: Prentice Hall. [Klyne & Carroll, 2004] Klyne, G. & Carroll, J. (2004). Resource Description Framework (RDF): Concepts and Abstract Syntax. W3C Recommendation. [Kov´ acs, 2004] Kov´ acs, L. (2004). Adatb´ azisok tervez´es´enek ´es kezel´es´enek m´ odszertana. Budapest: ComputerBooks. [Kov´ acs & Sieber, 2009] Kov´ acs, L. & Sieber, T. (2009). Multi-layered semantic data models. In Encyclopedia of Artificial Intelligence pp. 1130–1135. Hersey (USA): IGI Global Publisher. [Kremer, 1998] Kremer, R. (1998). Visual languages for knowledge representation. In 11th Workshop on Knowledge Acquisition, Modeling and Management (KAW’98) Banff, Alberta, Canada.
23
[Manning & Sch¨ utze, 1999] Manning, C. & Sch¨ utze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. [McEnery et al., 2005] McEnery, A., Xiao, R., & Tono, Y. (2005). CorpusBased Language Studies: An Advanced Resource Book. Routledge Applied Linguistics. Routledge. [Minsky, 1975] Minsky, M. (1975). A Framework for Representing Knowledge. In P. Winston (Ed.), The Psychology of Computer Vision. New York: McGraw-Hill. [Muresan, 2006] Muresan, S. (2006). Learning Constraint-based Grammars from Representative Examples: Theory and Applications. PhD thesis, Columbia University, NY. [Ogden & Richards, 1923] Ogden, C. & Richards, I. (1923). The Meaning of Meaning: A Study of the Influence of Language Upon Thought and of the Science of Symbolism. London: Routledge & Kegan Paul. [Quillian, 1968] Quillian, M. (1968). Semantic Information Processing, chapter Semantic Memory, pp. 216–270. MIT Press: Cambridge, MA. [Reeve & Han, 2005] Reeve, L. & Han, H. (2005). Survey of semantic annotation platforms. In 2005 ACM Symposium on Applied Computing Santa Fe, New Mexico: pp. 1634–1638. [Roberts & Atwell, 2002] Roberts, A. & Atwell, E. (2002). Unsupervised Grammar Inference Systems for Natural Language. Technical Report 2002.20, University of Leeds, School of Computing. [S´ ant´ an´e-T´ oth, 2006] S´ ant´ an´e-T´ oth, E. (2006). Ontol´ ogia – Oktat´ asi seg´edlet. [Scriptum, 2005] Scriptum (2005). Ontol´ ogia-´ep´ıt˝ o nyelvek ´ert´ekel´ese, elemz˝ o osszehasonl´ıt´ asa. Technical Report MEO projekt, Scriptum Rt. ¨ [Sowa, 1976] Sowa, J. (1976). Conceptual graphs for a database interface. IBM Journal of Research and Development, 20(4), pp. 336–357. [Sowa, 1991] Sowa, J., Ed. (1991). Principles of Semantic Networks: Explorations in the Representation of Knowledge. San Mateo, CA: Morgan Kaufmann Publishers. [Sowa, 2000] Sowa, J. (2000). Ontology, Metadata, and Semiotics. In Conceptual Structures: Logical, Linguistic, and Computational Issues, number 1867 in Lecture Notes in AI pp. 55–81. Berlin: Springer-Verlag.
24
[Szeredi et al., 2005] Szeredi, P., Luk´ acsy, G., & Benk˝ o, T. (2005). A szemantikus vil´ agh´ al´ o elm´elete ´es gyakorlata. Budapest: Typotex. [Wang & Chan, 2001] Wang, X. & Chan, C. (2001). Ontology modeling using UML. In 7th International Conference on Object Oriented Information Systems Conference (OOIS’2001: pp. 59–68. [Xueming, 2007] Xueming, L. (2007). Using UML For Conceptual Modeling: Towards An Ontological Core. PhD thesis, Memorial University of Newfoundland.
25