Stratégiai Kutatási Terv

www.hlt- platform.hu

Stratégiai Kutatási Terv

Budapest, 2009. július 15.

Vezet˝ oi összefoglaló A Nyelv- és Beszédtechnológiai Platform a szektor vezető kutatóműhelyeit és ipari partnereit tömörítő stratégiai szövetség. A Platform Stratégiai Kutatási Tervének célja az, hogy megfogalmazza a hazai nyelv- és beszédtechnológia fejlődésének irányait, e technológiák nyelvfüggő elemeinek „kötelező” hazai feladatait, rámutasson a nemzetközi kitörési lehetőségekre, és meghatározza az ezek realizálásához szükséges lépéseket. Jelen dokumentum szándékunk szerint a gazdasági, kormányzati döntéshozók, az ágazati szereplők számára jövőbetekintő stratégiaként, kutatási sarokpontokat és módszereket meghatározó iránymutatásként szolgál, amely az alábbi megállapításokat tartja kulcsfontosságúnak: ! A szektor mai gazdasági, társadalmi környezete a helyzetelemzésben felvázolt kedvezőtlen jelenségek és akadályok ellenére a hajtóerők, a motivációk tekintetében nagyon ígéretes. A magyar nyelv- és beszédtechnológia rendelkezik olyan jelentős erősségekkel, mint a szaktudás, élenjáró technológia, aktív nemzetközi kutatói kapcsolatok, amelyekre a sikeres előrelépés alapozható. ! A jövő tudásalapú gazdaságának és társadalmának nélkülözhetetlen alkotóelemei azok a technológiák, melyek hatékonyan támogatják a természetes emberi kommunikációt. Ezek kifejlesztését szolgálják a legfontosabb stratégiai célok: a kutatási infrastruktúra kialakítása, a természetes nyelven megfogalmazott információ megértésének számítógépes támogatása, az automatikus gépi megértés megvalósítása, az interdiszciplináris kutatások előtérbe helyezése. ! Nemzetközi kitörési pontokat ad a robusztus beszédfelismerési technikák fejlesztése, a nagyszótáras, folyamatos többnyelvű gépi beszédfelismerés hatásfokának javítása, az idegen nyelvű szövegek megértését támogató gépi fordításra, illetve a szöveges tartalmak elemzését végző szemantikus technológiákra irányuló fejlesztés, az emberi beszédértés, a kogníció nemzetközi szinten előrehaladott kutatásaiba történő bekapcsolódás, az eredmények alkalmazásra kész technológiába való beépítése. ! A technológiai fejlesztésekkel együtt járnak a kutatás-fejlesztés hatékonyságának és gyakorlati alkalmazásának javítását szolgáló tevékenységek: szakmai kommunikációs központ kialakítása, a szabványosítás, a kutatói utánpótlás koordinált képzése, a kutatásfinanszírozási keretek hosszú távú meghatározása. A Stratégiai Kutatási Terv törzsanyaga elsősorban a szakpolitikának, döntéshozóknak szóló összegző, iránymutató dokumentum, míg a szakmai(bb) érdeklődésű olvasó a bizonyos kérdéseket részletesen tárgyaló Jelenkép és Jövőkép mellékletekből kaphat további információt.

Tartalomjegyzék 1 Bevezetés 1.1. Nyelv- és beszédtechnológia a ságban . . . . . . . . . . . . . . 1.2. Helyzetelemzés . . . . . . . . . 1.3. Küldetésünk . . . . . . . . . . .

tudásalapú társadalomban és gazda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 Stratégiai célok 2.1. Nemzeti kutatási infrastruktúra kialakítása és szolgáltatása a nyelv- és beszédtechnológia területén . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Kutatásszervezés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Nyelvi információ kezelése, tárolása és feldolgozása . . . . . . . . . . . 2.3.1. Nyelvalapú tudásmenedzsment . . . . . . . . . . . . . . . . . . . 2.3.2. A nyelvi kulturális örökség digitális korba való átmentése . . . . . 2.4. A természetes nyelven történő kommunikáció számítógépes támogatása 2.4.1. Természetes ember-gép kommunikáció . . . . . . . . . . . . . . 2.4.2. Fogyatékkal élők és hátrányos helyzetűek információs társadalmi integrációjának elősegítése . . . . . . . . . . . . . . . . . . . . . 2.4.3. Többnyelvűség az Európai Unióban, a nyelvi korlátok leküzdése 3 A közeljövő kutatási területei 3.1. Általános módszertani alapelvek . . . . . . . . . . . . . 3.2. Infrastruktúra és erőforrások fejlesztése . . . . . . . . . 3.3. A gépi beszédfelismerés kutatási irányai . . . . . . . . . 3.4. A gépi beszédelőállítás kutatási irányai . . . . . . . . . . 3.5. A gépi fordítás és fordítástámogatás kutatási irányai . . 3.6. Az információkinyerés és -visszakeresés kutatási irányai 3.7. Integratív kutatási irányok . . . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

3 3 4 6 7 8 8 10 10 11 12 12 13 14 15 15 16 19 21 23 25 26

4 Alkalmazási területek 29 4.1. A kutatás-fejlesztési eredmények gyakorlati felhasználása . . . . . . . . 29 4.2. Alkalmazási példák . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5 Összefoglaló

33

Mellékletek

35

1 Bevezetés 1.1. Nyelv- és beszédtechnológia a tudásalapú társadalomban és gazdaságban Az emberihez közel álló technológiák teljesítményét az ember adott területen mutatkozó képességéhez szokás viszonyítani. Feltehetők tehát például az alábbi kérdések: tud-e egy robot egy tűbe cérnaszálat befűzni, tud-e egy nyelvtechnológiai eszköz gyorsírni, tud-e egy beszédfelismerőből és -előállítóból álló számítógépes dialógusrendszer egy koktélparti hangzavarában működni. A válasz a kb. 150 éve művelt robottechnikában a „majdnem”, a kb. 50 éve művelt nyelv- és beszédtechnológiában pedig az, hogy sajnos még nem. De a robotok azért igen hasznosak például az oxigénsátorban ápoltak ellátásában, a nyelv- és beszédtechnológia fejlesztései pedig például az írott szöveg, illetve rögzített hanganyag akár hatalmas halmazában az általunk meghatározott információ megtalálásában. Ezek a gondolatok arra kívánnak rámutatni, hogy az embert utánzó technológiák egyre csak közelítik — de valószínűleg a maguk teljességében soha nem érik el — az emberi teljesítőképességet, mindazonáltal egyes tulajdonságaik révén (például sterilitás a robotikában, fáradhatatlanság és gyorsaság a nyelv- és beszédtechnológiában) már akkor is hasznosak (a szó gazdasági értelmében is), amikor az emberihez hasonló tökéletességtől még elég messze állnak. És ahogy a robotika nem maradt abba 50 év után, a nyelv- és beszédtechnológiát is folytonosan fejleszteni kell, hogy egyre több területen legyen gazdaságilag is hasznos helyettesítője az emberi munkaerőnek, illetve elvégzője az ember által fel nem vállalt mennyiségű munkával járó feladatoknak. A számítógépek és egyéb infokommunikációs eszközök mindennapi életünkben játszott szerepe, s ezzel együtt a ránk zúduló információ mennyisége folyamatosan növekszik. Alapvető fontosságúak tehát azok a módszerek, melyekkel könnyebben, gyorsabban és kényelmesebben tudjuk elérni a számunkra fontos információt, és csak azt. A nyelv- és beszédtechnológia ebben tud segíteni: az informatikusok, mérnökök, pszichológusok és nyelvészek együttműködéséből kialakult kutatási terület célja, hogy olyan új technológiákat és alkalmazásokat állítson elő, melyek az emberi kommunikációt természetesen és hatékonyan szolgálják ki (ld. 4.2.). A természetes nyelven történő információáramlás és az emberi tudás számítógépes támogatása egyre nagyobb szerepet játszik nemcsak az európai gazdaságban, hanem az esélyegyenlőség és az életminőség javításában is. Ezt felismerve az Európai Unió régóta kiemelt figyelmet fordít a nyelv- és beszédtechnológiai fejlesztésekre. A kérdés prioritását egyértelműen jelzi, hogy e törekvések az európai információs társadalom előmozdítására irányuló

4

STRATÉGIAI KUTATÁSI TERV

i20101 kezdeményezés részévé váltak. Az i2010 által megjelölt három kiemelt fontosságú területen (információs tér, kutatási ráfordítás és innováció, társadalmi integráció) a nyelv- és beszédtechnológiának kulcsszerep jut: ! egy változatos és minőségi tartalmat és szolgáltatásokat, biztonságos és gyors kommunikációs lehetőségeket elérhető áron nyújtó információs társadalomban a tartalom és szolgáltatások széles körének kialakításában; ! az Európa felzárkózását biztosító infokommunikációs-technológiai kutatások terén a kutatást és az innovációt érintő európai szintű befektetések hatékony felhasználásában, az innováció előrevitelében; ! valamennyi polgár életminőségének javításához szükséges közszolgáltatások mindenki számára hozzáférhetővé tételében. Nyelv- és beszédtechnológia által támogatott tartalom és szolgáltatások nélkül az információs társadalom életképtelen, e technológiák nélkül Európa kulturális öröksége a digitális kor számára elveszhet. Ehhez a kontextushoz, a megfogalmazott prioritásokhoz és irányelvekhez Magyarországnak is igazodnia kell. Az infokommunikációs technológiák új minőségi szintre emelése csak akkor lehetséges, ha áttörést érünk el a jelenleg mutatkozó nyelvi korlátok leküzdésében. A magyar nyelv- és beszédtechnológia ebből a szempontból igen speciális helyzetben van. Ugyan a nemzetközi kutatás-fejlesztés jelentős eredményeit tekintve világos, hogy sok más nyelvhez hasonlóan bizonyos mértékig követi a vezető angolközpontú technológiákat, de a magyar nyelv radikálisan egyedi jellege új módszerek kidolgozását követeli meg, melyek nemzetközi szinten is érdeklődésre tarthatnak számot, nemcsak a magyarhoz hasonló tipológiájú nyelvek esetében. Az eddigi itthoni eredmények azt mutatják (ld. a Jelenés Jövőkép mellékleteket), hogy e tekintetben életképes és fejlődő nyelvi középhatalom vagyunk, és a stratégiai terv középpontjába a fent megfogalmazott célok elérését biztosító technológiákat kell állítani.

1.2. Helyzetelemzés A magyar nyelv- és beszédtechnológiai kutatás-fejlesztés eddigi eredményei nemzetközileg elismertek, számos területen világszínvonalat képviselnek. Részletes bemutatásuk az I. Mellékletben található, jelen fejezet a kutatás-fejlesztési tevékenység gazdasági, társadalmi környezetét jellemző sajátosságokra, az előtte álló akadályokra tér ki röviden. A nyelv- és beszédtechnológiai fejlesztések mai gazdasági, társadalmi környezete a hajtóerők, a motivációk tekintetében nagyon kedvező. Az előző részben vázolt európai léptékű célok, a globalizáció, a telekommunikácós, hálózati technológiák rohamos előretörése, a felhasználóközpontúság követelménye az ágazat soha nem látott, ugrásszerű fejlődéséhez vezethet már a következő 5 éven belül. Ehhez azonban számos akadályt kell leküzdeni. 1

http://ec.europa.eu/information_society/eeurope/i2010/index_en.htm

1. BEVEZETÉS

5

Mint több más hazai iparág, a magyar nyelv- és beszédtechnológia fejlesztései is sok esetben a magyar nyelvet beszélők számából következően olyan szűk piaccal találkoznak, amely számos esetben önmagában nem képes finanszírozni a létrehozásához szükséges kutatás-fejlesztési tevékenységet. A jelenleg rendelkezésre álló erőforrásai és kapacitásai nem teszik lehetővé magas költségű innovációs tevékenység külső támogatástól független folytatását (ennek illusztrálását ld. Jövőkép II.3. rész). Az állami és vállalati kutatás-fejlesztési ráfordítások mértéke nemzetgazdasági szinten is nagyon alacsony, ez alól természetesen ez a szektor sem kivétel, és ez nemcsak a magyarnál jelentősen erősebb gazdasággal rendelkező országokkal való összehasonlításban van így, hanem a régió hozzánk hasonló méretű országaival szemben is (pl. Csehország, Szlovénia). Az elmaradás és forráshiány más vonatkozásban is észrevehető, a kutatói utánpótlás, szakemberképzés területén az alulfinanszírozottság már rövid távon is kritikus versenyhátrányhoz vezet. Az ipari és a kutatás-fejlesztési szféra közötti mobilitás alacsony és erősen egyirányú, a kommunikáció korlátozott. Egyrészről az ipari szférából a kutatás felé nehezen mozdulnak el a szakemberek. Ennek egyik oka, hogy különösen a nonprofit intézményekben dolgozó kutatók juttatásai jóval alacsonyabbak, mint a gazdasági szférában a hasonló szakértelemmel rendelkező munkaerőé. Emellett a nyelv- és beszédtechnológiához szükséges és használható magas szintű tudás piaci értéke jóval nagyobb annál, mint amit az állami intézmények nyújtani tudnak, így a kutatás-fejlesztés területéről már most jelentős az elvándorlás a nem innovatív, alkalmazó munkakörökbe, illetve külföldre. Másrészt az ipari igények ritkán jutnak el a kutatás-fejlesztési szervezetekhez, azok kutatási eredményei pedig elvétve hasznosulnak az iparban. Hozzájárulhat ehhez az, hogy nincs szervezett, irányított és naprakész, a fejlesztéseket bemutató és közvetítő kommunikáció(s csatorna), valamint az egyes szervezetek sem koordinálják egymás között tevékenységeiket a szűkös erőforrások minél hatékonyabb felhasználásának érdekében — ezért a fejlesztések fragmentáltak maradnak, sokszor párhuzamosan zajlanak, és az eredmények nem épülnek egymásra. A Platform egyik küldetése éppen egy ilyen kommunikációs csatorna megteremtése és működtetése. Meg kell említeni, hogy nem elhanyagolható akadályt jelent a pályázatok elkészítéséhez és a támogatások elszámolásához szükséges bonyolult adminisztráció működtetése, melynek költségei nem számolhatók el, és nem állnak arányban a kapott támogatás mértékével. Akadályt jelent a szakterületi fejlesztéseket célzó pályázati kiírások, a rendelkezésre álló pályázati támogatás jelentős visszaesése, és a meglévő pályázatokban az ipari szereplők számára általában előírt belső erőforrások hiánya is. Összegzésképpen megállapítható, hogy a hazai nyelv- és beszédtechnológiában meglévő kitörési lehetőségek csak akkor realizálódhatnak, ha a vonatkozó kutatásfejlesztési politikában és gyakorlatban mihamarabb jelentős változás történik. (Ehhez kíván segítséget nyújtani a jelen tanulmány.)

6


1.3. Küldetésünk A Nyelv- és Beszédtechnológiai Platformot élenjáró magyarországi kutató-fejlesztő közösségek hozták létre azzal a céllal, hogy összehangolt munkával erősítsék és elősegítsék az innovációt a nyelv- és beszédtechnológia területén, így hozzájáruljanak a magyar technológiai fejlődéshez, a nemzetgazdaság versenyképességének növeléséhez. A Platform hivatalos keretet nyújtva összefogja a jelentősebb hazai nyelv- és beszédtechnológiai kutatás-fejlesztést végző tudásközpontokat, és ezáltal ! elősegíti az eddig viszonylagos elszigeteltségben működő központokban felhalmozódott magas szintű tudás megosztását illetve integrációját; ! feltérképezi a nyelv- és beszédtechnológiai kutatásoknak a nemzetgazdaság számára legfontosabb fejlesztési és kutatási irányait a magyar adottságok (erőforrások, érdekviszonyok) figyelembevételével; ! részletes stratégiai és arra épülő megvalósítási terveket dolgoz ki, amelyek megvalósítását kialakított koordinációs eszközeivel a későbbiekben is elősegíti; ! javaslatait szakpolitikai csatornákon keresztül eljuttatja a kormányzat megfelelő szerveihez és segít azoknak a kormányzati stratégiákkal és megvalósítási tervekkel való összehangolásában; ! közvetíti az informatikai szektor érdekelt résztvevői felé a Platform elemzéseit, stratégiáit, javaslatait, megvalósítási programját és annak eredményeit; ! megjeleníti és képviseli a magyar szempontokat és érdekeket, valamint a hozzájuk kapcsolódó konkrét javaslatokat a nemzetközi központok és piaci szereplők számára; ! elősegíti a Platform eredményeinek tudatosítását a magyar gazdaság potenciális felhasználói felé, különös tekintettel a kis- és középvállalkozásokra.

2 Stratégiai célok Bevezet˝ o A magyar nyelv- és beszédtechnológiai kutatás-fejlesztés általános stratégiai célja az, hogy a nyelv- és beszédtechnológia az infokommunikációs technológiákon belül húzóágazattá fejlődhessen. Ehhez a magyar nyelv- és beszédtechnológiai fejlesztések stratégiájának az alábbi kérdésekben kell iránymutatást adnia: ! Melyek azok a kutatás-fejlesztési területek, ahova a ráfordításokat irányítani kell, és amelyek a versenyképesség növelését eredményezik? Figyelembe kell venni a rendelkezésre álló erőforrásokat, és ezeket a kiemelt kutatás-fejlesztési területekre kell koncentrálni, melyeket oly módon célszerű kiválasztani, hogy azok termékekben, szolgáltatásokban hasznosuló eredmények létrehozását szolgálják. ! Melyek azok a jelenlegitől eltérő kutatásfinanszírozási keretek, amelyek biztosítják a kutatás-fejlesztési erőforrásokat a tartós eredményesség érdekében, ösztönzik az ipari szereplőket saját kutatás-fejlesztési ráfordításaik növelésében, és megalapozzák a kutatóhelyek betöltéséhez szükséges személyi állományt? ! Mit lehet tenni annak érdekében, hogy a sikeres kutatási-fejlesztési projektek eredményei ne maradjanak a fejlesztő műhelyek zárt közösségén belül, a gyakorlati hasznosítás lehetőségét kizárva? Ennek érdekében miként lehet szorosabbá és szervezettebbé tenni a kapcsolatot a fejlesztésben és a hasznosításban érdekelt felek között? A kutatás-fejlesztési tevékenységek tágabb kontextusát ugyan nem lehet figyelmen kívül hagyni, így általánosságban a világtrendeket követő pozícióból globális vezető helyre való előretörésre nincs reális alap, mindazonáltal a magyar nyelv sajátosságaiból adódó specifikus kihívásokra adott válaszokból származó eredmények „exportálhatók”. Ennek kihasználása az ágazat világpiaci pozícióit már rövid (2-5 éves) távlatban is jelentősen erősítheti, ami indokolja a nemzeti nyelvre irányuló kutatás-fejlesztés stratégiai fontosságát. A helyzetelemzésben felvázolt kedvezőtlen jelenségek és akadályok ellenére a magyar nyelv- és beszédtechnológia rendelkezik olyan jelentős erősségekkel, mint a szaktudás, élenjáró technológia, aktív nemzetközi kutatói kapcsolatok, amelyekre a sikeres előrelépés alapozható, amennyiben a kutatás-fejlesztési erőfeszítések és erőforrások az ország számára kitörési pontokat adó területekre összpontosulnak. A következő fejezet ezeket a területeket foglalja össze, valamint ismerteti a Platform ál-

8


tal stratégiainak ítélt célokat, melyek elérését a 3. fejezetben tárgyalt eszközökkel és módszerekkel kívánja elősegíteni.

2.1. Nemzeti kutatási infrastruktúra kialakítása és szolgáltatása a nyelv- és beszédtechnológia területén Az utóbbi években a kutatás-fejlesztés elsőrendű prioritásai között megjelent az integrált, egységes, mindenki számára elérhető és könnyen kiterjeszthető kutatási infrastruktúrák létrehozása. Az Európai Unió ESFRI (European Strategy Forum on Research Infrastructure) kezdeményezése, nagyszabású, számos európai intézményt magában foglaló és a Platform működési területét is érintő, magyar részvétellel is futó projektek (CLARIN, FLARENET, DARIAH), illetve a vonatkozó hazai vállalkozás (NEKIFUT) elindítása egyértelműen jelzik a kérdés stratégiai fontosságát. A nyelv- és beszédtechnológia területén sikerrel alkalmazható módszerek és eljárások jellegéből (ld. 3.1. fejezet) következik, hogy korszerű kutatási eredmények és alkalmazások nem jöhetnek létre a megfelelő erőforrások, írott és beszélt nyelvi adatbázisok, alapvető sztenderdizált feldolgozó eszközök nélkül; ezek a nyelv- és beszédtechnológia elengedhetetlen szükségletei a fejlesztésben és az elért eredmények kiértékelésében is. Számos területen voltaképpen ezek tartalmazzák a nyelvi tudás legnagyobb részét, a modern technológiák sok esetben „csupán” ennek a tudásnak a kivonatolását, használhatóvá tételét végzik. A nemzeti nyelv- és beszédtechnológia hatékonyságáért, a Platform stratégiai céljaiért a legtöbbet a nyelvi erőforrások fejlesztésével, azok szolgáltatásával és alkalmazásával lehet tenni. A nyelv- és beszédtechnológia területén a nemzeti kutatási infrastruktúra kialakításának az elsődleges feladata a különféle hozzáadott értéket tartalmazó erőforrások definiálása, folyamatos létrehozása, illetve a meglévők menedzselése. Fontos kiemelni, hogy ezek a nyelvi adatbázisok mindenki számára szabadon elérhetővé és felhasználhatóvá kell, hogy váljanak.

2.2. Kutatásszervezés Technológiatranszfer, kommunikáció Az ipar és a kutatók közötti párbeszéd javítása érdekében szükség van az információátadás módszereinek fejlesztésére, a kutatás-fejlesztési eredmények és erőforrások rendszerezésére és hozzáférhetővé tételére, valamint hatékony kommunikáció kialakítására. Létre kell hozni a terület technológiatranszfer-központját, amely a kialakítandó nemzeti kutatási infrastruktúrát a Platform által kidolgozott alapelvek szerint, a modern autorizációs és autentikációs technológiákat kihasználva egységes keretben (akár az egységes nemzeti kutatási infrastruktúra részeként) szolgáltatja, és hozzáférhetővé

2. STRATÉGIAI CÉLOK

9

teszi mind a kutatási, mind az ipari szereplők, illetve akár a nagyközönség számára is. (Ez természetesen a korszerű hálózati technológiák korában nem jelenti az erőforrások egy adott fizikai helyre történő koncentrálását, hanem virtuális központként is értelmezhető.) Feladata továbbá az ipari szereplők kutatás-fejlesztési igényeinek felmérése, valamint az országban rendelkezésre álló tudás és a hozzáférhető eredmények, módszerek feltérképezése és az információ közvetítése a lehetséges partnerek felé. Ennek eszköze többek között a Platform által létrehozott nyelv- és beszédtechnológiai kutatás-fejlesztéssel kapcsolatos internetes portál, amely mind a szűkebb szakmai, mind pedig a nem szakmabeli érdeklődőknek szolgáltat információt, és széles körben ismerteti az új kutatási eredményeket. A kutatás-fejlesztési eredményeket az ország határain túlra is exportálni kell, törekedni kell a magyarra kifejlesztett eszközök, módszerek más nyelvekre történő alkalmazására. Elsődleges célok lehetnek azok a környező országok, ahol viszonylag fejletlen az ágazat, mint például Szlovákia, Ukrajna vagy a volt Jugoszlávia egyes területei. Úgy válhatunk igazán regionális központtá, ha megmutatjuk, hogy a környéket segíteni tudó potenciállal is rendelkezünk. Szabványosítás Nemzetközi versenyképességünk növelése érdekében kulcsfontosságú, hogy a már létező és a létrejövő új technológiák megfeleljenek a meglevő szabványoknak, illeszkedjenek az egyre erősödő sztenderdizáló törekvésekhez. Ennek érdekében a ma használatos szabványokat széles körben ismertté kell tenni, az új szabványok kialakításában aktívan részt kell venni. Ki kell dolgozni egy nemzetközi gyakorlatba illeszkedő, összehasonlítható eredményeket biztosító kiértékelési módszertant, az ehhez szükséges szabványosított adatbázisok kifejlesztésével és az egyes területekhez kapcsolódó alapfogalmak meghatározásával. Előtérbe kell helyezni a széles körben való felhasználhatóság, testreszabhatóság, fenntarthatóság és további fejlesztés elősegítése érdekében a nyílt forráson alapuló fejlesztéseket, figyelembe véve természetesen az üzleti érdekeltségeket. Oktatás, kutatói utánpótlás A kutatói utánpótlás képzését koordinálni kell, az egyes területek legkiválóbb szakembereit be kell vonni az oktatásba. A piac által felvehető munkaerő méretéből adódóan a szakképzésben résztvevők száma nem lehet tömeges, ezért az oktatás hatékonyságát növelheti a képzési erőforrások koncentrációja és egységesítése: azonos ismeretek oktatásához közös tananyagmodulok kidolgozása, ezek kommunikációs hálózatokon keresztül történő szabad hozzáférhetősége. A fiatal kutatók számára ösztöndíjakat kell létesíteni, az ipar és az oktatási intézmények közötti kapcsolat megerősítésének keretében lehetővé kell tenni képzésük egy részének kihelyezését ipari szereplőkhöz. Kutatásfinanszírozás A kutatás-fejlesztés talpon maradása és a gyakorlati alkalmazás hatékonyságának javítása érdekében elengedhetetlenül fontos olyan kutatásfinanszírozási keretek kialakítása, amelyek

10


! lehetővé teszik interdiszciplináris, nagy költségigényű, de stratégiai fontosságú eredményeket hozó kutatások magasan képzett, a nemzetközi kapcsolatokat aktívan kihasználó kutatói teamek közreműködésével történő megvalósítását, ! hosszú távon biztosítják a megkérdőjelezhetetlen szakmai teljesítménnyel rendelkező műhelyek fennmaradását. Ehhez a fiatal, tehetséges, az oktatásból kikerülő kutatói utánpótlást alkalmazni és megtartani tudó kutatóhelyek megteremtésén túl olyan pályázati kiírásokra van szükség, melyek meghatározott stratégiai területeket vesznek célba, és ahol az átlátható értékelési folyamat eredményeként a terület szempontjából releváns kritériumrendszer alapján, erős szakmai kontroll alkalmazásával a színvonalas, valódi innovációt tartalmazó pályaművek kapnak támogatást. Együttműködés Törekedni kell a hatékony és gördülékeny információcsere, az interdiszciplináris kutatás-fejlesztési tevékenység megalapozása érdekében a határterületekkel való együttműködés rendszeressé tételére. Különösen fontos a rokon technológiai területeken létrejött vagy szerveződő platformokkal, klaszterekkel történő együttműködés. Ennek egyik lehetséges formája a különböző szakterületek kiemelkedő teljesítménnyel rendelkező képviselőivel való rendszeres szakmai találkozás, szakmai rendezvények szervezése. A szakpolitikai csatornákon keresztüli rendszeres konzultáció a kormányzat képviselőivel segít a szektor javaslatainak, stratégiájának a kormányzati stratégiákkal és megvalósítási tervekkel való összehangolásában.

2.3. Nyelvi információ kezelése, tárolása és feldolgozása 2.3.1. Nyelvalapú tudásmenedzsment A digitális formában elérhető tartalmak robbanásszerű növekedése miatt a rendelkezésre álló képi, hangzó és szöveges információ további feldolgozás nélkül gyakorlatilag kezelhetetlen. Szinte nincs is az életnek olyan területe (tudomány, politika, gazdaság, oktatás, kultúra, adminisztráció stb.), ahol megengedhetnénk magunknak, hogy az elektronikus formában elérhető információkat ne hasznosítsuk. A hatékony információkezelés része az is, hogy kérdéseinkre több nyelven is releváns válaszokat kapjunk, amely rendkívül nagy fontossággal bír Magyarország nyelvi integrációja szempontjából. A nagy mennyiségű hangzó vagy szöveges információ feldolgozása során az alábbi feladatokat kell megoldanunk. Egyfelől fontos, hogy a felhasználók felmerülő kérdéseikre minél hamarabb választ találjanak (információ-visszakeresés, information retrieval). Ennek a feladatnak a megoldását tűzték ki maguk elé a keresőmotorok fejlesztésével foglalkozó cégek, például a Google és a Yahoo!. A böngészők következő generációjának célja a szemantikai keresés és a lekérdezett információ strukturált megjelenítése (ld. Google Squa-


11

red, Wolfram Alpha, Bing és a megjelenés előtt álló Yebol), mely feladatok a nyelvi információra csak közvetetten támaszkodó statisztikai, gépi tanulási módszerek mellett magas szintű nyelvfeldolgozást is megkövetelnek. Ez a magyar vonatkozásában azt jelenti, hogy nekünk is ki kell, illetve tovább kell fejlesztenünk azokat az eszközöket, amelyek a weben található információ ilyen magas szintű hozzáférését lehetővé teszik. Ide tartozik a morfológiai egyértelműsítés, a szintaktikai elemzés és a tulajdonnév-felismerés. Másfelől, a természetes nyelvi információ feldolgozásával nemcsak a releváns dokumentumokat szűrhetjük ki, hanem a strukturálatlan természetes nyelvi szövegben található információt adatbázisba szervezhetjük, hogy ezek hatékonyan lekérdezhetőek legyenek már létező adatbázis-kezelő technológiákkal (információkinyerés, information extraction). A Platform tagjai már számos információkinyeréshez kapcsolódó kutatást végeztek és jelentős eredményeket tudnak felmutatni a szükséges részfeladatok megoldásában, azonban még számos nyitott kérdésre kell választ találni. 1

2.3.2. A nyelvi kulturális örökség digitális korba való átmentése A Platform stratégiájának középpontjában olyan technológiák állnak, amelyek egy életképes és rohamosan fejlődő nyelvi középhatalom képét vetítik előre. E célok mellett azonban a magyar nyelv- és beszédtechnológia értékőrző, sőt bizonyos esetekben értékmentő szerepéről sem szabad elfeledkeznünk. A magyar nyelvtechnológia még számos nyelvfeldolgozó eszközzel adós, például uráli nyelvrokonaink nyelveire. E nyelvek egy- és többnyelvű szótárainak, korpuszainak és egyéb erőforrásainak fejlesztése is elsősorban a magyar nyelvtechnológiától várható. Olyan kihalófélben levő rokon nyelvek, mint a nganaszan, a nyenyec, a mari vagy a komi nyelvi rendszerének dokumentálása, írott és hangzó megnyilatkozásainak digitalizálása és automatikus feldolgozása már az elmúlt években megkezdődött, és a jövőben is feladatunknak érezzük az értékmentő munka folytatását. Hangsúlyoznunk kell, hogy ezeket a nyelveket általában már csak néhány beszélő használja, vagyis a nyelvi jelenségek dokumentálása lehetőségének utolsó órájában vagyunk. Ezzel a célkitűzéssel a Platform teljes mértékben illeszkedik a világtrendek vonalába, amit az is mutat, hogy az amerikai Linguistic Data Consortium nemrég kifejezetten a kisebb nyelveket vette célba a „Ritkábban tanított nyelvek” (Less Commonly Taught Languages) program keretében. A magyarországi és határon túli magyar nyelvváltozatokat feltérképező kutatásokban is jelentős támogatást tudnak nyújtani a nyelv- és beszédtechnológia művelői a beszélt és írott nyelvváltozatok digitális rögzítése és automatikus feldolgozása terén. 1

Új kihívás, hogy az elektronikus nyelvi tudás mind nagyobb mennyiségben hangzó anyagok formájában áll elő. Az ezekből történő információkinyerés és -visszakeresés első és egyelőre legkritikusabb lépése a beszéd-szöveg átalakítás. Tehát a nyelvalapú információmenedzsment multimédiás kiterjesztése érdekében kiemelt stratégiai cél a nagyszótáras, folyamatos többnyelvű gépi beszédfelismerés hatásfokának javítása (ld. 3.3.).

12


Az automatikus szövegfeldolgozás technológiái jelentős segítséget nyújtanak abban, hogy az ország írott kultúrkincsét a digitális korszakba átmentsük. A régi magyar szövegemlékek egyszerű beszkennelése még nem teszi hozzáférhetővé a bennük lévő szöveget, hanem szükséges a szöveg kinyerése, automatikus morfológiai és szintaktikai elemzése. Ez biztosítja a szövegek olyan részletes keresését és elemzését, amilyenre a nyelvtörténészeknek, kutatóknak valójában szükségük van, és amelynek elkészülte a magyar nyelvtörténet kutatásának hatalmas lendületet adhat. Hasonló értékmentő, az adott nyelv történeti korpuszának megépítését célzó projektek a világ minden táján folynak. A beszédfelismerési technológia a nagy nemzeti hang/film/multimédia archívumok szövegtartalom szerinti kereshetőségét biztosíthatja. Az alaptechnológia már ma is elérhető magyar nyelven, azonban a speciális tartalmakhoz történő adaptáció (pl. régi filmhíradók nyelvi és hanganyagához történő lexikai, stilisztikai és akusztikai adaptáció) jelentősen növelheti a használhatóságot.

2.4. A természetes nyelven történ˝ o kommunikáció számítógépes támogatása 2.4.1. Természetes ember- gép kommunikáció A szűkebb értelemben vett ember-gép kommunikáció legfőbb feladata az emberi igények közlése a gépekkel és a kapott válaszok hasznosságának növelése. A fejlődési tendenciák azt mutatják, hogy az embernek egyre kevésbé kell alkalmazkodnia a gépekhez, a gépek többféle módú kapcsolódást is elfogadnak, ezek a kapcsolódási felületek rugalmasan, a felhasználó képességeit és a környezetet is figyelembe véve alakulnak. Vagyis a kommunikációt természetesen és hatékonyan kiszolgáló új technológiák révén egyre könnyebben értjük meg egymást a számítógépekkel és egyéb elektronikai eszközökkel. Az ember-gép kapcsolódási módok közül még mindig az érintésalapú kommunikáció a legelterjedtebb, ugyanakkor a legtermészetesebb emberi kommunikáció a beszéd: ez a hajtóereje az egyre nagyobb volumenű beszédalapú ember-gép kapcsolati kutatás-fejlesztéseknek. Szűk keresztmetszetet jelent a gépi beszédfelismerés és beszédértés emberi szinttől elmaradó hatásfoka, itt hosszú távú kutatások szükségesek. A gépileg előállított beszéd érthetősége, természetessége és stílusának a témához, beszélőhöz való illeszkedése is kulcsfontosságú a sikeres alkalmazásokhoz. Meg kell említenünk, hogy a beszédkapcsolat esetén automatikusan emberihez hasonló reakciókat várunk a géptől, így a dialógus- és mesterségesintellingencia-kutatás is előtérbe kerül. A beszédfelismeréssel rokon, elsősorban a bemenő jel feldolgozását végző modul megváltoztatását igénylő feladatok az írás-, jelbeszéd- és gesztusfelismerés. Ezek jelentőségét látjuk a mostaninál természetesebb multimodális interfészekben, melyek


13

például a szemgolyó mozgásának követésével arra is odafigyelnek, hogy mire néz éppen az ember. Célunk, hogy rövid időn belül élőszó és/vagy gesztusok segítségével is lehetővé váljon az internet böngészése és általában az emberi inputot igénylő számítógépes programok irányítása. Tágabb értelemben véve az ember-gép együttélésen azt értjük, hogy az ember többletképességeket kaphat a gépektől. A gépek segítenek bizonyos funkciókat, például az értékelés, a diagnosztika vagy a döntés-előkészítés területén. A gépek részben vagy egészben át is vehetnek bizonyos funkciókat, például az információfeldolgozás, statisztika, megjelenítés és tájékoztatás területein. Általában a hihetetlen tömegű információ közti tájékozódást, akár a szakember, akár a laikus számára, rendkívüli módon megkönnyíti a nyelvtechnológia. Továbbá a nyelv- és beszédtechnológiai fejlesztés eredményeit hasznosító, az oktatás hatékonyságát növelő szoftverek kiválóan alkalmazhatók a logopédiában, az idegennyelv-oktatásban és a magyar mint idegen nyelv tanításában egyaránt. (A gyakorlati felhasználási területekről részletesebben ld. a 4. fejezetet, illetve a Jövőkép II.4. fejezetét.)

2.4.2. Fogyatékkal él˝ ok és hátrányos helyzet˝ uek információs társadalmi integrációjának el˝ osegítése A nyelv- és beszédtechnológia fejlesztéseit alkalmazó infokommunikációs eszközök komoly elősegítői nemcsak a gazdaság fejlődésének, hanem az esélyegyenlőség és az életminőség javításának is. A fogyatékkal élők társadalmi integrációjának elősegítésében kulcsfontosságú az ember-gép kommunikáció megkönnyítése. A tudásalapú társadalomban az integráció elengedhetetlen lépése, hogy olyan tartalmakhoz is hozzájussanak a fogyatékkal élők, amelyeket számukra primér módon nem hozzáférhető médiumokon keresztül közvetítenek. A beszédszintézisre és -felismerésre alapuló technológiák, amelyek más médiumokra „fordítanak” és tesznek elérhetővé információt, mind a siketek és nagyothallók, mind a vakok és gyengénlátók számára ezt az integrációs lépést könnyítik meg. Különösen fontos a tanulásban akadályozott vagy nyelvi zavarral küzdő gyermekek felzárkóztatása az oktatásban, hiszen a nyelvi készségek alsó tagozatban történő fejlesztése teremti meg az alapját annak, hogy későbbi tanulmányaik során az értelmi képességüknek megfelelő nyelvi teljesítményt tudjanak nyújtani. A szociálisan hátrányos helyzetű tanulók esélyegyenlőségére való törekvésben is kulcsszerepe lehet az iskolai környezetben alkalmazott nyelvtechnológiának, azaz a tanulók információs társadalomba való integrálásának. Az informatika rohamos fejlődésének következtében a hardverek árcsökkenése Magyarországon is egyre közelebb hozza azt az időt, amikor a számítógéppel közvetíthető tudás elérhető lesz mindenki számára. Elengedhetetlen az olyan szoftverek kidolgozása, melyek célja nemcsak a logopédiai vagy részképesség-fejlesztés, hanem az általános szókincs és kifejezőkészség javítása is. Különösen fontos lehet ez utóbbi a magyart második nyelvükként beszélő tanulók számára. A magyar nyelvre készített alkalmazások fejlesztésén kí-

14


vül a magyar nyelvtechnológia feladata az országban kisebbségként élő közösségek nyelvén elérhető alkalmazások fejlesztése is.

2.4.3. Többnyelv˝ uség az Európai Unióban, a nyelvi korlátok leküzdése Az Európai Unió fontos elve a nyelvek sokféleségének tisztelete és a nyelvi alapon történő megkülönböztetés tilalma. Az EU 23 hivatalos nyelve egyenrangú. Az „ahány nyelven tudsz, annyi ember vagy” mottó jegyében kialakított EU többnyelvűségi politika három célkitűzése, hogy: 1. támogassa a nyelvi sokféleséget, ösztönözze a nyelvtanulást, Unió-szerte elősegítse hivatalos nyelveinek mind szélesebb körű ismeretét és használatát; 2. a több nyelven folyó munka költségeinek leszorításával elősegítse az egészséges többnyelvű gazdaságot az egységes európai piacon; 3. lehetővé tegye, hogy anyagi helyzetétől, egészségi állapotától és lakóhelyétől függetlenül valamennyi európai polgár élvezhesse az információs társadalom előnyeit, saját nyelvén jusson hozzá az uniós információkhoz. A fentieknek megfelelően tehát cél, hogy bármely nyelven nyilvánosságra hozott hangzó vagy írott közlemény az EU bármely polgára számára egyenlő eséllyel hozzáférhető legyen. Ami ennél is fontosabb, hogy a befogadó az információt meg tudja érteni, vagy legalábbis a releváns tartalmat egyszerűen ki tudja nyerni belőle. A nyelvtechnológiai kutatások egyik stratégiai célja éppen ez: a (nagy mennyiségű) természetes nyelven megfogalmazott információ megértésének számítógépes támogatása, illetve az automatikus gépi megértés megvalósítása. A nyelvtechnológia számos szinten és területen segítheti az idegen nyelvű szöveget olvasó embert, támogathatja az emberi megértést. Ide tartoznak az automatikus gépi fordítás, a fordítástámogató eszközök, a többnyelvű információkinyerés és információ-visszakeresés (pl. könyvtárakban, katalógusokban), a megértéstámogatás, a számítógéppel segített szótárkészítés, a nyelvoktatásban használható nyelvtechnológiai eszközök, illetve a beszédtechnológiával együtt az automatikus tolmácsolás, azaz a beszéd „online” fordítása is elérhető közelségbe kerül egyes alkalmazásokban. A gépi megértésre irányuló kutatásokban egyrészt cél a természetes nyelvű szöveg megértésére képes technológia kifejlesztése, másrészt pedig a jelenlegi eszközökkel már automatikusan megérthető tartalom (nagy volumenű) létrehozása is: ontológiák, tudástárak építése. E két kutatási megközelítés összefonódásának eredményeképpen valósulhat meg a következő évtizedben a szemantikus web, azaz válhat géppel automatikusan értelmezhetővé az egymással szemantikus kapcsolatban álló adatok és tartalmak tömege.

3 A közeljöv˝ o kutatási területei A fentebb ismertetett stratégiai célok elérésének érdekében részben alap- és célzott speciális kutatásokra, részben integratív, az egyes — egymástól gyakran igen távol esőnek látszó — szűkebb szakterületek kutatásait összefogó kutatás-fejlesztésre van szükség. A következőkben konkrét szakmai — de reményeink szerint közérthető — javaslatokat teszünk, szem előtt tartva egyrészt a világtrendeket, másrészt a magyar nyelv egyedi jellegzetességeiből fakadó kihívásokat, az ezekkel járó előnyöket és hátrányokat.

3.1. Általános módszertani alapelvek A kutatás magas színvonalának megtartása és biztosítása érdekében fontosnak tartjuk a Platform konszenzusán alapuló általános módszertani alapelvek megfogalmazását. Ezek egyrészt iránymutatásként szolgálhatnak a folyamatosan bővülő Platform tagjai számára, másrészt a pályázatkiírók és -értékelők munkáját is segíthetik. Szabályalapú vagy statisztikai módszerek? A különböző tudományterületeken gyakorta feltett kérdésre a mi válaszunk nem „vagy”, hanem „és”. A nyelv- és beszédtechnológiában mára a statisztikai megközelítések sokszor már megkérdőjelezik a szabályalapú megoldásokat, azonban minden statisztikai rendszernek lényegi részei egyes szabályok, tehát tisztán statisztikai rendszer nemigen létezik. Ugyanakkor a tisztán szabályalapú megoldások sem nevezhetők életképesnek a nyelv- és beszédtechnológiában, hiszen a „nyelvi helyesség” nem feltétlenül objektív fogalom, a valós nyelvhasználatot csak valamiféle statisztika képes visszaadni, tehát legalább a technológiakiértékelés szintjén a statisztika kiküszöbölhetetlen. A szabályalapú módszerek rendkívül erőforrás-igényesek, ugyanakkor a statisztikai alapú gépi tanulás is drága, ha ún. felügyelt tanítású technikákat használunk. Márpedig ez a leginkább bevált és használt technológia szerte a világban. Ilyen például a gépi beszédfelismerés szinte egésze, ahol nagy mennyiségű pontos kézi átirat szükséges a hanganyagok mellett, de ilyen a tulajdonnév-felismerés is, amelynek során a rendszer tanításához és kiértékeléséhez is kézzel annotált korpuszokat használunk. A szükséges emberierőforrás-igény csökkentésére és a fejlesztések gyorsítására ezért előtérbe kerültek a felügyelet nélküli módszerek. Ezek azonban belátható időn belül csak kisebb részben tudják helyettesíteni a felügyelt technikákat. Fontos irányzat a részben felügyelt tanítás, ahol az ember általi ellenőrzés (hanganyag kézi leirata, címkék stb.) géppel segített módon készül a nagyobb hatékonyság érdekében.

16


Összehasonlíthatóság, megalapozottság A nyelv- és beszédtechnológia alkalmazásai esetében megkerülhetetlen kérdés az egyes megoldások összehasonlíthatóvá tétele. Kívánatos, hogy a technológiakínálat sokszínű legyen, de az is, hogy sztenderd módszerek szerint összehasonlíthatók legyenek a szolgáltatók technikái. Ez mindig alkalmazásfüggő, de a hivatalos adatbázisokon, rögzített módszerekkel mért eredmények eligazítást nyújthatnak mind az alkalmazók, mind a pályázatok elbírálói számára. Az összehasonlításhoz szükséges adatbázisok elkészítése és szolgáltatása, a kiértékelési szabályrendszer kidolgozása nonprofit feladat, melyben a Platform szerepet vállalhat. Nemzeti technológiai „értékelő fórumok” nemcsak az összehasonlíthatóságot biztosíthatják, de egészséges versenyt is generálhatnak az ország és az iparág javára. Hangsúlyozzuk, hogy kutatás-fejlesztési eredmények mindig számszerűsíthető, lehetőleg sztenderd, de statisztikailag megalapozott formában fogadhatók csak el, a szubjektív tesztek csak illusztratív jelleggel bírnak.

3.2. Infrastruktúra és er˝ oforrások fejlesztése A nyelv- és beszédtechnológia területén végzett érdemi innovációs tevékenység nélkülözhetetlen feltétele a korszerű nyelvi erőforrásokból, alapvető feldolgozó eszközökből álló színvonalas kutatási infrastruktúra. Ezért folyamatosan szem előtt kell tartani ezen adatbázisok és eszközök készítését és továbbfejlesztését, valamint ki kell alakítani a lehető legegységesebb feldolgozási, illetve alkalmazási protokolljukat. A legalapvetőbb nyelv- és beszédtechnológiai erőforrások közül számunkra két típus emelendő ki: egyrészt a magasabb szintű nyelvi elemzést tartalmazó lexikai erőforrások, amelyekre a legkorszerűbb szemantikus technológiák épülnek (ld. Jövőkép II.2. rész); másrészt a nagyméretű, különböző nyelvi információval ellátott (annotált) szöveg-, illetve beszédadatbázisok (korpuszok), amelyek mindenfajta statisztikai alapú eljárás alapjául szolgálnak. A magasabb szintű nyelvi elemzést, szemantikai információt tartalmazó lexikai erőforrások mindazon alkalmazásoknak az előfeltételei, amelyeknek célja (többek között) az emberi nyelv gépek általi megértése, ami a nyelv- és beszédtechnológiai kutatások egyik legfőbb stratégiai célja. Ahhoz, hogy a nyelvi információt tartalmilag megjelölt egységekbe szervezzük, olyan tudásbázisok fejlesztésére vagy magyar nyelvre való adaptálására van szükség, amelyek nyelvfüggetlen, ám a természetes nyelvűnél pontosabb definíciókat tartalmaznak és feleltetnek meg nyelvi jeleknek. Az ilyen tudásbázisok, ún. ontológiák a nyelvtől független, a világ jelenségeire vonatkozó tudást tartalmaznak gépi feldolgozás számára hozzáférhető, szisztematikus módon. Fontos tehát, hogy általánossá és szabványossá váljon az ontológiákban tárolt tudás reprezentációs módja (RDF (Resource Description Framework), OWL (Web Ontology Language), XML (eXtensible Markup Language)), valamint ezeknek a magyarra való honosítása.

˝ KUTATÁSI TERÜLETEI 3. A KÖZELJÖVO

17

Az ontológiák egyrészről általános tudást tartalmaznak, másrészről egy-egy szakterület specifikus tudásanyagát is reprezentálhatják – utóbbi típusú ontológiák a szakontológiák. Nyilvánvaló, hogy az utóbbiak megfelelő kialakításához az adott szakterület magas szintű ismeretére van szükség. Mivel a stratégiailag fontos tudományterületek (orvostudomány, jogtudomány, mérnöki tudományok) szakemberei általában nehezen elérhetők és idejük nehezen megfizethető, különösen fontos lenne megfelelő anyagi forrásokat találni a közös munkához és erősíteni az együttműködést ezen területek képviselőivel. Az erőforrások kifejlesztése mellett fontos az erőforrások feldolgozása, megosztása és elérhetővé tétele is. Az erőforrások egységes megjelentetése, hozzáférhetővé tétele, valamint a nemzetközi nyelvtechnológiához való kapcsolódásunk szempontjából sarkalatos kérdés a magyar BLARK (Basic Language Resource Kit) nyelvtechnológiai alapeszközkészlet kifejlesztése és közzététele. Ennek fontos hozadéka lesz, hogy a már rendelkezésre álló elemzési megoldások használható, szabványos formában elérhetőek lesznek mind a magyar nyelvtechnológusok, mind a magyarral foglalkozó külföldiek számára. Az alábbiakban felsoroljuk, mely új nyelvi erőforrások előállítását tartjuk kiemelkedően fontosnak: a. Magyar nyelvű beszélt nyelvi adatbázisok Kiemelt jelentőségű, hogy nagyméretű, szöveges leirattal rendelkező különféle beszédstílusú beszédadatbázisok készüljenek magyar nyelven is. Noha számos jó minőségű tervezett (olvasott) beszédet tartalmazó adatbázis készült el a Platform tagjainak a közreműködésével is, a nemzetközi szinten elfogadott adatbázisméretektől általában egy-két nagyságrend lemaradás tapasztalható. Elsősorban a gépi beszédfelismerésnél lényeges, hogy nagyobb méretű adatbázisok szülessenek a statisztikai nyelvi és akusztikai modellek jobb becsülhetősége és így a nagyobb felismerési pontosság érdekében. A méret mellett ugyanakkor nagyon fontos, hogy ne csak döntően olvasott, hanem inkább kevésbé tervezetten előállított, de spontán vagy ahhoz közeli beszéd kerüljön rögzítésre. Hiszen természetszerűleg az ilyen jellegű beszéd (beszélgetés ember-gép, ember-ember között) szöveggé alakítása a tipikus, élet- és alkalmazásközeli feladat. Ilyen esetekben a hangkapcsolat-eloszlást nem lehet előre tervezni, ezért csak a jelentős (tipikusan több mint 100 órás) adatbázisméret tesz lehetővé reprezentatív mintavételt. Lényeges, hogy a beszélők száma, kora, neme stb. is jól kövesse a megcélzott réteget. Megjegyezzük, hogy a gépi beszédfelismerés mellett beszélőazonosításra, dialógusmodellezésre és általános fonetikai, morfológiai, korpusznyelvészeti kutatásokra is rendkívül jól használhatók az ilyen nyelvi erőforrások. A következő típusú beszédadatbázisok elkészítését javasoljuk elsősorban: ! Spontán monológok (pl. diktálási alkalmazáshoz). ! Spontán beszélgetések (pl. banki ügyfélszolgálati beszélgetések monitorozásához).

18


! Több résztvevős megbeszélések (pl. üzleti, szakmai megbeszélések automatizált lejegyzéséhez). ! Telefonos üzenetek (pl. automatikus hangpostaátíráshoz). ! Telefonos beszélgetések, telekonferenciák (pl. telefonos ügyfélszolgálatok minőségbiztosításához). ! Multimédia híranyagok és beszélgetések (pl. a beszédtartalom szerinti kereshetőség biztosításához, automata feliratozáshoz). ! Magyar (hangzó) nyelvváltozatok digitális rögzítése. b. Idegen nyelvű beszélt nyelvi erőforrások Ezek fontosságát, jelentőségét az adja, hogy ma a beszédtechnológia nagy része (és a nyelvtechnológia mind nagyobb része) algoritmikusan nyelvfüggetlen, tehát a magyar nyelvű tapasztalatok adott esetekben nagyon jól kiterjeszthetők más nyelvekre. Elsősorban a közép-kelet-európai nyelvek jönnek számításba részint a kulturális és egyéb hasonlóságok, részint a piac nyitottsága miatt. ! Közép-kelet-európai nyelvekre a fenti típusú adatbázisok előállítása. ! A nagy nyugati és esetleg keleti nyelvekre (FIGS, JCK) az adatbázis-beszerzés segítése. ! Párhuzamos beszélt nyelvi korpuszok kialakítása beszédfordítás céljára. ! Kihalóban levő uráli nyelvrokonaink hangzó nyelvi anyagainak rögzítése és digitalizálása. ! A magyarországi kisebbségek hangzó nyelvi anyagainak rögzítése és digitalizálása. c. Magyar nyelvű írott nyelvi erőforrások Fontos hangsúlyozni, hogy bár írott nyelvű tartalom egyre nagyobb mennyiségben érhető el a weben, — éppen ezért — folyamatosan nő az igény az intenzív feldolgozással (különféle szinten történő címkézés, strukturálás stb.) jelentős hozzáadott értéket hordozó tartalmakra, melyek alapvető erőforrásként szolgálnak az információkinyerési, -visszakeresési és számos további nyelvtechnológiai alkalmazás számára. Ezen felül a nyelvi örökség megőrzése (ld. 2.3.2.) és hozzáférhetőségének biztosítása szempontjából is kívánatos az alábbi adatbázisok létrehozása. ! A magyar nyelv különböző nyelvváltozatainak írott korpusza. ! Az egyes mondatrészek közötti függőségek teljes annotációját tartalmazó korpusz (ún. dependency bank) a mélyebb szintaktikai elemzés megvalósításához. ! Az egyes szaknyelvek (jogi, orvosi stb.) korpuszai és az ezekhez tartozó szakontológiák. ! Szemantikai információt tartalmazó lexikai erőforrások előállítása.


19

! Változatos szövegtípusokból álló, kézzel tulajdonnév-annotált referenciakorpusz. ! Megfelelő lefedettségű, a magyar WordNettel (ld. Jelenkép I.3.2.2.2.) is összekapcsolódó tanulói szótár, a magyar nyelv népszerűsítése érdekében. d. Idegen nyelvű írott nyelvi erőforrások A következőkben csak azokat az idegen nyelvű korpuszokat említjük, melyeknek alighanem az egyetlen esélye a digitális fennmaradásra és hasznosításra, ha magyarországi kezdeményezés karolja fel az ügyüket. ! Kihalóban levő rokon nyelvek korpuszai. ! Magyarországi kisebbségi nyelvi írott korpuszok. ! Párhuzamos írott nyelvi korpuszok építése automatikus szótárgenerálás, illetve gépi fordítás céljára; elsősorban kevésbé kutatott közép-kelet-európai nyelvekre, ahol nagyobb magyar kisebbség él.

3.3. A gépi beszédfelismerés kutatási irányai A legtermészetesebb emberi kommunikáció a beszéd, ezért a beszéd szövegtartalmának automatikus felismerése a modern kor egyik legjobban áhított eszköze. Az emberi hatékonyságot elérő beszéd-szöveg átalakítás, dallamfelismerés stb. azonban a korábban elképzeltnél sokkal nehezebb feladatnak mutatkozik, ezért azt gondoljuk, hogy e cél elérésének dátumát bölcsebb nem előrevetíteni. Ugyanakkor biztosak vagyunk benne, hogy koncentrált erőfeszítésekkel folyamatos haladást lehet elérni a gépi beszédfelismerés majd minden területén. A jelenlegi technológiai szint — ahogy a Jelenképben is bemutattuk (I.4.2.) — számos gyakorlati alkalmazáshoz szolgálhat alapul. Ugyanakkor, hazai és nemzetközi tekintetben is, az alább felsorolt kutatási irányokban történő előrelépés exponenciálisan tágíthatja az új szolgáltatások, termékek körét. Robusztus beszédfelismerési technikák Adott témakörre és beszélőre specializált, közelbeszélő mikrofon melletti beszédfelismerés pontossága igen magas is lehet — ameddig a háttérzaj nem hallható, vagy lényegesen alacsonyabb a szintje, mint a felismerendő beszédé. Amint a zavaró jel szintje emelkedik, a szófelismerési pontosság rohamosan — az emberi felismerési teljesítménytől gyorsan és jelentősen leszakadva — csökken. Ennek egyik alapvető oka az, hogy az alkalmazott jelfeldolgozás, mely a hangnyomás-idő függvényből állapítja meg a beszéd akusztikai lényegét, meg sem közelíti az emberi hallás lényegkiemelési képességeit. Ehhez kapcsolódóan a másik fő problémát ott találjuk, hogy a beszédfelismerés elemi akusztikus egységeinek modelljei is túlegyszerűsítettek, és a gépi modellezési és lényegkiemelési fázisok az emberi feldolgozással ellentétben teljesen különválnak.

20


A téma hosszabb ideje folyamatos kutatás tárgya, azonban a zajrobusztusság tekintetében igazán jelentős előrelépés az elmúlt évtizedekben nemigen mutatkozott, mivel sokáig nem volt világos, hogy ez a terület képezi a beszédfelismerés szűk keresztmetszetét. Másrészt az emberi hallásról is nagyon keveset tudunk: sem a fizikája, fiziológiája, sem a kognitív, neurológiai vonatkozásai nincsenek kellő mértékben feltérképezve. További nehézséget jelentett az, hogy az összetett pszichofizikai-matematikai modellek olyan nagy számításigényűek, hogy néhány évvel ezelőttig nem is volt reális esélye kivitelezésüknek. A probléma nehézségét reálisan látva, a területen folyó kutatások kiemelt gyakorlati jelentőségére tekintettel feltétlen hangsúlyoznunk kell annak szükségét, hogy e terület az eddigieknél jóval nagyobb támogatásban részesüljön. Mivel ez a beszédfelismerés hatékonyságát legjobban korlátozó szűk keresztmetszet, ha ezen a területen sikerül előrelépni, az a beszédfelismerés minden ágában azonnali pozitív hatással mutatkozik. Másrészt a zajrezisztencia kialakítása nyelvfüggetlen, tehát nincsenek előnyben az adatbázisokkal jobban ellátott nemzetközi kutatóműhelyek. Harmadrészt azért is alkalmas lehet a magyar kutatóközösség a feladatra, mert nemcsak hagyományokkal és tapasztalatokkal rendelkezik e téren, de a magyar orvoslás, biológiai-fiziológiai kutatások is igen magas színvonalúak, illetve a nemzetközi kapcsolatrendszerünk is segítheti az ilyen irányú eredmények hatékony elérését. A téma hatékony műveléséhez kislétszámú elkötelezett és magasan kvalifikált kutatócsoport(ok) hosszabb távú (5-10 év) állandó és motiváló támogatása szükséges. Ennek várható költsége nemzetgazdasági szempontból elhanyagolható, haszna viszont igen jelentős lehet. Spontán társalgási beszéd felismerése A legjobb akusztikai lényegkiemelés esetén is problémát jelenthet a laza artikuláció és a spontán beszédben tipikus gyors beszédtempó. További nehézség, hogy a szöveges tartalmat gyakran bennfentes téma határozza meg, azaz a lexikon és a nyelvi modell nem lehet elég felkészült az ilyen esetekre. Ugyanakkor a természetes kommunikáció jelentős része ebbe a kategóriába esik, tehát a gyakorlati alkalmazások szempontjából kiemelt fontosságú a terület. Ehhez egyrészt a témához illeszkedő adatbázisok használata, másrészt a kiejtési modellek beszédstílusra, tempóra való specializálása szükséges. Ezeken felül várhatóan a beszélőváltások vizsgálata, az automatikus beszélőadaptáció, valamint a lexikális és nyelvi adaptáció segíthet sokat a felismerési pontosság érdemi növelésében. Nagyszótáras folyamatos beszédfelismerés gazdag morfológiájú nyelvekre Az ilyen nyelvek — köztük a magyar, finn, török, arab — ma a beszédfelismerési kutatások egyik kiemelt helyén szerepelnek. Itt az okoz problémát, hogy míg a beszédfelismerés kimenetén szavak sorozatát várjuk, az ilyen nyelveket szavakkal és azok kapcsolataival közvetlenül modellezni szinte lehetetlen. Míg angolra 60.000 szavas szótárral szinte minden beszédfelismerési alkalmazás jól elboldogul, magyarra hasonló lefedettséghez akár milliónál is több szót tartalmazó szótár kellene. Az igazi probléma azonban a szókapcsolatok modellezésénél következik, a tipikus modellezési megközelítésnél két szó alapján következtetünk a harmadik valószínűségére, azaz a szó-


21

kapcsolatok száma köbösen emelkedik. Végül terabájtos memóriaigények lépnének fel az „egyszerű” szöveg-beszéd átalakítási feladatoknál. A probléma kezelésében már jelentős eredmények születtek elsősorban finn kutatók munkája alapján, és a magyar nyelv tekintetében elértekre is büszkék lehetünk. A probléma azonban még korántsem tekinthető megoldottnak: a jelenlegi eljárások főleg tervezett beszéd esetén hatékonyak, valamint egyes nyelvekre (mint a török és arab) jelenleg még nem sikerült áttörést elérni. A magyar kutatóknak tehát más nyelvű nemzetközi kutatásokba is érdemes lehet bekapcsolódniuk, hiszen egyrészt a kutatási tapasztalatokat is kamatoztathatják, másrészt a magyar anyanyelv is sok segítséget jelenthet. Nyelvfüggetlen beszédfelismerő módszerek kialakítása, célcsoport: a középkelet-európai nyelvek Ma már nem csak az fontos, hogy egy adott nyelven minél nagyobb beszédfelismerési pontosságot érjünk el, hanem az is, hogy milyen gyorsan sikerül a technológiát az adott nyelvre adaptálni. A Platform kutatói ezen a területen is tettek fontos előrelépéseket: a nyelvi sajátságok ismeretét nélkülöző beszédfelismerési technológiáról mutatták meg, hogy a magyar nyelv esetén sem marad el szignifikánsan a sztenderd módszerekkel elért eredményektől. Kihasználva, hogy a nagyobb nemzetközi beszédtechnológiai cégek a költséghatékonyság miatt (a sztenderd technikák drágasága és a kisebb populáció miatt) a középkelet-európai régiót nem tekintették célcsoportjuknak, a magyar kutatók és fejlesztők számára különleges lehetőség mutatkozik. A világszínvonalhoz közeli alaptechnológia, a helyismeret és a már elért eredmények gyors és olcsóbb beszédfelismerő rendszerek kialakítását teszik lehetővé a környező országok nyelveire. Itt elsősorban alkalmazott kutatásra és kísérleti fejlesztésre van szükség. A feladat nagy, de elég jól átlátható, ütemezhető, ami tehát gazdasági szempontból jól kezelhető.

3.4. A gépi beszédel˝ oállítás kutatási irányai A gépi beszédelőállítást sokan megoldott problémának tekintik, ám az emberével minden körülmény között összetéveszthető gépi beszéd előállítása még mindig távoli cél. Egyes szűkebb témakörökben és sok kézi munka árán megtévesztően élethű beszéd állítható elő, azonban az általános és hibátlan témafüggetlen automatikus szövegbeszéd átalakítás még utópia. Továbbá az általános célú szövegfelolvasó szoftver is a nehezen elérhető célok közé tartozik, mivel a felolvasási technológiákat témához, célközönséghez, műfajhoz kell kötni, és kevés az olyan terület, ahol le lehet mondani az automatikus felolvasók folyamatos emberi tanításáról, támogatásáról. A bemenő szövegekben mindig lehetnek olyan részek, amelyeknek a kiejtését eddig még nem rögzítették elektronikusan: ezek a kivételes írásmódú és kiejtésű szavak. Mindezekből következik, hogy a hibamentes automatikus szövegfelolvasás eléréséhez némi emberi

22


támogatásra sokáig szükség lesz, ennek csökkentésére átfogó kutatásra van szükség. A korszerű megoldásokhoz itt is nagyméretű és több szinten pontosan címkézett beszédadatbázisokat kell felépíteni. A gépi szövegfelolvasás megítélésének három fő kritériuma van: helyes-e a kiejtés (szegmentális szint), helyes-e a hangsúlyozás, a beszéddallam és a ritmus (szupraszegmentális szint), valamint hogy emberi hangszínezete van-e a szintetizátornak. Az ebbe a kritériumrendszerbe illeszkedő, általunk fontosnak tartott fejlesztési területeket vázoljuk fel a következőkben. Skálázható kiejtésátíró szoftver és kiejtési szótárak fejlesztése A fenti kritériumrendszer első elemét érinti a korrekt hangátírás. Magyar nyelvre jelenleg még nem létezik olyan szoftver, amely tesztelt és minősített kiejtési átírást valósít meg, esetleg hangolható, skálázható (minden kutatóközösség a saját szempontjai szerint alakít ki nem teljes megoldásokat). Emellett az egyes szakmákat érintő szakszavak kiejtési szótárait kell elektronikus, egységes, szabványosított formában elkészíteni. Ezzel a munkával csak csökkenteni lehet a jövőbeni emberi támogatás nagyságát, azt teljesen kiküszöbölni nem lehet, mert mindig lesznek olyan szavak, kifejezések, amelyeknek a kiejtését legalább egy alkalommal meg kell határozni. Javasoljuk egy központi kiejtési adatbank létrehozását, ahonnan a jövő nyelv- és beszédtechnológiai rendszerei lekérdezhetik a szükséges adatokat. Hangsúlykijelölés szöveganalízis alapján A helyes hangsúlyozás megvalósítása az automatikus szövegfelolvasás lényeges eleme. Kezdeti sikereket elkönyvelhetünk ezen a téren, de az átfogó megoldáshoz nagyobb erőforrásokat kell mobilizálni mind nyelvészeti, mind informatikai területről. Magyar nyelvre jelenleg nem létezik sem szabály-, sem statisztikai alapú szoftver, amely a szöveg elemzése alapján képes lenne a mondat szavaira a helyes hangsúlykiosztást teljes komplexitásában elvégezni. Megjegyezzük, hogy az automatikus hangsúlykijelölés hiánya kihat a szövegkivonatolási technológiák teljesítőképességére is, hiszen nehéz a lényeget kiemelni egy szövegből, ha nem tudjuk, hogy mely szavak a hangsúlyosak. Az emberi hangszínezet közelítése A hangkarakter-transzformáció a kifejezésforma bővítését teszi lehetővé. Adott egy általános paraméterhalmaz a beszédszintézishez (a hétköznapi beszéd általános alapjellemzői). Pótlólagos jellemzők hozzáadásával elérhető, hogy a szintetizált szöveg érdes, bársonyos, rekedt, suttogó, levegős hangszínezettel szólaljon meg. A kiejtés stílusára (parancsoló, leíró, határozott, magyarázó stb.) jellemző paramétercsoportok kutatása még gyermekcipőben jár. Az emberek közötti párbeszédben fontosak az ilyen kiejtési stílusok, amelyek természetesen összekapcsolhatók a kimondandó szöveg tartalmával. A kiejtési formák fontos csoportját alkotják az érzelmi töltést kifejező beszédformák (pl. mérges, bosszús, álmodozó, szomorú, vidám stb.). Az érzelem kifejezésének akusztikai fogódzóit már világszerte kutatják; magyar vonatkozásban a kezdeti kutatások pár éve indultak el. A jövő beszédszintetizátoraival szemben támasztott alapvető


23

követelmény lesz, hogy érzelmeket hangban ki tudjanak fejezni. Hasonlóan a jövő egyik ígéretes kutatási iránya a spontán beszédstílus megvalósítása. A szituációhoz illő gépi hang jellegzetességeinek kutatása még csak csírájában lelhető fel mind a magyar, mind más nyelvek vonatkozásában. Az adott személy hangjára való transzformáció (hangutánzás) is fontos eleme lesz a következő évtized beszédtechnológiájának. A megrendelő felolvas egy adott szöveget, és az általa megvásárolandó beszédszintetizátor hangját a gyártó a megrendelő hangjára hangolja. Így minden embernek lehet majd egy saját hangú szövegfelolvasója. Ez komoly piaci érdeklődésre tarthat számot. Többnyelvű szintézist támogató keretrendszer fejlesztése A statisztikai és fonetikai módszerek ötvözésével, valamint a megfelelő nyelvi modulok kialakításával olyan általános keretrendszerek fejleszthetők ki, amelyekkel más nyelvekre is ki lehet terjeszteni a szövegfelolvasást (például e-mailfelolvasóban az idegen nyelvű szót vagy esetleg teljes levelet a beszédszintetizátor nyelvváltással tudja felolvasni). Az ilyen kutatás kétirányú lehet. Kívánatosak olyan megoldások, amelyekben a magyar nyelvű beszédszintetizátor más nyelven is meg tud szólalni (érezhetően magyar akcentussal, de helyes kiejtéssel). A másik irány, amikor nem magyar nyelvű területre szánják az idegen nyelvű szintetizátort, hanem saját nyelvterületére. Ilyenkor nem magyar akcentusra kell tervezni a rendszert.

3.5. A gépi fordítás és fordítástámogatás kutatási irányai A gépi fordító rendszerek speciális helyet foglalnak el a nyelvi rendszerek között. Az első számítógépek megjelenése után sokan úgy gondolták, hogy a gépi fordítás lényegében egy (át)kódolási feladat, ami rövid időn belül megvalósítható lesz. A kezdeti lelkesedést kudarcok követték; rájöttek, hogy a feladat sokkal összetettebb az eredetileg vártnál. Ma már kimondhatjuk, hogy a nyelvtechnológia egyik legnehezebb feladatáról van szó. A terület háttérbe szorult, hogy aztán a számítási kapacitás rohamos fejlődése nyomán a 80-as években újraéledjen. Mára világossá vált, hogy a gépi fordítás nem tudja helyettesíteni az emberi fordítói munkát. Nem reális cél az emberi fordítás minőségének elérése, de a fordítás sebességének és a megértésben nyújtott segítségnek az arányát figyelembe véve megtérülő befektetés a gépi fordításba invesztálni. A gépi fordító eszközök legkézenfekvőbb haszna, hogy az idegen nyelvet nem ismerő, esetleg elolvasni sem tudó befogadó részére képes a szöveget nyersfordításban anyanyelvén prezentálni — másodperceken belül. A gépi fordításhoz szükséges a teljes nyelvtechnológiai feldolgozó lánc elemző és generáló oldalon is. A magyar BLARK (ld. 3.2.) elkészülése e szempontból is rendkívül fontos. A gépi fordítás szakmai diskurzusát napjainkban is meghatározza a 3.1. részben említett statisztikai, illetve szabályalapú rendszerek (látszólagos) ellentéte. A gazdag morfológiájú nyelvekre, így a magyarra is, nagyobb hatékonysággal működnek a szabályalapú fordítók, amelyeket ezért szükséges nagy erőkkel továbbfejleszteni. A közeljövő feladatai közé tartozik — így kimondottan a Platformon belül a korábbi évek során

24


fejlesztett magyar-angol, angol-magyar gépi fordító rendszer esetében is — a meglévő fordítás minőségének javítása, illetve a magyart is tartalmazó nyelvpárok körének szélesítése. A minőségjavítás történhet akár a statisztikai és szabályalapú módszerek integratív alkalmazásával, akár fordítási minták szabályalapú rendszerekbe való beépítésével. Bármelyik módszert alkalmazzuk is, nagyméretű párhuzamos korpuszok építése (vö. 3.2.) elengedhetetlen a fejlesztéshez. Mivel a nyelvi többértelműség miatt a mai fordítórendszerek nagy többsége több fordítási alternatívát is generál egy forrásnyelvi mondathoz, a további feladatok között kell megemlíteni a szintaktikai és szemantikai egyértelműsítést, szemantikai információk használatával (ld. 3.6. rész). Fordítástámogatás A fordítástámogatás területén a Platform jelenleg is világszínvonalú megoldásokat szállít a professzionális fordítók részére (ld. Jelenkép I.3.4.3.). A közeljövő feladata a gépi fordítás integrálása a fordítást támogató rendszerekbe, illetve a diktálórendszerek és a fordítástámogatás összekapcsolása. Megértéstámogatás A megértéstámogató eszközök használata azt a befogadót segíti, aki ismeretlen nyelven írt szöveget akar közvetlenül megérteni, belőle a lényeget kihámozni, de nem igényli a szöveg pontos lefordítását. Ide tartozik a terminológiakivonatolás, szólistakészítés és automatikus szótárazás, a szöveg szempontjából releváns alapvető nyelvtani információk kompakt formában való megjelenítése, a szöveg automatikus összegzése is. A megértéstámogató eszközök segítségével tájékozódni tudunk a szövegben, illetve az anyanyelvünktől idegen nyelvtani jelenségeket is kezelhetjük. Ez a megközelítés hasznos lehet idegen nyelvű menetrendek, sajtótermékek böngészésekor, vagy abban az esetben, ha fontos, hogy valóban az eredeti (nyelvű) dokumentum tartalmához férjünk hozzá. A megértéstámogató eszközök azokra a kisebb nyelvekre is létrehozhatók, melyekre a gépi fordítás megvalósítása nem kifizetődő. Szótárak, számítógépes lexikográfia Mindig szükség lesz a nyelvek változó szókincsét követő és bemutató újabb és újabb szótárakra. Fontos a már ma is folyó (automatikus/félautomatikus/hagyományos) szótárépítő munkálatok egységes szervezeti keretbe foglalása. A lexikográfiailag releváns információk szövegekből való kinyerését célzó nyelvtechnológiai algoritmusok kutatása közelebb visz a szótárkészítés automatizálásához. A következő évtizedben várható olyan nyelvfüggetlen korpuszalapú automatikus szótárépítő eljárások megjelenése, melyek segítségével dinamikusan készíthetünk szótárt az aktuális célra kialakított korpusz alapján, legyen az speciális szaknyelvi vagy akár idegen nyelvű korpusz. A gyors és rugalmas automatikus módszerek segítségével a szótárak naprakészebbé és teljesebbé válhatnak.


25

3.6. Az információkinyerés és - visszakeresés kutatási irányai A nyelvi alapú tudástárak létrehozásához Magyarországon nemcsak a kulcsszavas keresés infrastruktúrájának javítására és a magyar nyelvű információkinyerés fejlesztésére, hanem a nyelvek közötti információkinyerés jelentős erősítésére is szükség van, mind a szöveges, mind a beszéd-, illetve multimédia-tartalmú adatbázisokban. Célunk részint az információkinyeréshez elengedhetetlen nyelvi modalitások (tagadás, spekuláció, időbeliség stb.) automatikus felismerése, másrészt az emberi kommunikációt átható érzelmi hozzáállás elemzése. A hangzó anyagokból történő információkinyerés, -visszakeresés első lépése a beszéd és nem beszéd részek szétválasztása, kategorizálása, majd a beszéd-szöveg átalakítás. Ez utóbbi feladat még egyetlen nyelvre sem megoldott feladat, ezért a „beszédbányászat” szűk keresztmetszete a gépi beszédfelismerés. Azonban, mint ahogy a szövegalapú keresésnél sem várhatunk 100%-os pontosságot, akár csak 50%-os szófelismerési pontosságú beszéd-szöveg átalakítás is már gyakorlatilag hasznosítható beszédinformáció-kinyerő rendszert adhat. Természetesen a használhatóságot a pontosabb beszéd-szöveg átalakítás nagyban segíti, ez irányban célzott kutatások szükségesek. A további lépések általában megegyeznek a szövegből történő információkivonatolás lépéseivel. A szövegből történő információkinyerés egyes lépései során a szöveget alkotóelemeire bontjuk, majd a speciális jelentőséggel bíró elemeket lokalizáljuk és azonosítjuk. Az alkotóelemekre bontás különböző lépései (tokenizálás, mondatra bontás, morfológiai elemzés, szófaji egyértelműsítés) már tulajdonképpen megoldottnak tekinthetők a magyar nyelvre — annál nagyobb kihívást jelent a mélyebb mondaton belüli összefüggések és a mondatok közti összefüggések automatikus felismerése. Mivel a nevek a szövegekben található tartalom lényeges és jól elkülöníthető tulajdonságokkal rendelkező elemei, az információkinyerés egyik legfontosabb lépése a tulajdonnév-felismerés (named entity recognition), amelynek célja a szövegben található tulajdonnevek felismerése és szemantikai kategorizációja (pl. személynév, földrajzi név, intézménynév stb.). A következő feladat a referenciafeloldás (reference resolution), amelynek során megállapítjuk, hogy a felismert nevek közül melyek jelölik ugyanazt az entitást, majd az ezen entitások közötti szemantikai viszonyokat kell feltérképezni. Ezt követően fel kell ismerni a szövegben található eseményeket, ezek szemantikai osztályát, valamint azt, hogy a szöveg által meghatározott entitások milyen szerepet töltenek be az eseményben. Majd következik a szöveg idői szerkezetének feltárása, végül a keretillesztés (template filling), melynek során sztereotipikus mintákat készítünk a lefedendő területre, és az ezen mintákban található üres helyeket feltöltjük a szövegekből kinyert információkkal. Az információkinyerés ezen bonyolultabb lépéseinek megoldása még előttünk áll. Azok a technológiák, amelyek a célzott webbányászatot segítik, mint — a fentiek mellett — a tartalom/téma szerinti osztályozás vagy a különféle megjelölési (markup)

26


megoldások, különösen fontosak. A hagyományos információs tárak, a könyvtáraktól az adatbázisokig, csak annyira fognak túlélni, amennyire a web részeivé válnak. Ez az a széles sodrású folyamat, ami a szemantikus web létrejöttét kikerülhetetlenné teszi. A szöveg egyes részeinek megjelölése, elemekre bontása csupán eszköz a nagyobb cél: a szöveg megértése, a tudás kinyerése eléréséhez. A szemantikus web akár úgy is felfogható, mint egyszerűsített, ma még a szövegértésben az emberi képességektől messze elmaradó algoritmusok számára is érthető tartalom. Az információkinyeréshez és -visszakereséshez elengedhetetlen az a feldolgozási lépés, amely a természetes nyelvi kifejezéseket megfelelő fogalmakhoz köti — például a 3.2. részben említett ontológiák megfelelő fogalmaihoz. Ez a lépés a jelentésegyértelműsítés, mely az egyik legnagyobb kihívás a nyelvtechnológia számára, mivel egy adott szó vagy kifejezés szövegkörnyezettől függően jelenthet mást és mást. Könnyebb kezelni az olyan eseteket, amikor az azonos alakú szavak más szófajúak (pl. nyúl, vár), nehezebben detektálhatók az egy szófajba tartozó azonos alakú szavak jelentései (pl. egér: állat vs. számítógép-tartozék), még nehezebb egy ige különböző jelentéseit, jelentésárnyalatait automatikusan felismerni. Fontossága ellenére a jelentésegyértelműsítés feladata még az angol nyelvre sem megoldott, vagyis nem létezik általánosan elfogadott, hatékony módszer, de az eredmények — nem utolsósorban az egyre jobb minőségű ontológiák megjelenésének köszönhetően — sokat javultak az elmúlt években. Tekintve e kutatási irány sokrétű felhasználhatóságát, várható, hogy a témában végzett kutatások az elkövetkezendő évek egyik legmeghatározóbb irányát fogják adni nemzetközi és hazai szinten egyaránt. A jelentésegyértelműsítés fejlődésével egyre nagyobb teret nyerhetnek azok az alkalmazások, amelyek nemcsak szavak, hanem egyre teljesebb szövegek számítógépes megértését tűzik ki célul.

3.7. Integratív kutatási irányok Ma az egyik legnagyobb kihívás a teljesen eltérő tudományos hátterű kutatók és műhelyek már meglévő eredményeinek, folyamatban lévő kutatásainak összehangolása a közös célok érdekében. Különösen igaz ez a nyelv- és beszédtechnológiára, ahol a szűkebben vett technológusok is különböző: nyelvészi, mérnöki, informatikusi alapképzettségűek, ugyanakkor a nyelv- és beszédtechnológia ezer szállal kötődik a matematikához, a fizikához, a biológiához, az orvostudományokhoz, a pszichológiához és ezek határterületeihez, a neurolingvisztikához, a pszichoakusztikához stb. Beszédfordítás, automatikus tolmácsolás A nyelv- és beszédtechnológia talán legjobban várt alkalmazása a beszédfordító gép. A feladat egyben az egyik legnagyobb technológiai kihívás is: önmagában a témafüggetlen gépi beszédfelismerés és a szövegfordítás is hatalmas kihívás, ezek kombinációja pedig hatványozott nehézséget jelent. A témakör szűkítésével viszont igenis lehetséges gyakorlatban is használható beszédfordítókat készíteni (lásd pl. a BBN és az IBM által fejlesztett arab-amerikai katonai célú alkalmazások, vagy a TC-STAR projektben az európai parlamenti beszédek online fordítása). Így reményteljes vállalkozás


27

a magyar-angol, -német stb. nyelvpárokra is restriktív célú beszédfordító rendszereket készíteni. Arra különösen ügyelni kell, hogy a fordítás- és a beszédtechnológia nem lehet független, szoros kollaborációra van szükség. A fordító dolgát nagyban megkönnyítheti, ha egyrészt nemcsak a szószintű felismerési kimenetet kapja meg, hanem a morfémaszintűt is (lehetőleg ugyanazon morfológiai rendszerben, mint amivel maga a fordító dolgozik), valamint nemcsak a legvalószínűbb morfémasorozatot kapja meg a szövegfordító, hanem pl. az első 10 legvalószínűbbet. Összefoglalva tehát a nyelv- és beszédtechnológiai kutató-fejlesztő műhelyek minden eddiginél szorosabb együttműködésére van szükség, ami kitartó munka árán nagy bizonyossággal meghozza gyümölcsét. Rövid és középtávon a szűkebb területekre specializált kutatás-fejlesztés lehet sikeres (egyes kórházi alkalmazások, idegenforgalmi megoldások merülnek fel például), a témakör általánosabb szintű megoldása csak ezek után, a távolabbi jövőben hozhat a felhasználók számára hasznosítható eredményeket. Beszédterápiai és diagnosztikai kutatások A beszédoktató rendszerek megoldási lehetőségei egyre nőnek. A kifejlesztésre kerülő multimodális eszközök (az auditív mellett a látási és érzékelési csatorna aktiválásával) számos beszédsérülés gyógyításának segédeszközei. A technológia magába foglalja a beszédfelismerés, -szintézis, -elemzés és vizuális megjelenítés legújabb kutatási eredményeit és eszközrendszerét. Ezek a rendszerek alkalmat adnak a hallássérültek beszédfejlesztésére, artikulációs hibák korrekciójára (sziszegők, magánhangzók), megkésett beszédfejlődés terápiájára, cochleáris implantátummal rendelkezők rehabilitációjára, fonológiai problémák javítására, idegen akcentus csökkentésére. A beszédhibás és hallássérült emberek beszédoktatásán kívül, vagy inkább azt háttérbe szorítva, egy új irányzat annak vizsgálata, hogyan lehetne az idegennyelvoktatásban hatékonyan hasznosítani a számítógépes rendszereket (Computer Aided Language Learning, CALL). Ide tartozik még a beszédalapú diagnosztika is, mely lehetővé teszi a hangképzési rendellenességek vizsgálatát és automatikus diagnosztizálását. Emellett a beszéd részletes vizsgálatával sok egyéb betegség is előre jelezhető (pl. az Alzheimerkór). Multimodális dialógusrendszerek Az emberi kommunikáció tipikusan kétoldalú, és a gyakorlati problémák során viszonylag nagy arányban tipikus kérdésekre tipikus válaszok születnek (pl. ügyfélszolgálati rendszerek). Ezért gyakran merül fel, hogy a gépies emberi munkát emberies gépi munkával váltsuk ki, azaz automatizáljuk a válaszadást a tipikus kérdések kategorizálása után. Az ügyfélszolgálati munka sokszor megoldható gépies válasszal, ugyanakkor sokan emberi megnyilvánulásokat is elvárnának a géptől. Ezt érdemben megvalósítani jelenleg reménytelen vállalkozás. Számos esetben nem is lenne szükséges a gépet valódi emberi intelligenciával felvértezni, sokszor apróbb „emberi jellegű” megnyilvánulások, melyek a felhasználó viselkedéséhez adaptálhatók, jelentősen javíthatnak az adott szolgáltatás tetszési indexén. Ilyen lehet például, ha a gépi beszéd sebessége, esetleg stílusa alkalmazkodik a beszélőéhez — ehhez mind az input, mind

28


az output tekintetében szükséges a jelenlegi technológiák továbbfejlesztése. A teljes értékű emberi intelligencia ugyanakkor utópisztikus cél lenne, ezért a modern kutatások egy része egyfajta „állati intelligencia” alkalmazását tartja célravezetőnek a hatékony ember-gép kommunikációban. Különösen a multimodális felületek esetén van lehetőség ilyennek az alkalmazására, ahol a bemeneti oldalon vizuális gesztusfelismerés alapján akár egy rajzfilmfigura a beszédkapcsolat kiegészítőjeként metakommunikációval — pl. szemhunyorgatással — jelez vissza egyszerűen és hatékonyan. Indult már ilyen témában kutatás, de az ember-ember, ember-gép, ember(házi)állat kommunikáció kimeríthetetlen területek, melyek kutatása újszerű, emberbarát gyakorlati megoldásokhoz vezethet. Nyelvi tartalom megértése, beszédfelismerés, beszédelőállítás, fordítás Jól ismert, hogy a megértett beszéd felismerése sokkal pontosabb, mint a nem tudatosult közlésé, valamint az átélt szövegtartalmat sokkal kifejezőbben és helyesebben tudjuk felolvasni, mint a szolgai módon felolvasott szöveget. Ez azt mutatja, hogy a kogníció, a nyelvi tartalom valódi megértése fontos szerepet játszik a beszédpercepcióban és -artikulációban is. Fokozottan igaz ez az emberi fordításra is. Tehát a beszédszöveg, szöveg-fogalom, szöveg-beszéd átalakítás nem különülnek el egymástól az emberi beszédértés folyamatában. Ugyanakkor a nyelv- és beszédtechnológiában e rendszerkomponensek csak névlegesen kapcsolódnak össze, valódi megértésről nem beszélhetünk. Így viszont a gépi beszédfelismerés, -szintézis és fordítás olyan távol marad az emberi műveletektől, amit nem biztos, hogy az egyéb technológiák javításával be lehet hozni. Stratégiailag fontos cél tehát bekapcsolódni az emberi beszédértés, a kogníció nemzetközi szinten előrehaladott kutatásaiba, az eredményeket alkalmazásra kész technológiába beépíteni, hogy az egyelőre még majdnem utópisztikus távlati cél, az emberéhez hasonló képességű gépi fordítás, beszédfelismerés és -szintézis előállhasson. Ez egyelőre kifejezetten hosszú távú kutatási feladat, azonban már ma látszik, hogy a világ erre halad, és kimaradni súlyos vétek lenne.

4 Alkalmazási területek A nyelv- és beszédtechnológia nemzetgazdasági hasznosíthatósága a természetes nyelven történő kommunikáció alapvető fontossága miatt rendkívül sokrétű. Az alábbiakban olyan gyakorlati alkalmazási területeket emelünk ki, ahol akár rövid távon is sikeresen bevezethetők a nyelv- és beszédtechnológiai fejlesztések a gazdasági szféra, az állam- és közigazgatás, az egészségügy vagy az oktatás bizonyos területein. További jövőbeli gyakorlati alkalmazási lehetőségekről ld. a Jövőkép II.4. fejezetét.

4.1. A kutatás- fejlesztési eredmények gyakorlati felhasználása Ipari alkalmazások A vállalatok számára a hatékony tudásbeszerzés, konkurencia- és trendanalízis, a nyelvalapú multimédia- és tudásmenedzsment milliárdokban mérhető realizált hasznot jelenthet. Ezek az alkalmazások mind intenzíven építenek a nyelv- és beszédtechnológiai fejlesztésekre. Ma még a hatékony internetes kereséshez tapasztalatra, időre és gyakran némi szakmai jártasságra van szükség. A jövőben a robbanásszerű mértékben növekvő webtartalom megköveteli a gyorsabb, pontosabb és laikusok számára is könnyen használható keresést, melyet a továbbfejlesztett információ-visszakereső és szemantikus technológiák tesznek lehetővé. Hasonlóak mondhatók el az üzleti intelligenciát, döntéshozást támogató szoftverek területén is. A nyelvtechnológia lehetővé teszi az adott nyelven elérhető információk más nyelvekre való gyors és költséghatékony átültetését. Arra számítunk, hogy egy évtizeden belül elkövetkezik az az ideális állapot, amikor az interneten található idegen nyelvű honlapok böngészése nem fog problémát okozni: az automatikus gépi fordítási megoldások segítségével saját anyanyelvünkön, nagyjából érthető módon olvashatjuk a különböző tartalmakat, és mint felhasználók jelentős segítséget kapunk például az e-kereskedelemben. A beszédtechnológia lehetővé teszi a bármikor és bárhonnan történő telefonos ügyintézés általános elterjedését, illetve segít minden olyan esetben, ahol a vizuális információ nem adható át hatékonyan. A nagyméretű multimédia-adatbázisok tartalmi kereshetőségét a beszédfelismerési és információ-visszakeresési technológiák teszik lehetővé, így válnak ezek a multimédia-archívumok szélesebb körben és hatékonyabban hasznosíthatóvá.

30


Információkinyerő alkalmazásokat használhatnak a sajtófigyelő cégek, a webes szolgáltatásokat nyújtó kis- és középvállalkozások, amivel emberi munkaerőt, időt és pénzt takaríthatnak meg. Az információkinyerés hatékonyságának növelése kedvező innovációs hatással jár, hiszen például a szabadalmak, tudományos közlemények automatikus feldolgozása felgyorsítja az információ áramlását az akadémiai, innovációs és ipari szféra között. Állami, közigazgatási alkalmazások A nyelv- és beszédtechnológia az állampolgárok számára alapjaiban változtathatja meg a mindennapi ügyintézést. Gépi beszédfelismerésen alapuló telefontudakozók, beszédalapú call centerek, komplex (mobil)telefonos ügyfélkiszolgáló rendszerek, természetes nyelvi interfészek válthatják fel a humán operátorokat, és könnyíthetik meg a formanyomtatvány-kitöltésen alapuló jelenleg kezdetleges elektronikus ügyintézést. A minisztériumok, az államigazgatási szervek, a nemzetvédelem és a rendőrség munkáját segíthetik a különböző információkinyerő eszközök, a nyelvtechnológia eredményeit felhasználó alkalmazások (pl. automatikus anonimizáló rendszerek vagy intelligens keresőeszközök). A természetes nyelvi alapon történő hatékony tudásszerzés jelentős társadalmi hatással bírhat például a jogalkalmazás területén, hiszen a különböző jogszabálygyűjteményekből hatékonyan visszakereshető információ nemcsak a szakemberek munkáját könnyíti meg, hanem a jogi információ előzetes feldolgozásával, kategorizálásával hozzáférhetőbbé, könnyebben értelmezhetővé teszi a jogszabályokat, és így közvetlenül is hozzájárulhat a jogbiztonság növekedéséhez Magyarországon. A gépi fordítástámogatás segítségével radikálisan csökkenthetők az emberi tolmácsolás és fordítás által igényelt költségek, így például az Európai Parlament működési költségeinek tetemes része. Ez összeurópai érdek, vagyis a gépi fordítás és fordítástámogatás területén hosszú távú, folyamatos fejlesztésekre van szükség. Egészségügyi alkalmazások A nyelv- és beszédtechnológián alapuló orvosdiagnosztikai eszközök fejlesztése egyre szélesebb körben jellemző, ilyen segédeszközök használatára az orvostársadalomban kifejezett igény van.1 A nagy tömegű orvosi információ nyelvtechnológiával támogatott feldolgozása kiemelt fontosságú a diagnosztikában, a gyógyszerkutatásban, az információ rendszerezésében és kategorizálásában (pl. leletek automatikus osztályozása, géppel segített diagnózisok felállítása, orvosi utasítások ellenőrzése). Terápiás és rehabilitációs alkalmazások (egyedi beszélőre adaptált beszédszintézis, beszédterápiás, beszélni tanító szoftverek), a mindennapi munkavégzést támogató segédeszközök (pl. orvosi diktáló rendszerek), az egészségügyben használható hasonló alkalmazások, 1

Ilyen például a hangképző szervi megbetegedések (pl. gégerák) kimutatására szolgáló beszédakusztikai-számítástechnikai diagnosztikai eljárás kidolgozása. Továbbá a beszédinformáció agyi feldolgozási zavarainak kimutatásában is egyre több beszéd- és nyelvi diagnosztikára és terápiára használatos eszköz jelenik meg, és válik egyre népszerűbbé.

4. ALKALMAZÁSI TERÜLETEK

31

illetve az ezekhez szükséges alacsonyabb szintű feladatokat megoldó rendszerek kifejlesztése olyan célok, melyek megfelelő nyelvtechnológiai befektetéssel rövid időn belül megvalósíthatók. A megváltozott munkaképességű személyek társadalmi integrációja A nyelv- és beszédtechnológia hozzájárul a megváltozott munkaképességű személyek társadalmi integrációjához is. Az egyik legelemibb igény mind látás-, mind hallássérültek számára a vizuális, illetve auditív információ más médiumon keresztül való elérhetővé tétele. A beszédfelismerés és -szintézis technológiái már lehetővé teszik azt, hogy az ember-gép kommunikációban olyan ember is részt vehessen, akinek a beszédészlelés vagy a gépelés nehézséget okoz, vagy lehetetlen. Folyamatos fejlesztés alatt állnak a mindennapi életet jelentősen megkönnyítő alkalmazások (pl. gépi felolvasó rendszer, hangos információs tábla, környezeti intelligenciával felruházott eszközök, automatikus beszédfeliratozó). Hosszútávú és komplex fejlesztést igényelne egy jelnyelvfelismerő és a jeleket írott vagy beszélt formába átalakító rendszer. Az oktatás nyelv- és beszédtechnológiai támogatása A nyelv- és beszédtechnológia fontos szerepet kaphat az oktatás hatékonyságának növelésében. A nyelvi erőforrások (ld. 3.2.), szöveges adatbázisok új eszközzel gazdagítják a nyelvoktatás módszertanát, használatukkal valódi környezetbe ágyazott élőnyelvi példaanyag áll a nyelvtanuló rendelkezésére, segítségükkel a nyelvi jelenségek egzakt, empirikus módszerekkel tanulmányozhatók. Ide tartoznak az intelligens nyelvoktató szoftverek, minden a nyelvi tudatosságot elősegítő alkalmazás, a valamilyen nyelvi kihívással küzdő emberek segítését célzó rendszerek, tanító gépek (pl. a beszédkorrektor rendszerek). Egyre nagyobb az igény olyan mérési módszerek fejlesztésére is, amelyekkel a beszédterápia javító hatása objektív módon kiértékelhető, a fejlődési lépték összehasonlítható.

4.2. Alkalmazási példák A következőkben szemléltető jelleggel a 3. fejezet egyes speciális kutatási irányaihoz társítunk egy-egy gyakorlati alkalmazási példát. ! Robusztus beszédfelismerési technikák: autóban és tömegközlekedési eszközökön használható navigációs rendszerek vezérlése. ! Spontán társalgási beszéd felismerése: ügyfélszolgálatok minőségbiztosítása. ! Nagyszótáras folyamatos beszédfelismerési technikák gazdag morfológiájú nyelvekre: híradók automatikus feliratozása. ! Nyelvfüggetlen beszédfelismerő módszerek kialakítása: horvát, román stb. nyelvű multimédia-menedzsment. ! Hangkarakter- és kiejtésistílus-transzformáció: emberközeli automatikus regényfelolvasás vakoknak, gyerekeknek.

32


! Érzelem kifejezése gépi beszéddel és spontán beszédstílus megvalósítása: barátságos, emberi érzetű gépi ügyfélszolgálat. ! Többnyelvű szintézist támogató keretrendszer fejlesztése: turisztikai információs rendszer telefonon. ! Fordítástámogatás: fordítóiroda munkáját megkönnyítő megoldások. ! Megértéstámogatás: az e-kereskedelem nyelvi támogatása. ! Szövegből történő információkinyerés: webalapú piacelemzés, konkurenciaanalízis. ! Hangzó anyagokból történő információkinyerés: automata telefonos ügyfélszolgálat. ! Információ-visszakeresés: webes keresés, mélyebb tartalmi összefüggések kinyerése. ! Beszédfordítás: kórházi, biztosítási sürgősségi esetekre szabott alkalmazások. ! Beszédterápiai és -diagnosztikai kutatások: logopédiai tanítóeszközök, gégerákdiagnosztika. ! Multimodális dialógusrendszerek: navigációs és jegyautomata tömegközlekedésben. Ahogy láthattuk, a nyelv- és beszédtechnológia jelen és főleg jövőbeli alkalmazási lehetőségei igen széleskörűek, közvetlen vagy közvetett használatuk egészen bizonyosan beépül mindennapi életünkbe. A Platform véleménye szerint nemcsak szakmai szempontból vonzó a kihívás, de a nemzetgazdaság szempontjából is kedvező lehet olyan technológiába fektetni, melynek potenciális napi felhasználója gyakorlatilag a teljes lakosság, és amely ilyen átfogó mértékben fokozza a nemzetgazdaság versenyképességét.

5 Összefoglaló Az előző fejezetekben bemutattuk a magyar nyelv- és beszédtechnológia helyzetét, megjelöltük stratégiai fejlesztési irányait, kitörési pontjait, nemzetközi kapcsolódásait, és ajánlásokat tettünk a szektor kutatás-fejlesztési politikájának hangsúlyos területeire. Megállapítottuk, hogy a magyar nyelv- és beszédtechnológia gazdasági, társadalmi környezete a létező kedvezőtlen jelenségek és akadályok ellenére a hajtóerők, a motivációk tekintetében nagyon ígéretes. A magyar nyelv- és beszédtechnológia rendelkezik olyan jelentős erősségekkel, mint a szaktudás, élenjáró technológia, aktív nemzetközi kutatói kapcsolatok, amelyekre a sikeres előrelépés alapozható. Kitörési pontként jelöltük meg a robusztus beszédfelismerési technikák fejlesztésére, a nagyszótáras, folyamatos többnyelvű gépi beszédfelismerés hatásfokának javítására, az idegen nyelvű szövegek megértését támogató gépi fordításra, illetve a szöveges tartalmak elemzését végző szemantikus technológiák kidolgozására irányuló tevékenységeket. Kiemelt területként azonosítottuk a kutatási infrastruktúra kiépítését, a nyelvi információ feldogozására vonatkozó fejlesztéseket, hangsúlyoztuk a magyar nyelv- és beszédtechnológia értékőrző és értékmentő, valamint az esélyegyenlőség és életminőség javításában betöltött szerepét. Bemutattunk számos, már rövid távon eredményt hozó lehetséges alkalmazást, távlati stratégiai célként jelöltük meg az emberéhez hasonló képességű gépi fordítás, beszédfelismerés és -szintézis előállítását. Ez egyelőre még majdnem utópisztikus vállalkozás, de az emberi beszédértés, a kogníció nemzetközi szinten előrehaladott kutatásaiba történő bekapcsolódás a jelen végrehajtandó feladata. A technológiai fejlesztésekkel együtt járnak a kutatás-fejlesztés hatékonyságának és gyakorlati alkalmazásának javítását szolgáló tevékenységek, a megfelelő munkaerő képzéséhez szükséges oktatás, a kutatásfinanszírozás alapelveinek lefektetése. A dokumentum ezekben a kérdésekben is igyekezett meghatározni a szükséges lépéseket. A szektor társadalmi szerepének, nemzetgazdasági jelentőségének fontosságát mutatja, hogy az európai információs társadalom előmozdítására irányuló stratégiákban a nyelv- és beszédtechnológia kiemelt helyen szerepel. A kitűzött stratégiai célok ennek a kiemelt szerepnek igyekeznek megfelelni. A magyar nyelv- és beszédtechnológia támogatása hosszútávú, kormányzati szintű elkötelezettséget kíván. Ehhez kíván szakmai támogatást nyújtani a jelen dokumentum.

Mellékletek

I Jelenkép — A magyarországi nyelv- és beszédtechnológia jelenlegi helyzetének áttekintése Tartalomjegyzék I.1.

Bevezetés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40

I.2.

Fontosabb hazai műhelyek, platformtagok . . . . . . . . . . . . .

42

I.2.1.

AITIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

I.2.2.

ALL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

I.2.3.

BME TMIT . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

I.2.4.

BME MOKK . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

I.2.5.

Kilgray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

I.2.6.

MorphoLogic . . . . . . . . . . . . . . . . . . . . . . . . . .

44

I.2.7.

Nyelvtudományi Intézet . . . . . . . . . . . . . . . . . . . . .

44

I.2.8.

SZTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

Nyelvtechnológia . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

I.3.1.

Korpuszok . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

I.3.1.1.

46

I.3.

Egynyelvű (magyar) korpuszok . . . . . . . . . . . I.3.1.1.1.

Magyar Nemzeti Szövegtár . . . . . . .

46

I.3.1.1.2.

Történeti Korpusz . . . . . . . . . . . . .

46

I.3.1.1.3.

Webkorpusz . . . . . . . . . . . . . . . .

47

I.3.1.1.4.

Szeged Korpusz és Treebank . . . . . .

48

I.3.1.1.5.

10 millió szavas szintaktikailag elemzett korpusz . . . . . . . . . . . . . . . . . .

49

I.3.1.1.6.

Jelentés-egyértelműsített korpusz . . . .

50

I.3.1.1.7.

NP-koreferencia korpusz . . . . . . . . .

50

I.3.1.1.8.

Szegedi NER korpusz . . . . . . . . . .

50

I.3.1.1.9.

Bűnügyi NE-korpusz . . . . . . . . . . .

50

I.3.1.1.10. Szemantikai szerepekkel címkézett NPkorpusz . . . . . . . . . . . . . . . . . .

51

I. MELLÉKLET – JELENKÉP

I.3.1.2.

52

Párhuzamos korpuszok . . . . . . . . . . . . . . .

52

1984 . . . . . . . . . . . . . . . . . . . .

53

I.3.1.2.2.

HUNGLISH . . . . . . . . . . . . . . . .

53

I.3.1.2.3.

SzegedParalell . . . . . . . . . . . . . .

54

I.3.1.2.4.

Acquis . . . . . . . . . . . . . . . . . . .

56

Magyar nyelvű korpuszkezelés . . . . . . . . . . .

56

Szótárak . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

I.3.2.1.

56

I.3.2.2.

I.3.3.

I.3.1.1.11. BUSZI beszélt nyelvi korpusz . . . . . . I.3.1.2.1.

I.3.1.3. I.3.2.

37

Lexikai adatbázisok . . . . . . . . . . . . . . . . . I.3.2.1.1.

Akadémiai Nagyszótár . . . . . . . . . .

56

I.3.2.1.2.

Értelmező Kéziszótár . . . . . . . . . . .

57

I.3.2.1.3.

Magyar Ragozási Szótár . . . . . . . . .

57

I.3.2.1.4.

Igei vonzatkeret-adatbázis . . . . . . . .

58

I.3.2.1.5.

Magyar kiejtési szótár . . . . . . . . . .

59

I.3.2.1.6.

Kétnyelvű szótárak . . . . . . . . . . . .

59

Magyar nyelvű ontológiák . . . . . . . . . . . . . .

60

I.3.2.2.1.

Magyar Egységes Ontológia . . . . . . .

60

I.3.2.2.2.

Magyar WordNet (HuWN) . . . . . . . .

61

Nyelvi szintek számítógépes kezelése . . . . . . . . . . . .

62

I.3.3.1.

62

I.3.3.2.

I.3.3.3.

I.3.3.4.

Szövegek szegmentálása . . . . . . . . . . . . . . I.3.3.1.1.

MtSeg . . . . . . . . . . . . . . . . . . .

62

I.3.3.1.2.

HunToken . . . . . . . . . . . . . . . . .

63

I.3.3.1.3.

ToolChain . . . . . . . . . . . . . . . . .

63

I.3.3.1.4.

MetaMorpho . . . . . . . . . . . . . . . .

63

Morfológia . . . . . . . . . . . . . . . . . . . . . .

63

I.3.3.2.1.

Humor . . . . . . . . . . . . . . . . . . .

64

I.3.3.2.2.

Xerox elemző . . . . . . . . . . . . . . .

64

I.3.3.2.3.

hunpos . . . . . . . . . . . . . . . . . . .

64

I.3.3.2.4.

hunmorph . . . . . . . . . . . . . . . . .

65

Egyértelműsítés . . . . . . . . . . . . . . . . . . .

66

I.3.3.3.1.

Szófaji egyértelműsítés az MNSZ-ben .

I.3.3.3.2.

Szófaji egyértelműsítés a Szeged Korpusz alapján . . . . . . . . . . . . . . . . . . . 66

Szintaxis . . . . . . . . . . . . . . . . . . . . . . .

66

66

I.3.3.4.1.

HumorESK . . . . . . . . . . . . . . . .

67

I.3.3.4.2.

MetaMorpho . . . . . . . . . . . . . . . .

67

38


I.3.3.5.

I.3.4.

hunpars . . . . . . . . . . . . . . . . . .

68

I.3.3.4.4.

NooJ NP-chunker és szintaktikai elemző

68

I.3.3.4.5.

Mazsola . . . . . . . . . . . . . . . . . .

68

I.3.3.4.6.

Mondattani elemzés a Szeged Treebanken 68 . . . . . . . . . . . . . . . . . . . . .

70

I.3.3.5.1.

Lexikális szemantika . . . . . . . . . . .

70

I.3.3.5.2.

Jelentés-egyértelműsítés . . . . . . . . .

70

I.3.3.5.3.

GeLexi . . . . . . . . . . . . . . . . . . .

71

Alkalmazások . . . . . . . . . . . . . . . . . . . . . . . . . .

71

I.3.4.1.

A számítógépes morfoszintaxis alkalmazásai . . .

71

I.3.4.2.

Szövegbányászat . . . . . . . . . . . . . . . . . .

72

I.3.4.3.

I.4.

I.3.3.4.3.

Szemantika

I.3.4.2.1.

Tulajdonnév-felismerés . . . . . . . . . .

72

I.3.4.2.2.

Pszichológiai szempontú szövegfeldolgozás . . . . . . . . . . . . . . . . . . . . .

73

I.3.4.2.3.

Orvosi-biológiai témájú szövegfeldolgozás 73

I.3.4.2.4.

Webbányászat . . . . . . . . . . . . . .

74

I.3.4.2.5.

Szemantikus keresés . . . . . . . . . . .

75

Gépi fordítás és fordítástámogatás

. . . . . . . .

76

I.3.4.3.1.

MetaMorpho fordítóprogram és nyelvelemző rendszer . . . . . . . . . . . . . . . . . . 77

I.3.4.3.2.

MATCHPAD . . . . . . . . . . . . . . . .

79

I.3.4.3.3.

MemoQ . . . . . . . . . . . . . . . . . .

79

I.3.4.3.4.

Hunglish . . . . . . . . . . . . . . . . . .

80

I.3.4.3.5.

Gépi fordítás a NooJ program keretében

80

Beszédtechnológia . . . . . . . . . . . . . . . . . . . . . . . . . . .

81

I.4.1.

Beszédszintézis . . . . . . . . . . . . . . . . . . . . . . . . .

82

I.4.1.1.

A beszédszintézis technológiai alapjai . . . . . . .

82

I.4.1.2.

Beszédszintetizátorok . . . . . . . . . . . . . . . .

85

I.4.2.

I.4.1.2.1.

Multivox’4 . . . . . . . . . . . . . . . . .

85

I.4.1.2.2.

Profivox rendszer . . . . . . . . . . . . .

85

Beszédfelismerés . . . . . . . . . . . . . . . . . . . . . . . .

86

I.4.2.1.

86

A gépi beszédfelismerés technológiai alapjai . . . I.4.2.1.1.

Bevezetés . . . . . . . . . . . . . . . . .

86

I.4.2.1.2.

Lényegkiemelési alapmódszerek . . . .

87

I.4.2.1.3.

Mintaillesztési alapmódszerek . . . . . .

87

I.4.2.1.4.

Az LVCSR technológia alapjai . . . . . .

88


39

I.4.2.1.5. I.4.2.2.

I.4.2.3.

I.4.2.4.

I.4.3.

A hazai beszédfelismerési alaptechnológiák viszonyítása a nemzetközi élvonalhoz 89

Az alaptechnológiák alkalmazásai . . . . . . . . .

91

I.4.2.2.1.

Parancs- és kulcsszófelismerés . . . . .

91

I.4.2.2.2.

Folyamatos beszéd felismerése . . . . .

93

I.4.2.2.3.

Zajrobusztus beszédfelismerés . . . . .

96

I.4.2.2.4.

Beszélőadaptív beszédfelismerés . . . .

96

I.4.2.2.5.

Modalitás felismerése, prozódiaintegrálása 96

I.4.2.2.6.

Beszéd érzelmi töltetének felismerése .

97

I.4.2.2.7.

Audiovizuális beszédfelismerés . . . . .

97

I.4.2.2.8.

Beszélőfelismerés . . . . . . . . . . . .

97

I.4.2.2.9.

Egyéb beszédfelismerési alkalmazások

98

Beszédfelismerési alkalmazások termékekben, szolgáltatásokban . . . . . . . . . . . . . . . . . . . . 98 I.4.2.3.1.

Telefonos dialógusrendszerek . . . . . .

98

I.4.2.3.2.

Beszélgető robotok . . . . . . . . . . . .

98

I.4.2.3.3.

Diktálórendszerek . . . . . . . . . . . . .

99

I.4.2.3.4.

Médiaarchívumban kereső rendszerek .

99

Beszédfelismerési eszközök . . . . . . . . . . . .

100

I.4.2.4.1.

AITIA - BME TMIT/Beszédfelismerési csoport . . . . . . . . . . . . . . . . . . . . . 100

I.4.2.4.2.

ALL . . . . . . . . . . . . . . . . . . . . .

I.4.2.4.3.

BME TMIT/Beszédakusztika Laboratórium 101

I.4.2.4.4.

SZTE . . . . . . . . . . . . . . . . . . . .

101

Beszédadatbázisok . . . . . . . . . . . . . . . . . . . . . . .

102

I.4.3.1.

MTBA . . . . . . . . . . . . . . . . . . . . . . . . .

102

I.4.3.2.

MRBA . . . . . . . . . . . . . . . . . . . . . . . . .

102

I.4.3.3.

BABEL . . . . . . . . . . . . . . . . . . . . . . . .

103

I.4.3.4.

Tesztel . . . . . . . . . . . . . . . . . . . . . . . .

103

I.4.3.5.

SPECO . . . . . . . . . . . . . . . . . . . . . . . .

103

I.4.3.6.

Mássalhangzó-kapcsolódásokat bemutató beszédadatbázis . . . . . . . . . . . . . . . . . . . . . . 103

I.4.3.7.

Beszédhang-kapcsolódásokat bemutató adattár .

I.4.3.8.

Magyar szavak hangidőtartamképeit bemutató adattár . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

I.4.3.9.

BEA . . . . . . . . . . . . . . . . . . . . . . . . . .

104

I.4.3.10. Magyar híranyag-adatbázis . . . . . . . . . . . . .

105

100

104

40


I.4.4.

Beszédterápia . . . . . . . . . . . . . . . . . . . . . . . . . .

105

I.4.4.1.

Beszéd- és halláspercepciós készségfejlesztő eszköz (BME TMIT) . . . . . . . . . . . . . . . . . . . 105

I.4.4.2.

Beszédmester . . . . . . . . . . . . . . . . . . . .

107

I.4.4.3.

Varázsdoboz . . . . . . . . . . . . . . . . . . . . .

107

I.4.4.4.

MONDOM-2000 . . . . . . . . . . . . . . . . . . .

108

I.4.4.5.

SPECO többnyelvű multimédiás oktatórendszer .

109

I.4.4.6.

Szemfüles . . . . . . . . . . . . . . . . . . . . . .

109

I.4.4.7.

Beszédhang alapú fejmodell animáció . . . . . . .

109

Összegzés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

109

Hivatkozások . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

110

Függelék . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

124

Rövidítések jegyzéke . . . . . . . . . . . . . . . . . . . . . . . . . .

124

I.5.

I.1. Bevezetés A nyelv- és beszédtechnológia (human language technology) az a tudományterület, ahol a nyelvészet és a mérnöki tudományok számos diszciplínája találkozik. Az összekötő kapocs közöttük a nyelv, aminek következménye, hogy a két diszciplína több ponton is átfedésbe kerül egymással. Szorosan véve ez a tudományág az írott és a hangzó nyelv feldolgozásával, illetve nyelvi produktumok előállításával foglalkozik. Határterületei közé sorolható a leíró nyelvészet, a lexikográfia, a szoftvertechnológia, a pszichológia, de egyes alkalmazások matematikai, informatikai, fizikai, fiziológiai, neurológiai és villamosmérnöki háttérismereteket egyaránt igényelnek. A nyelv- és beszédtechnológia célja az ember-ember, az ember-gép kommunikáció hatékonyabbá tétele, az emberi munkavégzés megkönnyítése újszerű, számítógépes termékek és szolgáltatások technológiai alapjainak biztosításával. Az utóbbi időszak tudományos-technológiai eredményeinek köszönhetően ugrásszerűen nőtt az elektronikus hírközlés, adatforgalom, s ez ugyanúgy érvényes a mindennapi életben, mint a hivatalos ügyintézés során. A számítógépes hálózatok segítségével pillanatok alatt jut el az információ a perifériáról a központba, ahol nagy mennyiségű adat, információ halmozódik fel. Ezek kezelése, osztályozása, szűrése már túllépte az a határt, amely emberi munkával még megoldható, ezért mindenképpen szükség van olyan számítógépes rendszerekre, amelyek az adathalmazban nemcsak karaktertömegeket, illetve hangáramlatokat látnak, hanem érdemben támogatni tudják a szövegek és beszédfolyamok feldolgozását, intelligens kezelését. A különféle nyelvtechnológiai rendszereknek természetesen nem lehet célja az emberi munka kiváltása, ehelyett annak segítése, megkönnyítése a feladatuk.


41

A nyelv- és beszédtechnológia – az elnevezésből adódóan – két nagyobb területre bontható. Egyfelől a beszédtechnológiára, amely a hangzó nyelv feldolgozásával, illetve előállításával foglalkozik. Ezen a területen belül négy részterületet különíthetünk el egymástól: a gépi beszédfelismerést (ebbe beletartozik a beszélőfelismerés, a beszélőazonosítás), a beszédkódolást (a beszédjel digitális feldolgozása, tömörítése, átformálása), a multimodális interakciót és a beszéd gépi előállítását. A másik nagy terület a nyelvtechnológia, amely – szűk értelemben véve – az írott nyelv számítógépes kezelésével foglalkozik. Az előzőekhez hasonlóan itt is megkülönböztethetünk produkciós és feldolgozásra épülő részfeladatokat. Az I.1. ábra szemlélteti a nyelvtechnológia különféle ágait [109].

I.1. ábra. A nyelvtechnológia ágai. A szövegek létrehozásában segítik a felhasználót a különböző helyesírás-ellenőrző, tördelést végző programok. A fordítástámogatás kapcsán használhatók a különféle szótárprogramok, fordítómemóriák, fordítóprogramok. Míg ennél a két alkalmazásnál a felhasználó is aktív szerepet vállal a produktum (a végső szöveg) létrehozásában, addig a megértéstámogatásnál és a kereséstámogatásnál a felhasználó pusztán az adott szövegben számára lényeges információk összegyűjtését várja el a géptől, mindennemű közreműködés nélkül. Megértéstámogatás esetében a gép az adott szövegben levő információkat gyűjti össze, kereséstámogatás esetén pedig rendszerezi, szűri, válogatja is azokat. A nyelv- és beszédtechnológiának vannak találkozási pontjai. Ilyenek például a nyelvi elemzés a beszéd gépi előállításának támogatására (szintaktikai elemzés a hangsúly előrejelzésére a szöveg alapján), a kiejtési formák jóslása az írás alapján (normál és spontán, laza ejtésű beszédre is) stb. A nyelv- és beszédtechnológia tehát sok esetben több tudományterületet áthidalva hozhat új eredményeket. A tanulmányban a magyar(országi) nyelv- és beszédtechnológia jelenlegi helyzetét, főbb műhelyeit, azok eddig elért jelentősebb eredményeit mutatjuk be a fenti témaköröknek megfelelően. A fentiek ismertetése nem lehet teljes anélkül, hogy azt ne he-

42


lyezzük nemzetközi kontextusba, így röviden a nemzetközi eredményekre is kitérünk.

I.2. Fontosabb hazai m˝ uhelyek, platformtagok A Nyelv- és Beszédtechnológiai Platform 2008-ban alakult meg 8 ipari és kutatási partner együttműködésével. Az érdekképviseleti társulás céljának tekinti, hogy előmozdítsa a hazai nyelv- és beszédtechnológia fejlesztését és a már meglévő eszközök használatát, illetve jövőképet mutasson a nyelv- és beszédtechnológia mint leendő iparág számára, aminek köszönhetően összehangoltabb és hatékonyabb lesz a területen működő szervezetek kutatási-fejlesztési tevékenysége. A platform működését a Gazdasági és Közlekedési Minisztérium támogatja a Nemzeti Kutatási és Technológiai Hivatal révén. A platform nyitott új műhelyek felvételére, így tagjainak száma folyamatosan bővül.

I.2.1. AITIA Az AITIA International Informatikai ZRt. (röviden AITIA) elsődlegesen beszédfelismeréssel, beszédminőség mérésével, beszédszolgáltatások minőségének mérésével, és szövegbányászattal foglalkozik. Az AITIA ZRt. számos vezetője egyetemi oktató, kutató. Kulcsfontosságúnak tekintik, hogy az egyetemi oktatásban piacon tapasztalatokat szerzett kutatók életképes tudást adjanak át a hallgatóknak. Honlapjuk a http://www.aitia.hu, illetve http://www.aitia.ai címen érhető el.

I.2.2. ALL Az Alkalmazott Logikai Laboratórium Kutató-fejlesztő Szövetkezet (ALL) korszerű információtechnológiai megoldások és módszerek kutatását és fejlesztését tűzte ki célul. Megalakulása óta számos technológiai megoldást és magas innnovációtartalmú fejlesztést hozott létre. Az ALL fontos céljának tekinti intelligens rendszerek kidolgozását különféle alkalmazási területekre, elsősorban matematikai, logikai és informatikai módszerek és technológiák kidolgozását tartja szem előtt. A kidolgozásra került technológiák többek között a feladatmegoldás és érveléselmélet, tudásmenedzsment és a gépi tanulás eszköztárát gazdagították. Az ALL tevékenységének főbb célterületei: számítástudomány, mesterséges intelligencia, kognitív rendszerek, nagybonyolultságú rendszerek modellezése és orvosbiológiai informatika. Az ALL kompetenciája kiterjed a rendszermodellezésre és -tervezésre, tudásmérnökségre, jelfeldolgozásra, adatanalízisre és -bányászatra, természetes nyelvi technológiákra és döntéstámogatásra. Természetes nyelvi technológiák terén mind a nyelvfeldolgozás, mind a beszédtechnológia területén fejt ki tevékenységet. Előbbi téren elsősorban a szemantikai reprezentálás témaköre, utóbbiban a beszédfelismerés, azon belül is a hangos dokumentumok keresése tartozik a profiljába. Az ALL működésében a tudomá-


43

nyos munka és az üzleti tevékenység egymást erősítő összhangban van. Honlapjuk a http://www.all.hu címen található.

I.2.3. BME TMIT A Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszéke (röviden BME TMIT) a legnagyobb beszédtechnológiai kutatóközpont Magyarországon. Elsődlegesen a gépi beszédfelismerés, a beszédszintézis, a beszédakusztika, a beszédadatbázisok létrehozása, a beszédminősítés és a beszélt nyelvű szövegfeldolgozás és a szövegbányászat területén végez kutatás-fejlesztést. A BME Villamosmérnöki és Informatikai Karán aktív részt vállal a BSc-, MSc- és PhDképzésben egyaránt. Elérhetőségük: http://www.tmit.bme.hu.

I.2.4. BME MOKK A Budapesti Műszaki és Gazdaságtudományi Egyetem Szociológia és Kommunikáció Tanszék Média Oktatási és Kutató Központja (röviden BME MOKK) – kutatóinak kétirányú felkészültsége és érdeklődése miatt – olyan projektekben vesz részt, amelyek a hálózati kommunikáció, az új média világát egyfelől társadalomtudományi, másfelől technológiai, informatikai irányból közelítik meg. Kutatás-fejlesztési profiljában kiemelt szerepe van a nyelvtechnológiának: eddigi fejlesztéseik eredményeiként elérhető többek között egy morfológiai elemző, angol-magyar nyersfordító rendszer és a Webkorpusz. A BME Szociológia és Kommunikáció Tanszék – a kari sajátosságokhoz igazodva – biztosítja a szociológia vonatkozású tárgyak oktatását a BME BA- és BSc-alapképzéseiben az egyetem összes karán, valamint felelőse a kommunikáció és médiatudományi BA-alapszakos képzésnek, emellett a médiatervező továbbképzési szak teljes oktatási munkájának. Mivel a MOKK-ot a BME és Magyar Telekom alapította meg, a Központ kezdettől fogva részt vállalt a telekommunikációs cég munkatársainak továbbképzésében az új médiával kapcsolatos szakterületen. Honlapjuk: http://mokk.bme.hu.

I.2.5. Kilgray A Kilgray Fordítástechnológiai Kft. (röviden Kilgray) az emberi fordítás számítógépes támogatásával és fordítástechnológiával foglalkozik. A Kilgray jelentős kutatási tapasztalattal bír a fordítói munka ergonómiája, a fordítás minőségbiztosítása és a nyelvfüggetlen szegmentálási és hasonlósági keresési, illetve indexelési algoritmusok területén. Vezető munkatársaik rendszeresen és régóta oktatnak fordítástechnológiát különböző fordítóképző intézményekben, elsősorban az ELTE BTK Fordító- és Tolmácsképző Tanszékén, a Szegedi Tudományegyetemen és a Miskolci Egyetemen. Elérhetőségük: http://www.kilgray.com.

44


I.2.6. MorphoLogic A MorphoLogic Kft. célja alapításától fogva az, hogy összehangolja a természetes nyelvek gépi feldolgozásának kutatását és a gyakorlati fejlesztéseket. Az elmúlt évek alatt sikerült hazánkban és a nemzetközi piacon is elérhetővé és használhatóvá tenni a jól ismert szövegszerkesztők, keresőprogramok és más számítógépes eszközök felhasználói számára a nyelvészet eredményeit; termékeik licencjogát a szoftvertechnológiai világ elismert fejlesztőcégei – többek közt a Microsoft, az IBM/Lotus, a Xerox, vagy az Adobe számára dolgozó WinSoft – megvásárolták és termékeik különféle változataiba be is építették őket. A MorphoLogic számos hazai tudományos kutatóközponttal vesz részt közös kutatási-fejlesztési projektekben, illetve uniós programok keretében külföldi tudományos akadémiákkal és egyetemekkel működik együtt. A MorphoLogic és dolgozói számos elismerésben és díjban részesültek: ezek közül is kiemelkedik az Európai Információtechnológiai Díj, az IST-Prize, melyet a rendkívül sikeres MoBiMouse rendszer innovációjáért kaptak az alkotók. Az utóbbi időben a MorphoLogic a hazai piacon az angol szövegek jobb megértését és létrehozását célozza meg, így újabb általános és szakszótárakkal, mondat-, szöveg- és weblapfordító alkalmazásokkal, illetve a webes keresés nyelvi támogatásával és nyelvhelyességi programcsaládja újabb változataival segíti a felhasználókat. Honlapjuk a http://www.morphologic.hu címen érhető el.

I.2.7. Nyelvtudományi Intézet A Magyar Tudományos Akadémia Nyelvtudományi Intézete a nyelv- és beszédtechnológia területén nyelvi korpuszok és adatbázisok létrehozásával, számítógépes alkalmazások nyelvészeti alapjainak megalkotásával foglalkozik. A Nyelvtechnológiai és Élőnyelvi Osztály jelentős kutatási tapasztalatot halmozott fel és eredményeket ért el a nyelvtechnológia, ezen belül különösen a nyelvi erőforrások kifejlesztése területén. Itt készült el a Magyar Nemzeti Szövegtár (MNSZ) első változata. A Fonetikai Osztály főbb kutatási területei között szerepel a spontán beszéd akusztikai-fonetikai és percepciós vizsgálata, a hangszalagműködés vizsgálata a beszéd létrehozásában, a beszédhangok variabilitásának és egymásra hatásának az elemzése, a koartikuláció újabb vizsgálatai, a magyar beszédhangok időtartam-meghatározási előrejelzésére alkalmas modell kidolgozása, a beszéddallam és a mondatfajták összefüggéseinek meghatározása, a spontán beszéd diszharmóniás jelenségeinek kutatása, a nyelvbotlás-korpusz folyamatos fejlesztése és spontánbeszéd-adatbázis kialakítása. Az Elméleti Nyelvészeti Osztály vizsgálódásai a grammatika minden részrendszerére (fonológia, morfológia, szintaxis, szemantika, lexikon) és azok illeszkedési lehetőségeinek a megismerésére terjednek ki – mind elméleti, mind leíró, mind pedig számítógépes nyelvészeti szempontból. Az Elméleti Nyelvészeti Osztály kutatógárdája hozta létre és működteti az MTA–ELTE Elméleti Nyelvészeti Szakcsoportot, azaz munkatársaik látják el az egyetemi szak, az arra épülő doktori program és a nem szakos hallgatók által látogatott önálló programok oktatói teendőit. Honlapjuk a http://www.nytud.hu


45

címen érhető el.

I.2.8. SZTE A Szegedi Tudományegyetem, Természettudományi és Informatikai Kar, Informatikai Tanszékcsoport (röviden SZTE) beszédtechnológiai téren beszédfelismeréssel, azon belül izolált szavas és folyamatos beszédfelismeréssel, diktálórendszerek fejlesztésével, beszélőadaptációval, beszélőnormalizálással és beszédterápiás eszközök fejlesztésével foglalkozik. A nyelvtechnológián belül különösen az információkinyerés, a tulajdonnevek és speciális tokenek felismerése és osztályozása, a szófaji egyértelműsítés, a szintaktikai elemzés, a szemantikai egyértelműsítés és a korpuszépítés területén tud eredményeket felmutatni. Munkatársaik rendszeresen oktatóként vesznek részt az informatikus hallgatók képzésében mind alap-, mind doktori szinten. Elérhetőségük: http://www.inf.u-szeged.hu/hlt, illetve http://www.inf.u-szeged.hu/rgai/.

I.3. Nyelvtechnológia Ebben a fejezetben a nyelvtechnológia fontosabb magyarországi eredményeit tekintjük át. Kitérünk a szövegek szegmentálásának kérdéskörére, a szavak morfológiai elemzésére, a fonemikus/fonetikus átirat szövegből való származtatásának kérdésére, a szintaktikai elemzésre, sorra vesszük a magyar nyelvű ontológiákat, korpuszokat, különféle szövegbányászati alkalmazásokat és a magyart mint egyik fordítási nyelvet használó gépi fordítási eljárásokat.

I.3.1. Korpuszok A legtöbb nyelvtechnológiai alkalmazás számára szükséges egy olyan, nagyméretű annotált szöveges adatbázis (korpusz), amely lehetővé teszi például a különféle tanuló algoritmusok futtatását, tesztelését, és további kutatások-fejlesztések támogatását. A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). A számítógépek kapacitásának megsokszorozódása révén a nagyméretű korpuszok összeállítása, tárolása és feldolgozása már megvalósítható, sőt kívánatos. A legnagyobb méretű, angol nyelvű szövegeket tartalmazó korpuszok az alábbiak: British National Corpus (BNC), Wall Street Journal (WSJ), Reuters. Ezek körülbelül 100 millió szövegszót tartalmaznak, és a dokumentumok, bekezdések határai jelölve vannak bennük, egyéb (nyelvi) annotációt azonban nem tartalmaznak. A Gigaword korpusz körülbelül 2 milliárd szóból áll, ez sem tartalmaz nyelvi annotációt – már méreténél fogva sem. A nyelvi annotációt tartalmazó angol nyelvű korpuszok közül a

46


legismertebb a Penn TreeBank, mely 5 millió szövegszót tartalmaz. A szavak szófaji kódja (POS-tag) meg van adva, és szintaktikai elemzés (konstituensfa) is található a korpusz mondataihoz. A magyar nyelvtechnológia berkein belül is számos jelentős korpusz született meg, melyeket az alábbiakban részletesen is bemutatunk. I.3.1.1. Egynyelv˝ u (magyar) korpuszok I.3.1.1.1. Magyar Nemzeti Szövegtár. A Magyar Nemzeti Szövegtár (MNSZ) munkálatai 1998 elején kezdődtek el a Magyar Tudományos Akadémia Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán Váradi Tamás vezetésével. A cél egy 100 millió szavas szövegkorpusz létrehozása volt, amely lehetőségeihez mérten reprezentatívan tartalmazza a mai magyar nyelv jellegzetes megnyilvánulásait, tehát az MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni. A munkálatok 2002-től a Kárpát-medencei Magyar Nyelvi Korpusz projekt keretében kiegészültek a teljes Kárpát-medence magyar nyelvhasználatára kiterjedő gyűjtéssel, amelynek célja egy 15 millió szavas határon túli korpusz létrehozása volt. 2005 novemberében mutatkozott be a szlovákiai, kárpátaljai, erdélyi és vajdasági nyelvváltozatokkal kiegészült, valóban nemzetivé váló Magyar Nemzeti Szövegtár. A Nyelvi Irodák és a Korpusznyelvészeti Osztály együttműködésének köszönhetően az első olyan magyar nyelvi korpusz jött létre, amely a magyarországiak mellett a határon túli magyar nyelvváltozatokat is felöleli [153]. Az MNSZ lényegi tulajdonsága, hogy minden szó mellett feltünteti a szótövet, a szófajt és a szó morfológiai elemzését is. A szótő, szófaj és elemzés megállapítása és az elemzések egyértelműsítése automatikus gépi eszközökkel történik. A rendszer megbízhatósága kb. 97,5%-os, így az összes szóalak kb. 2,5%-a hibásan van elemezve. Ennél jobb eredményt csak a kézi elemzés biztosíthatna, ami ekkora méretű anyag esetén megvalósíthatatlan. Az MNSZ jelenleg 187,6 millió szövegszót tartalmaz. Egyrészt öt regionális nyelvváltozatra oszlik, másrészt ezen belül öt stílusrétegből tartalmaz szövegeket. Az aktuálisan vizsgálandó alkorpuszt ezek tetszőleges variációjaként választhatjuk ki. A határon túli nyelvváltozatokkal kiegészülve a Szövegtár tehát alkalmassá vált nemcsak stílusrétegek, hanem nyelvváltozatok szerinti összehasonlító vizsgálatok elvégzésére is. Az MNSZ felépítését az I.1. táblázat mutatja be (a számszerű adatok millió szóban vannak megadva, százezer szóra kerekítve): Az MNSZ ingyenes regisztrációt követően bárki számára elérhető a http://mnsz. nytud.hu címen. Az MNSZ-ben található igék és bővítményeik a Mazsola nevű eszközzel vizsgálhatók (bővebben ld. I.3.3.4.5.). I.3.1.1.2. Történeti Korpusz. A korpuszt eredetileg az Akadémiai Nagyszótár munkálatainak segítésére állították össze a Nyelvtudományi Intézetben. 16-20. századbeli


47

magyaro.-i szlovákiai kárpátaljai erdélyi vajdasági össz. sajtó

71

5,7

0,7

5,5

1,5

84,5

szépirodalom 35,5

1,4

0,4

0,8

0,2

38,2

tudományos

20,5

2,3

0,7

1,6

0,3

25,5

hivatalos

19,9

0,2

0,3

0,6

0,1

20,9

személyes

17,8

-

0,4

0,4

0,1

18,6

összesen

164,7

9,5

2,5

8,9

2,0

187,6

I.1. táblázat. Az MNSZ felépítése szövegekből kiindulva filológusok egy csoportja alakította ki a korpuszt, mely jelenlegi formájában 27 millió szövegszót tartalmaz morfológiailag elemzett alakban. A régies helyesírású szavak kezelésére külön heurisztikákat kellett kidolgozni [65]. A korpusz nyilvánosan elérhető a http://www.nytud.hu/hhc oldalon. I.3.1.1.3. Webkorpusz. Több mint 1,48 milliárd szóval (szűretlenül, illetve 589 millió megszűrt szóval) ez jelenleg a legnagyobb magyar nyelvű korpusz. Teljes méretében hozzáférhető és elérhető a http://mokk.bme.hu/resources/webcorpus címen. A Webkorpusz 2003 telén született a Szószablya projekt keretében a MOKK-ban [53]. A korpusz 18 millió weboldalból áll, melyeket a .hu doménből származnak, így viszonylag átfogó módon reprezentálja a magyar írott köznyelvet. A többszörösen előforduló szövegállományok, illetőleg a használható szöveget nem tartalmazó állományok ki lettek szűrve. A maradék szövegállományok négy osztályba lettek sorolva a helyesírás-ellenőrző program által elfogadott szavak arányának függvényében. Csak 40%-nyi fel nem ismert szót megengedve, minden nem magyar nyelvű dokumentumot nagy biztonsággal ki lehetett szűrni. 8%-os küszöbnél minden ékezet nélküli oldal eltűnt, de az internet- és más szakmai zsargont tartalmazó oldalak még bennmaradtak. 4%-os határnál csak azok az oldalak maradtak meg, amelyek egy átlagos nyomtatott dokumentumnál kevesebb hibát tartalmaztak. A küszöbérték további csökkentése nem növeli a megmaradt szöveg minőségét, hanem eltávolít minden olyan oldalt, amelynek a helyesírása nem felel meg a szigorú normáknak. A korpusz mérete az I.2. táblázatból olvasható le. A szövegek teljes állományát alapul véve előállt egy gyakorisági szótár [68], mely a különböző szűrési szintek mellett tartalmazza az egyes szóalakok gyakoriságát. A Webkorpusz kétféle formátumban tölthető le: mint a szövegeken alapuló gyakorisági szótár, és mint az eredeti szövegek összessége. A BME MOKK munkatársai létrehoztak egy webes felületet is a korpuszhoz a korpusznyelvészeti és pszicholingvisztikai célú keresések támogatására [52], mely hozzáférhető a http://szotar.mokk.bme.hu/szoszablya/searchq.php webcímen.

48


korpusz oldalak (millió) token (millió) típus (millió) teljes

3,5

1486

19,1

40%

3,125

1310

15,4

8%

1,918

928

10,9

4%

1,221

589

7,2

I.2. táblázat. A Webkorpusz mérete I.3.1.1.4. Szeged Korpusz és Treebank. A Szeged Korpusz szövegeinek gyűjtése 1999-ben kezdődött meg [29]. A szövegek kiválasztása során a legfőbb szempont az volt, hogy tematikailag a lehető legkülönfélébbek legyenek. Végül egy három tagból álló konzorcium (Szegedi Tudományegyetem, Nyelvtudományi Intézet és MorphoLogic Kft.) öt különböző témakörből választotta ki a szövegeket; nevezetesen: szépirodalmi írásokból, 14-16 éves tanulók fogalmazásaiból, napilapokban és folyóiratokban megjelent újságcikkekből, jogi szövegekből, és számítástechnikai szövegekből, témakörönként kb. 200 ezer szó terjedelemben. Az így összegyűjtött korpusz 1 millió szövegszót és további 200 ezer írásjelet tartalmaz. A Szeged Korpusz első verziója egy morfoszintaktikailag elemzett és kézzel egyértelműsített természetesnyelvi szöveges adatbázis, amely 139 000 különböző szóalakot tartalmaz. A szövegek morfoszintaktikai annotálásához a nemzetközileg elfogadott MSD (Morpho-Syntactic Description) kódrendszert használták. A korpusz jelen verziója a többjelentésű szavak esetében csak a kiválasztott morfoszintaktikai kódokat tartalmazza, a lehetségeseket nem tünteti fel. A Szeged Korpusz 2.0 verziója az 1.0 verzió kibővítésével keletkezett. A meglévő 1 millió szavas szövegállományt egy 200 ezer szavas rövidhír részkorpusszal bővítették ki, amely elsősorban gazdasági és pénzügyi rövidhíreket tartalmaz. Így a korpusz mérete 1,2 millió szövegszóra nőtt, amely 155.500 különböző szóalakot tartalmaz, és további 250 ezer írásjelet is magában foglal. A korpusz második verziója az elsőhöz hasonlóan egy morfo-szintaktikailag elemzett és kézzel egyértelműsített természetesnyelvi szöveges adatbázis. A méretnövekedésen kívül az első verziótól abban tér el, hogy a kontextusnak megfelelően kiválasztott morfoszintaktikai kódok mellett a lehetséges kódok is szerepelnek az adatbázisban, így hatékonyan alkalmazható automatikus szófaji annotáló módszerek tesztelésére. A természetesnyelvi feldolgozás fontos lépése a szintaktikai elemzés és annotálás, azaz a különböző szintaktikai egységek, pl. főnévi vagy melléknévi csoportok, névutós szerkezetek bejelölése. Mivel a mondatok többségében az egész mondat jelentése szempontjából a főnévi csoportok (NP-k) kulcsfontosságú szerepet játszanak, ezért a Szeged Treebank 1.0 verziójában ezeknek a szerkezeteknek a bejelölése volt az elsődleges cél. Ezen kívül, ugyancsak a mondatok tartalmának értelmezhetősége szempontjából, fontos szerepe van a tagmondatok (CP-k) elkülönülésének és egymáshoz való viszonyának (alárendelés, mellérendelés), ezért ezeket is jelölték a szövegeken. A főnévi csoportok és tagmondatok bejelölését a Szeged Korpusz 2.0


49

állományán, 82 000 mondaton végezték. Számos olyan alkalmazásról tudunk, ahol elegendő a szövegek részleges szintaktikai elemzése (shallow parsing). Ilyen pl. az automatikus információkinyerés (information extraction) vagy kivonatolás (text summarisation) is. Az itt leírt Szeged Treebank 1.0 verzió ilyen alkalmazásokban került felhasználásra, illetve további elemzéshez szolgál kiindulópontként. A Szeged Treebank 2.0 az első verziónál gazdagabb elemzést és annotációt tartalmaz. Jelen verzió magában foglalja az összes előző verzió eredményeit (morfoszintaktikai, NP- és CP-annotálást), és ezt kiegészíti további szintaktikai elemzéssel, amely a melléknévi, határozószói csoportok, névutós szerkezetek, igék stb. bejelölését foglalja magában. A treebank kialakításakor a már ismert forrásmunkákra és meglévő elméletekre támaszkodtak a készítők. Ezek tanulmányozásával és összevetésével nyelvész szakértők egy konzisztens szintaktikai szabályrendszert dolgoztak ki a generatív szintaxis szabályainak megfelelően. A használt szintaktikai címkék a nemzetközi szabványnak megfelelőek, és lehetővé teszik az adott szintaktikai szerkezetre vonatkozó attribútumok tárolását is. A Szeged Treebank 2.0-ra vonatkozó statisztikai adatokat az I.3. összefoglaló táblázat mutatja. Témakörök

divíziók

bek.-k

<s> <w> mondatok szavak

több értelmű írásjelek szavak

Szépirodalom

118

4847

18558

185436

47990

55,85%

Fogalmazások

1157

4097

24720

278497

59419

59,69%

Újságcikkek

434

2863

10210

182172

32880

50,69%

Számítástechnikai 508 szövegek

1811

9759

175991

31577

48,20%

Jogi szövegek

1201

4114

9278

220069

33515

49,90%

Rövidhírek

6453

6528

9574

186030

25719

45,15%

Összes

9871

24260

82099

1228195 231093

51,58%

I.3. táblázat. A Szeged Treebank 2.0 felépítése A részletes kézi annotálásnak köszönhetően a Szeged Korpusz és Szeged Treebank különböző verziói megbízható tanulási és tesztelési adatbázisként szolgálnak számítógépes tanulóalgoritmusok számára. Jelenleg a Szeged Treebank dependencia formátumra történő alakítása zajlik a Szegedi Tudományegyetemen. A korpusz és a treebank állományok oktatási és kutatási célra ingyenesen hozzáférhetők (http: //www.inf.u-szeged.hu/projectdirs/hlt/). I.3.1.1.5. 10 millió szavas szintaktikailag elemzett korpusz. A 10 millió szavas szintaktikailag elemzett korpusz elsősorban gépi tanulási kísérletekhez való felhaszná-

50


lásra készült. Mivel nem elérhető ekkora kézzel elemzett magyar korpusz, a szükséges szintaktikai elemzést automatikus módszerrel kellett biztosítani. A korpusz szövege az MNSZ négy alkorpuszából származik, az alábbi arányok szerint összeállítva: sajtó 4.5 M szépirodalom 2.07 M tudományos 2.2 M hivatalos 2.08 M összesen 10.850.000 szó A szövegek morfológiai elemzése az MNSZ-ben szereplő elemzésnek és egyértelműsítésnek felel meg. A részleges szintaktikai elemzés teljes egészében a NooJ magyar moduljával [44] készült. Az elemzés kizárólag szintaktikai jegyekkel dolgozik, és célja, hogy tagmondati szinten felismerje és lemmásítsa az igei állítmányt, az állítmányhoz vonzatként/adjunktumként kapcsolódó (legfelsőbb szintű) frázisokat, és a frázisok azon szintaktikai tulajdonságait, melyek a bővítményi szerep betöltését jelzik, illetve annak feltételeit (pl. esetrag, szám, kategória). A korpusz kutatási célokra külön megállapodás alapján érhető el, információ: [email protected]. I.3.1.1.6. Jelentés- egyértelm˝ usített korpusz. Az első magyar jelentés-egyértelműsített korpusz [173] 39 szóalak egyenként 350-500 egyértelműsített előfordulását foglalja magában. A jelentések definíciója a magyar wordnet (HuWN) megfelelő synsetjein alapul (ld. I.3.2.2.1.). Az adatbázis kutatási célokra ingyenesen hozzáférhető a http: //www.inf.u-szeged.hu/rgai címen. I.3.1.1.7. NP- koreferencia korpusz. Az NP-koreferenciák feloldására szolgáló program [83] megvalósításához szükség volt egy NP-koreferenciaannotált korpuszra is. Ez a korpusz szintén a HuWN-ben (ld. I.3.2.2.2.) található fogalmakat, illetve az azok között húzódó lexikai-szemantikai viszonyokat hasznosítja. I.3.1.1.8. Szegedi NER korpusz. A Szegedi NER korpusz a Szeged Treebank [30] gazdasági rövidhíreket tartalmazó alkorpuszának tulajdonnév-annotált része, körülbelül 220000 szövegszónyi állomány. A használt tulajdonnév-kategóriák a következők: személy (PERSON), szervezet (ORGANIZATION), hely (LOCATION) és egyéb (MISCELLANEOUS). A tematika egységes voltának köszönhetően a korpuszban jóval nagyobb arányban fordulnak elő szervezetnevek, mint a többi kategóriába sorolható elem [123]. Az adatbázis kutatási célokra ingyenesen letölthető a http://www.inf. u-szeged.hu/projectdirs/hlt/index_en.html oldalról. I.3.1.1.9. B˝ unügyi NE- korpusz. A Szegedi Tudományegyetemen épített bűnügyi tematikájú korpusz kiindulópontjaként az MNSZ szolgált, melynek HVG részkorpuszából gyűjtötték le azokat az anyagokat, melyek témájukban nagy valószínűséggel a


51

vám- és jövedéki bűncselekményekkel kapcsolatosak. A hírek gyűjtése témaspecifikus kulcsszólista alapján történt. A legyűjtött 472 cikkből egy 540 ezer szövegszó méretű névelemcímkézett korpusz állt elő, mely így nemzetközi összehasonlításban is jelentősnek mondható szöveges adatbázis. Ezen az anyagon a személy, szervezet, hely és egyéb kategóriák bejelölése történt meg. A korpusz két változatban is elkészült. A tag-for-meaning annotáció készítésekor a nyelvész szakértők a címkék hozzárendelésekor tekintettel voltak a névelem adott kontextusbeli szerepére, azaz nem a névelem elsődleges jelölete alapján határozták meg a konkrét címkéket (pl. Manchester → LOC), hanem az adott kontextusban referált entitás szerint (pl. a Manchester továbbjutott a csoportkörből → ORG). A tag-for-tag annotációnál ilyen különbségtétel nem volt: mindig az elsődlegesen jelölt entitás típusa alapján történt a jelölés. A korpuszban előforduló névelemek statisztikai adatait az I.4. táblázat mutatja. tag-for-meaning

tag-for-tag

LOC

5049

5391

ORG

8782

9480

PER

8101

8121

MISC

1917

854

I.4. táblázat. A Bűnügyi NE-korpusz névelemeinek eloszlása típusok szerint A korpuszban a szervezet és a személy kategóriájú tulajdonnevek vannak túlsúlyban, akár a tag-for-tag, akár a tag-for-meaning annotációt vesszük figyelembe: a hely és egyéb nevek jóval kisebb arányban fordulnak elő. Ez valószínűleg a korpusz tematikájának köszönhető [16]. Az adatbázis kutatási célokra ingyenesen hozzáférhető a http://www.inf.u-szeged.hu/rgai weboldalon. I.3.1.1.10. Szemantikai szerepekkel címkézett NP- korpusz. Az NP-korpusz az INTEX magyar nyelvű moduljába [156] illeszkedő szabályalapú elemzéssel készült az MTA Nyelvtudományi Intézetének Korpusznyelvészeti osztályán 2005-ben. A szemantikai szerepekkel címkézett, XML formátumú korpuszban a főnévi csoportokon és a főnévi csoportok szemantikai szerepein kívül jelölve vannak a főnévi csoportok fejei és ezek esetragjai is. A korpusz Méray Tibor: Nagy Imre élete és halála (1958) c. művének elemzett változata, 12545 mondatot, 29855 főnévi csoportot és 1238 szemantikai szereppel címkézett főnévi csoportot tartalmaz. Az alkalmazott módszerről és a szemantikai szerepek pontos leírásáról l. [42]. A korpusz indexálva van és lekérdezhető a British National Corpus lekérdező kliensének, a Xaira-nak a magyar nyelvű változatával. A korpusz elérhető az MTA Nyelvtudományi Intézetének Nyelvtechnológiai kutatócsoportjának honlapján.

52


I.3.1.1.11. BUSZI beszélt nyelvi korpusz. A Budapesti Szociolingvisztikai Interjú (BUSZI) hanganyagának lejegyzett változatából készült el az első magyar korszerű XML formátumú beszélt nyelvi korpusz az MTA Nyelvtudományi Intézetében [97]. A 268 ezer szónyi adatbázis komplex nyelvi információt tartalmaz: egyrészt tartalmazza a BUSZI-ban kódolt számos beszéltnyelvi jelenséget (szünet, hezitáció, hangkiesések, párhuzamos beszéd stb.), emellett az egyes szavakhoz fonetikai reprezentációt, valamint regularizált alakot, illetve a regularizált alakokhoz szótövet és egyértelműsített morfológiai elemzést is rendel. A korpuszhoz korlátozottan (csak kutatók számára, külön engedéllyel) hozzáférhető részletes lekérdező felület tartozik. Az adatbázis számos jelenség tekintetében statisztikai vizsgálatok elvégzéséhez is elegendő adatot (akár több tízezer találatot) szolgáltat. A korpusz kutatási célokra külön megállapodás alapján érhető el, információ: [email protected]. I.3.1.2. Párhuzamos korpuszok A természetes nyelvi feldolgozásban az utóbbi években egyre fontosabb szerephez jutnak az olyan szövegek, amelyek két vagy több nyelven elérhetők, és szegmenseik egymáshoz rendelhetők. Ezeket az írott szöveg- vagy beszédállományokat, amelyek két-, illetve többnyelvű szövegekből állnak, és tartalmilag megfeleltethetők egymásnak, párhuzamos korpuszoknak (parallel corpora) nevezzük. Más meghatározás szerint a párhuzamos korpuszok olyan két- vagy többnyelvű korpuszok, amelyben egy mű és annak egy vagy több nyelvre lefordított változatai szerepelnek. A párhuzamos korpuszok a számítógépes nyelvészet számos területén hasznosíthatók. Például, a lexikográfia számára nagy jelentőséggel bírhat az, hogy a többnyelvű szövegekből kinyerhetjük adott szavak vagy szókapcsolatok más nyelvű megfelelőit, ezáltal automatikusan vagy minimális emberi felügyelettel lehetséges két- vagy többnyelvű szótárak létrehozása. További alkalmazási lehetőség adódik a fordítástámogatás, -oktatás és -kutatás területén. Az összerendelt egységeket be lehet építeni különböző fordítást segítő eszközökbe (pl. fordítómemóriákba), illetve szemléltető példákat lehet gyűjteni különféle fordítási technikákra, ami jól hasznosítható fordítók és tolmácsok képzésében. Felhasználhatók a gépi fordításban is, hiszen a szinkronizált egységek felfoghatók egymás fordításaként, így a rendszer azokat automatikusan tudja kezelni, felhasználni (pl. fordítást előállítani). Ez megvalósulhat mondat, szókapcsolat, vagy szó szintjén is. A kontrasztív nyelvészet számára is igen fontosak a párhuzamos korpuszok. Egy kétnyelvű adatbázisban jóval könnyebben nyílik arra lehetőség, hogy egy adott nyelvi jelenség másik nyelvben előforduló megfelelőit megtaláljuk, így a példák megkeresése és az adatgyűjtés egyszerűbbé válik a párhuzamos korpusz nyelveinek vizsgálatával foglalkozó kutató számára. A párhuzamos korpuszok az információkinyerésben is hasznosíthatók. Ha az egyik nyelvre rendelkezünk egy kidolgozott IE-technikával, akkor egyszerűen csak azt kell megnézni, hogy a másik nyelvben mi feleltethető meg a kinyert adatoknak. A mondatok szintjén ez a legtöbb párhuzamos korpuszban nem okoz problémát, ám mondaton belül problémákba ütközhetünk, hacsak a korpusz nem tartalmaz szó vagy kifejezésszintű szinkronizációt. A párhuzamo-


53

sítás azonban megkönnyíti a feladatot, különösen ha a korpuszok rendelkeznek valamilyen szintű annotációval (pl. szintaktikai annotációval). A párhuzamos korpuszok alkalmasak szakszóanyag kigyűjtésére is. A forrásszövegben meglévő szakkifejezéseket egyszerűen megtalálhatjuk a másik nyelvű szövegben is. Ennek segítségével lehetőség nyílik terminológiai szótárak készítésére, illetve annak ellenőrzésére, hogy a fordítás a szakkifejezések szempontjából a megfelelő konzisztenciával rendelkezike. Az idegen nyelvű párhuzamos korpuszok közül meg kell említeni a kanadai parlamenti jegyzőkönyvekből álló Hansard korpuszt, melyet angol-francia gépi fordítási alkalmazásokban hasznosítanak, illetve az UN Parallel Text korpuszt, mely az ENSZ archív, angol-spanyol-francia nyelvű dokumentumaiból áll össze. Az állományok mondatszinten vannak párhuzamosítva. I.3.1.2.1. 1984. Az Európai Unió által támogatott MULTEXT projekt célja az volt, hogy a TEI-ajánlás alapján kialakított ún. Corpus Encoding Specification DTD-nek megfelelő többnyelvű mintakorpuszokat hozzon létre, ezzel tesztelve a többnyelvű szövegek számítógépes feldolgozásának lehetőségeit, illetve a TEI alkalmazhatóságát más (nem angol) nyelvű szövegekre. A MULTEXT-East projekt keretében egyetlen regényt, Orwell 1984 című alkotását rögzítettek tíz nyelven (bolgár, cseh, észt, lett, litván, magyar, orosz, román, szerb-horvát és szlovén), az egyes változatokat egységes azonosítórendszerrel rendelve egymáshoz [31]. A korpuszban minden szövegszó morfológiailag elemezve és egyértelműsítve van. A magyar változatot a MorphoLogic, illetve az MTA Nyelvtudományi Intézet munkatársai készítették, lekérdezőfelületen keresztül szabadon elérhető: http://corpus.nytud.hu/demo/orwell/. I.3.1.2.2. HUNGLISH. A Budapesti Műszaki Egyetem és a Nyelvtudományi Intézet közösen vett részt a Hunglish projektben, melynek fő célja egy statisztikai elven működő gépi nyersfordító rendszer kifejlesztése volt. A feladat megoldásához szükség volt egy mondatszinten illesztett, magyar–angol párhuzamos korpuszra. A projekt eredményeként tehát — az angol-magyar nyersfordító prototípus mellett — elkészült egy automatikus mondatillesztő program, létrejött egy angol-magyar párhuzamos korpusz, illetve kialakult egy teljes párhuzamos korpusz építésére alkalmas eszközkészlet és módszertan [51]. A párhuzamos korpusz építésekor általában szépirodalmi szövegeket és igényes műfordításokat szoktak gyűjteni. Mivel a Hunglish korpusz építőinek nem céljuk szépirodalmi művek fordítása, hanem elsősorban a piaci követelmények szerinti tenderek és egyéb pályázatok fordítása, ezért a korpuszukat nem elsősorban szépirodalmi szövegekre alapozták, hanem a világhálón található többnyelvű szerverekre koncentráltak, így a korpusz az alábbi fő forrásokból épül fel. Az irodalmi szövegek fő forrása a Project Gutenberg és a Magyar Elektronikus Könyvtár, ahonnan azok az irodalmi művek kerültek be, amelyeknek szerepelt az angol és a magyar nyelvű változata is. A jogi szövegek forrása az EU közösségi jogszabályok CELEX adatbázisa és az Európai Al-

54


kotmány. A nyílt forráskódú szoftverek honosításainak eredményei közül a korpuszba a KDE, Gnome, OpenOffice, Mozilla és GNU eszközök dokumentációi kerültek be. Az adatbázisban szerepel kb. 400 film felirata is. Kétnyelvű magazinokból, illetve magazinok magyar nyelvre fordított kiadásaiból (National Geographic és a Diplomacy and Trade magazin néhány számából) származó szövegek is feldolgozásra kerültek, ezenkívül a Magyar Telekom Rt.-től származó nagy mennyiségű távközlési témájú sajtóanyag is bekerült a korpuszba, amelyet fordítóik ültettek át angol nyelvre. A korpusz részletes adatait az I.5. táblázat mutatja. forrás

Angol (millió)

tokenek Magyar (millió)

irodalom

14,6

11,5

jog

24,1

18,3

filmfelirat

2,5

1,9

szoftver

0,8

0,7

magazinok

0,3

0,3

sajtó

2,1

1,7

összesen

44,5

34,5

tokenek

I.5. táblázat. A Hunglish korpusz felépítése A korpusz kétnyelvű anyagai dokumentum- és mondatszinten vannak párhuzamosítva. A párhuzamosításhoz fejlesztették ki a hunalign programot. A program elsőként elkészíti a magyar szöveg angol nyersfordítását, majd ez alapján hasonlósági értéket számít a forrásszöveg és célszöveg között. A megtalált mondatpárok alapján szótári tételeket azonosít, majd a kibővített szótár segítségével újra végrehajtja az első két lépést. A teljes korpusz letölthető a http://mokk.bme.hu/resources/hunglishcorpus címről. A hunalign forráskódja és az angol-magyar lexikai erőforrások elérhetők a http: //mokk.bme.hu/resources/hunalign címen. A korpusz az angoloktatásban újszerű kétnyelvű szótárként használható. Egyrészt valódi élőnyelvi példaanyaggal szolgál, másrészt kifejezések, sőt tetszőleges kollokációk keresésére alkalmas. Megtudható belőle, hogy adott szó vagy kifejezés hogyan, milyen környezetben, szituációban használatos, illetve mik lehetnek a párhuzamos nyelvi megfelelői, fordításai [116]. A hunglish korpuszon alapuló magyar-angol kétnyelvű szótárként használható alkalmazás a http://szotar.mokk.bme.hu/hunglish/search/corpus címen található. I.3.1.2.3. SzegedParalell. Az SZTE Mesterséges Intelligencia Kutatócsoportja egy nagyméretű angol-magyar párhuzamos korpuszt kezdett el építeni, melyben válogatott, nyelvtani és fordítási szempontból ellenőrzött szövegek szerepelnek. Az így elő-


55

álló korpusz jól használható tanuló és tesztelő adatbázisként statisztikai gépi fordítóprogramokhoz. A korpusz, felépítését tekintve, alapvetően két nagyobb egységre bontható: nyelvtankönyvi mondatok és autentikus szövegek. A nyelvtankönyvi mondatok előnye, hogy egy adott nyelvtani témakörre rengeteg variációban ad meg példamondatokat. Ezek a mondatok, noha néha túlságosan mesterkélt hatást keltenek, a fordítómemória szempontjából jól használhatóak, mivel egy-egy nyelvtani jelenségre rengeteg szerkezeti lehetőséget ad meg. Ez a korpuszrész többnyire Dévainé Angeli Mariann Angol nyelvtani gyakorlatok és Dohár Péter Kis angol nyelvtan című könyvének különálló párhuzamos mondataiból áll. Ezeket a könyveket nyelvvizsgára készülő hallgatók számára készítették, ezért nem túl valóságos a nyelvezete, szóhasználata. Vannak olyan mondatok, amelyek hűen tükrözik a mai angol nyelvet, ám vannak olyanok is, amik túlságosan mesterséges, „gyártott” mondatoknak tűnnek. Ezek a könyvek az angol nyelvtan sajátosságait hivatottak reprezentálni, nem a mai szóhasználatot. A nyelvtankönyvi mondatok mellett autentikus szövegek is beépültek a párhuzamos korpuszunkba, így biztosítva az egyensúlyt a mesterkélt és a természetes nyelvi szerkezetek között. Így például az Európai Unióról szóló korpuszrész anyaga a http: //europa.eu.int weboldalról és a Wikipedia weboldaláról származik, amelyek általános nyelvű és hétköznapi témájú szövegeket tartalmaznak, például az EU történetéről, zászlójáról, himnuszáról, pénzneméről stb. Két kétnyelvű magazinból (Horizon és MÁV Intercity) származó szövegek is bekerültek a korpuszba, ezeknek témaköre általában kultúra, utazás, interjúk hírességekkel, nevezetesebb városok bemutatása stb. Ezenkívül irodalmi művek is részét képezik a korpusznak. A szövegek forrása egyrészt a Hunglish korpusz irodalmi része, másrészt a Magyar Elektronikus Könyvtárban elérhető kétnyelvű szövegek, harmadrészt pedig olyan szövegek, amelyeknek angol és magyar változata is elérhető és szabadon letölthető volt a weben. A korpusz adatait az I.6. táblázat szemlélteti. Szövegek

Mondatszinkronizációs egység

tankönyvi mondatok

2.937

Európai Unióról szóló szövegek

1.518

Horizon Magazin

3.980

Resource Ingatlan Info

250

Hunglish irodalmi korpusz

53.001

egyéb

50

összesen

61.486 I.6. táblázat. A SzegedParalell korpusz felépítése

A korpuszt bekezdés és mondat szintjén párhuzamosító hibrid eljárás [141] végeredményét kézzel ellenőrizték és javították, előállítva ezzel az első kézileg ellenőr-

56


zött angol-magyar párhuzamos korpuszt. Az adatbázis kutatási célokra ingyenesen hozzáférhető a http://www.inf.u-szeged.hu/rgai oldalon. I.3.1.2.4. Acquis. A JRC-Acquis korpusz egy ingyenes, az EU 20 hivatalos nyelvén elérhető, TEI-XML formátumú párhuzamos korpusz, amely nyelvenként csaknem 8000 dokumentumot tartalmaz. A dokumentumok jórészt jogi szövegekből állnak, és átlagosan 9 millió szövegszó hosszúságúak. A szövegek bekezdés szintű megfeleltetését két külön illesztővel is (Vanilla és HunAlign) elvégezték az összes nyelvpárra. A korpusz letölthető a http://wt.jrc.it/lt/Acquis/ címről. I.3.1.3. Magyar nyelv˝ u korpuszkezelés Az MTA Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán 2004-2005-ben készült el a Xaira korpuszindexáló és lekérdező szoftver Windows alatt futó magyar változata. A Xaira egy olyan eszköz, amely nyelvészeti adatok keresését, kivonatolását és megjelenítését teszi lehetővé XML formátumú korpuszokból. A Xaira-t eredetileg a British National Corpus lekérdezésére kezdte el fejleszteni az Oxford University Computing Services (l. http://www.oucs.ox.ac.uk/rts/xaira/). A programcsomag indexáló komponenssel való bővítése a British National Corpus lekérdezésén kívül a Nyelvtudományi Intézetben létrehozott magyar nyelvű korpusz lekérdezését is lehetővé teszi. A beépített tokenizálóra és a sokfajta lekérdezési mechanizmusra támaszkodva már minimális XML annotációval rendelkező korpuszokból is sokféle információt kérdezhetünk le. Az indexáló használata is gyors és egyszerű. A lekérdező használatát részletes magyar nyelvű súgó is segíti. A magyar változat szabadon letölthető a http://hlt.nytud.hu/xaira.html linkről.

I.3.2. Szótárak A hazai piacon jelen levő szótárprogramok nagy része nem tekinthető nyelvtechnológiai produktumnak, mindössze egy nyelvi egységeket (szavakat, kifejezéseket) tartalmazó adatbázisnak: ilyenek például a 90-es évektől széles körben használt GIB szótárak a Scriptumtól (http://www.scriptum.hu), vagy a közismert internetes Sztakiszótár (http://dict.sztaki.hu). A számítógépes lexikográfia fejlődésének köszönhetően azonban számos elektronikusan (is) elérhető intelligens szótár jött létre, melyek egy része online üzemmódban is működik. Ezeket mutatjuk be röviden a következőkben. I.3.2.1. Lexikai adatbázisok I.3.2.1.1. Akadémiai Nagyszótár. A Magyar Tudományos Akadémia 1984-es döntése értelmében az Akadémiai Nagyszótár létrehozásával kapcsolatos munkálatokat


57

számítógépes korpuszból gyűjtött adatok alapján kell folytatni [104]. Az így létrejött szótár elsősorban a köz- és irodalmi nyelv, illetve kisebb részben egyéb nyelvi rétegek (tájnyelv, szaknyelv, szleng stb.) szókészletét nyomtatásban megjelent szövegek felhasználásával dolgozza fel a nyelvújítás korától napjainkig. Forrásanyaga a 27 millió szövegszónyi elektronikus Magyar történeti szövegtár, a mintegy 6 millió cédulából álló gyűjtemény, amelyet a 19. század végétől a 20. század közepéig hoztak létre, valamint egy CD-tár anyaga. 2005-ben megtörtént az 1985 és 2000 között összeállított elektronikus adatbázis kiegészítése és javítása. Az így létrejött, illetve kiegészült anyag a magyar szókincs történetének vizsgálatához és különféle szótárírási munkákhoz kínál jó alapot. Ez a nagyszótári jellegű, értelmező és történeti típusú szótár az 1772 és 2000 közötti korszak szókincsét minden eddigi szótárnál bővebb címszókészlettel és gazdagabb jelentésszerkezettel mutatja be, érzékeltetve a lexémák történeti fejlődését is. A jelentéseket példamondatokkal illusztrálja, megjelölve azok pontos lelőhelyét. Minden esetben felveszi a szótár az adott jelentés korpuszbeli első előfordulását, és a modern nemzetközi lexikográfiai gyakorlattal összhangban világosan megkülönböztetve, önálló nyelvi egységként dolgozza fel az ún. értelmezett szókapcsolatokat, idiomatizmusokat, illetve a szóadatokat. A szótár jelentős számú szaknyelvi szót is tartalmaz, s – a magyar lexikográfia történetében egyetlenként – ezeknek a szavaknak az értelmezéseit a különböző tudomány- vagy szakterület jeles képviselőivel szakmai szempontból lektoráltatja. A szótár XML formátumú adatbázisként, a szöveg tartalmi egységeinek azonosítására szolgáló nemzetközi szabvány szerint készül [105]. A nyomtatott, majd a későbbiekben elektronikus formában is megjelenő, 18 kötetesre tervezett sorozat mintegy százezer szócikkben 110 ezer címszót dolgoz fel. Az adatbázis formátum folyamatos bővíthetőséget és frissíthetőséget tesz lehetővé, illetve a legkülönfélébb szempontok szerinti keresésre, csoportosításra és összehasonlításra ad módot. Az adatbázis jelenleg nem hozzáférhető a nyilvánosság számára. A készítők elérhetősége: [email protected]. I.3.2.1.2. Értelmez˝ o Kéziszótár. Az Értelmező Kéziszótár legújabb változatára épülő lexikai adatbázis, amely nemzetközi szabványokat követő és azokat alkalmazó technológiával készült, a számítógépes alkalmazások igényeihez rugalmasan alkalmazkodó információt képes nyújtani. Az adatbázis olyan reprezentációs formalizmust használ, mely figyelembe veszi az egyes nyelvek, így a magyar sajátosságait is, és képes a szótári információt a gépi feldolgozás követelményeinek megfelelően kódolni és tárolni [100]. I.3.2.1.3. Magyar Ragozási Szótár. A Magyar Ragozási Szótár eredetileg Elekfi László [33] munkája, az Értelmező Kéziszótárhoz készített ragozási útmutató alapján készült. A magyar ragozási mintákat paradigmatáblázatokba foglalva jeleníti meg. Az Értelmező Szótár teljes szóanyagának ragozása megtalálható a szótárban. Szá-

58


mítógépes változata a paradigmatáblákon kívül a lehetséges toldalékkombinációkat és a képzőket is tartalmazza. Lekérdezőfelületen keresztül bárki számára elérhető: http://corpus.nytud.hu/inlex/. I.3.2.1.4. Igei vonzatkeret- adatbázis. Az MTA Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán 2001 és 2004 között készült el az a magyar egynyelvű lexikai adatbázis, mely a magyar nyelv alapszókincsét alkotó szavak szintaktikai és alapvető szemantikai tulajdonságait kódolja. A lexikai adatbázis középpontjában az igei argumentumszerkezetek kódolása áll. Igevonzatnak tekintettünk minden olyan összetevőt, ami az igéhez szemantikailag nem kompozicionális módon csatlakozik, vagyis ahol az ige + vonzat egység szabályalkalmazással nem előállítható, nem megjósolható formajelentés párt alkot. Az igék lexikális jelentését a csak az adott lexikai tételre jellemző, idioszinkratikus magjelentés különbözteti meg egymástól. Így szigorú értelemben az ige szemantikai argumentumai azok az összetevők, melyeket olyan szemantikai reláció köt az igéhez, amelyet a magjelentés definiál. Például az énekel ige alanyának kimerítő szemantikai szerepe így írható le: az éneklő. A vonzatkeretek rögzítéséhez szükség volt az igei szubkategorizációban felhasznált jegyek (pl. szemantikai megkötések) kódolására az igei argumentumokat megjelenítő szófajoknál. Az adatbázis tartalmaz továbbá olyan, nem a vonzatkeretre vonatkozó lexikai információkat is, melyek elengedhetetlenek egy szabályalapú magyar mondatelemző működtetéséhez. A munkálatok kiindulópontja egy magyarról franciára fordító gépi fordítási rendszer magyar egynyelvű szintaktikai moduljának kifejlesztése volt. A kódolás alatt végig cél volt, hogy az erőforrás a lehető legkevésbé legyen alkalmazás-specifikus, hogy a későbbiekben bármilyen, magyar szintaktikai elemzést igénylő nyelvtechnológiai feladathoz (információkinyerés, számítógépes tartalomelemzés stb.) felhasználható legyen. Az adatbázis kiinduló szókincse a Magyar Nemzeti Szövegtár [153] 20.000 leggyakoribb szavát tartalmazta. Ennek a szókincsnek az igei része, vagyis a 2.800 leggyakoribb magyar ige alkotta a vonzatkeret-adatbázis alapját. Az igei szókincs minden eleme szerepel a Magyar értelmező kéziszótárban (ÉKSz), így a kódoláskor az igékhez tartozó ÉKSz definíciókat is figyelembe lettek véve. A szókincs később kibővült egy pénzügyi-gazdasági témájú MTI-rövidhírekből készült 1.5 millió szavas korpusz szókincsével, ami körülbelül 3.000 rekord hozzáadását jelentette. A 2003-as év célja az volt, hogy év végéig a feldolgozott igei szókincs az egymillió szavas, szintaktikailag annotált Szeged Treebank teljes igei szókincsét lefedje. A munkálatok 2003 decemberében fejeződtek be, az igei vonzattáblázat 6.000 rekorddal bővült. 2004 és 2007 között az NKFP 2/008/2004 magyar-angol gépi fordítórendszer [137, 138] fejlesztését célzó pályázat keretében a teljes adatbázis része lett a fordító magyar elemző és kétnyelvű moduljának. A projektum kereteiben az adatbázis valamennyi mintájának meghatározták az angol megfelelőjét. A rendszer a magyar vonzatkeretleírásokat a szintaktikai elemzéshez, míg az angol megfeleltetést a célnyelvi fordítás előállításához használja. A projekt során fontos feladat volt mind az adatbázisnak az alkalmazáshoz való igazítása, mind a – gépi fordítás céljának megfelelő szempontú


59

– kibővítése. A projekt végére a magyar-angol kétnyelvű igei vonzatkeretek száma meghaladta a harmincezret. Az adatbázis kutatási célokra egyedi megállapodás megkötése után használható, érdeklődni: [email protected].

I.3.2.1.5. Magyar kiejtési szótár. A szótár készítése a BME Távközlési és Médiainformatikai Tanszék támogatásával folyik. A szóalakok állományának meghatározása elektronikus formában történt, az Internetről automatikusan gyűjtött adatokból [172], valamint az MNSZ korpuszból. A 80 millió szót tartalmazó szövegkorpuszból kiválogatott 1,8 millió különböző szóalak alkotja (szavak és azok toldalékolt formái) a kiejtési szótár kereshető szöveges állományát (ez mintegy 360 000 hagyományos szótári szót jelent azok toldalékolt alakjaival). A szótárban egyrészről szóalakra, illetve betűkapcsolatra kereshetünk, másrészről hangalakok is lekérdezhetők [3]. A szótár minden lexikai eleme tehát egy-egy szóalak, amelynek a kiejtését nemzetközi fonetikai hangjelekkel (IPA) adjuk meg, így nemzetközi értelmezése is biztosított. A szótár hangos résszel is rendelkezik, a leggyakoribb szótárelemek meg is hallgathatók (60 000 szóalak). Ez az első ilyen nagyságú és szerkezetű elektronikus kiejtési szótár a magyarra. A szótár 2010 januárjától lesz elérhető az interneten keresztül. Koordinátor Olaszy Gábor ([email protected]).

I.3.2.1.6. Kétnyelv˝ u szótárak. Az intelligens szótárak megjelenése számos újítást vont maga után a szótárak szerkezete terén. A számítógépes technológiának köszönhetően nincs szükség a hagyományos szótárakban használatos utaló szócikkre, hiszen egy lépésben el lehet érni az utalási helyet (azt a szócikket, ahol a címszóra vonatkozó tudnivalók részletesen ki vannak fejtve). A számítógépes intelligens szótárak morfológiai komponenssel is rendelkeznek: ennek köszönhetően a keresett szónak nemcsak az alapalakját, hanem bármilyen toldalékolt alakját képesek vagyunk megtalálni – így a zavar szó keresésekor találatként kapjuk a zavarba hoz, zavarba jön stb. kifejezéseket is.A többtagú kifejezések megtalálása is egyszerűsödik: a papírszótárakban eddig ezek egyetlen helyen, a kulcsszó szócikkében fordultak elő, például a kutyából nem lesz szalonna kifejezés a kutya vagy a szalonna szócikkében volt megtalálható, de csak az egyikben. A számítógép segítségével azonban akár a kutya, akár a szalonna felől közelítünk, képesek leszünk megtalálni a kifejezést. Az intelligens kétnyelvű szótárakban a címszó-szócikk párost a címszó-jelentés, címszó-szófaj, címszó-kiejtés stb. n-esek váltják fel. Ezzel a keresés rendkívül felgyorsul, ezzel együtt eltűnik a forrásnyelv és a célnyelv közti különbség: az elektronikus kétnyelvű szótárak megadják a forrásnyelvi szó célnyelvi megfelelőit, továbbá azokat a célnyelvi szócikkeket is, amelyekben egy szó a forrásnyelvi szó ekvivalense. Így a ló keresésre a magyar-angol szótárban találatként megjelennek a horse, knight, pommel horse címszavak, melyek egyben utalnak a magyar szó jelentései közti kapcsolatra is, amelyek a hagyományos szótárakból teljesen hiányoznak [110].

60


A fenti technikákat a MorphoLogic több terméke is alkalmazza: ilyen a fordítástámogató MoBiDic programcsalád és a MoBiMouse program, illetve több nyomtatott szótár digitalizált változatát is elkészítették. I.3.2.2. Magyar nyelv˝ u ontológiák A magyar nyelvre irányuló számítógépes alkalmazásfejlesztés egyre nagyobb mértékben igényli nyelvünk szókincsének gépi eljárásokkal is kezelhető adatbázisának kialakítását. A számítógépes nyelvészetben ontológia alatt formálisan definiált fogalmak és relációk adatszerkezetét értik, melynek segítségével szemantikai következtetések végezhetők. A számítógépes ontológiák egyik fontos alosztályát alkotják tehát az ún. nyelvi ontológiák. Nemzetközi téren az egyik legjelentősebb ontológiai adatbázist az ún. wordnetek alkotják. A wordnetek eredetileg az emberi lexikális memória számítógépes modelljéül szolgáltak. A Princeton Egyetem kognitív tudományi műhelyében dolgozó pszicholingvisztikai szakemberek indították útjára. Számítógépes szempontból nézve a wordnet egy masszív és jól strukturált adatbázis, amelyben szavak és jelentések ezrei szerveződnek szemantikai hálózattá [85]. A wordnet projektek célja az volt, hogy egy úgynevezett nemzetközi nyelvi index (ILI – International Language Index) segítségével átjárhatóságot biztosítsanak a rendszert alkotó különböző adatbázisok között: a Princeton WordNet (angol) [85], az EuroWordNet (holland, spanyol, olasz, német, francia, cseh, észt) [17], a BalkaNet (bolgár, román, török, görög, szerb) [148] projektek mellett más nyelvekre is folyamatosan épülnek wordnetek a világban például arab, horvát, kínai, dán, szlovén, lengyel, orosz, perzsa és különféle afrikai és indiai nyelvekre [131]. A WordNethez hasonló ontológia a FrameNet, amely szemantikus keretekre épül: az angol változat közel 10000 lexikai egységet és 800 szemantikai keretet (azaz egy esemény leírását) tartalmaz. Emellett létezik német, spanyol és japán FrameNet is [113]. I.3.2.2.1. Magyar Egységes Ontológia. A vállalatok közönségkapcsolati gyakorlatában nap mint nap értékes tudás keletkezik, melyet rögzíteni érdemes a vállalati tudástárakban, hogy a következő alkalommal már bármelyik közönségkapcsolati munkatárs hasznosítani tudja azt. Az ilyen, folyamatosan épített tudásbázis működtetéséhez azonban szükség van olyan ontológia alapú tudásmenedzsment-képességekre is, amelyek a tudástár gyakorlati, tényszerű információinak összerendelését, integrálását, rendszerezését teszik lehetővé. A BME MOKK, BME TMIT, a MorphoLogic, a Scriptum, az ALL, a Szegedi Tudományegyetem és a Nyelvtudományi Intézet közreműködésével létrejött MEO projekt közvetlen célja az effajta közönségszolgálati tevékenység intelligens, gépi támogatása volt a távközlés területén. A projekt közvetett célja egy olyan egységes nemzeti ontológiai keretrendszer megteremtése volt, mely szabadon felhasználható csúcsontológiát és távközlési közönségszolgálati szakontológiát tartalmaz, illetve nyílt, szabadon felhasználható ontológiainfrastruktúrára épül


61

(ontológiamenedzsment módszertannal, ontológiakezelési eszközökkel, praktikus útmutatókkal rendelkezik, és biztosítja a keretrendszer fenntartásához szükséges kooperációs intézményrendszert is) [121]. Az alkalmazás prototípusa a Protégé ontológiamenedzsment program keretében készült el: egyrészt ebben a keretrendszerben épült fel a szakontológia, másrészt ebben a környezetben hozta létre a konzorcium azt az alkalmazási logikát, amely a közönségszolgálati (call center) tevékenység támogatását tette lehetővé. A szoftver fejlesztése két külön ágra bontható: ! egy ontológiaépítő felület készítése (amely a tudásbázis felépítését, betöltését és elmentését teszi lehetővé; ez a fejlesztési modul a Protégé által biztosított funkciók kis mértékű átalakításával, illetve testre szabásával valósult meg) ! a következtető motor implementálása (az elfogadható sebesség biztosítása érdekében, illetve a valószínűséges következtető rendszerek hiánya miatt új következtető rendszer létrehozására volt szükség: a következtető gép a Protégébe épülő modul (plug-in) formájában van jelen). Különböző forrásokból összegyűjtve kialakult egy egységes, a program működését a lehető legnagyobb mértékben támogató távközlési szakontológia. A szakontológia néhány alapvető fogalomra épül, a hozzá tartozó program ezeket használja. A szakontológia felépítésében a fő vázat a generikus hierarchia alkotja, annak egy – az elején még kevésbé részletezett – váza készült el először, majd folyamatosan, a szisztematikus tudásbázis-keresés következtében kibővült egy több mint 450 osztályból álló ontológiává. Az osztályok között – a generikus kapcsolatokon túl – több mint 100 kapcsolat épült ki. I.3.2.2.2. Magyar WordNet (HuWN). A Magyar WordNet létrehozására irányuló projekt célja az EuroWordNet nyelvi ontológia eredményeire és formalizmusára építő, szemantikailag strukturált, általános célú fogalomtár létrehozása a magyar nyelvre volt, majd ennek kiegészítése egy speciális az üzleti szaknyelv kifejezéseit tartalmazó területspecifikus ontológiával. A projektben a Szegedi Tudományegyetem, a Nyelvtudományi Intézet és a MorphoLogic Kft. munkatársai vettek részt. A projekt fő eredménye egy nagyméretű, erősen strukturált természetes nyelvi fogalomtár létrehozása, melynek elérése több fontos tudományos és műszaki probléma megoldását jelenti. A tudományos eredmények tekintetében külön érdemes hangsúlyozni, hogy a fejlesztések a magyar nyelv szemantikai tartományához tartoznak, egy olyan nyelvéhez, amely tipológiailag, morfológiailag stb. jelentős mértékben eltér az eddigi nemzetközi kutatások többségének tárgyát képező európai nyelvektől. A HuWN projekt keretében létrejött adatbázis összesen több mint 42000 synsetet (fogalmat) tartalmaz a következő megoszlásban: kb. 34000 főnév, kb. 3300 ige, 4000 melléknév és 1000 határozószó. Az üzleti szakontológiát 2800 synset alkotja [84]. 2008 folyamán a Szegedi Tudományegyetem Informatikai Tanszékcsoportja és Alkotmányjogi Tanszéke közti együttműködéssel létrejött egy másik szakontológia, a jogi

62


wordnet (JurWN), mely elsődlegesen vámjogi fogalmakat tartalmaz. A létrejött adatbázis jelenleg kb. 650 synsetből áll [15]. Mivel a wordnet szerkezete sokkal összetettebb, mint egy egyszerű szótáré vagy tezauruszé, hasznosítási lehetőségei is sokkal gazdagabbak. A magyar anyanyelvű beszélők mentális lexikonjának modelljeként a Magyar WordNet igen nagy mértékben segítheti az iskolai nyelvtanoktatást, a többi wordnethálózattal való szabványosított kapcsolatrendszere pedig az idegennyelv-oktatásban való felhasználhatóságát biztosítja. Így például a tanult idegen nyelv lexikális anyagának helyes elsajátítását nagyban elősegíti a tanuló anyanyelve és a célnyelv közötti lexikális különbségek és hasonlóságok megvilágítása. Ezen kívül a wordnet fogalmi hálója a magyar nyelvvel kapcsolatos pszicholingvisztikai kísérletekben is jelentős szerepet tölthet be. A tisztán tudományos felhasználhatóságon kívül a Magyar WordNet elektronikus alapú nyelvtechnológiai alkalmazásai új távlatokat nyithatnak meg. A különböző keresőmotorok keresési hatékonyságát jelentősen megnöveli, ha ezek az eszközök megbízható módon hozzáférnek a keresőkifejezés szemantikai környezetéhez is, amely a felhasználók igényeit jobban kielégítő keresők kifejlesztéséhez vezet. Ezen kívül jelentősen növelheti az automatikus információkinyerők, illetve gépi fordítórendszerek hatékonyságát is, ahol ugyancsak a szemantikai attribútumok adnak olyan többletet, amellyel az információk, illetve fordítandó szövegek tartalmát is figyelembe tudják venni az automatizmusok [174]. A Magyar WordNet a European Language Resources Association (ELRA) szervezet terjesztésében bárki számára hozzáférhető lesz, térítési díj ellenében.

I.3.3. Nyelvi szintek számítógépes kezelése I.3.3.1. Szövegek szegmentálása A számítógép számára a beadott adathalmaz - nyelvtechnológiai eszközök alkalmazása nélkül - pusztán karakterek egymásutánisága. Azt a folyamatot, amikor ezt a karaktersorozatot nyelvi információt hordozó, a későbbi feldolgozás számára releváns egységekre bontjuk, szegmentálásnak/tokenizálásnak nevezzük. Alapesetben egy szegmentáló/tokenizáló eszköz a bemenő folyó szöveg mondatokra tagolását és a mondatok egyes szavakra bontását végzi. Többféle tokenizáló architektúra létezik, többségük egyszerű reguláris nyelvtanokat és segédlexikonokat használ a mondatvégződések és bizonyos reguláris kifejezésekkel jól megragadható tokenszekvenciák azonosítására (pl. dátumok, számok). I.3.3.1.1. MtSeg. Magyar szövegek tokenizálására a legkorábban használt általános eszköz a Multext projektumban [59] kifejlesztett MtSeg szegmentáló, melyhez magyar kiegészítő nyelvtanok és segédlexikonok (pl. rövidítéslisták) készültek. A program a HunTokenhez hasonló funkcionalitással rendelkezik, de fejlesztése már lezárult, így


63

használhatósága nagyon korlátozott. A Magyar Nemzeti Szövegtár anyagának elemzésében használták, és a Nyelvtudományi Intézet egyértelműsítő programláncában is ez a szegmentáló modul. I.3.3.1.2. HunToken. A számítógépes szövegfeldolgozás első lépéseként a szöveget bekezdésekre, majd mondatokra, illetve szavakra kell bontani. Ehhez nyújt segítséget a HunToken program [53]. A program a természetes nyelvű magyar szövegeket mondatokra és tokenekre (szavakra) bontja. Lexikonépítéshez, információvisszakereséshez, szövegbányászathoz és sok egyéb természetes nyelvfeldolgozó alkalmazáshoz is használható (például ezzel készült a Hunglish korpusz és a Magyar Webkorpusz is). Néhány fontosabb tulajdonsága: ! 98% pontossággal megállapítja a helyes mondat és szóhatárt (Szeged Korpusz 1.0-n mérve); ! normalizálja a szóközöket, felismeri a paragrafus határokat; ! kezeli a leggyakoribb rövidítéseket, a számokat, felsorolásokat; ! nem vágja el a kötőjellel, perjellel stb. egybe írt többszavas kifejezéseket; ! több ún. nyílt tokenosztályt kezel, úgymint url-ek, ISBN számok, dátumok stb.; ! kezeli a mondaton belüli idézést, és dialógusokat; ! Unix, Mac Os X, Windows rendszer alatt használható; ! LGPL licenc alapján szabadon felhasználható; ! letölthető a http://mokk.bme.hu/resources/huntoken címről. I.3.3.1.3. ToolChain. A Szegedi Tudományegyetemen kifejlesztett, ún. ToolChain elemző is tartalmaz egy bekezdésekre, mondatokra, illetve szavakra szegmentáló modult [14]. I.3.3.1.4. MetaMorpho. A MorphoLogic fejlesztésében létrejött MetaMorpho mondatelemző a mondat- és kifejezésszegmentálás problémáját is kezeli. A rendszer érdekessége, hogy a mondatok szegmentálását a morfológiai elemzés (rövidítések azonosítása stb.) után végzi. A kifejezések szegmentálása pedig a morfológiai elemzés alapján, a szintaktikai szerkezet azonosításával történik [112]. I.3.3.2. Morfológia Amennyiben a szövegállomány már szavakra van bontva, következhet a szavak tőre és toldalékokra való bontása. Ebben kulcsszerepük van a különféle morfológiai, illetve morfoszintaktikai elemző- és egyértelműsítő programoknak. A következőkben néhány ilyen, magyarra kifejlesztett programot mutatunk be.

64


A szövegszavakat a gépi elemzés megkezdéséhez először is elemeire – szótőre és toldalékokra – kell bontani. Ha a szavak szótári alakjukban szerepelnek, akkor egy megfelelő szótár segítségével könnyű a feldolgozás. Ez azonban a legritkább esetben van így: a magyarban, mint más agglutináló nyelvekben a szavaknak több száz alakjuk fordulhat elő, így nem járható az az út – vagy legalábbis nem gazdaságos –, hogy a szavak összes alakja szerepel a szótárban (mint ahogy azt az angol nyelvi morfológiai elemzők esetében hosszú ideig előfordult). Ehelyett szükség van egy olyan formalizmusra, amely lexikont és szabályokat tartalmaz: a lexikonban szótövek és toldalékok találhatók, a szabályok pedig megmondják, hogy a nyelvi elemek lexikális (szótári) reprezentációi és a szóalakok felszíni reprezentációi hogyan függenek össze. Ezek alapján lehet létrehozni egy morfológiai elemző programot [107]. A morfológiailag szegényebb nyelvek esetén (például az angolban) körülbelül 50150 lehetséges morfológiai kódot szoktak megkülönböztetni, míg agglutináló nyelvek esetében ez a szám több ezer is lehet. A morfológiai egyértelműsítésre használt programok ma leginkább a rejtett Markov-modellre épülnek, és pontosságuk 95% körüli (http://en.wikipedia.org/wiki/Part-of-speech_tagging). I.3.3.2.1. Humor. Az egyik első, magyarra kifejlesztett morfológiai elemző a MorphoLogic által kifejlesztett Humor volt [111]. A morfológiai adatbázis az Értelmező Kéziszótár anyagából indul ki, de a nyelvi adatbázisa azóta is folyamatosan fejlődik. A program több a produktív alaktani szabályoknak köszönhetően képes elemezni valamennyi ismert magyar szóalakot. A magyar morfológia viszonylagos bonyolultságából adódóan az elemző program más nyelvekre is alkalmazható, így számos nyelvre létezik HuMor formátumú morfológiai leírás pl.: angol, német, román, lengyel stb. A programot számos cég integrálta, pl. Microsoft, IBM, Xerox stb., így ez a program működteti a Microsoft Word beépített helyesírás-sellenőrzőjét is. További Humor elemzésre épülő, jelenleg is üzemelő alkalmazások: szótövesítő-, elválasztó-, szintaktikai elemző- és fordítóprogramok. I.3.3.2.2. Xerox elemz˝ o. A Xerox véges állapotú eszközkészletében implementált magyar morfológiai elemzőt a Xerox 90-es évek végén készítette el, tesztelésében a Nyelvtudományi Intézet is közreműködött. Az eszközkészlet azóta kutatási célokra szabadon hozzáférhető, a nyelvi forrásfájlok és a lefordított automata azonban továbbra is zárt maradt, így az elemző csak a Nyelvtudományi Intézetben futtatható, kutatási célokra azonban külön megállapodás alapján hozzáférhető ([email protected]). I.3.3.2.3. hunpos. A BME MOKK fejlesztése a hunpos, egy ingyenes és nyílt forráskódú HMM alapú szófaji egyértelműsítő [54]. A hunpos egy nyílt forráskódú implementációja a TnT-nek, a Thorsten Brants által kifejlesztett ismert szófaji egyértelműsítőnek. Ingyenes és nyílt forráskódú, akár kereskedelemi / ipari használatra is. A bonyolultabb morfológiával rendelkező nyelvek esetében a HMM alapú egyértelműsítés


65

versenyképesnek bizonyul a többek között SVM vagy CRF módszereken alapuló tanuló algoritmusok jelenlegi generációjával szemben. A módszer legfőbb előnye, hogy a tanuló / egyértelműsítő ciklus nagyságrendekkel gyorsabb, mint a bonyolultabb modellek esetén. Nagyméretű kódhalmazon is eredményesen dolgozik. Az ismeretlen szavak morfológiai kódjának minél pontosabb megállapítása volt az elsődleges cél a hunpos kifejlesztése során. A magyarban, mint más erősen ragozó nyelvekben igen fontos megőrizni a részletes morfológiai információkat a szófaji kódokban annak érdekében, hogy a magasabb rendű feldolgozási feladatokban is hasznosíthatóak legyenek. Ez az angolban használatosnál jóval nagyobb kódhalmazhoz vezet (744 címke az angol treebankekben rendszerint alkalmazott 36-hoz képest), azonban ez nem válik a tanítás és az egyértelműsítés hátrányára, noha a nem generatív modellek tanító folyamatát számítási szempontból megdrágítja. A hunpos OCaml nyelven készült, egy magasrendű nyelven, mely támogatja a tömör, könnyen érthető kódolási stílust. A hunpos program és nyelvi erőforrásai a http://mokk.bme.hu/resources/hunpos címről tölthetők le. I.3.3.2.4. hunmorph. A hunmorph egy nyílt forráskódú eszköz és programkönyvtár, amely helyesírás-ellenőrzésre, szótövesítésre és morfológiai elemzésre használható agglutináló nyelvekben (például a magyarban), a németben és más nyelvekben [147]. A BME MOKK munkatársai 2003 óta dolgoznak egy magyar nyelvre épített morfológiai elemzőn. Először a MySpell kódalapját bővítették, mely az ismert Ispell helyesírásellenőrző implementációja, ezáltal egy általános szóelemző könyvtárat hoztak létre. E ponton a könyvtár további fejlesztése kettéágazott. Jelenleg a kiterjesztett Myspell a HunSpell névre hallgat, és az OpenOffice.org többnyelvű irodai programcsomag része. A hunmorph pedig a morfológiai elemzésre hangolt program. A hunmorph keretrendszer három fő részből tevődik össze: ! Az ocamorph futás idejű elemző egy nyelvfüggetlen affixumeltávolító implementáció. ! A morphdb.hu [146] egy lexikai adatbázis és morfológiai nyelvtan, amelyet az ocamorph használ. ! A hunlex [145] egy offline erőforrás-menedzser komponens, amely a runtime szint hatékonyságának növelését segíti azzal, hogy egy magas szintű leíró nyelvet és megfelelő konfigurálhatóságot lehetővé tevő előfordítót biztosít a számára. Az ocamorph elemző úgynevezett aff/dic fájlokat, ember által nem olvasható nyelvi erőforrásokat használ (az OpenOffice.org MySpellje is ezt a formátumot alkalmazza). Az aff/dic fájlokat a hunlex lexikonfordító állítja elő a morphdb.hu erőforrásaiból. A fájlok platformfüggetlenek, így ezzel a disztribúcióval együtt kerülnek forgalomba: ha el akarjuk kerülni a lexikon vagy a nyelvtan módosítását, nem szükséges a hunlexet használni a létrehozásukhoz. A hunmorph forráskódja a http://mokk.bme.hu/resources/hunmorph, a morphdb.hu lexikai adatbázis és morfológiai nyelvtan pedig a http://mokk.bme.hu/resources/ morphdb.hu oldalról érhető el.

66


I.3.3.3. Egyértelm˝ usítés I.3.3.3.1. Szófaji egyértelm˝ usítés az MNSZ- ben. A Magyar Nemzeti Szövegtár egyértelműsítéséhez használt programláncot a Nyelvtudományi Intézet fejlesztette ki 2002ben, az akkor nemzetközi szinten is versenyképes technológia alkalmazásával. A programlánc az MtSeg tokenizálót, a HUMOR morfológiai elemzőt, a TnT egyedileg módosított és finomhangolt változatát, illetve egy szabály alapú szűrőt tartalmaz [98]. A morfológiai elemző és az egyértelműsítő hatékony összekapcsolását egy saját fejlesztésű eljárás biztosítja [99]. Demó változata elérhető a http://corpus.nytud.hu/ postag/ honlapon, kutatási célokra külön megállapodás alapján használható, bővebb információ a [email protected] címen kérhető. I.3.3.3.2. Szófaji egyértelm˝ usítés a Szeged Korpusz alapján. A Szeged Korpusz részben a szófaji egyértelműsítést támogató adatbázisként jött létre. A Szeged Korpuszban kézzel vannak egyértelműsítve a szövegszavak: adott környezetben adott morfológiai kódot viselnek. A korpusz teljes állománya az MSD-kódrendszernek megfelelő kódokkal van ellátva, és XML formátumban készült (bővebben ld. I.3.1.1.4.). A korpusz így tanuló adatbázisként szolgálhat egy szófaji egyértelműsítést végző program kifejlesztéséhez. I.3.3.4. Szintaxis A szintaxis a nyelvészetnek a mondatok belső szerkezetét leíró tudományága. A szintaktikai elemzőprogramok ezeknek az összefüggéseknek feltárására szolgálnak. Ezek a programok a grammatikai és lexikális adatbázisuk segítségével próbálják meg ábrázolni a szavak, kifejezések és egyéb mondatrészek egymáshoz való viszonyát. Az elemzés eredményét általában egy elemzési fával reprezentálják. Szintaktikai elemzésre épülnek a szavak szintjénél mélyebb elemzést igénylő nyelvészeti feladatok, mint a gépi fordítás, az természetes nyelvű ember-gép kommunikáció, a tartalomkivonatolás stb. A nyelv szintaktikai feldolgozásához egyik legtöbbet használt keret a frázisstruktúranyelvtan, de más elméleti keretek alkalmazása is előfordul, például lexikális-funkcionális nyelvtan (LFG), illetve fejvezetett frázisstruktúra-nyelvtan (HPSG). Manapság egyre elterjedtebb a dependencianyelvtanok használata is: például a CoNLL 2007 konferencia versenyfeladványa a függőségi struktúrák gépi tanulása volt. A versenyben egymástól tipológialiag rendkívül eltérő nyelvekre készített adatbázisok vettek részt (arab, baszk, katalán, kínai, cseh, angol, görög, magyar, olasz, török) – az eredményekről ld. [91]. Míg a konstituensfákat alkalmazó nyelvtanok az olyan nyelvek leírására használható jól, ahol a szavak egymásmellettisége a fontos (vagyis kötött szórendű nyelvekről van szó), addig a függőségi fákra épülő nyelvtanok esetében nincs ilyen megkötés: egyformán jól használható a szabad és kötött szórendű nyelvek szintaktikai leírására.


67

A manapság használatos szintaktikai parserek többsége statisztikai alapú: kézzel annotált tanító adatbázisból kivont szabályok segítségével működnek, és többségükben lexikális információkat is felhasználnak, például szófaji információkat. Top-down és bottom-up módszert használó parserek egyaránt találhatók a világban. Az elemzők teljesítményét befolyásolja a nyelv, a szintaktikai jelölés mélysége és az elméleti keret is, ám összességében mégis 75-85% körül teljesítenek (vö. CoNLL 2007 eredményei). I.3.3.4.1. HumorESK. Az HumorESK mondatelemző a Humor szóalaktani elemző alkalmazási kísérlete volt szintaktikai elemzés céljára 1998-ban. Az eljárás a mondatelemzést három szintre osztotta, egy névszói szerkezeteket, egy igei vonzatkereteket és egy mondatszintet kezelő szintre. Minden elemzési szinten a Humor morfológiai elemző hívódott meg, így az inputot mindig betűsorozatok alkották. A névszói szerkezetek elemzésekor például a terminális szimbólumok szófajszimbólumai alkották ezeket a betűket. Például a "a nagy fekete kutya" névszói szerkezet reprezentációja a "DAAN" karaktersorozattal történt (Det+Adj+Adj+Noun). A HumorESK elemzőhöz demó szintű magyar nyelvtan is készült. I.3.3.4.2. MetaMorpho. A MetaMorpho szintaktikai elemző (és generáló) rendszer a magyar és angol szövegek elemzésére alkalmas. A program a MorphoLogic fejlesztése, amelynek fejlesztése számos korábbi eredményt (morfológiai elemző stb.) felhasználva 2000-ben kezdődött, ma is tart, és az eddig ráfordított munka alapján a legnagyobb volumenű magyar nyelvészeti projekt. A program működési elvét, rendszertervét és a formalizmusának leírónyelvét Tihanyi László dolgozta ki [112]. Az első keretrendszert Endrédy István (MorphoLogic) implementálta, ugyancsak az ő javaslatára a mondatelemzést egy Lisp alapú szakértői rendszer, a CLIPS látta el. A rendszer működőképességének bizonyítása után szükségessé vált egy hatékonyabb parser modul kifejlesztése, melyre Kis Balázs (MorphoLogic, Kilgray) kapott megbízást. Az elemző elkészítése azonban elhúzódott, eközben egy másik implementáció is megszületett, melyet Ugray Gábor (MorphoLogic, Kilgray) írt és a Moose nevet kapta. Ez a megoldás került a fordítóprogramba, Kis Balázs implementációja pedig a HumorESK (2) néven vált ismertté. Ez a névválasztás máig sok keveredést okoz. A két MetaMorpho parser implementáció párhuzamos fejlesztése azonban felesleges fenntartási költségeket jelentett, így a HumorESK néven ismert implementációt megszüntették. Ma már mind mondatelemzési, mind fordítási feladatokat ugyanaz a MetaMorpho Moose parser szolgálja ki. Az elemző működési elve a fordítóprogramok MetaMorpho c. fejezetében ( I.3.4.3.1.) részletesen ismertetésre kerül. Az elemzőre tetszőleges magyar vagy angol nyelvfeldolgozási feladat építhető. A együttműködésre offline módon az XML eredményre építve, de beépítve C++ nyelven, a program API-ján keresztül is lehetőség van, a MorphoLogic nyitott ezekre az együttműködésekre.

68


I.3.3.4.3. hunpars. A hunpars projekt célja egy nyílt forráskódú elemző alkalmazás létrehozása volt, amely automatikusan végzi el bármilyen értelmezhető magyar mondat szintaktikai elemzését, konkrétan a mondatot alkotó szócsoportok és azok egymáshoz való viszonyának azonosítását. Az elemzőt egy többkomponensű rendszer részeként kell elképzelni: a fejlesztés alatt álló modul bemenete egy előzőleg tokenizált mondat, amelyben a szavak morfológiai jegyeikkel felcímkézve szerepelnek. A szintaktikai elemzés szabályalapú: elsősorban egy szintaktikai kategóriákra épülő frázisstruktúra-nyelvtan és kiegészítésként különböző lexikális tárak felhasználásával valósul meg [124]. A hunpars letölthető a http://mokk.bme.hu/resources/hunpars oldalról. I.3.3.4.4. NooJ NP- chunker és szintaktikai elemz˝ o. Az NP-chunker-t és szintaktikai elemzőt az MTA Nyelvtudományi Intézetének Nyelvtechnológiai Osztályán fejlesztették 2002-2008 között [44, 45]. A részleges szintaktikai elemzést végző nyelvtan a NooJ nyelvfeldolgozó környezetben lett implementálva, mint véges állapotú transzducerek halmaza, amely nyelvészek által kézzel írott szabályok sorozatából áll. A fejlesztés évei során a nyelvtanokat különböző projektekben (információkinyerés, prozódiai elemek automatikus annotálása, tartalomelemzés) és különböző korpuszokon teszteltük. Alapvető részei a mondat- és tagmondatszegmentálás, az NP-felismerés [154] alapján, az egyéb (névszói, határozói) összetevők felismerése és címkézése, valamint az igei predikátum azonosítása. Az igei vonzatkeret automatikus felismerése jelenleg fejlesztés alatt áll. A morfológiai elemzést a NooJ magyar morfológiai modulja végzi, így az elemző ennek kimeneti kódjaira épül. Az elemzés bemenetét tetszőleges magyar nyelvű nyers szöveg, vagy NooJ-kompatibilis XML formátumú szöveg adja, kimenete pedig XML formátumban exportálható. Regisztrációt követően az elemző ingyenesen hozzáférhető (http://corpus.nytud.hu/nooj/). I.3.3.4.5. Mazsola. A Magyar Nemzeti Szövegtárban (ld. I.3.1.1.1.) található igék vonzatkeretét, bővítményeit, az egyes igék adott morfoszintaktikai pozícióban megjelenő jellemző kollokációit a „Mazsola” korpuszlekérdező eszközzel lehet vizsgálni [115, 118]. Ehhez az eszközhöz szükség volt az MNSZ teljes anyagának részleges szintaktikai elemzésére, kiegészítő annotálására: a tagmondatok [114], igetövek és névszói frázisok azonosítására. Ez az annotáció egyszintű dependenciaannotációnak felel meg, és tisztán automatikus úton történt egy reguláris kifejezésekre épülő, szabályalapú elemzővel. A Mazsola hasznosnak bizonyult lexikai adatbázisok – így a MetaMorpho fordítóprogram (ld. I.3.4.3.1.) igei adatbázisa, illetve a magyar WordNet (ld. I.3.2.2.2.) – építése során. Hasznos segédeszköz lehet az anyanyelvi nevelésben, valamint a magyar mint idegen nyelv oktatása során. Ingyenes regisztráció után elérhető a http://corpus.nytud.hu/mazsola címen. I.3.3.4.6. Mondattani elemzés a Szeged Treebanken. A magyar mondatok struktúráját vizsgáló kutatásokban komoly erőfeszítések történtek egy konzisztens szintaktikai


69

szabályrendszer kialakítására. Reális igény mutatkozott tehát egy olyan technológia kifejlesztésére, amely egy tetszőleges magyar nyelvű szöveget a célnak megfelelő szintaktikai egységekre bont, felismeri azok struktúráját, és a felismerés alapján az egyes szintaktikai egységeket annotált mondatfával reprezentálja. Ilyen, ún. treebank reprezentáció a legtöbb nyugat-európai nyelvre, de számos közép-, ill. kelet-európai nyelvre már létezik. Egy korábbi projekt során a Szegedi Tudományegyetem, a MorphoLogic Kft. és a Nyelvtudományi Intézet együttműködésének célja egyrészt a magyar nyelv szintaktikai sajátosságait reprezentáló referencia adatbázis (magyar nyelvű treebank) kialakítása, másrészt egy általánosan alkalmazható szintaktikai elemző rendszer létrehozása volt magyar nyelvre, gépi tanulási módszerek támogatásával. A kutatás-fejlesztési tevékenység során a konzorcium olyan elemzőrendszer kifejlesztésére törekedett, amely ugyanazt az eredményt tudja nyújtani, mint egy manuálisan elvégzett elemzés [30]. A referencia-adatbázis kialakításához kiindulásként a Szeged Treebank 1.0 szolgált. A konzorcium nyelvész szakértői a modell kidolgozásakor figyelembe vették a későbbi informatikai célú felhasználást. A modell elméleti háttere a magyar generatív szintaxis mondatelemzési mechanizmusára épül. Az elmélet alapján elkészített annotációs módszer kiterjed a határozói szerkezetek (ADVP), jelzős szerkezetek (ADJP), névutós szerkezetek (PP), az igeneves szerkezetek (PA, INF), továbbá a tagadószók, igekötők, igék és kötőszavak jelölésére. A treebank újabb verziójának kialakítása a hagyományos (PennTreebank) módszert követve egy automatikus előannotálási és egy ezt követő kézi ellenőrző és javító szakaszból állt. Az annotálási munka elsősorban a főnévi csoportként korábban nem azonosított mondatszintű bővítmények (határozószói, jelzős, névutós szerkezetek, elváló igekötők) bejelölését, továbbá az igéknek és igeneveknek az azonosítását foglalta magába. Ezen kívül az annotálók elvégezték a korábban bejelölt főnévi csoportok belső szerkezetének finomítását is. A szintaktikailag részletesen annotált Szeged Treebank referencia-adatbázisként szolgál további természetes nyelvi feldolgozással foglalkozó kutatásokhoz. A korpuszfájlok formátuma XML (http://www.xml.org), belső szerkezetüket pedig a TEI (xLite, ill. P4) DTD (Document Type Definition) (http://www.tei-c.org) írja le. A treebank elkészülte után került sor a szintaktikai elemző programhoz nélkülözhetetlen szabályrendszer kialakítására. A szintaktikai szabályrendszer kialakításakor a pályázók a már publikált forrásmunkákra és meglévő elméletekre támaszkodtak és egy olyan szabályrendszer kialakítására törekedtek, amely egy informatikai rendszerekben is implementálható rendszert alkot. Éppen ezért az elemzőt működtető szabályrendszert két fő forrásból állították össze. A szabályok egy részét a konzorcium nyelvész szakértői készítették el. Az így definiált szakértői szabályokat az annotált treebankből számítógépes tanulási módszerekkel kinyert szabályokkal egészítették ki. A pályázat egyik legfontosabb eredményének éppen ez a technológia tekinthető, amely nem csupán emberi kreativitást, hanem gépi tanulási módszereket is felhasznál a szintaktikai szabályok pontosítására. A technológia fejlesztésénél további célkitűzés volt, hogy a lehetőségekhez mérten

70


minél több nyelvfüggetlen elemet tartalmazzon, így mód nyíljon más nyelvi környezetekben történő adaptálásra is [55]. I.3.3.5. Szemantika Az alacsonyabb nyelvi szintek (szegmentálás, morfológia, szintaxis) eredményes feldolgozása után a következő célt a szövegek jelentésének számítógépes megragadása jelenti. A szemantikus tartalom megfelelő számítógépes kezelése talán a legnagyobb kihívás az eddigiek közül. Ennek egyik oka, hogy a számítógépes szemantika problémáinak megoldása már előfeltételezi az alacsonyabb nyelvi szintek megfelelő kezelését. Egy másik ok a jelentés fogalmának viszonylagos tisztázatlansága. De amilyen nehéz ez a feladat, olyan fontos is: példaképpen hivatkozhatunk az információkinyerés vagy a gépi fordítás minőségének javítására, továbbá a szemantika számítógépes kezelésére szükség van a szemantikus web kialakítása során is. I.3.3.5.1. Lexikális szemantika. A számítógépes szemantika területei közül most a lexikális szemantikához kapcsolódó kutatásokat emeljük ki. Az MTA Nyelvtudományi Intézetének Nyelvtechnológiai Kutatócsoportjában folyó munka eredményeképpen az INTEX/NooJ fejlesztői környezetben elkészült egy szabályrendszer, amely a nyelvtani elemzéssel párhuzamosan szemantikai szerepeket rendel a mondatokban előforduló főnévi csoportok egy részéhez, ezáltal bizonyos főnévi csoport szerepő összetevők mondatban betöltött szerepe automatikusan meghatározhatóvá válik [42]. Az Osztályon folyó kutatások egy másik iránya a megfelelő szemantikai szerepek korpuszalapú, statisztikai meghatározása [43, 117]. I.3.3.5.2. Jelentés- egyértelm˝ usítés. A jelentés-egyértelműsítés (Word Sense Disambiguation, WSD) problémája alatt a szövegekben előforduló többértelműségek (homonímia, illetve poliszémia) feloldásának feladatát értjük. A többértelműség feloldásának problémája egyidős a gépi szövegfeldolgozással, és a legtöbb nyelvtechnológiai alkalmazás (pl. szövegmegértés, ember-gép párbeszéd, gépi fordítás, információvisszakeresés, illetve -kinyerés) számára fontos köztes feladat. A kezdetben angolra, majd később más nyelvekre folytatott jelentés-egyértelműsítési kutatások nagyrészt kapcsolódtak az ACL-SIGLex által szervezett SensEval [62, 80] workshopokhoz. A 2006-ban megjelent Word Sense Disambiguation [4] című tanulmány, valamint a SensEval sorozat folytatásaként 2007-ben megrendezett SemEval workshop kiadványa [5] részletes áttekintést ad az eddigi eredményekről. Az angol–magyar, illetve magyar– angol fordítórendszerek fejlesztése kapcsán hosszú ideje foglalkoznak a jelentésegyértelműsítési feladatokkal magyar nyelven, a fordítórendszer eredményének javítása érdekében [81, 82]. A jelentés-egyértelműsítő eljárások az alkalmazhatóságuk határai alapján és a jelentésmegkülönböztetés foka szerint két-két főbb csoportra oszthatók. Hatókör tekintetében a teljes szókincsre alkalmazható (all-words WSD) és előre megadott szóalako-


71

kon működő (lexical sample WSD) módszereket különböztethetünk meg, míg a jelentésmegkülönböztetés részletessége szerint aprólékos vagy finom (fine grained), illetve durva (coarse grained) szinteket különböztethetünk meg. Az SZTE munkatársai egy finom jelentésmegkülönböztetést tartalmazó WSD-korpuszt építettek (ld. I.3.1.1.6.), amely jól használható magyar nyelvű WSD-algoritmusok fejlesztéséhez [173]. I.3.3.5.3. GeLexi. A Pécsi Tudományegyetem munkatársai dolgoznak egy totálisan lexikalista alapú gépi fordítórendszeren (GeLexi projekt). A program újdonságát az jelenti, hogy a szintaktikai mellett szemantikai reprezentációt is képes társítani a mondatokhoz a ReALIS diskurzusszemantikai keretben [9], így géppel segített fordításként tud funkcionálni. A program nem nyelvspecifikus – ez azt takarja, hogy bármely nyelvről képes bármely nyelvre fordítani, ha azok lexikai egységét és tulajdonságait tartalmazza az elemző [6, 7, 8].

I.3.4. Alkalmazások I.3.4.1. A számítógépes morfoszintaxis alkalmazásai A fent leírt programok, illetve rendszerek számos, gyakorlatban is hasznosítható alkalmazásba illeszthetők bele, és hasznosíthatók a mindennapi életben: elsődlegesen a számítógépes írástámogatás terén jelentenek rendkívüli segítséget. A MorphoLogic által kifejlesztett Helyesek nyelvhelyességi rendszer például szóellenőrzőt (Helyes-e?), mondatszintű nyelvhelyesség-ellenőrzőt (Helyesebb), elválasztáskezelő rendszert (Helyesel) és toldalékoló szinonimaszótárt (Helyette) tartalmaz. A rendszer 1993 óta megtalálható minden magyar nyelvű irodai rendszerben [110]. A szövegekben való keresés szerepe igencsak megnőtt az internethasználat rohamos terjedésével. A magyar nyelvben a szavaknak akár több száz alakjuk is lehet, azonban egy „egyszerű” keresőprogram pusztán csak a szótári alakban történő előfordulásait találja meg az adott szónak. Ám ez a legtöbb esetben kevésnek bizonyul, így szükség mutatkozott olyan programokra, amelyek képesek megtalálni a szövegszavak szótövét (lemmáját). A MorphoLogic fejlesztése a HelyesLem lemmatizáló, amelyet a MorphoStem többnyelvű kereséstámogató modul is hasznosít [108]. A tulajdonnevek (azaz Named Entityk) lemmatizálására az SZTE munkatársai is kidolgoztak egy web alapú módszert [37]. Az xPlace (a Kilgray Kft. terméke) olyan intelligens keresést, illetve cserét végrehajtó program, amely a keresett szónak megfelelően toldalékolt alakban illeszti be a szövegbe a csereszót: így például az egérrel szó helyére macskával kerül, kiküszöbölve ezzel a hibás (egyszerű cserével létrejövő) *macskarel alakot. A szoftver beépül a Microsoft Word alá, így használata könnyű és egyszerű (http://hu.kilgray.com/).

72


I.3.4.2. Szövegbányászat Az adatbányászat egy már meglévő, valamilyen egyéb célból összegyűlt adathalmazban keres megbúvó, rejtett, azonban hasznos, releváns összefüggéseket, ismereteket, információkat. Az adatbányászat egyik igen fontos részterülete a szövegbányászat, amely a strukturálatlan, (vagy részben strukturált) elektronikus szöveges állományokban megbúvó, nem triviális információk kinyerését jelenti. A különféle szövegbányászati problémák más-más megoldási módot igényelnek, amelyeket az alábbiakban részletesebben is bemutatunk. I.3.4.2.1. Tulajdonnév- felismerés. Az információkinyerő rendszerek fejlesztésében kitüntetett helyet foglal el az úgynevezett NE (named entity, névelem) kifejezések felismerése és ezek kategorizálása. Az NE-k legtöbbször fontos információval bírnak a dokumentum tartalmára nézve, és emiatt az emberi információkinyerés célpontjai. Bizonyos alkalmazásokban – például a gépi fordításban – pedig különleges bánásmódot igényelnek a névelemek (nem mindig, vagy speciális szabályok segítségével kell őket fordítani), így ezek elfogadható szintű felismerése és kategóriába sorolása elengedhetetlen. Jól működő tulajdonév-felismerő rendszereket a világ számos nyelvére fejlesztettek, úgymint angol [24], német [139], holland, spanyol [140], kínai [90], japán [119] stb., és többek között a következő területeken értek el sikereket: gazdasági, politikai és sporthírek [140], orvosi [152], kémiai [25], biológiai [63], katonai jellegű szövegek [49]. Az alkalmazott rendszerek többségében nyelv- [138, 26] és doménfüggetlenek [69, 70], és az emberi pontossághoz közelítő eredményeket tudnak felmutatni. A névelem-felismerési feladatok hatékonyan megoldhatók címkézett korpusz (olyan szöveges adatbázis, melyben a névelemek előzetesen be lettek jelölve), valamint statisztikai módszerek segítségével. Ezek a kézzel bejelölt példák alapján olyan NE-jelölő szabályokat állítanak elő, melyek később, ismeretlen szövegekben is alkalmasak a hasonló típusú névelemek felismerésére. A jelenleg rendelkezésre álló magyar nyelvű NE-korpuszokról lásd bővebben az I.3.1.1.8–I.3.1.1.9. pontok alatt. A magyar nyelvre több tulajdonnév-felismerő rendszer is elkészült. A BME MOKK munkatársai maximum entrópia módszerre épülő statisztikai alapú rendszert dolgoztak ki [157]. A rendszer bemenetként morfológiailag elemzett szöveget dolgoz fel, ráépülve a hunpos morfológiai egyértelműsítőre. A felismerés hatásfoka a Szeged NER korpuszon tesztelve meghaladja a 95%-ot. A Szegedi Tudományegyetem munkatársai pedig nyelvfüggetlen tulajdonnév-felismerő rendszert fejlesztettek ki, amely szóalapú osztályozásként kezeli a problémát, és jellemzőként a megelőző és rákövetkező szavak főbb tulajdonságai, valamint a megelőző szavakra a modell által javasolt tulajdonnévi címkék is beépülnek a modellbe [35]. A modell hatékonyságát három különböző feladaton is vizsgálták: magyar nyelvű gazdasági rövidhírekben, illetve angol nyelvű újsághírekben (sport, politikai, gazdasági témákból) szereplő egyedek (személynevek, helynevek, szervezetek nevei) felismerésére, valamint orvosi kórlapok anonimizálására (páciensek, doktorok, kórházak stb. neveinek azonosíthatatlanná tétele). Mind-


73

három feladat megoldásában kitűnő eredmények születtek úgy, hogy némi testreszabástól eltekintve ugyanaz a modell futott a két nyelvre és a különböző doménekre. A magyar nyelvben külön problémát jelentenek az egymást követő, azonos típusú névelemek, mert ezek bizonyos esetekben egy egységet alkotnak, más esetekben viszont mint önálló névelemek fordulnak elő, vagyis az a feltételezés, hogy az írásjellel el nem választott névelemek egy egységbe tartoznak, gyakran hamisnak bizonyul. Az egymást követő névelemek azonosítására egy webes keresésre épülő, statisztikai módszer bizonyult hatékonynak [37]. I.3.4.2.2. Pszichológiai szempontú szövegfeldolgozás. Az MTA Pszichológiai Kutatóintézete és a Pécsi Tudományegyetem Pszichológiai Tanszéke hosszú évek óta folytat számítógépes pszichológiai tartalomelemzési vizsgálatokat. Több projektben is végeztek narratív pszichológiai kutatásokat: Az élettörténet kulturális mintáinak vizsgálata, az élettörténet mint szociális reprezentáció című projekt az élettörténeti elbeszélésben azoknak a jellegzetes eseménymintázatoknak a feltárását vette célba, amelyek a magyar kultúrában megjelennek. A nemzeti identitás vizsgálata a történelem narratív reprezentációja révén című projekt célja a nemzeti identitásminták azonosítása és áthagyományozásuk vizsgálata volt a legnépszerűbb magyar történelmi regényekben. Egy további projekt a temporális reprezentáció narratív szerveződésének feltérképezését és pszichikus élménymintázatok feltárását vette célba normál és traumatizált személyek jelentős életeseményeiről adott beszámolóinak tartalomelemzése és a kapott eredmények pszichológiai vonatkozásainak feltárása révén. A Társas megküzdési minták és identitáskonstrukciós folyamatok azonosítása történelmi tárgyú elbeszélésekben című projekt a címben szereplő minták vizsgálatára és elemzésére irányult. Végül a Nemzeti és etnikai identitás vizsgálata történelmi eseményekre vonatkozó szövegek narratív alakzatainak számítógépes tartalomelemzése révén projekt a magyar történelmi múlt traumatikus eseményeire (Trianon, II. világháború, holokauszt, ’56), vonatkozó történelmi elbeszélésekben a történetileg változó identitás-konstrukciós stratégiákat kívánta feltárni automatikus nyelvi elemző módszerek segítségével. A műhely munkatársai kutatásaikról rendszeresen beszámolnak a Magyar Számítógépes Nyelvészeti Konferenciákon, és eredményeiket publikálják a konferenciakötetekben [10, 11, 12, 13, 130]. I.3.4.2.3. Orvosi- biológiai témájú szövegfeldolgozás. A világban folyó biológiai célú kutatások eredményei szabadalmakban, publikációkban öltenek testet. Ez az exponenciális ütemben növekvő dokumentumhalmaz rengeteg hasznos információt tartalmaz, azonban ez az információ a szövegben el van rejtve. A számítógépes nyelvészet (szövegbányászat) célja ezen információk automatikus kinyerése. A Szegedi Tudományegyetemen kifejlesztett információkinyerő rendszer a MEDLINE adatbázisban gépi tanulási algoritmusok segítségével azonosította azokat a szövegrészeket, amelyek a felhasználó által keresett fehérjék interakcióiról szóltak. Ezek egy gráf formájában jelennek meg, amely rendszerezi a kinyert tudást, és a biológus szakértők

74


számára könnyen értelmezhetővé teszi azt [23]. A bizonytalan és tagadó kijelentések kimutatása alapvető fontosságú a szövegbányászati feladatok legtöbbjében, ahol, általában véve, a feladat az, hogy tényszerű információkat, ismereteket nyerjünk ki szöveges adatokból. Ez különösen így van az orvos-biológiai domén feladatainak többsége esetén, ahol ezek a nyelvi formák széles körben előfordulnak a szöveges dokumentumokban és a szerepük az, hogy benyomásokat, kísérletek eredményének lehetséges magyarázatait vagy negatív leleteket írjanak le. A Szegedi Tudományegyetem munkatársai által létrehozott BioScope korpusz [125, 175] tagadásra, spekulációra és nyelvi hatókörre annotált orvosi és biológiai témájú szövegeket tartalmaz. A korpusz lehetővé teszi a már meglévő rendszerek összehasonlítását és újak kifejlesztését tagadás/bizonytalanságdetektálás és hatókör-meghatározás területén. Az adatbázis szabadon elérhető és kutatási célokra ingyen letölthető a következő helyről: http://www.inf.u-szeged.hu/rgai/bioscope. Az orvosi kórlapok folyó szöveges részeiből számos rejtett információ nyerhető ki, amelyekből a gyógyszerkutatók statisztikát, elemzéseket készítsenek a páciensekről, illetve a betegségekről vagy támogassanak kórházon belüli monitoring feladatokat. A kórlapok adatbányászati célú felhasználásához elengedhetetlen az abban szereplő személyes adatok védelmének biztosítása. Ezért, mielőtt publikussá válik egy orvosi adatbázis, az előforduló személyek neveit (orvos, páciens), telefonszámát, lakhelyét, a kórház nevét stb. anonimizálni kell. A feladatot az SZTE általános tulajdonnévfelismerő rendszerének orvosi szakszövegekre testre szabott verziója sikeresen oldja meg [122]. Egy hasznos statisztika lehet a páciensek dohányzási szokásainak összehasonlítása - pl. egy adott betegségre vonatkozóan - a dohányzás hatásainak feltérképezésére. A beteg káros szenvedélyeiről - amennyiben azokra a vizsgálatok során fény derül, illetve a beteg panaszaival összefüggésben lehet - általában említést tesznek a zárójelentésekben. Mivel a szenvedélyekről, mint a dohányzás, alkoholfogyasztás stb. általában a jelentés folyó szöveges részében írnak, ezért a dohányzási státusz automatizált megállapítása jó tesztje annak, hogy milyen eredménnyel lehet a kórházi dokumentumokból tényeket, hasznosítható, strukturált információt kinyerni. A páciens dohányzási szokásait automatikus felismerni képes rendszert fejlesztett az SZTE [124]. A leletek automatikus osztályozását lehetővé tevő számítógépes eljárások fejlesztése létfontosságú. Ennek fontosságát jól mutatja az a tény, hogy orvosi témájú szöveges dokumentumok kódolására, illetve a feladat során keletkező hibák javítására évi mintegy 25 milliárd dollárt fordítanak az Egyesült Államokban. A SZTE nemzetközi szinten is kiemelkedő pontosságú rendszere a radiológiai BNO (Betegségek Nemzetközi Osztályozása, számlázáshoz használt kódrendszer) kódokat rendel a dokumentumokhoz [36]. I.3.4.2.4. Webbányászat. A webbányászat célja az internethez kapcsolható dokumentumokból (honlapok, emailek, blogok, fórumok stb.) hasznos információ automatikus összegyűjtése. Ilyen feladat lehet például állásajánlatok automatikus összegyűjtése vállalati honlapokról, vagy újsághírekben egy vállalkozásról fellelhető információk


75

kinyerése. Az így nyert információ strukturált szerkezetű, azaz például betölthető egy adatbázisba. A Szegedi Tudományegyetem jelenleg a Textrend projekt keretében egy olyan keretrendszer kifejlesztésén dolgozik, mellyel valamely specifikus területen a weben található, dinamikusan változó, nagy mennyiségű szöveges információt mélyrehatóan lehet elemezni. Az egyik ilyen fókuszterület a kutatókkal kapcsolatos információkinyerés [34]. A webbányászati rendszerek melléktermékeként elkészült egy ingyenesen hozzáférhető WYSWYG HTML annotáló eszköz valamint több kézzel annotált korpusz is (kutatók weblapjai, vállalkozások honlapjai stb.). Az alábbiakban két, az SZTE által fejlesztett webbányászati eszközöket is felhasználó rendszert mutatunk be röviden. Az első rendszer egyes tevékenységi körökhöz tartozó magyarországi vállalkozások neveit és címeit automatikusan gyűjti össze. A feladat megoldása két lépésre vezethető vissza. Először osztályozni kell a weblapokat: az egyes vállalatok honlapjainak azonosítása érdekében az alkalmazott online keresők eredményeit automatikusan „céges” és „nem céges” csoportokba kell sorolni. Másrészt azonosítani kell a vállalkozások címeit és a cégek nevét: a letöltött weboldalakon az egyes cégek neveinek és címeinek automatikus jelölésére van szükség (tulajdonnév-felismerési feladat). A letöltött céges weboldalakon megtalálható címek és cégnevek felismerésére egy szabályalapú módszer, és annak tapasztalataira támaszkodva, egy gépi tanulási eljárás is szolgál [87]. Az automatikus véleménykinyerés a piackutatásoknak, hírcsoportok vagy fórumok monitorozásának, fogyasztói visszajelzések megismerésének, vagy keresőmotorok informáltságának növelésének egyre gyakrabban használt eszközévé válik, hiszen esetükben nagyon fontos a hozzászólók véleményének gyors felmérése, ami a rendelkezésre álló szöveges információ ismeretében gépi erőforrás igénybevétele nélkül elképzelhetetlen lenne. A magyar nyelvre elsőként elkészített véleménydetektáló rendszer a kettős állampolgárság témájában megnyilvánuló hozzászólók véleményének automatikus megállapítását tűzte ki célul. A rendszer alapját különböző típusú információk kombinációja és tanulóalgoritmusok alkalmazása jelenti, emellett a rendszer fejlesztéséhez szükségesnek bizonyult az első magyar nyelvű véleménydetekciós korpusz elkészítése. Az elkészült rendszer adaptálásával a későbbiekben lehetőség nyílik majd a populációból automatikus véleménygyűjtés segítségével nyert adatok alapján más, gazdasági és politikai témájú kérdések végkimenetelének előrejelzésére [22]. I.3.4.2.5. Szemantikus keresés. Az ALL kidolgozott egy módszert természetes nyelvű szövegek jelentésének ontológiában való leírására. Kialakított egy speciális információkinyerő megoldást, amelyben az ontológia szerkezete helyettesíti a templátumokat. Ezekre a kutatásokra alapozva olyan szemantikus kereső rendszert alakít ki a Szegedi Tudományegyetemmel együttműködve, melynek segítségével a szokásos szóalapú keresést az emberhez sokkal közelebb álló tartalomalapú keresések váltják fel. A projekt célkitűzése egy tudásalapú célorientált magyar nyelvű szemantikus ke-

76


resőrendszer kidolgozása. Az elkészülő rendszer a szokásos felületi technológiáknál jóval hatékonyabb keresést tesz lehetővé, ami azt jelenti, hogy a talált dokumentumok között jóval kevesebb érdektelen anyag jelenik meg, és ezzel párhuzamosan csökken a kihagyott releváns dokumentumok száma. A keresést az is kényelmesebbé teszi, hogy a kérdést természetes nyelven lehet feltenni, és a felhasználók nem kényszerülnek arra, hogy a keresett dokumentumokat kulcsszavak logikai kombinációjával vagy reguláris kifejezésekből álló szűrési feltételekkel adják meg. A pontosabb és hatékonyabb keresést a szöveges dokumentumoknak a szokásosnál mélyebb megértése teszi lehetővé. A megértést az biztosítja, hogy a keresőrendszer a dokumentumok témakörét lefedő ontológiára támaszkodik és ismeri a magyar nyelvtan szabályait. Ezek birtokában lehetővé válik a kérdések és dokumentumok nyelvi elemzése és a feltárt tartalmak egymáshoz illesztése. A felhasználó által megfogalmazott kérdés nyomán a különböző dokumentumok szintaktikai és szemantikai elemzése egymással párhuzamosan folyik, és a keresőrendszer arra törekszik, hogy előkeresse azokat a dokumentumokat, melyek szemantikus reprezentációja legközelebb áll a szövegesen megfogalmazott kérés szemantikus leírásához. A szemantikus reprezentációk illesztéséről különböző érvelési módszerek gondoskodnak. I.3.4.3. Gépi fordítás és fordítástámogatás Magyarország Európai Uniós csatlakozásának sikere és a jelenlegi tagállamok gazdasági teljesítményéhez való felzárkózása nagyban függ attól, hogy az ország mennyire képes kihasználni az uniós csatlakozás nyújtotta lehetőségeket, és az egységes piac mennyire tudja kiaknázni Magyarország gazdasági potenciálját. Magyarországot éppen ezért „közelebb kell hozni” az unió jelenlegi és csatlakozó tagállamaihoz, fejleszteni kell az infrastruktúrát. Ahogyan a jó közlekedési hálózat lecsökkenti a fizikai távolságokat, úgy csökkenti le a jó nyelvi infrastruktúra az információs távolságot azáltal, hogy hozzáférést biztosít a kizárólag idegen nyelven elérhető információhoz. Mint ismeretes, egy 2005-ös felmérés során az ország lakosságának 71%-a nyilatkozott úgy, hogy egyetlen idegen nyelvet sem beszél – ami azt jelenti, hogy az ország lakossága 71%-ának csak korlátozott hozzáférése van az uniós potenciálhoz. A nyelvtudás hiánya szűk keresztmetszetet jelent az unió által nyújtott előnyök kihasználásánál. A magyar és más nyelvekre (elsődlegesen az angolra) kifejlesztett fordítóprogramok, illetve fordítást segítő programok kifejlesztése nagymértékben hozzájárul az ország nemzetközi integrációjának elősegítéséhez, ezáltal növeli a gazdaság egyes szereplőinek versenyképességét a nemzetközi piacon, így előmozdítja a kis- és középvállalkozások, továbbá az állami finanszírozású szervezetek innovációs tevékenységét, amely az ország kutatás-fejlesztési potenciáljának látható javulását vonja maga után. A géppel fordított dokumentumok nem publikációra készülnek: elsősorban az idegen nyelvű szöveg megértését támogatják, ám a szöveg értelmezése során az olvasónak saját intelligenciájára is támaszkodni kell, amellyel kiszűri és megérti a sokszor triviálisnak tűnő, de gépileg még rosszul kezelt értelemzavaró fordításokat.


77

A következőkben a gépi fordítás főbb módszereit, alkalmazott technikáit mutatjuk be röviden. A szabályalapú módszerek beépített szótáron és nyelvtani szabályokon alapulnak. Az elemzési folyamat során a forrásnyelvi mondatokhoz egy belső reprezentációt (általában fastruktúrákat) rendelnek. A szöveg generálása ezen belső reprezentáció célnyelvi kifejtése. A fordítás történhet közvetlenül a két nyelv között (transzfer) vagy közvetítőnyelven keresztül (interlingua). Ismert még a szóról szóra fordító (szótáralapú) módszer, amely olcsó és gyors, azonban általában rossz minőségű, érthetetlen eredményt ad. A statisztikai alapú gépi fordítás módszere egy beépített szövegkorpuszon alapul. A gép a fordítás előtt nagy mennyiségű lefordított szöveget elemez, aminek során előáll egy szótár és számos nyelvtani szabály: a fordítás ezek alapján történik. Ez a módszer ma igen népszerű, mert gyakorlatilag tetszőleges nyelvre alkalmazható (nincsenek kézzel definiált nyelvspecifikus szabályok), ám a fordítási minőség emiatt általában rossz. A példaalapú gépi fordítás alapja a fordítómemória, melyben gyakran előforduló mondatokat és/vagy kifejezéseket tárolnak. A fordítandó mondathoz leginkább hasonló tárolt mondatokból rakják össze a lefordított mondatot. A következőkben a magyar nyelvre kifejlesztett fordítóprogramokat és fordítást támogató megoldásokat mutatjuk be. I.3.4.3.1. MetaMorpho fordítóprogram és nyelvelemz˝ o rendszer. A MetaMorpho fordítóprogram angolról magyarra, illetve magyarról angol nyelvre fordít. A program a MorphoLogic fejlesztése, melynek munkálatai számos korábbi eredményt felhasználva 2000-ben kezdődtek, ma is intenzíven folynak és a közvetlenül befektetett munka már meghaladta a száz emberévet. A MetaMorpho rendszer azzal a céllal született, hogy ötvözze a szabályalapú fordítóprogramok és fordítómemóriák előnyös tulajdonságait. Ez egy olyan új architektúra kialakításához vezetett, ahol az adatbázisban minden nyelvi adat párok formájában van felírva. Az elemző szabályok mellett ott áll a generáló szabálypárja is. Az újszerű hierarchia előnye, hogy természetes módon építhetők be vagy használhatók fel szótárak, integrálhatók emberi fordítások és fordítómemóriák, könnyen megvalósítható a felhasználói bővíthetőség. A MetaMorpho alapvetően szabályalapú rendszer, de a transzfer és közvetítőnyelves módszerekkel szemben kizárólag direkt megfogalmazásokból áll. Ezek a direkt megfeleltetések azonban nem direkt módon, hanem az elemzéstől elkülönülő generáló fázisban érvényesülnek. A minták egységes formalizmusban vannak leírva, a MetaMorpho rendszer nem húz önkényesen határt a szótár és nyelvtan közé. A szabályok leírásához egy leírónyelvet dolgoztunk ki, amellyel környezetfüggetlen nyelvi állítások fogalmazhatók meg. A szótári szócikket csak annyi különbözteti meg egy nyelvtani szabálytól (pl. hogy a mondat alanyból és állítmányból áll), hogy az előbbiben konkrét szavak szerepelnek, a másikban pedig elvont nyelvi szimbólumok. A MetaMorpho rendszer fontos jellemzője még a szabályok ábrázolásának kettős szintje. Ezt a számítógépes nyelvek fordítóprogram-

78


jaihoz hasonló magas szintű és gépi kódú programozási nyelvekhez hasonlóan kell elképzelni, de itt a szintek nyelvezete, szintaktikája nem tér el olyan nagy mértékben egymástól. A megoldásra hasonló okok miatt volt szükség. A magas szintű nyelv jól olvasható és fejleszthető. A program működtetéséhez szükséges nyelvi információ csak az alacsonyszintű nyelven jelenik meg. A két szint közötti különbség jó példája lehet a magas szinten elrejtett jegyöröklődések alacsony szinten történő explicit kifejtése. Az adatbázisok (angol−magyar és magyar−angol) kb. 200 ezer nyelvi mintából állnak. A magyar-angol igei vonzatminták és névszói kifejezések gyűjtésében és kódolásában a MTA Nyelvtudományi Intézete és az SZTE Mesterséges Intelligencia Kutatócsoportja egy kétéves Nemzeti Kutatás Fejlesztési Projekt keretében működött közre. A saját formátumú adatbázis XML-ben exportálható, így a rendszer kompatibilis tud lenni más nyelvi leírásokkal. A szintaktikai leírást egynyelvű morfológiai elemző- és generátor adatbázisok, valamint egyéb kiegészítő nyelvi adatok (morfológiai és jelentésegyértelműsítők stb.) egészítik ki. Az elemzést a környezetfüggetlen nyelvtan vezéreli. A szabályok a szavaktól kiindulva, összevonással egyre magasabb rendű nyelvi szimbólumokat hoznak létre. Ha a szabályok alkalmazásával sikerül eljutni a mondatszimbólumig, hogy abban a lefordítandó mondat minden szavát felhasználtuk, akkor az elemzést sikeresnek tekintjük. Ebben az esetben a mondat fordítása nagy valószínűséggel jó lesz. Minthogy transzfer fázis nincs, a generálás egyszerűen az elemzéskor felhasznált szabályok generáló párjainak alkalmazása. Egy-egy elemzési szimbólum általában száznál több nyelvi jeggyel rendelkezik, amelyek mind meghatározóak az elemzés kimenetelét illetően. Az elemzése nem mindig sikeres. Ha nincs teljes mondatot lefedő megoldás, akkor a program a részelemzéseket próbálja meg összeválogatni úgy, hogy azok a teljes mondatot lefedjék, és a lehető legjobb fordítást adják. Ezt mozaikfordításnak hívjuk és a válogatáshoz számos, többek között statisztikai szempontot figyelembe veszünk. A fordításnak néha egynél több megoldása is van, ilyenkor egyszerűen az első kerül az eredménybe. A MetaMorpho rendszer a következő modulokból épül fel: szavakra bontó modul, morfológiai elemző, morfológiai egyértelműsítő, mondatszegmentáló, morfoszintaktikai konverter elemzéshez, szintaktikai elemző, jelentés-egyértelműsítő. A fordítóprogram alkalmazásban ezt szintaktikai generátor, morfoszintaktikai konverter, morfológiai generátor, szóösszefűző modul követi. Az elemzés során a felhalmozott tudás folyamatosan bővül, minden elemző lépés hozzáfér az előző lépések során előállított információhoz. A program C++ nyelven íródott. Több mint kétezer saját forrásfájlból és 250 projektből áll. A MetaMorpho rendszer az általunk írt kódon felül számos további szabad forráskódú külső megoldást (adatbázis-kezelő, grafikus felhasználói felület stb.) is integrál. A MetaMorpho rendszer fejlesztői környezete Moose névre hallgat. Ebben nyomon követhetők az elemzési lépések és lekérdezhetők a nyelvi szimbólumok értékei, illetve ezek változása az elemzés során. A MetaMorpho szintaktikai elemző együttműködő partnerek számára nyitva áll bár-


79

mely tetszőleges magyar vagy angol nyelvi feldolgozással kapcsolatos feladat megoldásához. A szintaktikai elemzések XML formában, illetve API-n keresztül is hozzáférhetők. A fordítóprogram alkalmazásai: MoBiCAT: popup fordító szolgáltatás, MorphoWord: a Microsoft Wordbe épülő fordítóprogram, MorphoWeb: böngészőkbe épülő weblapfordító, MorphoWAP: WAP-os fordító, Microsoft Office 2003 fordító. A MetaMorpho rendszer jelenleg legismertebb (naponta 70 ezer ember által használt) alkalmazása a http://www.webforditas.hu ingyenes fordítóoldal. Ez a megoldás az angolt mint közvetítőnyelvet felhasználva fordít 40 nyelv és a magyar között, ezek az alábbiak: angol, albán, német, észt, francia, filippínó, galíciai, spanyol, olasz, orosz, portugál, holland, dán, svéd, norvég, finn, katalán, lengyel, máltai, cseh, szlovák, ukrán, román, szerb, horvát, szlovén, török, görög, bolgár, lett, litván, arab, héber, japán, kínai, koreai, hindi, indonéz, vietnami és magyar. I.3.4.3.2. MATCHPAD. Az MTA Nyelvtudományi Intézet több európai partnerrel való együttműködésének célja a Systran piacvezető, transzferalapú gépi fordító rendszerének magyarra való alkalmazása volt. A 2000-től 2002-ig tartó közös munka eredményeképp két nyelvpárra készült működőképes fordítóprogram. Az angolról magyarra, illetve magyarról franciára fordító prototipikus rendszerek az alábbi, 20 ezer szavas alapszókincsre kidolgozott, folyamatosan bővíthető komponenseket tartalmazzák: generáló és elemző magyar morfológiai modul, magyar szintaktikai elemző szabályok, a felhasznált szókészlet elemeit leíró szintaktikai és szemantikai adatbázis, az alapszókincs egészét lefedő egyértelműsítő szabályok, angol-magyar és magyar-francia kétnyelvű szótár, valamint a két nyelvpár közötti szintaktikai különbségek kezelésére hivatott, ún. transzferszabályok [120]. A magyar nyelv ehhez szükséges leírása a Nyelvtudományi Intézet és a MorphoLogic közös munkájának eredményeképpen jött létre. Az alkalmazások folyamatosan továbbfejleszthetők mind a szókincs bővítésével, mind az adatbázisok és a szabályok finomításával. I.3.4.3.3. MemoQ. A MemoQ fordítómemória-programot a Kilgray Kft. fejlesztette ki. A MemoQ lokalizációs környezet legfőbb elemei a fordítómemória (translation memory), a szövegpárhuzamosító (aligner), a terminológiakezelő (term base), és természetesen a szövegszerkesztő [71]. Amikor a lokalizációs környezet szövegszerkesztőjében fordítunk, mondatonként haladunk. Minden mondat lefordítása után beírhatjuk azt a fordítómemóriába, amelyben mondatpárokat tárolunk. Ha a szövegszerkesztőben olyan mondatot találunk, amelyhez hasonlót már fordítottunk, azaz amilyet eltároltunk a fordítómemóriában, az automatikusan megjelenik, a program pedig színekkel jelöli a különbséget a fordítandó mondat és a fordítómemóriából megjelenő mondat között. Fordítómemóriát viszont nemcsak fordítás közben hozhatunk létre. A szövegpárhuzamosító modul segítségével beolvashatunk egy dokumentumot és annak fordítását,

80


és a program statisztikai eszközökkel megpróbálja megállapítani, melyik mondat minek a fordítása. Ez viszonylag jó pontossággal automatikusan meghatározható, de a modul felhasználói felületén lehetőségünk nyílik az automatikus párhuzamosítás hibáinak kijavítására. Az így meghatározott mondatpárok szintén bekerülnek a fordítómemóriába, így ezeket is felhasználhatjuk. Tehát a lokalizációs környezet bevezetése előtt elkészített fordítások is újrafelhasználhatók. A MemoQ integrált fordítástámogató környezet, tehát a fordításnál más alkalmazás (pl. szövegszerkesztő) használatára nincs szükség. A fordítástámogató rendszerek termelékenységnövelő hatása jelentősen függ a szöveg típusától. A megtakarítás erősen ismétlődő szövegek (például felhasználói útmutatók, műszaki leírások stb.) esetében akár 70-80% is lehet, közepesen ismétlődő szövegek, üzleti tervek, jelentések esetében ez átlagosan 20-30%, de az is előfordulhat például levelek esetében, hogy a fordítástámogató rendszer semmilyen megtakarítást nem jelent. A MemoQ statisztikai szövegelemző modulja már a fordítás előtt képes megmondani, mennyi lesz az adott szöveg esetében a költségcsökkenés, így a MemoQ megtérülése pontosan nyomon követhető. A MemoQ statisztikai szövegelemző modulja rendelkezik egy igen fontos újítással: a homogenitásvizsgálattal, amely nem csupán meglévő fordítómemóriához képes hasonlítani egy szöveget, hanem a szövegen belüli belső hasonlóságokat is felderíti. Ezáltal pontosabb képet lehet kapni, hogy mennyi tényleges munkaráfordítást igényel a szöveg lefordítása, és az ebből eredő előnyöket a fordító és megbízója megoszthatja. A MemoQ egyetlen alkalmazásba sűrít egy fordításra optimalizált, minden fájlformátumot egységes keretben támogató szövegszerkesztőt, a világ egyik leggyorsabb fordítómemóriáját, egy terminológiai adatbázist, egy szövegpárhuzamosítót, továbbá kliens-szerver működése révén támogatja a csoportmunkát. I.3.4.3.4. Hunglish. A Hunglish statisztikai magyar-angol gépi nyersfordító a BME MOKK és a Nyelvtudományi Intézet együttműködéseként jött létre. A cél eléréséhez ki kellett dolgozni egyfelől egy magyar-angol szótári adatbázist, másfelől egy magyarangol párhuzamos szövegkorpuszt (ld. I.3.1.2.2.), mely a statisztikai alapú fordító tanító adatbázisaként funkcionálhat [50]. I.3.4.3.5. Gépi fordítás a NooJ program keretében. A NooJ nyelvelemző fejlesztőrendszer olyan képességekkel rendelkezik, melyek alkalmassá teszik a lokális grammatikákat többnyelvű felhasználásra. Egy mondaton belül a maximális kiterjesztésű főnévi csoportok gépi fordítása tűnik megvalósítható célnak a rendszeren belül, hiszen belső szerkezetük viszonylag jól leírható lokális függőségekkel, továbbá szemantikailag is megfeleltethető a főnévi csoportnak és másik nyelvű párjának a belső szerkezete. A NooJ-ban történő gépi fordítás lehetőségeinek áttekintéséről lásd [155].


81

I.4. Beszédtechnológia Noha a számítógép számára – a gépelési beviteli mód egyszerű megvalósíthatóságából adódóan – az írott nyelv az elsődleges, egyre inkább nő az igény a beszédtechnológiai alkalmazások kifejlesztésére is: bizonyos feladatok megkívánják, hogy a számítógép értelmezze vagy feldolgozza az emberi beszédet, illetőleg a gép szóban közöljön valamit. Az emberi beszéd gépi előállításával a beszédszintézis, a beszéd gépi értelmezésével a beszédfelismerés tudományterülete foglalkozik. Általános és rövid megfogalmazásban tehát: az elsőnél a leírt karakterektől kell eljutni a hangzó nyelvig, a második esetben pedig az akusztikai jeleket kell írott szöveggé alakítani. A beszédtechnológia jóval megelőzte a gépi nyelvtechnológiát. Az első sikeres beszédtechnológiai kísérletsorozat több, mint 200 évre nyúlik vissza és Kempelen Farkas nevéhez fűződik [61]. Ő konstruálta meg és mutatta be a világ első olyan gépét (beszédszintetizátorát), amellyel beszédhez hasonló hangsorokat tudott előállítani. Tulajdonképpen ezt nevezhetjük a világ első artikulációs elven működő beszédelőállító gépének. Kempelen tehát 200 évvel megelőzte korát. Tudományos kutatásának eredményeit a Mechanismus der Menschlichen Sprache című könyvében foglalta össze (Bécs, 1791). Megállapításaival megalapozta a fonetika tudományát és számos tézise még ma is érvényes. A beszédszintézis további fejlődése a 20. század elejétől folytatódott. A hangrögzítés és az elektronika fejlődésével párhuzamosan jöttek létre különböző kutatási eredmények. Az első gépi szövegfelolvasással kapcsolatos szabadalmi bejelentés szintén magyar szakember nevéhez fűződik. Bánó Miklós 1916-ban adta be a Szabadalmi Hivatalba (74361 sorszám alatt) a következő találmányt: Tetszőleges szöveg reprodukálására alkalmas beszélőgép. A szabadalmat 1919-ben meg is kapta (74361-es szám). Az elgondolás egy elektromechanikus megoldást javasolt, beszédhangok egymás utáni összekapcsolását párhuzamosan futó viaszhengerekről (ez hasonló elven alapult, mint a mai elemösszefűzéses beszédszintézis technikák). A következő lépcsőfok a teljesen elektronikus beszélőgép volt kézi vezérléssel. A Bell Laboratóriumban mutatták be 1939-ben a Voice Demonstrator (VODER) nevű, angolul beszélő eszközt, amelyet egy képzett személy klaviatúrával tudott vezérelni. A VODER folyamatos beszédet tudott előállítani. Az igazi áttörés a beszédszintézisben az 1950-es évektől kezdve történt meg, amikor a számítógépek segítségével már a beszédszintetizátor vezérlését is automatizálni lehetett. Az első magyar beszédszintetizátort 1979-81-ben fejlesztették ki az MTA Nyelvtudományi Intézetének Fonetikai Laboratóriumában [64]. Ez a gép az Intézet állandó kiállításán megtekinthető és hangja meghallgatható. A beszédfelismerésre irányuló kutatások ugyan később kezdődtek, de mára ez az egyik legdinamikusabban fejlődő gépi beszédfeldolgozási terület [76]. Ebben a folyamatban a számítástechnika rohamos fejlődése segített, s mára már jelentős eredmények születtek ezen a területen is. A hazai beszédtechnológia tehát a kezdetektől kezdve szép eredményeket mutathat fel, és a nemzetközi élvonalban van. A magyarországi kutatóműhelyek különféle eszközöket fejlesztettek ki, melyek szerteágazó gyakorlati alkalmazási lehetőségeiről az

82


alábbiakban részletesebben is szólunk. Külön említést érdemelnek a fejlesztések között a beszédterápiás, illetve diagnosztikai céllal kidolgozott alkalmazások, melyeket szintén bemutatunk. Végül kitérünk az eddig létrehozott magyar nyelvű beszédtechnológiával összefüggő adatbázisokra is, melyek a további kutatás-fejlesztés alapjául szolgálhatnak.

I.4.1. Beszédszintézis A beszéd gépi előállításának legfőbb alkalmazása, hogy a leírt szöveget hangzó beszéddé alakítsák, azaz mintegy felolvassák a szöveget. Magyarországon az első ilyen gépet az MTA Nyelvtudományi Intézetében fejlesztették (szabadalmi lajstromszáma 185527) és 1982-ben mutatták be. Napjainkban még csak távlati célnak tekinthető, hogy a számítógép bármilyen jellegű szöveget képes legyen felolvasni elfogadható – az emberi szintet megközelítő – minőségben. Jelenleg csak meghatározott célfeladatokra készített beszédszintetizátorokkal lehet olyan hangminőséget elérni, amely megtévesztésig hasonlít az emberi ejtésre; valójában a beszélőt is csak ilyen minőségű beszédből lehet felismerni. Ez egyrészről abból adódik, hogy az emberhez hasonlóan a gép is csak olyan szöveget képes pontosan felolvasni, amely közel áll saját ismereteihez. A tulajdonnevek, az idegen, illetve az ékezet nélkül írt magyar szavak helyes kiejtése, szakszavak, latin kifejezések kiolvasása sokszor még az ember számára is nehéznek bizonyul. Másrészről a gép nem ismeri a hangsúlyozási szabályokat és nem is érti a felolvasandó szöveg tartalmi összefüggéseit. Ezen a területen még van mit fejlődnie ennek a technológiának. A fentiek miatt tehát nem várhatjuk el a számítógépes alkalmazásoktól, hogy bármilyen jellegű szöveget fel tudjanak olvasni jó minőségben: az adott rendszert mindig az adott feladatra kell szabni, vagyis feladatspecifikus beszédszintetizálókat kell létrehozni [110]. Ahhoz, hogy a gép hanggá alakítson egy adott karaktersort, azt normalizálni kell. Első lépésként a karakterek közül ki kell válogatni azokat, amelyek ténylegesen a szöveghez tartoznak (vagyis ki kell szűrni a szöveg részét nem képező karaktereket, például a bekezdés- vagy sorhatárokat jelölő elemeket stb.). Tudni kell azt is, hogy az adott szöveg milyen nyelven íródott, hogy a megfelelő modul léphessen működésbe a programon belül – a szöveg nyelve ugyanis bizonyos alkalmazások esetén nem magától értetődő (például az e-mail-, illetve SMS-felolvasó rendszerek esetében). Mai probléma az ékezetek nélküli szövegek előfordulása is. Az ilyen esetekben a szöveg helyes változatát rekonstruálni kell, azaz vissza kell állítani az ékezeteket. Ezek után történhet meg a szöveg további transzformációja beszédhangsorozattá, az intonáció, a hangsúlyozás meghatározása, majd a beszéd szintézise.

I.4.1.1. A beszédszintézis technológiai alapjai A beszédszintézisben használatos főbb technológiákat [39] alapján ismertetjük.


83

A formánsszintézis elnevezés a szövegfelolvasó rendszerben alkalmazott hullámforma előállításának módszerét takarja, ami egy gerjesztett szűrőrendszer kimeneteként állítja elő a beszédjelet. A formánsszintetizátor az emberi beszédkeltést modellezi: a gerjesztés a hangszalagok által keltett jelnek felel meg. A formánsszintézis technológiáját alkalmazva jó minőségű beszéd állítható elő, ám idáig ez csak természetes beszédjelből, félautomatikus módszerek alkalmazásával történt meg. A bemeneti szövegből kiinduló és egy szabályhalmaz segítségével előállított beszéd érthető, de erősen gépiesnek hangzik. E minőségi korlát miatt a formánsszintetizátorokat csak kis erőforrásigényű gyakorlati alkalmazásokban találhatjuk meg. Elsősorban kutatási célokra használják a módszert, mivel a beszédjel gerjesztése könnyen módosítható, és így annak hatása külön vizsgálható. A módszer további előnye a kis tárkapacitás és az alacsony számításigény. Az elemösszefűzésen alapuló beszédszintézis esetében természetes beszédből kivágott hullámformákat fűznek össze. Lényegi kérdés azoknak a hullámforma elemeknek a kiválasztása, amelyek összefűzésével előáll a gépi beszéd. Egyfelől teljes fedésre van szükség, hiszen az adott nyelv összes lehetséges hangkapcsolódását elő kell tudni állítani, másfelől pedig az előállított beszédnek minél természetesebb hangzást kell biztosítani. A fonémáknak megfelelő hangok elemként való alkalmazása teljes fedést biztosít, és kevés elemmel megoldható (a magyarra 38 fonémából már előállítható jó minőségű beszédszintetizátor), azonban a fonémák összefűzésével előálló jel nem hangzik folytonosnak, a hang minősége gyenge. A környezetfüggő hangok használata, ahol minden egyes hang minden lehetséges hangkörnyezetének megfelelő változatban előfordul, jó megoldás lenne, ekkor azonban rendkívül megnőne az elemek tárigénye. A gyakorlatban bevált kompromisszumos megoldás a két egymás utáni félhang együtteseként előálló diádok, illetve triádok alkalmazása: a triádelemek az adott hangot megelőző hang közepén kezdődnek és a hangot követő hang közepéig tartanak, azaz két hangnyi hosszúak. A diád-, illetve triádelemek összefűzésén alapuló technológiát elterjedten alkalmazzák a világban. Az elemösszefűzéses technológia továbbfejlesztéseként jött létre a korpusz alapú, elemkiválasztásos beszédszintézis. A technológia alapja a beszédelemek összefűzése, de a szintetizátor hangadatbázisa nem monoton prozódiájú diád-, illetve triádelemeket, hanem természetes hangzású teljes mondatokat tartalmaz, melyek egy nagyméretű szövegkorpuszból származnak, és azok felolvasásával jön létre a több órányi beszédet tartalmazó korpusz. Az adatbázis egy adott hangsort tartalmazó beszédelemet több példányban is tartalmaz, melyek prozódiai tulajdonságai eltérőek. A beszédkorpuszban több különböző méretű elem is definiálható (például diád, triád, szótag, szó stb.). A fentiek következtében egy adott beszédszakasz több módon is generálható, amelyek közül a legtermészetesebben hangzó változat hangzik el: ez a folyamat az elemkiválasztás. A korpusz alapú elemkiválasztásos beszédszintézissel jelentős minőségjavulás érhető el a hagyományos elemösszefűzéshez képest. Mivel kevesebb összefűzési pontot tartalmaz, mint a diád- és triádelemekből építkező rendszer, folytonosabb, természetesebb hangzást kapunk. Másrészt az egybefüggő beszéddarabok természetes prozódiája is megőrizhető, amelynek eredményeként a

84


természetes beszéd prozódiáját igen jól megközelíti a szintetizátor által létrehozott beszéd. A korszerű, számítógépes beszédtechnológiai kutatások zöme a BME Távközlési és Médiainformatikai Tanszék beszédtechnológiai laboratóriumához köthető. Az utóbbi két évtizedben az alábbi főbb kutatás-fejlesztéseket vitték sikerre: ! általános szövegfelolvasó automata több férfi és több női hangon (Profivox technológia); ! kis erőforrás igényű szövegfelolvasó mobiltelefonos alkalmazásokhoz; ! fonetikai szabályrendszer számok, dátumok, időpontok, árfolyamok gépi felolvasására (szép női és férfi hangokon szólal meg); ! prozódiaszabályok kidolgozása többféle beszédstílus megvalósítására (hírek, szépirodalom, mese stb.); ! új módszer kidolgozása a kötött szótáras beszédszintetizátor és a szövegfelolvasó technológia összekapcsolására különleges alkalmazásokhoz (például név, cégnév és cím felolvasásához); ! szótagolt és betűző felolvasási formák szabályrendszere; ! korpusz alapú beszédelőállítás elvi és technikai alapjainak kidolgozása, valósághű emberi hangon megszólaló beszédszintézishez (szép női hangon beszél); ! gyógyszerészeti, orvosi szövegek felolvasására alkalmas beszédszintetizátor. A beszédszintézis területén zajló kutatásokat segítő technológiák fejlesztésében a következő eszközök születtek meg az elmúlt 20 évben: ! Profivox szövegfelolvasó technológia interaktív fejlesztői környezete hullámformaösszefűzéses beszédszintetizátor fejlesztéshez, beszédkutatáshoz; ! hanghatár-kijelölő (a hullámformában), ellenőrző és javító technológia; ! szófaji elemző szövegfeldolgozás támogatásához; ! formánselemző beszédkutatáshoz; ! rejtett Markov-modell technológia beszédszintézishez; ! hangsúlykiosztó statisztikai algoritmusok mondat szintű szövegegységekre; ! ékezetesítő program ékezet nélküli magyar szövegek helyreállítására (szabadalmi bejelentés ügyszáma: P0003443); ! nagyméretű beszédadatbázisok zöngés-zöngétlen szakaszok jelzésével, hang-, szóhatár címkézéssel, fonetikus átírással beszédfelismerési és beszédszintetizálási kutatások támogatására.


85

I.4.1.2. Beszédszintetizátorok A magyar nyelvre számos, sikeresen működő beszédgeneráló programot fejlesztettek [96]. Külföldi próbálkozások is voltak, de azokból nem születtek műkődő szolgáltatások [32]. A hazai kutatás-fejlesztés folyamatos, ennek eredménye, hogy egyre jobb hangminőségű rendszerek jelennek meg [40]. A következőkben ezekből válogatunk. I.4.1.2.1. Multivox’4. A Multivox’4 szövegfelolvasó magyar szabadalom (lajstromszáma: 189337). Ebből fejlesztették ki és tették nyilvánosan elérhetővé az első szabad terjesztésű, magyar beszédszintetizátort [96]. A rendszer ASCII szövegből olvas, abból állítja elő a beszédet. A kimondandó szöveget magyar nyelven tiszta hangzású, dallamos, ritmusos köznapi férfi vagy női hangzású beszéddel mondja el. Több opció biztosítja, hogy a beszédet a legváltozatosabb formában lehessen előállítani: ilyen a beszédsebesség, hangmagasság, hangtípusok, suttogás, rekedt beszéd, tagolási fokozatok, hangerő és mondathangosság. A program a BME TMIT és a Nyelvtudományi Intézet munkatársai közti együttműködéssel jött létre. A program ingyenesen letölthető a http://alpha.tmit.bme.hu/pub/multivox4/ weboldalról. I.4.1.2.2. Profivox rendszer. A Profivox beszédszintetizátor család tekinthető az első olyan magyar nyelvű beszédelőállító programnak, amely teljesíti a korszerű beszédszintetizátoroktól elvárható alapkövetelményeket: tiszta, érthető, emberi hangszínhez közeli hangot állít elő, emellett a mai technikai feltételeknek is megfelel, szoftverkörnyezete pedig lehetővé teszi a folyamatos fejlesztést [95]. A Profivox kimenetét több emberi hang digitalizált változatából állítják össze, mindig illeszkedve az adott alkalmazás profiljához. A rendszer több, témakör-specifikus modullal rendelkezik: ezek között szerepel időjárásjelentés-felolvasó, menetrend-felolvasó, név- és címfelolvasó, hírolvasó, számfelolvasó... A Profivox szövegfelolvasó technológia szolgál a következő alkalmazások hátteréül: ! telefonról elérhető e-levél felolvasó, 1999 (T-Mobile Magyarország, Mailmondó, szolgáltatása); ! szépirodalmi internetes könyvfelolvasó, 2002 (http://vilaghallo.hu); ! meghangosított internetes SMS-szolgáltatás, 2002 (Digitania Rt., pl. Origo Hangember); ! mobiltelefonba épített SMS-felolvasó (az SMSmondó a világon az első ilyen megoldás, 2003); ! automatikus számszerinti tudakozó (T-Mobile Magyarország, 2004); ! a Jaws for Windows (USA) képernyőolvasó magyar változata vakok számára, 2004; ! a Volksbank Hungary beszélő bankjegykiadó automatája, 2004 (1146 Bp. Hungária krt. 140-144), amelyet látássérültek segítésére fejlesztettek ki);

86


! WINCOR_NIXDORF beszélő bankautomaták, 2005; ! a Generáli Biztosító automatikus telefonközpontja, 2005; ! Gyógyszervonal, automatikus telefonos információs rendszer, 2006 (Telefonszáma: 06-1-886-94-90); ! menetrend-felolvasó, utastájékoztató automata (kísérleti rendszer, 2007); ! automatikus számszerinti tudakozó (Vodafone Magyarország, 2008); ! automatikus, mobiltelefonos, helyfüggő kereső szolgáltatás (T-Mobile, kísérleti rendszer, 2008); ! automatikus áru- és árlista-felolvasó (T-Mobile, kísérleti rendszer, 2008). A fenti technológiát a BME TMIT kutatói és mérnökei fejlesztették és fejlesztik folyamatosan. A magyar és más nyelvű szövegfelolvasó szoftvert minden külön alkalmazáshoz adaptálni, optimalizálni kellett, a felolvasási stílusok és egyéb esetleges különbözőségek miatt. A Profivox hangja meghallgatható és letölthető a következő címről (http://speechlab.tmit.bme.hu), maga a szoftver pedig egyedi szerződéssel bárki számára hozzáférhető. Koordinátor dr. Németh Géza ([email protected]).

I.4.2. Beszédfelismerés A (gépi) beszédfelismerés elsődleges feladata a beszéd szöveggé alakítása. Jelen tanulmányban azonban a témakört tágabban értelmezve ide soroljuk a beszélő személyének, emocionális állapotának, a mondatmodalitásnak stb. felismerését is. A következőkben rövid, „vezetői szintű” alaptechnológiai áttekintést nyújtunk, ismertetjük az egyes alkalmazási részterületeken elért eredményeket a magyar nyelv viszonylatában, illetve összehasonlítjuk a hazai és a nemzetközi élvonalbeli alap- és alkalmazott technológiákat. Végül, nem kimerítő jelleggel, bemutatunk néhány beszédfelismerési szolgáltatást, terméket, illetve felsoroljuk a főbb hazai fejlesztésű beszédfelismerési eszközöket. I.4.2.1. A gépi beszédfelismerés technológiai alapjai I.4.2.1.1. Bevezetés. A mai standard módszertan szerint minden felismerési folyamat felbontható a következő két fő lépésre: 1. lényegkiemelés; 2. mintaillesztés. A beszédfelismerésnél a lényegkiemelés során alapesetben az audiojelből az emberi hallásérzethez illeszkedő jellemzőket próbálunk kivonni. A mintaillesztés ezen jellemzők alapján, statisztikai alapokon készített modellekhez kísérel meg hasonlósági értelemben optimális illesztést, azaz egy felismerési címkesorozatot előállítani.


87

A címkék lehetnek szavak, beszédhangok, hangtípusok (pl. zene, taps, beszéd), illetve beszélők – attól függően, hogy mit reprezentáltak a modellek. Fontos hangsúlyozni, hogy az optimális illesztés korántsem jelent hibátlan felismerést. Ellenkezőleg: az optimális döntés az esetek egy részében akár teljesen rossz felismerési eredményt is takarhat. Önmagában annak becslése, hogy mennyire vagyunk biztosak az egyébként optimális felismerési eredmény helyességében, komoly elméleti probléma és korlátos pontosságú – ezzel foglalkozik a felismerési konfidenciabecslés. A felismerési hiba tehát minden statisztikai rendszer sajátja (az emberé is – jóllehet, az emberi beszédfelismerés pontossága a közeljövőben elérhetetlennek látszik, ld. [88]), ezt az alkalmazóknak tehát figyelembe kell venniük. Nagy különbség lehet azonban felismerő rendszerek között a felismerési hiba tekintetében, ami természetszerűleg e rendszerek használhatóságát az adott feladatra jelentős mértékben befolyásolhatja. A beszédfelismerők kiértékelésével kapcsolatban fel kell viszont hívnunk a figyelmet, hogy önmagában egyes felismerési mutatók (mint például a szófelismerési pontosság) egymáshoz hasonlítása alapján nem lehet minőségi különbségeket tenni egyes rendszerek között. Kizárólag azonos adatbázison tanított és azonos adatbázison tesztelt (lehetőleg azonos környezetben és egyező futási idővel összehasonlított) rendszerek felismerési jelzőszámai alapján lehet egyes megközelítéseket rangsorolni. A későbbiekben ezért minden megadott felismerési számértéket szemléltető példaként és nem abszolút teljesítményként kell tekinteni. I.4.2.1.2. Lényegkiemelési alapmódszerek. A beszédfelismerés alapvető lényegkiemelési módszerei az elmúlt 30 évben alig változtak. A legmodernebb módszer is alig ad jobb eredményt, lényegét tekintve alig tér el az „ősmódszertől” (kepsztrum számítás). A standard (MFCC – Mel Frequency Cepstral Coefficients) és a „state-of-the-art” (PLP – Perceptual Linear Prediction és variánsai) nem térnek el jelentősen e területen, ami jól szemlélteti a feladat nehézségét. Tehát elmondhatjuk, hogy bár a hazai szereplők által alkalmazott lényegkiemelési technikák közel vannak a világ élvonalbeliekhez, a legnagyobb fejlődésre pontosan ezen a területen volna szükség. Tudomásunk szerint a tengerentúlon ezen okból kifolyólag szentelnek mind több támogatást erre a területre, mely alapvetően nyelvfüggetlen. I.4.2.1.3. Mintaillesztési alapmódszerek. A mintaillesztés feladata kettős: egyrészt az időbeliséget kell kezelnie (mettől meddig tart az adott szóhoz vagy beszélőhöz stb. tartozó hangjelenség) másrészt és ezzel egyidejűleg osztályoznia kell, hogy az észlelt megfigyelések melyik modellhez illeszkednek leginkább (melyik szóról, beszélőről stb. van szó). A mintaillesztés feladata többek közt azért is lehet nagyon nehéz, mert a lényegkiemelés egyszerűen nem emeli ki „eléggé” a lényeget. Az alapvető mintaillesztési módszer szintén több évtizedes múltra tekint vissza. Az alaptechnika a rejtett Markov-modell (angol, közkeletű rövidítése: HMM) keretrendszer, ahol a rejtett szó szemléletesen utal arra, hogy a megfigyelésben (mely hanghullám lényegkiemelt változata) a felismerendő információ rejtett módon van jelen,

88


ezért valószínűségi-hasonlósági alapon történik a kimeneti címkék (felismerési eredmény) bemenetnek történő megfeleltetése. A hasonlósági mértékeket tipikusan GMMek (Gauss Mixture Modell) szolgáltatják, melyek általános sokdimenziós osztályozási feladatokra hasonlóan alkalmazhatók, mint a mesterséges neurális hálózatok. Az imént felsorolt technikai alapok számos beszédfelismerési feladatnál már – a körülményektől függően – elfogadható hibával használhatók, például beszélőfelismerés jó minőségű hanganyag esetén, hangtípus (zene, csend, beszéd, stb) felismerése, egyszerű izoláltszavas beszédfelismerési feladatok. A beszédfelismerés fő ága, az általános beszéd-szöveg átalakítás azonban, bár ugyanebben a keretrendszerben történik, az alapoknál jóval nagyobb mennyiségű és mélységű további technológiai hátteret kíván. Ezért a beszédfelismerés ezen ágát ma már külön, LVCSR (Large Vocabulary Continuous Speech Recognition) néven tartják számon. I.4.2.1.4. Az LVCSR technológia alapjai. Mivel a nagyszótáras folyamatos beszédfelismerési technika (LVCSR) tart számot a legnagyobb érdeklődésre, ennek technológiai alapjait külön összefoglaljuk. Az LVCSR rendszerek – hasonlóan az egyéb célú beszédfelismerő rendszerekhez – a következő jól definiált részekből állnak: lényegkiemelő és mintaillesztő komponensek, melyek nyelvfüggetlenek, valamint nyelvfüggő komponensek: a különféle modellek, melyek külső, cserélhető adat formájában vannak tárolva. A modellkészítés nyelvenként, témakörönként a felismerési folyamattól elválva, azt megelőzve történik, melynek részleteibe itt nem mehetünk. Nyelvi modell A nyelvi modell feladata valószínűségi súlyozást adni a lehetséges kimeneti szósorozatokhoz. Nyelvi modell alkalmazása nélkül semmilyen folyamatos beszédet felismerő rendszer nem képes elfogadható felismerési pontosságot elérni. A standard technika az ún. szó n-gram modellek alkalmazása (tipikusan n=2,3), melyek lényege, hogy n-1 (hipotetikus) megelőző szó alapján adnak valószínűségi becslést a (hipotetikus) következő szóra. Az n-gram modelleket nagy, témához illeszkedő szövegadatbázissal lehet betanítani. Kiejtési modell A szavakat beszédhangok sorozatára a kiejtési modell képezi le. Ez minden szövegesen bővíthető szótárú „speech-to-text” rendszer esetén nélkülözhetetlen komponens. Előállítása történhet szabály alapon és/vagy kézi munkával, illetve újabban statisztikai alapon is (nyelvtől függően). Koartikulációs modell (vagy modul) A koartikuláció modellezése nem jelent mást, mint a beszédhangátmenetek valamennyire explicit modellezését. Ennek szükségességét jelzi, hogy a gépileg előállított beszéd a hangátmenetek kifejezett modellezése nélkül gyakorlatilag érthetetlen. Gépi beszédfelismerésnél azonban a hangátmenet-modellezési probléma sokkal összetettebb, hiszen úgy kell megoldani – szóhatárokon átívelve is –, hogy nem ismerjük előre a szósorrendet. Tipikus megoldás a környezetfüggő beszédhangmodellek (triphones) alkalmazása, melyek leképzését fizikai beszédhang-harmadokra döntési fák


89

alkalmazásával szokták biztosítani. A koartikulációs komponens bizonyítottan jelentős mértékben emeli a beszédfelismerés pontosságát. Alacsony szintű akusztikai modellek Tipikusan (környezetfüggő) beszédhang harmadokhoz szoktak GMM akusztikai hasonlósági mérték függvényeket társítani, melyeket nagy beszédadatbázisok segítségével tanítanak be. A fenti négy szint integrált alkalmazása jelenti ma a standard LVCSR mintaillesztési technológiát. A négy tudásforrás integrációja történhet a beszédfelismerő motorban (pl. CMU Sphinx [56]), azonban ekkor kötöttek lehetnek bizonyos struktúrák (pl. korlátozott a nyelvi modell fokszáma, a szótár mérete, a koartikuláció modellezés módja stb.) és az integráció szuboptimális lehet. Mohri és társai [86] azonban megmutatták, hogy a fenti tudásforrások (a GMM-ek kivételével) mind azonos matematikai objektumként, ún. WFST-ként (Weighted Finite State Transducer) leírhatók, és egymással standard matematikai módszerekkel kombinálhatók és optimalizálhatók. Tehát a WFST keretrendszerben rendkívül flexibilis módon, elméletileg letisztult módszerekkel optimális tudásforrás integráció válik lehetővé a modellekre vonatkozó korábbi korlátok nélkül. A végeredményül előálló WFST felismerési hálózat a Gauss Mixture modellek hozzárendelésével visszaalakul egy kiterjesztett (kimeneti címkékkel ellátott) HMM-mé, amelyen a hagyományos mintaillesztési módszerekkel végrehajtható a beszédfelismerés. I.4.2.1.5. A hazai beszédfelismerési alaptechnológiák viszonyítása a nemzetközi élvonalhoz. A HMM-GMM beszédfelismerési alaptechnológia mind az AITIA, az ALL, a BME TMIT és a SZTE saját fejlesztésű eszközkészletének része, illetve több más műhely is használ ilyen eszközöket (PPKE, ME stb.). Bár nemzetközi szinten sok alkalmazásnál a standard osztályozási szinten túlléptek (például SVM: Support Vector Machine alkalmazása beszélőfelismerésre), egyrészt ezek a technológiák is ismertek és alkalmazottak a magyarországi akadémiai kutatóhelyeken is, másrészt sok esetben a javulás csak marginális a standard GMM-hez képest. A GMM helyett mesterséges neurális hálózatok alkalmazása is elterjedt nálunk, különösen a SZTE erős ebben a tekintetben [142]. A nagyszótáras folyamatos beszédfelismerés (LVCSR) standard technológiájának kifejlesztése, mint említettünk, komoly elméleti és tapasztalati hátteret, valamint erőforrásokat igényel. A közép-kelet-európai térségben egyedülálló módon hazánkban, jelentős részben a Nemzeti Kutatás Fejlesztési Programok (későbbiekben Jedlik Ányos Program) támogatásának is hála, saját fejlesztésű, nemzetközi szinten is elismert LVCSR motor jött létre az AITIA és BME TMIT közreműködésével, mely a ma ismert legflexibilisebb megközelítést, a WFST-alapú tudásforrás integrációs technológiát alkalmazza. A motor a MALACH projekt (http://malach.umiacs.umd.edu/) magyar nyelvű beszédadatain tanítva és tesztelve, azonos modellek mellett összehasonlításra került a szintén WFST-alapú AT&T felismerő motorral, valamint a hagyományos LVCSR technológiát alkalmazó CMU Sphinx felismerővel, és nem szignifikánsan ugyan, de

90


mindkettőnél jobbnak bizonyult szófelismerési pontosság tekintetében (referenciaszemélyek: Dr. Pavel Ircing /UWB/, Dr. Alexander Rudnicky /CMU/). Fontos tehát hangsúlyozni, hogy hazánk rendelkezik saját fejlesztésű és tulajdonú korszerű LVCSR technológiával, melyet a térségből igen kevés más ország, sőt világszerte is viszonylag kevés nagyvállalat vagy egyetem mondhat magáénak. Ezzel az eszközzel, már a standard szinten jóval túlmutató eredmények születtek, mint LVCSR statisztikai morf-nyelvi modellel [74], LVCSR nyelvfüggetlen kiejtés modellezési technikával [78], új magyar nyelvű LVCSR-alkalmazások ([133], mindroom.hu). A jövőben tehát a reális cél a közép-kelet-európai cseh beszédtechnológiai hegemóniát megtörni és a környező nyelvekre (szlovák, román, ukrán stb.) elkészíteni a nyelvfüggő LVCSR-adatkomponenseket, azaz az akusztikai és nyelvi modelleket néhány ígéretes alkalmazáshoz. Noha általában a hazai kutatóhelyek saját LVCSR motorral (főként a koartikulációs modul hiányában) jelenleg még nem rendelkeznek, nagyon fontos részeredmények születtek. Kiemelendő az SZTE munkássága az alacsony szintű akusztikai modellezés területén, ahol a modern trendeket megelőzően már a klasszikustól módszertől jelentős előrelépéseket tettek az ún. diszkriminatív tanítás irányában [143], valamint a nemlineáris (kernel) transzformációk alkalmazása [67] is nemzetközileg kiemelkedő teljesítmény. Ugyanitt a morfológiai tudás szóalapú nyelvi modellbe történő integrációja is figyelmet érdemlő megoldás [19]. Meg kell említeni a BME TMIT-en zajló azon kutatásokat, melyek nemzetközi figyelmet is keltettek az újszerű prozódiaintegrálási technikákkal [128]. Kecskeméten Dr. Pintér István ért el nemzetközi szinten kiemelkedő eredményeket a beszédjel alacsony szintű feldolgozásával, elsősorban beszédkódolással kapcsolatban, míg Miskolcon Dr. Czap László a vizuális információ hozzáadásával ért el úttörő beszédfelismerési eredményeket. A PPKE beszédfelismerési módszereket alkalmaz beszédhang alapján történő szájmozgás animáció létrehozására siketek kommunikációjának segítésére. Végül, de nem utolsósorban, meg kell említenünk, hogy az ALL az EASAIER (EU FP6) projekt keretein belül kifejlesztett egy folyamatos beszéd felismerését célzó, statisztikai alapú, magyar és angol nyelvekre betanított LVCSR rendszert. Itt kell megjegyeznünk, hogy önmagában a saját LVCSR motor hiánya nem jelent feltétlenül akadályt az egyes kutató-fejlesztő műhelyek számára, mert ismert és alkalmazható számos nyílt forráskódú LVCSR-t támogató eszköz [56, 57, 58]. Ezek alkalmazásával a jelenlegi technológiai sztenderdnek megfelelő nagyszótáras folyamatos gépi beszédfelismerés megvalósítható. Fontos azonban hangsúlyozni, hogy az említett eszközök használatához szerteágazó tudományos/szakmai/technikai ismeretekre van szükség; továbbá, egy adott LVCSR-feladat kezeléséhez nyelv- és feladatfüggő, költséges beszéd- és szövegadatbázisok, valamint komoly mennyiségű munka és idő ráfordítása szükségeltetnek. Noha a termékszintű fejlesztés és a magyar nyelv sajátosságaihoz történő illesztés további komoly lépéseket igényel, ezek a nyílt forráskódok jelentős mértékben gyorsíthatják a magyar és egyéb nyelvű beszédfelismerők kutatását és/vagy fejlesztését. A magyar élvonal a nemzetközitől tehát sok és fontos vonatkozásban nincs lema-


91

radva, sőt, a rangos, gyakorlati eredményeket is mutató publikációi révén maga is formálja azt. Az előrelépés ugyanakkor szükséges a következő területeken: alacsony szintű jelfeldolgozás, lényegkiemelés, beszélőadaptáció a modelltanítás és felismerés során, modern diszkriminatív akusztikus és nyelvi modell tanítási módszerek. Talán a legkritikusabb elmaradásunk ugyanakkor a nem annyira az alaptechnológiák, hanem az adatbázisok területén van, főleg méret tekintetében, ez irányba mozdulni elkerülhetetlenül szükséges a továbblépés érdekében. I.4.2.2. Az alaptechnológiák alkalmazásai A következőkben röviden bemutatjuk, hogy az előzőekben tárgyalt alaptechnológiáknak milyen főbb alkalmazási körei és lehetőségei vannak, milyen eredményeket értek el hazai és esetleg a multinacionális vállalati szereplők a magyar nyelv tekintetében. Az angol és egyéb indoeurópai nyelvek eredményeit itt nem idézzük, mert ezek megítélésünk szerint nem vehetők egy kalap alá a magyar nyelvvel. Ezzel szemben a török, finn, észt, arab stb. nyelvekhez viszonyítva, melyek morfológiája viszonylag közel áll a magyarhoz, az abszolút felismerési mérőszámokat összehasonlítva sem áll rosszul a magyar beszédfelismerési élvonal. I.4.2.2.1. Parancs- és kulcsszófelismerés. A parancs- vagy kulcsszófelismerés lényege, hogy egyszerűsítjük a beszédfelismerési feladatot a nagyobb pontosság, megbízhatóság vagy egyszerűbb implementáció érdekében. Két lényegesen eltérő megközelítés létezik. Az egyik esetben helyes felismerésre csak akkor van lehetőség, ha a használó csak egyetlen parancsszót vagy kifejezést mond be (parancsfelismerés, ahol egy parancs állhat több egymást követő szóból), míg a másik esetben a kulcsszó, vagy -kifejezés előtt és után is elhangozhat egyéb szó elválasztó szünetek nélkül (kulcsszófelismerés élőbeszédben). Parancsfelismerés A nem természetes nyelvű folyamatos beszéd részeként, hanem pl. sípszó vagy gombnyomás után kiejtett, egy vagy több szóból álló kifejezések felismerése a gépi beszédfelismerés legrégebben működő gyakorlati alkalmazása. Fontos megkülönböztetnünk a beszélőfüggő, a felhasználó által élőszavas bemondással tanítandó rendszereket és a beszélőfüggetlen, szövegesen bővíthető szótárú megoldásokat, melyeket a felhasználónak nem kell tanítania. ! Beszélőfüggő, bemondással tanítandó parancsfelismerők: Ez a – dinamikus idővetemítésen (DTW) alapuló – technológia a legegyszerűbb, a nyelvet nem modellezi, hanem közvetlenül az akusztikai jelet figyeli meg. Eltárolja a tanításból származó bemondásokat, és felismeréskor ezekkel hasonlítja a felismerendő beszédmintát [72]. Elsősorban mobiltelefonok hangtárcsázási funkcióját szolgálja, de zajérzékenysége, körülményes használata miatt nemigen terjedt el. A szótárméret erősen korlátozott (200), beszélőfüggő. Nemzetközi szinten a technológia több mint 20 éve lényegében változatlan formában

92


elérhető, pár évvel ezelőtt már a mobiltelefonok többsége rendelkezett ezzel a funkcióval. ! Beszélőfüggetlen, szövegesen bővíthető parancsfelismerők: Az előzőnél nagyságrendekkel fejlettebb – rejtett Markov-modelleken, illetve mesterséges neurális hálózatokon alapuló – technológia. Az alapvető akusztikai modelleket gondosan tervezett, nagyméretű adatbázisok alapján a fejlesztő tanítja be, ezért a rendszer a beszélő személyétől nagymértékben független hatásfokkal teljesíthet. A korszerű rendszerek a beszédhangok egymásra hatását is közvetlenül figyelembe veszik a fonémaszintű kiejtési modellek mellett [76]. A technológia fonémaalapú, ezért szövegesen bővíthető a szótára, mely akár a milliós nagyságrendet is elérheti megfelelő hardver és optimalizáló algoritmusok használata (pl. WFST minimalizáció, beam-pruning) esetén. Magyar nyelvre ez a technológia a BME TMIT-en került a legteljesebb kifejlesztésre (NKFP 200103, Alkalmazott beszédinformációs rendszerek), komolyabb alkalmazásokba az Aitiában került: Euréka (beszélgető robot), VOXenterek [38], számos referenciával. Nagyon egyszerű, kisszótáras, játékos változatát („Szótoló”) a Sigmoid Kft. valósította meg (BME TMIT-es alapokkal). Az SZTE is rendelkezik referenciával e téren [141]. Az ALL egy beszélőfüggetlen, kisszótáras (max. 1000 szóval működő), speciális parancsnyelvi beszédfelismerő alkalmazást fejlesztett ki, amely bizonyos típusú, manuálisan kezelt elektronikus rendszerek (pl. egy épületben működtetett lift, segélyhívó stb.) beszéddel történő irányítását teszi lehetővé. Az alkalmazás a felhasználó által kimondott paranccsal akusztikus szintű felismerést végez, kikeresi a szótárból azt a szót, illetve frázist, amelynek szótárbeli kiejtése a legközelebb áll a felhasználó által artikulált parancshoz, majd kezdeményezi a felismert parancs végrehajtását. A szoftver magyar és angol nyelvű változata beépült az EASAIER nevű (EU FP6) rendszerbe (http: //www.elec.qmul.ac.uk/easaier/), és – a beépített parancsszótár tartalma által megszabott korlátok között – hangvezérelt visszakeresést tesz lehetővé a célarchívumból. Nemzetközi szinten a Philips beszédfelismerési részlege körülbelül az AITIÁ-val egy időben, hasonló szintű telefonos, magyar nyelvű, parancsszófelismerőt dobott a piacra. Elterjedéséről, gyakorlati használatáról nincs információ. Mára már egyes Nokia okostelefonokban is megtalálható tanítás nélkül használható hangtárcsázás formájában [66]. Kulcsszófelismerés élőbeszédben Élőbeszédben egy adott kulcsszólista elemeinek pontos detektálása az előzőnél lényegesen nehezebb feladat. A fő probléma az, hogy folyamatos beszédre sokkal többféleképpen lehet a kulcsszómodelleket illeszteni, mint a parancsnyelvi beszédre. Alapvetően háromféle megoldás született a probléma kezelésére. ! Kulcsszókeresés nyers, fonémaszintű beszédfelismerési kimeneten: A megközelítés lényege, hogy először a beszédhangszintű felismerés történik meg magasabb szintek (koartikulációs, lexikai, nyelvi szintek) bevonása nélkül.


93

Majd a nagymértékben pontatlan beszédhangsorozatra szövegesen, a fonetikus átiratuk alapján próbálják a kulcsszókat illeszteni - bizonyos mennyiségű karaktertévesztést megengedve. A módszer egyszerű, de korlátozott pontosságú, mivel kulcsfontosságú nyelvi szintek maradnak ki az első lépésben. Ezt a technológiát tudomásunk szerint a Nextent Kft. alkalmazza 2008-tól. A módszer a rövid kulcsszavak felismerésére nem alkalmas. ! Word-spotting: Bár ezt a kifejezést általánosabb értelemben is használják, mi a kulcsszó közvetlen felismerését értjük alatta a megelőző és követő beszédrészek felismerésének igénye nélkül. Ezt a technológiát magyar nyelvre a BME TMIT az NKFP2/034/2004 projektben fejlesztette ki. Mivel a mintaillesztési fázisba mind a koartikuláció, mind a magasabb szintű kiejtési szint be van vonva, a felismerési pontosság igen magas lehet. Ugyanakkor a nyelvi szint hiánya miatt ez a megközelítés sem alkalmas rövid kulcsszavak felismerésére, továbbá alapesetben egy bemondásban egy kulcsszó megtalálása lehetséges csak. A technológia személynevek megtalálására és felismerésére kifejezetten alkalmas, elsőként a 2006-os MSZNY konferencián lett bemutatva [134], a második generációs VOXenterek alapját képezi (az AITIA International hasznosításában). ! Folyamatos beszédfelismerés alapú kulcsszókeresés: A kulcsszófelismerés legbiztosabb formája az, ha következőkben részletezendő folyamatos nagyszótáras beszédfelismerési módszerrel előállítjuk a beszédbemenet szöveges átiratát, és abban keresünk a kulcsszavakra. Tetszőleges kulcsszó könnyen megtalálható, amely a felismerési kimenetben szerepel. Hátránya a technikának, hogy a feladathoz illeszkedő tematikájú szöveges tanító adatbázist igényel. I.4.2.2.2. Folyamatos beszéd felismerése. A folyamatosbeszéd-felismerés célja az – olvasott vagy spontán bemondásból származó – beszéd teljes és lehetőleg pontos szöveges átiratának előállítása. Általános esetben azonban a feladat egyetlen nyelvre sem megoldott az emberéhez mérhető felismerési pontossággal, ezért a témakör valamilyen szűkítése szükséges az elfogadható pontosság eléréséhez. Erősen kötött témakörű, közép- és nagyszótáras beszédfelismerés Orvosi diktálórendszerek A különféle elfogadott szóalakok számától és a szórendek sokféleségétől nagyban függ a folyamatos beszédfelismerés várható pontossága. A szakirodalom szerint a legjobb pontossággal kecsegtető beszédfelismerési területek között elöl áll a radiológiai leletezés, illetve a hasonló orvosi leletezési feladatok. Még a nagy szóalaktani változatosságot mutató magyar nyelv esetén is a szótárméret n x 1000 körül alakul ilyen esetekben, és a szórend variabilitásával korreláló perplexitás érték is alacsony, 10-80 tartományon mozog. Magyar nyelvre elsőként a Philips mutatott be orvosi diktálórendszert, majd hamarosan a SZTE-en (radiológiai pajzsmirigy-leletek szövegezéséhez) és a BME TMIT-en is készültek ilyen beszédfelismerő rendszerek, utóbbiak koartikuláció modellezés nélkül is magas pontosságot értek el (70-98%) kísérleti körülmények

94


között, a a radiológiai leletek diktálásakor pedig az SZTE rendszere gyakorlatilag is használható, 95% körüli pontosságot képes elérni [165, 20]. A reklámanyagokban mutatott és a kísérleti körülmények között elért legmagasabb felismerési pontosságok azonban valós körülmények nem bizonyultak elérhetőnek. Ennek okai között részben a nem várt háttérzaj (pl. endoszkópos leletezés), részben a rendszer nem megfelelő használata és a dinamikusan változó felhasználói igények is szerepelnek. Jóllehet a rendszerben a felhasználó szó- és nyelvhasználati sajátosságait jól automatizált nyelvi tanítás (a nyelvi modell adaptálása) segíti, a tapasztalatok szerint a felhasználók mégis vonakodtak ezt a lehetőséget igénybe venni. A széles körű elterjedéshez tehát további kutatások, a robusztusság növelése szükséges. Jogi diktálórendszerek Elsőként tudomásunk szerint a Philips készített magyar nyelvű beszédfelismerő rendszert jogi témájú diktáláshoz. A rendszer használhatóságáról, elterjedéséről információ nem áll birtokunkban. Az ALL fejlesztés alatt álló diktálórendszere nagyszótáras, folyamatosbeszéd-felismerő alkalmazás, amely egy adott szakterületen használt résznyelv jellemző lexikális sajátosságaira, szakzsargonjára és tipikus sztereotípiáira specializálódik. Az alkalmazást az ALL elsőként a jogászi nyelvezetre készíti fel, azonban adaptálható más szakmaspecifikus rendszerekre (orvosi/állatorvosi terminológia, építészeti szaknyelv stb.) a beszédfelismerőbe beépített kiejtésszótár és nyelvmodell cseréjével. Jelenlegi állapotában a rendszer beszélőfüggetlen, fejlesztés alatt áll azonban egy beszélőadaptációs komponens opcionális beépítése a rendszerbe. A szoftver beszélőfüggő változatát az ALL az ügyvédi munka támogatására szánja. Nagyszótáras beszédfelismerés A nagyszótáras folyamatos beszédfelismerő rendszerek tipikusan n x 10.000 szavas szótárakkal dolgoznak. Ezek a megoldások is adott témakörben teljesítenek a legjobban, de sokkal kevésbé kötöttek, mint az előző pontbeli technológiák. A kifinomult koartikuláció-modellezés („cross-word triphones”, l. még [75]) ilyen feladatoknál nélkülözhetetlen, amit egyelőre csak az I.4.2.4.1-ben ismertetett hazai fejlesztésű felismerő motor, illetve nemzetközi fejlesztésű motorok támogatnak. A felismerés hibája így is minden esetben jelentős, ezért jelenleg elsősorban segéd/kiegészítő funkciók ellátására, jellemzően a hangarchívumok szöveges kereshetőségének biztosítására használhatók e rendszerek. Híranyagok felismerése A rádiós-tévés hangzó híranyagok gépi átírása szöveges formába világszerte kiemelt terület (Broadcast News Transcription). A híreket tartalmazó hanganyagok felismerése akusztikailag viszonylag könnyű (kivéve a telefonos/helyszíni tudósításokat), nyelvileg viszont nehéz feladat. Az akusztikai relatív „könnyűséget” a tipikusan stúdióközeli audio minőség, a gondos artikuláció és a megakadások ritkasága adja. A nyelvi nehézséget a nagyszámú új (gyakran kivételes ejtésmódú) szó és az általában szükséges igen nagy szótárméret jelenti. Az AITIA és a BME TMIT kifejlesztett egy beszélőfüggetlen, valós időben működő


95

LVCSR-alkalmazást kifejezetten hangzó híranyagok szöveges átalakítására. A megközelítés messzemenően figyelembe veszi a magyar nyelv morfológiáját, ami lehetővé teszi, hogy a hagyományos (szóalapú) LVCSR technológiákhoz képest a felismerési hiba közel a felére csökkenjen. Beszélőadaptáció mellett a szófelismerési hibát 20% alá sikerült csökkenteni, adott, 1 órás tesztanyagon, ami hasonló nyelvekhez viszonyítva élvonalbelinek mondható [78]. Általános médiaanyagok felismerése Általános médiaanyagok beszédtartalmának felismerése (szöveggé alakítása) nagy kihívást jelent a változatos beszédstílus, szövegtartalom, akusztikai viszonyok miatt. Ezért a híranyagfelismeréshez képest itt alacsonyabb felismerési pontosság várható. Tény ugyanakkor, hogy a hangfelvétel minősége általában gondosan kontrollált, azaz nagyon halk, rossz jel-zaj viszonyú beszédrészletekre tipikusan nem kell számítani. Az ALL magyar és angol nyelvű beszédfelismerője a médiában elhangzó/látható műsorok archiválásakor keletkező audiovizuális fájlok beszédszakaszainak felismerésére szakosodott. A műsorok beszédszakaszainak többsége riportok, párbeszédek, visszaemlékezések, nyilvános viták stb. formájában elhangzó beszéd. Beszédfelismerője akusztikai tudását az ALL nagyméretű, spontán beszédet is tartalmazó beszédkorpuszokból (hanganyag + szöveges átirat) származtatta. A Digital Natives Kft. nemrégiben indult Mindroom (http://www.mindroom.hu) szolgáltatása az AITIA + BME TMIT technológia támogatásával (lásd I.4.2.4.1. pont) szintén a médiában elhangzó általános anyagok archiválására és beszédszakaszainak felismerésére, indexálásra jött létre. Az akusztikus modellek részben olvasott, részben spontán beszéddel lettek tanítva, míg a nyelvi modellek témakörönként specializáltak. Az akusztikai viszonyokhoz automatikus adaptáció igazítja a modelleket. Sajtótájékoztatói hanganyagok felismerése Ahogy az akusztikai körülmények romlanak (nem stúdióban történik a felvétel, az artikuláció kevésbé gondozott), úgy válik nehezebbé a nagyszótáras beszédfelismerési feladat. A BME TMIT sajtótájékoztatók hanganyagának beszédfelismerésénél 70%-ot megközelítő pontosságot ért el egy magyar nyelvre újszerű, morfémaalapú technológia alkalmazásával [132]. A technika úgy tesz lehetővé rel. 20%-os felismerési hibacsökkentést, hogy az elfogadható szóalakok száma több millió lehet, ugyanakkor a nem konvencionális elemeket tartalmazó szótár mérete csak néhányszor 10000. Idősek spontán beszédének felismerése A spontán, rosszul artikulált, de nagyszótáras beszéd felismerése napjaink (és a jövő) egyik legnagyobb technológiai kihívása. Az AITIA és a BME TMIT a MALACH (Multilingual Access for Large Spoken Archives, http://malach.umiacs.umd.edu) projektben magyar anyanyelvű, idős holokauszt-túlélők visszaemlékezéseinek szöveges kereshetővé tétele érdekében alkalmazott újszerű, nagyszótáras folyamatos beszédfelismerési megközelítéseket. Nyelvfüggetlen szabályok alkalmazása nélkül is hasonló eredményeket sikerült elérni, mint a klasszikus megközelítéssel. A szófelismerési hiba 57-43% között alakult, ami az alkalmazott kisméretű tanítóadatbázs miatt jelentős, de a hasonló peremfeltételek mellett elért egyéb nyelvű eredményekhez képest (cseh,

96


orosz, szlovák) a legjobb volt [77]. I.4.2.2.3. Zajrobusztus beszédfelismerés. A mai felismerési technikák „Achilles-ina” a zajérzékenység. Még a fehér és stacionáris zajok is nagymértékben rontják a beszédfelismerés pontosságát, nem is beszélve az interferencia jellegű zajokról (háttérbeszélgetés) vagy tranziens és zenei zajokról. A jelenlegi csúcstechnológiák is lényegesen érzékenyebbek a zaj hatására, mint az ember. Sokan sokféleképpen próbálkoztak a beszédfelismerés robusztusabbá tételével — részsikereket elérve. A BME TMIT a beszédkezdet és -vég pontosabb detekciójával [151], másrészt a csatornatorzítások online kompenzálásával ért el szép eredményeket [79]. A SZTE nemlineáris transzformációs módszereket alkalmazva (Springy Discriminant Analysis) ért el javulást [102, 67]. I.4.2.2.4. Beszél˝ oadaptív beszédfelismerés. A beszélő hangjához történő adaptáció nagymértékben javíthatja a beszédfelismerés pontosságát. Alapvetően két megközelítés terjedt el, melyek együtt is alkalmazhatóak. Vokálistraktushossz-kompenzáció Ilyenkor az adaptáció „csupán” arra korlátozódik, hogy a beszélőszervek méretéből adódó eltéréseket a frekvenciaskála zsugorításával nyújtásával kompenzálja. Mérsékelt, de szisztematikus javulás érhető el ezzel a technológiával. Az SZTE [101], valamint a BME TMIT együttműködve az RWTH Aachennel is végez ilyen irányú fejlesztéseket. A beszélő hangszínéhez történő adaptáció Magyar nyelvre egyelőre csak a BME TMIT és az SZTE publikált ilyen eredményeket, melyek jelentősen javították a beszédfelismerés pontosságát [149, 21]. A módszer felügyelt és felügyelet nélkül is eredményesnek bizonyult, azaz nem feltétlenül szükséges egy adott szöveg felolvasásával elvégezni az adaptációt, az automatikusan is megtörténhet, igaz, az utóbbi esetben a jelen technológia mellett csak offline üzemmódban. I.4.2.2.5. Modalitás felismerése, prozódiaintegrálása. Napjainkban a beszédfelismerők a bemenetükre kerülő beszédet a kimeneten szóláncok formájában jelenítik meg. A beszédfelismerő rendszerek nyelvi moduljai lényegében szavak kapcsolódásának statisztikai alapú specifikálásával működnek, ezért a nyelvnek a szószint felett, szószerkezeti, mondat vagy szöveg szintjén megjelenő szintaktikai és szemantikai összefüggéseit nem képesek a beszédből kinyerni. Számos pszichológiai kutatás utal ugyanakkor arra, hogy az emberi beszédpercepcióban például a magasabb nyelvi szinteket tükröző prozódiának is rendkívül fontos szerepe van. A beszédben hordozott szintaktikai és szemantikai információ kinyerése a természetes nyelvi elemző eszközök, automatikus tolmácsoló rendszerek, sőt az igényes, a kimenetet írásjelekkel megfelelően tagoló beszédfelismerők esetében [172] is nélkülözhetetlen. A beszéd minél


97

teljesebb feldolgozása a beszédfelismerést a beszédértés irányába mozdítja, amely nélkül az ember maga is nehezen boldogulna a pusztán beszédfelismerési feladattal. Tudomásunk szerint Magyarországon jelenleg egyedül a BME TMIT foglalkozik a prozódia beszédfelismerésbeli felhasználási lehetőségeinek kutatásával [127, 171]. Ezen kutatások keretein belül a BME TMIT munkatársai kifejlesztettek egy kötött hangsúlyozáson, illetve intonációs kontúrosztályozáson alapuló szóhatár-detektáló alkalmazást magyar és finn nyelvekre [126, 169, 170]. I.4.2.2.6. Beszéd érzelmi töltetének felismerése. Az emberi kommunikációban a beszéd nemcsak tartalmilag hordoz információt, hanem tükrözi a beszélő témához való viszonyulását, a beszélő érzelmeit. Az utóbbiak fontosságát a gépi rendszerekben csak a közelmúltban kezdték felismerni, a prozódiához hasonlóan a közlemény minél tökéletesebb megértéséhez ugyanis ezek is támpontot szolgáltatnak. A beszéd alapján történő érzelemfelismerés kutatásával aktívan foglalkozik a BME TMIT [144, 150] többek között az egész Európára kiterjedő COST 2102 projekt keretében is. Emellett a Nextent Kft. is kínál megoldást a negatív érzelmek gépi detekciójára. I.4.2.2.7. Audiovizuális beszédfelismerés. A beszédfelismerés az ember számára mind akusztikus, mind vizuális ingerek segítségével történik. A Miskolci Egyetemen beszédfelismerési kutatásai a beszédre mint audiovizuális jelsorozatra összpontosítanak, azaz a szájról olvasást próbálják gépi úton modellezni. A kiegészítő vizuális jel a beszédfeldolgozás minőségét nagyban javíthatja, különösen zajos környezetben [27]. A PPKE audio inputból video kimenetet állít elő (száj-, illetve arcmozgás) siketek kommunikációjának segítésére. Bizonyos szűk területeken, még ilyen körülmények között is sikerült elfogadható emberi szófelismerési pontosságot elérniük [41, 129]. I.4.2.2.8. Beszél˝ ofelismerés. A beszélőfelismerés célja alapvető célja a beszéd alapján a beszélő személyének meghatározása. A feladat viszonylag jól kezelhető, amíg a beszélő személyek száma nem túl sok (n x 10), minden beszélőhöz van pár perces tanítóanyag, és tudható, hogy a felismerendő személy az ismert körbe tartozik. Ilyen feltételek mellett a BME TMIT parlamenti beszélőkre magas felismerési pontosságot ért el. Az ALL kifejlesztett egy szoftverterméket [60], amely beszédet (is) tartalmazó audiovizuális fájlokban lokalizálni tudja azokat a beszédszakaszokat, amelyekben egy adott személy hangja hallható, illetve azonosítani tudja az egyes beszédszakaszokban hallható személyeket, amennyiben azoktól megfelelő minőségű és mennyiségű tanítóminta rendelkezésre áll. A szoftver önálló termékként, illetve a beszédfelismerő jelfeldolgozó moduljába beépítve egyaránt hasznosítható a felismerési hibát tűrő alkalmazásokban. Különböző feladatot jelent a beszélőazonosítás vagy -verifikáció, amikor ellenőrizni kívánjuk, hogy az adott személy az-e, akinek mondja magát. Tudomásunk szerint a

98


feladat nem oldható meg a jelenlegi technológiai színvonalon a biztonsági beléptető rendszereknél szükséges megbízhatósággal. I.4.2.2.9. Egyéb beszédfelismerési alkalmazások. Beszédterápiás alkalmazások Különféle beszédterápiás eljárások épülnek a beszédfelismerési technológiákra, melyekről részletesen lásd I.4.4. alatt. Audiovizuális fájlok hangtípus szerinti szegmentálása A beszédfelismerő inputját képző audiovizuális fájlok általában nemcsak beszédet, hanem más típusú szegmenseket/hangszakaszokat (zene, ének stb.) is tartalmaznak. A klasszikus beszédfelismerési technikákat – beszédhangok helyett hangtípusokra alkalmazva ezen szakaszok egymásutániságának, időtartamainak felismerése is lehetséges bizonyos feltételek mellett. Ilyen eszközzel rendelkezik többek között az ALL, és publikációkat is jelentetett meg a BME TMIT [177, 136]. Beszéd szinkronizálása a felismert szöveggel A beszédfelismerők tanításának alapvető lépése az elhangzott beszéd és a hozzá tartozó átirat szinkronizálása. Ez a funkció azonban önmagában is érdekes lehet, pl. videoanyagok szinkronizálása az ismert, elhangzó szöveggel. E technológiai alkalmazással mindegyik beszédtechnológiai műhely rendelkezik. I.4.2.3. Beszédfelismerési alkalmazások termékekben, szolgáltatásokban I.4.2.3.1. Telefonos dialógusrendszerek. VOXenter A beszédfelismerő rendszerek számos gyakorlati alkalmazást segíthetnek. Ilyen például a telefonos hívások kezelése, illetve telefonközpont-irányítás. Az AITIA által kifejlesztett VOXenter beszédfelismeréssel működő automata híváskezelő berendezés, mely a telefonhívások többségét emberi beavatkozás nélkül kezeli. A call center segítségével olyan ügyfélirányító, tájékoztató információs rendszer hozható létre, amely megkönnyíti, és a későbbiekben teljesen felválthatja az ügyfélszolgálatok munkáját. A rendszer bemondott név, osztály, termék, vagy egyéb kulcsszó alapján kapcsolja az illetékest, így a hívások automatizált fogadása és célba juttatása költséghatékony, egyszerű és emberközpontú ([38], http://www.voxenter.hu ). Gyógyszerhasználati tudakozó Hagyományos telefonokkal is elérhető beszédvezérelt gyógyszerinformációs vonal [89]. I.4.2.3.2. Beszélget˝ o robotok. A virtuális karakterek, beszélgető robotok célja általában a kommunikáció hatékonyságának növelése. A hang vagy szöveg mellett megjelenő animált karakter figyelemfelkeltő és figyelemmegtartó hatását, valamint hatékony érzelemkifejező képességét számos alkalmazásban kihasználják. A virtuális karakterek weboldalba, e-learning megoldásokba, információs terminálokba építhetőek, de önmagukban is képesek információ átadására.


99

Egy ilyen megoldás az AITIA által fejlesztett EuRéka beszélgető robot, amelynek különlegessége, hogy élőszóban lehet a kérdéseket feltenni, amelyeket az integrált beszédfelismerő motor dolgoz fel. Természetesen a feltehető kérdések és válaszok témaköre is kötött, a megoldás Magyarország EU-csatlakozásához kapcsolódott. I.4.2.3.3. Diktálórendszerek. A BME TMIT és az SZTE különféle speciális tematikájú orvosi diktálórendszert fejlesztett ki magyar nyelvre. A Philips fejlesztett ki először magyar nyelvű orvosi diktálórendszert, majd jogi területtel bővítette a tematikát (SpeechMagic). Bővebben: I.4.2.2.2. I.4.2.3.4. Médiaarchívumban keres˝ o rendszerek. Az itt leírt rendszerek működése nem korlátozódik pusztán a médiaarchívumban való keresésre, azonban e tulajdonságuknál fogva itt (is) teszünk róluk említést. VOXearch Az egyre nagyobb számban és méretben fellelhető köz-, illetve magángyűjteményi video- és audioarchívumok használhatóságát növeli a tartalmi keresési lehetőség (kulcsszófelismerés, hangbányászat) megvalósítása. Amíg ezekben az anyagokban nem lehet gyorsan tartalom alapján keresni, addig az archívumok nem szolgálhatnak hatékony információforrásul, kézi feldolgozásuk pedig gyakorlatilag lehetetlen. Az AITIA és a BME TMIT kidolgozott egy természetes nyelvet feldolgozó, beszédfelismerésen alapuló szókereső eljárást (Voxearch), amelynek segítségével lehetőség nyílik az archívumok automatikus indexelésére. A szókereső lehetőséget ad tartalmi keresésre több száz vagy akár több ezer kulcsszó alapján is. Az eljárások kidolgozásakor különös tekintettel kell lenni a magyar nyelv sajátosságaira, ezért más nyelvekre kidolgozott technológiák közvetlenül nem alkalmazhatóak. Az eredmények széles körű hasznosulásával az audiovizuális dokumentumok is szerves részévé válnak az információs társadalomnak, és várhatóan jelentősen kiszélesedik a felhasználók köre (http://www.aitia.hu). ALL Az EASAIER (Enabling Access to Sound Archives through Integration, Enrichment and Retrieval http://www.elec.qmul.ac.uk/easaier/) nevű EU FP6 project keretében az ALL kifejlesztett egy olyan rendszert, amely audiovizuális archívumokban hangzó (beszéd) formában megőrzött, szöveges átirattal nem rendelkező anyagok visszakeresését célozza. Az archivált fájlokat keresésre előkészítő modul a fájlok minden egyes beszédszakán felismerést végez, majd a felismert szavakkal indexeli az adott beszédszakaszt.A keresés számára kifejlesztett modul a szöveges adattárakból való visszakereséseknél megszokott keresési feltételek megfogalmazását igényli. Az archivált fájlokat keresésre előkészítő modul magyar és angol nyelvekre készült el prototípus szinten, a visszakeresést támogató modul nyelvfüggetlen. Az ALL rendszerét integráló komplett EASAIER rendszert eddig a British Library és a Caledonian

100


University Spoken Words részlege telepítette. Az ALL kifejlesztett egy olyan – beszédfelismerésre támaszkodó – eszközt is, amely lehetővé teszi a (beszéd típusú hanganyaggal ellátott) archívumok tematikus kategorizálását, illetve strukturálását. A szoftver demonstrációs szinten működik. Mindroom A Digital Natives az AITIA-BME TMIT LVCSR technológiai támogatásával nyújt számos beszédfelismerési szolgáltatást (http://www.mindroom.hu). Ezek közül kiemelendő a magyar nyelvű multimédia anyagok kulcsszavas kereshetősége, a lejátszás azonnali kulcsszóra pozicionálása, az egyes video anyagok tartalmának szófelhőben történő megjelentetése és ennek alapján a tartalmak automatikus kategorizálása. I.4.2.4. Beszédfelismerési eszközök Az alábbiakban az egyes csoportok – általunk ismert – saját fejlesztésű beszédfelismerési eszközeit mutatjuk be. I.4.2.4.1. AITIA - BME TMIT/Beszédfelismerési csoport. ! Általános beszédfelismerési tudásforrás-építő eszköztár: többnyelvű fonológiai átíró rendszer, tetszőleges fokszámú N-gram és osztály N-gram nyelvi modell számító, hasonulási szabályrendszer modellező, speciális konverterek. ! Általános WFST (Weighted Finite State Transducer) modellező rendszer: mindenfajta nyelv- és beszédtechnológiai tudásforrások integrációjára és optimalizációjára. ! Általános WFST-HMM dekóder: szinte minden típusú beszédfelismerési feladatra alkalmas (beszélőfüggetlen, izoláltszavas, kapcsoltszavas, akár extra nagy szótáras folyamatos, morféma alapú, szóhatárokon átívelő koartikuláció modellezés stb.). Valós idejű, platformfüggetlen, több csatornás kliens-szerver alapú, beszélőadaptációt, diktálást támogató felismerő motor. ! Zajtűrő akusztikai előfeldolgozó: telefonos és általános beszédbemenetre. A fenti nyelvfüggetlen eszközök jelentős részben az NKFP-2/034/2004, illetve az azt megelőző NKFP-2001/2/008-as projekt keretein belüli közös munka eredményeként álltak elő. I.4.2.4.2. ALL. Az ALL beszédfelismerője nagyszótárral (több mint 300 000 szóval) működő rendszer, amely egy adott nyelven elhangzó, lexikálisan nyílt, folyamatos beszéd automatikus felismerését (beszédről szövegre való leképzését) célozza. A rendszer célja, hogy automatizálja a munka nagy részét, amikor digitálisan rögzített beszélt anyag (előadás, bírósági tárgyalás, önkormányzati ülés stb.) utólagos leírására van szükség. A rendszer statisztikai alapú, jelenleg magyar, valamint standard (amerikai és brit) angol nyelvekre működik, és viszonylag könnyen adaptálható más nyelvekre is.


101

Az I.4.2.2.1. rész izolált parancsfelismerés bekezdésében leírt szoftver – összekötve egy primitív felolvasógéppel – vakoknak, gyengénlátóknak és kézsérülteknek nyújthat segítséget egy PC, digitális könyvtár stb. által nyújtott szolgáltatások igénybe vételéhez. A statisztikai alapú beszédfelismerők teljesítménye szempontjából kritikus, hogy a felismerő nyelvi tudásának bázisául megfelelő méretű beszédkorpusz álljon rendelkezésre. Ennek tudatában és érdekében az ALL kifejlesztett egy szoftvercsomagot, amely nagymértékben megkönnyíti különböző nyelvű és célú beszédkorpuszok építését, illetve verifikálását. I.4.2.4.3. BME TMIT/Beszédakusztika Laboratórium. A BME TMIT műhelye kifejlesztett egy statisztikai alapú, folyamatos beszédfelismerő motort és fejlesztői környezetet. Alkalmazható beszédfelismerő rendszerek betanításához, teszteléséhez (MKBF 1.0): újszerű akusztikai előfeldolgozásra épül, akusztikai szinten a rejtett Markov-modellt, illetve nyelvi szinten n-gramokat használ. Lehetőség van adott beszélőre (hangra) történő adaptálásra is. Az eszközzel középszótáras (1000–20000 szavas), valós időben működő beszédfelismerők készíthetők [158, 166]. I.4.2.4.4. SZTE. A Szegedi Tudományegyetem folyamatos, valós idejű diktálórendszere jelenleg néhány ezer szavas (kis-közepes méretű) szótár és erősen kötött nyelvi környezet esetén elfogadható hatékonysággal működik, és a nagyszótáros működés elérése céljából jelenleg is folyamatos fejlesztés alatt áll. A felismerő akusztikai szinten a közismert rejtett Markov-technológiát alkalmazza, de kísérleti szinten hasonló eredményeket tudtunk elérni egy neuronhálós megoldással is. A folyamatos diktálás nyelvi szintű algoritmikus támogatása az ún. szó n-gram-okat, különböző simítási módszereket, környezetfüggetlen nyelvtani modellezést, valamint MSD-kód (morfoszintaktikai leírás) alapú szabályrendszert foglal magában, valamint támogatja a beszédhangok közötti hasonulások kezelését. Itt további cél a magyar nyelv sajátosságainak (a nem kötött szórendnek és a toldalékolásnak) hatékonyabb modellezése [19]. A beszédfelismerő akusztikai része a standard beszélőfüggetlen diktálási lehetőség mellett beszélőadaptációs (a beszélő hangjához hozzáigazodó, ezáltal a pontosságot nagymértékben növelni képes) modult is tartalmaz. Emellett jelenleg a különböző beszélőnormalizációs technikák (VTLN, CMN) rendszerbe integrálása is folyamatban van. Ezek a módszerek további jelentős javulást tudnak hozni a beszédfelismerési hatásfokban. A folyamatos diktálórendszerek (beszélőfüggetlen felismerési feladatok esetén) jól alkalmazhatóak izolált szavak felismerésére, azaz egyszerű parancsszavakkal történő vezérlésre akár többezer szavas szótár mellett is (az izolált szavas beszédmód előnye a folytonossal szemben, hogy ilyenkor jóval nagyobb felismerési pontosság érhető el). Természetesen itt is lehetőség van beszélőadaptációra, ami a pontosságot nagymértékben növelheti. Az SZTE által fejlesztett izolált szavas rendszer már több projektben

102


is felhasználásra került (pl. a Beszédmesterben [101], valamint egy önkormányzati keresőrendszerben).

I.4.3. Beszédadatbázisok A jelenlegi beszédfelismerők statisztikai alapon működnek, aminek legfőbb hátránya, hogy elkészítésükhöz (betanításukhoz) nagy méretű, megfelelően előkészített (szegmentált-annotált) beszédadatbázisokra van szükség. A következőkben a magyar nyelvre jelenleg rendelkezésre álló, nagyméretű adatbázisokat mutatjuk be részletesen. I.4.3.1. MTBA Az MTBA adatbázis vezetékes, illetve mobiltelefonos felvételeket tartalmaz, 500, az ország különböző pontjairól verbuvált adatközlő hangján. A felvételek tartalmaznak egy izolált szavas blokkot különféle vezényszavak, számok, vállalatnevek stb. felvételeivel, ami egyszerűbb vezérlésű telefonos dialógusrendszerek készítésénél lehet nélkülözhetetlen. Szerepel tovább minden beszélőtől 12 folyamatos mondat, melyek szöveganyagát úgy válogatták össze, hogy minél alaposabban lefedje a magyar nyelv hangkapcsolatait, s így a folyamatos felismerésben használatos beszédhangmodellek betanítását minél nagyobb mértékben segítse. A mondatok teljes anyaga fonetikai szinten szegmentálva és annotálva van, így kiválóan alkalmas a beszédhangmodellek betanítására vagy (amennyiben további, szegmentálatlan anyaggal is rendelkezésre áll) a modellek inicializálására [164]. Az adatbázis bárki számára hozzáférhető a BME TMIT terjesztésében http://alpha.tmit.bme.hu/speech/databases.php. I.4.3.2. MRBA Az MRBA adatbázis szerkezetében és szöveganyagának tartalmában nagyon hasonlít az MTBA-ra, azonban a felvételek PC-ken, a gépbe dugott mikrofonokon keresztül történtek, ugyanis az adatbázis elkészítésével a cél számítógépes-multimédiás beszédfelismerési alkalmazások (pl. diktálórendszerek) fejlesztésének a támogatása volt. A felvételek ebben az esetben 332 ember hanganyagát tartalmazzák, a felvételeket ismét az ország különböző pontjain rögzítették, változatos korú és iskolázottságú adatközlőktől. A mikrofonok is nagymértékben variálódtak, de a felvételek többsége olcsó, néhány ezer forintos mikrofonnal készült, ezáltal is szimulálva az átlagos felhasználási környezetet. A 332 beszélő közül 100-nak az anyaga manuálisan fonetikai szintű szegmentálásnak lett alávetve, de a többi felvétel is nagyon alapos lehallgatásos ellenőrzésen és annotáción esett át. Az adatbázisnak ezen része gépi úton lett szegmentálva, a futólagos kézi ellenőrzések szerint az algoritmus elfogadható módon oldotta meg a feladatot [162]. Az adatbázis bárki számára hozzáférhető a BME TMIT terjesztésében http://alpha.tmit.bme.hu/speech/databases.php.


103

I.4.3.3. BABEL A BABEL adatbázis három különböző részből áll: izolált és kapcsolt szavas számjegy bemondásokból, CVC (mássalhangzó-magánhangzó-mássalhangzó) szótagokból, valamint folyamatos olvasott beszédből [167]. Mind az olvasott mondatokat, mind a számjegysorozatokat oly módon tervezték, hogy jól lefedjék a magyar nyelvben előforduló hangkombinációkat. A folytonos részben a bemondások némelyike suttogó hangú. Az adatbázis egy része fonémákra van szegmentálva és fel van címkézve. Az adatbázisban összesen 30 beszélő (15 férfi és 15 nő) hangja és körülbelül 2000 mondat és 14 000 kapcsolt szavas számjegysorozat szerepel. Bárki számára hozzáférhető az ELRA (European Language Resources Association) terjesztésében: http://www.elra.info. I.4.3.4. Tesztel A Tesztel adatbázis 100 beszélős, és jellegzetessége, hogy szándékosan nagy és természetes háttérzajban felvett mobiltelefonos bemondásokat tartalmaz. Az adatbázis létrehozásának célja az volt, hogy a különféle beszédfelismerők számára megfelelő tesztelési környezetet nyújtson, így a szöveg lehetőség szerint minél nagyobb mértékben fedje le a magyar nyelv fonémáit és hangkapcsolatait. Az adatbázis spontán beszéd mellett felolvasott neveket, dátumokat, számokat, városneveket és eldöntendő kérdéseket is tartalmaz (http://alpha.tmit.bme.hu/speech/hdbtesztelhu.php). A SpeechDat-E adatbázis vezetékes telefonon felolvasott szövegek hanganyagából áll, 1000 magyar beszélő hangját tartalmazza. Az adatbázis megfelelő hátterül szolgálhat a különböző hangvezérelt telekommunikációs szolgáltatásokat nyújtó rendszerek betanítására és tesztelésére [106]. I.4.3.5. SPECO A SPECO adatbázis ép és beszédhibás gyermekek beszédét tartalmazza különös tekintettel a réshangokra, affrikátákra és magánhangzókra. A hangok önállóan, hangkapcsolatokban, szavakban és mondatokban is szerepelnek. 72 5 és 10 év közötti gyermek beszéde került be az adatbázisba, amelynek célja a beszédhibás gyermekek beszédének fejlesztése [28]. I.4.3.6. Mássalhangzó- kapcsolódásokat bemutató beszédadatbázis Ez az első nyilvános magyar beszédadatbázis [1]. A mássalhangzók egymáshoz való kapcsolódását, a fellépő koartikulációs folyamatokat és azok akusztikai vetületét illusztrálja az adattár (http://fonetika.nytud.hu/cccc). Az adatbázis főleg a mássalhangzókapcsolódásokra koncentrál, minden mássalhangzó-kapcsolódásra egy mintaszót mutat be, azonban ezekben a mintaszavakban a szó összes hangkapcsolódásának a koartikulációs folyamata is tanulmányozható, tehát például CV és VC kapcsolódások is.

104


A mássalhangzó-kapcsolatok alapvetően négy csoportban jelennek meg: CC, CCC, CCCC és CCCCC kapcsolódások. A CC elemekből minden ejthető kapcsolatra szerepel példa (alapvetően 453 kapcsolat), a többiekből a leggyakoribbak fordulnak elő (alapvetően 524 kapcsolat). Minden kapcsolat egy-egy mintaszón keresztül férfi és női ejtésben is megjelenik. A lekérdezés történhet beszédhang alapján, illetve betűkapcsolat alapján. A megtalált mintaszó (szavak) szöveges és hangátírásos formáját, valamint a hangidőtartamokat a kereső egy listában jeleníti meg egymás alatt. I.4.3.7. Beszédhang- kapcsolódásokat bemutató adattár A magyar beszédhang-kapcsolódások szerkezeti bemutatására is elkészült egy beszédadatbázis [2, 94]. A következő hangkapcsolódások tanulmányozhatók az adatbázisban: CV, VC, VV, CC-kből minden lehetséges elem, a VVV (15 féle), VVVV (1-1 minta), CCC (445 féle) és CCCC (74 féle) hangkapcsolódásokból a leggyakoribbak szerepelnek az adatbázisban (http://fonetika.nytud.hu/cvvc). Minden kapcsolatot egyegy mintaszón keresztül férfi és női ejtésben tartalmaz az adatbázis. A lekérdezés itt is betű- vagy beszédhang alapú. A megtalált mintaszó (szavak) szöveges és hangátírásos formáját, valamint a hangidőtartamait a kereső egy listában jeleníti meg egymás alatt. I.4.3.8. Magyar szavak hangid˝ otartamképeit bemutató adattár A magyar szavak hangidőtartamképeinek bemutatását szolgáló adatbázis 1,5 millió magyar szóalak hangidőtartam-szerkezetét tartalmazza a legújabb hangidőtartamkutatások eredményei alapján [93]. Az időmodell segítségével minden szóalakra kiszámították a benne szereplő hangok időtartamát, amely függ magától a hangtól, a hangkörnyezettől, a hang helyzetétől a szón belül, valamint a szó hosszától. A szó lekérésekor megjelennek a szó hangjai és azok egyenkénti időtartamai ms-ban. A kiválasztott szót a meghallgatáson felül meg is lehet tekinteni (rezgéskép). Az adatbázis elérhető: http://fonetika.nytud.hu. I.4.3.9. BEA A BEA elnevezésű (BEszélt nyelvi Adatbázis) fonetikailag megalapozott többfunkciós spontán beszéd adatbázis fejlesztése az MTA Nyelvtudományi Intézetében folyik [46]. Célja a mai budapesti beszélők beszédének rögzítése, továbbá anyag biztosítása különféle kutatásokhoz és gyakorlati alkalmazásokhoz. Az adatbázis többféle típusú spontán beszédet, utánmondást, felolvasást és társalgást tartalmaz. A 2007 őszén indult fejlesztés első szakaszában megtörtént az adatbázis tervezése, a korszerű felvételi (technikai) körülmények létrehozása, a tartalmi kritériumok meghatározása, a hangzó anyag lejegyzési stratégiáinak kialakítása, a lejegyzők betanítása, tizenöt próbafelvétel rögzítése és próbalejegyzések. 2008 januárjában megkezdődtek a tervezett


105

beszédfelvételek és a lejegyzések. Három hónap alatt mintegy 15 órányi beszédanyag rögzítése történt meg (a munkálat folyamatos). A távlati cél 500 személy digitálisan tárolt, különféle szempontok szerint lekérdezhető beszédanyaga a megfelelő átírással együtt (http://www.nytud.hu/adatb/bea/index.html). I.4.3.10. Magyar híranyag- adatbázis Egy nemzetközi kutatócsoport tagjaként a BME TMIT Beszédakusztikai Kutatólaboratóriuma magyar híranyag-adatbázist hozott létre, amely 3 óra és 30 percnyi kép és hanganyagot tartalmaz. Az átiratok egységes formátumra hozása érdekében pontos címkézési módszereket és szabályokat dolgoztak ki és követtek a munkálatok során. A beszéd akusztikai paramétereire támaszkodva különböző nyelvfüggetlen eszközöket is fejlesztettek, amelyek segítségével lehetőség nyílik a beszéd-nem beszéd elkülönítésére, illetve a beszélő nemének meghatározására is [135, 136]. A BME TMIT által fejlesztett magyar nyelvű beszédadatbázisok összefoglaló adatai az I.7. táblázatban láthatók. Az adatbázisokról további információ a http://alpha. tmit.bme.hu/speech/databases.php honlapon érhető el.

I.4.4. Beszédterápia A beszédszintézis és a beszédfelismerés eredményeit számos beszédterápiás, illetve diagnosztikai céllal kidolgozott alkalmazás is hasznosítja a gyakorlatban. A következőkben ezeket ismertetjük. I.4.4.1. Beszéd- és halláspercepciós készségfejleszt˝ o eszköz (BME TMIT) A BME TMIT fejlesztése egy internetes alkalmazásban széleskörűen, ingyenesen hozzáférhető beszéd- és halláspercepciós készségfejlesztő eszköz [163]. A hallás- és beszédészlelést fejlesztő program egyrészt a hallássérült gyermekek intenzív hallásnevelésében nyújt segítséget, ahol didaktikusan meghatározott gyakorlatsorok, valamint nagyméretű hangadatbázis segítségével a hallási fogyatékosok megmaradt, beszűkült hallástartományát hangingerekkel igyekszik mozgósítani, az akusztikus érzékelő és differenciáló készséget fejleszteni, finomítani, illetve a felfogott beszédhangokra építő kombinációs készséget kiépíteni. A program másrészt a cochlearis implantáltak rehabilitációjának is újszerű segítőeszköze, amely implantált gyermekek-felnőttek számára egyaránt hasznos. A program hálózatról futtatható, tehát géptípustól függetlenül könnyen elérhető. Mindenki számára díjtalanul hozzáférhető.1 A hallás- és beszédészlelési terápia kidolgozása az Informatikai és Hírközlési Minisztérium és az Oktatási Minisztérium által közösen meghirdetett Kutatás-Fejlesztési program (ITEM) támogatásával készült - IHM - K+F ITEM/39. 1

http://berber.tmit.bme.hu/item/indexhtm_hu.php

106


BABEL

SpeechDat-E MTBA

MRBA

SPECO (gyermek)

Forrás

Mikrofon

telefon (PSTN), telefon (PSTN) mobiltelefon (GSM)

mikrofon, hangkártya (PC)

mikrofon, hangkártya (PC)

Formátum

20 kHz, 16 8 kHz, 16 bit 8 kHz 16 bit bit (ISDN)

16 kHz, 16 bit

20050 Hz, 16 bit

süketszoba iroda, lakás, iroda, lakás, Rögzítési (tiszta utca, telefon- utca, telefon- iroda, lakás környezet beszéd) fülke stb. fülke stb.

süketszoba

80% olvasott, 80% olvasott, Bemondás olvasott beolvasott 20% spontán 20% spontán módja széd beszéd beszéd beszéd

olvasott, utánmondott beszéd

betűzött szahangkapvak, dátumok, csolatok, számok, számok, Beszédtípus szavak, tuszavak, lajdonnevek, folyamatos folyamatos beszéd beszéd

betűzött szavak, dátumok, számok, folyamatos szavak, tu- beszéd lajdonnevek, folyamatos beszéd

kitartott beszédhangok, hangkapcsolatok, szavak, mondatok

Bemondók 60 száma

500

332

76

Az anyag 66%-a: karakteres leírás, zajok, hibák jelölése. Az anyag 33%-a: fonémaszintű szegmentálás és címkézés

fonotipikus átírás, fonémaszintű szegmentálás

1000

Szavak: karakteres leírás, nincs szegfonotipikus karakteres mentálás, átírás foné- leírás, nincs zajok, hibák Feldolgozásmaszintű szegmentálás, jelölése. szegmen- zajok, hibák Folyamatos tálás jelölése beszéd: fonémaszintű szegmentálása és címkézése

I.7. táblázat. Magyar nyelvű beszédadatbázisok a BME TMIT fejlesztésében


107

I.4.4.2. Beszédmester Az Oktatási Minisztérium támogatásával egy IKTA projekt (IKTA-055/2001) keretében a Szegedi Tudományegyetemen készült egy számítógéppel segített beszédjavításterápiára és olvasásfejlesztésre alkalmas eszköz, a BESZÉDMESTER. A szoftver jelentősége a beszédjavítás-terápiát tekintve abban áll, hogy olyan önműködő (gépi) beszédfelismerésen alapuló vizuális beszédkiértékelést valósít meg, amely hatékonyan támogatja a hallássérült gyermekeket az érthető beszédartikuláció elsajátításában. A hallássérültek beszédképzésének terápiája hagyományosan óriási türelmet és a szurdopedagógus állandó jelenlétét igényli, ugyanis a helyes hangképzés rögzítéséhez rengeteg ismétlésre és a pedagógus folyamatos korrekciójára van szükség. Ezt az ún. automatizálási folyamatot nagyban felgyorsítja és egyszerűbbé teszi a szoftver, amellyel a gyakorlás részben önállóan is végezhető. A szoftver olvasásfejlesztő moduljának célja, hogy játékos feladatokon és automatikus beszédfelismerésen keresztül a gyermek - a számítógépet motivációs eszközként használva - minél könnyebben és gyorsabban megtanulja a fonéma-graféma, ill. graféma-fonéma megfeleltetéseket. A program az általános olvasásfejlesztésen túl használható a részképességükben sérült gyermekek fejlesztő terápiájában, segítheti a diszlexiaterápiát és egyes beszédhibák kezelését is [101]. I.4.4.3. Varázsdoboz A VARÁZSDOBOZ az első olyan magyar beszédterápiás rendszer, amelyik felhasználja a beszédfelismerési kutatások eredményeit. A BME TMIT-en fejlesztették. Ez egy IBM PC-kompatibilis számítógépen futó multiszenzoros beszédoktató rendszer, amely segítséget nyújt ép hallású beszédhibás, valamint nagyothalló gyermekek és felnőttek helyes beszédképzésének kialakításában [159, 160]. A kiejtés és beszédfejlesztés során, fő hangsúllyal a gyermekek artikulációs bázisának megteremtésében, a magyar beszédhangok helyes kiejtésének kialakításában, rögzítésében és automatizálásában ad intenzív segítséget. Lehetőséget nyújt továbbá az alapvető, általános beszédjellemzők helyes kialakítására, gyakorlására is. Ilyen jellemzők a hangosság, hangmagasság, ritmus, hanglejtés, hangszín. A rendszer a beszédképzéskor keletkező hang jellemző paramétereit a számítógép képernyőjén szemléletes módon jeleníti meg. A hibás képzéskor megjelenő hangkép erősen eltér a helyes ejtést jellemző hangképtől. A rendszer ily módon lehetővé teszi, hogy a gyermek (vagy rosszul beszélő felnőtt) látva saját rossz hangképét, és annak eltérését a normál ejtés hangmintasorától, hatékonyan rávezethető legyen a helyes hangsor előállítására. Kialakítása lehetővé teszi, hogy kis (4-6 éves) gyermekek is hatékonyan sajátíthassák el a helyes beszédképzést. A képi megjelenítéssel egyidőben a korrekt módon ejtett hangminta: szótag, szó vagy mondat hangszórón keresztül hallható. A VARÁZSDOBOZ a szurdopedagógusok, logopédusok és foniáter orvosok munkáját teszi hatékonyabbá és változatosabbá, valamint a program lehetővé teszi, hogy a gyermekek otthon is önállóan gyakorolhassanak, játékos programokkal kötve

108


le figyelmüket. Alkalmazási területek: ! hallássérültek beszédfejlesztése esetén; ! pösze beszéd korrekciójában; ! megkésett beszéd terápiája során; ! implantált betegek rehabilitációjára; ! és egyéb beszédsérülések esetén. Gyermekek és felnőttek (jelenleg még csak nők) egyaránt használhatják önállóan, vagy beszédterápiás szakemberek irányításával. A rendszer, az általános beszédjellemzők, mint a hangosság, hangmagasság, ritmus, hanglejtés, hangszín gyakorlására mellett főleg a sziszegők, és magánhangzók kialakítására, gyakorlására alkalmas. A rendszer részletes bemutatója megtekinthető a http://www.rcs.hu/sc.htm honlapon. I.4.4.4. MONDOM- 2000 A magyar beszédszintézis kutatások egy korai mellékága az a felismerés, hogy a hallássérülés kimutatására szintetikus beszédet is lehet használni (szabadalmi lajstromszám 193211). Erre a beszéd speciális frekvenciaszerkezete ad lehetőséget, valamint az a tény, hogy beszédszintézissel lehet csökkenteni a beszéd redundanciáját [47, 48]. Így olyan hangsorok állíthatók elő, amelyek a beszédnek csak a leglényegesebb komponenseit tartalmazzák. Jó hallás esetén ezek mindegyike észlelhető, a szót megértjük. Halláscsökkenés esetén a szóértés nem vagy csak részlegesen jön létre. Az eljárás újszerűsége abban is áll, hogy a hallásvizsgálatkor az anyanyelv-elsajátítás folyamatához hasonló feladatot kell teljesítenie a vizsgált személynek (vissza kell mondania a hallott szót). Ez kisgyermekek esetén megkönnyíti a vizsgálatot, ezért ezt az eljárást szívesen használják óvodákban rendszeres, tömeges hallásellenőrzésre (egy mérés 5 percnyi játékot igényel). A visszamondott szó alapján megítélhető, hogy a hallás ép, enyhén károsodott, illetve komoly probléma van. Probléma észlelése esetén a gyermeket orvosi vizsgálatra kell küldeni. A fenti elvek kidolgozói után az eljárás a GOH nevet kapta, a mérő készülék neve pedig: MONDOM-2000. A beszéd rendszeres ellenőrzése főleg kisgyermekek esetében fontos, hogy minél előbb kiderüljenek azok a rejtett problémák, amelyek a normál, elvárható beszédhallás fejlődését bármilyen formában akadályozzák. Az életkorspecifikus beszédészlelés és beszédmegértés az iskolai tanulás alapja, ezek a működések pedig a megfelelő beszédhalláson alapszanak. A szűrés eredménye jelzi, hogy a gyermek beszédhallása ép vagy gyengén, esetleg erősen károsodott. A MONDOM-2000 eredménye utal az esetleges problémákra, a zavar mértékét és típusát azonban orvosi vizsgálat során kell megállapítani. A készülék nem orvosi műszer: szűrő jellegű, általános információt nyújt a beszédhallás állapotáról. Kiválóan alkalmas rendszeres, gyors és tömeges szűrésre a gyermek közvetlen környezetében (akár a családban is). A készülék


109

használatához szakképzettség nem szükséges, a szűréssel éppen az a cél, hogy a beszédhallás nem megfelelő fejlettsége minél korábban kiderüljön. A beszédhallásellenőrző készüléket előnyösen alkalmazhatják óvónők, logopédusok, pedagógusok és szülők (http://www.nikol.hu). I.4.4.5. SPECO többnyelv˝ u multimédiás oktatórendszer Egy nemzetközi együttműködés keretében került kifejlesztésre egy audiovizuális alapokon működő beszédejtést tanító és gyakoroltató rendszer 5-10 éves gyermekek számára. A beszédhibák javítása a beszéd paramétereinek valós idejű vizualizációjával valósul meg, mely – amellett, hogy akusztikailag és fonetikailag valósághű – a hallássérült gyermekek számára is könnyen értelmezhető. A gyakorlás során az elsődlegesen vizuális információk mellett kisebb szerepet kapnak az auditorikus ingerek is. A multimédiás rendszer angolra, svédre, szlovénre és magyarra lett kifejlesztve [168, 161]. I.4.4.6. Szemfüles A Szemfüles szoftver hallássérült gyermekek számára készült készségfejlesztő multimédiás eszköz. A magasfrekvenciás, „sziszegő” hangok megkülönböztetését gyakoroltatja. A program szókincsanyaga a leginkább problémás hangokra épül, a szavak illusztrálására képeket használ. A program a hallás- és beszédfejlesztés mellett így a szókincs bővítésében is szerepet tud vállalni játékos formában [73]. I.4.4.7. Beszédhang alapú fejmodell animáció Feldhoffer és Bárdi [41] kifejlesztett egy beszédhang alapú fejmodell animációt, amely siketek számára beszédjelből szájmozgást állít elő, hogy a siket felhasználó azt megérthesse. Ehhez elkészítettek egy audiovizuális adatbázist is. Az elért eredmények azt mutatják, hogy jelenleg 50% körüli felismerési pontosságot lehet elérni mind a képi, mind a hangi adatokból számolt animációra.

I.5. Összegzés A tanulmányban áttekintést nyújtottunk a nyelv- és beszédtechnológia területén zajló magyarországi kutatásokról és az elért fontosabb eredményekről. Beszámoltunk a hazai nyelv- és beszédtechnológiai műhelyek tevékenységéről és azok főbb fejlesztéseiről. Mivel a magyar nyelv jellegéből adódóan nem lehetett változtatás nélkül átvenni a nyugati nyelvekre – elsősorban az angolra – kifejlesztett technológiákat, azok adaptációjával, illetve saját rendszerek kialakításával sikerült ígéretes eredményeket elérni a morfoszintaxis, a számítógépes lexikográfia, az ontológiaépítés, a gépi fordítás, az

110


információkinyerés, a korpusznyelvészet, a beszédszintézis és a beszédfelismerés témakörében. Az elméleti jellegű kutatások hozadékait a gyakorlatban is hasznosítják különféle számítógépes alkalmazások és technológiák. Örvendetesnek nevezhető a hazai műhelyek sikeres együttműködése: a kutatóközpontok (például egyetemek) és az ipari partnerek számos gyümölcsöző közös projektben vettek részt. A nyelv- és beszédtechnológiai szakemberek eszmecseréjére és kutatási eredményeinek publikálására szolgál több hazai tudományos rendezvény. A legrégebbi ilyen rendezvénysorozat az 1993-tól kétévenként megrendezett Beszédkutatás konferencia (MTA Nyelvtudományi Intézet). A Magyar Számítógépes Nyelvészeti Konferenciát 2003-tól kezdődően évente rendezték meg, eddig öt alkalommal [10, 11, 12, 13, 130]. Ezt a konferenciát 2009-től kezdődően kétévente fogják megrendezni. A magyar kutatók számos külföldi, illetve nemzetközi konferencián és folyóiratokban is ismertetik munkájukat, így a hazai nyelv- és beszédtechnológia eredményei nemzetközi viszonylatban is ismertek. A magyarországi nyelv- és beszédtechnológia jelenlegi helyzetét áttekintve elmondható, hogy sok területen szép, helyenként kiemelkedő, esetenként pedig világszínvonalú eredményeket és fejlesztéseket tud felmutatni a tudományterület. Remélhetőleg a jövőben is tovább gyarapszik a magyar fejlesztésű technológiák száma, illetve további jelentős kutatási eredményeket tudnak a terület szakemberei a világ elé tárni.

Hivatkozások 1. Abari Kálmán, Olaszy Gábor 2006. Internetes beszédadatbázis a magyar mássalhangzó-kapcsolódások akusztikai szerkezetének bemutatására. In: MSZNY 2006, 213-222. 2. Abari Kálmán, Olaszy Gábor 2007. A magyar beszéd hangkapcsolódásainak bemutatása az interneten. In: Beszédkutatás 2007. MTA Nyelvtudományi Intézet, Budapest. 3. Abari Kálmán, Olaszy Gábor, Kiss Géza, Zainkó Csaba 2006. Magyar kiejtési szótár az Interneten. In: MSZNY 2006, 223-230. 4. Agirre, Eneko, Edmonds, Philip 2006. Word Sense Disambiguation – Algorithms and Applications. In: Ide, N., Véronis J. (szerk.) Text, Speech and Language Technology Series, Volume 33. Springer, Dordrecht, The Netherlands. 5. Agirre, Eneko, Márquez, Lluis, Wicentowski, Richard (szerk.) 2007. Proceedings of the Fourth International Workshop on Semantic Evaluations (SemEval-2007). Association for Computational Linguistics, Prague, Czech Republic. 6. Alberti Gábor, Kleiber Judit, Ohnmacht Magdolna, Szilágyi Éva, Anne Tamm, Viszket Anita 2006. ReALIS projekt: a szóképzés általánosítása a számítógépes fordításban. In: MSZNY 2006, 41–51.


111

7. Alberti Gábor, Kleiber Judit, Viszket Anita 2003. GeLexi projekt: Generatív LEXIkonon alapuló mondatelemzés. In: MSZNY 2003, 79–84. 8. Alberti Gábor, Kleiber Judit, Viszket Anita 2004. GeLexi projekt: Gépi fordítás totálisan lexikalista alapokon. In: MSZNY 2004, 73–80. 9. Alberti, Gábor 2004. ReAl Interpretation Sytem. In: L. Hunyadi, Gy. Rákosi, E. Tóth (szerk.): The Eighth Symposium on Logic and Language, Preliminary Papers. 1–12. 10. Alexin Zoltán, Csendes Dóra (szerk.) 2003. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szeged, Szegedi Tudományegyetem. 11. Alexin Zoltán, Csendes Dóra (szerk.) 2004. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2004). Szeged, Szegedi Tudományegyetem. 12. Alexin Zoltán, Csendes Dóra (szerk.) 2005. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2005). Szeged, Szegedi Tudományegyetem. 13. Alexin Zoltán, Csendes Dóra (szerk.) 2006. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2006). Szeged, Szegedi Tudományegyetem. 14. Alexin Zoltán, Gyimóthy Tibor, Csirik János 2004. Programcsomag információkinyerési kutatások támogatására. In: MSZNY 2004, 41–48. 15. Almási Attila, Sulyok Márton, Szarvas György 2008. A jurWN építésének tapasztalatai és az elkészített hierarchia felhasználási lehetőségei. Projektzáró jelentés az NKPF 2007 TUDORKA7 projekthez. Szegedi Tudományegyetem, Szeged. 16. Almási Attila, Vincze Veronika, Szarvas György, Farkas Richárd, Hegedűs István 2008. Named Entity korpusz létrehozása bűnügyi, bűnmegelőzési célú információkinyerő rendszer fejlesztéséhez. Projektzáró jelentés az NKPF 2007 TUDORKA7 projekthez. Szegedi Tudományegyetem, Szeged. 17. Alonge, Antonietta, Bloksma, Laura, Calzolari, Nicoletta, Castellon, Irene, Marti, Maria Antonia, Peters, Wim, Vossen, Piek 1998. The Linguistic Design of the EuroWordNet Database. Computers and the Humanities. Special Issue on EuroWordNet 32(2–3): 91–115. 18. Babarczy Anna, Gábor Bálint, Hamp Gábor, Kárpáti, András, Rung, András, Szakadát István 2005. HUnpars: mondattani elemző alkalmazás. In: MSZNY 2005, 20–28. 19. Bánhalmi András, Kocsor András, Paczolay Dénes 2005. Magyar nyelvű diktáló rendszer támogatása újszerű nyelvi modellek segítségével. In: MSZNY 2005, 337–347. 20. Bánhalmi, András, Paczolay, Dénes, Tóth, László, Kocsor, András 2007. Development of a Hungarian Medical Dictation System. Informatica 31(2): 241-246. 21. Bánhalmi, András, Paczolay, Dénes, Tóth, László, Kocsor, András 2008. Investigating the robustness of a Hungarian medical dictation system under various conditions. International Journal of Speech Technology 9(3-4): 121-131.

112


22. Berend, Gábor, Farkas, Richárd 2008. Opinion Mining in Hungarian based on textual and graphical clues. In: Proceedings of the 4th Intern. Symposium on Data Mining and Intelligent Information Processing, Santander. 23. Busa-Fekete, Róbert, Kocsor, András, Pongor, Sándor 2008. Tree-Based Protein Classification. Computational Intelligence in Bioinformatics in the Series in Studies in Computational Intelligence 7:165–182, Springer-Verlag. 24. Chinchor, Nancy A. 1998. Overview of MUC-7/MET-2. In: Proceedings of the Seventh Message Understanding Conference (MUC-7). 25. Corbett, Peter, Batchelor, Colin, Teufel, Simone 2007. Annotation of Chemical Named Entities. In: Biological, translational, and clinical language processing. Prague, Czech Republic: Association for Computational Linguistics. 26. Cucerzan, Silviu, Yarowsky, David 1999. Language Independent Named Entity Recognition Combining Morphological and Contextual Evidence. In: Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora. College Park, MD, USA: Association for Computational Linguistics, 90–99. 27. Czap László 2004. Audiovizuális beszédfelismerés. In: MSZNY 2004, 293–300. 28. Csatári, Ferenc, Bakcsi, Zsolt, Vicsi, Klára 1999. A Hungarian Child Database for Speech Processing Applications. ESCA, Eurospeech 99. Budapest, Hungary, 1911–1914. 29. Csendes Dóra, Alexin Zoltán, Csirik János, Kocsor András 2005. A Szeged Korpusz és Treebank verzióinak története. In: MSZNY 2005, 409–412. 30. Csendes Dóra, Csirik János, Gyimóthy Tibor, Kocsor András 2005. The Szeged TreeBank. In: Proceedings of TSD 2005, Karlovy Vary, Czech Republic and LNAI vol. 3658, 123–132. 31. Dimitrova, Ludmila, Erjavec, Tomaz, Ide, Nancy, Kaalep, Heiki Jaan, Petkevic, Vladimir, Tufis, Dan 1998. Multext-east: Parallel and comparable corpora and lexicons for six Central and Eastern European languages. In: Christian Boitet and Pete Whitelock, (szerk.): Proceedings of the Thirty-Sixth Annual Meeting of the Association for Computational Linguistics and Seventeenth International Conference on Computational Linguistics. San Francisco, California, Morgan Kaufmann Publishers, 315–319, 32. Dutoit, Thierry, Pagel, Vincent, Pierret, Nicolas, Bataille, François, Van der Vreken, Olivier 1996. The MBROLA Project: Towards a Set of High-Quality Speech Synthesizers Free of Use for Non-Commercial Purposes. In: Proceedings of ICSLP’96, Philadelphia, vol. 3, 1393-1396. 33. Elekfi László 1994. Magyar ragozási szótár. Budapest, MTA Nyelvtudományi Intézet. 34. Farkas Richárd, Szarvas György 2006. Nyelvfüggetlen tulajdonnév-felismerő rendszer és alkalmazása különböző domainekre. In: MSZNY 2006, 22-31.


113

35. Farkas, Richárd, Ormándi, Róbert, Jelasity, Márk, Csirik János 2008. A Manually Annotated HTML Corpus for a Novel Scientific Trend Analysis. In: The Eighth IAPR Workshop on Document Analysis Systems, Nara, Japan. 36. Farkas, Richárd, Szarvas, György 2008. Automatic construction of rule-based ICD-9-CM coding systems. BMC Bioinformatics 2008, 9 (Suppl 3). 37. Farkas Richárd, Vincze Veronika, Nagy István, Ormándi Róbert, Szarvas György, Almási Attila 2008. Web-based lemmatisation of Named Entities. In: Aleš Horák, Ivan Kopeček, Karel Pala, Petr Sojka (szerk.): Proceedings of the 11th International Conference on Text, Speech and Dialogue. Berlin, Heidelberg: Springer Verlag, 53–60. 38. Fegyó Tibor, Mihajlik Péter, Szarvas Máté, Tatai Péter, Tatai Gábor 2003. VoxenterTM – Intelligent Voice Enabled Call Center for Hungarian. In: EUROSPEECH 2003 - INTERSPEECH 2003: 8th European Conference on Speech Communication and Technology. Geneva, Svájc, 01/Sep/2003-04/Sep/2003., ISCA, 1905-1908. 39. Fék Márk, Pesti Péter, Németh Géza, Zainkó Csaba 2006. Generációváltás a beszédszintézisben. Híradástechnika 61:(3): 21–30. 40. Fék Márk, Pesti Péter, Németh Géza, Zainkó Csaba, Olaszy Gábor 2006. CorpusBased Unit Selection TTS for Hungarian. In: Text, Speech and Dialogue. Springer Verlag, Berlin, Heidelberg, 367-373. 41. Feldhoffer Gergely, Bárdi Tamás 2006. Látható beszéd: beszédhang alapú fejmodell animáció siketeknek. In: MSZNY 2006, 255–264. 42. Gábor Kata, Héja Enikő 2005. Vonzatok és szabad határozók szabályalapú kezelése. In: MSZNY 2005, 245-256. 43. Gábor, Kata 2007. Syntactic Parsing and Named Entity Recognition for Hungarian with Intex. In: S. Koeva, D. Maurel, M. Silberztein (szerk.): Formaliser les langues avec l’ordinateur: De Intex a Nooj. Presses Universitaires de FrancheComté, Besançon, 2007, 353-366. 44. Gábor, Kata 2008. Creating a Shallow-parsed Hungarian Corpus with Nooj. In: Proceedings of INTEX/Nooj Workshop, Budapest, 2008. 45. Gábor, Kata, Héja, Enikő 2007. Clustering Hungarian Verbs on the Basis of Complementation Patterns. In: Proceedings of the ACL’07 Conference, Prague, 2007. 46. Gósy Mária 2008. Magyar spontánbeszéd-adatbázis – BEA. In: Gósy Mária (szerk.) Beszédkutatás 2008, 194-207. 47. Gósy Mária, Olaszy Gábor, Hirschberg Jenő, Farkas Zsolt 1985. Szintetizált szavak használata a beszédaudiometriában I. Elvi alapok. In: Fül-orr-gégegyógyászat 31. Budapest, 92-96. 48. Gósy Mária, Olaszy Gábor, Hirschberg Jenő, Farkas Zsolt 1985. Szintetizált szavak használata a beszédaudiometriában II. Klinikai alkalmazás. In: Fül-orrgégegyógyászat 31. Budapest, 229-233.

114


49. Grishman, Ralph., Sundheim, Beth. 1996. Message Understanding Conference6: a brief history. In: Proceedings of the 16th conference on Computational linguistics. Morristown, NJ, USA: Association for Computational Linguistics, 466–471. 50. Halácsy Péter, Kornai András, Németh László, Rung András, Szakadát István, Trón Viktor, Varga Dániel 2004. Hunglish: nyílt statisztikai magyar-angol gépi nyersfordító. In: MSZNY 2004, 81–84. 51. Halácsy Péter, Kornai András, Németh László, Sass Bálint, Varga Dániel, Váradi Tamás, Vonyó Attila 2005. A hunglish korpusz és szótár. In: MSZNY 2005, 134– 142. 52. Halácsy Péter, Kornai András, Németh Péter, Varga Dániel, 2007. Magyar Webkorpusz II.. In: MSZNY 2007, 278–280. 53. Halácsy, Péter, Kornai, András, Németh, László, Rung, András, Szakadát, István, Trón, Viktor 2004. Creating open language resources for Hungarian. In: Proceedings of the 4th international conference on Language Resources and Evaluation (LREC2004). 54. Halácsy, Péter, Kornai, András, Oravecz, Csaba 2007. HunPos – an open source trigram tagger. In: Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions. Association for Computational Linguistics, Prague, Czech Republic, 209–212. 55. Hócza András 2004. Teljes mondatszintaxis tanulása és felismerése. In: MSZNY 2004, 127–135. 56. http://cmusphinx.sourceforge.net/ 57. http://htk.eng.cam.ac.uk/ 58. http://julius.sourceforge.jp/ 59. Ide, Nancy, Véronis, Jean 1994. MULTEXT: Multilingual Text Tools and Corpora. In: Proceedings of the 15th conference on Computational linguistics, 588–592. 60. Karsai Győző 2006. ALL-SPIDSY - Beszélőazonosító rendszer. In: MSZNY 2006, 391–393. 61. Kempelen Farkas 1791. Mechanismus der Menschlichen Sprache. Bécs. 62. Kilgariff, Adam (szerk.) 2001. Proceedings of Senseval 2: Second International Workshop on the Evaluating Word Sense Disambiguation Systems. Association for Computational Linguistics, Toulouse, France. 63. Kim, Jin-Dong, Ohta, Tomoko, Tsuruoka, Yoshimasa, Tateisi, Yuka., Collier, Nigel 2004. Introduction to the bioentity recognition task at JNLPBA. In: Collier, N., Ruch, P., Nazarenko, A. (szerk.) Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications (JNLPBA). Geneva, Switzerland, 70–75.


115

64. Kiss Gábor, Olaszy Gábor 1982. Interaktív beszédszintetizáló rendszer számítógéppel és OVE III beszédszintetizátorral. Magyar Fonetikai Füzetek 10, 21-45. 65. Kiss Gabriella, Kiss Margit, Pajzs Júlia 2001. Normalisation of Hungarian archaic texts. In: Papers in Computational Lexicography (Complex–01). Birmingham, University of Birmingham. 66. Kiss, Imre, Marcel Vasilache 2002. Low Complexity Techniques for Embedded ASR Systems. In: Proceedings of International Conference on Spoken Language Processing, (ICSLP2002), Denver, Colorado, USA, September 2002. 67. Kocsor, András, Tóth, László 2004. Application of Kernel-Based Feature Space Transformations and Learning Methods to Phoneme Classification. Applied Intelligence 21(2):129-142. 68. Kornai, András, Halácsy, Péter, Nagy, Viktor, Oravecz, Csaba, Trón, Viktor, Varga, Dániel 2006. Web-based frequency dictionaries for medium density languages. In: Adam Kilgarriff, Marco Baroni (eds.): Proceedings of the 2nd International Workshop on Web as Corpus, ACL, 1–9. 69. Kozareva, Zornitsa 2006. Bootstrapping Named Entity Recognition with Automatically Generated Gazetteer Lists. In: Proceedings of the Student Research Workshop at 11th Conference of the European Chapter of the Association for Computational Linguistics. Trento, Italy: Association for Computational Linguistics, 5–21. 70. Lee, Hyun-Sook, Park, Soo-Jun, Jang, Hyunchul, Lim, Jaesoo, Park, Seon-Hee 2004. Domain Independent Named Entity Recognition from Biological Literature. In: Proceedings of The 15th International Conference on Genome Informatics. Yokohama, Japan. 71. Lengyel István, Kis Balázs, Ugray Gábor 2004. MemoQ – új megközelítés a fordítástámogatásban. In: MSZNY 2004, 100–107. 72. Lükő Bálint 1998. A Voice Dialing System for Mobile Phones. In: Proceedings of TSD’98, Brno, Czech Republic. 73. Magyar Viktor, Sikné dr. Lányi Cecília, dr. Váry Ágnes 2005. „Szemfüles” – Hallási megkülönböztető képesség fejlesztő szoftver hallássérült gyerekek részére. In: MSZNY 2005, 445–449. 74. Mihajlik Péter 2006. Koartikulációs modellek a magyar nyelvű gépi beszédfelismerésben. In: MSZNY 2006, 231-242. 75. Mihajlik Péter, Fegyó Tibor, Tatai Péter 2006. Új eljárás a gépi beszédfelismerés környezetfüggő beszédhangmodelljeinek kialakítására. In: Gósy Mária (szerk.) Beszédkutatás 2006. Budapest: MTA Kiadó, 218-230. 76. Mihajlik, Péter, Fegyó, Tibor, Németh, Bottyán, Tüske, Zoltán, Trón, Viktor 2007. Towards Automatic Transcription of Large Spoken Archives in Agglutinating Languages: Hungarian ASR for the MALACH Project. In: Matousek, V., Mautner, P.

116


(szerk.) Proceedings of Text, Speech and Dialogue: 10th International Conference, TSD 2007. Lecture Notes in Artificial Intelligence; 4629. .Berlin; Heidelberg: Springer-Verlag, 342-350. 77. Mihajlik, Péter, Fegyó, Tibor, Tüske, Zoltán, Ircing, Pavel 2007. A Morpho-graphemic Approach for the Recognition of Spontaneous Speech in Agglutinative Languages – like Hungarian, In: Interspeech 2007 - Eurospeech. Antwerpen, Belgium, 27/Aug/2007-31/Aug/2007., ISCA, 1497-1500. 78. Mihajlik, Péter, Tarján, Balázs, Tüske, Zoltán, Fegyó, Tibor 2009. Investigation of Morph-based Speech Recognition Improvements across Speech Genres. Submitted to INTERSPEECH’09, Brighton, UK, 2009. 79. Mihajlik, Péter, Tobler, Zoltán, Tüske, Zoltán, Gordos, Géza 2005. Evaluation and Optimization of Noise Robust Front-End Technologies for the Automatic Recognition of Hungarian Telephone Speech, In: Interspeech 2005 - Eurospeech: 9th European Conference on Speech Communication and Technology. Lisboa, Portugália, 04/Sep/2005-08/Sep/2005., ISCA, 2677-2680. 80. Mihalcea, Rada, Edmonds, Phil (szerk.) 2004. Proceedings of Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text. Association for Computational Linguistics, Barcelona, Spain. 81. Miháltz Márton, Naszódi Mátyás, Vajda Péter, Varasdi Károly 2007. NP-koreferenciák feloldása magyar szövegekben a Magyar WordNet ontológia segítségével. In: MSZNY 2007, 138–146. 82. Miháltz Márton, Pohl Gábor 2005. Javaslat szemantikailag annotált többnyelvű tanítókorpuszok automatikus előállítására jelentés-egyértelműsítéshez párhuzamos korpuszokból. In: MSZNY 2005, 418–419. 83. Miháltz, Márton 2005. Towards A Hybrid Approach To Word-Sense Disambiguation In Machine Translation. In: Proceedings Modern Approaches in Translation Technologies Workshop at RANLP-2005. Borovets. 84. Miháltz, Márton, Hatvani, Csaba, Kuti, Judit, Szarvas, György, Csirik, János, Prószéky, Gábor, Váradi, Tamás 2008. Methods and Results of the Hungarian WordNet Project. In: Tanács, Attila, Csendes, Dóra, Vincze, Veronika, Fellbaum, Christiane, Vossen, Piek (szerk.) Proceedings of the Fourth Global WordNet Conference (GWC 2008). Szeged, University of Szeged, 311–320. 85. Miller, George A., Beckwith, Richard, Fellbaum, Christiane, Gross, Derek, Miller, Katherine 1990. Introduction to WordNet: an On-line Lexical Database. International Journal of Lexicography, 3(4): 235–244. 86. Mohri, Mehryar, Pereira, Fernando C. N., Riley, Michael 2002. Weighted FiniteState Transducers in Speech Recognition. Computer Speech and Language 16(1):69-88. 87. Nagy István 2008. Összetett rendszer vállalkozások címeinek webről történő automatikus összegyűjtésére. Tudományos diákköri dolgozat. Szeged, Szegedi Tu-


117

dományegyetem. 88. Nahamoo, David 2008. Superhuman Speech Recognition: Technology Challenges and Market Adaptation. 89. Németh, Géza, Olaszy, Gábor, Bartalis, Mátyás, Kiss, Géza, Zainkó, Csaba, Mihajlik, Péter, Haraszti, Csaba 2008. Automated Drug Information System for Aged and Visually Impaired Persons, In: Miesenberger, K., Klaus, J., Zagler, W., Karshmer, A. (szerk.) Computers Helping People with Special Needs, SpringerVerlag, 238-241. 90. Ng, Hwee Tou, Kwong, Olivia O. Y. (szerk.) 2006. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing. Sydney, Australia: Association for Computational Linguistics. 91. Nivre, Joakim, Hall, Johan, Kübler, Sandra, McDonald, Ryan, Nilsson, Jens, Riedel, Sebastian, Yuret, Deniz 2007. The CoNLL 2007 Shared Task on Dependency Parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLPCoNLL 2007, Prague, 915–932. 92. Olaszy Gábor 1999. Gépi beszédkeltés információs rendszerekhez Magyarországon. Akusztikai Szemle 3(1-3): 4-13. 93. Olaszy Gábor 2003. Magyar szóalakok hangidőtartam-térképei. In: Gósy Mária (szerk.) Beszédkutatás’2003, 113–133. 94. Olaszy Gábor 2007. Mássalhangzó-kapcsolódások a magyar beszédben. Tinta Kiadó, Budapest. 95. Olaszy Gábor, Kiss Géza, Németh Géza, Olaszi Péter 2000. Profivox - a legkorszerűbb hazai beszédszintetizátor. In: Gósy Mária (szerk.) Beszédkutatás’2000. MTA Nyelvtudományi Intézet, Budapest, 167–179. 96. Olaszy, Gábor, Németh, Géza, Gordos, Géza 1992. The MULTIVOX multilingual text-to-speech converter. In: Bailly, G., Benoit, C., Swallis, T. (szerk.) Talking Machines: Theories, Models and Applications. Amsterdam: Elsevier-North-Holland Publishers, 385–411. 97. Oravecz Csaba, Sass Bálint 2008. Szöveges lejegyzésből nyelvi adatbázis. I. BUSZI szimpózium, Budapest, 2008. december 9. 98. Oravecz, Csaba, Dienes, Péter 2002. Efficient Stochastic Part-of-Speech tagging for Hungarian. In: Proceedings of the Third International Conference on Language Resources and Evaluation, Las Palmas, 710-717. 99. Oravecz, Csaba, Dienes, Péter 2002. Large scale morphosyntactic annotation of the Hungarian National Corpus. In: Hollósi, Béla, Kiss-Gulyás, Judit (szerk.) Studies in Linguistics, Volume VI., Debrecen, 277-298. 100. Oravecz, Csaba, Váradi, Tamás 1999. Developing the Hungarian concise dictionary into a lexical database. In: Papers in Computational Lexicography, COMPLEX’99, Budapest, 229-236.

118


101. Paczolay Dénes, Kocsor András, Sejtes Györgyi, Hégely Gábor 2004. A „Beszédmester” csomag bemutatása, informatikai és nyelvi aspektusok. Alkalmazott Nyelvtudomány IV. /1. 57–79. 102. Paczolay, Dénes, András Bánhalmi, András Kocsor 2007. Speaker Normalization Via Springy Discriminant Analysis and Pitch Estimation. TSD 2007, 246-253. 103. Paczolay, Dénes, Kocsor, András, Tóth, László 2003. Real-Time Vocal Tract Length Normalization in a Phonological Awareness Teaching System. In: Matousek, V., Mautner, P., Moucek, R., Tauser, K. (szerk.) Proceedings of Text, Speech and Dialogue: 6th International Conference, TSD 2003. Springer Verlag, 309314. 104. Pajzs Júlia 1990. Számítógép és lexikográfia. Budapest, MTA Nyelvtudományi Intézet. 105. Pajzs Júlia 2003. A készülő Akadémiai nagyszótár számítógépes vonatkozásai. In: MSZNY 2003, 203–210. 106. Pollak, Petr, Cernocky, Jan, Boudy, Jerome, Choukri, Khalid, van den Heuvel, Henk, Vicsi, Klára, Virág, Attila, Siemund, Rainer, Majewski, Wojciech, Sadowski, Jerzy, Staroniewicz, Piotr, Tropf, Herbert, Kochanina, Julia, Ostrouchov, Alexander 2000. Speech Dat(E) - Eastern European Telephone Speech Databases. In: Proceedings of LREC 2000 Satelite workshop XLDB - Very large Telephone Speech Databases, Athen, 20–25. 107. Prószéky Gábor 2000. A magyar morfológia számítógépes kezelése. In: Kiefer Ferenc (szerk.): Strukturális magyar nyelvtan 3. Morfológia. Budapest, Akadémiai Kiadó, 1021–1063. 108. Prószéky Gábor 2001. A nyelvtechnológia és a modern nyelvészet viszonyáról. In: Andor József, Szűts Tibor, Terts István (szerk.) Színes eszmék nem alszanak. . . (Szépe György 70. születésnapjára), Pécs, Lingua Franca, 991–998. 109. Prószéky Gábor 2005. A nyelvtechnológia (és) alkalmazásai. e-Világ Kiskönyvtár. Budapest, Aranykönyv Kiadó. 110. Prószéky Gábor, Olaszy Gábor, Váradi Tamás 2003. Nyelvtechnológia. In: Kiefer Ferenc (szerk.): A magyar nyelv kézikönyve. Budapest, Akadémiai Kiadó, 567– 588. 111. Prószéky, Gábor, Tihanyi, László 1993. Humor: High-Speed Unification Morphology and Its Applications for Agglutinative Languages. La tribune des industries de la langue 10, OFIL, Paris, France, 28–29. 112. Prószéky, Gábor, Tihanyi, László 2002. MetaMorpho: A Pattern-Based Machine Translation System. In: Proceedings of the 24th ’Translating and the Computer’ Conference, ASLIB, London, United Kingdom, 19–24. 113. Ruppenhoffer, Josef, Ellsworth, Michael, Petruck, Miriam R.L., Johnson, Christopher R., Scheffczyk, Jan 2006. FrameNet II: Extended Theory and Practice. Elérhető: http://framenet.icsi.berkeley.edu/book/book.pdf.


119

114. Sass Bálint 2006. Igei vonzatkeretek az MNSZ tagmondataiban. In: MSZNY 2006, 15–21. 115. Sass Bálint 2007. "Mazsola" - eszköz a magyar igék bővítményszerkezetének vizsgálatára. In: Váradi Tamás (szerk.): I. Alkalmazott Nyelvészeti Doktorandusz Konferencia kötete. MTA Nyelvtudományi Intézet, Budapest, 137-149. 116. Sass Bálint 2007. A Hunglish korpusz mint oktatási segédeszköz. In: Heltai Pál (szerk.) Nyelvi modernizáció - szaknyelv, fordítás, terminológia, a MANYE 2006. évi XVI. kongresszusának kötete. MANYE - Szent István Egyetem, Pécs - Gödöllő. 117. Sass Bálint 2007. First attempt to automatically generate Hungarian semantic verb classes. In: Davies, M., Rayson, P., Hunston, S., Danielsson, P. (szerk.) Proceedings of the 4th Corpus Linguistics Conference. Birmingham. 118. Sass, Bálint 2008. The Verb Argument Browser. In: Sojka, P., Horák, A., Kopecek, I., Pala, K. (szerk.): 11th International Conference on Text, Speech and Dialog, TSD 2008. Lecture Notes in Computer Science 5246. Berlin, Heidelberg, Springer Verlag, 187-192. 119. Sekine, Satoshi, Isahara, Hitoshi 2000. IREX: IR and IE evaluation project in Japanese. Elérhető: nlp.cs.nyu.edu/sekine/papers/lrec00-irex.ps. 120. Senellart, Jean, Dienes, Péter, Váradi, Tamás 2001. New generation Systran translation system. In: Proceedings of the Eighth MT Summit. Santiago de Compostela, Spain. 121. Szakadát István, Szőts Miklós, Gyepesi György, Varasdi Károly, Ungváry Rudolf, Simonyi András, Gyarmathy Zsófia, Szaszkó Sándor, Szeredi Dániel 2006. MEO ontológiamodell. In: MSZNY 2006, 377–383. 122. Szarvas, György, Farkas, Richárd, Busa-Fekete, Róbert 2007. State-of-the-art anonymization of medical records using an iterative machine learning framework. Journal of the American Medical Informatics Association 14(5):574–80. 123. Szarvas, György, Farkas, Richárd, Felföldi, László, Kocsor, András, Csirik, János 2006. A highly accurate Named Entity corpus for Hungarian. In: Proceedings of International Conference on Language Resources and Evaluation. 124. Szarvas, György, Iván, Szilárd, Bánhalmi, András, Csirik, János 2006. Automatic Extraction of Semantic Content from Medical Discharge Records. In: 5th International Conference on System Science and Simulation in Engineering, WSEAS Transactions on Systems. 125. Szarvas, György, Vincze, Veronika, Farkas, Richárd, Csirik, János 2008. The BioScope corpus: annotation for negation, uncertainty and their scope in biomedical texts. In: Proceedings of BioNLP ACL-2008 Workshop, Columbus, Ohio, USA. 126. Szaszák György, Vicsi Klára 2005. Folyamatos beszéd szószintű automatikus szegmentálása szupraszegmentális jegyek alapján. In: MSZNY 2005, 360–370.

120


127. Szaszák, György, Vicsi, Klára 2007. Speech recognition supported by prosodic information for fixed stress languages. In: Proceedings of TSD conference, 262269. 128. Szaszák, György, Vicsi, Klára 2008. Using prosody for the improvement of automatic speech recognition. Híradástechnika 63(7): 35-40. 129. Takács, György, Tihanyi, Attila, Bárdi, Tamás, Feldhoffer, Gergely, Srancsik, Bálint 2006. Signal Conversion from Natural Audio Speech to Synthetic Visible Speech. In: International Conference on Signals and Electronic Systems. Lodz, Poland, September 2006. 130. Tanács Attila, Csendes Dóra (szerk.) 2007. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2007). Szeged, Szegedi Tudományegyetem. 131. Tanács, Attila, Csendes, Dóra, Vincze, Veronika, Fellbaum, Christiane, Vossen, Piek (szerk.) 2008. Proceedings of the Fourth Global WordNet Conference. GWC 2008. University of Szeged, Department of Informatics. 132. Tarján Balázs 2008. Folyamatos nagyszótáras magyar nyelvű beszéd felismerése. Diplomaterv, BME-VIK. 133. Tarján Balázs 2008. Multimédia anyagok automatikus indexálása magyar nyelven, felügyelet nélküli morfológiai tanuló módszer alkalmazásával. BME-VIK TDK I. díj. Konzulens: Mihajlik Péter, Fegyó Tibor. 134. Tarján Balázs, Györki Milán, Mihajlik Péter, Gordos Géza 2006. Eredmények a magyar nyelvű beszédfelismerési konfidenciabecslésben. In: MSZNY 2006, 243–254. 135. Teleki Csaba, Vicsi Klára 2006. Többnyelvű európai híranyag-adatbázis gyűjtése és feldolgozási módszereinek kutatása multimédiás műsorok automatikus feldolgozásához. Híradástechnika 2006/8: 3-10. 136. Teleki, Csaba, Velkei, Szabolcs, Tóth, Szabolcs Levente, Vicsi, Klára 2005. Development and evaluation of a Hungarian Broadcast News Database. In: Forum Acusticum, Budapest, 265-269. 137. Tihanyi László 2005. A MetaMorpho fordítóprogram projekt 2005-ben. In: MSZNY 2005, 99–107. 138. Tihanyi László 2007. A MetaMorpho projekt 2007-ben – a sorozat vége. In: MSZNY 2007, 179–186. 139. Tjong Kim Sang, Erik F. 2002. Introduction to the CoNLL-2002 Shared Task: Language-Independent Named Entity Recognition. In: Proceedings of CoNLL2002, Taipei, Taiwan, 155–158. 140. Tjong Kim Sang, Erik F., De Meulder, Fien 2003. Introduction to the CoNLL2003 Shared Task: Language-Independent Named Entity Recognition. In: Daelemans, W., Osborne, M. (szerk.) Proceedings of CoNLL-2003. Edmonton, Canada, 142–147.


121

141. Tóth, Krisztina, Farkas, Richárd, Kocsor, András 2008. Hybrid algorithm for sentence alignment of Hungarian-English parallel corpora. Acta Cybernetica 18(3): 463–478. 142. Tóth, László, Frankel, Joe, Gosztolya, Gábor, King, Simon 2008. Cross-lingual Portability of MLP-Based Tandem Features - A Case Study for English and Hungarian. In: Proceedings of Interspeech 2008, 2695–2698. 143. Tóth, László, Kocsor, András, Kovács, Kornél 2000. A Discriminative Segmental Speech Model and its Application to Hungarian Number Recognition. In: Proceedings of TSD2000, LNAI 1902. Springer Verlag, 307-313. 144. Tóth, Szabolcs Levente, Sztahó, Dávid, Vicsi, Klára 2007. Speech Emotion Perception by Human and Machine. In: Proceedings of COST Action 2102 International Conference, Patras, Greece, October 29-31, 2007. Revised Papers in Verbal and Nonverbal Features of Human-Human and Human-Machine Interaction. Springer, 213-224. 145. Trón, Viktor 2004. Hunlex – morfológiai szótárkezelő rendszer. In: MSZNY 2004, 177–182. 146. Trón, Viktor, Halácsy, Péter, Rebrus, Péter, Rung, András, Vajda, Péter, Simon, Eszter 2006. Morphdb.hu: Hungarian lexical database and morphological grammar. In: Proceedings of 5th International Conference on Language Resources and Evaluation. ELRA, 1670-1673. 147. Trón, Viktor, Németh, László, Halácsy, Péter, Kornai, András, Gyepesi, György, Varga, Dániel 2005. Hunmorph: open source word analysis. In: Proceedings of ACL. 148. Tufiş, Dan. (szerk.) 2004. Romanian Journal of Information Science and Technology. Special Issue on BalkaNet 7(1–2). 149. Tüske Zoltán, Mihajlik Péter, Fegyó Tibor 2007. Spontán, nagyszótáras, folyamatos beszéd gépi felismerési pontosságának növelése beszélőadaptációval a MALACH projektben. In: MSZNY 2007, 47-55. 150. Tüske Zoltán, Simon Márta, Mihajlik Péter, Fegyó Tibor 2007. Érzelmek automatikus felismerése a beszéd akusztikus jellemzői alapján. In: Gósy Mária (szerk.) Beszédkutatás 2007. Budapest: MTA Kiadó, 151-161. 151. Tüske, Zoltán, Mihajlik, Péter, Tobler, Zoltán, Fegyó, Tibor 2005. Robust Voice Activity Detection Based on the Entropy of Noise-Suppressed Spectrum. In: Interspeech 2005 - Eurospeech: 9th European Conference on Speech Communication and Technology. Lisboa, Portugália, 04/Sep/2005-08/Sep/2005., ISCA, 245-248. 152. Uzuner, Özlem., Luo, Yuan, Szolovits, Peter 2007. Evaluating the State-of-theArt in Automatic De-identification. Journal of the American Medical Informatics Association 14(5):550–563, http://www.jamia.org/cgi/content/abstract/14/5/550.

122


153. Váradi Tamás 2006. Részleges gépi fordítás a NooJ rendszerben. In: MSZNY 2006, 202–210. 154. Váradi Tamás, Gábor Kata 2004. A magyar Intex fejlesztéséről. In: MSZNY 2004, 3-10. 155. Váradi, Tamás 2002. The Hungarian National Corpus. In: Proceedings of LREC2002. Las Palmas, Spain, 385-389. 156. Váradi, Tamás 2003. Shallow parsing of hungarian business news. In: Proceedings of the Corpus Linguistics 2003 Conference, Lancaster, 845-851. 157. Varga Dániel, Simon Eszter 2006. Magyar nyelvű tulajdonnév-felismerés maximum entrópia módszerrel. In: MSZNY 2006, 32–38. 158. Velkei Szabolcs, Vicsi Klára 2004. Beszédfelismerő modellépítési kísérletek akusztikai, fonetikai szinten, kórházi leletező beszédfelismerő kifejlesztése céljából. In: MSZNY 2004, 307–314. 159. Vicsi Klára 2002. Varázsdoboz. Audiovizuális számítógépes beszédfejlesztő program beszédhibás gyerekek részére. Démoszthenész Hírmondó, 2002. április 13. sz., 8–16. 160. Vicsi Klára 2003. Beszédtanítást segítő számítógépes rendszerek áttekintése. Alkalmazott Nyelvtudomány 3(1). MTA Nyelvtudományi Bizottság. 161. Vicsi Klára, Kocsor András, Teleki Csaba, Tóth László 2004. Beszédadatbázis irodai számítógép-felhasználói környezetben. In: MSZNY 2004, 315-318. 162. Vicsi Klára, Szaszák György, Németh Zsolt 2007. Prozódiai információ használata az automatikus beszédfelismerésben: mondatmodalitás felismerése. In: MSZNY 2007, 69-80. 163. Vicsi Klára, Teleki Csaba, Keresztessy Éva 2003. Interaktív hallás - és beszédészlelési terápia az Interneten keresztül. IME Az egészségügyi vezetők szaklapja 3(1): 31. 164. Vicsi Klára, Tóth László, Kocsor András, Gordos Géza, Csirik János 2002. MTBA - Magyar nyelvű telefonbeszéd adatbázis. Híradástechnika 8:35–39. 165. Vicsi Klára, Velkei Szabolcs, Szaszák György, Borostyán Gábor, Gordos Géza 2006. Folyamatos, középszótáras, beszédfelismerő rendszer fejlesztési tapasztalatai: kórházi leletező, beszédfelismerő. Híradástechnika 2006/3: 14-20. 166. Vicsi Klára, Velkei Szabolcs, Szaszák György, Borostyán Gábor, Teleki Csaba, Tóth Szabolcs Levente 2005. Középszótáras, folyamatos beszédfelismerő rendszer fejlesztési tapasztalatai. In: MSZNY 2005, 348-359. 167. Vicsi Klára, Víg Attila 1998. Az első magyar nyelvű beszédadatbázis. In: Gósy Mária (szerk.): Beszédkutatás ’98. Budapest, MTA Nyelvtudományi Intézet, 163– 177. 168. Vicsi, Klára 2006. Computer-Assisted Pronunciation Teaching and Training Methods Based on the Dynamic Spectro-Temporal Characteristics of Speech. In:


123

Divenyi, Pierre, Meyer, Georg (szerk.) Dynamics of Speech Production and Perception. IOS Press, Amsterdam, 283-307. 169. Vicsi, Klára, Roach, Peter, Öster, Anne-Marie, Kacic, Zdravko, Barczikay, Péter, Tantos, András, Csatári, Ferenc, Bakcsi, Zsolt, Sfakianaki, Anna 2000. A Multimedia Multilingual Teaching and Trainaing System For Speech Handicapped Children. International Journal of Speech Technology Vol. 3., 289-300. 170. Vicsi, Klára, Szaszák, György 2006. Automatic Segmentation fo Continuous Speech on Word Level Based on Supra-segmental Features. International Journal of Speech Technology 8(4): 363-370. 171. Vicsi, Klára, Szaszák, György 2007. Prosodic Cues for Automatic Word Boundary Detection in ASR. In: Fundamentals of Verbal and Nonverbal Communication and the Biometric Issue, NATO Security through Science Series E-Vol.18. IOS Press, 161-170. 172. Vicsi, Klára, Szaszák, György 2008. Using Prosody for the Improvement of ASR: Sentence Modality Recognition. In: Interspeech 2008. Brisbane, Ausztrália. ISCA Archive, http://www.isca-speech.org/archive. 173. Vincze, Veronika, Szarvas, György, Almási, Attila, Szauter, Dóra, Ormándi, Róbert, Farkas, Richárd, Hatvani, Csaba, Csirik, János 2008. Hungarian Wordsense Disambiguated Corpus. In: Proceedings of 6th International Conference on Language Resources and Evaluation, Marrakech, Morocco. 174. Vincze, Veronika, Szarvas, György, Csirik, János 2008. Why are wordnets important? In: Cepisca, Costin, Kouzaev, Guennadi A., Mastorakis, Nikos M. (eds.) New Aspects on Computing Research. Proceedings of the 2nd European Computing Conference (ECC’08). WSEAS Press, 316–322. 175. Vincze, Veronika, Szarvas, György, Farkas, Richárd, Móra, György, Csirik, János 2008. The BioScope Corpus: biomedical texts annotated for uncertainty, negation and their scopes. BMC Bioinformatics 9 (Suppl 11):S9 doi:10.1186/14712105-9-S11-S9 176. Zainkó, Csaba, Németh Géza 2001. Statistical Text Processing for Automatic Synthesis of Speech. In: Proceedings of ECMCS2001 (EURASIP Conference on Digital Signal Processing for Multimedia ComÍmunications and Services), 644647. 177. Zibert, Janez, Mihelic, France, Martens, Jean-Pierre, Meinedo, Hugo, Neto, Joao, Docio, Laura, Garcia-Mateo, Carmen, David, Petr, Nouza, Jindrich, Pleva, Matus, Cizmar, Anton, Zgank, Andrej, Kacic, Zdravko, Teleki, Csaba, Vicsi, Klára 2005. The COST 278 Broadcast News Segmentation and Speaker Clustering Evaluation, Overview, Methodology, Systems, Results. In: Interspeech 2005, Lisszabon, 629-632.

124


Függelék Rövidítések jegyzéke AITIA ALL BEA BME

AITIA International Informatikai ZRt. Alkalmazott Logikai Laboratórium Kutató-fejlesztő Szövetkezet Beszélt Nyelvi Adatbázis

BNC

Budapesti Műszaki és Gazdaságtudományi Egyetem Budapesti Műszaki és Gazdaságtudományi Egyetem Szociológia és Kommunikáció Tanszék Média Oktatási és Kutató Központja Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszéke British National Corpus

BUSZI

Budapesti Szociolingvisztikai Interjú

DTD

Document Type Definition

ÉKSz ELRA

Értelmező Kéziszótár European Language Resources Association

GMM

Gauss Mixture Model

HMM

Rejtett Markov-modell / Hidden Markov Model

HuWN

Magyar WordNet / Hungarian WordNet

IE

információkinyerés / Information Extraction

IR

információ-visszakeresés / Information Retrieval

Kilgray

ME

Kilgray Fordítástechnológiai Kft. nagyszótáras folyamatos beszédfelismerési technika / Large Vocabulary Continuous Speech Recognition Miskolci Egyetem

MEO

Magyar Egységes Ontológia

MNSZ

Magyar Nemzeti Szövegtár

MRBA

Magyar Referencia Beszédadatbázis

MSD

Morpho-Syntactic Description

BME MOKK BME TMIT

LVCSR


125

MSZNY

Magyar Számítógépes Nyelvészeti Konferencia

MTBA

Magyar Telefonbeszéd-adatbázis

NE

névelem / Named Entity

NER

névelem-felismerés / Named Entity Recognition

PPKE

Pázmány Péter Katolikus Egyetem

SVM

Support Vector Machine

SZTE

Szegedi Tudományegyetem

TEI

Text Encoding Initiative

WFST

Weighted Finite State Transducer jelentés-egyértelműsítés / Word Sense Disambiguation Extended Markup Language

WSD XML

II Jöv˝ okép Tartalomjegyzék II.1. Bevezető . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

126

II.2. A szemantikus technológiák . . . . . . . . . . . . . . . . . . . . .

128

II.3. A közeljövő kutatásai . . . . . . . . . . . . . . . . . . . . . . . . .

132

II.3.1. Beszédtechnológia . . . . . . . . . . . . . . . . . . . . . . .

133

II.3.2. Multimodális technológiák . . . . . . . . . . . . . . . . . . .

134

II.3.3. Alaktan (morfológia) . . . . . . . . . . . . . . . . . . . . . .

134

II.3.4. Mondattan (szintaxis) . . . . . . . . . . . . . . . . . . . . . .

135

II.3.5. Jelentéstan (szemantika) . . . . . . . . . . . . . . . . . . . .

135

II.3.6. Szövegtan (diskurzuselemzés) . . . . . . . . . . . . . . . .

136

II.3.7. Korpusznyelvészet . . . . . . . . . . . . . . . . . . . . . . .

137

II.3.8. Gépi fordítás . . . . . . . . . . . . . . . . . . . . . . . . . . .

137

II.3.9. Információkinyerés és -visszakeresés . . . . . . . . . . . . .

138

II.3.10. Infrastruktúra . . . . . . . . . . . . . . . . . . . . . . . . . .

139

II.3.11. Alapkutatás . . . . . . . . . . . . . . . . . . . . . . . . . . .

140

II.4. Kiemelt alkalmazások . . . . . . . . . . . . . . . . . . . . . . . . .

141

II.4.1. A gazdasági szféra . . . . . . . . . . . . . . . . . . . . . . .

141

II.4.2. Állam- és közigazgatás . . . . . . . . . . . . . . . . . . . . .

141

II.4.3. Egészségügy . . . . . . . . . . . . . . . . . . . . . . . . . .

142

II.4.4. Oktatás . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

143

II.5. Összefoglalás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

144

II.1. Bevezet˝ o Az itt vázolt jövőképazzal számol, hogy a tízes években a nyelv- és beszédtechnológia egyes jól meghatározott részterületein ugyanolyan áttörés következik be, mint amilyet a nyolcvanas években az írás- és beszédfelismerés területén már láttunk. Bár stratégiai terv készítése valamiféle jövőkép nélkül lehetetlen, hangsúlyozzuk, hogy az itt

˝ II. MELLÉKLET – JÖVOKÉP

127

leírtakat nem futurisztikus víziónak, hanem nagyon is praktikus, a közeljövő teendőit erősen meghatározó tervnek szánjuk. Két területen várunk áttörést (nemcsak a magyarra, hanem a világ összes nyelvére): egyrészt a szemantikus technológiákban, másrészt a szűkebb értelemben vett mondattanban (szintaxis). Ezeket az áttöréseket megelőlegezik egyrészt a szemantikus web körüli intenzív fejlődés, másrészt a modernebb tanulóalgoritmusok, különösen a valószínűleg közelítőleg helyes (probably approximately correct, PAC) és a határátmenetben azonosító (identification in the limit, iitl) algoritmusok rohamos fejlődése. De nem csak tudományos, hanem üzleti szempontból is láthatóak ezek az irányok, például abból, hogy tavaly a szemantikus web kiépítésében erősen érdekelt Microsoft felvásárolta a legkorszerűbb mondatelemző technológiát megtestesítő Powerset rendszert is. Nyilvánvaló, hogy a HLT-platformot elsősorban foglalkoztató magyar nyelv- és beszédtechnológia bizonyos mértékig követő helyzetben van a nemzetközi kutatás fókuszában álló angol HLT-hez képest. Ez még a magyarnál jóval nagyobb erőforrásokat felmutatni képes francia, olasz, német, illetve spanyol (bevett rövidítéssel FIGS, French-Italian-German-Spanish) technológiára is igaz, annak ellenére hogy a FIGS nyelvek nemcsak a Magyarországnál gazdaságilag több súlycsoporttal jelentősebb anyaországok támogatását élvezik, hanem sok tekintetben az EU soknyelvűségi politikájának is ezek állnak a középpontjában. Ehhez képest talán meglepően hangzik, ha azt állítjuk, hogy a magyar nem kis ország kis nyelve, hanem benn van a digitális elitben, a világon beszélt mintegy 5-6 ezer nyelv és nyelvjárás (a kettő gyakran nehezen választható el) közül az első húszban, megelőzve olyan százmilliók által beszélt nyelveket mint az indonéz, az arab, vagy a hindi. Mielőtt tovább lépnénk, lássuk ezt konkrét adatokon, a Wikipédia (melynek a szemantikus technológiák katalizálásában betöltött szerepéről még külön beszélünk) 2009 áprilisi cikkszámait tükröző táblázat szerint: angol

2,844,389 olasz

559,641 svéd

312,919 ukrán

143,376

német

893,553 holland 531,289 kínai

249,542 török

127,418

francia

791,596 portugál 473,225 norvég 214,450 cseh

125,109

lengyel

597,084 spanyol 464,680 finn

japán

579,270 orosz

200,868 magyar 123,920

380,179 katalán 172,292 román 123,416

A további fejlődés lehetőségét jól mutatják a skandináv nyelvek, ahol az egymillió beszélőre jutó cikkek száma 5-10-szerese a magyarnak. A digitális világban tehát szó sincs arról a nemzethalállal fenyegető jövőképről amit a napisajtó oly gyakran tár elénk, hanem épp ellenkezőleg, egy életképes és rohamosan fejlődő nyelvi középhatalom tárul elénk. A HLT-Platform stratégiájának is ezt kell elsősorban támogatnia. Mindez természetesen nem jelenti azt, hogy a értékőrző (sőt az egyes kis uráli nyelvek esetén értékmentő) nyelvtechnológiának nincs szerepe, de a stratégiai terv középpontjában

128


mégsem ezek, hanem a magyar XXI. századi virágzását elősegítő technológiák állnak – ezeket az alábbiakban vastagbetűs szedéssel emeljük ki.

II.2. A szemantikus technológiák A szemantikus technológia legfontosabb és leglátványosabb mozgatóereje a WorldWideWeb Consortium (W3C) amely hatékony akcióprogrammá tette a webet megalkotó Tim Berners-Lee jövőképét: I have a dream for the Web in which computers become capable of analyzing all the data on the Web – the content, links, and transactions between people and computers. A semantic web which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The intelligent agents people have touted for ages will finally materialize. „Egy olyan webről álmodom, ahol a számítógépek képessé válnak az összes a weben megtalálható adat, a tartalom, a kapcsolatok, az emberek és számítógépek közti tranzakciók elemzésére. A szemantikus web ami ezt lehetővé teszi még nem alakult ki, de amint ez megtörténik, a kereskedelem, az adminisztráció, és a hétköznapi élet feladatait emberekkel és gépekkel beszélő gépek fogják ellátni. A régóta beígért intelligens ágensek végre megvalósulnak." Az alábbiakban összefoglaljuk, hogy mit értünk pontosan szemantikus technológián, mi az ami a tervből már megvalósult, és mi az ami még hátra van. Bár maga az alapgondolat egyszerű, nehezen érthető azoknak akik egyáltalán nem ismerik a megjelöléses (markup) technológiát, amilyen például az immár klasszikus GML és SGML illetve a weblapok megjelölésében használt HTML (az ‘ML’ mindegyikben ‘markup language’ azaz megjelölő nyelv). Az eredeti cél, amely fontosságát máig nem vesztette el, a nagy projektekben illetve az igazgatási szférában forgó dokumentumok megjelölése volt amiknél fontos, hogy olvashatóságukat sok évtizeden keresztül megőrizzék. Ez a feladat a számítógépes rendszerek rohamos fejlődése miatt egyáltalán nem olyan triviális mint elsőre gondolhatnánk, és minden nagyobb szervezet tele van olyan örökölt (legacy) dokumentumokkal melyek gépi olvasása komoly nehézségeket okoz mert az író/olvasó szoftver elavult. A GML/SGML elsődleges célkitűzése egy olyan jelölésrendszer kialakítása volt, melynek segítségével a dokumentumok tartalmi és formai elemei (pl. a főcím, fejezetcímek, bekezdések, dőlt betűvel kiemelt szavak) egyértelműen megjelölhetők – megemlítjük hogy az első igazán nagy léptékű alkalmazás nyelvészeti természetű volt, az Oxford English Dictionary több százmillió adatát máig is ebben a formában tárolják. A HTML ezt a megjelöléses módszert továbbterjesztette az alapvető kompjúterek közti tranzakciókra és kisebb mértékben az emberek és kompjúterek köti tranzakciókra is. A nagy rendszerek közti adatcserének már ezelőtt is megvoltak az eszközei


129

(ftp file transfer protocol illetve az adatvédelmileg biztonságosabbá tett utódai, például scp secure copy) amelyek ma már a személyi számítógépekről is elérhetők. De a HTML/HTTP elterjedésével az ilyen cégközi (bevett rövidítéssel B2B, business to business) tranzakciók mellett megjelentek, sőt nemcsak megjelentek hanem volumenüket tekintve uralkodóvá is váltak a fogyasztó és a szolgáltató közti B2C (business to consumer) interakciók. Az ilyen interakciók, és általában az ember-gép-kapcsolat ma még nehézkes, ennek megkönnyítése a HLT-Platform egyik alapfeladata. Itt külön kiemeljük a beszéd- és írásfelismerés és a beszédszintézis technológiáit, melyek lehetővé teszik egyrészt azt, hogy az ember-gép kommunikációban olyan ember is részt vehessen akinek a gépelés nehézséget okoz vagy lehetetlen, másrészt azt, hogy az ország írott illette hangfelvételeken őrzött kultúrkincsét a digitális korszakba átmentsük. Végül is mitől szemantikus egy technológia? Attól, hogy a kapcsolatok nem az üzenetek formájától, hanem azok tartalmától függően alakulnak. Ehhez nyújt alapvető segítséget a szemantikus web, melynek alapgondolata, hogy az információt tartalmilag megjelölt egységekbe szervezzük. Az Oxford English Dictionary példájánál maradva, minden egyes szócikk mellett szerepel a szó legkorábbi előfordulása, egy kis idézettel (és gyakran sok másik idézet is). Minket nem az érdekel, hogy az idézetek szerzőit dőlt betűvel hozza-e a nyomtatott szótár, hanem az hogy van egy információs egység, a szócikk, ennek vannak alegységei, például a szó mostani és eredeti írásképe vagy az idézetek, melyeknek további alegységei lehetnek (szerző, megjelenés helye, ideje) stb. Az ilyen egységek összefüggő szövegből való kinyerése egy olyan feladat, melyre a Platform számos résztvevője már most kínál megoldást: ennek neve tulajdonnév-felismerés (NER, named entity recognition) illetve főegységekre bontás (light parsing). Az alapcél természetesen nem az, hogy a szöveg egyes részeit megjelöljük, ez csupán eszköz a nagyobb célhoz, ami a (hangzó és írott) szöveg megértése, a tudás kinyerése. A szemantikus web akár úgy is felfogható, mint egyszerűsített, ma még a szövegértésben az emberi képességektől messze elmaradó algoritmusok számára is érthető tartalom. A hatékony gép-gép és ember-gép kommunikációhoz tartozik az is, hogy tudjuk azt is egyeztetni, hogy amit az egyik rendszer a megjelenés helyének kódol azt a másik is mint helyre utaló kódot értelmezze. Ez sem olyan egyszerű, mint azt első pillanatra gondolhatnánk, sem az általános fogalom-osztályok sem a konkrét fogalmak tekintetében. Előbbire jó példa, hogy a Ferencváros legyőzte Újpestet mondatban sem Ferencváros sem Újpest nem helynevek, mint ahogy a Washington figyelmeztette Teheránt mondatban sem helységekről van szó. Utóbbira jó példa, hogy a ‘kaliforniai lakos’ fogalmát kilenc törvény kilencféleképpen definiálta például adózás tekintetében a lakosok körét jóval bővebbre véve mint egészségügyi ellátás tekintetében, a folyamat csak külön törvénnyel volt visszafordítható. Bár a problémát a nyelvtechnológia megoldani nem képes, hiszen az ilyesfajta definíciók (explicit vagy implicit) társadalmi döntések eredményei, arra azért képes a technológia, hogy világosan jelezze az ilyen és hasonló konfliktusokat illetve, amennyiben a szövegkörnyezet alapján ez lehetséges, egyértelműsítő javaslatot tegyen. Ehhez az kell, hogy legye-

130


nek szabványosított fogalomtárak, ontológiák, és a megjelölések éppen ezekre hivatkozzanak. Pontosan ezt a célt szolgálja az SGML egyszerűbbé és hatékonyabbá tételével létrejött univerzális megjelölő nyelv, az XML (eXtensible Markup Language), és az ezt támogató RDF (Resource Description Framework) és OWL (Web Ontology Language). A HLT-Platform alapvető tevékenységei közé tartozik az ezek körüli világméretű szabványosítási erőfeszítések magyarra való honosítása. Hangsúlyozzuk, hogy a feladat itt nem gépi fordítás, és nem is gépi szótárazás, az egyes angol szavak magyar megfelelőinek megtalálása, hanem a szemantika egyeztetése, akár egy nyelven belül is. A probléma már ott felmerül, hogy a California resident’ kifejezés kilencféle dolgot jelent(het), azzal, hogy ezt lefordítjuk a ‘kaliforniai lakos’ kifejezésre semmit sem oldottunk meg. Természetesen az idő egy részében szerencsénk van, az angolul többértelmű ‘bank’ szót könnyen egyértelműsíthetjük azzal, hogy szövegkörnyezettől függően hol banknak hol folyópartnak fordítjuk. Viszont az esetek más részében éppen a magyarra fordítás hozhat be olyan szemantikai többértelműséget (pl sun’ és day’ egyaránt nap) ami az eredetiben még egyértelmű volt. Ez természetesen nem jelenti azt, hogy a gépi fordítás és szótárazás nem lenne a HLT-Platform kulcstevékenységeinek egyike, hiszen ezek hatása a gazdasági fejlődésre, az ország felemelkedésére igen jelentős, de szemantikai technológiák címén mégsem erről beszélünk, hanem elsősorban a definíciós munkák, az ontológiai fejlesztés alapjairól. (Lentebb még külön kitérünk a másik nagy technológiai változás, az egyre jobban működő tanuló algoritmusoknak a gépi fordításra gyakorolt hatására.) A formális megjelölés csupán technikai eszköz: a hangsúlyt az emberi tényezőre, az emberek gép által segített együttműködésére helyezzük, a bevett szóhasználattal P2P (peer to peer) kapcsolatokra és együttműködésre. Itt hangsúlyosan nem C2C (consumer to consumer) modellről van szó, hiszen a gépek és hálózatok segítségével nem fogyasztók találkoznak egymással, hanem olyan partnerek, ‘egyenrangú felek’ akik egyszerre fogyasztók és termelők. Az általuk közösen termelt (peer production) termékek sorából kiemelkedik a szabad szoftver (különösen a Linux operációs rendszer, a Firefox böngésző és az OpenOffice irodai szoftvercsomag), a szabad audiovizuális tartalmak (Flickr, YouTube), és ami számunkra itt a legfontosabb, a Wikipédia. Bár ebben a tanulmányban legfeljebb címszavakban utalhatunk a szemantikai technológiák előtörténetére, mindenképpen érdemes megemlíteni, hogy ez a technológia nem egyetlen zseniális kutató, vagy akárcsak egyetlen konzisztens kutatási irányzat vagy iskola munkájának eredménye. A mai (2009) állapotra elsősorban az II.1. táblázat (egymással gyakran éles vitában álló) irányzatai voltak hatással. A mesterséges intelligencia (AI, artificial intelligence) kutatásának első ciklusát az 1956-os dartmouthi AI konferencia indította be: erre a szakaszra még a tiszta logikai megközelítés a jellemző (John McCarthy, Marvin Minsky). A ciklus végére, tehát a nyolcvanas évek közepére azonban világossá vált, hogy a logikai következtetésekhez a hétköznapi valóság tényeit leíró axiómák százezreire lesz szükség (Patrick Hayes, Douglas Lenat). Itt a munka, a nemzeti kutatási program keretében finanszírozott MCC/Cycorp kivételével le is állt, részint azért, mert kutatók és tudásmérnökök százaira senkinek nem tellett, részint pedig azért, mert a Cyc eredményeit sokan (pl.


131

kutatási irány

vezető kutatók

Lexikai szemantika

Katz, Fodor, Lakoff, Johnson, Langacker

Monoszemikus elemzés

Jakobson, Ruhl

Analitikus „köznapi nyelvi” filozófia Russell, Moore, Wittgenstein, Ryle, Austin, Davidson Formális nyelvészeti szemantika

Montague

Kognitív nyelvészeti szemantika

Jackendoff, Langacker, Talmy, Fauconnier

Következtetés józan ésszel

Hayes, Lenat

Az alapértelmezések logikája

McCarthy, Reiter

Parakonzisztens logika

Belnap, Priest

II.1. táblázat. A szemantikai technológiákat megalapozó irányzatok. Christopher Locke) az emberi tudás monopolizálására való kísérletnek fogták fel. Ezt a stagnáló helyzetet változtatta meg a Wikipédia, és a P2P munkamódszer. Itt nem is annyira a kifejezetten P2P alapú tudásbázisokra (Open Mind Common Sense, Mindpixels) gondolunk, mivel ezek további fejlődése kiszámíthatatlan, mint arra a hatalmas tudásanyagra ami a nemzeti wikipédiák rendszerében már most felhalmozódott. Ezt a modern számítógépes nyelvészeti kutatás egyre intenzívebben használatba veszi: 2005 előtt csak néhány tucat, azóta több mint száz olyan cikk jelent meg amely a nyelvtechnológiát (pl. a fordító, információkinyerő, és egyértelműsítő algoritmusokat) a wikipédia felhasználásával fejleszti tovább. Az áttörés, amire a már a tízes évek első felében számítunk, technikai szempontból csupán annyi lesz, hogy a wikipédia természetes nyelv(ek)en írott cikkeiből automatikus eszközökkel kinyerhető lesz a tudás abban az entitás-attribútum-érték modellezési sémában is amit a szemantikus web használ. A ma nyilvánosan elérhető legnagyobb formalizált tudásbázis az OpenCyc, néhány tízezer axiómával, de a teljes Cyc egymillió axióma körül jár. A Wikipédia jelenlegi magyar tartalmából már axiómák tízmilliói várhatók (és ha az eddigi növekedési pályákból extrapolálhatunk, a magyar wikipédia a rangsorban még 2-3 hellyel előbbre is léphet). A szemantikus web térhódítását és a P2P tartalom-termelés gazdagodását olyan széles sodrású, feltartóztathatatlan folyamatoknak látjuk, melyeket magyar nyelvtechnológia (ideértve a beszédtechnológiát is, bár eddig nem említettük külön a Wiktionary és Wikisource projekteket, melyeknek hanganyag-tartalma egyre nő) sokoldalúan hasznosítani tud, és melyek el fognak vezetni, egy évtizeden belül, ahhoz az állapothoz melyet Berners-Lee leírt. Ennek, tehát a nyelvtechnológia a mindennapi életbe való teljes behatolásának természetesen messzemenő társadalmi következményei lesznek, melyek horderejüket tekintve csak a gőzgép, az elektromosság, és a modern orvostudomány forradalmaihoz hasonlíthatóak. Ahogy a társadalmi aktivitás súlypontja áthelyeződik a fizikai tárgyak termeléséről a szolgáltatásokra, és ezen belül is elsősorban az információs

132


objektumok termelésére, Magyarország versenyképességét elsősorban azzal tudjuk fokozni, hogy hatékony információtermelési és -értékesítési környezetet hozunk létre. Ehhez nemcsak a magas színvonalú oktatás, a kiművelt emberfők sokasága elengedhetetlen, hanem a termeléshez az automatikus információkinyerés (IE, information extraction) és információ-visszakeresés (IR, information retrieval), az értékesítéshez pedig a gépi fordítás, hisz a termékeket nem csak, sőt nem elsősorban, a hazai piacon kell értékesíteni.

II.3. A közeljöv˝ o kutatásai Az átfogó kép után lássuk konkrétan, hogy a HLT-Platform résztvevői milyen terülten lesznek aktívak, és ezek hogyan járulnak hozzá a fentebb vázolt jövőkép megvalósításához. Tárgyalásunk nem a nyelvészet hagyományos felosztását, hanem a modern technológia fentebb leírt fejlődési főirányát követi, mivel a hagyományos felosztást a fejlődés több irányban szétfeszíti. Különösen áll ez a beszédtechnológiára, hiszen ami harminc éve még a hangtan egy alfejezete (akusztikus fonetika) volt, az mára az egész nyelvészet technológiailag vezető irányzatává vált, melynek alapvető újításait, elsősorban a rejtett Markov-modelleken (HMM, Hidden Markov Model) alapuló tanulási algoritmust ma már a tulajdonnév-felismeréstől a gépi fordításig mindenütt alkalmazzák. Ugyanez elmondható a modern információkinyerő és -visszakereső rendszerekről is, melyek a könyvtártudomány egy eldugott ágából (szcientometria, hivatkozási indexek) a webes keresőmotorok révén a hétköznapi élet szinte minden szférájába behatoló technikává váltak. Mint fentebb leírtuk, hasonló áttörést várhatunk az ontológiától is, amely húsz éve még a filozófia hasonlóan eldugott területe volt. Ezek a besorolási problémák élesen előrevetítik, hogy a modern nyelv- és beszédtechnológia azon a skálán való finanszírozása amire e területek jelentősége miatt óhatatlanul szükség van nem várható a hagyományos kutatásfinanszírozási keretek bizonyos átalakítása nélkül: amíg a filozófiai és fonetikai műhelyek (tanszékek, kutatócsoportok és -intézetek) állami támogatása évi néhány tízmillió HUF, a beszédtechnológiához vagy az ontológiához ezeknél nagyságrendekkel többre van szükség. Hogy ezek a milliárdos szükségletek érthetőbbek legyenek, megemlítjük, hogy a modern beszédtechnológia megalapozásához a DARPA 6-8 kutatóhelyen (Stanford Research International, Carnagie-Mellon University, Bolt Beranek and Newman, MIT Lincoln Labs, MIT Spoken Language Systems Group, stb) finanszírozott 10-30 kutatóból álló teameket több mint 15 éven át, összesen mintegy negyedmilliárd USD befektetéssel (és ebben még nem szerepelnek az IBM és az AT&T szintén többszáz milliós befektetései), míg a Cyc ontológia létrejöttén egy harminc fős kutatócsoport kilenc évig dolgozott annak a Microelectronics and Computer Technology Companynak a keretében melyet az amerikai kormány kifejezetten a japán ötödik generációs kihívás megválaszolására alapított és finanszírozott. Az európai műhelyek (melyek közül kiemeljük a holland Philips, az angol Cambridge University, a francia LIMSI, a német RWTH, és a svájci IDIAP szerepét) is évente sokmillió EUR költségvetéssel dolgoznak.


133

Magyarország méreteit és lehetőségeit figyelembe véve azt gondoljuk reálisnak, hogy a Platform intézményei a következő 3-5 év alatt mintegy 20-30 teljesállású kutatóhellyel bővüljenek állami támogatásból, lehetőleg egy olyan konstrukcióban amely a kutatók tartós (legalább öt évre szóló) alkalmazását lehetővé teszi. Külön szólunk a lehetséges ipari támogatásról és együttműködésről, illetve az új kutatóhelyek betöltéséhez szükséges személyi állomány megalapozásáról.

II.3.1. Beszédtechnológia Tudományos alapjait tekintve a terület mindmáig az akusztikus (és a jelfeldolgozási oldalon kisebb mértékben az artikuláris és auditorikus) fonetika illetve fonológia része. Az ezen területek alapkutatásairól majd az II.3.11., az ipari alkalmazásra érettekről pedig az II.4.1. szakaszban írunk, itt most kifejezetten csak a kezdeti- és vég-stádiumok közé eső feladatokról beszélünk, azokról a munkákról, melyek alapkutatásnak már túl nagyok, eszköz- és infrastruktúra-igényük miatt a hagyományos tanszéki és intézeti laborok már csak egymással összefogva képesek előrelépni, de ipari alkalmazásra még nem érettek. Ugyan követő jellegű, de át nem ugorható lépések egyrészt a kis- és közép-méretű szókincsről a nagyszókincsű (large vocabulary) modellekre való áttérés, másrészt a beszélő-adaptáció közismert, de erősen processzor-igényes technológiainak széleskörű használatba vétele. A generáló oldalon mind a paraméteres, mint a szegmenskonkatenáción alapuló magyar beszédszintézis további fejlesztése szükséges ahhoz, hogy a gépek magyarul ugyanolyan szépen, a valódi emberi beszélőtől alapjában megkülönböztethetetlenül beszéljenek mint angolul, és előbb-utóbb az egyedi beszélőre adaptált szintézis is sorra kell hogy kerüljön. Ezeknek a feladatoknak különös jelentőséget ad az, hogy alkalmazásuk rohamosan terjed a XXI. század alapvető processzor-platformján, ami nem a mainframe, a desktop, vagy a laptop, hanem a mobiltelefon. A két legfontosabb alkalmazás, amiken a magyar beszédtechnológia fejlődése direktben lemérhető a nagyszókincsű diktáló és a természetes hangú szövegfelolvasó rendszer. Ezek közös vonása, hogy angolra már gyakran kereskedelmi termékként is léteznek, a FIGS és CJK (Chinese, Japanese, Korean) nyelvekre intenzív fejlesztés alatt állnak – kellő irányított fejlesztéssel reálisnak tartjuk hogy az ezeken a területeken ma még fennálló elmaradást a magyar 5 éven belül behozza. Inkább a jövőbe mutat (bár az angolban számos alkalmazása van már ma is) a kulcsszókereső (word spotting) technológiának, mellyel például egyetemi előadások vagy üzleti tárgyalások hangfelvételeiben kereshetjük ki a releváns részeket. Intenzíven kutatott terület a beszélt és az írott szöveg érzelmi töltetének felismerése (sentiment analysis) és szintézise, és gyakorlati fontosságuk miatt nem maradhat el a zajosabb környezetet (pl. autó vagy vonat üléstere) megcélzó, robusztus felismerőalgoritmusok kutatása sem. Ezekkel szemben nem követő, hanem vezető jellegűek a Platform a morfológiai

134


nyelvmodell és a beszédfelismerési keresőalgoritmus hatékony integrációjára irányuló kutatásai. A magyar nyelv egy másik sajátossága, a szabad szórend, és az ehhez kapcsolódó kommunikatív dinamizmus (topik-fókusz artikuláció) lehetővé teszi, hogy vezető szerepet töltsünk be a prozódia vizsgálatában, spontán beszédben való felismerésében is: az egyik fontos cél az optimális akusztikai jelfeldolgozási módszerek fejlesztése a prozódiai lényeg kiemelésére.

II.3.2. Multimodális technológiák A beszédfelismeréssel erősen rokon, gyakran csupán a jelfeldolgozási modul (signal processing front end) megváltoztatását igénylő feladatok az írás- jelbeszéd- és gesztus-felismerés. Ezek jelentőségét látjuk a mostaninál természeteseb multimodális interfészekben, melyek például a szemgolyó mozgásának követésével arra is odafigyelnek, hogy mire néz éppen az ember. A klasszikus „elfoglalt kéz, elfoglalt szem” (hands busy, eyes busy) helyzetekben, amiben például a gépét kormányzó pilóta vagy az éppen javítást végző villanyszerelő van, a hagyományos interfészek kudarcot vallanak, hiszen ilyenkor az embernek nincs egy harmadik keze hogy az egeret tologassa vagy harmadik szeme hogy a képernyőt nézegesse. Össztársadalmi szempontból igen fontos a vakok és csökkentlátók, siketek, és mozgássérültek bevonása a digitális világba. Ilyen célt szolgál például Kurzweil klasszikus felolvasógépe, amely az írásfelismerést (OCR, optical character recognition) elsőként kötötte össze a beszédszintézissel, de ilyen lehet például a tévéadással együtt közvetített átírás (closed captioning) vagy az a bevásárlókocsi, mely érzékeli, hogy milyen árut teszünk bele és megmondja a típust, illetve az árát. Az orvosi alkalmazásokról az II.4.3. részben a kiemelt alkalmazások között írunk. A web fejlődésének jól látható iránya, hogy egyre több nem-szöveges tartalom (állóés mozgókép, hang, tervrajzok, kották, stb) válik elérhetővé, és rohamos tempóban bővülnek az ilyeneket tartalmazó nemzeti archívumok is. Jelenleg az ilyen tartalmak közti keresés elsősorban a szöveges metaadatokon alapul, de már vannak olyan területek (google books, query by image content) ahol az OCR illetve a képi modellezés döntő fontosságú, és a nagy médiaszolgáltatók szeretnének a weboldalukon tartalom szerinti kereshetőséget biztosítani a média anyagaikban. Lehetővé kell váljon az internet böngészése, és általában az emberi inputot igénylő számítógépes programok irányítása élőszó és/vagy gesztusok segítségével is.

II.3.3. Alaktan (morfológia) Fentebb nem beszéltünk a magyar nyelv olyan sajátosságairól, melyek azt elkülönítik a vezető angol és FIGS nyelvektől. Ezek közül kétségkívül a legfontosabb az, hogy a magyar tipológiailag erősen ragozó (agglutináló) jellegű. Ezért minden magyar nyelvtechnológia, legyen az ember-gép vagy gép-ember irányú, szükségképpen támaszkodik szóelemző morfológiai analízis illetve ragozó morfológiai szintézis algoritmu-


135

sokra. Ezekkel aktívan foglalkozik a Platform több tagja, és már most rendelkezésre áll a klasszikus magyar strukturális nyelvészet (különösen Papp Ferenc és Elekfi László) eredményeit is szintetizáló és továbbvivő morphdb adatbázis, melynek nemzetközi jelentőséget ad az, hogy alkalmas nemcsak a magyar, hanem az OpenOffice és a Firefox által támogatott bármelyik nyelv morfológiai erőforrásainak kezelésére, hiszen ezeket használják világszerte (az említett programok által kezelt kb. félszáz nyelvre) a hunmorph programkönyvtár felhasználásával írt helyesírás-ellenőrzők. Természetesen ez nem jelenti azt, hogy a morfológia összes részproblémája már meg lenne oldva akár a magyarra, akár a digitális írásbeliség többi nyelvére, de rangunk a világban elismert, ezért is kívánatos lenne a további fejlődéshez szükséges személyi állomány biztosítása, hiszen a nyelvek, különösen pedig a szókincs, fejlődése nem áll meg. Már ma is komoly szótárépítő munka folyik több műhelyben, ezek egységes szervezeti keretbe fogása azonban csak újabb emberek felvételével válhat lehetővé.

II.3.4. Mondattan (szintaxis) Itt elkülönítjük a felszíni és a mély szintaxist, mivel ma még a kettő automatikus kezelése közt óriási a minőségkülönbség. Mint a bevezetőben már jeleztük, azt várjuk, hogy ez a különbség a tízes években fokozatosan el fog tűnni – ezt a reményünket támasztja alá az is, hogy a Platform szinte minden nem a beszédtechnológiára szakosodott résztvevője foglalkozik automatikus ‘mély’ szintaxissal. A beszéd- és a nyelvtechnológia integrálására különösen jó lehetőséget kínál a magyar nyelv, melyben a kommunikatív dinamizmust nem a szórend és nem is a prozódia, hanem e kettő együttese határozza meg. Tény, hogy ma még sokkal kisebb hatásfokkal tudjuk a mondatok alapvető összetevőit és az ezek közt fennálló (pl. alanyi, tárgyi, határozói) függőségi viszonyokat meghatározni (dependency parsing) mint az egyes elemek szófaját megjelölni (part of speech tagging) illetve a névelemeket, nyílt tokenosztályok tagjait felismerni és szemantikai kategóriájukat (hely, idő, cégnév, személynév, stb.) meghatározni. A magyar ilyen felszíni elemzésében a Platform kutatásai már most világszínvonalat képviselnek, és ez biztató jel arra nézve, hogy a mélyebb szintaktikai és szemantikai elemzés tekintetében is megalkotói, nem pedig passzív szemlélői leszünk a várt áttörésnek. A praktikus alkalmazások közt itt a nyelvhelyesség-ellenőrzést (grammar checking) és a dinamikus ember-gép kommunikációhoz nélkülözhetetlen szöveggenerálást (text synthesis) emeljük ki, bár a mélyebb elemzés új távlatokat fog nyitni az információkinyerés és visszakeresés (ld. II.3.9.) területén is.

II.3.5. Jelentéstan (szemantika) A jelentéstan területén várható nagy változások nem vezetnek automatikusan a terület nagy, klasszikus problémáinak megoldásához: amire számítunk a következő évtized-

136


ben az csupán annyi, hogy a hagyma legkülső rétegét le fogjuk fejteni azzal, hogy általánossá és szabványossá válik az RDF alapú tudásreprezentáció. Előre lehet tudni, hogy az emberi tudásnak számos olyan területe van, mely ilyen módon nem reprezentálható jól, ilyen elsősorban a motorikus (biciklizni, lovagolni, stb) tudás és a szenzoros tudás, például színek, hangok, arcok, megkülönböztetése, tehát éppen a tudás evolúciósan legősibb és emiatt leginkább reflex-szinten automatizált része. Nem számítunk továbbá az alakfelismerésre és finommotoros kontrollra messzemenően támaszkodó hallás- és beszéd-mechanizmus reprezentációjára sem, bár ezek már szorosan összefüggenek a magasabb szimbólum-manipulációt igénylő (tehát evolúciósan új, kevésbé fejlett) tudással. Amire elsősorban számítunk, az az emberiség kulturálisan felhalmozott (evolúciósan tehát a legkülső héjba tartozó) tudáskincsének formalizálása. A matematikai, fizikai tudás reprezentálása már lassan száz éve (alapjában Russell és Hilbert óta) megoldott kérdés, és ma már sok szempontból kielégítő (bár távolról sem tökéletes) modelljeink vannak olyan sokkal összetettebb fizikai rendszerekről is mint például az időjárás. A genetikus kód megértésével már az ennél is bonyolultabb biológiai rendszerek megértése felé is komoly lépéseket tettünk. A nyelvi kód feltárásával pedig megnyílik az út a társadalmi ismeret- és norma-rendszerek modellezése felé. Itt elsősorban nem kifinomult társadalom-modellezésre kell gondolni, hanem azokra az elemi ismeretekre melyeket minden gyerek óvodás/iskolás korában megtanul, hogy a családok (általában) szülőkből és gyerekekből állnak, hogy a nagyszülők a szülők szülei, stb. Az az entitás-attribútum-érték séma amit a szemantikus web használ az ilyesfajta tények leírására tökéletesen megfelel, ha tudjuk hogy az ily módon leírt szabályosságok csupán alapértelmezések, melyek alól vannak/lehetnek kivételek. A modern jelentéstan (Montague-nyelvtan) elsősorban a mondatok szemantikai reprezentációjára koncentrált, tehát arra, hogy ha az egyes szavak (vagy szóalkotó morfémák) jelentését már ismerjük, akkor ezekből hogyan komponáljuk meg a nagyobb konstrukciók (frázisok, mondatok) jelentését. A XXI. században várakozásunk szerint a hangsúly át fog helyeződni az ilyen kompozícionális szemantikai kérdésekről a lexikai kérdésekre, arra, hogy az egyes szaval (és morfémák) mit jelentenek. Elsődleges teendő tehát a létező szótárakhoz (Princeton WordNet, Berkeley FrameNet, EuroWordNet, Wiktionary) való magyar kapcsolódás, méghozzá olyan formában, hogy azt semmilyen szerzői jogi megkötés ne terhelje. Miután itt infrastrukturális fejlesztésről van szó, ennek részleteit az II.3.10. részben tárgyaljuk, de már itt megjegyezzük, hogy a lexikai megközelítés része a rögzített (többszavas) konstrukciók az eddiginél jóval átfogóbb vizsgálata is.

II.3.6. Szövegtan (diskurzuselemzés) A szavak és rögzült kifejezések összerakásával nemcsak mondatokat, hanem hoszszabb szövegeket is képzünk. Ezek számítógépes megértéséhez szükséges a mondatok közti összefüggések feltérképezése. Elsődleges feladatok az anaforafeloldás,


137

az eseményosztályozás (event classification), a szereplőazonosítás, az oksági és temporális viszonyok (pl. intencionalitás, előidejűség) feltérképezése. Igen gyakran a szövegeket nem egy ember, hanem több, egymással együttműködő fél hozza létre. A dialógusok modellezése különösen fontos az alkalmazások (pl. ügyfélszolgálat) szempontjából, annál is inkább, mert a helyes dialógus-forgatókönyv (dialog script) felismerése gyakran lehetővé teszi, hogy a beszédfelismerési problémát nagyszókincsűről közép- illetve kisszókincsű feladatra redukáljuk.

II.3.7. Korpusznyelvészet A nemzetközi nyelvtechnológiához való kapcsolódásunk sarkalatos pontja a magyar BLARK (Basic Language Resource Kit) kifejlesztése, összeállítása, definiálása. Ennek fontos hozadéka, hogy a már rendelkezésre álló elemzési megoldások használható, szabványos formában elérhetőek lesznek mind a magyar nyelvtechnológusok, mind a magyarral foglalkozó külföldiek számára is. Utóbbiak súlya és fontossága egyre kevésbé elhanyagolható, mint azt például a Google magyar-angol fordítórendszere mutatja. Ma még hiányoznak a szabványosított, nyilvánosan elérhető spontán beszédkorpuszok, holott ezek nélkül a beszédtechnológia fejlődését gátolja az a közismert tény, hogy minden szerző és munkacsoport a saját rendszerét gondolja a legjobbnak. Hogy tényleg kié a legjobb, tehát kinek a technológiai megoldásait érdemes szélesebb körben átvenni és elterjeszteni, azt csak az egyes rendszerek szabványosított anyagokon való összemérésével lehet megállapítani. Nem csak a beszédtechnológiában, hanem a nyelvtechnológia minden területén szükség van nagyméretű, gazdag annotációval rendelkező, reprezentatív korpuszokra, hiszen ezek nélkül gépi tanulás nem lehetséges. Az úttörő magyar elemzési fa bank (Szeged TreeBank) továbbfejlesztése mellett szükség van dependencia-bankra (PropBank), a mostani Nemzeti Szövegtárnál nagyobb és kevesebb megkötöttséggel elérhető prózai szövegtárra, az egyes részterületek (pl. jogi, orvosi szaknyelv) korpuszaira és az ezekhez tartozó szakontológiák tanulmányozására. Különösen fontosnak tartjuk, hogy a szakértők által kiépített szakontológiákat mint aranysztenderdet használva (össze)mérhetővé váljon az egyes automatikus ontológiaépítési algoritmusok hatékonysága. A már létező magyar-angol mellett szükség van egyéb párhuzamos korpuszokra is, elsősorban a FIGS nyelvekre és a környező országok nyelveire, különösen azokéra ahol jelentős magyar kisebbségek élnek.

II.3.8. Gépi fordítás Bár az elképzelés, hogy a számítógépeket emberi nyelvek közti fordításra használjuk lényegében egyidős a számítógépekkel (azok a kutatások amik a híres 1954-es Georgetown-IBM kísérlethez vezettek már 1945-ben elkezdődtek), az első valóban

138


sokak által használt rendszer, az AltaVista Babelfish csupán 1998 végén jelent meg. Arra számítunk, hogy még egy évtized, és az interneten található idegen nyelvű honlapok böngészése nem fog többé problémát okozni: az automatikus gépi fordító megoldások segítségével saját anyanyelvünkön, nagyjából érthető módon olvashatjuk a különböző tartalmakat. A Platform számos tagja foglalkozik digitális gépi szövegek fordításával, és van érdeklődés a közvetlen beszédfordítás iránt is. Amint a német-japán Verbmobil projekt példája mutatja (erre a német kutatási minisztérium és nagy ipari cégek együttesen mintegy 85 millió eurót költöttek) a feladat nehéz, és irreális lenne arra számítani, hogy egy húszfős cég lényegében önerőből megoldja. Itt is, mint a nyelvtechnológia számos területén, elengedhetetlenül szükséges a hagyományos kutatásfinanszírozási keretek átlépése. Hangsúlyozzuk, hogy az ország jövője, gazdasági versenyképessége szempontjából kardinális kérdésről van szó, olyanról, aminek megoldását nem várhatjuk a mégoly jószándékú kívülállóktól mint a Google, hiszen a magyar nyelv csak nekünk igazán fontos. A legfontosabb, a gépi fordításhoz nélkülözhetetlen és az emberi fordítást is támogató eszközök a kétnyelvű szótárak. Bár a hagyományos szótárak digitalizálása terén már komoly a fejlődés, tudomásul kell venni, hogy ez a folyamat ebben a formában nem vezet, és a szerzői jogi korlátok miatt nem is vezethet, a gépi fordítás elterjedéséhez. Szükség van olyan szabad felhasználású, nyílt forráskódú tartalmak és kereső eszközök kifejlesztésére, amelyek az eddigieknél jóval erősebben formalizáltak, és támogatni kell az ilyenek automatikus építését (párhuzamos korpuszokból).

II.3.9. Információkinyerés és - visszakeresés A nagy webes keresőmotorok (Google, Yahoo, MSN) mindegyike elsődleges célnak tekinti nyelvi alapú tudástár létrehozását. Magyarországon ehhez nemcsak a kulcsszavas keresés infrastruktúrájának javítására, és a magyar nyelvű információkinyerés fejlesztésére, hanem a nyelvek közötti információkinyerés (cross-language information extraction) jelentős erősítésére is szükség van, mind a szöveges, mind a beszéd- illetve multimédia-tartalmú adatbázisokban. Az óriási központosított tudás és kontroll-lehetőség átfogó védelmi rendszerek előzetes létrehozását igényli, hogy az emberi élet és szabadság, aminek védelme egyedüli célja lehet ilyen intelligens rendszerek létrehozásának, ne sérüljön egy emberre nézve sem (bővebben ld. II.4.2.). Célunk részint az információkinyeréshez elengedhetetlen nyelvi modalitások (tagadás, spekuláció, időbeliség, stb.) automatikus felismerése, másrészt az emberi kommunikációt (és nem kis részben még a tudományos, jogi, és üzleti nyelvet is) átható érzelmi hozzáállás elemzése, ismét mind írott mind beszélt anyagban. Fentebb (II.3.4II.3.5.) már említettük, hogy ebben a nevek/névelemek (és általában az indexeléshez használható metaadatok) meghatározása mellett nagy szükség lesz a mélyebb mondaton belüli összefüggések (függőség) és a mondatok közti összefüggések (anafora, retorikus struktúra) automatikus felismerésére is.


139

Amikor a kilencvenes évek közepén megjelentek az első webes keresőmotorok (Alta Vista 1995, Northern Light 1996, Yahoo 1997) már világos volt, hogy a tartalmak tárolását illető technikai változatosság lassan megszűnik, és végül minden értől ugyanahhoz az óceánhoz jutunk el, a webhez. Ma már nyilvánvaló, hogy a katonai titkosítás céljával a világhálótól légréssel (air gap) szándékosan elválasztott titkos hálózatokon kívül nincs semmi olyan információs tár melynek tartalma, megfelelő autentikációval, a jogosultak számára nem lenne bármely laptopról (és egyre inkább: bármely mobiltelefonról) elérhető. Ebből következik, hogy a hagyományos információs tárak, a könyvtáraktól az adatbázisokig, csak annyira fognak túlélni, amennyire a web részeivé válnak – ez az a széles sodrású folyamat ami a szemantikus web létrejöttét kikerülhetetlenné teszi. Ezért különösen fontosak azok a technológiák, amik a célzott webbányászatot segítik, mint például a tartalom/téma szerinti dokumentumosztályozás és a különféle megjelölési (markup) megoldások.

II.3.10. Infrastruktúra Elsődleges célunk a szemantikai információt tartalmazó lexikális erőforrások előállítása, hiszen ezek nélkül az algoritmusok nem tudhatják hogy a sikeres rákterápia hatására a rák visszafejlődik de a sikeres beszédterápia hatására a beszéd nem fog visszafejlődni. A gépi felhasználás által igényelt precizitáshoz a hagyományos szótárírási gyakorlat nem kielégítő: például gurul nem azt jelenti, hogy ‘valamin saját tengelye körül forogva halad’ (ÉKSz) hiszen akkor a Föld is gurulna a pályáján, a piruettező jégtáncos pedig a jégen gurulna. A nagyobb szabatossági fok eléréséhez fontos segítséget nyújt a nemzetközi szabványok átvétele: ilyenek lehetnek például az LMF (Lexical Markup Framework, ISO 24613) és a SAF (Semantic Annotation Framework), de megemlítjük az egyes komponensek (pl. a morfológia, POS-tagger, tulajdonnév-felismerés, szintaktikai elemzés) integrálásához és koordinálásához kifejlesztett Unstructured Information Management Architecture (UIMA) kezdeményezést is. A lexikai munkálatok jellegzetesen olyan terület, ahol mind a közös termelés (peer production) mind az ezt összefogó szakértő szerkesztői munka nélkülözhetetlen. A magyar lexikográfiának ki kell törnie a hagyományos zárt modellből, annál is inkább, hiszen az infrastruktúra csak akkor fejtheti ki a kívánatos katalizáló hatást ha nyitott és ingyenes, szerzői/szabadalmi jogi korlátoktól mentes. Korai (2-3 éven belül elérendő) célunk lehet, hogy a megfelelő metaadatok (pl. a tárgyszöveg nyelve és karakter-kódolása) automatikus kinyerését támogató olyan konverziós könyvtárat hozzunk létre, melynek felhasználásával a fejlesztéseket web alapúvá lehet tenni, azaz minden írottszöveg-elemző X(HT)ML szövegen működjön, az eredmény megjelenhessen böngészőben (megfelelő XSLT style-sheet alkalmazásával), tehát a sima (jelöletlen) text fájlra úgy gondoljunk mint speciális (gyengén jelölt) HTML-re illetve XML-re, ne pedig fordítva, a HTML/XML-re gondoljunk úgy mint jelölt szövegre.

140


A hangtan mélyebb modellezése nemcsak a beszédtechnológiában nélkülözhetetlen, hanem az II.3.3. szakaszban tárgyalt morfológiai elemzéshez és generáláshoz is szükséges, még tisztán írott nyelvi anyagon is, hiszen a magyar helyesírás részint fonetikai, részint szóelemző alapokon áll. Fontos olyan, hatékony szabálykompozíciót lehetővé tevő keret kialakítása amely nemcsak a magyar, hanem általában az összes szóbajöhető nyelv fonológiai szabályrendszereit képes lekezelni: erre a véges állapotú transzducereken (FST, finite state transducers) alapuló u.n. kétszintű fonológiát és morfológiát tartjuk kizárólag alkalmasnak. A teljes FST infrastruktúra kiépítésén már most is EU-szerte több (finn, lengyel, német, francia) kutatócsoport dolgozik, ebbe nekünk is érdemes bekapcsolódnunk.

II.3.11. Alapkutatás A beszédfelismerésben a legfontosabb és legnehezebb feladat a zaj és interferencia érzékenység jelentős csökkentése. A felismerési hatékonyságának növeléséhez célzott spontán beszéd kutatásra van szükség. Hasznos lenne a kognitív modellezés a beszédfeldolgozás és általában a hangfeldolgozás területén: külön kiemeljük a kétfülű hallás (binaural hearing) jellegzetességeinek modellezését a beszéd zajból történő kiemelésére. Nemcsak a beszéd-, hanem a nyelvtechnológia egésze szempontjából kiemelt fontosságú a statisztikai nyelvmodellezés és a szabályalapú „mély” elemzés hatékony kombinálása, és az adatvezérelt nyelvi, dialógusszervezési és jelfeldolgozási technikák kutatása. A beszédtechnológia fontos része a beszélőazonosítás (speaker ID) és az ezzel összefüggő hanglenyomat (voiceprint) technológia. Ez ma még meg sem közelíti az egyéb biometrikus azonosítók (ujjlenyomat, írisz) megbízhatóságát, ezért itt további alapkutatásra van szükség. Írott megfelelője, a szerző-azonosítás, és a plágiumdetekció (sajnos) egyre fontosabbá váló kutatási terület. Ugyancsak alapkutatást igényel az annotátor és gép közötti szinergia növelése, az annotálási erőforrásigény minimalizálása. Ehhez active learning és egyéb intelligens interaktív tanítható rendszerekre, illetve részben felügyelt (semi-supervised) tanulási módszerekre van szükség.


141

II.4. Kiemelt alkalmazások II.4.1. A gazdasági szféra Bár írásunk célja hosszú távú jövőkép kidolgozása, röviden mégis érintjük a nyelvtechnológia néhány olyan területét, amikről azt gondoljuk, hogy a Platform tagjai, alkalmas ipari partnerrel összefogva, akár rövid távon sikeresen be tudják vezetni a nyelv- és beszédtechnológiát a gazdasági szféra kritikus pontjain. Kisebb ügyintézési feladatokra (pl. éttermi asztalfoglalás, mozijegy vásárlás, menetjegy foglalás) már ma lehetséges (mobil)telefonos ügyfélkiszolgáló rendszereket építeni, illetve automatikusan előállítani hangos információs táblákat (bevásárlóközpontokban, múzeumokban). Egyre inkább terjedőben vannak a gépi beszédfelismerésen alapuló telefontudakozók. Lehetséges (bár a mozgássérültek körétől eltekintve nem biztos, hogy kívánatos) a háztartásokban hanggal vezérelni szinte az összes készüléket (mosogatógép, mosógép, villanykapcsolók, TV, stb). Magyar nyelven is elérhetővé tehetők bizonyos hangos keresési szolgáltatások természetes nyelven, például „Merre van a legközelebbi benzinkút?" autós navigációs rendszerbe, vagy telefonba mondva. Ami ezekben az alkalmazásokban közös az a kis/közepes szókincs, szemben az II.3.1-ben tárgyalt nagyszókincsű feladatokkal. Már ma elérhetők fordítássegítő párhuzamos korpuszok és szótári tartalmak mind ingyenes, mind licenszált (fizetős) formában, és számíthatunk arra, hogy ezt az iparágat a továbbiakban is az ingyenes (és gyakran nyílt forráskódú) és a licenszált szoftverek versenye fogja jellemezni. Ebbe a folyamatba a tőkeerős befektetők több módon is bekapcsolódhatnak, és a Platform az egyes konkurensek közti kollaboratív megoldásokat (pl. fordítási memóriák adatcseréje) is támogatja. Ha a magyar nyelvre a helyesírás-ellenőrzők fejlesztése már nagyjából lezárt folyamatnak is tekinthető, a magyar nyelvtechnológia egésze még számos ilyen eszközzel adósunk, például a jelentős hazai kisebbségek, vagy uráli nyelvrokonaink nyelveire. Ugyanezen nyelvek egyés többnyelvű szótárainak, korpuszainak, és egyéb erőforrásainak fejlesztése is elsősorban a magyar nyelvtechnológiától várható. Külön kiemeljük a nyelvtechnológia olyan irányú fejlesztéseit, melyek megkönnyítik a kommunikációt azokkal a környező országokkal, ahol a magyar iparnak jelentős érdekeltségei vannak, Macedóniától Lengyelországig.

II.4.2. Állam- és közigazgatás Az állam- és közigazgatás hatékonyabbá, jogtisztelőbbé és emberarcúbbá tétele olyan célok, melyekhez relatíve kicsi nyelvtechnológiai befektetéssel lényegesen közelebb lehet jutni. Az ilyen jellegű tenderek kiírásának meglenne az az előnye is, hogy ezek a hazai nyelv- és beszédtechnológiát szerves módon támogatnák. Az elektronikus ügyintézés, az e-kormányzás már velünk van, bár elsősorban még kezdetleges, inkább formanyomtatvány-kitöltési mint természetes nyelvi interfészeken

142


át. De már ez is felvet számos olyan, a jövő társadalmának életminőségét meghatározó kérdést, mint az adatvédelem és az autentikáció. Nyilvánvaló cél, hogy csak a nyilvánosan, közzétételi célra létrehozott információk kerülhessenek be a központi gépbe és bármilyen adatbázisba. A magánélet, a privát-szféra információinak védelme mindnyájunk érdeke, mint ahogy az is, hogy ilyen jellegű adatokat más ne használhasson helyettünk (identity theft). Sajnos e két cél részint ellentmond egymásnak, hiszen minél több adat elérhető, annál több adattal lehet visszaélni. A nyelvtechnológia több oldalról is segíthet, például előremutató projekt lenne az autentikációs sémák logikájának RDF alapú modellezése is, hiszen egy ilyen modell, megfelelő szöveg-szintézis technológiával összekapcsolva meg tudja magyarázni a felhasználónak hogy miért van autentikációra szükség. A nagyobb információvédelmet szolgálja, más eszközökkel, az adatbázisok hatékonyabb anonimizálása is. A tulajdonnevek mechanikus eltávolítása (az ehhez szükséges NER technológiában a Platform már komolyabb eredményeket tud felmutatni) esetenként nem elegendő ahhoz, hogy a szöveget a konkrét szereplőktől elszakítsuk, és valóban azonosíthatatlan anyagot kapjunk. Ilyen esetben lehetséges megközelítés az információkinyerési út, amikor előre megfogalmazzuk, hogy a szövegből pontosan mit akarunk kivenni és többi tartalmat a felhasználó nem is kapja meg. Végül, de nem utolsósorban megemlítjük, hogy a közigazgatás kiváló terep a jelenleginél sokkal nagyobb tudású ügyfélszolgálati rendszerek kialakítására is, legyenek ezek beszéd-, nyomógomb- vagy web-alapúak. A dialógus-modellezés (ld. II.3.6.) ezek közös eleme. A bűnelhárítás számos területén is hasznos a nyelvtechnológia, ilyenek például a forenzikus célra is kiválóan alkalmazható hanglenyomat és írás-azonosítás. A biometrikus azonosítás ilyen új formái, például az aláírás verifikációja digitális környezetben (hitelkártya-leolvasókon) egyben a megelőzésnek is fontos eszközei. A jassznyelv (argó) nyelvtechnológiai kezelése mind megelőzési, mind rehabilitációs célból indokolt.

II.4.3. Egészségügy Az egészségügy alapcéljai ismét olyan célok, melyekhez relative kicsi nyelvtechnológiai befektetéssel (pl. szakontológia kiépítésével, a diagnosztikai és rehabilitációs célzatú kutatások támogatásával) lényegesen közelebb lehet jutni, és ennek ismét meglenne az az előnye is, hogy ezek a hazai technológiát organikus módon támogatnák. Külön kiemeljük a környezeti intelligenciával segített élet és munka (ambient assisted living, ld. http://www.aal-europe.eu) jelentős nyeltechnológiai vonzatát, hiszen a lakosság elöregedésével erre egyre inkább szükség lesz. Magától értetődő, hogy a beszéd-, hallás-, és nyelvkészség zavarainak diagnózisában és terápiájában a technológia eredményei fontos szerepet játszanak, itt csupán a főbb területeket vázoljuk. Beszéd alapú diagnosztika: nemcsak a hangképzési rendellenességek (daganat, stridor, stb) vizsgálata és automatikus diagnosztizálása,


143

hanem a beszéd részletes vizsgálatával sok egyéb betegség is előre jelezhető (pl. Alzheimer-kór). Cél a kóros eseteket tükröző akusztikai paraméterek keresése. Hanganyag gyűjtése foniátriai szakrendelésen megjelenő betegek bemondásaiból a kórlap összekapcsolásával. (Ez mind a korpusz-építés mind az anonimizáció szempontjából érdekes feladat.) A hallásvizsgálatok új tárháza nyitható meg a szintetikus beszéd alkalmazásával (erre már ma is vannak példák). Hallássérültek beszédterápiájának szoftveres támogatása. A Platform már most ad ehhez technológiát de ennek további fejlesztéséhez a személyi állomány bővítésére lenne szükség. Rehabilitáció, például cochleáris implantáltak beszélni tanításában olyan szoftverrel, amely elemzi a páciens reakcióit és annak megfelelően ad gyakorlatokat, esetleg hangolja a készülékeket. Hasonló szoftver a siketek beszélni illetve az afáziások újra beszélni tanításához is kifejleszthető. A logopédiában szintén sokat segíthetnek a tanító gépek – levehetnek sok munkát a logopédus válláról, továbbá jobban gyakorolhatóvá teszik az előírt gyakorlatokat. Egyre nagyobb az igény olyan mérési módszerek fejlesztésére is, amelyekkel a beszédterápia javító hatása objektív módon kiértékelhető, a fejlődési lépték összehasonlítható. Alvásterápia segítése alvásmonitorozó rendszer segítségével (horkolás, alvási nehézségek, apnoé automatikus detektálása, elemzése). Gégeműtét előtt be lehet tanítani egy szintetizátort, melyet utána kényelmesen tud vezérelni és a saját hangján tud beszélni utána az ember (egyedi beszélőre adaptált szintézis, ld. II.3.1.). Általában a hihetetlen tömegű orvosi információ közti tájékozódást, akár a szakember, akár a laikus számára, rendkívüli módon megkönnyíti a modern nyelvtechnológia. Még a kifejezetten numerikus adatokra épülő leletek és esettörténetek is gyakran tartalmaznak természetes nyelvi (magyar vagy latin) kifejezéseket, és az ezek közti hatékony keresés ismét csak ontológiai támogatással valósítható meg jól. Fontos továbbá az orvosi szövegek (pl. gyógyszerszedési vagy egyéb terápiás utasítások) automatikus generálása és szemantikai ellenőrzése. Megemlítjük, hogy a modern nyelvtechnológia egyik kulcseleme, a rejtett Markov elemzés, nemcsak az emberi beszéd és szöveg hanem a genetikai kód darabjainak összehasonlításában is használatos, a modern szekvenciapárosító (sequence aligner) algoritmusok mind ezen alapulnak.

II.4.4. Oktatás A logopédidiában használatoshoz igen hasonló szoftver az idegennyelv-tanításban, a magyar mint idegen nyelv tanításában, és a nyelvtanulás hatékonyságának mérésében is felhasználható. Minden olyan szoftver, ami a tanár válláról munkát vesz le, a szűkös helyzetben lévő oktatás eredményességét javítja, és mint ilyen a fenti logikával egyben a hazai nyelvtechnológia bázisát is erősíti. Ezek mellett természetesen szükség van a nyelvtechnológia oktatására, népszerűsítésére, közvetlen társadalmi felhasználásának és hasznosságának erősítésére a köztudatban, hiszen az átlagos állampolgár ma úgy használja a nyelvtechnológiát a spellcheckertől a keresőmotorig, hogy nem is tudja, hogy amit használ az nyelvtechnológia. Saját házunk táján maradva, kiépíthetők lennének olyan internetes tanácsadó por-

144


tálok melyek nyelvi és helyesírási kérdésekben illetve utónév választásához adnának tanácsot. Ezek, mint pilóta-projektek egyben a tanácsadó portálok mögötti nyelvtechnológiának is kísérleti terepei lehetnének, olyan inkubátorok, melyekből később ipari alkalmazások is kifejlődhetnek. Végül, de nem utolsósorban, ide tartozik a kisebbségi nyelvek (különösen az iskoláskorú lakosság mintegy 10-15%-át adó roma) és kisnyelvek felhozatala a digitális korszakba. A közép- és keleteurópai nyelvtechnológia meglehetősen inhomogén, a jugoszláv utódállamokban, ukrán és szlovák szomszédainknál szinte alig van nyelvtechnológia, míg Nyugat-Európában egészen kis nyelvjárások komoly technológiai támogatást kapnak. Azt gondoljuk, hogy részben célzott EU-támogatások befogadásával, részben pedig önerőből, Magyarország a térség vezető nyelvtechnológiai központjává válhat, és mindenképpen szorgalmaznia kell (pl. regionális konferenciák megrendezésével) az együttműködést a gyakran világszínvonalon dolgozó lengyel, cseh, román, orosz, és bolgár kollégákkal is.

II.5. Összefoglalás A nyelv- és beszédtechnológiának kulcsszerepe van az információs társadalom építésében mind a centralizált, fentről lefelé épülő (B2B, B2C) mind a decentralizált, lentről felfelé épülő (P2P) építkező struktúrák tekintetében. Előbbiek közül kiemeljük az ekormányzati mechanizmusokat, hiszen a társadalmi szintű részvétel a közügyekben csak akkor teljesedhet ki, ha a központtal való kommunikációt a mainál lényegesen természetesebbé tesszük, és a digitális kultúra, az e-tanulás ügyét. Mottónk információ helyett tudás, hiszen a tudásalapú társadalom építésében nem csak arról van szó, hogy az egyes szervezetek egyre nagyobb tudás birtokában egyre intelligensebb döntéseket tudnak hozni, hanem arról is, hogy a központi kezdeményezések szerepét ahol csak lehet átveszik az egyének autonóm döntései. Ennek a folyamatnak csupán a társadalom koherenciáját adó alapvető újraosztási rendszerek, az oktatás, az egészségügy, a rendfenntartás iránti univerzális igény szab korlátot, és ezeket az igényeket is hatékonyabb, emberibb ügyfélszolgálattal kell kielégíteni. Magyarország természetesen nem izolált társadalom, hanem nagyon is része az Európai Uniónak. Klasszikus nyelvészünk, Bárczi Géza 1961-ben leírt sorai máig aktuálisak: „ha a magyarság élni akar, nem szakíthatja ki magát Európa kultúrájából, nem szigetelődhetik el a földrészünket át-meg átszövő eszmeáramlatoktól. Az a hihetetlenül nagyszámú és erős szál, mely ma az egész emberiséget, még szorosabban az európai embereket összekapcsolja, nem szakadhat el a mi határainkon, mert ezzel egyszersmind életünk fonala is elszakadna.” A felgyorsult globalizáció miatt ehhez ma még azt is hozzátehetjük, hogy az EU nem izolálja országunkat a kívülről érkező hatásoktól sem gazdasági, sem technológiai, sem kulturális téren, tehát döntő, hogy a legfontosabb társadalmi trendeket ne csak passzívan átvegyük hanem aktívan tovább is vigyük. Az információs társadalom kialakulása kétségkívül ilyen trend. Magyarország, mint azt a bevezetőben már hangsúlyoztuk, digitális középhatalom, és a


145

magyar nyelvtechnológia célzott támogatásával a társadalmi változások passzív elszenvedése helyett azok aktív előrevivője lehet.

Stratégiai Kutatási Terv

Recommend Documents