bek.-k
<s> <w> mondatok szavak
több
Szépirodalom
118
4847
18558
185436
47990
55,85%
Fogalmazások
1157
4097
24720
278497
59419
59,69%
Újságcikkek
434
2863
10210
182172
32880
50,69%
Számítástechnikai 508 szövegek
1811
9759
175991
31577
48,20%
Jogi szövegek
1201
4114
9278
220069
33515
49,90%
Rövidhírek
6453
6528
9574
186030
25719
45,15%
Összes
9871
24260
82099
1228195 231093
51,58%
I.3. táblázat. A Szeged Treebank 2.0 felépítése A részletes kézi annotálásnak köszönhetően a Szeged Korpusz és Szeged Treebank különböző verziói megbízható tanulási és tesztelési adatbázisként szolgálnak számítógépes tanulóalgoritmusok számára. Jelenleg a Szeged Treebank dependencia formátumra történő alakítása zajlik a Szegedi Tudományegyetemen. A korpusz és a treebank állományok oktatási és kutatási célra ingyenesen hozzáférhetők (http: //www.inf.u-szeged.hu/projectdirs/hlt/). I.3.1.1.5. 10 millió szavas szintaktikailag elemzett korpusz. A 10 millió szavas szintaktikailag elemzett korpusz elsősorban gépi tanulási kísérletekhez való felhaszná-
50
STRATÉGIAI KUTATÁSI TERV
lásra készült. Mivel nem elérhető ekkora kézzel elemzett magyar korpusz, a szükséges szintaktikai elemzést automatikus módszerrel kellett biztosítani. A korpusz szövege az MNSZ négy alkorpuszából származik, az alábbi arányok szerint összeállítva: sajtó 4.5 M szépirodalom 2.07 M tudományos 2.2 M hivatalos 2.08 M összesen 10.850.000 szó A szövegek morfológiai elemzése az MNSZ-ben szereplő elemzésnek és egyértelműsítésnek felel meg. A részleges szintaktikai elemzés teljes egészében a NooJ magyar moduljával [44] készült. Az elemzés kizárólag szintaktikai jegyekkel dolgozik, és célja, hogy tagmondati szinten felismerje és lemmásítsa az igei állítmányt, az állítmányhoz vonzatként/adjunktumként kapcsolódó (legfelsőbb szintű) frázisokat, és a frázisok azon szintaktikai tulajdonságait, melyek a bővítményi szerep betöltését jelzik, illetve annak feltételeit (pl. esetrag, szám, kategória). A korpusz kutatási célokra külön megállapodás alapján érhető el, információ: [email protected]. I.3.1.1.6. Jelentés- egyértelm˝ usített korpusz. Az első magyar jelentés-egyértelműsített korpusz [173] 39 szóalak egyenként 350-500 egyértelműsített előfordulását foglalja magában. A jelentések definíciója a magyar wordnet (HuWN) megfelelő synsetjein alapul (ld. I.3.2.2.1.). Az adatbázis kutatási célokra ingyenesen hozzáférhető a http: //www.inf.u-szeged.hu/rgai címen. I.3.1.1.7. NP- koreferencia korpusz. Az NP-koreferenciák feloldására szolgáló program [83] megvalósításához szükség volt egy NP-koreferenciaannotált korpuszra is. Ez a korpusz szintén a HuWN-ben (ld. I.3.2.2.2.) található fogalmakat, illetve az azok között húzódó lexikai-szemantikai viszonyokat hasznosítja. I.3.1.1.8. Szegedi NER korpusz. A Szegedi NER korpusz a Szeged Treebank [30] gazdasági rövidhíreket tartalmazó alkorpuszának tulajdonnév-annotált része, körülbelül 220000 szövegszónyi állomány. A használt tulajdonnév-kategóriák a következők: személy (PERSON), szervezet (ORGANIZATION), hely (LOCATION) és egyéb (MISCELLANEOUS). A tematika egységes voltának köszönhetően a korpuszban jóval nagyobb arányban fordulnak elő szervezetnevek, mint a többi kategóriába sorolható elem [123]. Az adatbázis kutatási célokra ingyenesen letölthető a http://www.inf. u-szeged.hu/projectdirs/hlt/index_en.html oldalról. I.3.1.1.9. B˝ unügyi NE- korpusz. A Szegedi Tudományegyetemen épített bűnügyi tematikájú korpusz kiindulópontjaként az MNSZ szolgált, melynek HVG részkorpuszából gyűjtötték le azokat az anyagokat, melyek témájukban nagy valószínűséggel a
I. MELLÉKLET – JELENKÉP
51
vám- és jövedéki bűncselekményekkel kapcsolatosak. A hírek gyűjtése témaspecifikus kulcsszólista alapján történt. A legyűjtött 472 cikkből egy 540 ezer szövegszó méretű névelemcímkézett korpusz állt elő, mely így nemzetközi összehasonlításban is jelentősnek mondható szöveges adatbázis. Ezen az anyagon a személy, szervezet, hely és egyéb kategóriák bejelölése történt meg. A korpusz két változatban is elkészült. A tag-for-meaning annotáció készítésekor a nyelvész szakértők a címkék hozzárendelésekor tekintettel voltak a névelem adott kontextusbeli szerepére, azaz nem a névelem elsődleges jelölete alapján határozták meg a konkrét címkéket (pl. Manchester → LOC), hanem az adott kontextusban referált entitás szerint (pl. a Manchester továbbjutott a csoportkörből → ORG). A tag-for-tag annotációnál ilyen különbségtétel nem volt: mindig az elsődlegesen jelölt entitás típusa alapján történt a jelölés. A korpuszban előforduló névelemek statisztikai adatait az I.4. táblázat mutatja. tag-for-meaning
tag-for-tag
LOC
5049
5391
ORG
8782
9480
PER
8101
8121
MISC
1917
854
I.4. táblázat. A Bűnügyi NE-korpusz névelemeinek eloszlása típusok szerint A korpuszban a szervezet és a személy kategóriájú tulajdonnevek vannak túlsúlyban, akár a tag-for-tag, akár a tag-for-meaning annotációt vesszük figyelembe: a hely és egyéb nevek jóval kisebb arányban fordulnak elő. Ez valószínűleg a korpusz tematikájának köszönhető [16]. Az adatbázis kutatási célokra ingyenesen hozzáférhető a http://www.inf.u-szeged.hu/rgai weboldalon. I.3.1.1.10. Szemantikai szerepekkel címkézett NP- korpusz. Az NP-korpusz az INTEX magyar nyelvű moduljába [156] illeszkedő szabályalapú elemzéssel készült az MTA Nyelvtudományi Intézetének Korpusznyelvészeti osztályán 2005-ben. A szemantikai szerepekkel címkézett, XML formátumú korpuszban a főnévi csoportokon és a főnévi csoportok szemantikai szerepein kívül jelölve vannak a főnévi csoportok fejei és ezek esetragjai is. A korpusz Méray Tibor: Nagy Imre élete és halála (1958) c. művének elemzett változata, 12545 mondatot, 29855 főnévi csoportot és 1238 szemantikai szereppel címkézett főnévi csoportot tartalmaz. Az alkalmazott módszerről és a szemantikai szerepek pontos leírásáról l. [42]. A korpusz indexálva van és lekérdezhető a British National Corpus lekérdező kliensének, a Xaira-nak a magyar nyelvű változatával. A korpusz elérhető az MTA Nyelvtudományi Intézetének Nyelvtechnológiai kutatócsoportjának honlapján.
52
STRATÉGIAI KUTATÁSI TERV
I.3.1.1.11. BUSZI beszélt nyelvi korpusz. A Budapesti Szociolingvisztikai Interjú (BUSZI) hanganyagának lejegyzett változatából készült el az első magyar korszerű XML formátumú beszélt nyelvi korpusz az MTA Nyelvtudományi Intézetében [97]. A 268 ezer szónyi adatbázis komplex nyelvi információt tartalmaz: egyrészt tartalmazza a BUSZI-ban kódolt számos beszéltnyelvi jelenséget (szünet, hezitáció, hangkiesések, párhuzamos beszéd stb.), emellett az egyes szavakhoz fonetikai reprezentációt, valamint regularizált alakot, illetve a regularizált alakokhoz szótövet és egyértelműsített morfológiai elemzést is rendel. A korpuszhoz korlátozottan (csak kutatók számára, külön engedéllyel) hozzáférhető részletes lekérdező felület tartozik. Az adatbázis számos jelenség tekintetében statisztikai vizsgálatok elvégzéséhez is elegendő adatot (akár több tízezer találatot) szolgáltat. A korpusz kutatási célokra külön megállapodás alapján érhető el, információ: [email protected]. I.3.1.2. Párhuzamos korpuszok A természetes nyelvi feldolgozásban az utóbbi években egyre fontosabb szerephez jutnak az olyan szövegek, amelyek két vagy több nyelven elérhetők, és szegmenseik egymáshoz rendelhetők. Ezeket az írott szöveg- vagy beszédállományokat, amelyek két-, illetve többnyelvű szövegekből állnak, és tartalmilag megfeleltethetők egymásnak, párhuzamos korpuszoknak (parallel corpora) nevezzük. Más meghatározás szerint a párhuzamos korpuszok olyan két- vagy többnyelvű korpuszok, amelyben egy mű és annak egy vagy több nyelvre lefordított változatai szerepelnek. A párhuzamos korpuszok a számítógépes nyelvészet számos területén hasznosíthatók. Például, a lexikográfia számára nagy jelentőséggel bírhat az, hogy a többnyelvű szövegekből kinyerhetjük adott szavak vagy szókapcsolatok más nyelvű megfelelőit, ezáltal automatikusan vagy minimális emberi felügyelettel lehetséges két- vagy többnyelvű szótárak létrehozása. További alkalmazási lehetőség adódik a fordítástámogatás, -oktatás és -kutatás területén. Az összerendelt egységeket be lehet építeni különböző fordítást segítő eszközökbe (pl. fordítómemóriákba), illetve szemléltető példákat lehet gyűjteni különféle fordítási technikákra, ami jól hasznosítható fordítók és tolmácsok képzésében. Felhasználhatók a gépi fordításban is, hiszen a szinkronizált egységek felfoghatók egymás fordításaként, így a rendszer azokat automatikusan tudja kezelni, felhasználni (pl. fordítást előállítani). Ez megvalósulhat mondat, szókapcsolat, vagy szó szintjén is. A kontrasztív nyelvészet számára is igen fontosak a párhuzamos korpuszok. Egy kétnyelvű adatbázisban jóval könnyebben nyílik arra lehetőség, hogy egy adott nyelvi jelenség másik nyelvben előforduló megfelelőit megtaláljuk, így a példák megkeresése és az adatgyűjtés egyszerűbbé válik a párhuzamos korpusz nyelveinek vizsgálatával foglalkozó kutató számára. A párhuzamos korpuszok az információkinyerésben is hasznosíthatók. Ha az egyik nyelvre rendelkezünk egy kidolgozott IE-technikával, akkor egyszerűen csak azt kell megnézni, hogy a másik nyelvben mi feleltethető meg a kinyert adatoknak. A mondatok szintjén ez a legtöbb párhuzamos korpuszban nem okoz problémát, ám mondaton belül problémákba ütközhetünk, hacsak a korpusz nem tartalmaz szó vagy kifejezésszintű szinkronizációt. A párhuzamo-
I. MELLÉKLET – JELENKÉP
53
sítás azonban megkönnyíti a feladatot, különösen ha a korpuszok rendelkeznek valamilyen szintű annotációval (pl. szintaktikai annotációval). A párhuzamos korpuszok alkalmasak szakszóanyag kigyűjtésére is. A forrásszövegben meglévő szakkifejezéseket egyszerűen megtalálhatjuk a másik nyelvű szövegben is. Ennek segítségével lehetőség nyílik terminológiai szótárak készítésére, illetve annak ellenőrzésére, hogy a fordítás a szakkifejezések szempontjából a megfelelő konzisztenciával rendelkezike. Az idegen nyelvű párhuzamos korpuszok közül meg kell említeni a kanadai parlamenti jegyzőkönyvekből álló Hansard korpuszt, melyet angol-francia gépi fordítási alkalmazásokban hasznosítanak, illetve az UN Parallel Text korpuszt, mely az ENSZ archív, angol-spanyol-francia nyelvű dokumentumaiból áll össze. Az állományok mondatszinten vannak párhuzamosítva. I.3.1.2.1. 1984. Az Európai Unió által támogatott MULTEXT projekt célja az volt, hogy a TEI-ajánlás alapján kialakított ún. Corpus Encoding Specification DTD-nek megfelelő többnyelvű mintakorpuszokat hozzon létre, ezzel tesztelve a többnyelvű szövegek számítógépes feldolgozásának lehetőségeit, illetve a TEI alkalmazhatóságát más (nem angol) nyelvű szövegekre. A MULTEXT-East projekt keretében egyetlen regényt, Orwell 1984 című alkotását rögzítettek tíz nyelven (bolgár, cseh, észt, lett, litván, magyar, orosz, román, szerb-horvát és szlovén), az egyes változatokat egységes azonosítórendszerrel rendelve egymáshoz [31]. A korpuszban minden szövegszó morfológiailag elemezve és egyértelműsítve van. A magyar változatot a MorphoLogic, illetve az MTA Nyelvtudományi Intézet munkatársai készítették, lekérdezőfelületen keresztül szabadon elérhető: http://corpus.nytud.hu/demo/orwell/. I.3.1.2.2. HUNGLISH. A Budapesti Műszaki Egyetem és a Nyelvtudományi Intézet közösen vett részt a Hunglish projektben, melynek fő célja egy statisztikai elven működő gépi nyersfordító rendszer kifejlesztése volt. A feladat megoldásához szükség volt egy mondatszinten illesztett, magyar–angol párhuzamos korpuszra. A projekt eredményeként tehát — az angol-magyar nyersfordító prototípus mellett — elkészült egy automatikus mondatillesztő program, létrejött egy angol-magyar párhuzamos korpusz, illetve kialakult egy teljes párhuzamos korpusz építésére alkalmas eszközkészlet és módszertan [51]. A párhuzamos korpusz építésekor általában szépirodalmi szövegeket és igényes műfordításokat szoktak gyűjteni. Mivel a Hunglish korpusz építőinek nem céljuk szépirodalmi művek fordítása, hanem elsősorban a piaci követelmények szerinti tenderek és egyéb pályázatok fordítása, ezért a korpuszukat nem elsősorban szépirodalmi szövegekre alapozták, hanem a világhálón található többnyelvű szerverekre koncentráltak, így a korpusz az alábbi fő forrásokból épül fel. Az irodalmi szövegek fő forrása a Project Gutenberg és a Magyar Elektronikus Könyvtár, ahonnan azok az irodalmi művek kerültek be, amelyeknek szerepelt az angol és a magyar nyelvű változata is. A jogi szövegek forrása az EU közösségi jogszabályok CELEX adatbázisa és az Európai Al-
54
STRATÉGIAI KUTATÁSI TERV
kotmány. A nyílt forráskódú szoftverek honosításainak eredményei közül a korpuszba a KDE, Gnome, OpenOffice, Mozilla és GNU eszközök dokumentációi kerültek be. Az adatbázisban szerepel kb. 400 film felirata is. Kétnyelvű magazinokból, illetve magazinok magyar nyelvre fordított kiadásaiból (National Geographic és a Diplomacy and Trade magazin néhány számából) származó szövegek is feldolgozásra kerültek, ezenkívül a Magyar Telekom Rt.-től származó nagy mennyiségű távközlési témájú sajtóanyag is bekerült a korpuszba, amelyet fordítóik ültettek át angol nyelvre. A korpusz részletes adatait az I.5. táblázat mutatja. forrás
Angol (millió)
tokenek Magyar (millió)
irodalom
14,6
11,5
jog
24,1
18,3
filmfelirat
2,5
1,9
szoftver
0,8
0,7
magazinok
0,3
0,3
sajtó
2,1
1,7
összesen
44,5
34,5
tokenek
I.5. táblázat. A Hunglish korpusz felépítése A korpusz kétnyelvű anyagai dokumentum- és mondatszinten vannak párhuzamosítva. A párhuzamosításhoz fejlesztették ki a hunalign programot. A program elsőként elkészíti a magyar szöveg angol nyersfordítását, majd ez alapján hasonlósági értéket számít a forrásszöveg és célszöveg között. A megtalált mondatpárok alapján szótári tételeket azonosít, majd a kibővített szótár segítségével újra végrehajtja az első két lépést. A teljes korpusz letölthető a http://mokk.bme.hu/resources/hunglishcorpus címről. A hunalign forráskódja és az angol-magyar lexikai erőforrások elérhetők a http: //mokk.bme.hu/resources/hunalign címen. A korpusz az angoloktatásban újszerű kétnyelvű szótárként használható. Egyrészt valódi élőnyelvi példaanyaggal szolgál, másrészt kifejezések, sőt tetszőleges kollokációk keresésére alkalmas. Megtudható belőle, hogy adott szó vagy kifejezés hogyan, milyen környezetben, szituációban használatos, illetve mik lehetnek a párhuzamos nyelvi megfelelői, fordításai [116]. A hunglish korpuszon alapuló magyar-angol kétnyelvű szótárként használható alkalmazás a http://szotar.mokk.bme.hu/hunglish/search/corpus címen található. I.3.1.2.3. SzegedParalell. Az SZTE Mesterséges Intelligencia Kutatócsoportja egy nagyméretű angol-magyar párhuzamos korpuszt kezdett el építeni, melyben válogatott, nyelvtani és fordítási szempontból ellenőrzött szövegek szerepelnek. Az így elő-
I. MELLÉKLET – JELENKÉP
55
álló korpusz jól használható tanuló és tesztelő adatbázisként statisztikai gépi fordítóprogramokhoz. A korpusz, felépítését tekintve, alapvetően két nagyobb egységre bontható: nyelvtankönyvi mondatok és autentikus szövegek. A nyelvtankönyvi mondatok előnye, hogy egy adott nyelvtani témakörre rengeteg variációban ad meg példamondatokat. Ezek a mondatok, noha néha túlságosan mesterkélt hatást keltenek, a fordítómemória szempontjából jól használhatóak, mivel egy-egy nyelvtani jelenségre rengeteg szerkezeti lehetőséget ad meg. Ez a korpuszrész többnyire Dévainé Angeli Mariann Angol nyelvtani gyakorlatok és Dohár Péter Kis angol nyelvtan című könyvének különálló párhuzamos mondataiból áll. Ezeket a könyveket nyelvvizsgára készülő hallgatók számára készítették, ezért nem túl valóságos a nyelvezete, szóhasználata. Vannak olyan mondatok, amelyek hűen tükrözik a mai angol nyelvet, ám vannak olyanok is, amik túlságosan mesterséges, „gyártott” mondatoknak tűnnek. Ezek a könyvek az angol nyelvtan sajátosságait hivatottak reprezentálni, nem a mai szóhasználatot. A nyelvtankönyvi mondatok mellett autentikus szövegek is beépültek a párhuzamos korpuszunkba, így biztosítva az egyensúlyt a mesterkélt és a természetes nyelvi szerkezetek között. Így például az Európai Unióról szóló korpuszrész anyaga a http: //europa.eu.int weboldalról és a Wikipedia weboldaláról származik, amelyek általános nyelvű és hétköznapi témájú szövegeket tartalmaznak, például az EU történetéről, zászlójáról, himnuszáról, pénzneméről stb. Két kétnyelvű magazinból (Horizon és MÁV Intercity) származó szövegek is bekerültek a korpuszba, ezeknek témaköre általában kultúra, utazás, interjúk hírességekkel, nevezetesebb városok bemutatása stb. Ezenkívül irodalmi művek is részét képezik a korpusznak. A szövegek forrása egyrészt a Hunglish korpusz irodalmi része, másrészt a Magyar Elektronikus Könyvtárban elérhető kétnyelvű szövegek, harmadrészt pedig olyan szövegek, amelyeknek angol és magyar változata is elérhető és szabadon letölthető volt a weben. A korpusz adatait az I.6. táblázat szemlélteti. Szövegek
Mondatszinkronizációs egység
tankönyvi mondatok
2.937
Európai Unióról szóló szövegek
1.518
Horizon Magazin
3.980
Resource Ingatlan Info
250
Hunglish irodalmi korpusz
53.001
egyéb
50
összesen
61.486 I.6. táblázat. A SzegedParalell korpusz felépítése
A korpuszt bekezdés és mondat szintjén párhuzamosító hibrid eljárás [141] végeredményét kézzel ellenőrizték és javították, előállítva ezzel az első kézileg ellenőr-
56
STRATÉGIAI KUTATÁSI TERV
zött angol-magyar párhuzamos korpuszt. Az adatbázis kutatási célokra ingyenesen hozzáférhető a http://www.inf.u-szeged.hu/rgai oldalon. I.3.1.2.4. Acquis. A JRC-Acquis korpusz egy ingyenes, az EU 20 hivatalos nyelvén elérhető, TEI-XML formátumú párhuzamos korpusz, amely nyelvenként csaknem 8000 dokumentumot tartalmaz. A dokumentumok jórészt jogi szövegekből állnak, és átlagosan 9 millió szövegszó hosszúságúak. A szövegek bekezdés szintű megfeleltetését két külön illesztővel is (Vanilla és HunAlign) elvégezték az összes nyelvpárra. A korpusz letölthető a http://wt.jrc.it/lt/Acquis/ címről. I.3.1.3. Magyar nyelv˝ u korpuszkezelés Az MTA Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán 2004-2005-ben készült el a Xaira korpuszindexáló és lekérdező szoftver Windows alatt futó magyar változata. A Xaira egy olyan eszköz, amely nyelvészeti adatok keresését, kivonatolását és megjelenítését teszi lehetővé XML formátumú korpuszokból. A Xaira-t eredetileg a British National Corpus lekérdezésére kezdte el fejleszteni az Oxford University Computing Services (l. http://www.oucs.ox.ac.uk/rts/xaira/). A programcsomag indexáló komponenssel való bővítése a British National Corpus lekérdezésén kívül a Nyelvtudományi Intézetben létrehozott magyar nyelvű korpusz lekérdezését is lehetővé teszi. A beépített tokenizálóra és a sokfajta lekérdezési mechanizmusra támaszkodva már minimális XML annotációval rendelkező korpuszokból is sokféle információt kérdezhetünk le. Az indexáló használata is gyors és egyszerű. A lekérdező használatát részletes magyar nyelvű súgó is segíti. A magyar változat szabadon letölthető a http://hlt.nytud.hu/xaira.html linkről.
I.3.2. Szótárak A hazai piacon jelen levő szótárprogramok nagy része nem tekinthető nyelvtechnológiai produktumnak, mindössze egy nyelvi egységeket (szavakat, kifejezéseket) tartalmazó adatbázisnak: ilyenek például a 90-es évektől széles körben használt GIB szótárak a Scriptumtól (http://www.scriptum.hu), vagy a közismert internetes Sztakiszótár (http://dict.sztaki.hu). A számítógépes lexikográfia fejlődésének köszönhetően azonban számos elektronikusan (is) elérhető intelligens szótár jött létre, melyek egy része online üzemmódban is működik. Ezeket mutatjuk be röviden a következőkben. I.3.2.1. Lexikai adatbázisok I.3.2.1.1. Akadémiai Nagyszótár. A Magyar Tudományos Akadémia 1984-es döntése értelmében az Akadémiai Nagyszótár létrehozásával kapcsolatos munkálatokat
I. MELLÉKLET – JELENKÉP
57
számítógépes korpuszból gyűjtött adatok alapján kell folytatni [104]. Az így létrejött szótár elsősorban a köz- és irodalmi nyelv, illetve kisebb részben egyéb nyelvi rétegek (tájnyelv, szaknyelv, szleng stb.) szókészletét nyomtatásban megjelent szövegek felhasználásával dolgozza fel a nyelvújítás korától napjainkig. Forrásanyaga a 27 millió szövegszónyi elektronikus Magyar történeti szövegtár, a mintegy 6 millió cédulából álló gyűjtemény, amelyet a 19. század végétől a 20. század közepéig hoztak létre, valamint egy CD-tár anyaga. 2005-ben megtörtént az 1985 és 2000 között összeállított elektronikus adatbázis kiegészítése és javítása. Az így létrejött, illetve kiegészült anyag a magyar szókincs történetének vizsgálatához és különféle szótárírási munkákhoz kínál jó alapot. Ez a nagyszótári jellegű, értelmező és történeti típusú szótár az 1772 és 2000 közötti korszak szókincsét minden eddigi szótárnál bővebb címszókészlettel és gazdagabb jelentésszerkezettel mutatja be, érzékeltetve a lexémák történeti fejlődését is. A jelentéseket példamondatokkal illusztrálja, megjelölve azok pontos lelőhelyét. Minden esetben felveszi a szótár az adott jelentés korpuszbeli első előfordulását, és a modern nemzetközi lexikográfiai gyakorlattal összhangban világosan megkülönböztetve, önálló nyelvi egységként dolgozza fel az ún. értelmezett szókapcsolatokat, idiomatizmusokat, illetve a szóadatokat. A szótár jelentős számú szaknyelvi szót is tartalmaz, s – a magyar lexikográfia történetében egyetlenként – ezeknek a szavaknak az értelmezéseit a különböző tudomány- vagy szakterület jeles képviselőivel szakmai szempontból lektoráltatja. A szótár XML formátumú adatbázisként, a szöveg tartalmi egységeinek azonosítására szolgáló nemzetközi szabvány szerint készül [105]. A nyomtatott, majd a későbbiekben elektronikus formában is megjelenő, 18 kötetesre tervezett sorozat mintegy százezer szócikkben 110 ezer címszót dolgoz fel. Az adatbázis formátum folyamatos bővíthetőséget és frissíthetőséget tesz lehetővé, illetve a legkülönfélébb szempontok szerinti keresésre, csoportosításra és összehasonlításra ad módot. Az adatbázis jelenleg nem hozzáférhető a nyilvánosság számára. A készítők elérhetősége: [email protected]. I.3.2.1.2. Értelmez˝ o Kéziszótár. Az Értelmező Kéziszótár legújabb változatára épülő lexikai adatbázis, amely nemzetközi szabványokat követő és azokat alkalmazó technológiával készült, a számítógépes alkalmazások igényeihez rugalmasan alkalmazkodó információt képes nyújtani. Az adatbázis olyan reprezentációs formalizmust használ, mely figyelembe veszi az egyes nyelvek, így a magyar sajátosságait is, és képes a szótári információt a gépi feldolgozás követelményeinek megfelelően kódolni és tárolni [100]. I.3.2.1.3. Magyar Ragozási Szótár. A Magyar Ragozási Szótár eredetileg Elekfi László [33] munkája, az Értelmező Kéziszótárhoz készített ragozási útmutató alapján készült. A magyar ragozási mintákat paradigmatáblázatokba foglalva jeleníti meg. Az Értelmező Szótár teljes szóanyagának ragozása megtalálható a szótárban. Szá-
58
STRATÉGIAI KUTATÁSI TERV
mítógépes változata a paradigmatáblákon kívül a lehetséges toldalékkombinációkat és a képzőket is tartalmazza. Lekérdezőfelületen keresztül bárki számára elérhető: http://corpus.nytud.hu/inlex/. I.3.2.1.4. Igei vonzatkeret- adatbázis. Az MTA Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán 2001 és 2004 között készült el az a magyar egynyelvű lexikai adatbázis, mely a magyar nyelv alapszókincsét alkotó szavak szintaktikai és alapvető szemantikai tulajdonságait kódolja. A lexikai adatbázis középpontjában az igei argumentumszerkezetek kódolása áll. Igevonzatnak tekintettünk minden olyan összetevőt, ami az igéhez szemantikailag nem kompozicionális módon csatlakozik, vagyis ahol az ige + vonzat egység szabályalkalmazással nem előállítható, nem megjósolható formajelentés párt alkot. Az igék lexikális jelentését a csak az adott lexikai tételre jellemző, idioszinkratikus magjelentés különbözteti meg egymástól. Így szigorú értelemben az ige szemantikai argumentumai azok az összetevők, melyeket olyan szemantikai reláció köt az igéhez, amelyet a magjelentés definiál. Például az énekel ige alanyának kimerítő szemantikai szerepe így írható le: az éneklő. A vonzatkeretek rögzítéséhez szükség volt az igei szubkategorizációban felhasznált jegyek (pl. szemantikai megkötések) kódolására az igei argumentumokat megjelenítő szófajoknál. Az adatbázis tartalmaz továbbá olyan, nem a vonzatkeretre vonatkozó lexikai információkat is, melyek elengedhetetlenek egy szabályalapú magyar mondatelemző működtetéséhez. A munkálatok kiindulópontja egy magyarról franciára fordító gépi fordítási rendszer magyar egynyelvű szintaktikai moduljának kifejlesztése volt. A kódolás alatt végig cél volt, hogy az erőforrás a lehető legkevésbé legyen alkalmazás-specifikus, hogy a későbbiekben bármilyen, magyar szintaktikai elemzést igénylő nyelvtechnológiai feladathoz (információkinyerés, számítógépes tartalomelemzés stb.) felhasználható legyen. Az adatbázis kiinduló szókincse a Magyar Nemzeti Szövegtár [153] 20.000 leggyakoribb szavát tartalmazta. Ennek a szókincsnek az igei része, vagyis a 2.800 leggyakoribb magyar ige alkotta a vonzatkeret-adatbázis alapját. Az igei szókincs minden eleme szerepel a Magyar értelmező kéziszótárban (ÉKSz), így a kódoláskor az igékhez tartozó ÉKSz definíciókat is figyelembe lettek véve. A szókincs később kibővült egy pénzügyi-gazdasági témájú MTI-rövidhírekből készült 1.5 millió szavas korpusz szókincsével, ami körülbelül 3.000 rekord hozzáadását jelentette. A 2003-as év célja az volt, hogy év végéig a feldolgozott igei szókincs az egymillió szavas, szintaktikailag annotált Szeged Treebank teljes igei szókincsét lefedje. A munkálatok 2003 decemberében fejeződtek be, az igei vonzattáblázat 6.000 rekorddal bővült. 2004 és 2007 között az NKFP 2/008/2004 magyar-angol gépi fordítórendszer [137, 138] fejlesztését célzó pályázat keretében a teljes adatbázis része lett a fordító magyar elemző és kétnyelvű moduljának. A projektum kereteiben az adatbázis valamennyi mintájának meghatározták az angol megfelelőjét. A rendszer a magyar vonzatkeretleírásokat a szintaktikai elemzéshez, míg az angol megfeleltetést a célnyelvi fordítás előállításához használja. A projekt során fontos feladat volt mind az adatbázisnak az alkalmazáshoz való igazítása, mind a – gépi fordítás céljának megfelelő szempontú
I. MELLÉKLET – JELENKÉP
59
– kibővítése. A projekt végére a magyar-angol kétnyelvű igei vonzatkeretek száma meghaladta a harmincezret. Az adatbázis kutatási célokra egyedi megállapodás megkötése után használható, érdeklődni: [email protected].
I.3.2.1.5. Magyar kiejtési szótár. A szótár készítése a BME Távközlési és Médiainformatikai Tanszék támogatásával folyik. A szóalakok állományának meghatározása elektronikus formában történt, az Internetről automatikusan gyűjtött adatokból [172], valamint az MNSZ korpuszból. A 80 millió szót tartalmazó szövegkorpuszból kiválogatott 1,8 millió különböző szóalak alkotja (szavak és azok toldalékolt formái) a kiejtési szótár kereshető szöveges állományát (ez mintegy 360 000 hagyományos szótári szót jelent azok toldalékolt alakjaival). A szótárban egyrészről szóalakra, illetve betűkapcsolatra kereshetünk, másrészről hangalakok is lekérdezhetők [3]. A szótár minden lexikai eleme tehát egy-egy szóalak, amelynek a kiejtését nemzetközi fonetikai hangjelekkel (IPA) adjuk meg, így nemzetközi értelmezése is biztosított. A szótár hangos résszel is rendelkezik, a leggyakoribb szótárelemek meg is hallgathatók (60 000 szóalak). Ez az első ilyen nagyságú és szerkezetű elektronikus kiejtési szótár a magyarra. A szótár 2010 januárjától lesz elérhető az interneten keresztül. Koordinátor Olaszy Gábor ([email protected]).
I.3.2.1.6. Kétnyelv˝ u szótárak. Az intelligens szótárak megjelenése számos újítást vont maga után a szótárak szerkezete terén. A számítógépes technológiának köszönhetően nincs szükség a hagyományos szótárakban használatos utaló szócikkre, hiszen egy lépésben el lehet érni az utalási helyet (azt a szócikket, ahol a címszóra vonatkozó tudnivalók részletesen ki vannak fejtve). A számítógépes intelligens szótárak morfológiai komponenssel is rendelkeznek: ennek köszönhetően a keresett szónak nemcsak az alapalakját, hanem bármilyen toldalékolt alakját képesek vagyunk megtalálni – így a zavar szó keresésekor találatként kapjuk a zavarba hoz, zavarba jön stb. kifejezéseket is.A többtagú kifejezések megtalálása is egyszerűsödik: a papírszótárakban eddig ezek egyetlen helyen, a kulcsszó szócikkében fordultak elő, például a kutyából nem lesz szalonna kifejezés a kutya vagy a szalonna szócikkében volt megtalálható, de csak az egyikben. A számítógép segítségével azonban akár a kutya, akár a szalonna felől közelítünk, képesek leszünk megtalálni a kifejezést. Az intelligens kétnyelvű szótárakban a címszó-szócikk párost a címszó-jelentés, címszó-szófaj, címszó-kiejtés stb. n-esek váltják fel. Ezzel a keresés rendkívül felgyorsul, ezzel együtt eltűnik a forrásnyelv és a célnyelv közti különbség: az elektronikus kétnyelvű szótárak megadják a forrásnyelvi szó célnyelvi megfelelőit, továbbá azokat a célnyelvi szócikkeket is, amelyekben egy szó a forrásnyelvi szó ekvivalense. Így a ló keresésre a magyar-angol szótárban találatként megjelennek a horse, knight, pommel horse címszavak, melyek egyben utalnak a magyar szó jelentései közti kapcsolatra is, amelyek a hagyományos szótárakból teljesen hiányoznak [110].
60
STRATÉGIAI KUTATÁSI TERV
A fenti technikákat a MorphoLogic több terméke is alkalmazza: ilyen a fordítástámogató MoBiDic programcsalád és a MoBiMouse program, illetve több nyomtatott szótár digitalizált változatát is elkészítették. I.3.2.2. Magyar nyelv˝ u ontológiák A magyar nyelvre irányuló számítógépes alkalmazásfejlesztés egyre nagyobb mértékben igényli nyelvünk szókincsének gépi eljárásokkal is kezelhető adatbázisának kialakítását. A számítógépes nyelvészetben ontológia alatt formálisan definiált fogalmak és relációk adatszerkezetét értik, melynek segítségével szemantikai következtetések végezhetők. A számítógépes ontológiák egyik fontos alosztályát alkotják tehát az ún. nyelvi ontológiák. Nemzetközi téren az egyik legjelentősebb ontológiai adatbázist az ún. wordnetek alkotják. A wordnetek eredetileg az emberi lexikális memória számítógépes modelljéül szolgáltak. A Princeton Egyetem kognitív tudományi műhelyében dolgozó pszicholingvisztikai szakemberek indították útjára. Számítógépes szempontból nézve a wordnet egy masszív és jól strukturált adatbázis, amelyben szavak és jelentések ezrei szerveződnek szemantikai hálózattá [85]. A wordnet projektek célja az volt, hogy egy úgynevezett nemzetközi nyelvi index (ILI – International Language Index) segítségével átjárhatóságot biztosítsanak a rendszert alkotó különböző adatbázisok között: a Princeton WordNet (angol) [85], az EuroWordNet (holland, spanyol, olasz, német, francia, cseh, észt) [17], a BalkaNet (bolgár, román, török, görög, szerb) [148] projektek mellett más nyelvekre is folyamatosan épülnek wordnetek a világban például arab, horvát, kínai, dán, szlovén, lengyel, orosz, perzsa és különféle afrikai és indiai nyelvekre [131]. A WordNethez hasonló ontológia a FrameNet, amely szemantikus keretekre épül: az angol változat közel 10000 lexikai egységet és 800 szemantikai keretet (azaz egy esemény leírását) tartalmaz. Emellett létezik német, spanyol és japán FrameNet is [113]. I.3.2.2.1. Magyar Egységes Ontológia. A vállalatok közönségkapcsolati gyakorlatában nap mint nap értékes tudás keletkezik, melyet rögzíteni érdemes a vállalati tudástárakban, hogy a következő alkalommal már bármelyik közönségkapcsolati munkatárs hasznosítani tudja azt. Az ilyen, folyamatosan épített tudásbázis működtetéséhez azonban szükség van olyan ontológia alapú tudásmenedzsment-képességekre is, amelyek a tudástár gyakorlati, tényszerű információinak összerendelését, integrálását, rendszerezését teszik lehetővé. A BME MOKK, BME TMIT, a MorphoLogic, a Scriptum, az ALL, a Szegedi Tudományegyetem és a Nyelvtudományi Intézet közreműködésével létrejött MEO projekt közvetlen célja az effajta közönségszolgálati tevékenység intelligens, gépi támogatása volt a távközlés területén. A projekt közvetett célja egy olyan egységes nemzeti ontológiai keretrendszer megteremtése volt, mely szabadon felhasználható csúcsontológiát és távközlési közönségszolgálati szakontológiát tartalmaz, illetve nyílt, szabadon felhasználható ontológiainfrastruktúrára épül
I. MELLÉKLET – JELENKÉP
61
(ontológiamenedzsment módszertannal, ontológiakezelési eszközökkel, praktikus útmutatókkal rendelkezik, és biztosítja a keretrendszer fenntartásához szükséges kooperációs intézményrendszert is) [121]. Az alkalmazás prototípusa a Protégé ontológiamenedzsment program keretében készült el: egyrészt ebben a keretrendszerben épült fel a szakontológia, másrészt ebben a környezetben hozta létre a konzorcium azt az alkalmazási logikát, amely a közönségszolgálati (call center) tevékenység támogatását tette lehetővé. A szoftver fejlesztése két külön ágra bontható: ! egy ontológiaépítő felület készítése (amely a tudásbázis felépítését, betöltését és elmentését teszi lehetővé; ez a fejlesztési modul a Protégé által biztosított funkciók kis mértékű átalakításával, illetve testre szabásával valósult meg) ! a következtető motor implementálása (az elfogadható sebesség biztosítása érdekében, illetve a valószínűséges következtető rendszerek hiánya miatt új következtető rendszer létrehozására volt szükség: a következtető gép a Protégébe épülő modul (plug-in) formájában van jelen). Különböző forrásokból összegyűjtve kialakult egy egységes, a program működését a lehető legnagyobb mértékben támogató távközlési szakontológia. A szakontológia néhány alapvető fogalomra épül, a hozzá tartozó program ezeket használja. A szakontológia felépítésében a fő vázat a generikus hierarchia alkotja, annak egy – az elején még kevésbé részletezett – váza készült el először, majd folyamatosan, a szisztematikus tudásbázis-keresés következtében kibővült egy több mint 450 osztályból álló ontológiává. Az osztályok között – a generikus kapcsolatokon túl – több mint 100 kapcsolat épült ki. I.3.2.2.2. Magyar WordNet (HuWN). A Magyar WordNet létrehozására irányuló projekt célja az EuroWordNet nyelvi ontológia eredményeire és formalizmusára építő, szemantikailag strukturált, általános célú fogalomtár létrehozása a magyar nyelvre volt, majd ennek kiegészítése egy speciális az üzleti szaknyelv kifejezéseit tartalmazó területspecifikus ontológiával. A projektben a Szegedi Tudományegyetem, a Nyelvtudományi Intézet és a MorphoLogic Kft. munkatársai vettek részt. A projekt fő eredménye egy nagyméretű, erősen strukturált természetes nyelvi fogalomtár létrehozása, melynek elérése több fontos tudományos és műszaki probléma megoldását jelenti. A tudományos eredmények tekintetében külön érdemes hangsúlyozni, hogy a fejlesztések a magyar nyelv szemantikai tartományához tartoznak, egy olyan nyelvéhez, amely tipológiailag, morfológiailag stb. jelentős mértékben eltér az eddigi nemzetközi kutatások többségének tárgyát képező európai nyelvektől. A HuWN projekt keretében létrejött adatbázis összesen több mint 42000 synsetet (fogalmat) tartalmaz a következő megoszlásban: kb. 34000 főnév, kb. 3300 ige, 4000 melléknév és 1000 határozószó. Az üzleti szakontológiát 2800 synset alkotja [84]. 2008 folyamán a Szegedi Tudományegyetem Informatikai Tanszékcsoportja és Alkotmányjogi Tanszéke közti együttműködéssel létrejött egy másik szakontológia, a jogi
62
STRATÉGIAI KUTATÁSI TERV
wordnet (JurWN), mely elsődlegesen vámjogi fogalmakat tartalmaz. A létrejött adatbázis jelenleg kb. 650 synsetből áll [15]. Mivel a wordnet szerkezete sokkal összetettebb, mint egy egyszerű szótáré vagy tezauruszé, hasznosítási lehetőségei is sokkal gazdagabbak. A magyar anyanyelvű beszélők mentális lexikonjának modelljeként a Magyar WordNet igen nagy mértékben segítheti az iskolai nyelvtanoktatást, a többi wordnethálózattal való szabványosított kapcsolatrendszere pedig az idegennyelv-oktatásban való felhasználhatóságát biztosítja. Így például a tanult idegen nyelv lexikális anyagának helyes elsajátítását nagyban elősegíti a tanuló anyanyelve és a célnyelv közötti lexikális különbségek és hasonlóságok megvilágítása. Ezen kívül a wordnet fogalmi hálója a magyar nyelvvel kapcsolatos pszicholingvisztikai kísérletekben is jelentős szerepet tölthet be. A tisztán tudományos felhasználhatóságon kívül a Magyar WordNet elektronikus alapú nyelvtechnológiai alkalmazásai új távlatokat nyithatnak meg. A különböző keresőmotorok keresési hatékonyságát jelentősen megnöveli, ha ezek az eszközök megbízható módon hozzáférnek a keresőkifejezés szemantikai környezetéhez is, amely a felhasználók igényeit jobban kielégítő keresők kifejlesztéséhez vezet. Ezen kívül jelentősen növelheti az automatikus információkinyerők, illetve gépi fordítórendszerek hatékonyságát is, ahol ugyancsak a szemantikai attribútumok adnak olyan többletet, amellyel az információk, illetve fordítandó szövegek tartalmát is figyelembe tudják venni az automatizmusok [174]. A Magyar WordNet a European Language Resources Association (ELRA) szervezet terjesztésében bárki számára hozzáférhető lesz, térítési díj ellenében.
I.3.3. Nyelvi szintek számítógépes kezelése I.3.3.1. Szövegek szegmentálása A számítógép számára a beadott adathalmaz - nyelvtechnológiai eszközök alkalmazása nélkül - pusztán karakterek egymásutánisága. Azt a folyamatot, amikor ezt a karaktersorozatot nyelvi információt hordozó, a későbbi feldolgozás számára releváns egységekre bontjuk, szegmentálásnak/tokenizálásnak nevezzük. Alapesetben egy szegmentáló/tokenizáló eszköz a bemenő folyó szöveg mondatokra tagolását és a mondatok egyes szavakra bontását végzi. Többféle tokenizáló architektúra létezik, többségük egyszerű reguláris nyelvtanokat és segédlexikonokat használ a mondatvégződések és bizonyos reguláris kifejezésekkel jól megragadható tokenszekvenciák azonosítására (pl. dátumok, számok). I.3.3.1.1. MtSeg. Magyar szövegek tokenizálására a legkorábban használt általános eszköz a Multext projektumban [59] kifejlesztett MtSeg szegmentáló, melyhez magyar kiegészítő nyelvtanok és segédlexikonok (pl. rövidítéslisták) készültek. A program a HunTokenhez hasonló funkcionalitással rendelkezik, de fejlesztése már lezárult, így
I. MELLÉKLET – JELENKÉP
63
használhatósága nagyon korlátozott. A Magyar Nemzeti Szövegtár anyagának elemzésében használták, és a Nyelvtudományi Intézet egyértelműsítő programláncában is ez a szegmentáló modul. I.3.3.1.2. HunToken. A számítógépes szövegfeldolgozás első lépéseként a szöveget bekezdésekre, majd mondatokra, illetve szavakra kell bontani. Ehhez nyújt segítséget a HunToken program [53]. A program a természetes nyelvű magyar szövegeket mondatokra és tokenekre (szavakra) bontja. Lexikonépítéshez, információvisszakereséshez, szövegbányászathoz és sok egyéb természetes nyelvfeldolgozó alkalmazáshoz is használható (például ezzel készült a Hunglish korpusz és a Magyar Webkorpusz is). Néhány fontosabb tulajdonsága: ! 98% pontossággal megállapítja a helyes mondat és szóhatárt (Szeged Korpusz 1.0-n mérve); ! normalizálja a szóközöket, felismeri a paragrafus határokat; ! kezeli a leggyakoribb rövidítéseket, a számokat, felsorolásokat; ! nem vágja el a kötőjellel, perjellel stb. egybe írt többszavas kifejezéseket; ! több ún. nyílt tokenosztályt kezel, úgymint url-ek, ISBN számok, dátumok stb.; ! kezeli a mondaton belüli idézést, és dialógusokat; ! Unix, Mac Os X, Windows rendszer alatt használható; ! LGPL licenc alapján szabadon felhasználható; ! letölthető a http://mokk.bme.hu/resources/huntoken címről. I.3.3.1.3. ToolChain. A Szegedi Tudományegyetemen kifejlesztett, ún. ToolChain elemző is tartalmaz egy bekezdésekre, mondatokra, illetve szavakra szegmentáló modult [14]. I.3.3.1.4. MetaMorpho. A MorphoLogic fejlesztésében létrejött MetaMorpho mondatelemző a mondat- és kifejezésszegmentálás problémáját is kezeli. A rendszer érdekessége, hogy a mondatok szegmentálását a morfológiai elemzés (rövidítések azonosítása stb.) után végzi. A kifejezések szegmentálása pedig a morfológiai elemzés alapján, a szintaktikai szerkezet azonosításával történik [112]. I.3.3.2. Morfológia Amennyiben a szövegállomány már szavakra van bontva, következhet a szavak tőre és toldalékokra való bontása. Ebben kulcsszerepük van a különféle morfológiai, illetve morfoszintaktikai elemző- és egyértelműsítő programoknak. A következőkben néhány ilyen, magyarra kifejlesztett programot mutatunk be.
64
STRATÉGIAI KUTATÁSI TERV
A szövegszavakat a gépi elemzés megkezdéséhez először is elemeire – szótőre és toldalékokra – kell bontani. Ha a szavak szótári alakjukban szerepelnek, akkor egy megfelelő szótár segítségével könnyű a feldolgozás. Ez azonban a legritkább esetben van így: a magyarban, mint más agglutináló nyelvekben a szavaknak több száz alakjuk fordulhat elő, így nem járható az az út – vagy legalábbis nem gazdaságos –, hogy a szavak összes alakja szerepel a szótárban (mint ahogy azt az angol nyelvi morfológiai elemzők esetében hosszú ideig előfordult). Ehelyett szükség van egy olyan formalizmusra, amely lexikont és szabályokat tartalmaz: a lexikonban szótövek és toldalékok találhatók, a szabályok pedig megmondják, hogy a nyelvi elemek lexikális (szótári) reprezentációi és a szóalakok felszíni reprezentációi hogyan függenek össze. Ezek alapján lehet létrehozni egy morfológiai elemző programot [107]. A morfológiailag szegényebb nyelvek esetén (például az angolban) körülbelül 50150 lehetséges morfológiai kódot szoktak megkülönböztetni, míg agglutináló nyelvek esetében ez a szám több ezer is lehet. A morfológiai egyértelműsítésre használt programok ma leginkább a rejtett Markov-modellre épülnek, és pontosságuk 95% körüli (http://en.wikipedia.org/wiki/Part-of-speech_tagging). I.3.3.2.1. Humor. Az egyik első, magyarra kifejlesztett morfológiai elemző a MorphoLogic által kifejlesztett Humor volt [111]. A morfológiai adatbázis az Értelmező Kéziszótár anyagából indul ki, de a nyelvi adatbázisa azóta is folyamatosan fejlődik. A program több a produktív alaktani szabályoknak köszönhetően képes elemezni valamennyi ismert magyar szóalakot. A magyar morfológia viszonylagos bonyolultságából adódóan az elemző program más nyelvekre is alkalmazható, így számos nyelvre létezik HuMor formátumú morfológiai leírás pl.: angol, német, román, lengyel stb. A programot számos cég integrálta, pl. Microsoft, IBM, Xerox stb., így ez a program működteti a Microsoft Word beépített helyesírás-sellenőrzőjét is. További Humor elemzésre épülő, jelenleg is üzemelő alkalmazások: szótövesítő-, elválasztó-, szintaktikai elemző- és fordítóprogramok. I.3.3.2.2. Xerox elemz˝ o. A Xerox véges állapotú eszközkészletében implementált magyar morfológiai elemzőt a Xerox 90-es évek végén készítette el, tesztelésében a Nyelvtudományi Intézet is közreműködött. Az eszközkészlet azóta kutatási célokra szabadon hozzáférhető, a nyelvi forrásfájlok és a lefordított automata azonban továbbra is zárt maradt, így az elemző csak a Nyelvtudományi Intézetben futtatható, kutatási célokra azonban külön megállapodás alapján hozzáférhető ([email protected]). I.3.3.2.3. hunpos. A BME MOKK fejlesztése a hunpos, egy ingyenes és nyílt forráskódú HMM alapú szófaji egyértelműsítő [54]. A hunpos egy nyílt forráskódú implementációja a TnT-nek, a Thorsten Brants által kifejlesztett ismert szófaji egyértelműsítőnek. Ingyenes és nyílt forráskódú, akár kereskedelemi / ipari használatra is. A bonyolultabb morfológiával rendelkező nyelvek esetében a HMM alapú egyértelműsítés
I. MELLÉKLET – JELENKÉP
65
versenyképesnek bizonyul a többek között SVM vagy CRF módszereken alapuló tanuló algoritmusok jelenlegi generációjával szemben. A módszer legfőbb előnye, hogy a tanuló / egyértelműsítő ciklus nagyságrendekkel gyorsabb, mint a bonyolultabb modellek esetén. Nagyméretű kódhalmazon is eredményesen dolgozik. Az ismeretlen szavak morfológiai kódjának minél pontosabb megállapítása volt az elsődleges cél a hunpos kifejlesztése során. A magyarban, mint más erősen ragozó nyelvekben igen fontos megőrizni a részletes morfológiai információkat a szófaji kódokban annak érdekében, hogy a magasabb rendű feldolgozási feladatokban is hasznosíthatóak legyenek. Ez az angolban használatosnál jóval nagyobb kódhalmazhoz vezet (744 címke az angol treebankekben rendszerint alkalmazott 36-hoz képest), azonban ez nem válik a tanítás és az egyértelműsítés hátrányára, noha a nem generatív modellek tanító folyamatát számítási szempontból megdrágítja. A hunpos OCaml nyelven készült, egy magasrendű nyelven, mely támogatja a tömör, könnyen érthető kódolási stílust. A hunpos program és nyelvi erőforrásai a http://mokk.bme.hu/resources/hunpos címről tölthetők le. I.3.3.2.4. hunmorph. A hunmorph egy nyílt forráskódú eszköz és programkönyvtár, amely helyesírás-ellenőrzésre, szótövesítésre és morfológiai elemzésre használható agglutináló nyelvekben (például a magyarban), a németben és más nyelvekben [147]. A BME MOKK munkatársai 2003 óta dolgoznak egy magyar nyelvre épített morfológiai elemzőn. Először a MySpell kódalapját bővítették, mely az ismert Ispell helyesírásellenőrző implementációja, ezáltal egy általános szóelemző könyvtárat hoztak létre. E ponton a könyvtár további fejlesztése kettéágazott. Jelenleg a kiterjesztett Myspell a HunSpell névre hallgat, és az OpenOffice.org többnyelvű irodai programcsomag része. A hunmorph pedig a morfológiai elemzésre hangolt program. A hunmorph keretrendszer három fő részből tevődik össze: ! Az ocamorph futás idejű elemző egy nyelvfüggetlen affixumeltávolító implementáció. ! A morphdb.hu [146] egy lexikai adatbázis és morfológiai nyelvtan, amelyet az ocamorph használ. ! A hunlex [145] egy offline erőforrás-menedzser komponens, amely a runtime szint hatékonyságának növelését segíti azzal, hogy egy magas szintű leíró nyelvet és megfelelő konfigurálhatóságot lehetővé tevő előfordítót biztosít a számára. Az ocamorph elemző úgynevezett aff/dic fájlokat, ember által nem olvasható nyelvi erőforrásokat használ (az OpenOffice.org MySpellje is ezt a formátumot alkalmazza). Az aff/dic fájlokat a hunlex lexikonfordító állítja elő a morphdb.hu erőforrásaiból. A fájlok platformfüggetlenek, így ezzel a disztribúcióval együtt kerülnek forgalomba: ha el akarjuk kerülni a lexikon vagy a nyelvtan módosítását, nem szükséges a hunlexet használni a létrehozásukhoz. A hunmorph forráskódja a http://mokk.bme.hu/resources/hunmorph, a morphdb.hu lexikai adatbázis és morfológiai nyelvtan pedig a http://mokk.bme.hu/resources/ morphdb.hu oldalról érhető el.
66
STRATÉGIAI KUTATÁSI TERV
I.3.3.3. Egyértelm˝ usítés I.3.3.3.1. Szófaji egyértelm˝ usítés az MNSZ- ben. A Magyar Nemzeti Szövegtár egyértelműsítéséhez használt programláncot a Nyelvtudományi Intézet fejlesztette ki 2002ben, az akkor nemzetközi szinten is versenyképes technológia alkalmazásával. A programlánc az MtSeg tokenizálót, a HUMOR morfológiai elemzőt, a TnT egyedileg módosított és finomhangolt változatát, illetve egy szabály alapú szűrőt tartalmaz [98]. A morfológiai elemző és az egyértelműsítő hatékony összekapcsolását egy saját fejlesztésű eljárás biztosítja [99]. Demó változata elérhető a http://corpus.nytud.hu/ postag/ honlapon, kutatási célokra külön megállapodás alapján használható, bővebb információ a [email protected] címen kérhető. I.3.3.3.2. Szófaji egyértelm˝ usítés a Szeged Korpusz alapján. A Szeged Korpusz részben a szófaji egyértelműsítést támogató adatbázisként jött létre. A Szeged Korpuszban kézzel vannak egyértelműsítve a szövegszavak: adott környezetben adott morfológiai kódot viselnek. A korpusz teljes állománya az MSD-kódrendszernek megfelelő kódokkal van ellátva, és XML formátumban készült (bővebben ld. I.3.1.1.4.). A korpusz így tanuló adatbázisként szolgálhat egy szófaji egyértelműsítést végző program kifejlesztéséhez. I.3.3.4. Szintaxis A szintaxis a nyelvészetnek a mondatok belső szerkezetét leíró tudományága. A szintaktikai elemzőprogramok ezeknek az összefüggéseknek feltárására szolgálnak. Ezek a programok a grammatikai és lexikális adatbázisuk segítségével próbálják meg ábrázolni a szavak, kifejezések és egyéb mondatrészek egymáshoz való viszonyát. Az elemzés eredményét általában egy elemzési fával reprezentálják. Szintaktikai elemzésre épülnek a szavak szintjénél mélyebb elemzést igénylő nyelvészeti feladatok, mint a gépi fordítás, az természetes nyelvű ember-gép kommunikáció, a tartalomkivonatolás stb. A nyelv szintaktikai feldolgozásához egyik legtöbbet használt keret a frázisstruktúranyelvtan, de más elméleti keretek alkalmazása is előfordul, például lexikális-funkcionális nyelvtan (LFG), illetve fejvezetett frázisstruktúra-nyelvtan (HPSG). Manapság egyre elterjedtebb a dependencianyelvtanok használata is: például a CoNLL 2007 konferencia versenyfeladványa a függőségi struktúrák gépi tanulása volt. A versenyben egymástól tipológialiag rendkívül eltérő nyelvekre készített adatbázisok vettek részt (arab, baszk, katalán, kínai, cseh, angol, görög, magyar, olasz, török) – az eredményekről ld. [91]. Míg a konstituensfákat alkalmazó nyelvtanok az olyan nyelvek leírására használható jól, ahol a szavak egymásmellettisége a fontos (vagyis kötött szórendű nyelvekről van szó), addig a függőségi fákra épülő nyelvtanok esetében nincs ilyen megkötés: egyformán jól használható a szabad és kötött szórendű nyelvek szintaktikai leírására.
I. MELLÉKLET – JELENKÉP
67
A manapság használatos szintaktikai parserek többsége statisztikai alapú: kézzel annotált tanító adatbázisból kivont szabályok segítségével működnek, és többségükben lexikális információkat is felhasználnak, például szófaji információkat. Top-down és bottom-up módszert használó parserek egyaránt találhatók a világban. Az elemzők teljesítményét befolyásolja a nyelv, a szintaktikai jelölés mélysége és az elméleti keret is, ám összességében mégis 75-85% körül teljesítenek (vö. CoNLL 2007 eredményei). I.3.3.4.1. HumorESK. Az HumorESK mondatelemző a Humor szóalaktani elemző alkalmazási kísérlete volt szintaktikai elemzés céljára 1998-ban. Az eljárás a mondatelemzést három szintre osztotta, egy névszói szerkezeteket, egy igei vonzatkereteket és egy mondatszintet kezelő szintre. Minden elemzési szinten a Humor morfológiai elemző hívódott meg, így az inputot mindig betűsorozatok alkották. A névszói szerkezetek elemzésekor például a terminális szimbólumok szófajszimbólumai alkották ezeket a betűket. Például a "a nagy fekete kutya" névszói szerkezet reprezentációja a "DAAN" karaktersorozattal történt (Det+Adj+Adj+Noun). A HumorESK elemzőhöz demó szintű magyar nyelvtan is készült. I.3.3.4.2. MetaMorpho. A MetaMorpho szintaktikai elemző (és generáló) rendszer a magyar és angol szövegek elemzésére alkalmas. A program a MorphoLogic fejlesztése, amelynek fejlesztése számos korábbi eredményt (morfológiai elemző stb.) felhasználva 2000-ben kezdődött, ma is tart, és az eddig ráfordított munka alapján a legnagyobb volumenű magyar nyelvészeti projekt. A program működési elvét, rendszertervét és a formalizmusának leírónyelvét Tihanyi László dolgozta ki [112]. Az első keretrendszert Endrédy István (MorphoLogic) implementálta, ugyancsak az ő javaslatára a mondatelemzést egy Lisp alapú szakértői rendszer, a CLIPS látta el. A rendszer működőképességének bizonyítása után szükségessé vált egy hatékonyabb parser modul kifejlesztése, melyre Kis Balázs (MorphoLogic, Kilgray) kapott megbízást. Az elemző elkészítése azonban elhúzódott, eközben egy másik implementáció is megszületett, melyet Ugray Gábor (MorphoLogic, Kilgray) írt és a Moose nevet kapta. Ez a megoldás került a fordítóprogramba, Kis Balázs implementációja pedig a HumorESK (2) néven vált ismertté. Ez a névválasztás máig sok keveredést okoz. A két MetaMorpho parser implementáció párhuzamos fejlesztése azonban felesleges fenntartási költségeket jelentett, így a HumorESK néven ismert implementációt megszüntették. Ma már mind mondatelemzési, mind fordítási feladatokat ugyanaz a MetaMorpho Moose parser szolgálja ki. Az elemző működési elve a fordítóprogramok MetaMorpho c. fejezetében ( I.3.4.3.1.) részletesen ismertetésre kerül. Az elemzőre tetszőleges magyar vagy angol nyelvfeldolgozási feladat építhető. A együttműködésre offline módon az XML eredményre építve, de beépítve C++ nyelven, a program API-ján keresztül is lehetőség van, a MorphoLogic nyitott ezekre az együttműködésekre.
68
STRATÉGIAI KUTATÁSI TERV
I.3.3.4.3. hunpars. A hunpars projekt célja egy nyílt forráskódú elemző alkalmazás létrehozása volt, amely automatikusan végzi el bármilyen értelmezhető magyar mondat szintaktikai elemzését, konkrétan a mondatot alkotó szócsoportok és azok egymáshoz való viszonyának azonosítását. Az elemzőt egy többkomponensű rendszer részeként kell elképzelni: a fejlesztés alatt álló modul bemenete egy előzőleg tokenizált mondat, amelyben a szavak morfológiai jegyeikkel felcímkézve szerepelnek. A szintaktikai elemzés szabályalapú: elsősorban egy szintaktikai kategóriákra épülő frázisstruktúra-nyelvtan és kiegészítésként különböző lexikális tárak felhasználásával valósul meg [124]. A hunpars letölthető a http://mokk.bme.hu/resources/hunpars oldalról. I.3.3.4.4. NooJ NP- chunker és szintaktikai elemz˝ o. Az NP-chunker-t és szintaktikai elemzőt az MTA Nyelvtudományi Intézetének Nyelvtechnológiai Osztályán fejlesztették 2002-2008 között [44, 45]. A részleges szintaktikai elemzést végző nyelvtan a NooJ nyelvfeldolgozó környezetben lett implementálva, mint véges állapotú transzducerek halmaza, amely nyelvészek által kézzel írott szabályok sorozatából áll. A fejlesztés évei során a nyelvtanokat különböző projektekben (információkinyerés, prozódiai elemek automatikus annotálása, tartalomelemzés) és különböző korpuszokon teszteltük. Alapvető részei a mondat- és tagmondatszegmentálás, az NP-felismerés [154] alapján, az egyéb (névszói, határozói) összetevők felismerése és címkézése, valamint az igei predikátum azonosítása. Az igei vonzatkeret automatikus felismerése jelenleg fejlesztés alatt áll. A morfológiai elemzést a NooJ magyar morfológiai modulja végzi, így az elemző ennek kimeneti kódjaira épül. Az elemzés bemenetét tetszőleges magyar nyelvű nyers szöveg, vagy NooJ-kompatibilis XML formátumú szöveg adja, kimenete pedig XML formátumban exportálható. Regisztrációt követően az elemző ingyenesen hozzáférhető (http://corpus.nytud.hu/nooj/). I.3.3.4.5. Mazsola. A Magyar Nemzeti Szövegtárban (ld. I.3.1.1.1.) található igék vonzatkeretét, bővítményeit, az egyes igék adott morfoszintaktikai pozícióban megjelenő jellemző kollokációit a „Mazsola” korpuszlekérdező eszközzel lehet vizsgálni [115, 118]. Ehhez az eszközhöz szükség volt az MNSZ teljes anyagának részleges szintaktikai elemzésére, kiegészítő annotálására: a tagmondatok [114], igetövek és névszói frázisok azonosítására. Ez az annotáció egyszintű dependenciaannotációnak felel meg, és tisztán automatikus úton történt egy reguláris kifejezésekre épülő, szabályalapú elemzővel. A Mazsola hasznosnak bizonyult lexikai adatbázisok – így a MetaMorpho fordítóprogram (ld. I.3.4.3.1.) igei adatbázisa, illetve a magyar WordNet (ld. I.3.2.2.2.) – építése során. Hasznos segédeszköz lehet az anyanyelvi nevelésben, valamint a magyar mint idegen nyelv oktatása során. Ingyenes regisztráció után elérhető a http://corpus.nytud.hu/mazsola címen. I.3.3.4.6. Mondattani elemzés a Szeged Treebanken. A magyar mondatok struktúráját vizsgáló kutatásokban komoly erőfeszítések történtek egy konzisztens szintaktikai
I. MELLÉKLET – JELENKÉP
69
szabályrendszer kialakítására. Reális igény mutatkozott tehát egy olyan technológia kifejlesztésére, amely egy tetszőleges magyar nyelvű szöveget a célnak megfelelő szintaktikai egységekre bont, felismeri azok struktúráját, és a felismerés alapján az egyes szintaktikai egységeket annotált mondatfával reprezentálja. Ilyen, ún. treebank reprezentáció a legtöbb nyugat-európai nyelvre, de számos közép-, ill. kelet-európai nyelvre már létezik. Egy korábbi projekt során a Szegedi Tudományegyetem, a MorphoLogic Kft. és a Nyelvtudományi Intézet együttműködésének célja egyrészt a magyar nyelv szintaktikai sajátosságait reprezentáló referencia adatbázis (magyar nyelvű treebank) kialakítása, másrészt egy általánosan alkalmazható szintaktikai elemző rendszer létrehozása volt magyar nyelvre, gépi tanulási módszerek támogatásával. A kutatás-fejlesztési tevékenység során a konzorcium olyan elemzőrendszer kifejlesztésére törekedett, amely ugyanazt az eredményt tudja nyújtani, mint egy manuálisan elvégzett elemzés [30]. A referencia-adatbázis kialakításához kiindulásként a Szeged Treebank 1.0 szolgált. A konzorcium nyelvész szakértői a modell kidolgozásakor figyelembe vették a későbbi informatikai célú felhasználást. A modell elméleti háttere a magyar generatív szintaxis mondatelemzési mechanizmusára épül. Az elmélet alapján elkészített annotációs módszer kiterjed a határozói szerkezetek (ADVP), jelzős szerkezetek (ADJP), névutós szerkezetek (PP), az igeneves szerkezetek (PA, INF), továbbá a tagadószók, igekötők, igék és kötőszavak jelölésére. A treebank újabb verziójának kialakítása a hagyományos (PennTreebank) módszert követve egy automatikus előannotálási és egy ezt követő kézi ellenőrző és javító szakaszból állt. Az annotálási munka elsősorban a főnévi csoportként korábban nem azonosított mondatszintű bővítmények (határozószói, jelzős, névutós szerkezetek, elváló igekötők) bejelölését, továbbá az igéknek és igeneveknek az azonosítását foglalta magába. Ezen kívül az annotálók elvégezték a korábban bejelölt főnévi csoportok belső szerkezetének finomítását is. A szintaktikailag részletesen annotált Szeged Treebank referencia-adatbázisként szolgál további természetes nyelvi feldolgozással foglalkozó kutatásokhoz. A korpuszfájlok formátuma XML (http://www.xml.org), belső szerkezetüket pedig a TEI (xLite, ill. P4) DTD (Document Type Definition) (http://www.tei-c.org) írja le. A treebank elkészülte után került sor a szintaktikai elemző programhoz nélkülözhetetlen szabályrendszer kialakítására. A szintaktikai szabályrendszer kialakításakor a pályázók a már publikált forrásmunkákra és meglévő elméletekre támaszkodtak és egy olyan szabályrendszer kialakítására törekedtek, amely egy informatikai rendszerekben is implementálható rendszert alkot. Éppen ezért az elemzőt működtető szabályrendszert két fő forrásból állították össze. A szabályok egy részét a konzorcium nyelvész szakértői készítették el. Az így definiált szakértői szabályokat az annotált treebankből számítógépes tanulási módszerekkel kinyert szabályokkal egészítették ki. A pályázat egyik legfontosabb eredményének éppen ez a technológia tekinthető, amely nem csupán emberi kreativitást, hanem gépi tanulási módszereket is felhasznál a szintaktikai szabályok pontosítására. A technológia fejlesztésénél további célkitűzés volt, hogy a lehetőségekhez mérten
70
STRATÉGIAI KUTATÁSI TERV
minél több nyelvfüggetlen elemet tartalmazzon, így mód nyíljon más nyelvi környezetekben történő adaptálásra is [55]. I.3.3.5. Szemantika Az alacsonyabb nyelvi szintek (szegmentálás, morfológia, szintaxis) eredményes feldolgozása után a következő célt a szövegek jelentésének számítógépes megragadása jelenti. A szemantikus tartalom megfelelő számítógépes kezelése talán a legnagyobb kihívás az eddigiek közül. Ennek egyik oka, hogy a számítógépes szemantika problémáinak megoldása már előfeltételezi az alacsonyabb nyelvi szintek megfelelő kezelését. Egy másik ok a jelentés fogalmának viszonylagos tisztázatlansága. De amilyen nehéz ez a feladat, olyan fontos is: példaképpen hivatkozhatunk az információkinyerés vagy a gépi fordítás minőségének javítására, továbbá a szemantika számítógépes kezelésére szükség van a szemantikus web kialakítása során is. I.3.3.5.1. Lexikális szemantika. A számítógépes szemantika területei közül most a lexikális szemantikához kapcsolódó kutatásokat emeljük ki. Az MTA Nyelvtudományi Intézetének Nyelvtechnológiai Kutatócsoportjában folyó munka eredményeképpen az INTEX/NooJ fejlesztői környezetben elkészült egy szabályrendszer, amely a nyelvtani elemzéssel párhuzamosan szemantikai szerepeket rendel a mondatokban előforduló főnévi csoportok egy részéhez, ezáltal bizonyos főnévi csoport szerepő összetevők mondatban betöltött szerepe automatikusan meghatározhatóvá válik [42]. Az Osztályon folyó kutatások egy másik iránya a megfelelő szemantikai szerepek korpuszalapú, statisztikai meghatározása [43, 117]. I.3.3.5.2. Jelentés- egyértelm˝ usítés. A jelentés-egyértelműsítés (Word Sense Disambiguation, WSD) problémája alatt a szövegekben előforduló többértelműségek (homonímia, illetve poliszémia) feloldásának feladatát értjük. A többértelműség feloldásának problémája egyidős a gépi szövegfeldolgozással, és a legtöbb nyelvtechnológiai alkalmazás (pl. szövegmegértés, ember-gép párbeszéd, gépi fordítás, információvisszakeresés, illetve -kinyerés) számára fontos köztes feladat. A kezdetben angolra, majd később más nyelvekre folytatott jelentés-egyértelműsítési kutatások nagyrészt kapcsolódtak az ACL-SIGLex által szervezett SensEval [62, 80] workshopokhoz. A 2006-ban megjelent Word Sense Disambiguation [4] című tanulmány, valamint a SensEval sorozat folytatásaként 2007-ben megrendezett SemEval workshop kiadványa [5] részletes áttekintést ad az eddigi eredményekről. Az angol–magyar, illetve magyar– angol fordítórendszerek fejlesztése kapcsán hosszú ideje foglalkoznak a jelentésegyértelműsítési feladatokkal magyar nyelven, a fordítórendszer eredményének javítása érdekében [81, 82]. A jelentés-egyértelműsítő eljárások az alkalmazhatóságuk határai alapján és a jelentésmegkülönböztetés foka szerint két-két főbb csoportra oszthatók. Hatókör tekintetében a teljes szókincsre alkalmazható (all-words WSD) és előre megadott szóalako-
I. MELLÉKLET – JELENKÉP
71
kon működő (lexical sample WSD) módszereket különböztethetünk meg, míg a jelentésmegkülönböztetés részletessége szerint aprólékos vagy finom (fine grained), illetve durva (coarse grained) szinteket különböztethetünk meg. Az SZTE munkatársai egy finom jelentésmegkülönböztetést tartalmazó WSD-korpuszt építettek (ld. I.3.1.1.6.), amely jól használható magyar nyelvű WSD-algoritmusok fejlesztéséhez [173]. I.3.3.5.3. GeLexi. A Pécsi Tudományegyetem munkatársai dolgoznak egy totálisan lexikalista alapú gépi fordítórendszeren (GeLexi projekt). A program újdonságát az jelenti, hogy a szintaktikai mellett szemantikai reprezentációt is képes társítani a mondatokhoz a ReALIS diskurzusszemantikai keretben [9], így géppel segített fordításként tud funkcionálni. A program nem nyelvspecifikus – ez azt takarja, hogy bármely nyelvről képes bármely nyelvre fordítani, ha azok lexikai egységét és tulajdonságait tartalmazza az elemző [6, 7, 8].
I.3.4. Alkalmazások I.3.4.1. A számítógépes morfoszintaxis alkalmazásai A fent leírt programok, illetve rendszerek számos, gyakorlatban is hasznosítható alkalmazásba illeszthetők bele, és hasznosíthatók a mindennapi életben: elsődlegesen a számítógépes írástámogatás terén jelentenek rendkívüli segítséget. A MorphoLogic által kifejlesztett Helyesek nyelvhelyességi rendszer például szóellenőrzőt (Helyes-e?), mondatszintű nyelvhelyesség-ellenőrzőt (Helyesebb), elválasztáskezelő rendszert (Helyesel) és toldalékoló szinonimaszótárt (Helyette) tartalmaz. A rendszer 1993 óta megtalálható minden magyar nyelvű irodai rendszerben [110]. A szövegekben való keresés szerepe igencsak megnőtt az internethasználat rohamos terjedésével. A magyar nyelvben a szavaknak akár több száz alakjuk is lehet, azonban egy „egyszerű” keresőprogram pusztán csak a szótári alakban történő előfordulásait találja meg az adott szónak. Ám ez a legtöbb esetben kevésnek bizonyul, így szükség mutatkozott olyan programokra, amelyek képesek megtalálni a szövegszavak szótövét (lemmáját). A MorphoLogic fejlesztése a HelyesLem lemmatizáló, amelyet a MorphoStem többnyelvű kereséstámogató modul is hasznosít [108]. A tulajdonnevek (azaz Named Entityk) lemmatizálására az SZTE munkatársai is kidolgoztak egy web alapú módszert [37]. Az xPlace (a Kilgray Kft. terméke) olyan intelligens keresést, illetve cserét végrehajtó program, amely a keresett szónak megfelelően toldalékolt alakban illeszti be a szövegbe a csereszót: így például az egérrel szó helyére macskával kerül, kiküszöbölve ezzel a hibás (egyszerű cserével létrejövő) *macskarel alakot. A szoftver beépül a Microsoft Word alá, így használata könnyű és egyszerű (http://hu.kilgray.com/).
72
STRATÉGIAI KUTATÁSI TERV
I.3.4.2. Szövegbányászat Az adatbányászat egy már meglévő, valamilyen egyéb célból összegyűlt adathalmazban keres megbúvó, rejtett, azonban hasznos, releváns összefüggéseket, ismereteket, információkat. Az adatbányászat egyik igen fontos részterülete a szövegbányászat, amely a strukturálatlan, (vagy részben strukturált) elektronikus szöveges állományokban megbúvó, nem triviális információk kinyerését jelenti. A különféle szövegbányászati problémák más-más megoldási módot igényelnek, amelyeket az alábbiakban részletesebben is bemutatunk. I.3.4.2.1. Tulajdonnév- felismerés. Az információkinyerő rendszerek fejlesztésében kitüntetett helyet foglal el az úgynevezett NE (named entity, névelem) kifejezések felismerése és ezek kategorizálása. Az NE-k legtöbbször fontos információval bírnak a dokumentum tartalmára nézve, és emiatt az emberi információkinyerés célpontjai. Bizonyos alkalmazásokban – például a gépi fordításban – pedig különleges bánásmódot igényelnek a névelemek (nem mindig, vagy speciális szabályok segítségével kell őket fordítani), így ezek elfogadható szintű felismerése és kategóriába sorolása elengedhetetlen. Jól működő tulajdonév-felismerő rendszereket a világ számos nyelvére fejlesztettek, úgymint angol [24], német [139], holland, spanyol [140], kínai [90], japán [119] stb., és többek között a következő területeken értek el sikereket: gazdasági, politikai és sporthírek [140], orvosi [152], kémiai [25], biológiai [63], katonai jellegű szövegek [49]. Az alkalmazott rendszerek többségében nyelv- [138, 26] és doménfüggetlenek [69, 70], és az emberi pontossághoz közelítő eredményeket tudnak felmutatni. A névelem-felismerési feladatok hatékonyan megoldhatók címkézett korpusz (olyan szöveges adatbázis, melyben a névelemek előzetesen be lettek jelölve), valamint statisztikai módszerek segítségével. Ezek a kézzel bejelölt példák alapján olyan NE-jelölő szabályokat állítanak elő, melyek később, ismeretlen szövegekben is alkalmasak a hasonló típusú névelemek felismerésére. A jelenleg rendelkezésre álló magyar nyelvű NE-korpuszokról lásd bővebben az I.3.1.1.8–I.3.1.1.9. pontok alatt. A magyar nyelvre több tulajdonnév-felismerő rendszer is elkészült. A BME MOKK munkatársai maximum entrópia módszerre épülő statisztikai alapú rendszert dolgoztak ki [157]. A rendszer bemenetként morfológiailag elemzett szöveget dolgoz fel, ráépülve a hunpos morfológiai egyértelműsítőre. A felismerés hatásfoka a Szeged NER korpuszon tesztelve meghaladja a 95%-ot. A Szegedi Tudományegyetem munkatársai pedig nyelvfüggetlen tulajdonnév-felismerő rendszert fejlesztettek ki, amely szóalapú osztályozásként kezeli a problémát, és jellemzőként a megelőző és rákövetkező szavak főbb tulajdonságai, valamint a megelőző szavakra a modell által javasolt tulajdonnévi címkék is beépülnek a modellbe [35]. A modell hatékonyságát három különböző feladaton is vizsgálták: magyar nyelvű gazdasági rövidhírekben, illetve angol nyelvű újsághírekben (sport, politikai, gazdasági témákból) szereplő egyedek (személynevek, helynevek, szervezetek nevei) felismerésére, valamint orvosi kórlapok anonimizálására (páciensek, doktorok, kórházak stb. neveinek azonosíthatatlanná tétele). Mind-
I. MELLÉKLET – JELENKÉP
73
három feladat megoldásában kitűnő eredmények születtek úgy, hogy némi testreszabástól eltekintve ugyanaz a modell futott a két nyelvre és a különböző doménekre. A magyar nyelvben külön problémát jelentenek az egymást követő, azonos típusú névelemek, mert ezek bizonyos esetekben egy egységet alkotnak, más esetekben viszont mint önálló névelemek fordulnak elő, vagyis az a feltételezés, hogy az írásjellel el nem választott névelemek egy egységbe tartoznak, gyakran hamisnak bizonyul. Az egymást követő névelemek azonosítására egy webes keresésre épülő, statisztikai módszer bizonyult hatékonynak [37]. I.3.4.2.2. Pszichológiai szempontú szövegfeldolgozás. Az MTA Pszichológiai Kutatóintézete és a Pécsi Tudományegyetem Pszichológiai Tanszéke hosszú évek óta folytat számítógépes pszichológiai tartalomelemzési vizsgálatokat. Több projektben is végeztek narratív pszichológiai kutatásokat: Az élettörténet kulturális mintáinak vizsgálata, az élettörténet mint szociális reprezentáció című projekt az élettörténeti elbeszélésben azoknak a jellegzetes eseménymintázatoknak a feltárását vette célba, amelyek a magyar kultúrában megjelennek. A nemzeti identitás vizsgálata a történelem narratív reprezentációja révén című projekt célja a nemzeti identitásminták azonosítása és áthagyományozásuk vizsgálata volt a legnépszerűbb magyar történelmi regényekben. Egy további projekt a temporális reprezentáció narratív szerveződésének feltérképezését és pszichikus élménymintázatok feltárását vette célba normál és traumatizált személyek jelentős életeseményeiről adott beszámolóinak tartalomelemzése és a kapott eredmények pszichológiai vonatkozásainak feltárása révén. A Társas megküzdési minták és identitáskonstrukciós folyamatok azonosítása történelmi tárgyú elbeszélésekben című projekt a címben szereplő minták vizsgálatára és elemzésére irányult. Végül a Nemzeti és etnikai identitás vizsgálata történelmi eseményekre vonatkozó szövegek narratív alakzatainak számítógépes tartalomelemzése révén projekt a magyar történelmi múlt traumatikus eseményeire (Trianon, II. világháború, holokauszt, ’56), vonatkozó történelmi elbeszélésekben a történetileg változó identitás-konstrukciós stratégiákat kívánta feltárni automatikus nyelvi elemző módszerek segítségével. A műhely munkatársai kutatásaikról rendszeresen beszámolnak a Magyar Számítógépes Nyelvészeti Konferenciákon, és eredményeiket publikálják a konferenciakötetekben [10, 11, 12, 13, 130]. I.3.4.2.3. Orvosi- biológiai témájú szövegfeldolgozás. A világban folyó biológiai célú kutatások eredményei szabadalmakban, publikációkban öltenek testet. Ez az exponenciális ütemben növekvő dokumentumhalmaz rengeteg hasznos információt tartalmaz, azonban ez az információ a szövegben el van rejtve. A számítógépes nyelvészet (szövegbányászat) célja ezen információk automatikus kinyerése. A Szegedi Tudományegyetemen kifejlesztett információkinyerő rendszer a MEDLINE adatbázisban gépi tanulási algoritmusok segítségével azonosította azokat a szövegrészeket, amelyek a felhasználó által keresett fehérjék interakcióiról szóltak. Ezek egy gráf formájában jelennek meg, amely rendszerezi a kinyert tudást, és a biológus szakértők
74
STRATÉGIAI KUTATÁSI TERV
számára könnyen értelmezhetővé teszi azt [23]. A bizonytalan és tagadó kijelentések kimutatása alapvető fontosságú a szövegbányászati feladatok legtöbbjében, ahol, általában véve, a feladat az, hogy tényszerű információkat, ismereteket nyerjünk ki szöveges adatokból. Ez különösen így van az orvos-biológiai domén feladatainak többsége esetén, ahol ezek a nyelvi formák széles körben előfordulnak a szöveges dokumentumokban és a szerepük az, hogy benyomásokat, kísérletek eredményének lehetséges magyarázatait vagy negatív leleteket írjanak le. A Szegedi Tudományegyetem munkatársai által létrehozott BioScope korpusz [125, 175] tagadásra, spekulációra és nyelvi hatókörre annotált orvosi és biológiai témájú szövegeket tartalmaz. A korpusz lehetővé teszi a már meglévő rendszerek összehasonlítását és újak kifejlesztését tagadás/bizonytalanságdetektálás és hatókör-meghatározás területén. Az adatbázis szabadon elérhető és kutatási célokra ingyen letölthető a következő helyről: http://www.inf.u-szeged.hu/rgai/bioscope. Az orvosi kórlapok folyó szöveges részeiből számos rejtett információ nyerhető ki, amelyekből a gyógyszerkutatók statisztikát, elemzéseket készítsenek a páciensekről, illetve a betegségekről vagy támogassanak kórházon belüli monitoring feladatokat. A kórlapok adatbányászati célú felhasználásához elengedhetetlen az abban szereplő személyes adatok védelmének biztosítása. Ezért, mielőtt publikussá válik egy orvosi adatbázis, az előforduló személyek neveit (orvos, páciens), telefonszámát, lakhelyét, a kórház nevét stb. anonimizálni kell. A feladatot az SZTE általános tulajdonnévfelismerő rendszerének orvosi szakszövegekre testre szabott verziója sikeresen oldja meg [122]. Egy hasznos statisztika lehet a páciensek dohányzási szokásainak összehasonlítása - pl. egy adott betegségre vonatkozóan - a dohányzás hatásainak feltérképezésére. A beteg káros szenvedélyeiről - amennyiben azokra a vizsgálatok során fény derül, illetve a beteg panaszaival összefüggésben lehet - általában említést tesznek a zárójelentésekben. Mivel a szenvedélyekről, mint a dohányzás, alkoholfogyasztás stb. általában a jelentés folyó szöveges részében írnak, ezért a dohányzási státusz automatizált megállapítása jó tesztje annak, hogy milyen eredménnyel lehet a kórházi dokumentumokból tényeket, hasznosítható, strukturált információt kinyerni. A páciens dohányzási szokásait automatikus felismerni képes rendszert fejlesztett az SZTE [124]. A leletek automatikus osztályozását lehetővé tevő számítógépes eljárások fejlesztése létfontosságú. Ennek fontosságát jól mutatja az a tény, hogy orvosi témájú szöveges dokumentumok kódolására, illetve a feladat során keletkező hibák javítására évi mintegy 25 milliárd dollárt fordítanak az Egyesült Államokban. A SZTE nemzetközi szinten is kiemelkedő pontosságú rendszere a radiológiai BNO (Betegségek Nemzetközi Osztályozása, számlázáshoz használt kódrendszer) kódokat rendel a dokumentumokhoz [36]. I.3.4.2.4. Webbányászat. A webbányászat célja az internethez kapcsolható dokumentumokból (honlapok, emailek, blogok, fórumok stb.) hasznos információ automatikus összegyűjtése. Ilyen feladat lehet például állásajánlatok automatikus összegyűjtése vállalati honlapokról, vagy újsághírekben egy vállalkozásról fellelhető információk
I. MELLÉKLET – JELENKÉP
75
kinyerése. Az így nyert információ strukturált szerkezetű, azaz például betölthető egy adatbázisba. A Szegedi Tudományegyetem jelenleg a Textrend projekt keretében egy olyan keretrendszer kifejlesztésén dolgozik, mellyel valamely specifikus területen a weben található, dinamikusan változó, nagy mennyiségű szöveges információt mélyrehatóan lehet elemezni. Az egyik ilyen fókuszterület a kutatókkal kapcsolatos információkinyerés [34]. A webbányászati rendszerek melléktermékeként elkészült egy ingyenesen hozzáférhető WYSWYG HTML annotáló eszköz valamint több kézzel annotált korpusz is (kutatók weblapjai, vállalkozások honlapjai stb.). Az alábbiakban két, az SZTE által fejlesztett webbányászati eszközöket is felhasználó rendszert mutatunk be röviden. Az első rendszer egyes tevékenységi körökhöz tartozó magyarországi vállalkozások neveit és címeit automatikusan gyűjti össze. A feladat megoldása két lépésre vezethető vissza. Először osztályozni kell a weblapokat: az egyes vállalatok honlapjainak azonosítása érdekében az alkalmazott online keresők eredményeit automatikusan „céges” és „nem céges” csoportokba kell sorolni. Másrészt azonosítani kell a vállalkozások címeit és a cégek nevét: a letöltött weboldalakon az egyes cégek neveinek és címeinek automatikus jelölésére van szükség (tulajdonnév-felismerési feladat). A letöltött céges weboldalakon megtalálható címek és cégnevek felismerésére egy szabályalapú módszer, és annak tapasztalataira támaszkodva, egy gépi tanulási eljárás is szolgál [87]. Az automatikus véleménykinyerés a piackutatásoknak, hírcsoportok vagy fórumok monitorozásának, fogyasztói visszajelzések megismerésének, vagy keresőmotorok informáltságának növelésének egyre gyakrabban használt eszközévé válik, hiszen esetükben nagyon fontos a hozzászólók véleményének gyors felmérése, ami a rendelkezésre álló szöveges információ ismeretében gépi erőforrás igénybevétele nélkül elképzelhetetlen lenne. A magyar nyelvre elsőként elkészített véleménydetektáló rendszer a kettős állampolgárság témájában megnyilvánuló hozzászólók véleményének automatikus megállapítását tűzte ki célul. A rendszer alapját különböző típusú információk kombinációja és tanulóalgoritmusok alkalmazása jelenti, emellett a rendszer fejlesztéséhez szükségesnek bizonyult az első magyar nyelvű véleménydetekciós korpusz elkészítése. Az elkészült rendszer adaptálásával a későbbiekben lehetőség nyílik majd a populációból automatikus véleménygyűjtés segítségével nyert adatok alapján más, gazdasági és politikai témájú kérdések végkimenetelének előrejelzésére [22]. I.3.4.2.5. Szemantikus keresés. Az ALL kidolgozott egy módszert természetes nyelvű szövegek jelentésének ontológiában való leírására. Kialakított egy speciális információkinyerő megoldást, amelyben az ontológia szerkezete helyettesíti a templátumokat. Ezekre a kutatásokra alapozva olyan szemantikus kereső rendszert alakít ki a Szegedi Tudományegyetemmel együttműködve, melynek segítségével a szokásos szóalapú keresést az emberhez sokkal közelebb álló tartalomalapú keresések váltják fel. A projekt célkitűzése egy tudásalapú célorientált magyar nyelvű szemantikus ke-
76
STRATÉGIAI KUTATÁSI TERV
resőrendszer kidolgozása. Az elkészülő rendszer a szokásos felületi technológiáknál jóval hatékonyabb keresést tesz lehetővé, ami azt jelenti, hogy a talált dokumentumok között jóval kevesebb érdektelen anyag jelenik meg, és ezzel párhuzamosan csökken a kihagyott releváns dokumentumok száma. A keresést az is kényelmesebbé teszi, hogy a kérdést természetes nyelven lehet feltenni, és a felhasználók nem kényszerülnek arra, hogy a keresett dokumentumokat kulcsszavak logikai kombinációjával vagy reguláris kifejezésekből álló szűrési feltételekkel adják meg. A pontosabb és hatékonyabb keresést a szöveges dokumentumoknak a szokásosnál mélyebb megértése teszi lehetővé. A megértést az biztosítja, hogy a keresőrendszer a dokumentumok témakörét lefedő ontológiára támaszkodik és ismeri a magyar nyelvtan szabályait. Ezek birtokában lehetővé válik a kérdések és dokumentumok nyelvi elemzése és a feltárt tartalmak egymáshoz illesztése. A felhasználó által megfogalmazott kérdés nyomán a különböző dokumentumok szintaktikai és szemantikai elemzése egymással párhuzamosan folyik, és a keresőrendszer arra törekszik, hogy előkeresse azokat a dokumentumokat, melyek szemantikus reprezentációja legközelebb áll a szövegesen megfogalmazott kérés szemantikus leírásához. A szemantikus reprezentációk illesztéséről különböző érvelési módszerek gondoskodnak. I.3.4.3. Gépi fordítás és fordítástámogatás Magyarország Európai Uniós csatlakozásának sikere és a jelenlegi tagállamok gazdasági teljesítményéhez való felzárkózása nagyban függ attól, hogy az ország mennyire képes kihasználni az uniós csatlakozás nyújtotta lehetőségeket, és az egységes piac mennyire tudja kiaknázni Magyarország gazdasági potenciálját. Magyarországot éppen ezért „közelebb kell hozni” az unió jelenlegi és csatlakozó tagállamaihoz, fejleszteni kell az infrastruktúrát. Ahogyan a jó közlekedési hálózat lecsökkenti a fizikai távolságokat, úgy csökkenti le a jó nyelvi infrastruktúra az információs távolságot azáltal, hogy hozzáférést biztosít a kizárólag idegen nyelven elérhető információhoz. Mint ismeretes, egy 2005-ös felmérés során az ország lakosságának 71%-a nyilatkozott úgy, hogy egyetlen idegen nyelvet sem beszél – ami azt jelenti, hogy az ország lakossága 71%-ának csak korlátozott hozzáférése van az uniós potenciálhoz. A nyelvtudás hiánya szűk keresztmetszetet jelent az unió által nyújtott előnyök kihasználásánál. A magyar és más nyelvekre (elsődlegesen az angolra) kifejlesztett fordítóprogramok, illetve fordítást segítő programok kifejlesztése nagymértékben hozzájárul az ország nemzetközi integrációjának elősegítéséhez, ezáltal növeli a gazdaság egyes szereplőinek versenyképességét a nemzetközi piacon, így előmozdítja a kis- és középvállalkozások, továbbá az állami finanszírozású szervezetek innovációs tevékenységét, amely az ország kutatás-fejlesztési potenciáljának látható javulását vonja maga után. A géppel fordított dokumentumok nem publikációra készülnek: elsősorban az idegen nyelvű szöveg megértését támogatják, ám a szöveg értelmezése során az olvasónak saját intelligenciájára is támaszkodni kell, amellyel kiszűri és megérti a sokszor triviálisnak tűnő, de gépileg még rosszul kezelt értelemzavaró fordításokat.
I. MELLÉKLET – JELENKÉP
77
A következőkben a gépi fordítás főbb módszereit, alkalmazott technikáit mutatjuk be röviden. A szabályalapú módszerek beépített szótáron és nyelvtani szabályokon alapulnak. Az elemzési folyamat során a forrásnyelvi mondatokhoz egy belső reprezentációt (általában fastruktúrákat) rendelnek. A szöveg generálása ezen belső reprezentáció célnyelvi kifejtése. A fordítás történhet közvetlenül a két nyelv között (transzfer) vagy közvetítőnyelven keresztül (interlingua). Ismert még a szóról szóra fordító (szótáralapú) módszer, amely olcsó és gyors, azonban általában rossz minőségű, érthetetlen eredményt ad. A statisztikai alapú gépi fordítás módszere egy beépített szövegkorpuszon alapul. A gép a fordítás előtt nagy mennyiségű lefordított szöveget elemez, aminek során előáll egy szótár és számos nyelvtani szabály: a fordítás ezek alapján történik. Ez a módszer ma igen népszerű, mert gyakorlatilag tetszőleges nyelvre alkalmazható (nincsenek kézzel definiált nyelvspecifikus szabályok), ám a fordítási minőség emiatt általában rossz. A példaalapú gépi fordítás alapja a fordítómemória, melyben gyakran előforduló mondatokat és/vagy kifejezéseket tárolnak. A fordítandó mondathoz leginkább hasonló tárolt mondatokból rakják össze a lefordított mondatot. A következőkben a magyar nyelvre kifejlesztett fordítóprogramokat és fordítást támogató megoldásokat mutatjuk be. I.3.4.3.1. MetaMorpho fordítóprogram és nyelvelemz˝ o rendszer. A MetaMorpho fordítóprogram angolról magyarra, illetve magyarról angol nyelvre fordít. A program a MorphoLogic fejlesztése, melynek munkálatai számos korábbi eredményt felhasználva 2000-ben kezdődtek, ma is intenzíven folynak és a közvetlenül befektetett munka már meghaladta a száz emberévet. A MetaMorpho rendszer azzal a céllal született, hogy ötvözze a szabályalapú fordítóprogramok és fordítómemóriák előnyös tulajdonságait. Ez egy olyan új architektúra kialakításához vezetett, ahol az adatbázisban minden nyelvi adat párok formájában van felírva. Az elemző szabályok mellett ott áll a generáló szabálypárja is. Az újszerű hierarchia előnye, hogy természetes módon építhetők be vagy használhatók fel szótárak, integrálhatók emberi fordítások és fordítómemóriák, könnyen megvalósítható a felhasználói bővíthetőség. A MetaMorpho alapvetően szabályalapú rendszer, de a transzfer és közvetítőnyelves módszerekkel szemben kizárólag direkt megfogalmazásokból áll. Ezek a direkt megfeleltetések azonban nem direkt módon, hanem az elemzéstől elkülönülő generáló fázisban érvényesülnek. A minták egységes formalizmusban vannak leírva, a MetaMorpho rendszer nem húz önkényesen határt a szótár és nyelvtan közé. A szabályok leírásához egy leírónyelvet dolgoztunk ki, amellyel környezetfüggetlen nyelvi állítások fogalmazhatók meg. A szótári szócikket csak annyi különbözteti meg egy nyelvtani szabálytól (pl. hogy a mondat alanyból és állítmányból áll), hogy az előbbiben konkrét szavak szerepelnek, a másikban pedig elvont nyelvi szimbólumok. A MetaMorpho rendszer fontos jellemzője még a szabályok ábrázolásának kettős szintje. Ezt a számítógépes nyelvek fordítóprogram-
78
STRATÉGIAI KUTATÁSI TERV
jaihoz hasonló magas szintű és gépi kódú programozási nyelvekhez hasonlóan kell elképzelni, de itt a szintek nyelvezete, szintaktikája nem tér el olyan nagy mértékben egymástól. A megoldásra hasonló okok miatt volt szükség. A magas szintű nyelv jól olvasható és fejleszthető. A program működtetéséhez szükséges nyelvi információ csak az alacsonyszintű nyelven jelenik meg. A két szint közötti különbség jó példája lehet a magas szinten elrejtett jegyöröklődések alacsony szinten történő explicit kifejtése. Az adatbázisok (angol−magyar és magyar−angol) kb. 200 ezer nyelvi mintából állnak. A magyar-angol igei vonzatminták és névszói kifejezések gyűjtésében és kódolásában a MTA Nyelvtudományi Intézete és az SZTE Mesterséges Intelligencia Kutatócsoportja egy kétéves Nemzeti Kutatás Fejlesztési Projekt keretében működött közre. A saját formátumú adatbázis XML-ben exportálható, így a rendszer kompatibilis tud lenni más nyelvi leírásokkal. A szintaktikai leírást egynyelvű morfológiai elemző- és generátor adatbázisok, valamint egyéb kiegészítő nyelvi adatok (morfológiai és jelentésegyértelműsítők stb.) egészítik ki. Az elemzést a környezetfüggetlen nyelvtan vezéreli. A szabályok a szavaktól kiindulva, összevonással egyre magasabb rendű nyelvi szimbólumokat hoznak létre. Ha a szabályok alkalmazásával sikerül eljutni a mondatszimbólumig, hogy abban a lefordítandó mondat minden szavát felhasználtuk, akkor az elemzést sikeresnek tekintjük. Ebben az esetben a mondat fordítása nagy valószínűséggel jó lesz. Minthogy transzfer fázis nincs, a generálás egyszerűen az elemzéskor felhasznált szabályok generáló párjainak alkalmazása. Egy-egy elemzési szimbólum általában száznál több nyelvi jeggyel rendelkezik, amelyek mind meghatározóak az elemzés kimenetelét illetően. Az elemzése nem mindig sikeres. Ha nincs teljes mondatot lefedő megoldás, akkor a program a részelemzéseket próbálja meg összeválogatni úgy, hogy azok a teljes mondatot lefedjék, és a lehető legjobb fordítást adják. Ezt mozaikfordításnak hívjuk és a válogatáshoz számos, többek között statisztikai szempontot figyelembe veszünk. A fordításnak néha egynél több megoldása is van, ilyenkor egyszerűen az első kerül az eredménybe. A MetaMorpho rendszer a következő modulokból épül fel: szavakra bontó modul, morfológiai elemző, morfológiai egyértelműsítő, mondatszegmentáló, morfoszintaktikai konverter elemzéshez, szintaktikai elemző, jelentés-egyértelműsítő. A fordítóprogram alkalmazásban ezt szintaktikai generátor, morfoszintaktikai konverter, morfológiai generátor, szóösszefűző modul követi. Az elemzés során a felhalmozott tudás folyamatosan bővül, minden elemző lépés hozzáfér az előző lépések során előállított információhoz. A program C++ nyelven íródott. Több mint kétezer saját forrásfájlból és 250 projektből áll. A MetaMorpho rendszer az általunk írt kódon felül számos további szabad forráskódú külső megoldást (adatbázis-kezelő, grafikus felhasználói felület stb.) is integrál. A MetaMorpho rendszer fejlesztői környezete Moose névre hallgat. Ebben nyomon követhetők az elemzési lépések és lekérdezhetők a nyelvi szimbólumok értékei, illetve ezek változása az elemzés során. A MetaMorpho szintaktikai elemző együttműködő partnerek számára nyitva áll bár-
I. MELLÉKLET – JELENKÉP
79
mely tetszőleges magyar vagy angol nyelvi feldolgozással kapcsolatos feladat megoldásához. A szintaktikai elemzések XML formában, illetve API-n keresztül is hozzáférhetők. A fordítóprogram alkalmazásai: MoBiCAT: popup fordító szolgáltatás, MorphoWord: a Microsoft Wordbe épülő fordítóprogram, MorphoWeb: böngészőkbe épülő weblapfordító, MorphoWAP: WAP-os fordító, Microsoft Office 2003 fordító. A MetaMorpho rendszer jelenleg legismertebb (naponta 70 ezer ember által használt) alkalmazása a http://www.webforditas.hu ingyenes fordítóoldal. Ez a megoldás az angolt mint közvetítőnyelvet felhasználva fordít 40 nyelv és a magyar között, ezek az alábbiak: angol, albán, német, észt, francia, filippínó, galíciai, spanyol, olasz, orosz, portugál, holland, dán, svéd, norvég, finn, katalán, lengyel, máltai, cseh, szlovák, ukrán, román, szerb, horvát, szlovén, török, görög, bolgár, lett, litván, arab, héber, japán, kínai, koreai, hindi, indonéz, vietnami és magyar. I.3.4.3.2. MATCHPAD. Az MTA Nyelvtudományi Intézet több európai partnerrel való együttműködésének célja a Systran piacvezető, transzferalapú gépi fordító rendszerének magyarra való alkalmazása volt. A 2000-től 2002-ig tartó közös munka eredményeképp két nyelvpárra készült működőképes fordítóprogram. Az angolról magyarra, illetve magyarról franciára fordító prototipikus rendszerek az alábbi, 20 ezer szavas alapszókincsre kidolgozott, folyamatosan bővíthető komponenseket tartalmazzák: generáló és elemző magyar morfológiai modul, magyar szintaktikai elemző szabályok, a felhasznált szókészlet elemeit leíró szintaktikai és szemantikai adatbázis, az alapszókincs egészét lefedő egyértelműsítő szabályok, angol-magyar és magyar-francia kétnyelvű szótár, valamint a két nyelvpár közötti szintaktikai különbségek kezelésére hivatott, ún. transzferszabályok [120]. A magyar nyelv ehhez szükséges leírása a Nyelvtudományi Intézet és a MorphoLogic közös munkájának eredményeképpen jött létre. Az alkalmazások folyamatosan továbbfejleszthetők mind a szókincs bővítésével, mind az adatbázisok és a szabályok finomításával. I.3.4.3.3. MemoQ. A MemoQ fordítómemória-programot a Kilgray Kft. fejlesztette ki. A MemoQ lokalizációs környezet legfőbb elemei a fordítómemória (translation memory), a szövegpárhuzamosító (aligner), a terminológiakezelő (term base), és természetesen a szövegszerkesztő [71]. Amikor a lokalizációs környezet szövegszerkesztőjében fordítunk, mondatonként haladunk. Minden mondat lefordítása után beírhatjuk azt a fordítómemóriába, amelyben mondatpárokat tárolunk. Ha a szövegszerkesztőben olyan mondatot találunk, amelyhez hasonlót már fordítottunk, azaz amilyet eltároltunk a fordítómemóriában, az automatikusan megjelenik, a program pedig színekkel jelöli a különbséget a fordítandó mondat és a fordítómemóriából megjelenő mondat között. Fordítómemóriát viszont nemcsak fordítás közben hozhatunk létre. A szövegpárhuzamosító modul segítségével beolvashatunk egy dokumentumot és annak fordítását,
80
STRATÉGIAI KUTATÁSI TERV
és a program statisztikai eszközökkel megpróbálja megállapítani, melyik mondat minek a fordítása. Ez viszonylag jó pontossággal automatikusan meghatározható, de a modul felhasználói felületén lehetőségünk nyílik az automatikus párhuzamosítás hibáinak kijavítására. Az így meghatározott mondatpárok szintén bekerülnek a fordítómemóriába, így ezeket is felhasználhatjuk. Tehát a lokalizációs környezet bevezetése előtt elkészített fordítások is újrafelhasználhatók. A MemoQ integrált fordítástámogató környezet, tehát a fordításnál más alkalmazás (pl. szövegszerkesztő) használatára nincs szükség. A fordítástámogató rendszerek termelékenységnövelő hatása jelentősen függ a szöveg típusától. A megtakarítás erősen ismétlődő szövegek (például felhasználói útmutatók, műszaki leírások stb.) esetében akár 70-80% is lehet, közepesen ismétlődő szövegek, üzleti tervek, jelentések esetében ez átlagosan 20-30%, de az is előfordulhat például levelek esetében, hogy a fordítástámogató rendszer semmilyen megtakarítást nem jelent. A MemoQ statisztikai szövegelemző modulja már a fordítás előtt képes megmondani, mennyi lesz az adott szöveg esetében a költségcsökkenés, így a MemoQ megtérülése pontosan nyomon követhető. A MemoQ statisztikai szövegelemző modulja rendelkezik egy igen fontos újítással: a homogenitásvizsgálattal, amely nem csupán meglévő fordítómemóriához képes hasonlítani egy szöveget, hanem a szövegen belüli belső hasonlóságokat is felderíti. Ezáltal pontosabb képet lehet kapni, hogy mennyi tényleges munkaráfordítást igényel a szöveg lefordítása, és az ebből eredő előnyöket a fordító és megbízója megoszthatja. A MemoQ egyetlen alkalmazásba sűrít egy fordításra optimalizált, minden fájlformátumot egységes keretben támogató szövegszerkesztőt, a világ egyik leggyorsabb fordítómemóriáját, egy terminológiai adatbázist, egy szövegpárhuzamosítót, továbbá kliens-szerver működése révén támogatja a csoportmunkát. I.3.4.3.4. Hunglish. A Hunglish statisztikai magyar-angol gépi nyersfordító a BME MOKK és a Nyelvtudományi Intézet együttműködéseként jött létre. A cél eléréséhez ki kellett dolgozni egyfelől egy magyar-angol szótári adatbázist, másfelől egy magyarangol párhuzamos szövegkorpuszt (ld. I.3.1.2.2.), mely a statisztikai alapú fordító tanító adatbázisaként funkcionálhat [50]. I.3.4.3.5. Gépi fordítás a NooJ program keretében. A NooJ nyelvelemző fejlesztőrendszer olyan képességekkel rendelkezik, melyek alkalmassá teszik a lokális grammatikákat többnyelvű felhasználásra. Egy mondaton belül a maximális kiterjesztésű főnévi csoportok gépi fordítása tűnik megvalósítható célnak a rendszeren belül, hiszen belső szerkezetük viszonylag jól leírható lokális függőségekkel, továbbá szemantikailag is megfeleltethető a főnévi csoportnak és másik nyelvű párjának a belső szerkezete. A NooJ-ban történő gépi fordítás lehetőségeinek áttekintéséről lásd [155].
I. MELLÉKLET – JELENKÉP
81
I.4. Beszédtechnológia Noha a számítógép számára – a gépelési beviteli mód egyszerű megvalósíthatóságából adódóan – az írott nyelv az elsődleges, egyre inkább nő az igény a beszédtechnológiai alkalmazások kifejlesztésére is: bizonyos feladatok megkívánják, hogy a számítógép értelmezze vagy feldolgozza az emberi beszédet, illetőleg a gép szóban közöljön valamit. Az emberi beszéd gépi előállításával a beszédszintézis, a beszéd gépi értelmezésével a beszédfelismerés tudományterülete foglalkozik. Általános és rövid megfogalmazásban tehát: az elsőnél a leírt karakterektől kell eljutni a hangzó nyelvig, a második esetben pedig az akusztikai jeleket kell írott szöveggé alakítani. A beszédtechnológia jóval megelőzte a gépi nyelvtechnológiát. Az első sikeres beszédtechnológiai kísérletsorozat több, mint 200 évre nyúlik vissza és Kempelen Farkas nevéhez fűződik [61]. Ő konstruálta meg és mutatta be a világ első olyan gépét (beszédszintetizátorát), amellyel beszédhez hasonló hangsorokat tudott előállítani. Tulajdonképpen ezt nevezhetjük a világ első artikulációs elven működő beszédelőállító gépének. Kempelen tehát 200 évvel megelőzte korát. Tudományos kutatásának eredményeit a Mechanismus der Menschlichen Sprache című könyvében foglalta össze (Bécs, 1791). Megállapításaival megalapozta a fonetika tudományát és számos tézise még ma is érvényes. A beszédszintézis további fejlődése a 20. század elejétől folytatódott. A hangrögzítés és az elektronika fejlődésével párhuzamosan jöttek létre különböző kutatási eredmények. Az első gépi szövegfelolvasással kapcsolatos szabadalmi bejelentés szintén magyar szakember nevéhez fűződik. Bánó Miklós 1916-ban adta be a Szabadalmi Hivatalba (74361 sorszám alatt) a következő találmányt: Tetszőleges szöveg reprodukálására alkalmas beszélőgép. A szabadalmat 1919-ben meg is kapta (74361-es szám). Az elgondolás egy elektromechanikus megoldást javasolt, beszédhangok egymás utáni összekapcsolását párhuzamosan futó viaszhengerekről (ez hasonló elven alapult, mint a mai elemösszefűzéses beszédszintézis technikák). A következő lépcsőfok a teljesen elektronikus beszélőgép volt kézi vezérléssel. A Bell Laboratóriumban mutatták be 1939-ben a Voice Demonstrator (VODER) nevű, angolul beszélő eszközt, amelyet egy képzett személy klaviatúrával tudott vezérelni. A VODER folyamatos beszédet tudott előállítani. Az igazi áttörés a beszédszintézisben az 1950-es évektől kezdve történt meg, amikor a számítógépek segítségével már a beszédszintetizátor vezérlését is automatizálni lehetett. Az első magyar beszédszintetizátort 1979-81-ben fejlesztették ki az MTA Nyelvtudományi Intézetének Fonetikai Laboratóriumában [64]. Ez a gép az Intézet állandó kiállításán megtekinthető és hangja meghallgatható. A beszédfelismerésre irányuló kutatások ugyan később kezdődtek, de mára ez az egyik legdinamikusabban fejlődő gépi beszédfeldolgozási terület [76]. Ebben a folyamatban a számítástechnika rohamos fejlődése segített, s mára már jelentős eredmények születtek ezen a területen is. A hazai beszédtechnológia tehát a kezdetektől kezdve szép eredményeket mutathat fel, és a nemzetközi élvonalban van. A magyarországi kutatóműhelyek különféle eszközöket fejlesztettek ki, melyek szerteágazó gyakorlati alkalmazási lehetőségeiről az
82
STRATÉGIAI KUTATÁSI TERV
alábbiakban részletesebben is szólunk. Külön említést érdemelnek a fejlesztések között a beszédterápiás, illetve diagnosztikai céllal kidolgozott alkalmazások, melyeket szintén bemutatunk. Végül kitérünk az eddig létrehozott magyar nyelvű beszédtechnológiával összefüggő adatbázisokra is, melyek a további kutatás-fejlesztés alapjául szolgálhatnak.
I.4.1. Beszédszintézis A beszéd gépi előállításának legfőbb alkalmazása, hogy a leírt szöveget hangzó beszéddé alakítsák, azaz mintegy felolvassák a szöveget. Magyarországon az első ilyen gépet az MTA Nyelvtudományi Intézetében fejlesztették (szabadalmi lajstromszáma 185527) és 1982-ben mutatták be. Napjainkban még csak távlati célnak tekinthető, hogy a számítógép bármilyen jellegű szöveget képes legyen felolvasni elfogadható – az emberi szintet megközelítő – minőségben. Jelenleg csak meghatározott célfeladatokra készített beszédszintetizátorokkal lehet olyan hangminőséget elérni, amely megtévesztésig hasonlít az emberi ejtésre; valójában a beszélőt is csak ilyen minőségű beszédből lehet felismerni. Ez egyrészről abból adódik, hogy az emberhez hasonlóan a gép is csak olyan szöveget képes pontosan felolvasni, amely közel áll saját ismereteihez. A tulajdonnevek, az idegen, illetve az ékezet nélkül írt magyar szavak helyes kiejtése, szakszavak, latin kifejezések kiolvasása sokszor még az ember számára is nehéznek bizonyul. Másrészről a gép nem ismeri a hangsúlyozási szabályokat és nem is érti a felolvasandó szöveg tartalmi összefüggéseit. Ezen a területen még van mit fejlődnie ennek a technológiának. A fentiek miatt tehát nem várhatjuk el a számítógépes alkalmazásoktól, hogy bármilyen jellegű szöveget fel tudjanak olvasni jó minőségben: az adott rendszert mindig az adott feladatra kell szabni, vagyis feladatspecifikus beszédszintetizálókat kell létrehozni [110]. Ahhoz, hogy a gép hanggá alakítson egy adott karaktersort, azt normalizálni kell. Első lépésként a karakterek közül ki kell válogatni azokat, amelyek ténylegesen a szöveghez tartoznak (vagyis ki kell szűrni a szöveg részét nem képező karaktereket, például a bekezdés- vagy sorhatárokat jelölő elemeket stb.). Tudni kell azt is, hogy az adott szöveg milyen nyelven íródott, hogy a megfelelő modul léphessen működésbe a programon belül – a szöveg nyelve ugyanis bizonyos alkalmazások esetén nem magától értetődő (például az e-mail-, illetve SMS-felolvasó rendszerek esetében). Mai probléma az ékezetek nélküli szövegek előfordulása is. Az ilyen esetekben a szöveg helyes változatát rekonstruálni kell, azaz vissza kell állítani az ékezeteket. Ezek után történhet meg a szöveg további transzformációja beszédhangsorozattá, az intonáció, a hangsúlyozás meghatározása, majd a beszéd szintézise.
I.4.1.1. A beszédszintézis technológiai alapjai A beszédszintézisben használatos főbb technológiákat [39] alapján ismertetjük.
I. MELLÉKLET – JELENKÉP
83
A formánsszintézis elnevezés a szövegfelolvasó rendszerben alkalmazott hullámforma előállításának módszerét takarja, ami egy gerjesztett szűrőrendszer kimeneteként állítja elő a beszédjelet. A formánsszintetizátor az emberi beszédkeltést modellezi: a gerjesztés a hangszalagok által keltett jelnek felel meg. A formánsszintézis technológiáját alkalmazva jó minőségű beszéd állítható elő, ám idáig ez csak természetes beszédjelből, félautomatikus módszerek alkalmazásával történt meg. A bemeneti szövegből kiinduló és egy szabályhalmaz segítségével előállított beszéd érthető, de erősen gépiesnek hangzik. E minőségi korlát miatt a formánsszintetizátorokat csak kis erőforrásigényű gyakorlati alkalmazásokban találhatjuk meg. Elsősorban kutatási célokra használják a módszert, mivel a beszédjel gerjesztése könnyen módosítható, és így annak hatása külön vizsgálható. A módszer további előnye a kis tárkapacitás és az alacsony számításigény. Az elemösszefűzésen alapuló beszédszintézis esetében természetes beszédből kivágott hullámformákat fűznek össze. Lényegi kérdés azoknak a hullámforma elemeknek a kiválasztása, amelyek összefűzésével előáll a gépi beszéd. Egyfelől teljes fedésre van szükség, hiszen az adott nyelv összes lehetséges hangkapcsolódását elő kell tudni állítani, másfelől pedig az előállított beszédnek minél természetesebb hangzást kell biztosítani. A fonémáknak megfelelő hangok elemként való alkalmazása teljes fedést biztosít, és kevés elemmel megoldható (a magyarra 38 fonémából már előállítható jó minőségű beszédszintetizátor), azonban a fonémák összefűzésével előálló jel nem hangzik folytonosnak, a hang minősége gyenge. A környezetfüggő hangok használata, ahol minden egyes hang minden lehetséges hangkörnyezetének megfelelő változatban előfordul, jó megoldás lenne, ekkor azonban rendkívül megnőne az elemek tárigénye. A gyakorlatban bevált kompromisszumos megoldás a két egymás utáni félhang együtteseként előálló diádok, illetve triádok alkalmazása: a triádelemek az adott hangot megelőző hang közepén kezdődnek és a hangot követő hang közepéig tartanak, azaz két hangnyi hosszúak. A diád-, illetve triádelemek összefűzésén alapuló technológiát elterjedten alkalmazzák a világban. Az elemösszefűzéses technológia továbbfejlesztéseként jött létre a korpusz alapú, elemkiválasztásos beszédszintézis. A technológia alapja a beszédelemek összefűzése, de a szintetizátor hangadatbázisa nem monoton prozódiájú diád-, illetve triádelemeket, hanem természetes hangzású teljes mondatokat tartalmaz, melyek egy nagyméretű szövegkorpuszból származnak, és azok felolvasásával jön létre a több órányi beszédet tartalmazó korpusz. Az adatbázis egy adott hangsort tartalmazó beszédelemet több példányban is tartalmaz, melyek prozódiai tulajdonságai eltérőek. A beszédkorpuszban több különböző méretű elem is definiálható (például diád, triád, szótag, szó stb.). A fentiek következtében egy adott beszédszakasz több módon is generálható, amelyek közül a legtermészetesebben hangzó változat hangzik el: ez a folyamat az elemkiválasztás. A korpusz alapú elemkiválasztásos beszédszintézissel jelentős minőségjavulás érhető el a hagyományos elemösszefűzéshez képest. Mivel kevesebb összefűzési pontot tartalmaz, mint a diád- és triádelemekből építkező rendszer, folytonosabb, természetesebb hangzást kapunk. Másrészt az egybefüggő beszéddarabok természetes prozódiája is megőrizhető, amelynek eredményeként a
84
STRATÉGIAI KUTATÁSI TERV
természetes beszéd prozódiáját igen jól megközelíti a szintetizátor által létrehozott beszéd. A korszerű, számítógépes beszédtechnológiai kutatások zöme a BME Távközlési és Médiainformatikai Tanszék beszédtechnológiai laboratóriumához köthető. Az utóbbi két évtizedben az alábbi főbb kutatás-fejlesztéseket vitték sikerre: ! általános szövegfelolvasó automata több férfi és több női hangon (Profivox technológia); ! kis erőforrás igényű szövegfelolvasó mobiltelefonos alkalmazásokhoz; ! fonetikai szabályrendszer számok, dátumok, időpontok, árfolyamok gépi felolvasására (szép női és férfi hangokon szólal meg); ! prozódiaszabályok kidolgozása többféle beszédstílus megvalósítására (hírek, szépirodalom, mese stb.); ! új módszer kidolgozása a kötött szótáras beszédszintetizátor és a szövegfelolvasó technológia összekapcsolására különleges alkalmazásokhoz (például név, cégnév és cím felolvasásához); ! szótagolt és betűző felolvasási formák szabályrendszere; ! korpusz alapú beszédelőállítás elvi és technikai alapjainak kidolgozása, valósághű emberi hangon megszólaló beszédszintézishez (szép női hangon beszél); ! gyógyszerészeti, orvosi szövegek felolvasására alkalmas beszédszintetizátor. A beszédszintézis területén zajló kutatásokat segítő technológiák fejlesztésében a következő eszközök születtek meg az elmúlt 20 évben: ! Profivox szövegfelolvasó technológia interaktív fejlesztői környezete hullámformaösszefűzéses beszédszintetizátor fejlesztéshez, beszédkutatáshoz; ! hanghatár-kijelölő (a hullámformában), ellenőrző és javító technológia; ! szófaji elemző szövegfeldolgozás támogatásához; ! formánselemző beszédkutatáshoz; ! rejtett Markov-modell technológia beszédszintézishez; ! hangsúlykiosztó statisztikai algoritmusok mondat szintű szövegegységekre; ! ékezetesítő program ékezet nélküli magyar szövegek helyreállítására (szabadalmi bejelentés ügyszáma: P0003443); ! nagyméretű beszédadatbázisok zöngés-zöngétlen szakaszok jelzésével, hang-, szóhatár címkézéssel, fonetikus átírással beszédfelismerési és beszédszintetizálási kutatások támogatására.
I. MELLÉKLET – JELENKÉP
85
I.4.1.2. Beszédszintetizátorok A magyar nyelvre számos, sikeresen működő beszédgeneráló programot fejlesztettek [96]. Külföldi próbálkozások is voltak, de azokból nem születtek műkődő szolgáltatások [32]. A hazai kutatás-fejlesztés folyamatos, ennek eredménye, hogy egyre jobb hangminőségű rendszerek jelennek meg [40]. A következőkben ezekből válogatunk. I.4.1.2.1. Multivox’4. A Multivox’4 szövegfelolvasó magyar szabadalom (lajstromszáma: 189337). Ebből fejlesztették ki és tették nyilvánosan elérhetővé az első szabad terjesztésű, magyar beszédszintetizátort [96]. A rendszer ASCII szövegből olvas, abból állítja elő a beszédet. A kimondandó szöveget magyar nyelven tiszta hangzású, dallamos, ritmusos köznapi férfi vagy női hangzású beszéddel mondja el. Több opció biztosítja, hogy a beszédet a legváltozatosabb formában lehessen előállítani: ilyen a beszédsebesség, hangmagasság, hangtípusok, suttogás, rekedt beszéd, tagolási fokozatok, hangerő és mondathangosság. A program a BME TMIT és a Nyelvtudományi Intézet munkatársai közti együttműködéssel jött létre. A program ingyenesen letölthető a http://alpha.tmit.bme.hu/pub/multivox4/ weboldalról. I.4.1.2.2. Profivox rendszer. A Profivox beszédszintetizátor család tekinthető az első olyan magyar nyelvű beszédelőállító programnak, amely teljesíti a korszerű beszédszintetizátoroktól elvárható alapkövetelményeket: tiszta, érthető, emberi hangszínhez közeli hangot állít elő, emellett a mai technikai feltételeknek is megfelel, szoftverkörnyezete pedig lehetővé teszi a folyamatos fejlesztést [95]. A Profivox kimenetét több emberi hang digitalizált változatából állítják össze, mindig illeszkedve az adott alkalmazás profiljához. A rendszer több, témakör-specifikus modullal rendelkezik: ezek között szerepel időjárásjelentés-felolvasó, menetrend-felolvasó, név- és címfelolvasó, hírolvasó, számfelolvasó... A Profivox szövegfelolvasó technológia szolgál a következő alkalmazások hátteréül: ! telefonról elérhető e-levél felolvasó, 1999 (T-Mobile Magyarország, Mailmondó, szolgáltatása); ! szépirodalmi internetes könyvfelolvasó, 2002 (http://vilaghallo.hu); ! meghangosított internetes SMS-szolgáltatás, 2002 (Digitania Rt., pl. Origo Hangember); ! mobiltelefonba épített SMS-felolvasó (az SMSmondó a világon az első ilyen megoldás, 2003); ! automatikus számszerinti tudakozó (T-Mobile Magyarország, 2004); ! a Jaws for Windows (USA) képernyőolvasó magyar változata vakok számára, 2004; ! a Volksbank Hungary beszélő bankjegykiadó automatája, 2004 (1146 Bp. Hungária krt. 140-144), amelyet látássérültek segítésére fejlesztettek ki);
86
STRATÉGIAI KUTATÁSI TERV
! WINCOR_NIXDORF beszélő bankautomaták, 2005; ! a Generáli Biztosító automatikus telefonközpontja, 2005; ! Gyógyszervonal, automatikus telefonos információs rendszer, 2006 (Telefonszáma: 06-1-886-94-90); ! menetrend-felolvasó, utastájékoztató automata (kísérleti rendszer, 2007); ! automatikus számszerinti tudakozó (Vodafone Magyarország, 2008); ! automatikus, mobiltelefonos, helyfüggő kereső szolgáltatás (T-Mobile, kísérleti rendszer, 2008); ! automatikus áru- és árlista-felolvasó (T-Mobile, kísérleti rendszer, 2008). A fenti technológiát a BME TMIT kutatói és mérnökei fejlesztették és fejlesztik folyamatosan. A magyar és más nyelvű szövegfelolvasó szoftvert minden külön alkalmazáshoz adaptálni, optimalizálni kellett, a felolvasási stílusok és egyéb esetleges különbözőségek miatt. A Profivox hangja meghallgatható és letölthető a következő címről (http://speechlab.tmit.bme.hu), maga a szoftver pedig egyedi szerződéssel bárki számára hozzáférhető. Koordinátor dr. Németh Géza ([email protected]).
I.4.2. Beszédfelismerés A (gépi) beszédfelismerés elsődleges feladata a beszéd szöveggé alakítása. Jelen tanulmányban azonban a témakört tágabban értelmezve ide soroljuk a beszélő személyének, emocionális állapotának, a mondatmodalitásnak stb. felismerését is. A következőkben rövid, „vezetői szintű” alaptechnológiai áttekintést nyújtunk, ismertetjük az egyes alkalmazási részterületeken elért eredményeket a magyar nyelv viszonylatában, illetve összehasonlítjuk a hazai és a nemzetközi élvonalbeli alap- és alkalmazott technológiákat. Végül, nem kimerítő jelleggel, bemutatunk néhány beszédfelismerési szolgáltatást, terméket, illetve felsoroljuk a főbb hazai fejlesztésű beszédfelismerési eszközöket. I.4.2.1. A gépi beszédfelismerés technológiai alapjai I.4.2.1.1. Bevezetés. A mai standard módszertan szerint minden felismerési folyamat felbontható a következő két fő lépésre: 1. lényegkiemelés; 2. mintaillesztés. A beszédfelismerésnél a lényegkiemelés során alapesetben az audiojelből az emberi hallásérzethez illeszkedő jellemzőket próbálunk kivonni. A mintaillesztés ezen jellemzők alapján, statisztikai alapokon készített modellekhez kísérel meg hasonlósági értelemben optimális illesztést, azaz egy felismerési címkesorozatot előállítani.
I. MELLÉKLET – JELENKÉP
87
A címkék lehetnek szavak, beszédhangok, hangtípusok (pl. zene, taps, beszéd), illetve beszélők – attól függően, hogy mit reprezentáltak a modellek. Fontos hangsúlyozni, hogy az optimális illesztés korántsem jelent hibátlan felismerést. Ellenkezőleg: az optimális döntés az esetek egy részében akár teljesen rossz felismerési eredményt is takarhat. Önmagában annak becslése, hogy mennyire vagyunk biztosak az egyébként optimális felismerési eredmény helyességében, komoly elméleti probléma és korlátos pontosságú – ezzel foglalkozik a felismerési konfidenciabecslés. A felismerési hiba tehát minden statisztikai rendszer sajátja (az emberé is – jóllehet, az emberi beszédfelismerés pontossága a közeljövőben elérhetetlennek látszik, ld. [88]), ezt az alkalmazóknak tehát figyelembe kell venniük. Nagy különbség lehet azonban felismerő rendszerek között a felismerési hiba tekintetében, ami természetszerűleg e rendszerek használhatóságát az adott feladatra jelentős mértékben befolyásolhatja. A beszédfelismerők kiértékelésével kapcsolatban fel kell viszont hívnunk a figyelmet, hogy önmagában egyes felismerési mutatók (mint például a szófelismerési pontosság) egymáshoz hasonlítása alapján nem lehet minőségi különbségeket tenni egyes rendszerek között. Kizárólag azonos adatbázison tanított és azonos adatbázison tesztelt (lehetőleg azonos környezetben és egyező futási idővel összehasonlított) rendszerek felismerési jelzőszámai alapján lehet egyes megközelítéseket rangsorolni. A későbbiekben ezért minden megadott felismerési számértéket szemléltető példaként és nem abszolút teljesítményként kell tekinteni. I.4.2.1.2. Lényegkiemelési alapmódszerek. A beszédfelismerés alapvető lényegkiemelési módszerei az elmúlt 30 évben alig változtak. A legmodernebb módszer is alig ad jobb eredményt, lényegét tekintve alig tér el az „ősmódszertől” (kepsztrum számítás). A standard (MFCC – Mel Frequency Cepstral Coefficients) és a „state-of-the-art” (PLP – Perceptual Linear Prediction és variánsai) nem térnek el jelentősen e területen, ami jól szemlélteti a feladat nehézségét. Tehát elmondhatjuk, hogy bár a hazai szereplők által alkalmazott lényegkiemelési technikák közel vannak a világ élvonalbeliekhez, a legnagyobb fejlődésre pontosan ezen a területen volna szükség. Tudomásunk szerint a tengerentúlon ezen okból kifolyólag szentelnek mind több támogatást erre a területre, mely alapvetően nyelvfüggetlen. I.4.2.1.3. Mintaillesztési alapmódszerek. A mintaillesztés feladata kettős: egyrészt az időbeliséget kell kezelnie (mettől meddig tart az adott szóhoz vagy beszélőhöz stb. tartozó hangjelenség) másrészt és ezzel egyidejűleg osztályoznia kell, hogy az észlelt megfigyelések melyik modellhez illeszkednek leginkább (melyik szóról, beszélőről stb. van szó). A mintaillesztés feladata többek közt azért is lehet nagyon nehéz, mert a lényegkiemelés egyszerűen nem emeli ki „eléggé” a lényeget. Az alapvető mintaillesztési módszer szintén több évtizedes múltra tekint vissza. Az alaptechnika a rejtett Markov-modell (angol, közkeletű rövidítése: HMM) keretrendszer, ahol a rejtett szó szemléletesen utal arra, hogy a megfigyelésben (mely hanghullám lényegkiemelt változata) a felismerendő információ rejtett módon van jelen,
88
STRATÉGIAI KUTATÁSI TERV
ezért valószínűségi-hasonlósági alapon történik a kimeneti címkék (felismerési eredmény) bemenetnek történő megfeleltetése. A hasonlósági mértékeket tipikusan GMMek (Gauss Mixture Modell) szolgáltatják, melyek általános sokdimenziós osztályozási feladatokra hasonlóan alkalmazhatók, mint a mesterséges neurális hálózatok. Az imént felsorolt technikai alapok számos beszédfelismerési feladatnál már – a körülményektől függően – elfogadható hibával használhatók, például beszélőfelismerés jó minőségű hanganyag esetén, hangtípus (zene, csend, beszéd, stb) felismerése, egyszerű izoláltszavas beszédfelismerési feladatok. A beszédfelismerés fő ága, az általános beszéd-szöveg átalakítás azonban, bár ugyanebben a keretrendszerben történik, az alapoknál jóval nagyobb mennyiségű és mélységű további technológiai hátteret kíván. Ezért a beszédfelismerés ezen ágát ma már külön, LVCSR (Large Vocabulary Continuous Speech Recognition) néven tartják számon. I.4.2.1.4. Az LVCSR technológia alapjai. Mivel a nagyszótáras folyamatos beszédfelismerési technika (LVCSR) tart számot a legnagyobb érdeklődésre, ennek technológiai alapjait külön összefoglaljuk. Az LVCSR rendszerek – hasonlóan az egyéb célú beszédfelismerő rendszerekhez – a következő jól definiált részekből állnak: lényegkiemelő és mintaillesztő komponensek, melyek nyelvfüggetlenek, valamint nyelvfüggő komponensek: a különféle modellek, melyek külső, cserélhető adat formájában vannak tárolva. A modellkészítés nyelvenként, témakörönként a felismerési folyamattól elválva, azt megelőzve történik, melynek részleteibe itt nem mehetünk. Nyelvi modell A nyelvi modell feladata valószínűségi súlyozást adni a lehetséges kimeneti szósorozatokhoz. Nyelvi modell alkalmazása nélkül semmilyen folyamatos beszédet felismerő rendszer nem képes elfogadható felismerési pontosságot elérni. A standard technika az ún. szó n-gram modellek alkalmazása (tipikusan n=2,3), melyek lényege, hogy n-1 (hipotetikus) megelőző szó alapján adnak valószínűségi becslést a (hipotetikus) következő szóra. Az n-gram modelleket nagy, témához illeszkedő szövegadatbázissal lehet betanítani. Kiejtési modell A szavakat beszédhangok sorozatára a kiejtési modell képezi le. Ez minden szövegesen bővíthető szótárú „speech-to-text” rendszer esetén nélkülözhetetlen komponens. Előállítása történhet szabály alapon és/vagy kézi munkával, illetve újabban statisztikai alapon is (nyelvtől függően). Koartikulációs modell (vagy modul) A koartikuláció modellezése nem jelent mást, mint a beszédhangátmenetek valamennyire explicit modellezését. Ennek szükségességét jelzi, hogy a gépileg előállított beszéd a hangátmenetek kifejezett modellezése nélkül gyakorlatilag érthetetlen. Gépi beszédfelismerésnél azonban a hangátmenet-modellezési probléma sokkal összetettebb, hiszen úgy kell megoldani – szóhatárokon átívelve is –, hogy nem ismerjük előre a szósorrendet. Tipikus megoldás a környezetfüggő beszédhangmodellek (triphones) alkalmazása, melyek leképzését fizikai beszédhang-harmadokra döntési fák
I. MELLÉKLET – JELENKÉP
89
alkalmazásával szokták biztosítani. A koartikulációs komponens bizonyítottan jelentős mértékben emeli a beszédfelismerés pontosságát. Alacsony szintű akusztikai modellek Tipikusan (környezetfüggő) beszédhang harmadokhoz szoktak GMM akusztikai hasonlósági mérték függvényeket társítani, melyeket nagy beszédadatbázisok segítségével tanítanak be. A fenti négy szint integrált alkalmazása jelenti ma a standard LVCSR mintaillesztési technológiát. A négy tudásforrás integrációja történhet a beszédfelismerő motorban (pl. CMU Sphinx [56]), azonban ekkor kötöttek lehetnek bizonyos struktúrák (pl. korlátozott a nyelvi modell fokszáma, a szótár mérete, a koartikuláció modellezés módja stb.) és az integráció szuboptimális lehet. Mohri és társai [86] azonban megmutatták, hogy a fenti tudásforrások (a GMM-ek kivételével) mind azonos matematikai objektumként, ún. WFST-ként (Weighted Finite State Transducer) leírhatók, és egymással standard matematikai módszerekkel kombinálhatók és optimalizálhatók. Tehát a WFST keretrendszerben rendkívül flexibilis módon, elméletileg letisztult módszerekkel optimális tudásforrás integráció válik lehetővé a modellekre vonatkozó korábbi korlátok nélkül. A végeredményül előálló WFST felismerési hálózat a Gauss Mixture modellek hozzárendelésével visszaalakul egy kiterjesztett (kimeneti címkékkel ellátott) HMM-mé, amelyen a hagyományos mintaillesztési módszerekkel végrehajtható a beszédfelismerés. I.4.2.1.5. A hazai beszédfelismerési alaptechnológiák viszonyítása a nemzetközi élvonalhoz. A HMM-GMM beszédfelismerési alaptechnológia mind az AITIA, az ALL, a BME TMIT és a SZTE saját fejlesztésű eszközkészletének része, illetve több más műhely is használ ilyen eszközöket (PPKE, ME stb.). Bár nemzetközi szinten sok alkalmazásnál a standard osztályozási szinten túlléptek (például SVM: Support Vector Machine alkalmazása beszélőfelismerésre), egyrészt ezek a technológiák is ismertek és alkalmazottak a magyarországi akadémiai kutatóhelyeken is, másrészt sok esetben a javulás csak marginális a standard GMM-hez képest. A GMM helyett mesterséges neurális hálózatok alkalmazása is elterjedt nálunk, különösen a SZTE erős ebben a tekintetben [142]. A nagyszótáras folyamatos beszédfelismerés (LVCSR) standard technológiájának kifejlesztése, mint említettünk, komoly elméleti és tapasztalati hátteret, valamint erőforrásokat igényel. A közép-kelet-európai térségben egyedülálló módon hazánkban, jelentős részben a Nemzeti Kutatás Fejlesztési Programok (későbbiekben Jedlik Ányos Program) támogatásának is hála, saját fejlesztésű, nemzetközi szinten is elismert LVCSR motor jött létre az AITIA és BME TMIT közreműködésével, mely a ma ismert legflexibilisebb megközelítést, a WFST-alapú tudásforrás integrációs technológiát alkalmazza. A motor a MALACH projekt (http://malach.umiacs.umd.edu/) magyar nyelvű beszédadatain tanítva és tesztelve, azonos modellek mellett összehasonlításra került a szintén WFST-alapú AT&T felismerő motorral, valamint a hagyományos LVCSR technológiát alkalmazó CMU Sphinx felismerővel, és nem szignifikánsan ugyan, de
90
STRATÉGIAI KUTATÁSI TERV
mindkettőnél jobbnak bizonyult szófelismerési pontosság tekintetében (referenciaszemélyek: Dr. Pavel Ircing /UWB/, Dr. Alexander Rudnicky /CMU/). Fontos tehát hangsúlyozni, hogy hazánk rendelkezik saját fejlesztésű és tulajdonú korszerű LVCSR technológiával, melyet a térségből igen kevés más ország, sőt világszerte is viszonylag kevés nagyvállalat vagy egyetem mondhat magáénak. Ezzel az eszközzel, már a standard szinten jóval túlmutató eredmények születtek, mint LVCSR statisztikai morf-nyelvi modellel [74], LVCSR nyelvfüggetlen kiejtés modellezési technikával [78], új magyar nyelvű LVCSR-alkalmazások ([133], mindroom.hu). A jövőben tehát a reális cél a közép-kelet-európai cseh beszédtechnológiai hegemóniát megtörni és a környező nyelvekre (szlovák, román, ukrán stb.) elkészíteni a nyelvfüggő LVCSR-adatkomponenseket, azaz az akusztikai és nyelvi modelleket néhány ígéretes alkalmazáshoz. Noha általában a hazai kutatóhelyek saját LVCSR motorral (főként a koartikulációs modul hiányában) jelenleg még nem rendelkeznek, nagyon fontos részeredmények születtek. Kiemelendő az SZTE munkássága az alacsony szintű akusztikai modellezés területén, ahol a modern trendeket megelőzően már a klasszikustól módszertől jelentős előrelépéseket tettek az ún. diszkriminatív tanítás irányában [143], valamint a nemlineáris (kernel) transzformációk alkalmazása [67] is nemzetközileg kiemelkedő teljesítmény. Ugyanitt a morfológiai tudás szóalapú nyelvi modellbe történő integrációja is figyelmet érdemlő megoldás [19]. Meg kell említeni a BME TMIT-en zajló azon kutatásokat, melyek nemzetközi figyelmet is keltettek az újszerű prozódiaintegrálási technikákkal [128]. Kecskeméten Dr. Pintér István ért el nemzetközi szinten kiemelkedő eredményeket a beszédjel alacsony szintű feldolgozásával, elsősorban beszédkódolással kapcsolatban, míg Miskolcon Dr. Czap László a vizuális információ hozzáadásával ért el úttörő beszédfelismerési eredményeket. A PPKE beszédfelismerési módszereket alkalmaz beszédhang alapján történő szájmozgás animáció létrehozására siketek kommunikációjának segítésére. Végül, de nem utolsósorban, meg kell említenünk, hogy az ALL az EASAIER (EU FP6) projekt keretein belül kifejlesztett egy folyamatos beszéd felismerését célzó, statisztikai alapú, magyar és angol nyelvekre betanított LVCSR rendszert. Itt kell megjegyeznünk, hogy önmagában a saját LVCSR motor hiánya nem jelent feltétlenül akadályt az egyes kutató-fejlesztő műhelyek számára, mert ismert és alkalmazható számos nyílt forráskódú LVCSR-t támogató eszköz [56, 57, 58]. Ezek alkalmazásával a jelenlegi technológiai sztenderdnek megfelelő nagyszótáras folyamatos gépi beszédfelismerés megvalósítható. Fontos azonban hangsúlyozni, hogy az említett eszközök használatához szerteágazó tudományos/szakmai/technikai ismeretekre van szükség; továbbá, egy adott LVCSR-feladat kezeléséhez nyelv- és feladatfüggő, költséges beszéd- és szövegadatbázisok, valamint komoly mennyiségű munka és idő ráfordítása szükségeltetnek. Noha a termékszintű fejlesztés és a magyar nyelv sajátosságaihoz történő illesztés további komoly lépéseket igényel, ezek a nyílt forráskódok jelentős mértékben gyorsíthatják a magyar és egyéb nyelvű beszédfelismerők kutatását és/vagy fejlesztését. A magyar élvonal a nemzetközitől tehát sok és fontos vonatkozásban nincs lema-
I. MELLÉKLET – JELENKÉP
91
radva, sőt, a rangos, gyakorlati eredményeket is mutató publikációi révén maga is formálja azt. Az előrelépés ugyanakkor szükséges a következő területeken: alacsony szintű jelfeldolgozás, lényegkiemelés, beszélőadaptáció a modelltanítás és felismerés során, modern diszkriminatív akusztikus és nyelvi modell tanítási módszerek. Talán a legkritikusabb elmaradásunk ugyanakkor a nem annyira az alaptechnológiák, hanem az adatbázisok területén van, főleg méret tekintetében, ez irányba mozdulni elkerülhetetlenül szükséges a továbblépés érdekében. I.4.2.2. Az alaptechnológiák alkalmazásai A következőkben röviden bemutatjuk, hogy az előzőekben tárgyalt alaptechnológiáknak milyen főbb alkalmazási körei és lehetőségei vannak, milyen eredményeket értek el hazai és esetleg a multinacionális vállalati szereplők a magyar nyelv tekintetében. Az angol és egyéb indoeurópai nyelvek eredményeit itt nem idézzük, mert ezek megítélésünk szerint nem vehetők egy kalap alá a magyar nyelvvel. Ezzel szemben a török, finn, észt, arab stb. nyelvekhez viszonyítva, melyek morfológiája viszonylag közel áll a magyarhoz, az abszolút felismerési mérőszámokat összehasonlítva sem áll rosszul a magyar beszédfelismerési élvonal. I.4.2.2.1. Parancs- és kulcsszófelismerés. A parancs- vagy kulcsszófelismerés lényege, hogy egyszerűsítjük a beszédfelismerési feladatot a nagyobb pontosság, megbízhatóság vagy egyszerűbb implementáció érdekében. Két lényegesen eltérő megközelítés létezik. Az egyik esetben helyes felismerésre csak akkor van lehetőség, ha a használó csak egyetlen parancsszót vagy kifejezést mond be (parancsfelismerés, ahol egy parancs állhat több egymást követő szóból), míg a másik esetben a kulcsszó, vagy -kifejezés előtt és után is elhangozhat egyéb szó elválasztó szünetek nélkül (kulcsszófelismerés élőbeszédben). Parancsfelismerés A nem természetes nyelvű folyamatos beszéd részeként, hanem pl. sípszó vagy gombnyomás után kiejtett, egy vagy több szóból álló kifejezések felismerése a gépi beszédfelismerés legrégebben működő gyakorlati alkalmazása. Fontos megkülönböztetnünk a beszélőfüggő, a felhasználó által élőszavas bemondással tanítandó rendszereket és a beszélőfüggetlen, szövegesen bővíthető szótárú megoldásokat, melyeket a felhasználónak nem kell tanítania. ! Beszélőfüggő, bemondással tanítandó parancsfelismerők: Ez a – dinamikus idővetemítésen (DTW) alapuló – technológia a legegyszerűbb, a nyelvet nem modellezi, hanem közvetlenül az akusztikai jelet figyeli meg. Eltárolja a tanításból származó bemondásokat, és felismeréskor ezekkel hasonlítja a felismerendő beszédmintát [72]. Elsősorban mobiltelefonok hangtárcsázási funkcióját szolgálja, de zajérzékenysége, körülményes használata miatt nemigen terjedt el. A szótárméret erősen korlátozott (200), beszélőfüggő. Nemzetközi szinten a technológia több mint 20 éve lényegében változatlan formában
92
STRATÉGIAI KUTATÁSI TERV
elérhető, pár évvel ezelőtt már a mobiltelefonok többsége rendelkezett ezzel a funkcióval. ! Beszélőfüggetlen, szövegesen bővíthető parancsfelismerők: Az előzőnél nagyságrendekkel fejlettebb – rejtett Markov-modelleken, illetve mesterséges neurális hálózatokon alapuló – technológia. Az alapvető akusztikai modelleket gondosan tervezett, nagyméretű adatbázisok alapján a fejlesztő tanítja be, ezért a rendszer a beszélő személyétől nagymértékben független hatásfokkal teljesíthet. A korszerű rendszerek a beszédhangok egymásra hatását is közvetlenül figyelembe veszik a fonémaszintű kiejtési modellek mellett [76]. A technológia fonémaalapú, ezért szövegesen bővíthető a szótára, mely akár a milliós nagyságrendet is elérheti megfelelő hardver és optimalizáló algoritmusok használata (pl. WFST minimalizáció, beam-pruning) esetén. Magyar nyelvre ez a technológia a BME TMIT-en került a legteljesebb kifejlesztésre (NKFP 200103, Alkalmazott beszédinformációs rendszerek), komolyabb alkalmazásokba az Aitiában került: Euréka (beszélgető robot), VOXenterek [38], számos referenciával. Nagyon egyszerű, kisszótáras, játékos változatát („Szótoló”) a Sigmoid Kft. valósította meg (BME TMIT-es alapokkal). Az SZTE is rendelkezik referenciával e téren [141]. Az ALL egy beszélőfüggetlen, kisszótáras (max. 1000 szóval működő), speciális parancsnyelvi beszédfelismerő alkalmazást fejlesztett ki, amely bizonyos típusú, manuálisan kezelt elektronikus rendszerek (pl. egy épületben működtetett lift, segélyhívó stb.) beszéddel történő irányítását teszi lehetővé. Az alkalmazás a felhasználó által kimondott paranccsal akusztikus szintű felismerést végez, kikeresi a szótárból azt a szót, illetve frázist, amelynek szótárbeli kiejtése a legközelebb áll a felhasználó által artikulált parancshoz, majd kezdeményezi a felismert parancs végrehajtását. A szoftver magyar és angol nyelvű változata beépült az EASAIER nevű (EU FP6) rendszerbe (http: //www.elec.qmul.ac.uk/easaier/), és – a beépített parancsszótár tartalma által megszabott korlátok között – hangvezérelt visszakeresést tesz lehetővé a célarchívumból. Nemzetközi szinten a Philips beszédfelismerési részlege körülbelül az AITIÁ-val egy időben, hasonló szintű telefonos, magyar nyelvű, parancsszófelismerőt dobott a piacra. Elterjedéséről, gyakorlati használatáról nincs információ. Mára már egyes Nokia okostelefonokban is megtalálható tanítás nélkül használható hangtárcsázás formájában [66]. Kulcsszófelismerés élőbeszédben Élőbeszédben egy adott kulcsszólista elemeinek pontos detektálása az előzőnél lényegesen nehezebb feladat. A fő probléma az, hogy folyamatos beszédre sokkal többféleképpen lehet a kulcsszómodelleket illeszteni, mint a parancsnyelvi beszédre. Alapvetően háromféle megoldás született a probléma kezelésére. ! Kulcsszókeresés nyers, fonémaszintű beszédfelismerési kimeneten: A megközelítés lényege, hogy először a beszédhangszintű felismerés történik meg magasabb szintek (koartikulációs, lexikai, nyelvi szintek) bevonása nélkül.
I. MELLÉKLET – JELENKÉP
93
Majd a nagymértékben pontatlan beszédhangsorozatra szövegesen, a fonetikus átiratuk alapján próbálják a kulcsszókat illeszteni - bizonyos mennyiségű karaktertévesztést megengedve. A módszer egyszerű, de korlátozott pontosságú, mivel kulcsfontosságú nyelvi szintek maradnak ki az első lépésben. Ezt a technológiát tudomásunk szerint a Nextent Kft. alkalmazza 2008-tól. A módszer a rövid kulcsszavak felismerésére nem alkalmas. ! Word-spotting: Bár ezt a kifejezést általánosabb értelemben is használják, mi a kulcsszó közvetlen felismerését értjük alatta a megelőző és követő beszédrészek felismerésének igénye nélkül. Ezt a technológiát magyar nyelvre a BME TMIT az NKFP2/034/2004 projektben fejlesztette ki. Mivel a mintaillesztési fázisba mind a koartikuláció, mind a magasabb szintű kiejtési szint be van vonva, a felismerési pontosság igen magas lehet. Ugyanakkor a nyelvi szint hiánya miatt ez a megközelítés sem alkalmas rövid kulcsszavak felismerésére, továbbá alapesetben egy bemondásban egy kulcsszó megtalálása lehetséges csak. A technológia személynevek megtalálására és felismerésére kifejezetten alkalmas, elsőként a 2006-os MSZNY konferencián lett bemutatva [134], a második generációs VOXenterek alapját képezi (az AITIA International hasznosításában). ! Folyamatos beszédfelismerés alapú kulcsszókeresés: A kulcsszófelismerés legbiztosabb formája az, ha következőkben részletezendő folyamatos nagyszótáras beszédfelismerési módszerrel előállítjuk a beszédbemenet szöveges átiratát, és abban keresünk a kulcsszavakra. Tetszőleges kulcsszó könnyen megtalálható, amely a felismerési kimenetben szerepel. Hátránya a technikának, hogy a feladathoz illeszkedő tematikájú szöveges tanító adatbázist igényel. I.4.2.2.2. Folyamatos beszéd felismerése. A folyamatosbeszéd-felismerés célja az – olvasott vagy spontán bemondásból származó – beszéd teljes és lehetőleg pontos szöveges átiratának előállítása. Általános esetben azonban a feladat egyetlen nyelvre sem megoldott az emberéhez mérhető felismerési pontossággal, ezért a témakör valamilyen szűkítése szükséges az elfogadható pontosság eléréséhez. Erősen kötött témakörű, közép- és nagyszótáras beszédfelismerés Orvosi diktálórendszerek A különféle elfogadott szóalakok számától és a szórendek sokféleségétől nagyban függ a folyamatos beszédfelismerés várható pontossága. A szakirodalom szerint a legjobb pontossággal kecsegtető beszédfelismerési területek között elöl áll a radiológiai leletezés, illetve a hasonló orvosi leletezési feladatok. Még a nagy szóalaktani változatosságot mutató magyar nyelv esetén is a szótárméret n x 1000 körül alakul ilyen esetekben, és a szórend variabilitásával korreláló perplexitás érték is alacsony, 10-80 tartományon mozog. Magyar nyelvre elsőként a Philips mutatott be orvosi diktálórendszert, majd hamarosan a SZTE-en (radiológiai pajzsmirigy-leletek szövegezéséhez) és a BME TMIT-en is készültek ilyen beszédfelismerő rendszerek, utóbbiak koartikuláció modellezés nélkül is magas pontosságot értek el (70-98%) kísérleti körülmények
94
STRATÉGIAI KUTATÁSI TERV
között, a a radiológiai leletek diktálásakor pedig az SZTE rendszere gyakorlatilag is használható, 95% körüli pontosságot képes elérni [165, 20]. A reklámanyagokban mutatott és a kísérleti körülmények között elért legmagasabb felismerési pontosságok azonban valós körülmények nem bizonyultak elérhetőnek. Ennek okai között részben a nem várt háttérzaj (pl. endoszkópos leletezés), részben a rendszer nem megfelelő használata és a dinamikusan változó felhasználói igények is szerepelnek. Jóllehet a rendszerben a felhasználó szó- és nyelvhasználati sajátosságait jól automatizált nyelvi tanítás (a nyelvi modell adaptálása) segíti, a tapasztalatok szerint a felhasználók mégis vonakodtak ezt a lehetőséget igénybe venni. A széles körű elterjedéshez tehát további kutatások, a robusztusság növelése szükséges. Jogi diktálórendszerek Elsőként tudomásunk szerint a Philips készített magyar nyelvű beszédfelismerő rendszert jogi témájú diktáláshoz. A rendszer használhatóságáról, elterjedéséről információ nem áll birtokunkban. Az ALL fejlesztés alatt álló diktálórendszere nagyszótáras, folyamatosbeszéd-felismerő alkalmazás, amely egy adott szakterületen használt résznyelv jellemző lexikális sajátosságaira, szakzsargonjára és tipikus sztereotípiáira specializálódik. Az alkalmazást az ALL elsőként a jogászi nyelvezetre készíti fel, azonban adaptálható más szakmaspecifikus rendszerekre (orvosi/állatorvosi terminológia, építészeti szaknyelv stb.) a beszédfelismerőbe beépített kiejtésszótár és nyelvmodell cseréjével. Jelenlegi állapotában a rendszer beszélőfüggetlen, fejlesztés alatt áll azonban egy beszélőadaptációs komponens opcionális beépítése a rendszerbe. A szoftver beszélőfüggő változatát az ALL az ügyvédi munka támogatására szánja. Nagyszótáras beszédfelismerés A nagyszótáras folyamatos beszédfelismerő rendszerek tipikusan n x 10.000 szavas szótárakkal dolgoznak. Ezek a megoldások is adott témakörben teljesítenek a legjobban, de sokkal kevésbé kötöttek, mint az előző pontbeli technológiák. A kifinomult koartikuláció-modellezés („cross-word triphones”, l. még [75]) ilyen feladatoknál nélkülözhetetlen, amit egyelőre csak az I.4.2.4.1-ben ismertetett hazai fejlesztésű felismerő motor, illetve nemzetközi fejlesztésű motorok támogatnak. A felismerés hibája így is minden esetben jelentős, ezért jelenleg elsősorban segéd/kiegészítő funkciók ellátására, jellemzően a hangarchívumok szöveges kereshetőségének biztosítására használhatók e rendszerek. Híranyagok felismerése A rádiós-tévés hangzó híranyagok gépi átírása szöveges formába világszerte kiemelt terület (Broadcast News Transcription). A híreket tartalmazó hanganyagok felismerése akusztikailag viszonylag könnyű (kivéve a telefonos/helyszíni tudósításokat), nyelvileg viszont nehéz feladat. Az akusztikai relatív „könnyűséget” a tipikusan stúdióközeli audio minőség, a gondos artikuláció és a megakadások ritkasága adja. A nyelvi nehézséget a nagyszámú új (gyakran kivételes ejtésmódú) szó és az általában szükséges igen nagy szótárméret jelenti. Az AITIA és a BME TMIT kifejlesztett egy beszélőfüggetlen, valós időben működő
I. MELLÉKLET – JELENKÉP
95
LVCSR-alkalmazást kifejezetten hangzó híranyagok szöveges átalakítására. A megközelítés messzemenően figyelembe veszi a magyar nyelv morfológiáját, ami lehetővé teszi, hogy a hagyományos (szóalapú) LVCSR technológiákhoz képest a felismerési hiba közel a felére csökkenjen. Beszélőadaptáció mellett a szófelismerési hibát 20% alá sikerült csökkenteni, adott, 1 órás tesztanyagon, ami hasonló nyelvekhez viszonyítva élvonalbelinek mondható [78]. Általános médiaanyagok felismerése Általános médiaanyagok beszédtartalmának felismerése (szöveggé alakítása) nagy kihívást jelent a változatos beszédstílus, szövegtartalom, akusztikai viszonyok miatt. Ezért a híranyagfelismeréshez képest itt alacsonyabb felismerési pontosság várható. Tény ugyanakkor, hogy a hangfelvétel minősége általában gondosan kontrollált, azaz nagyon halk, rossz jel-zaj viszonyú beszédrészletekre tipikusan nem kell számítani. Az ALL magyar és angol nyelvű beszédfelismerője a médiában elhangzó/látható műsorok archiválásakor keletkező audiovizuális fájlok beszédszakaszainak felismerésére szakosodott. A műsorok beszédszakaszainak többsége riportok, párbeszédek, visszaemlékezések, nyilvános viták stb. formájában elhangzó beszéd. Beszédfelismerője akusztikai tudását az ALL nagyméretű, spontán beszédet is tartalmazó beszédkorpuszokból (hanganyag + szöveges átirat) származtatta. A Digital Natives Kft. nemrégiben indult Mindroom (http://www.mindroom.hu) szolgáltatása az AITIA + BME TMIT technológia támogatásával (lásd I.4.2.4.1. pont) szintén a médiában elhangzó általános anyagok archiválására és beszédszakaszainak felismerésére, indexálásra jött létre. Az akusztikus modellek részben olvasott, részben spontán beszéddel lettek tanítva, míg a nyelvi modellek témakörönként specializáltak. Az akusztikai viszonyokhoz automatikus adaptáció igazítja a modelleket. Sajtótájékoztatói hanganyagok felismerése Ahogy az akusztikai körülmények romlanak (nem stúdióban történik a felvétel, az artikuláció kevésbé gondozott), úgy válik nehezebbé a nagyszótáras beszédfelismerési feladat. A BME TMIT sajtótájékoztatók hanganyagának beszédfelismerésénél 70%-ot megközelítő pontosságot ért el egy magyar nyelvre újszerű, morfémaalapú technológia alkalmazásával [132]. A technika úgy tesz lehetővé rel. 20%-os felismerési hibacsökkentést, hogy az elfogadható szóalakok száma több millió lehet, ugyanakkor a nem konvencionális elemeket tartalmazó szótár mérete csak néhányszor 10000. Idősek spontán beszédének felismerése A spontán, rosszul artikulált, de nagyszótáras beszéd felismerése napjaink (és a jövő) egyik legnagyobb technológiai kihívása. Az AITIA és a BME TMIT a MALACH (Multilingual Access for Large Spoken Archives, http://malach.umiacs.umd.edu) projektben magyar anyanyelvű, idős holokauszt-túlélők visszaemlékezéseinek szöveges kereshetővé tétele érdekében alkalmazott újszerű, nagyszótáras folyamatos beszédfelismerési megközelítéseket. Nyelvfüggetlen szabályok alkalmazása nélkül is hasonló eredményeket sikerült elérni, mint a klasszikus megközelítéssel. A szófelismerési hiba 57-43% között alakult, ami az alkalmazott kisméretű tanítóadatbázs miatt jelentős, de a hasonló peremfeltételek mellett elért egyéb nyelvű eredményekhez képest (cseh,
96
STRATÉGIAI KUTATÁSI TERV
orosz, szlovák) a legjobb volt [77]. I.4.2.2.3. Zajrobusztus beszédfelismerés. A mai felismerési technikák „Achilles-ina” a zajérzékenység. Még a fehér és stacionáris zajok is nagymértékben rontják a beszédfelismerés pontosságát, nem is beszélve az interferencia jellegű zajokról (háttérbeszélgetés) vagy tranziens és zenei zajokról. A jelenlegi csúcstechnológiák is lényegesen érzékenyebbek a zaj hatására, mint az ember. Sokan sokféleképpen próbálkoztak a beszédfelismerés robusztusabbá tételével — részsikereket elérve. A BME TMIT a beszédkezdet és -vég pontosabb detekciójával [151], másrészt a csatornatorzítások online kompenzálásával ért el szép eredményeket [79]. A SZTE nemlineáris transzformációs módszereket alkalmazva (Springy Discriminant Analysis) ért el javulást [102, 67]. I.4.2.2.4. Beszél˝ oadaptív beszédfelismerés. A beszélő hangjához történő adaptáció nagymértékben javíthatja a beszédfelismerés pontosságát. Alapvetően két megközelítés terjedt el, melyek együtt is alkalmazhatóak. Vokálistraktushossz-kompenzáció Ilyenkor az adaptáció „csupán” arra korlátozódik, hogy a beszélőszervek méretéből adódó eltéréseket a frekvenciaskála zsugorításával nyújtásával kompenzálja. Mérsékelt, de szisztematikus javulás érhető el ezzel a technológiával. Az SZTE [101], valamint a BME TMIT együttműködve az RWTH Aachennel is végez ilyen irányú fejlesztéseket. A beszélő hangszínéhez történő adaptáció Magyar nyelvre egyelőre csak a BME TMIT és az SZTE publikált ilyen eredményeket, melyek jelentősen javították a beszédfelismerés pontosságát [149, 21]. A módszer felügyelt és felügyelet nélkül is eredményesnek bizonyult, azaz nem feltétlenül szükséges egy adott szöveg felolvasásával elvégezni az adaptációt, az automatikusan is megtörténhet, igaz, az utóbbi esetben a jelen technológia mellett csak offline üzemmódban. I.4.2.2.5. Modalitás felismerése, prozódiaintegrálása. Napjainkban a beszédfelismerők a bemenetükre kerülő beszédet a kimeneten szóláncok formájában jelenítik meg. A beszédfelismerő rendszerek nyelvi moduljai lényegében szavak kapcsolódásának statisztikai alapú specifikálásával működnek, ezért a nyelvnek a szószint felett, szószerkezeti, mondat vagy szöveg szintjén megjelenő szintaktikai és szemantikai összefüggéseit nem képesek a beszédből kinyerni. Számos pszichológiai kutatás utal ugyanakkor arra, hogy az emberi beszédpercepcióban például a magasabb nyelvi szinteket tükröző prozódiának is rendkívül fontos szerepe van. A beszédben hordozott szintaktikai és szemantikai információ kinyerése a természetes nyelvi elemző eszközök, automatikus tolmácsoló rendszerek, sőt az igényes, a kimenetet írásjelekkel megfelelően tagoló beszédfelismerők esetében [172] is nélkülözhetetlen. A beszéd minél
I. MELLÉKLET – JELENKÉP
97
teljesebb feldolgozása a beszédfelismerést a beszédértés irányába mozdítja, amely nélkül az ember maga is nehezen boldogulna a pusztán beszédfelismerési feladattal. Tudomásunk szerint Magyarországon jelenleg egyedül a BME TMIT foglalkozik a prozódia beszédfelismerésbeli felhasználási lehetőségeinek kutatásával [127, 171]. Ezen kutatások keretein belül a BME TMIT munkatársai kifejlesztettek egy kötött hangsúlyozáson, illetve intonációs kontúrosztályozáson alapuló szóhatár-detektáló alkalmazást magyar és finn nyelvekre [126, 169, 170]. I.4.2.2.6. Beszéd érzelmi töltetének felismerése. Az emberi kommunikációban a beszéd nemcsak tartalmilag hordoz információt, hanem tükrözi a beszélő témához való viszonyulását, a beszélő érzelmeit. Az utóbbiak fontosságát a gépi rendszerekben csak a közelmúltban kezdték felismerni, a prozódiához hasonlóan a közlemény minél tökéletesebb megértéséhez ugyanis ezek is támpontot szolgáltatnak. A beszéd alapján történő érzelemfelismerés kutatásával aktívan foglalkozik a BME TMIT [144, 150] többek között az egész Európára kiterjedő COST 2102 projekt keretében is. Emellett a Nextent Kft. is kínál megoldást a negatív érzelmek gépi detekciójára. I.4.2.2.7. Audiovizuális beszédfelismerés. A beszédfelismerés az ember számára mind akusztikus, mind vizuális ingerek segítségével történik. A Miskolci Egyetemen beszédfelismerési kutatásai a beszédre mint audiovizuális jelsorozatra összpontosítanak, azaz a szájról olvasást próbálják gépi úton modellezni. A kiegészítő vizuális jel a beszédfeldolgozás minőségét nagyban javíthatja, különösen zajos környezetben [27]. A PPKE audio inputból video kimenetet állít elő (száj-, illetve arcmozgás) siketek kommunikációjának segítésére. Bizonyos szűk területeken, még ilyen körülmények között is sikerült elfogadható emberi szófelismerési pontosságot elérniük [41, 129]. I.4.2.2.8. Beszél˝ ofelismerés. A beszélőfelismerés célja alapvető célja a beszéd alapján a beszélő személyének meghatározása. A feladat viszonylag jól kezelhető, amíg a beszélő személyek száma nem túl sok (n x 10), minden beszélőhöz van pár perces tanítóanyag, és tudható, hogy a felismerendő személy az ismert körbe tartozik. Ilyen feltételek mellett a BME TMIT parlamenti beszélőkre magas felismerési pontosságot ért el. Az ALL kifejlesztett egy szoftverterméket [60], amely beszédet (is) tartalmazó audiovizuális fájlokban lokalizálni tudja azokat a beszédszakaszokat, amelyekben egy adott személy hangja hallható, illetve azonosítani tudja az egyes beszédszakaszokban hallható személyeket, amennyiben azoktól megfelelő minőségű és mennyiségű tanítóminta rendelkezésre áll. A szoftver önálló termékként, illetve a beszédfelismerő jelfeldolgozó moduljába beépítve egyaránt hasznosítható a felismerési hibát tűrő alkalmazásokban. Különböző feladatot jelent a beszélőazonosítás vagy -verifikáció, amikor ellenőrizni kívánjuk, hogy az adott személy az-e, akinek mondja magát. Tudomásunk szerint a
98
STRATÉGIAI KUTATÁSI TERV
feladat nem oldható meg a jelenlegi technológiai színvonalon a biztonsági beléptető rendszereknél szükséges megbízhatósággal. I.4.2.2.9. Egyéb beszédfelismerési alkalmazások. Beszédterápiás alkalmazások Különféle beszédterápiás eljárások épülnek a beszédfelismerési technológiákra, melyekről részletesen lásd I.4.4. alatt. Audiovizuális fájlok hangtípus szerinti szegmentálása A beszédfelismerő inputját képző audiovizuális fájlok általában nemcsak beszédet, hanem más típusú szegmenseket/hangszakaszokat (zene, ének stb.) is tartalmaznak. A klasszikus beszédfelismerési technikákat – beszédhangok helyett hangtípusokra alkalmazva ezen szakaszok egymásutániságának, időtartamainak felismerése is lehetséges bizonyos feltételek mellett. Ilyen eszközzel rendelkezik többek között az ALL, és publikációkat is jelentetett meg a BME TMIT [177, 136]. Beszéd szinkronizálása a felismert szöveggel A beszédfelismerők tanításának alapvető lépése az elhangzott beszéd és a hozzá tartozó átirat szinkronizálása. Ez a funkció azonban önmagában is érdekes lehet, pl. videoanyagok szinkronizálása az ismert, elhangzó szöveggel. E technológiai alkalmazással mindegyik beszédtechnológiai műhely rendelkezik. I.4.2.3. Beszédfelismerési alkalmazások termékekben, szolgáltatásokban I.4.2.3.1. Telefonos dialógusrendszerek. VOXenter A beszédfelismerő rendszerek számos gyakorlati alkalmazást segíthetnek. Ilyen például a telefonos hívások kezelése, illetve telefonközpont-irányítás. Az AITIA által kifejlesztett VOXenter beszédfelismeréssel működő automata híváskezelő berendezés, mely a telefonhívások többségét emberi beavatkozás nélkül kezeli. A call center segítségével olyan ügyfélirányító, tájékoztató információs rendszer hozható létre, amely megkönnyíti, és a későbbiekben teljesen felválthatja az ügyfélszolgálatok munkáját. A rendszer bemondott név, osztály, termék, vagy egyéb kulcsszó alapján kapcsolja az illetékest, így a hívások automatizált fogadása és célba juttatása költséghatékony, egyszerű és emberközpontú ([38], http://www.voxenter.hu ). Gyógyszerhasználati tudakozó Hagyományos telefonokkal is elérhető beszédvezérelt gyógyszerinformációs vonal [89]. I.4.2.3.2. Beszélget˝ o robotok. A virtuális karakterek, beszélgető robotok célja általában a kommunikáció hatékonyságának növelése. A hang vagy szöveg mellett megjelenő animált karakter figyelemfelkeltő és figyelemmegtartó hatását, valamint hatékony érzelemkifejező képességét számos alkalmazásban kihasználják. A virtuális karakterek weboldalba, e-learning megoldásokba, információs terminálokba építhetőek, de önmagukban is képesek információ átadására.
I. MELLÉKLET – JELENKÉP
99
Egy ilyen megoldás az AITIA által fejlesztett EuRéka beszélgető robot, amelynek különlegessége, hogy élőszóban lehet a kérdéseket feltenni, amelyeket az integrált beszédfelismerő motor dolgoz fel. Természetesen a feltehető kérdések és válaszok témaköre is kötött, a megoldás Magyarország EU-csatlakozásához kapcsolódott. I.4.2.3.3. Diktálórendszerek. A BME TMIT és az SZTE különféle speciális tematikájú orvosi diktálórendszert fejlesztett ki magyar nyelvre. A Philips fejlesztett ki először magyar nyelvű orvosi diktálórendszert, majd jogi területtel bővítette a tematikát (SpeechMagic). Bővebben: I.4.2.2.2. I.4.2.3.4. Médiaarchívumban keres˝ o rendszerek. Az itt leírt rendszerek működése nem korlátozódik pusztán a médiaarchívumban való keresésre, azonban e tulajdonságuknál fogva itt (is) teszünk róluk említést. VOXearch Az egyre nagyobb számban és méretben fellelhető köz-, illetve magángyűjteményi video- és audioarchívumok használhatóságát növeli a tartalmi keresési lehetőség (kulcsszófelismerés, hangbányászat) megvalósítása. Amíg ezekben az anyagokban nem lehet gyorsan tartalom alapján keresni, addig az archívumok nem szolgálhatnak hatékony információforrásul, kézi feldolgozásuk pedig gyakorlatilag lehetetlen. Az AITIA és a BME TMIT kidolgozott egy természetes nyelvet feldolgozó, beszédfelismerésen alapuló szókereső eljárást (Voxearch), amelynek segítségével lehetőség nyílik az archívumok automatikus indexelésére. A szókereső lehetőséget ad tartalmi keresésre több száz vagy akár több ezer kulcsszó alapján is. Az eljárások kidolgozásakor különös tekintettel kell lenni a magyar nyelv sajátosságaira, ezért más nyelvekre kidolgozott technológiák közvetlenül nem alkalmazhatóak. Az eredmények széles körű hasznosulásával az audiovizuális dokumentumok is szerves részévé válnak az információs társadalomnak, és várhatóan jelentősen kiszélesedik a felhasználók köre (http://www.aitia.hu). ALL Az EASAIER (Enabling Access to Sound Archives through Integration, Enrichment and Retrieval http://www.elec.qmul.ac.uk/easaier/) nevű EU FP6 project keretében az ALL kifejlesztett egy olyan rendszert, amely audiovizuális archívumokban hangzó (beszéd) formában megőrzött, szöveges átirattal nem rendelkező anyagok visszakeresését célozza. Az archivált fájlokat keresésre előkészítő modul a fájlok minden egyes beszédszakán felismerést végez, majd a felismert szavakkal indexeli az adott beszédszakaszt.A keresés számára kifejlesztett modul a szöveges adattárakból való visszakereséseknél megszokott keresési feltételek megfogalmazását igényli. Az archivált fájlokat keresésre előkészítő modul magyar és angol nyelvekre készült el prototípus szinten, a visszakeresést támogató modul nyelvfüggetlen. Az ALL rendszerét integráló komplett EASAIER rendszert eddig a British Library és a Caledonian
100
STRATÉGIAI KUTATÁSI TERV
University Spoken Words részlege telepítette. Az ALL kifejlesztett egy olyan – beszédfelismerésre támaszkodó – eszközt is, amely lehetővé teszi a (beszéd típusú hanganyaggal ellátott) archívumok tematikus kategorizálását, illetve strukturálását. A szoftver demonstrációs szinten működik. Mindroom A Digital Natives az AITIA-BME TMIT LVCSR technológiai támogatásával nyújt számos beszédfelismerési szolgáltatást (http://www.mindroom.hu). Ezek közül kiemelendő a magyar nyelvű multimédia anyagok kulcsszavas kereshetősége, a lejátszás azonnali kulcsszóra pozicionálása, az egyes video anyagok tartalmának szófelhőben történő megjelentetése és ennek alapján a tartalmak automatikus kategorizálása. I.4.2.4. Beszédfelismerési eszközök Az alábbiakban az egyes csoportok – általunk ismert – saját fejlesztésű beszédfelismerési eszközeit mutatjuk be. I.4.2.4.1. AITIA - BME TMIT/Beszédfelismerési csoport. ! Általános beszédfelismerési tudásforrás-építő eszköztár: többnyelvű fonológiai átíró rendszer, tetszőleges fokszámú N-gram és osztály N-gram nyelvi modell számító, hasonulási szabályrendszer modellező, speciális konverterek. ! Általános WFST (Weighted Finite State Transducer) modellező rendszer: mindenfajta nyelv- és beszédtechnológiai tudásforrások integrációjára és optimalizációjára. ! Általános WFST-HMM dekóder: szinte minden típusú beszédfelismerési feladatra alkalmas (beszélőfüggetlen, izoláltszavas, kapcsoltszavas, akár extra nagy szótáras folyamatos, morféma alapú, szóhatárokon átívelő koartikuláció modellezés stb.). Valós idejű, platformfüggetlen, több csatornás kliens-szerver alapú, beszélőadaptációt, diktálást támogató felismerő motor. ! Zajtűrő akusztikai előfeldolgozó: telefonos és általános beszédbemenetre. A fenti nyelvfüggetlen eszközök jelentős részben az NKFP-2/034/2004, illetve az azt megelőző NKFP-2001/2/008-as projekt keretein belüli közös munka eredményeként álltak elő. I.4.2.4.2. ALL. Az ALL beszédfelismerője nagyszótárral (több mint 300 000 szóval) működő rendszer, amely egy adott nyelven elhangzó, lexikálisan nyílt, folyamatos beszéd automatikus felismerését (beszédről szövegre való leképzését) célozza. A rendszer célja, hogy automatizálja a munka nagy részét, amikor digitálisan rögzített beszélt anyag (előadás, bírósági tárgyalás, önkormányzati ülés stb.) utólagos leírására van szükség. A rendszer statisztikai alapú, jelenleg magyar, valamint standard (amerikai és brit) angol nyelvekre működik, és viszonylag könnyen adaptálható más nyelvekre is.
I. MELLÉKLET – JELENKÉP
101
Az I.4.2.2.1. rész izolált parancsfelismerés bekezdésében leírt szoftver – összekötve egy primitív felolvasógéppel – vakoknak, gyengénlátóknak és kézsérülteknek nyújthat segítséget egy PC, digitális könyvtár stb. által nyújtott szolgáltatások igénybe vételéhez. A statisztikai alapú beszédfelismerők teljesítménye szempontjából kritikus, hogy a felismerő nyelvi tudásának bázisául megfelelő méretű beszédkorpusz álljon rendelkezésre. Ennek tudatában és érdekében az ALL kifejlesztett egy szoftvercsomagot, amely nagymértékben megkönnyíti különböző nyelvű és célú beszédkorpuszok építését, illetve verifikálását. I.4.2.4.3. BME TMIT/Beszédakusztika Laboratórium. A BME TMIT műhelye kifejlesztett egy statisztikai alapú, folyamatos beszédfelismerő motort és fejlesztői környezetet. Alkalmazható beszédfelismerő rendszerek betanításához, teszteléséhez (MKBF 1.0): újszerű akusztikai előfeldolgozásra épül, akusztikai szinten a rejtett Markov-modellt, illetve nyelvi szinten n-gramokat használ. Lehetőség van adott beszélőre (hangra) történő adaptálásra is. Az eszközzel középszótáras (1000–20000 szavas), valós időben működő beszédfelismerők készíthetők [158, 166]. I.4.2.4.4. SZTE. A Szegedi Tudományegyetem folyamatos, valós idejű diktálórendszere jelenleg néhány ezer szavas (kis-közepes méretű) szótár és erősen kötött nyelvi környezet esetén elfogadható hatékonysággal működik, és a nagyszótáros működés elérése céljából jelenleg is folyamatos fejlesztés alatt áll. A felismerő akusztikai szinten a közismert rejtett Markov-technológiát alkalmazza, de kísérleti szinten hasonló eredményeket tudtunk elérni egy neuronhálós megoldással is. A folyamatos diktálás nyelvi szintű algoritmikus támogatása az ún. szó n-gram-okat, különböző simítási módszereket, környezetfüggetlen nyelvtani modellezést, valamint MSD-kód (morfoszintaktikai leírás) alapú szabályrendszert foglal magában, valamint támogatja a beszédhangok közötti hasonulások kezelését. Itt további cél a magyar nyelv sajátosságainak (a nem kötött szórendnek és a toldalékolásnak) hatékonyabb modellezése [19]. A beszédfelismerő akusztikai része a standard beszélőfüggetlen diktálási lehetőség mellett beszélőadaptációs (a beszélő hangjához hozzáigazodó, ezáltal a pontosságot nagymértékben növelni képes) modult is tartalmaz. Emellett jelenleg a különböző beszélőnormalizációs technikák (VTLN, CMN) rendszerbe integrálása is folyamatban van. Ezek a módszerek további jelentős javulást tudnak hozni a beszédfelismerési hatásfokban. A folyamatos diktálórendszerek (beszélőfüggetlen felismerési feladatok esetén) jól alkalmazhatóak izolált szavak felismerésére, azaz egyszerű parancsszavakkal történő vezérlésre akár többezer szavas szótár mellett is (az izolált szavas beszédmód előnye a folytonossal szemben, hogy ilyenkor jóval nagyobb felismerési pontosság érhető el). Természetesen itt is lehetőség van beszélőadaptációra, ami a pontosságot nagymértékben növelheti. Az SZTE által fejlesztett izolált szavas rendszer már több projektben
102
STRATÉGIAI KUTATÁSI TERV
is felhasználásra került (pl. a Beszédmesterben [101], valamint egy önkormányzati keresőrendszerben).
I.4.3. Beszédadatbázisok A jelenlegi beszédfelismerők statisztikai alapon működnek, aminek legfőbb hátránya, hogy elkészítésükhöz (betanításukhoz) nagy méretű, megfelelően előkészített (szegmentált-annotált) beszédadatbázisokra van szükség. A következőkben a magyar nyelvre jelenleg rendelkezésre álló, nagyméretű adatbázisokat mutatjuk be részletesen. I.4.3.1. MTBA Az MTBA adatbázis vezetékes, illetve mobiltelefonos felvételeket tartalmaz, 500, az ország különböző pontjairól verbuvált adatközlő hangján. A felvételek tartalmaznak egy izolált szavas blokkot különféle vezényszavak, számok, vállalatnevek stb. felvételeivel, ami egyszerűbb vezérlésű telefonos dialógusrendszerek készítésénél lehet nélkülözhetetlen. Szerepel tovább minden beszélőtől 12 folyamatos mondat, melyek szöveganyagát úgy válogatták össze, hogy minél alaposabban lefedje a magyar nyelv hangkapcsolatait, s így a folyamatos felismerésben használatos beszédhangmodellek betanítását minél nagyobb mértékben segítse. A mondatok teljes anyaga fonetikai szinten szegmentálva és annotálva van, így kiválóan alkalmas a beszédhangmodellek betanítására vagy (amennyiben további, szegmentálatlan anyaggal is rendelkezésre áll) a modellek inicializálására [164]. Az adatbázis bárki számára hozzáférhető a BME TMIT terjesztésében http://alpha.tmit.bme.hu/speech/databases.php. I.4.3.2. MRBA Az MRBA adatbázis szerkezetében és szöveganyagának tartalmában nagyon hasonlít az MTBA-ra, azonban a felvételek PC-ken, a gépbe dugott mikrofonokon keresztül történtek, ugyanis az adatbázis elkészítésével a cél számítógépes-multimédiás beszédfelismerési alkalmazások (pl. diktálórendszerek) fejlesztésének a támogatása volt. A felvételek ebben az esetben 332 ember hanganyagát tartalmazzák, a felvételeket ismét az ország különböző pontjain rögzítették, változatos korú és iskolázottságú adatközlőktől. A mikrofonok is nagymértékben variálódtak, de a felvételek többsége olcsó, néhány ezer forintos mikrofonnal készült, ezáltal is szimulálva az átlagos felhasználási környezetet. A 332 beszélő közül 100-nak az anyaga manuálisan fonetikai szintű szegmentálásnak lett alávetve, de a többi felvétel is nagyon alapos lehallgatásos ellenőrzésen és annotáción esett át. Az adatbázisnak ezen része gépi úton lett szegmentálva, a futólagos kézi ellenőrzések szerint az algoritmus elfogadható módon oldotta meg a feladatot [162]. Az adatbázis bárki számára hozzáférhető a BME TMIT terjesztésében http://alpha.tmit.bme.hu/speech/databases.php.
I. MELLÉKLET – JELENKÉP
103
I.4.3.3. BABEL A BABEL adatbázis három különböző részből áll: izolált és kapcsolt szavas számjegy bemondásokból, CVC (mássalhangzó-magánhangzó-mássalhangzó) szótagokból, valamint folyamatos olvasott beszédből [167]. Mind az olvasott mondatokat, mind a számjegysorozatokat oly módon tervezték, hogy jól lefedjék a magyar nyelvben előforduló hangkombinációkat. A folytonos részben a bemondások némelyike suttogó hangú. Az adatbázis egy része fonémákra van szegmentálva és fel van címkézve. Az adatbázisban összesen 30 beszélő (15 férfi és 15 nő) hangja és körülbelül 2000 mondat és 14 000 kapcsolt szavas számjegysorozat szerepel. Bárki számára hozzáférhető az ELRA (European Language Resources Association) terjesztésében: http://www.elra.info. I.4.3.4. Tesztel A Tesztel adatbázis 100 beszélős, és jellegzetessége, hogy szándékosan nagy és természetes háttérzajban felvett mobiltelefonos bemondásokat tartalmaz. Az adatbázis létrehozásának célja az volt, hogy a különféle beszédfelismerők számára megfelelő tesztelési környezetet nyújtson, így a szöveg lehetőség szerint minél nagyobb mértékben fedje le a magyar nyelv fonémáit és hangkapcsolatait. Az adatbázis spontán beszéd mellett felolvasott neveket, dátumokat, számokat, városneveket és eldöntendő kérdéseket is tartalmaz (http://alpha.tmit.bme.hu/speech/hdbtesztelhu.php). A SpeechDat-E adatbázis vezetékes telefonon felolvasott szövegek hanganyagából áll, 1000 magyar beszélő hangját tartalmazza. Az adatbázis megfelelő hátterül szolgálhat a különböző hangvezérelt telekommunikációs szolgáltatásokat nyújtó rendszerek betanítására és tesztelésére [106]. I.4.3.5. SPECO A SPECO adatbázis ép és beszédhibás gyermekek beszédét tartalmazza különös tekintettel a réshangokra, affrikátákra és magánhangzókra. A hangok önállóan, hangkapcsolatokban, szavakban és mondatokban is szerepelnek. 72 5 és 10 év közötti gyermek beszéde került be az adatbázisba, amelynek célja a beszédhibás gyermekek beszédének fejlesztése [28]. I.4.3.6. Mássalhangzó- kapcsolódásokat bemutató beszédadatbázis Ez az első nyilvános magyar beszédadatbázis [1]. A mássalhangzók egymáshoz való kapcsolódását, a fellépő koartikulációs folyamatokat és azok akusztikai vetületét illusztrálja az adattár (http://fonetika.nytud.hu/cccc). Az adatbázis főleg a mássalhangzókapcsolódásokra koncentrál, minden mássalhangzó-kapcsolódásra egy mintaszót mutat be, azonban ezekben a mintaszavakban a szó összes hangkapcsolódásának a koartikulációs folyamata is tanulmányozható, tehát például CV és VC kapcsolódások is.
104
STRATÉGIAI KUTATÁSI TERV
A mássalhangzó-kapcsolatok alapvetően négy csoportban jelennek meg: CC, CCC, CCCC és CCCCC kapcsolódások. A CC elemekből minden ejthető kapcsolatra szerepel példa (alapvetően 453 kapcsolat), a többiekből a leggyakoribbak fordulnak elő (alapvetően 524 kapcsolat). Minden kapcsolat egy-egy mintaszón keresztül férfi és női ejtésben is megjelenik. A lekérdezés történhet beszédhang alapján, illetve betűkapcsolat alapján. A megtalált mintaszó (szavak) szöveges és hangátírásos formáját, valamint a hangidőtartamokat a kereső egy listában jeleníti meg egymás alatt. I.4.3.7. Beszédhang- kapcsolódásokat bemutató adattár A magyar beszédhang-kapcsolódások szerkezeti bemutatására is elkészült egy beszédadatbázis [2, 94]. A következő hangkapcsolódások tanulmányozhatók az adatbázisban: CV, VC, VV, CC-kből minden lehetséges elem, a VVV (15 féle), VVVV (1-1 minta), CCC (445 féle) és CCCC (74 féle) hangkapcsolódásokból a leggyakoribbak szerepelnek az adatbázisban (http://fonetika.nytud.hu/cvvc). Minden kapcsolatot egyegy mintaszón keresztül férfi és női ejtésben tartalmaz az adatbázis. A lekérdezés itt is betű- vagy beszédhang alapú. A megtalált mintaszó (szavak) szöveges és hangátírásos formáját, valamint a hangidőtartamait a kereső egy listában jeleníti meg egymás alatt. I.4.3.8. Magyar szavak hangid˝ otartamképeit bemutató adattár A magyar szavak hangidőtartamképeinek bemutatását szolgáló adatbázis 1,5 millió magyar szóalak hangidőtartam-szerkezetét tartalmazza a legújabb hangidőtartamkutatások eredményei alapján [93]. Az időmodell segítségével minden szóalakra kiszámították a benne szereplő hangok időtartamát, amely függ magától a hangtól, a hangkörnyezettől, a hang helyzetétől a szón belül, valamint a szó hosszától. A szó lekérésekor megjelennek a szó hangjai és azok egyenkénti időtartamai ms-ban. A kiválasztott szót a meghallgatáson felül meg is lehet tekinteni (rezgéskép). Az adatbázis elérhető: http://fonetika.nytud.hu. I.4.3.9. BEA A BEA elnevezésű (BEszélt nyelvi Adatbázis) fonetikailag megalapozott többfunkciós spontán beszéd adatbázis fejlesztése az MTA Nyelvtudományi Intézetében folyik [46]. Célja a mai budapesti beszélők beszédének rögzítése, továbbá anyag biztosítása különféle kutatásokhoz és gyakorlati alkalmazásokhoz. Az adatbázis többféle típusú spontán beszédet, utánmondást, felolvasást és társalgást tartalmaz. A 2007 őszén indult fejlesztés első szakaszában megtörtént az adatbázis tervezése, a korszerű felvételi (technikai) körülmények létrehozása, a tartalmi kritériumok meghatározása, a hangzó anyag lejegyzési stratégiáinak kialakítása, a lejegyzők betanítása, tizenöt próbafelvétel rögzítése és próbalejegyzések. 2008 januárjában megkezdődtek a tervezett
I. MELLÉKLET – JELENKÉP
105
beszédfelvételek és a lejegyzések. Három hónap alatt mintegy 15 órányi beszédanyag rögzítése történt meg (a munkálat folyamatos). A távlati cél 500 személy digitálisan tárolt, különféle szempontok szerint lekérdezhető beszédanyaga a megfelelő átírással együtt (http://www.nytud.hu/adatb/bea/index.html). I.4.3.10. Magyar híranyag- adatbázis Egy nemzetközi kutatócsoport tagjaként a BME TMIT Beszédakusztikai Kutatólaboratóriuma magyar híranyag-adatbázist hozott létre, amely 3 óra és 30 percnyi kép és hanganyagot tartalmaz. Az átiratok egységes formátumra hozása érdekében pontos címkézési módszereket és szabályokat dolgoztak ki és követtek a munkálatok során. A beszéd akusztikai paramétereire támaszkodva különböző nyelvfüggetlen eszközöket is fejlesztettek, amelyek segítségével lehetőség nyílik a beszéd-nem beszéd elkülönítésére, illetve a beszélő nemének meghatározására is [135, 136]. A BME TMIT által fejlesztett magyar nyelvű beszédadatbázisok összefoglaló adatai az I.7. táblázatban láthatók. Az adatbázisokról további információ a http://alpha. tmit.bme.hu/speech/databases.php honlapon érhető el.
I.4.4. Beszédterápia A beszédszintézis és a beszédfelismerés eredményeit számos beszédterápiás, illetve diagnosztikai céllal kidolgozott alkalmazás is hasznosítja a gyakorlatban. A következőkben ezeket ismertetjük. I.4.4.1. Beszéd- és halláspercepciós készségfejleszt˝ o eszköz (BME TMIT) A BME TMIT fejlesztése egy internetes alkalmazásban széleskörűen, ingyenesen hozzáférhető beszéd- és halláspercepciós készségfejlesztő eszköz [163]. A hallás- és beszédészlelést fejlesztő program egyrészt a hallássérült gyermekek intenzív hallásnevelésében nyújt segítséget, ahol didaktikusan meghatározott gyakorlatsorok, valamint nagyméretű hangadatbázis segítségével a hallási fogyatékosok megmaradt, beszűkült hallástartományát hangingerekkel igyekszik mozgósítani, az akusztikus érzékelő és differenciáló készséget fejleszteni, finomítani, illetve a felfogott beszédhangokra építő kombinációs készséget kiépíteni. A program másrészt a cochlearis implantáltak rehabilitációjának is újszerű segítőeszköze, amely implantált gyermekek-felnőttek számára egyaránt hasznos. A program hálózatról futtatható, tehát géptípustól függetlenül könnyen elérhető. Mindenki számára díjtalanul hozzáférhető.1 A hallás- és beszédészlelési terápia kidolgozása az Informatikai és Hírközlési Minisztérium és az Oktatási Minisztérium által közösen meghirdetett Kutatás-Fejlesztési program (ITEM) támogatásával készült - IHM - K+F ITEM/39. 1
http://berber.tmit.bme.hu/item/indexhtm_hu.php
106
STRATÉGIAI KUTATÁSI TERV
BABEL
SpeechDat-E MTBA
MRBA
SPECO (gyermek)
Forrás
Mikrofon
telefon (PSTN), telefon (PSTN) mobiltelefon (GSM)
mikrofon, hangkártya (PC)
mikrofon, hangkártya (PC)
Formátum
20 kHz, 16 8 kHz, 16 bit 8 kHz 16 bit bit (ISDN)
16 kHz, 16 bit
20050 Hz, 16 bit
süketszoba iroda, lakás, iroda, lakás, Rögzítési (tiszta utca, telefon- utca, telefon- iroda, lakás környezet beszéd) fülke stb. fülke stb.
süketszoba
80% olvasott, 80% olvasott, Bemondás olvasott beolvasott 20% spontán 20% spontán módja széd beszéd beszéd beszéd
olvasott, utánmondott beszéd
betűzött szahangkapvak, dátumok, csolatok, számok, számok, Beszédtípus szavak, tuszavak, lajdonnevek, folyamatos folyamatos beszéd beszéd
betűzött szavak, dátumok, számok, folyamatos szavak, tu- beszéd lajdonnevek, folyamatos beszéd
kitartott beszédhangok, hangkapcsolatok, szavak, mondatok
Bemondók 60 száma
500
332
76
Az anyag 66%-a: karakteres leírás, zajok, hibák jelölése. Az anyag 33%-a: fonémaszintű szegmentálás és címkézés
fonotipikus átírás, fonémaszintű szegmentálás
1000
Szavak: karakteres leírás, nincs szegfonotipikus karakteres mentálás, átírás foné- leírás, nincs zajok, hibák Feldolgozásmaszintű szegmentálás, jelölése. szegmen- zajok, hibák Folyamatos tálás jelölése beszéd: fonémaszintű szegmentálása és címkézése
I.7. táblázat. Magyar nyelvű beszédadatbázisok a BME TMIT fejlesztésében
I. MELLÉKLET – JELENKÉP
107
I.4.4.2. Beszédmester Az Oktatási Minisztérium támogatásával egy IKTA projekt (IKTA-055/2001) keretében a Szegedi Tudományegyetemen készült egy számítógéppel segített beszédjavításterápiára és olvasásfejlesztésre alkalmas eszköz, a BESZÉDMESTER. A szoftver jelentősége a beszédjavítás-terápiát tekintve abban áll, hogy olyan önműködő (gépi) beszédfelismerésen alapuló vizuális beszédkiértékelést valósít meg, amely hatékonyan támogatja a hallássérült gyermekeket az érthető beszédartikuláció elsajátításában. A hallássérültek beszédképzésének terápiája hagyományosan óriási türelmet és a szurdopedagógus állandó jelenlétét igényli, ugyanis a helyes hangképzés rögzítéséhez rengeteg ismétlésre és a pedagógus folyamatos korrekciójára van szükség. Ezt az ún. automatizálási folyamatot nagyban felgyorsítja és egyszerűbbé teszi a szoftver, amellyel a gyakorlás részben önállóan is végezhető. A szoftver olvasásfejlesztő moduljának célja, hogy játékos feladatokon és automatikus beszédfelismerésen keresztül a gyermek - a számítógépet motivációs eszközként használva - minél könnyebben és gyorsabban megtanulja a fonéma-graféma, ill. graféma-fonéma megfeleltetéseket. A program az általános olvasásfejlesztésen túl használható a részképességükben sérült gyermekek fejlesztő terápiájában, segítheti a diszlexiaterápiát és egyes beszédhibák kezelését is [101]. I.4.4.3. Varázsdoboz A VARÁZSDOBOZ az első olyan magyar beszédterápiás rendszer, amelyik felhasználja a beszédfelismerési kutatások eredményeit. A BME TMIT-en fejlesztették. Ez egy IBM PC-kompatibilis számítógépen futó multiszenzoros beszédoktató rendszer, amely segítséget nyújt ép hallású beszédhibás, valamint nagyothalló gyermekek és felnőttek helyes beszédképzésének kialakításában [159, 160]. A kiejtés és beszédfejlesztés során, fő hangsúllyal a gyermekek artikulációs bázisának megteremtésében, a magyar beszédhangok helyes kiejtésének kialakításában, rögzítésében és automatizálásában ad intenzív segítséget. Lehetőséget nyújt továbbá az alapvető, általános beszédjellemzők helyes kialakítására, gyakorlására is. Ilyen jellemzők a hangosság, hangmagasság, ritmus, hanglejtés, hangszín. A rendszer a beszédképzéskor keletkező hang jellemző paramétereit a számítógép képernyőjén szemléletes módon jeleníti meg. A hibás képzéskor megjelenő hangkép erősen eltér a helyes ejtést jellemző hangképtől. A rendszer ily módon lehetővé teszi, hogy a gyermek (vagy rosszul beszélő felnőtt) látva saját rossz hangképét, és annak eltérését a normál ejtés hangmintasorától, hatékonyan rávezethető legyen a helyes hangsor előállítására. Kialakítása lehetővé teszi, hogy kis (4-6 éves) gyermekek is hatékonyan sajátíthassák el a helyes beszédképzést. A képi megjelenítéssel egyidőben a korrekt módon ejtett hangminta: szótag, szó vagy mondat hangszórón keresztül hallható. A VARÁZSDOBOZ a szurdopedagógusok, logopédusok és foniáter orvosok munkáját teszi hatékonyabbá és változatosabbá, valamint a program lehetővé teszi, hogy a gyermekek otthon is önállóan gyakorolhassanak, játékos programokkal kötve
108
STRATÉGIAI KUTATÁSI TERV
le figyelmüket. Alkalmazási területek: ! hallássérültek beszédfejlesztése esetén; ! pösze beszéd korrekciójában; ! megkésett beszéd terápiája során; ! implantált betegek rehabilitációjára; ! és egyéb beszédsérülések esetén. Gyermekek és felnőttek (jelenleg még csak nők) egyaránt használhatják önállóan, vagy beszédterápiás szakemberek irányításával. A rendszer, az általános beszédjellemzők, mint a hangosság, hangmagasság, ritmus, hanglejtés, hangszín gyakorlására mellett főleg a sziszegők, és magánhangzók kialakítására, gyakorlására alkalmas. A rendszer részletes bemutatója megtekinthető a http://www.rcs.hu/sc.htm honlapon. I.4.4.4. MONDOM- 2000 A magyar beszédszintézis kutatások egy korai mellékága az a felismerés, hogy a hallássérülés kimutatására szintetikus beszédet is lehet használni (szabadalmi lajstromszám 193211). Erre a beszéd speciális frekvenciaszerkezete ad lehetőséget, valamint az a tény, hogy beszédszintézissel lehet csökkenteni a beszéd redundanciáját [47, 48]. Így olyan hangsorok állíthatók elő, amelyek a beszédnek csak a leglényegesebb komponenseit tartalmazzák. Jó hallás esetén ezek mindegyike észlelhető, a szót megértjük. Halláscsökkenés esetén a szóértés nem vagy csak részlegesen jön létre. Az eljárás újszerűsége abban is áll, hogy a hallásvizsgálatkor az anyanyelv-elsajátítás folyamatához hasonló feladatot kell teljesítenie a vizsgált személynek (vissza kell mondania a hallott szót). Ez kisgyermekek esetén megkönnyíti a vizsgálatot, ezért ezt az eljárást szívesen használják óvodákban rendszeres, tömeges hallásellenőrzésre (egy mérés 5 percnyi játékot igényel). A visszamondott szó alapján megítélhető, hogy a hallás ép, enyhén károsodott, illetve komoly probléma van. Probléma észlelése esetén a gyermeket orvosi vizsgálatra kell küldeni. A fenti elvek kidolgozói után az eljárás a GOH nevet kapta, a mérő készülék neve pedig: MONDOM-2000. A beszéd rendszeres ellenőrzése főleg kisgyermekek esetében fontos, hogy minél előbb kiderüljenek azok a rejtett problémák, amelyek a normál, elvárható beszédhallás fejlődését bármilyen formában akadályozzák. Az életkorspecifikus beszédészlelés és beszédmegértés az iskolai tanulás alapja, ezek a működések pedig a megfelelő beszédhalláson alapszanak. A szűrés eredménye jelzi, hogy a gyermek beszédhallása ép vagy gyengén, esetleg erősen károsodott. A MONDOM-2000 eredménye utal az esetleges problémákra, a zavar mértékét és típusát azonban orvosi vizsgálat során kell megállapítani. A készülék nem orvosi műszer: szűrő jellegű, általános információt nyújt a beszédhallás állapotáról. Kiválóan alkalmas rendszeres, gyors és tömeges szűrésre a gyermek közvetlen környezetében (akár a családban is). A készülék
I. MELLÉKLET – JELENKÉP
109
használatához szakképzettség nem szükséges, a szűréssel éppen az a cél, hogy a beszédhallás nem megfelelő fejlettsége minél korábban kiderüljön. A beszédhallásellenőrző készüléket előnyösen alkalmazhatják óvónők, logopédusok, pedagógusok és szülők (http://www.nikol.hu). I.4.4.5. SPECO többnyelv˝ u multimédiás oktatórendszer Egy nemzetközi együttműködés keretében került kifejlesztésre egy audiovizuális alapokon működő beszédejtést tanító és gyakoroltató rendszer 5-10 éves gyermekek számára. A beszédhibák javítása a beszéd paramétereinek valós idejű vizualizációjával valósul meg, mely – amellett, hogy akusztikailag és fonetikailag valósághű – a hallássérült gyermekek számára is könnyen értelmezhető. A gyakorlás során az elsődlegesen vizuális információk mellett kisebb szerepet kapnak az auditorikus ingerek is. A multimédiás rendszer angolra, svédre, szlovénre és magyarra lett kifejlesztve [168, 161]. I.4.4.6. Szemfüles A Szemfüles szoftver hallássérült gyermekek számára készült készségfejlesztő multimédiás eszköz. A magasfrekvenciás, „sziszegő” hangok megkülönböztetését gyakoroltatja. A program szókincsanyaga a leginkább problémás hangokra épül, a szavak illusztrálására képeket használ. A program a hallás- és beszédfejlesztés mellett így a szókincs bővítésében is szerepet tud vállalni játékos formában [73]. I.4.4.7. Beszédhang alapú fejmodell animáció Feldhoffer és Bárdi [41] kifejlesztett egy beszédhang alapú fejmodell animációt, amely siketek számára beszédjelből szájmozgást állít elő, hogy a siket felhasználó azt megérthesse. Ehhez elkészítettek egy audiovizuális adatbázist is. Az elért eredmények azt mutatják, hogy jelenleg 50% körüli felismerési pontosságot lehet elérni mind a képi, mind a hangi adatokból számolt animációra.
I.5. Összegzés A tanulmányban áttekintést nyújtottunk a nyelv- és beszédtechnológia területén zajló magyarországi kutatásokról és az elért fontosabb eredményekről. Beszámoltunk a hazai nyelv- és beszédtechnológiai műhelyek tevékenységéről és azok főbb fejlesztéseiről. Mivel a magyar nyelv jellegéből adódóan nem lehetett változtatás nélkül átvenni a nyugati nyelvekre – elsősorban az angolra – kifejlesztett technológiákat, azok adaptációjával, illetve saját rendszerek kialakításával sikerült ígéretes eredményeket elérni a morfoszintaxis, a számítógépes lexikográfia, az ontológiaépítés, a gépi fordítás, az
110
STRATÉGIAI KUTATÁSI TERV
információkinyerés, a korpusznyelvészet, a beszédszintézis és a beszédfelismerés témakörében. Az elméleti jellegű kutatások hozadékait a gyakorlatban is hasznosítják különféle számítógépes alkalmazások és technológiák. Örvendetesnek nevezhető a hazai műhelyek sikeres együttműködése: a kutatóközpontok (például egyetemek) és az ipari partnerek számos gyümölcsöző közös projektben vettek részt. A nyelv- és beszédtechnológiai szakemberek eszmecseréjére és kutatási eredményeinek publikálására szolgál több hazai tudományos rendezvény. A legrégebbi ilyen rendezvénysorozat az 1993-tól kétévenként megrendezett Beszédkutatás konferencia (MTA Nyelvtudományi Intézet). A Magyar Számítógépes Nyelvészeti Konferenciát 2003-tól kezdődően évente rendezték meg, eddig öt alkalommal [10, 11, 12, 13, 130]. Ezt a konferenciát 2009-től kezdődően kétévente fogják megrendezni. A magyar kutatók számos külföldi, illetve nemzetközi konferencián és folyóiratokban is ismertetik munkájukat, így a hazai nyelv- és beszédtechnológia eredményei nemzetközi viszonylatban is ismertek. A magyarországi nyelv- és beszédtechnológia jelenlegi helyzetét áttekintve elmondható, hogy sok területen szép, helyenként kiemelkedő, esetenként pedig világszínvonalú eredményeket és fejlesztéseket tud felmutatni a tudományterület. Remélhetőleg a jövőben is tovább gyarapszik a magyar fejlesztésű technológiák száma, illetve további jelentős kutatási eredményeket tudnak a terület szakemberei a világ elé tárni.
Hivatkozások 1. Abari Kálmán, Olaszy Gábor 2006. Internetes beszédadatbázis a magyar mássalhangzó-kapcsolódások akusztikai szerkezetének bemutatására. In: MSZNY 2006, 213-222. 2. Abari Kálmán, Olaszy Gábor 2007. A magyar beszéd hangkapcsolódásainak bemutatása az interneten. In: Beszédkutatás 2007. MTA Nyelvtudományi Intézet, Budapest. 3. Abari Kálmán, Olaszy Gábor, Kiss Géza, Zainkó Csaba 2006. Magyar kiejtési szótár az Interneten. In: MSZNY 2006, 223-230. 4. Agirre, Eneko, Edmonds, Philip 2006. Word Sense Disambiguation – Algorithms and Applications. In: Ide, N., Véronis J. (szerk.) Text, Speech and Language Technology Series, Volume 33. Springer, Dordrecht, The Netherlands. 5. Agirre, Eneko, Márquez, Lluis, Wicentowski, Richard (szerk.) 2007. Proceedings of the Fourth International Workshop on Semantic Evaluations (SemEval-2007). Association for Computational Linguistics, Prague, Czech Republic. 6. Alberti Gábor, Kleiber Judit, Ohnmacht Magdolna, Szilágyi Éva, Anne Tamm, Viszket Anita 2006. ReALIS projekt: a szóképzés általánosítása a számítógépes fordításban. In: MSZNY 2006, 41–51.
I. MELLÉKLET – JELENKÉP
111
7. Alberti Gábor, Kleiber Judit, Viszket Anita 2003. GeLexi projekt: Generatív LEXIkonon alapuló mondatelemzés. In: MSZNY 2003, 79–84. 8. Alberti Gábor, Kleiber Judit, Viszket Anita 2004. GeLexi projekt: Gépi fordítás totálisan lexikalista alapokon. In: MSZNY 2004, 73–80. 9. Alberti, Gábor 2004. ReAl Interpretation Sytem. In: L. Hunyadi, Gy. Rákosi, E. Tóth (szerk.): The Eighth Symposium on Logic and Language, Preliminary Papers. 1–12. 10. Alexin Zoltán, Csendes Dóra (szerk.) 2003. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szeged, Szegedi Tudományegyetem. 11. Alexin Zoltán, Csendes Dóra (szerk.) 2004. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2004). Szeged, Szegedi Tudományegyetem. 12. Alexin Zoltán, Csendes Dóra (szerk.) 2005. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2005). Szeged, Szegedi Tudományegyetem. 13. Alexin Zoltán, Csendes Dóra (szerk.) 2006. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2006). Szeged, Szegedi Tudományegyetem. 14. Alexin Zoltán, Gyimóthy Tibor, Csirik János 2004. Programcsomag információkinyerési kutatások támogatására. In: MSZNY 2004, 41–48. 15. Almási Attila, Sulyok Márton, Szarvas György 2008. A jurWN építésének tapasztalatai és az elkészített hierarchia felhasználási lehetőségei. Projektzáró jelentés az NKPF 2007 TUDORKA7 projekthez. Szegedi Tudományegyetem, Szeged. 16. Almási Attila, Vincze Veronika, Szarvas György, Farkas Richárd, Hegedűs István 2008. Named Entity korpusz létrehozása bűnügyi, bűnmegelőzési célú információkinyerő rendszer fejlesztéséhez. Projektzáró jelentés az NKPF 2007 TUDORKA7 projekthez. Szegedi Tudományegyetem, Szeged. 17. Alonge, Antonietta, Bloksma, Laura, Calzolari, Nicoletta, Castellon, Irene, Marti, Maria Antonia, Peters, Wim, Vossen, Piek 1998. The Linguistic Design of the EuroWordNet Database. Computers and the Humanities. Special Issue on EuroWordNet 32(2–3): 91–115. 18. Babarczy Anna, Gábor Bálint, Hamp Gábor, Kárpáti, András, Rung, András, Szakadát István 2005. HUnpars: mondattani elemző alkalmazás. In: MSZNY 2005, 20–28. 19. Bánhalmi András, Kocsor András, Paczolay Dénes 2005. Magyar nyelvű diktáló rendszer támogatása újszerű nyelvi modellek segítségével. In: MSZNY 2005, 337–347. 20. Bánhalmi, András, Paczolay, Dénes, Tóth, László, Kocsor, András 2007. Development of a Hungarian Medical Dictation System. Informatica 31(2): 241-246. 21. Bánhalmi, András, Paczolay, Dénes, Tóth, László, Kocsor, András 2008. Investigating the robustness of a Hungarian medical dictation system under various conditions. International Journal of Speech Technology 9(3-4): 121-131.
112
STRATÉGIAI KUTATÁSI TERV
22. Berend, Gábor, Farkas, Richárd 2008. Opinion Mining in Hungarian based on textual and graphical clues. In: Proceedings of the 4th Intern. Symposium on Data Mining and Intelligent Information Processing, Santander. 23. Busa-Fekete, Róbert, Kocsor, András, Pongor, Sándor 2008. Tree-Based Protein Classification. Computational Intelligence in Bioinformatics in the Series in Studies in Computational Intelligence 7:165–182, Springer-Verlag. 24. Chinchor, Nancy A. 1998. Overview of MUC-7/MET-2. In: Proceedings of the Seventh Message Understanding Conference (MUC-7). 25. Corbett, Peter, Batchelor, Colin, Teufel, Simone 2007. Annotation of Chemical Named Entities. In: Biological, translational, and clinical language processing. Prague, Czech Republic: Association for Computational Linguistics. 26. Cucerzan, Silviu, Yarowsky, David 1999. Language Independent Named Entity Recognition Combining Morphological and Contextual Evidence. In: Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora. College Park, MD, USA: Association for Computational Linguistics, 90–99. 27. Czap László 2004. Audiovizuális beszédfelismerés. In: MSZNY 2004, 293–300. 28. Csatári, Ferenc, Bakcsi, Zsolt, Vicsi, Klára 1999. A Hungarian Child Database for Speech Processing Applications. ESCA, Eurospeech 99. Budapest, Hungary, 1911–1914. 29. Csendes Dóra, Alexin Zoltán, Csirik János, Kocsor András 2005. A Szeged Korpusz és Treebank verzióinak története. In: MSZNY 2005, 409–412. 30. Csendes Dóra, Csirik János, Gyimóthy Tibor, Kocsor András 2005. The Szeged TreeBank. In: Proceedings of TSD 2005, Karlovy Vary, Czech Republic and LNAI vol. 3658, 123–132. 31. Dimitrova, Ludmila, Erjavec, Tomaz, Ide, Nancy, Kaalep, Heiki Jaan, Petkevic, Vladimir, Tufis, Dan 1998. Multext-east: Parallel and comparable corpora and lexicons for six Central and Eastern European languages. In: Christian Boitet and Pete Whitelock, (szerk.): Proceedings of the Thirty-Sixth Annual Meeting of the Association for Computational Linguistics and Seventeenth International Conference on Computational Linguistics. San Francisco, California, Morgan Kaufmann Publishers, 315–319, 32. Dutoit, Thierry, Pagel, Vincent, Pierret, Nicolas, Bataille, François, Van der Vreken, Olivier 1996. The MBROLA Project: Towards a Set of High-Quality Speech Synthesizers Free of Use for Non-Commercial Purposes. In: Proceedings of ICSLP’96, Philadelphia, vol. 3, 1393-1396. 33. Elekfi László 1994. Magyar ragozási szótár. Budapest, MTA Nyelvtudományi Intézet. 34. Farkas Richárd, Szarvas György 2006. Nyelvfüggetlen tulajdonnév-felismerő rendszer és alkalmazása különböző domainekre. In: MSZNY 2006, 22-31.
I. MELLÉKLET – JELENKÉP
113
35. Farkas, Richárd, Ormándi, Róbert, Jelasity, Márk, Csirik János 2008. A Manually Annotated HTML Corpus for a Novel Scientific Trend Analysis. In: The Eighth IAPR Workshop on Document Analysis Systems, Nara, Japan. 36. Farkas, Richárd, Szarvas, György 2008. Automatic construction of rule-based ICD-9-CM coding systems. BMC Bioinformatics 2008, 9 (Suppl 3). 37. Farkas Richárd, Vincze Veronika, Nagy István, Ormándi Róbert, Szarvas György, Almási Attila 2008. Web-based lemmatisation of Named Entities. In: Aleš Horák, Ivan Kopeček, Karel Pala, Petr Sojka (szerk.): Proceedings of the 11th International Conference on Text, Speech and Dialogue. Berlin, Heidelberg: Springer Verlag, 53–60. 38. Fegyó Tibor, Mihajlik Péter, Szarvas Máté, Tatai Péter, Tatai Gábor 2003. VoxenterTM – Intelligent Voice Enabled Call Center for Hungarian. In: EUROSPEECH 2003 - INTERSPEECH 2003: 8th European Conference on Speech Communication and Technology. Geneva, Svájc, 01/Sep/2003-04/Sep/2003., ISCA, 1905-1908. 39. Fék Márk, Pesti Péter, Németh Géza, Zainkó Csaba 2006. Generációváltás a beszédszintézisben. Híradástechnika 61:(3): 21–30. 40. Fék Márk, Pesti Péter, Németh Géza, Zainkó Csaba, Olaszy Gábor 2006. CorpusBased Unit Selection TTS for Hungarian. In: Text, Speech and Dialogue. Springer Verlag, Berlin, Heidelberg, 367-373. 41. Feldhoffer Gergely, Bárdi Tamás 2006. Látható beszéd: beszédhang alapú fejmodell animáció siketeknek. In: MSZNY 2006, 255–264. 42. Gábor Kata, Héja Enikő 2005. Vonzatok és szabad határozók szabályalapú kezelése. In: MSZNY 2005, 245-256. 43. Gábor, Kata 2007. Syntactic Parsing and Named Entity Recognition for Hungarian with Intex. In: S. Koeva, D. Maurel, M. Silberztein (szerk.): Formaliser les langues avec l’ordinateur: De Intex a Nooj. Presses Universitaires de FrancheComté, Besançon, 2007, 353-366. 44. Gábor, Kata 2008. Creating a Shallow-parsed Hungarian Corpus with Nooj. In: Proceedings of INTEX/Nooj Workshop, Budapest, 2008. 45. Gábor, Kata, Héja, Enikő 2007. Clustering Hungarian Verbs on the Basis of Complementation Patterns. In: Proceedings of the ACL’07 Conference, Prague, 2007. 46. Gósy Mária 2008. Magyar spontánbeszéd-adatbázis – BEA. In: Gósy Mária (szerk.) Beszédkutatás 2008, 194-207. 47. Gósy Mária, Olaszy Gábor, Hirschberg Jenő, Farkas Zsolt 1985. Szintetizált szavak használata a beszédaudiometriában I. Elvi alapok. In: Fül-orr-gégegyógyászat 31. Budapest, 92-96. 48. Gósy Mária, Olaszy Gábor, Hirschberg Jenő, Farkas Zsolt 1985. Szintetizált szavak használata a beszédaudiometriában II. Klinikai alkalmazás. In: Fül-orrgégegyógyászat 31. Budapest, 229-233.
114
STRATÉGIAI KUTATÁSI TERV
49. Grishman, Ralph., Sundheim, Beth. 1996. Message Understanding Conference6: a brief history. In: Proceedings of the 16th conference on Computational linguistics. Morristown, NJ, USA: Association for Computational Linguistics, 466–471. 50. Halácsy Péter, Kornai András, Németh László, Rung András, Szakadát István, Trón Viktor, Varga Dániel 2004. Hunglish: nyílt statisztikai magyar-angol gépi nyersfordító. In: MSZNY 2004, 81–84. 51. Halácsy Péter, Kornai András, Németh László, Sass Bálint, Varga Dániel, Váradi Tamás, Vonyó Attila 2005. A hunglish korpusz és szótár. In: MSZNY 2005, 134– 142. 52. Halácsy Péter, Kornai András, Németh Péter, Varga Dániel, 2007. Magyar Webkorpusz II.. In: MSZNY 2007, 278–280. 53. Halácsy, Péter, Kornai, András, Németh, László, Rung, András, Szakadát, István, Trón, Viktor 2004. Creating open language resources for Hungarian. In: Proceedings of the 4th international conference on Language Resources and Evaluation (LREC2004). 54. Halácsy, Péter, Kornai, András, Oravecz, Csaba 2007. HunPos – an open source trigram tagger. In: Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions. Association for Computational Linguistics, Prague, Czech Republic, 209–212. 55. Hócza András 2004. Teljes mondatszintaxis tanulása és felismerése. In: MSZNY 2004, 127–135. 56. http://cmusphinx.sourceforge.net/ 57. http://htk.eng.cam.ac.uk/ 58. http://julius.sourceforge.jp/ 59. Ide, Nancy, Véronis, Jean 1994. MULTEXT: Multilingual Text Tools and Corpora. In: Proceedings of the 15th conference on Computational linguistics, 588–592. 60. Karsai Győző 2006. ALL-SPIDSY - Beszélőazonosító rendszer. In: MSZNY 2006, 391–393. 61. Kempelen Farkas 1791. Mechanismus der Menschlichen Sprache. Bécs. 62. Kilgariff, Adam (szerk.) 2001. Proceedings of Senseval 2: Second International Workshop on the Evaluating Word Sense Disambiguation Systems. Association for Computational Linguistics, Toulouse, France. 63. Kim, Jin-Dong, Ohta, Tomoko, Tsuruoka, Yoshimasa, Tateisi, Yuka., Collier, Nigel 2004. Introduction to the bioentity recognition task at JNLPBA. In: Collier, N., Ruch, P., Nazarenko, A. (szerk.) Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications (JNLPBA). Geneva, Switzerland, 70–75.
I. MELLÉKLET – JELENKÉP
115
64. Kiss Gábor, Olaszy Gábor 1982. Interaktív beszédszintetizáló rendszer számítógéppel és OVE III beszédszintetizátorral. Magyar Fonetikai Füzetek 10, 21-45. 65. Kiss Gabriella, Kiss Margit, Pajzs Júlia 2001. Normalisation of Hungarian archaic texts. In: Papers in Computational Lexicography (Complex–01). Birmingham, University of Birmingham. 66. Kiss, Imre, Marcel Vasilache 2002. Low Complexity Techniques for Embedded ASR Systems. In: Proceedings of International Conference on Spoken Language Processing, (ICSLP2002), Denver, Colorado, USA, September 2002. 67. Kocsor, András, Tóth, László 2004. Application of Kernel-Based Feature Space Transformations and Learning Methods to Phoneme Classification. Applied Intelligence 21(2):129-142. 68. Kornai, András, Halácsy, Péter, Nagy, Viktor, Oravecz, Csaba, Trón, Viktor, Varga, Dániel 2006. Web-based frequency dictionaries for medium density languages. In: Adam Kilgarriff, Marco Baroni (eds.): Proceedings of the 2nd International Workshop on Web as Corpus, ACL, 1–9. 69. Kozareva, Zornitsa 2006. Bootstrapping Named Entity Recognition with Automatically Generated Gazetteer Lists. In: Proceedings of the Student Research Workshop at 11th Conference of the European Chapter of the Association for Computational Linguistics. Trento, Italy: Association for Computational Linguistics, 5–21. 70. Lee, Hyun-Sook, Park, Soo-Jun, Jang, Hyunchul, Lim, Jaesoo, Park, Seon-Hee 2004. Domain Independent Named Entity Recognition from Biological Literature. In: Proceedings of The 15th International Conference on Genome Informatics. Yokohama, Japan. 71. Lengyel István, Kis Balázs, Ugray Gábor 2004. MemoQ – új megközelítés a fordítástámogatásban. In: MSZNY 2004, 100–107. 72. Lükő Bálint 1998. A Voice Dialing System for Mobile Phones. In: Proceedings of TSD’98, Brno, Czech Republic. 73. Magyar Viktor, Sikné dr. Lányi Cecília, dr. Váry Ágnes 2005. „Szemfüles” – Hallási megkülönböztető képesség fejlesztő szoftver hallássérült gyerekek részére. In: MSZNY 2005, 445–449. 74. Mihajlik Péter 2006. Koartikulációs modellek a magyar nyelvű gépi beszédfelismerésben. In: MSZNY 2006, 231-242. 75. Mihajlik Péter, Fegyó Tibor, Tatai Péter 2006. Új eljárás a gépi beszédfelismerés környezetfüggő beszédhangmodelljeinek kialakítására. In: Gósy Mária (szerk.) Beszédkutatás 2006. Budapest: MTA Kiadó, 218-230. 76. Mihajlik, Péter, Fegyó, Tibor, Németh, Bottyán, Tüske, Zoltán, Trón, Viktor 2007. Towards Automatic Transcription of Large Spoken Archives in Agglutinating Languages: Hungarian ASR for the MALACH Project. In: Matousek, V., Mautner, P.
116
STRATÉGIAI KUTATÁSI TERV
(szerk.) Proceedings of Text, Speech and Dialogue: 10th International Conference, TSD 2007. Lecture Notes in Artificial Intelligence; 4629. .Berlin; Heidelberg: Springer-Verlag, 342-350. 77. Mihajlik, Péter, Fegyó, Tibor, Tüske, Zoltán, Ircing, Pavel 2007. A Morpho-graphemic Approach for the Recognition of Spontaneous Speech in Agglutinative Languages – like Hungarian, In: Interspeech 2007 - Eurospeech. Antwerpen, Belgium, 27/Aug/2007-31/Aug/2007., ISCA, 1497-1500. 78. Mihajlik, Péter, Tarján, Balázs, Tüske, Zoltán, Fegyó, Tibor 2009. Investigation of Morph-based Speech Recognition Improvements across Speech Genres. Submitted to INTERSPEECH’09, Brighton, UK, 2009. 79. Mihajlik, Péter, Tobler, Zoltán, Tüske, Zoltán, Gordos, Géza 2005. Evaluation and Optimization of Noise Robust Front-End Technologies for the Automatic Recognition of Hungarian Telephone Speech, In: Interspeech 2005 - Eurospeech: 9th European Conference on Speech Communication and Technology. Lisboa, Portugália, 04/Sep/2005-08/Sep/2005., ISCA, 2677-2680. 80. Mihalcea, Rada, Edmonds, Phil (szerk.) 2004. Proceedings of Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text. Association for Computational Linguistics, Barcelona, Spain. 81. Miháltz Márton, Naszódi Mátyás, Vajda Péter, Varasdi Károly 2007. NP-koreferenciák feloldása magyar szövegekben a Magyar WordNet ontológia segítségével. In: MSZNY 2007, 138–146. 82. Miháltz Márton, Pohl Gábor 2005. Javaslat szemantikailag annotált többnyelvű tanítókorpuszok automatikus előállítására jelentés-egyértelműsítéshez párhuzamos korpuszokból. In: MSZNY 2005, 418–419. 83. Miháltz, Márton 2005. Towards A Hybrid Approach To Word-Sense Disambiguation In Machine Translation. In: Proceedings Modern Approaches in Translation Technologies Workshop at RANLP-2005. Borovets. 84. Miháltz, Márton, Hatvani, Csaba, Kuti, Judit, Szarvas, György, Csirik, János, Prószéky, Gábor, Váradi, Tamás 2008. Methods and Results of the Hungarian WordNet Project. In: Tanács, Attila, Csendes, Dóra, Vincze, Veronika, Fellbaum, Christiane, Vossen, Piek (szerk.) Proceedings of the Fourth Global WordNet Conference (GWC 2008). Szeged, University of Szeged, 311–320. 85. Miller, George A., Beckwith, Richard, Fellbaum, Christiane, Gross, Derek, Miller, Katherine 1990. Introduction to WordNet: an On-line Lexical Database. International Journal of Lexicography, 3(4): 235–244. 86. Mohri, Mehryar, Pereira, Fernando C. N., Riley, Michael 2002. Weighted FiniteState Transducers in Speech Recognition. Computer Speech and Language 16(1):69-88. 87. Nagy István 2008. Összetett rendszer vállalkozások címeinek webről történő automatikus összegyűjtésére. Tudományos diákköri dolgozat. Szeged, Szegedi Tu-
I. MELLÉKLET – JELENKÉP
117
dományegyetem. 88. Nahamoo, David 2008. Superhuman Speech Recognition: Technology Challenges and Market Adaptation. 89. Németh, Géza, Olaszy, Gábor, Bartalis, Mátyás, Kiss, Géza, Zainkó, Csaba, Mihajlik, Péter, Haraszti, Csaba 2008. Automated Drug Information System for Aged and Visually Impaired Persons, In: Miesenberger, K., Klaus, J., Zagler, W., Karshmer, A. (szerk.) Computers Helping People with Special Needs, SpringerVerlag, 238-241. 90. Ng, Hwee Tou, Kwong, Olivia O. Y. (szerk.) 2006. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing. Sydney, Australia: Association for Computational Linguistics. 91. Nivre, Joakim, Hall, Johan, Kübler, Sandra, McDonald, Ryan, Nilsson, Jens, Riedel, Sebastian, Yuret, Deniz 2007. The CoNLL 2007 Shared Task on Dependency Parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLPCoNLL 2007, Prague, 915–932. 92. Olaszy Gábor 1999. Gépi beszédkeltés információs rendszerekhez Magyarországon. Akusztikai Szemle 3(1-3): 4-13. 93. Olaszy Gábor 2003. Magyar szóalakok hangidőtartam-térképei. In: Gósy Mária (szerk.) Beszédkutatás’2003, 113–133. 94. Olaszy Gábor 2007. Mássalhangzó-kapcsolódások a magyar beszédben. Tinta Kiadó, Budapest. 95. Olaszy Gábor, Kiss Géza, Németh Géza, Olaszi Péter 2000. Profivox - a legkorszerűbb hazai beszédszintetizátor. In: Gósy Mária (szerk.) Beszédkutatás’2000. MTA Nyelvtudományi Intézet, Budapest, 167–179. 96. Olaszy, Gábor, Németh, Géza, Gordos, Géza 1992. The MULTIVOX multilingual text-to-speech converter. In: Bailly, G., Benoit, C., Swallis, T. (szerk.) Talking Machines: Theories, Models and Applications. Amsterdam: Elsevier-North-Holland Publishers, 385–411. 97. Oravecz Csaba, Sass Bálint 2008. Szöveges lejegyzésből nyelvi adatbázis. I. BUSZI szimpózium, Budapest, 2008. december 9. 98. Oravecz, Csaba, Dienes, Péter 2002. Efficient Stochastic Part-of-Speech tagging for Hungarian. In: Proceedings of the Third International Conference on Language Resources and Evaluation, Las Palmas, 710-717. 99. Oravecz, Csaba, Dienes, Péter 2002. Large scale morphosyntactic annotation of the Hungarian National Corpus. In: Hollósi, Béla, Kiss-Gulyás, Judit (szerk.) Studies in Linguistics, Volume VI., Debrecen, 277-298. 100. Oravecz, Csaba, Váradi, Tamás 1999. Developing the Hungarian concise dictionary into a lexical database. In: Papers in Computational Lexicography, COMPLEX’99, Budapest, 229-236.
118
STRATÉGIAI KUTATÁSI TERV
101. Paczolay Dénes, Kocsor András, Sejtes Györgyi, Hégely Gábor 2004. A „Beszédmester” csomag bemutatása, informatikai és nyelvi aspektusok. Alkalmazott Nyelvtudomány IV. /1. 57–79. 102. Paczolay, Dénes, András Bánhalmi, András Kocsor 2007. Speaker Normalization Via Springy Discriminant Analysis and Pitch Estimation. TSD 2007, 246-253. 103. Paczolay, Dénes, Kocsor, András, Tóth, László 2003. Real-Time Vocal Tract Length Normalization in a Phonological Awareness Teaching System. In: Matousek, V., Mautner, P., Moucek, R., Tauser, K. (szerk.) Proceedings of Text, Speech and Dialogue: 6th International Conference, TSD 2003. Springer Verlag, 309314. 104. Pajzs Júlia 1990. Számítógép és lexikográfia. Budapest, MTA Nyelvtudományi Intézet. 105. Pajzs Júlia 2003. A készülő Akadémiai nagyszótár számítógépes vonatkozásai. In: MSZNY 2003, 203–210. 106. Pollak, Petr, Cernocky, Jan, Boudy, Jerome, Choukri, Khalid, van den Heuvel, Henk, Vicsi, Klára, Virág, Attila, Siemund, Rainer, Majewski, Wojciech, Sadowski, Jerzy, Staroniewicz, Piotr, Tropf, Herbert, Kochanina, Julia, Ostrouchov, Alexander 2000. Speech Dat(E) - Eastern European Telephone Speech Databases. In: Proceedings of LREC 2000 Satelite workshop XLDB - Very large Telephone Speech Databases, Athen, 20–25. 107. Prószéky Gábor 2000. A magyar morfológia számítógépes kezelése. In: Kiefer Ferenc (szerk.): Strukturális magyar nyelvtan 3. Morfológia. Budapest, Akadémiai Kiadó, 1021–1063. 108. Prószéky Gábor 2001. A nyelvtechnológia és a modern nyelvészet viszonyáról. In: Andor József, Szűts Tibor, Terts István (szerk.) Színes eszmék nem alszanak. . . (Szépe György 70. születésnapjára), Pécs, Lingua Franca, 991–998. 109. Prószéky Gábor 2005. A nyelvtechnológia (és) alkalmazásai. e-Világ Kiskönyvtár. Budapest, Aranykönyv Kiadó. 110. Prószéky Gábor, Olaszy Gábor, Váradi Tamás 2003. Nyelvtechnológia. In: Kiefer Ferenc (szerk.): A magyar nyelv kézikönyve. Budapest, Akadémiai Kiadó, 567– 588. 111. Prószéky, Gábor, Tihanyi, László 1993. Humor: High-Speed Unification Morphology and Its Applications for Agglutinative Languages. La tribune des industries de la langue 10, OFIL, Paris, France, 28–29. 112. Prószéky, Gábor, Tihanyi, László 2002. MetaMorpho: A Pattern-Based Machine Translation System. In: Proceedings of the 24th ’Translating and the Computer’ Conference, ASLIB, London, United Kingdom, 19–24. 113. Ruppenhoffer, Josef, Ellsworth, Michael, Petruck, Miriam R.L., Johnson, Christopher R., Scheffczyk, Jan 2006. FrameNet II: Extended Theory and Practice. Elérhető: http://framenet.icsi.berkeley.edu/book/book.pdf.
I. MELLÉKLET – JELENKÉP
119
114. Sass Bálint 2006. Igei vonzatkeretek az MNSZ tagmondataiban. In: MSZNY 2006, 15–21. 115. Sass Bálint 2007. "Mazsola" - eszköz a magyar igék bővítményszerkezetének vizsgálatára. In: Váradi Tamás (szerk.): I. Alkalmazott Nyelvészeti Doktorandusz Konferencia kötete. MTA Nyelvtudományi Intézet, Budapest, 137-149. 116. Sass Bálint 2007. A Hunglish korpusz mint oktatási segédeszköz. In: Heltai Pál (szerk.) Nyelvi modernizáció - szaknyelv, fordítás, terminológia, a MANYE 2006. évi XVI. kongresszusának kötete. MANYE - Szent István Egyetem, Pécs - Gödöllő. 117. Sass Bálint 2007. First attempt to automatically generate Hungarian semantic verb classes. In: Davies, M., Rayson, P., Hunston, S., Danielsson, P. (szerk.) Proceedings of the 4th Corpus Linguistics Conference. Birmingham. 118. Sass, Bálint 2008. The Verb Argument Browser. In: Sojka, P., Horák, A., Kopecek, I., Pala, K. (szerk.): 11th International Conference on Text, Speech and Dialog, TSD 2008. Lecture Notes in Computer Science 5246. Berlin, Heidelberg, Springer Verlag, 187-192. 119. Sekine, Satoshi, Isahara, Hitoshi 2000. IREX: IR and IE evaluation project in Japanese. Elérhető: nlp.cs.nyu.edu/sekine/papers/lrec00-irex.ps. 120. Senellart, Jean, Dienes, Péter, Váradi, Tamás 2001. New generation Systran translation system. In: Proceedings of the Eighth MT Summit. Santiago de Compostela, Spain. 121. Szakadát István, Szőts Miklós, Gyepesi György, Varasdi Károly, Ungváry Rudolf, Simonyi András, Gyarmathy Zsófia, Szaszkó Sándor, Szeredi Dániel 2006. MEO ontológiamodell. In: MSZNY 2006, 377–383. 122. Szarvas, György, Farkas, Richárd, Busa-Fekete, Róbert 2007. State-of-the-art anonymization of medical records using an iterative machine learning framework. Journal of the American Medical Informatics Association 14(5):574–80. 123. Szarvas, György, Farkas, Richárd, Felföldi, László, Kocsor, András, Csirik, János 2006. A highly accurate Named Entity corpus for Hungarian. In: Proceedings of International Conference on Language Resources and Evaluation. 124. Szarvas, György, Iván, Szilárd, Bánhalmi, András, Csirik, János 2006. Automatic Extraction of Semantic Content from Medical Discharge Records. In: 5th International Conference on System Science and Simulation in Engineering, WSEAS Transactions on Systems. 125. Szarvas, György, Vincze, Veronika, Farkas, Richárd, Csirik, János 2008. The BioScope corpus: annotation for negation, uncertainty and their scope in biomedical texts. In: Proceedings of BioNLP ACL-2008 Workshop, Columbus, Ohio, USA. 126. Szaszák György, Vicsi Klára 2005. Folyamatos beszéd szószintű automatikus szegmentálása szupraszegmentális jegyek alapján. In: MSZNY 2005, 360–370.
120
STRATÉGIAI KUTATÁSI TERV
127. Szaszák, György, Vicsi, Klára 2007. Speech recognition supported by prosodic information for fixed stress languages. In: Proceedings of TSD conference, 262269. 128. Szaszák, György, Vicsi, Klára 2008. Using prosody for the improvement of automatic speech recognition. Híradástechnika 63(7): 35-40. 129. Takács, György, Tihanyi, Attila, Bárdi, Tamás, Feldhoffer, Gergely, Srancsik, Bálint 2006. Signal Conversion from Natural Audio Speech to Synthetic Visible Speech. In: International Conference on Signals and Electronic Systems. Lodz, Poland, September 2006. 130. Tanács Attila, Csendes Dóra (szerk.) 2007. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2007). Szeged, Szegedi Tudományegyetem. 131. Tanács, Attila, Csendes, Dóra, Vincze, Veronika, Fellbaum, Christiane, Vossen, Piek (szerk.) 2008. Proceedings of the Fourth Global WordNet Conference. GWC 2008. University of Szeged, Department of Informatics. 132. Tarján Balázs 2008. Folyamatos nagyszótáras magyar nyelvű beszéd felismerése. Diplomaterv, BME-VIK. 133. Tarján Balázs 2008. Multimédia anyagok automatikus indexálása magyar nyelven, felügyelet nélküli morfológiai tanuló módszer alkalmazásával. BME-VIK TDK I. díj. Konzulens: Mihajlik Péter, Fegyó Tibor. 134. Tarján Balázs, Györki Milán, Mihajlik Péter, Gordos Géza 2006. Eredmények a magyar nyelvű beszédfelismerési konfidenciabecslésben. In: MSZNY 2006, 243–254. 135. Teleki Csaba, Vicsi Klára 2006. Többnyelvű európai híranyag-adatbázis gyűjtése és feldolgozási módszereinek kutatása multimédiás műsorok automatikus feldolgozásához. Híradástechnika 2006/8: 3-10. 136. Teleki, Csaba, Velkei, Szabolcs, Tóth, Szabolcs Levente, Vicsi, Klára 2005. Development and evaluation of a Hungarian Broadcast News Database. In: Forum Acusticum, Budapest, 265-269. 137. Tihanyi László 2005. A MetaMorpho fordítóprogram projekt 2005-ben. In: MSZNY 2005, 99–107. 138. Tihanyi László 2007. A MetaMorpho projekt 2007-ben – a sorozat vége. In: MSZNY 2007, 179–186. 139. Tjong Kim Sang, Erik F. 2002. Introduction to the CoNLL-2002 Shared Task: Language-Independent Named Entity Recognition. In: Proceedings of CoNLL2002, Taipei, Taiwan, 155–158. 140. Tjong Kim Sang, Erik F., De Meulder, Fien 2003. Introduction to the CoNLL2003 Shared Task: Language-Independent Named Entity Recognition. In: Daelemans, W., Osborne, M. (szerk.) Proceedings of CoNLL-2003. Edmonton, Canada, 142–147.
I. MELLÉKLET – JELENKÉP
121
141. Tóth, Krisztina, Farkas, Richárd, Kocsor, András 2008. Hybrid algorithm for sentence alignment of Hungarian-English parallel corpora. Acta Cybernetica 18(3): 463–478. 142. Tóth, László, Frankel, Joe, Gosztolya, Gábor, King, Simon 2008. Cross-lingual Portability of MLP-Based Tandem Features - A Case Study for English and Hungarian. In: Proceedings of Interspeech 2008, 2695–2698. 143. Tóth, László, Kocsor, András, Kovács, Kornél 2000. A Discriminative Segmental Speech Model and its Application to Hungarian Number Recognition. In: Proceedings of TSD2000, LNAI 1902. Springer Verlag, 307-313. 144. Tóth, Szabolcs Levente, Sztahó, Dávid, Vicsi, Klára 2007. Speech Emotion Perception by Human and Machine. In: Proceedings of COST Action 2102 International Conference, Patras, Greece, October 29-31, 2007. Revised Papers in Verbal and Nonverbal Features of Human-Human and Human-Machine Interaction. Springer, 213-224. 145. Trón, Viktor 2004. Hunlex – morfológiai szótárkezelő rendszer. In: MSZNY 2004, 177–182. 146. Trón, Viktor, Halácsy, Péter, Rebrus, Péter, Rung, András, Vajda, Péter, Simon, Eszter 2006. Morphdb.hu: Hungarian lexical database and morphological grammar. In: Proceedings of 5th International Conference on Language Resources and Evaluation. ELRA, 1670-1673. 147. Trón, Viktor, Németh, László, Halácsy, Péter, Kornai, András, Gyepesi, György, Varga, Dániel 2005. Hunmorph: open source word analysis. In: Proceedings of ACL. 148. Tufiş, Dan. (szerk.) 2004. Romanian Journal of Information Science and Technology. Special Issue on BalkaNet 7(1–2). 149. Tüske Zoltán, Mihajlik Péter, Fegyó Tibor 2007. Spontán, nagyszótáras, folyamatos beszéd gépi felismerési pontosságának növelése beszélőadaptációval a MALACH projektben. In: MSZNY 2007, 47-55. 150. Tüske Zoltán, Simon Márta, Mihajlik Péter, Fegyó Tibor 2007. Érzelmek automatikus felismerése a beszéd akusztikus jellemzői alapján. In: Gósy Mária (szerk.) Beszédkutatás 2007. Budapest: MTA Kiadó, 151-161. 151. Tüske, Zoltán, Mihajlik, Péter, Tobler, Zoltán, Fegyó, Tibor 2005. Robust Voice Activity Detection Based on the Entropy of Noise-Suppressed Spectrum. In: Interspeech 2005 - Eurospeech: 9th European Conference on Speech Communication and Technology. Lisboa, Portugália, 04/Sep/2005-08/Sep/2005., ISCA, 245-248. 152. Uzuner, Özlem., Luo, Yuan, Szolovits, Peter 2007. Evaluating the State-of-theArt in Automatic De-identification. Journal of the American Medical Informatics Association 14(5):550–563, http://www.jamia.org/cgi/content/abstract/14/5/550.
122
STRATÉGIAI KUTATÁSI TERV
153. Váradi Tamás 2006. Részleges gépi fordítás a NooJ rendszerben. In: MSZNY 2006, 202–210. 154. Váradi Tamás, Gábor Kata 2004. A magyar Intex fejlesztéséről. In: MSZNY 2004, 3-10. 155. Váradi, Tamás 2002. The Hungarian National Corpus. In: Proceedings of LREC2002. Las Palmas, Spain, 385-389. 156. Váradi, Tamás 2003. Shallow parsing of hungarian business news. In: Proceedings of the Corpus Linguistics 2003 Conference, Lancaster, 845-851. 157. Varga Dániel, Simon Eszter 2006. Magyar nyelvű tulajdonnév-felismerés maximum entrópia módszerrel. In: MSZNY 2006, 32–38. 158. Velkei Szabolcs, Vicsi Klára 2004. Beszédfelismerő modellépítési kísérletek akusztikai, fonetikai szinten, kórházi leletező beszédfelismerő kifejlesztése céljából. In: MSZNY 2004, 307–314. 159. Vicsi Klára 2002. Varázsdoboz. Audiovizuális számítógépes beszédfejlesztő program beszédhibás gyerekek részére. Démoszthenész Hírmondó, 2002. április 13. sz., 8–16. 160. Vicsi Klára 2003. Beszédtanítást segítő számítógépes rendszerek áttekintése. Alkalmazott Nyelvtudomány 3(1). MTA Nyelvtudományi Bizottság. 161. Vicsi Klára, Kocsor András, Teleki Csaba, Tóth László 2004. Beszédadatbázis irodai számítógép-felhasználói környezetben. In: MSZNY 2004, 315-318. 162. Vicsi Klára, Szaszák György, Németh Zsolt 2007. Prozódiai információ használata az automatikus beszédfelismerésben: mondatmodalitás felismerése. In: MSZNY 2007, 69-80. 163. Vicsi Klára, Teleki Csaba, Keresztessy Éva 2003. Interaktív hallás - és beszédészlelési terápia az Interneten keresztül. IME Az egészségügyi vezetők szaklapja 3(1): 31. 164. Vicsi Klára, Tóth László, Kocsor András, Gordos Géza, Csirik János 2002. MTBA - Magyar nyelvű telefonbeszéd adatbázis. Híradástechnika 8:35–39. 165. Vicsi Klára, Velkei Szabolcs, Szaszák György, Borostyán Gábor, Gordos Géza 2006. Folyamatos, középszótáras, beszédfelismerő rendszer fejlesztési tapasztalatai: kórházi leletező, beszédfelismerő. Híradástechnika 2006/3: 14-20. 166. Vicsi Klára, Velkei Szabolcs, Szaszák György, Borostyán Gábor, Teleki Csaba, Tóth Szabolcs Levente 2005. Középszótáras, folyamatos beszédfelismerő rendszer fejlesztési tapasztalatai. In: MSZNY 2005, 348-359. 167. Vicsi Klára, Víg Attila 1998. Az első magyar nyelvű beszédadatbázis. In: Gósy Mária (szerk.): Beszédkutatás ’98. Budapest, MTA Nyelvtudományi Intézet, 163– 177. 168. Vicsi, Klára 2006. Computer-Assisted Pronunciation Teaching and Training Methods Based on the Dynamic Spectro-Temporal Characteristics of Speech. In:
I. MELLÉKLET – JELENKÉP
123
Divenyi, Pierre, Meyer, Georg (szerk.) Dynamics of Speech Production and Perception. IOS Press, Amsterdam, 283-307. 169. Vicsi, Klára, Roach, Peter, Öster, Anne-Marie, Kacic, Zdravko, Barczikay, Péter, Tantos, András, Csatári, Ferenc, Bakcsi, Zsolt, Sfakianaki, Anna 2000. A Multimedia Multilingual Teaching and Trainaing System For Speech Handicapped Children. International Journal of Speech Technology Vol. 3., 289-300. 170. Vicsi, Klára, Szaszák, György 2006. Automatic Segmentation fo Continuous Speech on Word Level Based on Supra-segmental Features. International Journal of Speech Technology 8(4): 363-370. 171. Vicsi, Klára, Szaszák, György 2007. Prosodic Cues for Automatic Word Boundary Detection in ASR. In: Fundamentals of Verbal and Nonverbal Communication and the Biometric Issue, NATO Security through Science Series E-Vol.18. IOS Press, 161-170. 172. Vicsi, Klára, Szaszák, György 2008. Using Prosody for the Improvement of ASR: Sentence Modality Recognition. In: Interspeech 2008. Brisbane, Ausztrália. ISCA Archive, http://www.isca-speech.org/archive. 173. Vincze, Veronika, Szarvas, György, Almási, Attila, Szauter, Dóra, Ormándi, Róbert, Farkas, Richárd, Hatvani, Csaba, Csirik, János 2008. Hungarian Wordsense Disambiguated Corpus. In: Proceedings of 6th International Conference on Language Resources and Evaluation, Marrakech, Morocco. 174. Vincze, Veronika, Szarvas, György, Csirik, János 2008. Why are wordnets important? In: Cepisca, Costin, Kouzaev, Guennadi A., Mastorakis, Nikos M. (eds.) New Aspects on Computing Research. Proceedings of the 2nd European Computing Conference (ECC’08). WSEAS Press, 316–322. 175. Vincze, Veronika, Szarvas, György, Farkas, Richárd, Móra, György, Csirik, János 2008. The BioScope Corpus: biomedical texts annotated for uncertainty, negation and their scopes. BMC Bioinformatics 9 (Suppl 11):S9 doi:10.1186/14712105-9-S11-S9 176. Zainkó, Csaba, Németh Géza 2001. Statistical Text Processing for Automatic Synthesis of Speech. In: Proceedings of ECMCS2001 (EURASIP Conference on Digital Signal Processing for Multimedia ComÍmunications and Services), 644647. 177. Zibert, Janez, Mihelic, France, Martens, Jean-Pierre, Meinedo, Hugo, Neto, Joao, Docio, Laura, Garcia-Mateo, Carmen, David, Petr, Nouza, Jindrich, Pleva, Matus, Cizmar, Anton, Zgank, Andrej, Kacic, Zdravko, Teleki, Csaba, Vicsi, Klára 2005. The COST 278 Broadcast News Segmentation and Speaker Clustering Evaluation, Overview, Methodology, Systems, Results. In: Interspeech 2005, Lisszabon, 629-632.
124
STRATÉGIAI KUTATÁSI TERV
Függelék Rövidítések jegyzéke AITIA ALL BEA BME
AITIA International Informatikai ZRt. Alkalmazott Logikai Laboratórium Kutató-fejlesztő Szövetkezet Beszélt Nyelvi Adatbázis
BNC
Budapesti Műszaki és Gazdaságtudományi Egyetem Budapesti Műszaki és Gazdaságtudományi Egyetem Szociológia és Kommunikáció Tanszék Média Oktatási és Kutató Központja Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszéke British National Corpus
BUSZI
Budapesti Szociolingvisztikai Interjú
DTD
Document Type Definition
ÉKSz ELRA
Értelmező Kéziszótár European Language Resources Association
GMM
Gauss Mixture Model
HMM
Rejtett Markov-modell / Hidden Markov Model
HuWN
Magyar WordNet / Hungarian WordNet
IE
információkinyerés / Information Extraction
IR
információ-visszakeresés / Information Retrieval
Kilgray
ME
Kilgray Fordítástechnológiai Kft. nagyszótáras folyamatos beszédfelismerési technika / Large Vocabulary Continuous Speech Recognition Miskolci Egyetem
MEO
Magyar Egységes Ontológia
MNSZ
Magyar Nemzeti Szövegtár
MRBA
Magyar Referencia Beszédadatbázis
MSD
Morpho-Syntactic Description
BME MOKK BME TMIT
LVCSR
I. MELLÉKLET – JELENKÉP
125
MSZNY
Magyar Számítógépes Nyelvészeti Konferencia
MTBA
Magyar Telefonbeszéd-adatbázis
NE
névelem / Named Entity
NER
névelem-felismerés / Named Entity Recognition
PPKE
Pázmány Péter Katolikus Egyetem
SVM
Support Vector Machine
SZTE
Szegedi Tudományegyetem
TEI
Text Encoding Initiative
WFST
Weighted Finite State Transducer jelentés-egyértelműsítés / Word Sense Disambiguation Extended Markup Language
WSD XML
II Jöv˝ okép Tartalomjegyzék II.1. Bevezető . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
126
II.2. A szemantikus technológiák . . . . . . . . . . . . . . . . . . . . .
128
II.3. A közeljövő kutatásai . . . . . . . . . . . . . . . . . . . . . . . . .
132
II.3.1. Beszédtechnológia . . . . . . . . . . . . . . . . . . . . . . .
133
II.3.2. Multimodális technológiák . . . . . . . . . . . . . . . . . . .
134
II.3.3. Alaktan (morfológia) . . . . . . . . . . . . . . . . . . . . . .
134
II.3.4. Mondattan (szintaxis) . . . . . . . . . . . . . . . . . . . . . .
135
II.3.5. Jelentéstan (szemantika) . . . . . . . . . . . . . . . . . . . .
135
II.3.6. Szövegtan (diskurzuselemzés) . . . . . . . . . . . . . . . .
136
II.3.7. Korpusznyelvészet . . . . . . . . . . . . . . . . . . . . . . .
137
II.3.8. Gépi fordítás . . . . . . . . . . . . . . . . . . . . . . . . . . .
137
II.3.9. Információkinyerés és -visszakeresés . . . . . . . . . . . . .
138
II.3.10. Infrastruktúra . . . . . . . . . . . . . . . . . . . . . . . . . .
139
II.3.11. Alapkutatás . . . . . . . . . . . . . . . . . . . . . . . . . . .
140
II.4. Kiemelt alkalmazások . . . . . . . . . . . . . . . . . . . . . . . . .
141
II.4.1. A gazdasági szféra . . . . . . . . . . . . . . . . . . . . . . .
141
II.4.2. Állam- és közigazgatás . . . . . . . . . . . . . . . . . . . . .
141
II.4.3. Egészségügy . . . . . . . . . . . . . . . . . . . . . . . . . .
142
II.4.4. Oktatás . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
143
II.5. Összefoglalás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
144
II.1. Bevezet˝ o Az itt vázolt jövőképazzal számol, hogy a tízes években a nyelv- és beszédtechnológia egyes jól meghatározott részterületein ugyanolyan áttörés következik be, mint amilyet a nyolcvanas években az írás- és beszédfelismerés területén már láttunk. Bár stratégiai terv készítése valamiféle jövőkép nélkül lehetetlen, hangsúlyozzuk, hogy az itt
˝ II. MELLÉKLET – JÖVOKÉP
127
leírtakat nem futurisztikus víziónak, hanem nagyon is praktikus, a közeljövő teendőit erősen meghatározó tervnek szánjuk. Két területen várunk áttörést (nemcsak a magyarra, hanem a világ összes nyelvére): egyrészt a szemantikus technológiákban, másrészt a szűkebb értelemben vett mondattanban (szintaxis). Ezeket az áttöréseket megelőlegezik egyrészt a szemantikus web körüli intenzív fejlődés, másrészt a modernebb tanulóalgoritmusok, különösen a valószínűleg közelítőleg helyes (probably approximately correct, PAC) és a határátmenetben azonosító (identification in the limit, iitl) algoritmusok rohamos fejlődése. De nem csak tudományos, hanem üzleti szempontból is láthatóak ezek az irányok, például abból, hogy tavaly a szemantikus web kiépítésében erősen érdekelt Microsoft felvásárolta a legkorszerűbb mondatelemző technológiát megtestesítő Powerset rendszert is. Nyilvánvaló, hogy a HLT-platformot elsősorban foglalkoztató magyar nyelv- és beszédtechnológia bizonyos mértékig követő helyzetben van a nemzetközi kutatás fókuszában álló angol HLT-hez képest. Ez még a magyarnál jóval nagyobb erőforrásokat felmutatni képes francia, olasz, német, illetve spanyol (bevett rövidítéssel FIGS, French-Italian-German-Spanish) technológiára is igaz, annak ellenére hogy a FIGS nyelvek nemcsak a Magyarországnál gazdaságilag több súlycsoporttal jelentősebb anyaországok támogatását élvezik, hanem sok tekintetben az EU soknyelvűségi politikájának is ezek állnak a középpontjában. Ehhez képest talán meglepően hangzik, ha azt állítjuk, hogy a magyar nem kis ország kis nyelve, hanem benn van a digitális elitben, a világon beszélt mintegy 5-6 ezer nyelv és nyelvjárás (a kettő gyakran nehezen választható el) közül az első húszban, megelőzve olyan százmilliók által beszélt nyelveket mint az indonéz, az arab, vagy a hindi. Mielőtt tovább lépnénk, lássuk ezt konkrét adatokon, a Wikipédia (melynek a szemantikus technológiák katalizálásában betöltött szerepéről még külön beszélünk) 2009 áprilisi cikkszámait tükröző táblázat szerint: angol
2,844,389 olasz
559,641 svéd
312,919 ukrán
143,376
német
893,553 holland 531,289 kínai
249,542 török
127,418
francia
791,596 portugál 473,225 norvég 214,450 cseh
125,109
lengyel
597,084 spanyol 464,680 finn
japán
579,270 orosz
200,868 magyar 123,920
380,179 katalán 172,292 román 123,416
A további fejlődés lehetőségét jól mutatják a skandináv nyelvek, ahol az egymillió beszélőre jutó cikkek száma 5-10-szerese a magyarnak. A digitális világban tehát szó sincs arról a nemzethalállal fenyegető jövőképről amit a napisajtó oly gyakran tár elénk, hanem épp ellenkezőleg, egy életképes és rohamosan fejlődő nyelvi középhatalom tárul elénk. A HLT-Platform stratégiájának is ezt kell elsősorban támogatnia. Mindez természetesen nem jelenti azt, hogy a értékőrző (sőt az egyes kis uráli nyelvek esetén értékmentő) nyelvtechnológiának nincs szerepe, de a stratégiai terv középpontjában
128
STRATÉGIAI KUTATÁSI TERV
mégsem ezek, hanem a magyar XXI. századi virágzását elősegítő technológiák állnak – ezeket az alábbiakban vastagbetűs szedéssel emeljük ki.
II.2. A szemantikus technológiák A szemantikus technológia legfontosabb és leglátványosabb mozgatóereje a WorldWideWeb Consortium (W3C) amely hatékony akcióprogrammá tette a webet megalkotó Tim Berners-Lee jövőképét: I have a dream for the Web in which computers become capable of analyzing all the data on the Web – the content, links, and transactions between people and computers. A semantic web which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The intelligent agents people have touted for ages will finally materialize. „Egy olyan webről álmodom, ahol a számítógépek képessé válnak az összes a weben megtalálható adat, a tartalom, a kapcsolatok, az emberek és számítógépek közti tranzakciók elemzésére. A szemantikus web ami ezt lehetővé teszi még nem alakult ki, de amint ez megtörténik, a kereskedelem, az adminisztráció, és a hétköznapi élet feladatait emberekkel és gépekkel beszélő gépek fogják ellátni. A régóta beígért intelligens ágensek végre megvalósulnak." Az alábbiakban összefoglaljuk, hogy mit értünk pontosan szemantikus technológián, mi az ami a tervből már megvalósult, és mi az ami még hátra van. Bár maga az alapgondolat egyszerű, nehezen érthető azoknak akik egyáltalán nem ismerik a megjelöléses (markup) technológiát, amilyen például az immár klasszikus GML és SGML illetve a weblapok megjelölésében használt HTML (az ‘ML’ mindegyikben ‘markup language’ azaz megjelölő nyelv). Az eredeti cél, amely fontosságát máig nem vesztette el, a nagy projektekben illetve az igazgatási szférában forgó dokumentumok megjelölése volt amiknél fontos, hogy olvashatóságukat sok évtizeden keresztül megőrizzék. Ez a feladat a számítógépes rendszerek rohamos fejlődése miatt egyáltalán nem olyan triviális mint elsőre gondolhatnánk, és minden nagyobb szervezet tele van olyan örökölt (legacy) dokumentumokkal melyek gépi olvasása komoly nehézségeket okoz mert az író/olvasó szoftver elavult. A GML/SGML elsődleges célkitűzése egy olyan jelölésrendszer kialakítása volt, melynek segítségével a dokumentumok tartalmi és formai elemei (pl. a főcím, fejezetcímek, bekezdések, dőlt betűvel kiemelt szavak) egyértelműen megjelölhetők – megemlítjük hogy az első igazán nagy léptékű alkalmazás nyelvészeti természetű volt, az Oxford English Dictionary több százmillió adatát máig is ebben a formában tárolják. A HTML ezt a megjelöléses módszert továbbterjesztette az alapvető kompjúterek közti tranzakciókra és kisebb mértékben az emberek és kompjúterek köti tranzakciókra is. A nagy rendszerek közti adatcserének már ezelőtt is megvoltak az eszközei
˝ II. MELLÉKLET – JÖVOKÉP
129
(ftp file transfer protocol illetve az adatvédelmileg biztonságosabbá tett utódai, például scp secure copy) amelyek ma már a személyi számítógépekről is elérhetők. De a HTML/HTTP elterjedésével az ilyen cégközi (bevett rövidítéssel B2B, business to business) tranzakciók mellett megjelentek, sőt nemcsak megjelentek hanem volumenüket tekintve uralkodóvá is váltak a fogyasztó és a szolgáltató közti B2C (business to consumer) interakciók. Az ilyen interakciók, és általában az ember-gép-kapcsolat ma még nehézkes, ennek megkönnyítése a HLT-Platform egyik alapfeladata. Itt külön kiemeljük a beszéd- és írásfelismerés és a beszédszintézis technológiáit, melyek lehetővé teszik egyrészt azt, hogy az ember-gép kommunikációban olyan ember is részt vehessen akinek a gépelés nehézséget okoz vagy lehetetlen, másrészt azt, hogy az ország írott illette hangfelvételeken őrzött kultúrkincsét a digitális korszakba átmentsük. Végül is mitől szemantikus egy technológia? Attól, hogy a kapcsolatok nem az üzenetek formájától, hanem azok tartalmától függően alakulnak. Ehhez nyújt alapvető segítséget a szemantikus web, melynek alapgondolata, hogy az információt tartalmilag megjelölt egységekbe szervezzük. Az Oxford English Dictionary példájánál maradva, minden egyes szócikk mellett szerepel a szó legkorábbi előfordulása, egy kis idézettel (és gyakran sok másik idézet is). Minket nem az érdekel, hogy az idézetek szerzőit dőlt betűvel hozza-e a nyomtatott szótár, hanem az hogy van egy információs egység, a szócikk, ennek vannak alegységei, például a szó mostani és eredeti írásképe vagy az idézetek, melyeknek további alegységei lehetnek (szerző, megjelenés helye, ideje) stb. Az ilyen egységek összefüggő szövegből való kinyerése egy olyan feladat, melyre a Platform számos résztvevője már most kínál megoldást: ennek neve tulajdonnév-felismerés (NER, named entity recognition) illetve főegységekre bontás (light parsing). Az alapcél természetesen nem az, hogy a szöveg egyes részeit megjelöljük, ez csupán eszköz a nagyobb célhoz, ami a (hangzó és írott) szöveg megértése, a tudás kinyerése. A szemantikus web akár úgy is felfogható, mint egyszerűsített, ma még a szövegértésben az emberi képességektől messze elmaradó algoritmusok számára is érthető tartalom. A hatékony gép-gép és ember-gép kommunikációhoz tartozik az is, hogy tudjuk azt is egyeztetni, hogy amit az egyik rendszer a megjelenés helyének kódol azt a másik is mint helyre utaló kódot értelmezze. Ez sem olyan egyszerű, mint azt első pillanatra gondolhatnánk, sem az általános fogalom-osztályok sem a konkrét fogalmak tekintetében. Előbbire jó példa, hogy a Ferencváros legyőzte Újpestet mondatban sem Ferencváros sem Újpest nem helynevek, mint ahogy a Washington figyelmeztette Teheránt mondatban sem helységekről van szó. Utóbbira jó példa, hogy a ‘kaliforniai lakos’ fogalmát kilenc törvény kilencféleképpen definiálta például adózás tekintetében a lakosok körét jóval bővebbre véve mint egészségügyi ellátás tekintetében, a folyamat csak külön törvénnyel volt visszafordítható. Bár a problémát a nyelvtechnológia megoldani nem képes, hiszen az ilyesfajta definíciók (explicit vagy implicit) társadalmi döntések eredményei, arra azért képes a technológia, hogy világosan jelezze az ilyen és hasonló konfliktusokat illetve, amennyiben a szövegkörnyezet alapján ez lehetséges, egyértelműsítő javaslatot tegyen. Ehhez az kell, hogy legye-
130
STRATÉGIAI KUTATÁSI TERV
nek szabványosított fogalomtárak, ontológiák, és a megjelölések éppen ezekre hivatkozzanak. Pontosan ezt a célt szolgálja az SGML egyszerűbbé és hatékonyabbá tételével létrejött univerzális megjelölő nyelv, az XML (eXtensible Markup Language), és az ezt támogató RDF (Resource Description Framework) és OWL (Web Ontology Language). A HLT-Platform alapvető tevékenységei közé tartozik az ezek körüli világméretű szabványosítási erőfeszítések magyarra való honosítása. Hangsúlyozzuk, hogy a feladat itt nem gépi fordítás, és nem is gépi szótárazás, az egyes angol szavak magyar megfelelőinek megtalálása, hanem a szemantika egyeztetése, akár egy nyelven belül is. A probléma már ott felmerül, hogy a California resident’ kifejezés kilencféle dolgot jelent(het), azzal, hogy ezt lefordítjuk a ‘kaliforniai lakos’ kifejezésre semmit sem oldottunk meg. Természetesen az idő egy részében szerencsénk van, az angolul többértelmű ‘bank’ szót könnyen egyértelműsíthetjük azzal, hogy szövegkörnyezettől függően hol banknak hol folyópartnak fordítjuk. Viszont az esetek más részében éppen a magyarra fordítás hozhat be olyan szemantikai többértelműséget (pl sun’ és day’ egyaránt nap) ami az eredetiben még egyértelmű volt. Ez természetesen nem jelenti azt, hogy a gépi fordítás és szótárazás nem lenne a HLT-Platform kulcstevékenységeinek egyike, hiszen ezek hatása a gazdasági fejlődésre, az ország felemelkedésére igen jelentős, de szemantikai technológiák címén mégsem erről beszélünk, hanem elsősorban a definíciós munkák, az ontológiai fejlesztés alapjairól. (Lentebb még külön kitérünk a másik nagy technológiai változás, az egyre jobban működő tanuló algoritmusoknak a gépi fordításra gyakorolt hatására.) A formális megjelölés csupán technikai eszköz: a hangsúlyt az emberi tényezőre, az emberek gép által segített együttműködésére helyezzük, a bevett szóhasználattal P2P (peer to peer) kapcsolatokra és együttműködésre. Itt hangsúlyosan nem C2C (consumer to consumer) modellről van szó, hiszen a gépek és hálózatok segítségével nem fogyasztók találkoznak egymással, hanem olyan partnerek, ‘egyenrangú felek’ akik egyszerre fogyasztók és termelők. Az általuk közösen termelt (peer production) termékek sorából kiemelkedik a szabad szoftver (különösen a Linux operációs rendszer, a Firefox böngésző és az OpenOffice irodai szoftvercsomag), a szabad audiovizuális tartalmak (Flickr, YouTube), és ami számunkra itt a legfontosabb, a Wikipédia. Bár ebben a tanulmányban legfeljebb címszavakban utalhatunk a szemantikai technológiák előtörténetére, mindenképpen érdemes megemlíteni, hogy ez a technológia nem egyetlen zseniális kutató, vagy akárcsak egyetlen konzisztens kutatási irányzat vagy iskola munkájának eredménye. A mai (2009) állapotra elsősorban az II.1. táblázat (egymással gyakran éles vitában álló) irányzatai voltak hatással. A mesterséges intelligencia (AI, artificial intelligence) kutatásának első ciklusát az 1956-os dartmouthi AI konferencia indította be: erre a szakaszra még a tiszta logikai megközelítés a jellemző (John McCarthy, Marvin Minsky). A ciklus végére, tehát a nyolcvanas évek közepére azonban világossá vált, hogy a logikai következtetésekhez a hétköznapi valóság tényeit leíró axiómák százezreire lesz szükség (Patrick Hayes, Douglas Lenat). Itt a munka, a nemzeti kutatási program keretében finanszírozott MCC/Cycorp kivételével le is állt, részint azért, mert kutatók és tudásmérnökök százaira senkinek nem tellett, részint pedig azért, mert a Cyc eredményeit sokan (pl.
˝ II. MELLÉKLET – JÖVOKÉP
131
kutatási irány
vezető kutatók
Lexikai szemantika
Katz, Fodor, Lakoff, Johnson, Langacker
Monoszemikus elemzés
Jakobson, Ruhl
Analitikus „köznapi nyelvi” filozófia Russell, Moore, Wittgenstein, Ryle, Austin, Davidson Formális nyelvészeti szemantika
Montague
Kognitív nyelvészeti szemantika
Jackendoff, Langacker, Talmy, Fauconnier
Következtetés józan ésszel
Hayes, Lenat
Az alapértelmezések logikája
McCarthy, Reiter
Parakonzisztens logika
Belnap, Priest
II.1. táblázat. A szemantikai technológiákat megalapozó irányzatok. Christopher Locke) az emberi tudás monopolizálására való kísérletnek fogták fel. Ezt a stagnáló helyzetet változtatta meg a Wikipédia, és a P2P munkamódszer. Itt nem is annyira a kifejezetten P2P alapú tudásbázisokra (Open Mind Common Sense, Mindpixels) gondolunk, mivel ezek további fejlődése kiszámíthatatlan, mint arra a hatalmas tudásanyagra ami a nemzeti wikipédiák rendszerében már most felhalmozódott. Ezt a modern számítógépes nyelvészeti kutatás egyre intenzívebben használatba veszi: 2005 előtt csak néhány tucat, azóta több mint száz olyan cikk jelent meg amely a nyelvtechnológiát (pl. a fordító, információkinyerő, és egyértelműsítő algoritmusokat) a wikipédia felhasználásával fejleszti tovább. Az áttörés, amire a már a tízes évek első felében számítunk, technikai szempontból csupán annyi lesz, hogy a wikipédia természetes nyelv(ek)en írott cikkeiből automatikus eszközökkel kinyerhető lesz a tudás abban az entitás-attribútum-érték modellezési sémában is amit a szemantikus web használ. A ma nyilvánosan elérhető legnagyobb formalizált tudásbázis az OpenCyc, néhány tízezer axiómával, de a teljes Cyc egymillió axióma körül jár. A Wikipédia jelenlegi magyar tartalmából már axiómák tízmilliói várhatók (és ha az eddigi növekedési pályákból extrapolálhatunk, a magyar wikipédia a rangsorban még 2-3 hellyel előbbre is léphet). A szemantikus web térhódítását és a P2P tartalom-termelés gazdagodását olyan széles sodrású, feltartóztathatatlan folyamatoknak látjuk, melyeket magyar nyelvtechnológia (ideértve a beszédtechnológiát is, bár eddig nem említettük külön a Wiktionary és Wikisource projekteket, melyeknek hanganyag-tartalma egyre nő) sokoldalúan hasznosítani tud, és melyek el fognak vezetni, egy évtizeden belül, ahhoz az állapothoz melyet Berners-Lee leírt. Ennek, tehát a nyelvtechnológia a mindennapi életbe való teljes behatolásának természetesen messzemenő társadalmi következményei lesznek, melyek horderejüket tekintve csak a gőzgép, az elektromosság, és a modern orvostudomány forradalmaihoz hasonlíthatóak. Ahogy a társadalmi aktivitás súlypontja áthelyeződik a fizikai tárgyak termeléséről a szolgáltatásokra, és ezen belül is elsősorban az információs
132
STRATÉGIAI KUTATÁSI TERV
objektumok termelésére, Magyarország versenyképességét elsősorban azzal tudjuk fokozni, hogy hatékony információtermelési és -értékesítési környezetet hozunk létre. Ehhez nemcsak a magas színvonalú oktatás, a kiművelt emberfők sokasága elengedhetetlen, hanem a termeléshez az automatikus információkinyerés (IE, information extraction) és információ-visszakeresés (IR, information retrieval), az értékesítéshez pedig a gépi fordítás, hisz a termékeket nem csak, sőt nem elsősorban, a hazai piacon kell értékesíteni.
II.3. A közeljöv˝ o kutatásai Az átfogó kép után lássuk konkrétan, hogy a HLT-Platform résztvevői milyen terülten lesznek aktívak, és ezek hogyan járulnak hozzá a fentebb vázolt jövőkép megvalósításához. Tárgyalásunk nem a nyelvészet hagyományos felosztását, hanem a modern technológia fentebb leírt fejlődési főirányát követi, mivel a hagyományos felosztást a fejlődés több irányban szétfeszíti. Különösen áll ez a beszédtechnológiára, hiszen ami harminc éve még a hangtan egy alfejezete (akusztikus fonetika) volt, az mára az egész nyelvészet technológiailag vezető irányzatává vált, melynek alapvető újításait, elsősorban a rejtett Markov-modelleken (HMM, Hidden Markov Model) alapuló tanulási algoritmust ma már a tulajdonnév-felismeréstől a gépi fordításig mindenütt alkalmazzák. Ugyanez elmondható a modern információkinyerő és -visszakereső rendszerekről is, melyek a könyvtártudomány egy eldugott ágából (szcientometria, hivatkozási indexek) a webes keresőmotorok révén a hétköznapi élet szinte minden szférájába behatoló technikává váltak. Mint fentebb leírtuk, hasonló áttörést várhatunk az ontológiától is, amely húsz éve még a filozófia hasonlóan eldugott területe volt. Ezek a besorolási problémák élesen előrevetítik, hogy a modern nyelv- és beszédtechnológia azon a skálán való finanszírozása amire e területek jelentősége miatt óhatatlanul szükség van nem várható a hagyományos kutatásfinanszírozási keretek bizonyos átalakítása nélkül: amíg a filozófiai és fonetikai műhelyek (tanszékek, kutatócsoportok és -intézetek) állami támogatása évi néhány tízmillió HUF, a beszédtechnológiához vagy az ontológiához ezeknél nagyságrendekkel többre van szükség. Hogy ezek a milliárdos szükségletek érthetőbbek legyenek, megemlítjük, hogy a modern beszédtechnológia megalapozásához a DARPA 6-8 kutatóhelyen (Stanford Research International, Carnagie-Mellon University, Bolt Beranek and Newman, MIT Lincoln Labs, MIT Spoken Language Systems Group, stb) finanszírozott 10-30 kutatóból álló teameket több mint 15 éven át, összesen mintegy negyedmilliárd USD befektetéssel (és ebben még nem szerepelnek az IBM és az AT&T szintén többszáz milliós befektetései), míg a Cyc ontológia létrejöttén egy harminc fős kutatócsoport kilenc évig dolgozott annak a Microelectronics and Computer Technology Companynak a keretében melyet az amerikai kormány kifejezetten a japán ötödik generációs kihívás megválaszolására alapított és finanszírozott. Az európai műhelyek (melyek közül kiemeljük a holland Philips, az angol Cambridge University, a francia LIMSI, a német RWTH, és a svájci IDIAP szerepét) is évente sokmillió EUR költségvetéssel dolgoznak.
˝ II. MELLÉKLET – JÖVOKÉP
133
Magyarország méreteit és lehetőségeit figyelembe véve azt gondoljuk reálisnak, hogy a Platform intézményei a következő 3-5 év alatt mintegy 20-30 teljesállású kutatóhellyel bővüljenek állami támogatásból, lehetőleg egy olyan konstrukcióban amely a kutatók tartós (legalább öt évre szóló) alkalmazását lehetővé teszi. Külön szólunk a lehetséges ipari támogatásról és együttműködésről, illetve az új kutatóhelyek betöltéséhez szükséges személyi állomány megalapozásáról.
II.3.1. Beszédtechnológia Tudományos alapjait tekintve a terület mindmáig az akusztikus (és a jelfeldolgozási oldalon kisebb mértékben az artikuláris és auditorikus) fonetika illetve fonológia része. Az ezen területek alapkutatásairól majd az II.3.11., az ipari alkalmazásra érettekről pedig az II.4.1. szakaszban írunk, itt most kifejezetten csak a kezdeti- és vég-stádiumok közé eső feladatokról beszélünk, azokról a munkákról, melyek alapkutatásnak már túl nagyok, eszköz- és infrastruktúra-igényük miatt a hagyományos tanszéki és intézeti laborok már csak egymással összefogva képesek előrelépni, de ipari alkalmazásra még nem érettek. Ugyan követő jellegű, de át nem ugorható lépések egyrészt a kis- és közép-méretű szókincsről a nagyszókincsű (large vocabulary) modellekre való áttérés, másrészt a beszélő-adaptáció közismert, de erősen processzor-igényes technológiainak széleskörű használatba vétele. A generáló oldalon mind a paraméteres, mint a szegmenskonkatenáción alapuló magyar beszédszintézis további fejlesztése szükséges ahhoz, hogy a gépek magyarul ugyanolyan szépen, a valódi emberi beszélőtől alapjában megkülönböztethetetlenül beszéljenek mint angolul, és előbb-utóbb az egyedi beszélőre adaptált szintézis is sorra kell hogy kerüljön. Ezeknek a feladatoknak különös jelentőséget ad az, hogy alkalmazásuk rohamosan terjed a XXI. század alapvető processzor-platformján, ami nem a mainframe, a desktop, vagy a laptop, hanem a mobiltelefon. A két legfontosabb alkalmazás, amiken a magyar beszédtechnológia fejlődése direktben lemérhető a nagyszókincsű diktáló és a természetes hangú szövegfelolvasó rendszer. Ezek közös vonása, hogy angolra már gyakran kereskedelmi termékként is léteznek, a FIGS és CJK (Chinese, Japanese, Korean) nyelvekre intenzív fejlesztés alatt állnak – kellő irányított fejlesztéssel reálisnak tartjuk hogy az ezeken a területeken ma még fennálló elmaradást a magyar 5 éven belül behozza. Inkább a jövőbe mutat (bár az angolban számos alkalmazása van már ma is) a kulcsszókereső (word spotting) technológiának, mellyel például egyetemi előadások vagy üzleti tárgyalások hangfelvételeiben kereshetjük ki a releváns részeket. Intenzíven kutatott terület a beszélt és az írott szöveg érzelmi töltetének felismerése (sentiment analysis) és szintézise, és gyakorlati fontosságuk miatt nem maradhat el a zajosabb környezetet (pl. autó vagy vonat üléstere) megcélzó, robusztus felismerőalgoritmusok kutatása sem. Ezekkel szemben nem követő, hanem vezető jellegűek a Platform a morfológiai
134
STRATÉGIAI KUTATÁSI TERV
nyelvmodell és a beszédfelismerési keresőalgoritmus hatékony integrációjára irányuló kutatásai. A magyar nyelv egy másik sajátossága, a szabad szórend, és az ehhez kapcsolódó kommunikatív dinamizmus (topik-fókusz artikuláció) lehetővé teszi, hogy vezető szerepet töltsünk be a prozódia vizsgálatában, spontán beszédben való felismerésében is: az egyik fontos cél az optimális akusztikai jelfeldolgozási módszerek fejlesztése a prozódiai lényeg kiemelésére.
II.3.2. Multimodális technológiák A beszédfelismeréssel erősen rokon, gyakran csupán a jelfeldolgozási modul (signal processing front end) megváltoztatását igénylő feladatok az írás- jelbeszéd- és gesztus-felismerés. Ezek jelentőségét látjuk a mostaninál természeteseb multimodális interfészekben, melyek például a szemgolyó mozgásának követésével arra is odafigyelnek, hogy mire néz éppen az ember. A klasszikus „elfoglalt kéz, elfoglalt szem” (hands busy, eyes busy) helyzetekben, amiben például a gépét kormányzó pilóta vagy az éppen javítást végző villanyszerelő van, a hagyományos interfészek kudarcot vallanak, hiszen ilyenkor az embernek nincs egy harmadik keze hogy az egeret tologassa vagy harmadik szeme hogy a képernyőt nézegesse. Össztársadalmi szempontból igen fontos a vakok és csökkentlátók, siketek, és mozgássérültek bevonása a digitális világba. Ilyen célt szolgál például Kurzweil klasszikus felolvasógépe, amely az írásfelismerést (OCR, optical character recognition) elsőként kötötte össze a beszédszintézissel, de ilyen lehet például a tévéadással együtt közvetített átírás (closed captioning) vagy az a bevásárlókocsi, mely érzékeli, hogy milyen árut teszünk bele és megmondja a típust, illetve az árát. Az orvosi alkalmazásokról az II.4.3. részben a kiemelt alkalmazások között írunk. A web fejlődésének jól látható iránya, hogy egyre több nem-szöveges tartalom (állóés mozgókép, hang, tervrajzok, kották, stb) válik elérhetővé, és rohamos tempóban bővülnek az ilyeneket tartalmazó nemzeti archívumok is. Jelenleg az ilyen tartalmak közti keresés elsősorban a szöveges metaadatokon alapul, de már vannak olyan területek (google books, query by image content) ahol az OCR illetve a képi modellezés döntő fontosságú, és a nagy médiaszolgáltatók szeretnének a weboldalukon tartalom szerinti kereshetőséget biztosítani a média anyagaikban. Lehetővé kell váljon az internet böngészése, és általában az emberi inputot igénylő számítógépes programok irányítása élőszó és/vagy gesztusok segítségével is.
II.3.3. Alaktan (morfológia) Fentebb nem beszéltünk a magyar nyelv olyan sajátosságairól, melyek azt elkülönítik a vezető angol és FIGS nyelvektől. Ezek közül kétségkívül a legfontosabb az, hogy a magyar tipológiailag erősen ragozó (agglutináló) jellegű. Ezért minden magyar nyelvtechnológia, legyen az ember-gép vagy gép-ember irányú, szükségképpen támaszkodik szóelemző morfológiai analízis illetve ragozó morfológiai szintézis algoritmu-
˝ II. MELLÉKLET – JÖVOKÉP
135
sokra. Ezekkel aktívan foglalkozik a Platform több tagja, és már most rendelkezésre áll a klasszikus magyar strukturális nyelvészet (különösen Papp Ferenc és Elekfi László) eredményeit is szintetizáló és továbbvivő morphdb adatbázis, melynek nemzetközi jelentőséget ad az, hogy alkalmas nemcsak a magyar, hanem az OpenOffice és a Firefox által támogatott bármelyik nyelv morfológiai erőforrásainak kezelésére, hiszen ezeket használják világszerte (az említett programok által kezelt kb. félszáz nyelvre) a hunmorph programkönyvtár felhasználásával írt helyesírás-ellenőrzők. Természetesen ez nem jelenti azt, hogy a morfológia összes részproblémája már meg lenne oldva akár a magyarra, akár a digitális írásbeliség többi nyelvére, de rangunk a világban elismert, ezért is kívánatos lenne a további fejlődéshez szükséges személyi állomány biztosítása, hiszen a nyelvek, különösen pedig a szókincs, fejlődése nem áll meg. Már ma is komoly szótárépítő munka folyik több műhelyben, ezek egységes szervezeti keretbe fogása azonban csak újabb emberek felvételével válhat lehetővé.
II.3.4. Mondattan (szintaxis) Itt elkülönítjük a felszíni és a mély szintaxist, mivel ma még a kettő automatikus kezelése közt óriási a minőségkülönbség. Mint a bevezetőben már jeleztük, azt várjuk, hogy ez a különbség a tízes években fokozatosan el fog tűnni – ezt a reményünket támasztja alá az is, hogy a Platform szinte minden nem a beszédtechnológiára szakosodott résztvevője foglalkozik automatikus ‘mély’ szintaxissal. A beszéd- és a nyelvtechnológia integrálására különösen jó lehetőséget kínál a magyar nyelv, melyben a kommunikatív dinamizmust nem a szórend és nem is a prozódia, hanem e kettő együttese határozza meg. Tény, hogy ma még sokkal kisebb hatásfokkal tudjuk a mondatok alapvető összetevőit és az ezek közt fennálló (pl. alanyi, tárgyi, határozói) függőségi viszonyokat meghatározni (dependency parsing) mint az egyes elemek szófaját megjelölni (part of speech tagging) illetve a névelemeket, nyílt tokenosztályok tagjait felismerni és szemantikai kategóriájukat (hely, idő, cégnév, személynév, stb.) meghatározni. A magyar ilyen felszíni elemzésében a Platform kutatásai már most világszínvonalat képviselnek, és ez biztató jel arra nézve, hogy a mélyebb szintaktikai és szemantikai elemzés tekintetében is megalkotói, nem pedig passzív szemlélői leszünk a várt áttörésnek. A praktikus alkalmazások közt itt a nyelvhelyesség-ellenőrzést (grammar checking) és a dinamikus ember-gép kommunikációhoz nélkülözhetetlen szöveggenerálást (text synthesis) emeljük ki, bár a mélyebb elemzés új távlatokat fog nyitni az információkinyerés és visszakeresés (ld. II.3.9.) területén is.
II.3.5. Jelentéstan (szemantika) A jelentéstan területén várható nagy változások nem vezetnek automatikusan a terület nagy, klasszikus problémáinak megoldásához: amire számítunk a következő évtized-
136
STRATÉGIAI KUTATÁSI TERV
ben az csupán annyi, hogy a hagyma legkülső rétegét le fogjuk fejteni azzal, hogy általánossá és szabványossá válik az RDF alapú tudásreprezentáció. Előre lehet tudni, hogy az emberi tudásnak számos olyan területe van, mely ilyen módon nem reprezentálható jól, ilyen elsősorban a motorikus (biciklizni, lovagolni, stb) tudás és a szenzoros tudás, például színek, hangok, arcok, megkülönböztetése, tehát éppen a tudás evolúciósan legősibb és emiatt leginkább reflex-szinten automatizált része. Nem számítunk továbbá az alakfelismerésre és finommotoros kontrollra messzemenően támaszkodó hallás- és beszéd-mechanizmus reprezentációjára sem, bár ezek már szorosan összefüggenek a magasabb szimbólum-manipulációt igénylő (tehát evolúciósan új, kevésbé fejlett) tudással. Amire elsősorban számítunk, az az emberiség kulturálisan felhalmozott (evolúciósan tehát a legkülső héjba tartozó) tudáskincsének formalizálása. A matematikai, fizikai tudás reprezentálása már lassan száz éve (alapjában Russell és Hilbert óta) megoldott kérdés, és ma már sok szempontból kielégítő (bár távolról sem tökéletes) modelljeink vannak olyan sokkal összetettebb fizikai rendszerekről is mint például az időjárás. A genetikus kód megértésével már az ennél is bonyolultabb biológiai rendszerek megértése felé is komoly lépéseket tettünk. A nyelvi kód feltárásával pedig megnyílik az út a társadalmi ismeret- és norma-rendszerek modellezése felé. Itt elsősorban nem kifinomult társadalom-modellezésre kell gondolni, hanem azokra az elemi ismeretekre melyeket minden gyerek óvodás/iskolás korában megtanul, hogy a családok (általában) szülőkből és gyerekekből állnak, hogy a nagyszülők a szülők szülei, stb. Az az entitás-attribútum-érték séma amit a szemantikus web használ az ilyesfajta tények leírására tökéletesen megfelel, ha tudjuk hogy az ily módon leírt szabályosságok csupán alapértelmezések, melyek alól vannak/lehetnek kivételek. A modern jelentéstan (Montague-nyelvtan) elsősorban a mondatok szemantikai reprezentációjára koncentrált, tehát arra, hogy ha az egyes szavak (vagy szóalkotó morfémák) jelentését már ismerjük, akkor ezekből hogyan komponáljuk meg a nagyobb konstrukciók (frázisok, mondatok) jelentését. A XXI. században várakozásunk szerint a hangsúly át fog helyeződni az ilyen kompozícionális szemantikai kérdésekről a lexikai kérdésekre, arra, hogy az egyes szaval (és morfémák) mit jelentenek. Elsődleges teendő tehát a létező szótárakhoz (Princeton WordNet, Berkeley FrameNet, EuroWordNet, Wiktionary) való magyar kapcsolódás, méghozzá olyan formában, hogy azt semmilyen szerzői jogi megkötés ne terhelje. Miután itt infrastrukturális fejlesztésről van szó, ennek részleteit az II.3.10. részben tárgyaljuk, de már itt megjegyezzük, hogy a lexikai megközelítés része a rögzített (többszavas) konstrukciók az eddiginél jóval átfogóbb vizsgálata is.
II.3.6. Szövegtan (diskurzuselemzés) A szavak és rögzült kifejezések összerakásával nemcsak mondatokat, hanem hoszszabb szövegeket is képzünk. Ezek számítógépes megértéséhez szükséges a mondatok közti összefüggések feltérképezése. Elsődleges feladatok az anaforafeloldás,
˝ II. MELLÉKLET – JÖVOKÉP
137
az eseményosztályozás (event classification), a szereplőazonosítás, az oksági és temporális viszonyok (pl. intencionalitás, előidejűség) feltérképezése. Igen gyakran a szövegeket nem egy ember, hanem több, egymással együttműködő fél hozza létre. A dialógusok modellezése különösen fontos az alkalmazások (pl. ügyfélszolgálat) szempontjából, annál is inkább, mert a helyes dialógus-forgatókönyv (dialog script) felismerése gyakran lehetővé teszi, hogy a beszédfelismerési problémát nagyszókincsűről közép- illetve kisszókincsű feladatra redukáljuk.
II.3.7. Korpusznyelvészet A nemzetközi nyelvtechnológiához való kapcsolódásunk sarkalatos pontja a magyar BLARK (Basic Language Resource Kit) kifejlesztése, összeállítása, definiálása. Ennek fontos hozadéka, hogy a már rendelkezésre álló elemzési megoldások használható, szabványos formában elérhetőek lesznek mind a magyar nyelvtechnológusok, mind a magyarral foglalkozó külföldiek számára is. Utóbbiak súlya és fontossága egyre kevésbé elhanyagolható, mint azt például a Google magyar-angol fordítórendszere mutatja. Ma még hiányoznak a szabványosított, nyilvánosan elérhető spontán beszédkorpuszok, holott ezek nélkül a beszédtechnológia fejlődését gátolja az a közismert tény, hogy minden szerző és munkacsoport a saját rendszerét gondolja a legjobbnak. Hogy tényleg kié a legjobb, tehát kinek a technológiai megoldásait érdemes szélesebb körben átvenni és elterjeszteni, azt csak az egyes rendszerek szabványosított anyagokon való összemérésével lehet megállapítani. Nem csak a beszédtechnológiában, hanem a nyelvtechnológia minden területén szükség van nagyméretű, gazdag annotációval rendelkező, reprezentatív korpuszokra, hiszen ezek nélkül gépi tanulás nem lehetséges. Az úttörő magyar elemzési fa bank (Szeged TreeBank) továbbfejlesztése mellett szükség van dependencia-bankra (PropBank), a mostani Nemzeti Szövegtárnál nagyobb és kevesebb megkötöttséggel elérhető prózai szövegtárra, az egyes részterületek (pl. jogi, orvosi szaknyelv) korpuszaira és az ezekhez tartozó szakontológiák tanulmányozására. Különösen fontosnak tartjuk, hogy a szakértők által kiépített szakontológiákat mint aranysztenderdet használva (össze)mérhetővé váljon az egyes automatikus ontológiaépítési algoritmusok hatékonysága. A már létező magyar-angol mellett szükség van egyéb párhuzamos korpuszokra is, elsősorban a FIGS nyelvekre és a környező országok nyelveire, különösen azokéra ahol jelentős magyar kisebbségek élnek.
II.3.8. Gépi fordítás Bár az elképzelés, hogy a számítógépeket emberi nyelvek közti fordításra használjuk lényegében egyidős a számítógépekkel (azok a kutatások amik a híres 1954-es Georgetown-IBM kísérlethez vezettek már 1945-ben elkezdődtek), az első valóban
138
STRATÉGIAI KUTATÁSI TERV
sokak által használt rendszer, az AltaVista Babelfish csupán 1998 végén jelent meg. Arra számítunk, hogy még egy évtized, és az interneten található idegen nyelvű honlapok böngészése nem fog többé problémát okozni: az automatikus gépi fordító megoldások segítségével saját anyanyelvünkön, nagyjából érthető módon olvashatjuk a különböző tartalmakat. A Platform számos tagja foglalkozik digitális gépi szövegek fordításával, és van érdeklődés a közvetlen beszédfordítás iránt is. Amint a német-japán Verbmobil projekt példája mutatja (erre a német kutatási minisztérium és nagy ipari cégek együttesen mintegy 85 millió eurót költöttek) a feladat nehéz, és irreális lenne arra számítani, hogy egy húszfős cég lényegében önerőből megoldja. Itt is, mint a nyelvtechnológia számos területén, elengedhetetlenül szükséges a hagyományos kutatásfinanszírozási keretek átlépése. Hangsúlyozzuk, hogy az ország jövője, gazdasági versenyképessége szempontjából kardinális kérdésről van szó, olyanról, aminek megoldását nem várhatjuk a mégoly jószándékú kívülállóktól mint a Google, hiszen a magyar nyelv csak nekünk igazán fontos. A legfontosabb, a gépi fordításhoz nélkülözhetetlen és az emberi fordítást is támogató eszközök a kétnyelvű szótárak. Bár a hagyományos szótárak digitalizálása terén már komoly a fejlődés, tudomásul kell venni, hogy ez a folyamat ebben a formában nem vezet, és a szerzői jogi korlátok miatt nem is vezethet, a gépi fordítás elterjedéséhez. Szükség van olyan szabad felhasználású, nyílt forráskódú tartalmak és kereső eszközök kifejlesztésére, amelyek az eddigieknél jóval erősebben formalizáltak, és támogatni kell az ilyenek automatikus építését (párhuzamos korpuszokból).
II.3.9. Információkinyerés és - visszakeresés A nagy webes keresőmotorok (Google, Yahoo, MSN) mindegyike elsődleges célnak tekinti nyelvi alapú tudástár létrehozását. Magyarországon ehhez nemcsak a kulcsszavas keresés infrastruktúrájának javítására, és a magyar nyelvű információkinyerés fejlesztésére, hanem a nyelvek közötti információkinyerés (cross-language information extraction) jelentős erősítésére is szükség van, mind a szöveges, mind a beszéd- illetve multimédia-tartalmú adatbázisokban. Az óriási központosított tudás és kontroll-lehetőség átfogó védelmi rendszerek előzetes létrehozását igényli, hogy az emberi élet és szabadság, aminek védelme egyedüli célja lehet ilyen intelligens rendszerek létrehozásának, ne sérüljön egy emberre nézve sem (bővebben ld. II.4.2.). Célunk részint az információkinyeréshez elengedhetetlen nyelvi modalitások (tagadás, spekuláció, időbeliség, stb.) automatikus felismerése, másrészt az emberi kommunikációt (és nem kis részben még a tudományos, jogi, és üzleti nyelvet is) átható érzelmi hozzáállás elemzése, ismét mind írott mind beszélt anyagban. Fentebb (II.3.4II.3.5.) már említettük, hogy ebben a nevek/névelemek (és általában az indexeléshez használható metaadatok) meghatározása mellett nagy szükség lesz a mélyebb mondaton belüli összefüggések (függőség) és a mondatok közti összefüggések (anafora, retorikus struktúra) automatikus felismerésére is.
˝ II. MELLÉKLET – JÖVOKÉP
139
Amikor a kilencvenes évek közepén megjelentek az első webes keresőmotorok (Alta Vista 1995, Northern Light 1996, Yahoo 1997) már világos volt, hogy a tartalmak tárolását illető technikai változatosság lassan megszűnik, és végül minden értől ugyanahhoz az óceánhoz jutunk el, a webhez. Ma már nyilvánvaló, hogy a katonai titkosítás céljával a világhálótól légréssel (air gap) szándékosan elválasztott titkos hálózatokon kívül nincs semmi olyan információs tár melynek tartalma, megfelelő autentikációval, a jogosultak számára nem lenne bármely laptopról (és egyre inkább: bármely mobiltelefonról) elérhető. Ebből következik, hogy a hagyományos információs tárak, a könyvtáraktól az adatbázisokig, csak annyira fognak túlélni, amennyire a web részeivé válnak – ez az a széles sodrású folyamat ami a szemantikus web létrejöttét kikerülhetetlenné teszi. Ezért különösen fontosak azok a technológiák, amik a célzott webbányászatot segítik, mint például a tartalom/téma szerinti dokumentumosztályozás és a különféle megjelölési (markup) megoldások.
II.3.10. Infrastruktúra Elsődleges célunk a szemantikai információt tartalmazó lexikális erőforrások előállítása, hiszen ezek nélkül az algoritmusok nem tudhatják hogy a sikeres rákterápia hatására a rák visszafejlődik de a sikeres beszédterápia hatására a beszéd nem fog visszafejlődni. A gépi felhasználás által igényelt precizitáshoz a hagyományos szótárírási gyakorlat nem kielégítő: például gurul nem azt jelenti, hogy ‘valamin saját tengelye körül forogva halad’ (ÉKSz) hiszen akkor a Föld is gurulna a pályáján, a piruettező jégtáncos pedig a jégen gurulna. A nagyobb szabatossági fok eléréséhez fontos segítséget nyújt a nemzetközi szabványok átvétele: ilyenek lehetnek például az LMF (Lexical Markup Framework, ISO 24613) és a SAF (Semantic Annotation Framework), de megemlítjük az egyes komponensek (pl. a morfológia, POS-tagger, tulajdonnév-felismerés, szintaktikai elemzés) integrálásához és koordinálásához kifejlesztett Unstructured Information Management Architecture (UIMA) kezdeményezést is. A lexikai munkálatok jellegzetesen olyan terület, ahol mind a közös termelés (peer production) mind az ezt összefogó szakértő szerkesztői munka nélkülözhetetlen. A magyar lexikográfiának ki kell törnie a hagyományos zárt modellből, annál is inkább, hiszen az infrastruktúra csak akkor fejtheti ki a kívánatos katalizáló hatást ha nyitott és ingyenes, szerzői/szabadalmi jogi korlátoktól mentes. Korai (2-3 éven belül elérendő) célunk lehet, hogy a megfelelő metaadatok (pl. a tárgyszöveg nyelve és karakter-kódolása) automatikus kinyerését támogató olyan konverziós könyvtárat hozzunk létre, melynek felhasználásával a fejlesztéseket web alapúvá lehet tenni, azaz minden írottszöveg-elemző X(HT)ML szövegen működjön, az eredmény megjelenhessen böngészőben (megfelelő XSLT style-sheet alkalmazásával), tehát a sima (jelöletlen) text fájlra úgy gondoljunk mint speciális (gyengén jelölt) HTML-re illetve XML-re, ne pedig fordítva, a HTML/XML-re gondoljunk úgy mint jelölt szövegre.
140
STRATÉGIAI KUTATÁSI TERV
A hangtan mélyebb modellezése nemcsak a beszédtechnológiában nélkülözhetetlen, hanem az II.3.3. szakaszban tárgyalt morfológiai elemzéshez és generáláshoz is szükséges, még tisztán írott nyelvi anyagon is, hiszen a magyar helyesírás részint fonetikai, részint szóelemző alapokon áll. Fontos olyan, hatékony szabálykompozíciót lehetővé tevő keret kialakítása amely nemcsak a magyar, hanem általában az összes szóbajöhető nyelv fonológiai szabályrendszereit képes lekezelni: erre a véges állapotú transzducereken (FST, finite state transducers) alapuló u.n. kétszintű fonológiát és morfológiát tartjuk kizárólag alkalmasnak. A teljes FST infrastruktúra kiépítésén már most is EU-szerte több (finn, lengyel, német, francia) kutatócsoport dolgozik, ebbe nekünk is érdemes bekapcsolódnunk.
II.3.11. Alapkutatás A beszédfelismerésben a legfontosabb és legnehezebb feladat a zaj és interferencia érzékenység jelentős csökkentése. A felismerési hatékonyságának növeléséhez célzott spontán beszéd kutatásra van szükség. Hasznos lenne a kognitív modellezés a beszédfeldolgozás és általában a hangfeldolgozás területén: külön kiemeljük a kétfülű hallás (binaural hearing) jellegzetességeinek modellezését a beszéd zajból történő kiemelésére. Nemcsak a beszéd-, hanem a nyelvtechnológia egésze szempontjából kiemelt fontosságú a statisztikai nyelvmodellezés és a szabályalapú „mély” elemzés hatékony kombinálása, és az adatvezérelt nyelvi, dialógusszervezési és jelfeldolgozási technikák kutatása. A beszédtechnológia fontos része a beszélőazonosítás (speaker ID) és az ezzel összefüggő hanglenyomat (voiceprint) technológia. Ez ma még meg sem közelíti az egyéb biometrikus azonosítók (ujjlenyomat, írisz) megbízhatóságát, ezért itt további alapkutatásra van szükség. Írott megfelelője, a szerző-azonosítás, és a plágiumdetekció (sajnos) egyre fontosabbá váló kutatási terület. Ugyancsak alapkutatást igényel az annotátor és gép közötti szinergia növelése, az annotálási erőforrásigény minimalizálása. Ehhez active learning és egyéb intelligens interaktív tanítható rendszerekre, illetve részben felügyelt (semi-supervised) tanulási módszerekre van szükség.
˝ II. MELLÉKLET – JÖVOKÉP
141
II.4. Kiemelt alkalmazások II.4.1. A gazdasági szféra Bár írásunk célja hosszú távú jövőkép kidolgozása, röviden mégis érintjük a nyelvtechnológia néhány olyan területét, amikről azt gondoljuk, hogy a Platform tagjai, alkalmas ipari partnerrel összefogva, akár rövid távon sikeresen be tudják vezetni a nyelv- és beszédtechnológiát a gazdasági szféra kritikus pontjain. Kisebb ügyintézési feladatokra (pl. éttermi asztalfoglalás, mozijegy vásárlás, menetjegy foglalás) már ma lehetséges (mobil)telefonos ügyfélkiszolgáló rendszereket építeni, illetve automatikusan előállítani hangos információs táblákat (bevásárlóközpontokban, múzeumokban). Egyre inkább terjedőben vannak a gépi beszédfelismerésen alapuló telefontudakozók. Lehetséges (bár a mozgássérültek körétől eltekintve nem biztos, hogy kívánatos) a háztartásokban hanggal vezérelni szinte az összes készüléket (mosogatógép, mosógép, villanykapcsolók, TV, stb). Magyar nyelven is elérhetővé tehetők bizonyos hangos keresési szolgáltatások természetes nyelven, például „Merre van a legközelebbi benzinkút?" autós navigációs rendszerbe, vagy telefonba mondva. Ami ezekben az alkalmazásokban közös az a kis/közepes szókincs, szemben az II.3.1-ben tárgyalt nagyszókincsű feladatokkal. Már ma elérhetők fordítássegítő párhuzamos korpuszok és szótári tartalmak mind ingyenes, mind licenszált (fizetős) formában, és számíthatunk arra, hogy ezt az iparágat a továbbiakban is az ingyenes (és gyakran nyílt forráskódú) és a licenszált szoftverek versenye fogja jellemezni. Ebbe a folyamatba a tőkeerős befektetők több módon is bekapcsolódhatnak, és a Platform az egyes konkurensek közti kollaboratív megoldásokat (pl. fordítási memóriák adatcseréje) is támogatja. Ha a magyar nyelvre a helyesírás-ellenőrzők fejlesztése már nagyjából lezárt folyamatnak is tekinthető, a magyar nyelvtechnológia egésze még számos ilyen eszközzel adósunk, például a jelentős hazai kisebbségek, vagy uráli nyelvrokonaink nyelveire. Ugyanezen nyelvek egyés többnyelvű szótárainak, korpuszainak, és egyéb erőforrásainak fejlesztése is elsősorban a magyar nyelvtechnológiától várható. Külön kiemeljük a nyelvtechnológia olyan irányú fejlesztéseit, melyek megkönnyítik a kommunikációt azokkal a környező országokkal, ahol a magyar iparnak jelentős érdekeltségei vannak, Macedóniától Lengyelországig.
II.4.2. Állam- és közigazgatás Az állam- és közigazgatás hatékonyabbá, jogtisztelőbbé és emberarcúbbá tétele olyan célok, melyekhez relatíve kicsi nyelvtechnológiai befektetéssel lényegesen közelebb lehet jutni. Az ilyen jellegű tenderek kiírásának meglenne az az előnye is, hogy ezek a hazai nyelv- és beszédtechnológiát szerves módon támogatnák. Az elektronikus ügyintézés, az e-kormányzás már velünk van, bár elsősorban még kezdetleges, inkább formanyomtatvány-kitöltési mint természetes nyelvi interfészeken
142
STRATÉGIAI KUTATÁSI TERV
át. De már ez is felvet számos olyan, a jövő társadalmának életminőségét meghatározó kérdést, mint az adatvédelem és az autentikáció. Nyilvánvaló cél, hogy csak a nyilvánosan, közzétételi célra létrehozott információk kerülhessenek be a központi gépbe és bármilyen adatbázisba. A magánélet, a privát-szféra információinak védelme mindnyájunk érdeke, mint ahogy az is, hogy ilyen jellegű adatokat más ne használhasson helyettünk (identity theft). Sajnos e két cél részint ellentmond egymásnak, hiszen minél több adat elérhető, annál több adattal lehet visszaélni. A nyelvtechnológia több oldalról is segíthet, például előremutató projekt lenne az autentikációs sémák logikájának RDF alapú modellezése is, hiszen egy ilyen modell, megfelelő szöveg-szintézis technológiával összekapcsolva meg tudja magyarázni a felhasználónak hogy miért van autentikációra szükség. A nagyobb információvédelmet szolgálja, más eszközökkel, az adatbázisok hatékonyabb anonimizálása is. A tulajdonnevek mechanikus eltávolítása (az ehhez szükséges NER technológiában a Platform már komolyabb eredményeket tud felmutatni) esetenként nem elegendő ahhoz, hogy a szöveget a konkrét szereplőktől elszakítsuk, és valóban azonosíthatatlan anyagot kapjunk. Ilyen esetben lehetséges megközelítés az információkinyerési út, amikor előre megfogalmazzuk, hogy a szövegből pontosan mit akarunk kivenni és többi tartalmat a felhasználó nem is kapja meg. Végül, de nem utolsósorban megemlítjük, hogy a közigazgatás kiváló terep a jelenleginél sokkal nagyobb tudású ügyfélszolgálati rendszerek kialakítására is, legyenek ezek beszéd-, nyomógomb- vagy web-alapúak. A dialógus-modellezés (ld. II.3.6.) ezek közös eleme. A bűnelhárítás számos területén is hasznos a nyelvtechnológia, ilyenek például a forenzikus célra is kiválóan alkalmazható hanglenyomat és írás-azonosítás. A biometrikus azonosítás ilyen új formái, például az aláírás verifikációja digitális környezetben (hitelkártya-leolvasókon) egyben a megelőzésnek is fontos eszközei. A jassznyelv (argó) nyelvtechnológiai kezelése mind megelőzési, mind rehabilitációs célból indokolt.
II.4.3. Egészségügy Az egészségügy alapcéljai ismét olyan célok, melyekhez relative kicsi nyelvtechnológiai befektetéssel (pl. szakontológia kiépítésével, a diagnosztikai és rehabilitációs célzatú kutatások támogatásával) lényegesen közelebb lehet jutni, és ennek ismét meglenne az az előnye is, hogy ezek a hazai technológiát organikus módon támogatnák. Külön kiemeljük a környezeti intelligenciával segített élet és munka (ambient assisted living, ld. http://www.aal-europe.eu) jelentős nyeltechnológiai vonzatát, hiszen a lakosság elöregedésével erre egyre inkább szükség lesz. Magától értetődő, hogy a beszéd-, hallás-, és nyelvkészség zavarainak diagnózisában és terápiájában a technológia eredményei fontos szerepet játszanak, itt csupán a főbb területeket vázoljuk. Beszéd alapú diagnosztika: nemcsak a hangképzési rendellenességek (daganat, stridor, stb) vizsgálata és automatikus diagnosztizálása,
˝ II. MELLÉKLET – JÖVOKÉP
143
hanem a beszéd részletes vizsgálatával sok egyéb betegség is előre jelezhető (pl. Alzheimer-kór). Cél a kóros eseteket tükröző akusztikai paraméterek keresése. Hanganyag gyűjtése foniátriai szakrendelésen megjelenő betegek bemondásaiból a kórlap összekapcsolásával. (Ez mind a korpusz-építés mind az anonimizáció szempontjából érdekes feladat.) A hallásvizsgálatok új tárháza nyitható meg a szintetikus beszéd alkalmazásával (erre már ma is vannak példák). Hallássérültek beszédterápiájának szoftveres támogatása. A Platform már most ad ehhez technológiát de ennek további fejlesztéséhez a személyi állomány bővítésére lenne szükség. Rehabilitáció, például cochleáris implantáltak beszélni tanításában olyan szoftverrel, amely elemzi a páciens reakcióit és annak megfelelően ad gyakorlatokat, esetleg hangolja a készülékeket. Hasonló szoftver a siketek beszélni illetve az afáziások újra beszélni tanításához is kifejleszthető. A logopédiában szintén sokat segíthetnek a tanító gépek – levehetnek sok munkát a logopédus válláról, továbbá jobban gyakorolhatóvá teszik az előírt gyakorlatokat. Egyre nagyobb az igény olyan mérési módszerek fejlesztésére is, amelyekkel a beszédterápia javító hatása objektív módon kiértékelhető, a fejlődési lépték összehasonlítható. Alvásterápia segítése alvásmonitorozó rendszer segítségével (horkolás, alvási nehézségek, apnoé automatikus detektálása, elemzése). Gégeműtét előtt be lehet tanítani egy szintetizátort, melyet utána kényelmesen tud vezérelni és a saját hangján tud beszélni utána az ember (egyedi beszélőre adaptált szintézis, ld. II.3.1.). Általában a hihetetlen tömegű orvosi információ közti tájékozódást, akár a szakember, akár a laikus számára, rendkívüli módon megkönnyíti a modern nyelvtechnológia. Még a kifejezetten numerikus adatokra épülő leletek és esettörténetek is gyakran tartalmaznak természetes nyelvi (magyar vagy latin) kifejezéseket, és az ezek közti hatékony keresés ismét csak ontológiai támogatással valósítható meg jól. Fontos továbbá az orvosi szövegek (pl. gyógyszerszedési vagy egyéb terápiás utasítások) automatikus generálása és szemantikai ellenőrzése. Megemlítjük, hogy a modern nyelvtechnológia egyik kulcseleme, a rejtett Markov elemzés, nemcsak az emberi beszéd és szöveg hanem a genetikai kód darabjainak összehasonlításában is használatos, a modern szekvenciapárosító (sequence aligner) algoritmusok mind ezen alapulnak.
II.4.4. Oktatás A logopédidiában használatoshoz igen hasonló szoftver az idegennyelv-tanításban, a magyar mint idegen nyelv tanításában, és a nyelvtanulás hatékonyságának mérésében is felhasználható. Minden olyan szoftver, ami a tanár válláról munkát vesz le, a szűkös helyzetben lévő oktatás eredményességét javítja, és mint ilyen a fenti logikával egyben a hazai nyelvtechnológia bázisát is erősíti. Ezek mellett természetesen szükség van a nyelvtechnológia oktatására, népszerűsítésére, közvetlen társadalmi felhasználásának és hasznosságának erősítésére a köztudatban, hiszen az átlagos állampolgár ma úgy használja a nyelvtechnológiát a spellcheckertől a keresőmotorig, hogy nem is tudja, hogy amit használ az nyelvtechnológia. Saját házunk táján maradva, kiépíthetők lennének olyan internetes tanácsadó por-
144
STRATÉGIAI KUTATÁSI TERV
tálok melyek nyelvi és helyesírási kérdésekben illetve utónév választásához adnának tanácsot. Ezek, mint pilóta-projektek egyben a tanácsadó portálok mögötti nyelvtechnológiának is kísérleti terepei lehetnének, olyan inkubátorok, melyekből később ipari alkalmazások is kifejlődhetnek. Végül, de nem utolsósorban, ide tartozik a kisebbségi nyelvek (különösen az iskoláskorú lakosság mintegy 10-15%-át adó roma) és kisnyelvek felhozatala a digitális korszakba. A közép- és keleteurópai nyelvtechnológia meglehetősen inhomogén, a jugoszláv utódállamokban, ukrán és szlovák szomszédainknál szinte alig van nyelvtechnológia, míg Nyugat-Európában egészen kis nyelvjárások komoly technológiai támogatást kapnak. Azt gondoljuk, hogy részben célzott EU-támogatások befogadásával, részben pedig önerőből, Magyarország a térség vezető nyelvtechnológiai központjává válhat, és mindenképpen szorgalmaznia kell (pl. regionális konferenciák megrendezésével) az együttműködést a gyakran világszínvonalon dolgozó lengyel, cseh, román, orosz, és bolgár kollégákkal is.
II.5. Összefoglalás A nyelv- és beszédtechnológiának kulcsszerepe van az információs társadalom építésében mind a centralizált, fentről lefelé épülő (B2B, B2C) mind a decentralizált, lentről felfelé épülő (P2P) építkező struktúrák tekintetében. Előbbiek közül kiemeljük az ekormányzati mechanizmusokat, hiszen a társadalmi szintű részvétel a közügyekben csak akkor teljesedhet ki, ha a központtal való kommunikációt a mainál lényegesen természetesebbé tesszük, és a digitális kultúra, az e-tanulás ügyét. Mottónk információ helyett tudás, hiszen a tudásalapú társadalom építésében nem csak arról van szó, hogy az egyes szervezetek egyre nagyobb tudás birtokában egyre intelligensebb döntéseket tudnak hozni, hanem arról is, hogy a központi kezdeményezések szerepét ahol csak lehet átveszik az egyének autonóm döntései. Ennek a folyamatnak csupán a társadalom koherenciáját adó alapvető újraosztási rendszerek, az oktatás, az egészségügy, a rendfenntartás iránti univerzális igény szab korlátot, és ezeket az igényeket is hatékonyabb, emberibb ügyfélszolgálattal kell kielégíteni. Magyarország természetesen nem izolált társadalom, hanem nagyon is része az Európai Uniónak. Klasszikus nyelvészünk, Bárczi Géza 1961-ben leírt sorai máig aktuálisak: „ha a magyarság élni akar, nem szakíthatja ki magát Európa kultúrájából, nem szigetelődhetik el a földrészünket át-meg átszövő eszmeáramlatoktól. Az a hihetetlenül nagyszámú és erős szál, mely ma az egész emberiséget, még szorosabban az európai embereket összekapcsolja, nem szakadhat el a mi határainkon, mert ezzel egyszersmind életünk fonala is elszakadna.” A felgyorsult globalizáció miatt ehhez ma még azt is hozzátehetjük, hogy az EU nem izolálja országunkat a kívülről érkező hatásoktól sem gazdasági, sem technológiai, sem kulturális téren, tehát döntő, hogy a legfontosabb társadalmi trendeket ne csak passzívan átvegyük hanem aktívan tovább is vigyük. Az információs társadalom kialakulása kétségkívül ilyen trend. Magyarország, mint azt a bevezetőben már hangsúlyoztuk, digitális középhatalom, és a
˝ II. MELLÉKLET – JÖVOKÉP
145
magyar nyelvtechnológia célzott támogatásával a társadalmi változások passzív elszenvedése helyett azok aktív előrevivője lehet.