Fordítás, többnyelvűség, szótárak Prószéky Gábor MorphoLogic http://www.morphologic.hu
Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu
„Minden hivatalos anyagot minden hivatalos nyelven meg kell szövegezni, továbbá bármely hivatalos nyelven fogalmazódik egy nyilatkozat, azt minden más hivatalos nyelvre és minden, az elnökség által szükségesnek tartott egyéb nyelvre is le kell fordítani.”
(Az Európa Parlament ügyrendje, 79. cikkely)
Az EU-országok idegennyelv-tudása Luxemburg Lettország Málta Hollandia Litvánia Szlovénia Dánia Svédország Észtország Ciprus Belgium Szlovákia Finnország Németország Csehország Ausztria Görögország Lengyelország Franciaország Bulgária Írország Románia Spanyolország Olaszország Portugália Egyesült Királyság Magyarország
99% 93% 93% 91% 90% 89% 88% 88% 87% 72% 71% 69% 66% 62% 60% 58% 49% 49% 45% 45% 41% 41% 36% 36% 36% 30% 29%
(Eurobarometer)
A beszélt nyelvek megoszlása
(Az idegen nyelvek megoszlása az idegen nyelveket beszélők %-ában Eurobarometer)
A szótár a nyelvtudás egyik kulcsa
Az elektronikus és a hagyományos szótárak viszonyát alapvetően meghatározza:
a használat módja a sebesség az adott helyzetben kapott találatok pontossága az egyszerre több helyen való fellapozhatóság lehetősége
A szótárprogramok nagy része nem nyelvtechnológiai produktum, mindössze egy nyelvi egységeket (szavakat, kifejezéseket) tartalmazó adatbázis: a hazai területen ilyenek pl. a 90-es években széles körben használt GIB szótárak a Scriptumtól, vagy a közismert internetes Sztaki-szótár
Az intelligens szótári rendszer egyik első megvalósítása magyar fejlesztés: a MorphoLogic MoBiMouse programja (IST Prize = EU Információtechnológiai Díj, 1998)
Eleinte csak off-line szótártermékek voltak, ma már (javarészt ingyenes) on-line szótári szolgáltatások - ám a legtöbb ilyen szolgáltatás még mindig nem a szűken vett nyelvtechnológia tárgykörébe tartozik
Ma már alapvetően Web2-alapú Folyamatosan bővülő szótárkínálattal Sajátszótár-készítési lehetőséggel Tetszőleges webes tartalom integrált megjelenítésével A kifejezések intelligens kezelésével A közösségi jelenlét támogatásával Egymás segítésének és a (jogos) kritikának a fórumával A felhasználók keresési szokásainak elemzésével Könnyű keresés-indítási lehetőséggel Saját, személyre szabható és menthető beállításokkal Egy ilyen megvalósítás: www.webforditas.hu
A géppel támogatott fordítás eszközei
A professzionális fordítók igénye: gépi szótárak és sok más fordítástámogató szoftvereszköz, de továbbra sem a gép fordít! Például tovább lehet gyorsítani a munkán, ha az eddig lefordított anyagokat el lehet érni Kialakulnak a fordítómemóriák Új kutatási terület: hasonló mondatok keresése Párhuzamos szövegkorpuszok: szövegek fordításaikkal, mondatpáronként kereshetően A legjelentősebb hazai kísérlet: a Hunglish angol-magyar párhuzamos korpusz (BME MOKK, MTA NYTI) Szoftvereszközök: Trados, SDL, Transit, Déja Vu, … A MemoQ magyar fejlesztésű fordítómemória (Kilgray Kft) több szakmai szempontból meghaladja a versenytársait Nyelvtechnológia + fordítómemória: út az intelligens fordítómemóriák felé
A Hunglish párhuzamos korpusz
Több mint 2 millió (emberi fordítással készült) magyar-angol mondatpár (54,2 millió szó) Keresés szavakra (tövesítve) mondatkörnyezetben (sok a kiadott szótárakban nem fellelhető szót találni Témakörök: irodalom, jogi szövegek, szoftverdokumentáció, filmfeliratok, publicisztikai írások Havi 10 ezer felhasználó, ingyenes elérés: www.hunglish.hu További mondatpárokkal tovább bővíthető és a technológia más nyelvekre is könnyen adaptálható
A MemoQ fordítómemória
A gépi fordítás minősítési kritériumai
Forrás: Stadler-Spröndli, MT Summit 2007
A gépi fordítás legalapvetőbb módszerei
A közvetlen fordítás csak az 60-as évek elejéig működött (magyar kísérlet is volt!) A minden nyelv fölött álló közvetítőnyelves megoldás mindig csak kísérlet maradt (pl. DLT, amiben kísérlet volt a magyar bevonására is) A transzfer-fordítás ma a szabály-alapú rendszerek alapgondolata (pl. Systran, ProMT, Eurotra) A statisztikai fordítók az utóbbi évtized egyeduralkodóivá váltak, de képességeiket csak szűk területen mutatják meg jól (nyílt forráskódú rendszerek: Pharaoh, Giza++, Moses) A soknyelvűség ismét előtérbe kerül: hibrid rendszerek előállítása - magyar közreműködéssel (MorphoLogic): az EuroMatrix projekt A példa-alapú rendszer nem feltétlenül kapcsolódik statisztikai megoldáshoz (pl. MetaMorpho)
Egy hazai gépi fordítási esettanulmány
A www.webforditas.hu ingyenes internetes fordítószolgáltatás
A gépifordító-motor a MorphoLogic MetaMorpho rendszere
Az angol-magyar a MorphoLogic saját fejlesztése (2000-2004), a magyar-angol a MorphoLogic vezette és az MTA Nyelvtudományi Intézet, valamint az SZTE Informatikai Tanszékcsoportjából álló konzorcium munkája (NKFP 2/008/04)
2007 és 2008. októbere között: 91 millió fordítási kérés kiszolgálása (az előző 12 hónapban ugyanez 43 millió oldal volt) 81 millió szövegfordítás + 2 millió weboldal-fordítás + 7,2 millió szótári lekérdezés 13,3 GB adatforgalom: ez 1800 karakter/gépelt oldallal számolva mintegy 7,2 millió A4-oldalnak felel meg
2008. szeptemberében már 50 000 látogató/nap!
Teljes weblapok fordítása
www.webforditas.hu
A fordítóoldalak látogatószáma egyre nő A webforditas.hu gépifordító-szolgáltatásának látogatószám-növekedése 2007/2008-ban
Gépifordító-szolgáltatások összevetése
Következmények és fejlesztési irányok
A fordítói társadalom természetesen nem érzett meg ebből semmit (=egy fordító sem vesztette el az állását)
Miért? Mert ez nem fordítás az eredeti értelemben, hanem a többnyelvűség egy újabb területe: az internet előtt ülők „megértéstámogatása”
Ezek a számok adták az ötletet további nyelvek bevonásához, a MorphoLogic angol-magyar és magyar-angol szolgáltatásának és a világ angol-X és X-angol gépfordítószolgáltatásainak összekapcsolására
Hogyan?
„A működés megkerülhetetlen előfeltétele a megnyilatkozások fordítása, tolmácsolása az éppen megnyilatkozó nyelvéről az összes többi nyelvre. Matematikailag a legegyszerűbb és minden szempontból a leghatékonyabb, nem mellesleg a legolcsóbb megoldás az, ha minden megnyilatkozást először lefordítanak egy közös nyelvre, egy második lépésben pedig ezen közös nyelvről lefordítják a megnyilatkozást az összes többi nyelvre. Mivel egy fordítóról általánosan is elvárható az oda-vissza fordítás két nyelv között, 23 hivatalos nyelv (azaz egy közös és 22 más nyelv) esetében ilyen munkamódszer mellett pontosan 22 fordítóra lenne szükség. […] Megoldásként kínálkozik a másik munkamódszer, amikor ilyen áthidaló közös nyelv közbeiktatása nélkül a fordítás minden nyelvről minden nyelvre történik. Ebben az esetben viszont pontosan 506 fordítóra lenne szükség.” (Az Európai Unió soknyelvűsége - Ajánlás)
Közvetett fordítás interlingvával A nyelvpárok száma= n*(n-1) A nyelvek száma
6 nyelv 23 nyelv 50 nyelv
Hagyományos/Statisztikai
Interlingvával
30
12
506
46
2450
100
A létező X-angol/angol-X gépifordító-rendszerek adják az interlingvát: az angolt X-Y közvetett fordítás: angolon át 2008 nyarától a Google is ezt csinálja: statisztikai fordítóit kötötte össze az angolon keresztül
A legfontosabb európai világnyelvek: angol, német, francia, spanyol, olasz, orosz További nyugat-európai nyelvek: portugál, holland, dán, svéd, norvég, finn, katalán A „visegrádi” nyelvek: lengyel, cseh, szlovák További szomszédos nyelvek: ukrán, román, szerb, horvát, szlovén További kelet-európai nyelvek: görög, bolgár, lett, litván A legfontosabb nem európai világnyelvek: arab, héber, japán, kínai, koreai További nagy, nem-európai nyelvek: hindi, indonéz, vietnámi A MorphoLogic nemzetközi partnerei ebben a gigaprojektben: ProMT (orosz, német, francia, spanyol, portugál), Trident (ukrán, lett), pwn.pl (lengyel), SkyCode (bolgár), GrammarSoft (dán, norvég) Ez a 12 fordítómodul saját gépen futó változatban is, Word-fájlok és weblapok fordítására elérhetőek: MorphoWord Net A szükséges fejlesztések fő iránya: úgy javítani az angol-magyar/ magyar-angol rendszert, hogy az a géppel való továbbfordítás kritériumainak minél jobban megfeleljen („nem ember áll a túloldalon!”)
például
a japánt:
ami így fest magyarul:
Merre megy a gépi fordítás tovább?
Hosszú távra tervezett kutatás (csak megfelelő támogatással): a fordítási minőség folyamatos javítása (korpusznyelvészeti és hibrid megoldásokkal)
Kutatási projektek a fordításhoz tartozó szolgáltatások bővítésére (pl. szókészlet-bővítő eszközök, intelligens keresési megoldások)
Újabb „platformok”, más info-kommunikációs rendszerekkel való integráció bevonási lehetőségeinek kutatása (pl. összekapcsolás beszédfeldolgozással, mobil alkalmazások)
Köszönöm figyelmüket! Thanks for your attention!