Nyelv-ész-gép
Új technológiák az információs társadalomban
CESAR – Csatlakozás az európai nyelvtechnológiai infrastruktúra élvonalához Lendvai Piroska
[email protected]
CEntral and South-East EuropeAn Resources*
*Közép- és kelet-európai erőforrások
Nagyszabású EUs projekt 9 partner, 2 millió € támogatás
MTA Nyelvtudományi Intézet koordinálásával 2011-2013 Nemzeti nyelvi infrastruktúrák egységesítése, összekapcsolása
Partnerek ① MTA Nyelvtudományi Intézet ② BME Távközlési és Médiainformatikai Tanszék
③ Lengyel Tud. Akadémia Informatikai Intézet (P) ④ Lódz-i Egyetem (P) ⑤ Szlovák Tud. Akadémia Nyelvtudományi Intézet (SK) ⑥ Bolgár Nyelvi Intézet (BG) ⑦ Mihajlo Pupin Intézet (SRB) ⑧ Belgrádi Egyetem Matematika Kar (SRB) ⑨ Zágrábi Egyetem Bölcsészettudományi Kar (HR)
Motiváció A képviselt 6 nyelv EU tagországok, vagy csatlakozásra váró országok nemzeti nyelvei A páneurópai egységes digitális piac létrehozásához elengedhetetlen ezek nyelvtechnológiai támogatottsága Az észak-európai és dél-európai régiókban a CESARhoz hasonló projektek folynak majd
Nyelvi erőforrások állnak a piacot lehetővé tevő szoftverek mögött, folyamatosan fejlesztendők
MT 6. Stratégiai cél: Többnyelvűség, a nyelvi korlátok leküzdése
Nyelvi erőforrások, nyelvi infrastruktúra • Írott és beszélt nyelvi adatbázisok • Nagyméretű szöveges (tanító)állományok • Feldolgozó/szintetizáló eszközök, címkézők
szógyűjtemény, nyelvtani szerkezetek, szókincs stb. leírása “korpusz” szó-, mondatelemző, szótövesítő, párhuzamosító…
Eddigi állapot
Nyelvtechnológia idáig autonóm módon fejlődött, országonkénti eltérésekkel
• Nemzeti támogatással, kutatási, kereskedelmi célokra készültek nyelvi erőforrások • Egymástól elszigetelten, ami a ma igényelt kompatibilitást, emiatt az újrafelhasználást gátolja
A CESAR projekt célja Európai Unió nyelvtechnológiai igényeinek támogatása • A nyelvi erőforrások sokszor nem hasonlítanak egymásra, mert adott szempontok szerint, adott alkalmazások támogatására készültek • Egységesíteni, szabványosítani: felépítésükben, nyelvtől független jellemzőikben
A CESAR projekt célja Európai Unió nyelvtechnológiai igényeinek támogatása
A CESAR projekt célja Európai Unió nyelvtechnológiai igényeinek támogatása Ha az EU piacát nyelvileg támogató alkalmazások elemei hasonlítanak egymáshoz, • nő köztük a kompatibilitás • a szoftverek, azok moduljai más nyelvekhez és célokhoz adaptálhatóvá válnak
A CESAR projekt célja Európai Unió nyelvtechnológiai igényeinek támogatása EU ehhez összefogó keretrendszert ad META-SHARE platform Ebbe kell az egymással összehangolt erőforrásokat beszállítani
Szintre- és szinkronba hozás • Kevés a többnyelvű, párhuzamosított anyag o Nyelvpárok szerint mondat/szószinten egymás mellé rendezett szövegek o horvát-angol, horvát-francia o szlovák-orosz, szlovák-francia o Két- vagy többnyelvű szószedetek o Nyelvfüggetlen elemzők • Általában egynyelvű erőforrások
Összekapcsolás • Bekérni, kiterjeszteni, szabványosítani, modularizálni, dokumentálni • Összekapcsolni • horvát-angol-francia • szlovák-orosz-francia •
horvát-angol-francia-szlovák-orosz
• Eredmény: többnyelvű (multilingvális) erőforrások
Páneurópai egységes digitális piac támogatása • Bármilyen ipari vagy kutatási fejlesztéshez bárki felhasználhassa ezt a nyelvi infrastruktúrát
• Elemekre, építőkövekre bontva központi helyen kell tárolni • Egyértelmű legyen, mi az, ami ott található – egységes jellemzők kialakítása (“metaadatok”)
Elérhetővé tett erőforrások Magyar és többnyelvű anyagok központi elhelyezése Elérhetővé (nem feltétlenül ingyenessé) tétel Ipar és fejlesztők számára Webes szolgáltatásként Szabványos licenszmegoldások alkalmazásával Létező jogi státuszok megőrzésével
Kívánt eredmény Az EU nyelveinek meglévő erőforrásain alapuló, kombinálható infrastruktúra Eredetileg más nyelvre fejlesztett alkalmazásokban is megjelenhet a magyar pl. lengyel piaci elemzőben, vagy annak részmegoldásait átvéve
Magyarra kialakítandó szoftverekbe bekapcsolhatóak lesznek más EUs nyelvek
A CESAR küldetése Közvetítői szerep a nyelvtechnológiai közösség és a digitális piac egésze között A piac igényeinek felmérése A felhasználás mértékének kiértékelése
A közép- és kelet-európai erőforrások EUs vérkeringésbe való becsatlakoztatása Régiós ipari és kutatói kulcsszereplők összefogásával