2009. 2. szám
Hírlevél Kapcsolat
Köszöntô Tisztelt Olvasó!
PLATFORMTITKÁRSÁG
PÉCH OLÍVIA TITKÁRSÁGVEZETÔ
[email protected] +36 1 342-9372/ 6012
CÍM: MTA NYELVTUDOMÁNYI INTÉZET 1068 BUDAPEST BENCZÚR U. 33. POSTAFIÓK: PF. 701/518, H-1399
Szeretettel ajánlom figyelmébe a Nyelv- és Beszédtechnológiai Platform második hírlevelét, melynek középpontjában a szakterület jövőbetekintő stratégiája, az elmúlt év során kidolgozott Stratégiai kutatási terv bemutatása áll. A szektor vezető kutatóműhelyeit és ipari partnereit tömörítő szövetség stratégiai célkitűzései között szerepel, hogy megfogalmazza a hazai nyelv- és beszédtechnológia fejlődésének irányait, e technológiák nyelvfüggő elemeinek “kötelező” hazai feladatait, rámutasson a nemzetközi kitörési lehetőségekre, és meghatározza az ezek realizálásához szükséges lépéseket. A nyelv- és beszédtechnológiai fejlesztések mai gazdasági, társadalmi környezete a hajtóerők, a motivációk tekintetében nagyon kedvező. Az európai léptékű célok, a globalizáció, a telekommunikációs, hálózati technológiák rohamos előretörése, a felhasználó-központúság követelménye az ágazat soha nem látott, ugrásszerű fejlődéséhez vezethet már a következő 5 éven belül. Hírlevelünkben az aktualitások mellett törekszünk egy-egy részterület részletesebb bemutatására, az elérhető alkalmazások, oktatási segédanyagok népszerűsítésére. Köszönjük érdeklődését, számítunk arra, hogy a jövőben is figyelemmel kíséri tevékenységünket! Üdvözlettel Váradi Tamás elnök
2009. 2. szám
Hírlevél www.hlt-platform.hu/skt
Stratégiai kutatási terv A számítógépek és egyéb infokommunikációs eszközök mindennapi életünkben játszott szerepe, s ezzel együtt a ránk zúduló információ
!"#$"%&'$'( )*"$"+,'(( -.#/
mennyisége folyamatosan növekszik. Alapvető fontosságúak tehát azok a módszerek, melyekkel könnyebben, gyorsabban és kényelmesebben tudjuk elérni a számunkra fontos információt, és csak azt. A nyelv- és beszédtechnológia ebben tud segíteni: az informatikusok, mérnökök, !"#$%&'()*+,,-.*/012"'*34.
pszichológusok és nyelvészek együttműködéséből kialakult kutatási terület célja, hogy olyan új technológiákat és alkalmazásokat állítson elő, melyek az emberi kommunikációt természetesen és hatékonyan szolgálják ki. A természetes nyelven történő információáramlás és az emberi tudás számítógépes támogatása egyre nagyobb szerepet játszik nemcsak az európai gazdaságban, hanem az esélyegyenlőség és az életminőség javításában is. Ezt felismerve az Európai Unió régóta kiemelt figyelmet fordít a nyelv- és beszédtechnológiai fejlesztésekre. A kérdés prioritását egyértelműen jelzi, hogy e törekvések az európai információs társadalom előmozdítására irányuló i20101 kezdeményezés részévé váltak. Az i2010 által megjelölt három kiemelt fontosságú területen (információs tér, kutatási ráfordítás és innováció, társadalmi integráció) a nyelv- és beszédtechnológiának kulcsszerep jut: •
egy változatos és minőségi tartalmat és szolgáltatásokat, biztonságos és gyors kommunikációs lehetőségeket elérhető áron nyújtó információs társadalomban a tartalom és szolgáltatások széles körének kialakításában;
2009. 2. szám
Hírlevél •
Stratégiai Kutatási Terv •
az Európa felzárkózását biztosító infokommunikációs technológiai kutatások terén a kutatást és az innovációt érintő európai szintű befektetések hatékony felhasználásában, az innováció előrevitelében; a valamennyi polgár életminőségének javításához szükséges közszolgáltatások mindenki számára hozzáférhetővé tételében.
Budapest, 2009. július 15.
A nyelv- és beszédtechnológia által támogatott tartalom és szolgáltatások nélkül az információs társadalom életképtelen, e technológiák nélkül Európa kulturális öröksége a digitális kor számára elveszhet. Ehhez a kontextushoz, a megfogalmazott prioritásokhoz és irányelvekhez Magyarországnak is igazodnia kell. Az infokommunikációs technológiák új minőségi szintre emelése csak akkor lehetséges, ha áttörést érünk el a jelenleg mutatkozó nyelvi korlátok leküzdésében.
www.hlt-platform.hu/skt
A magyar nyelv- és beszédtechnológia ebből a szempontból igen speciális helyzetben van. Ugyan a nemzetközi kutatás-fejlesztés jelentős eredményeit tekintve világos, hogy sok más nyelvhez hasonlóan bizonyos mértékig követi a vezető angol központú technológiákat, de a magyar nyelv radikálisan egyedi jellege új módszerek kidolgozását követeli meg, melyek nemzetközi szinten is érdeklődésre tarthatnak számot, nemcsak a magyarhoz hasonló tipológiájú nyelvek esetében. Az eddigi itthoni eredmények azt mutatják, hogy e tekintetben életképes és fejlődő nyelvi középhatalom vagyunk, és a stratégiai terv középpontjába a fent megfogalmazott célok elérését biztosító technológiákat kell állítani.
2009. 2. szám
Hírlevél Legfontosabb szakterületeink, eredményeink •
Angol-magyar, magyar-angol gépi fordítás, fordítástámogatás
•
Gépi beszédszintézis
•
Gépi beszédfelismerés
•
Írott és beszélt nyelvi adatbázisok
•
Szövegfeldolgozás a szavak és a mondatok szintjén
•
Számítógépes szótárak
•
Ontológiák (nyelvi alapú tudástárak)
•
Szemantikus webbányászat
Nyelvi áttörés A nyelv- és beszédtechnológia nemzetgazdasági hasznosíthatósága a természetes nyelven történő kommunikáció alapvető fontossága miatt rendkívül sokrétű. A gazdasági szféra, az állam- és közigazgatás, az egészségügy vagy az oktatás bizonyos területein akár már rövid távon is sikeresen bevezethetők a nyelv- és beszédtechnológiai fejlesztések. A nemzetgazdaság szempontjából kedvező lehet olyan technológiába fektetni, melynek potenciális napi felhasználója gyakorlatilag a teljes lakosság, és amely ilyen átfogó mértékben fokozza a nemzetgazdaság versenyképességét. A következőkben szemléltető jelleggel sorolunk fel néhány gyakorlati alkalmazási példát: •
•
•
• • •
•
Robusztus beszédfelismerési technikák: az autóban és tömegközlekedési eszközökön használható navigációs rendszerek vezérlése. A spontán társalgási beszéd felismerése: az ügyfélszolgálatok minőségbiztosítása. Nagyszótáras folyamatos beszédfelismerési technikák gazdag morfológiájú nyelvekre: a híradók automatikus feliratozása. Nyelvfüggetlen beszédfelismerő módszerek kialakítása: horvát, román stb. nyelvű multimédia-menedzsment. Hangkarakter- és kiejtésistílus-transzformáció: emberközeli automatikus regényfelolvasás vakoknak, gyerekeknek. Érzelem kifejezése gépi beszéddel és a spontán beszédstílus megvalósítása: barátságos, emberi érzetű gépi ügyfélszolgálat. Többnyelvű szintézist támogató keretrendszer fejlesztése: turisztikai információs rendszer telefonon.
2009. 2. szám
Hírlevél A nyelv- és beszédtechnológiai fejlesztések mai gazdasági, társadalmi környezete a hajtóerôk, a motivációk tekintetében nagyon kedvezô.
• • •
•
Az európai léptékű célok, a globalizáció, a telekommunikációs, hálózati technológiák rohamos elôretörése, a felhasználóközpontúság követelménye az ágazat soha nem látott, ugrásszerű fejlôdéséhez vezethet már a következô 5 éven belül.
•
• • •
Fordítástámogatás: a fordítóirodák munkáját megkönnyítő megoldások. Megértéstámogatás: az e-kereskedelem nyelvi támogatása. Szövegből történő információkinyerés: webalapú piacelemzés, konkurenciaanalízis. Hangzó anyagokból történő információkinyerés: automata telefonos ügyfélszolgálat. Információ-visszakeresés: webes keresés, mélyebb tartalmi összefüggések kinyerése. Beszédfordítás: kórházi, biztosítási sürgősségi esetekre szabott alkalmazások. Beszédterápiai és -diagnosztikai kutatások: logopédiai tanítóeszközök, gégerák-diagnosztika. Multimodális dialógusrendszerek: navigációs és jegyautomata a tömegközlekedésben.
2009. 2. szám
Hírlevél Konferencia www.hlt-platform.hu/ skt_konf
“Nyelvi áttörés – a nyelv- és beszédtechnológia mint húzóágazat” című konferencia A Nyelv- és Beszédtechnológiai Platform “Nyelvi áttörés – a nyelv- és beszédtechnológia mint húzóágazat” címmel sajtótájékoztatóval egybekötött konferenciát szervez a kidolgozott stratégiai terv bemutatására. A konferencia résztvevői előadásokon és interaktív demonstrációkon keresztül ismerhetik meg az új technológiákban rejlő lehetőségeket, azok alkalmazási területeit, valamint a jövőben várható fejlődési irányokat. A konferencia helyszíne: MTA Székház, Felolvasóterem (1051 Budapest, Roosevelt tér 9.) A konferencia időpontja: 2009. december 8. kedd, 9.00–14.00 A konferencián való részvétel ingyenes, de előzetes regisztrációhoz kötött. Regisztrálni a következő linken lehet: Regisztráció a konferenciára Számítunk rá, hogy jelenlétével megtiszteli rendezvényünket!
2009. 2. szám
Hírlevél Új partnerek Arcanum Development Kft. Digital Natives Eötvös Loránd Tudományegyetem Fonetikai Tanszék in4 Kft. Nuance-Recognita Zrt. PPKE Információs Technológiai Kar SPSS Hungary WebLib Informatikai Kft.
Újonnan csatlakozott partnerek Az elmúlt évben felmértük azokat az irányokat, ahol újabb lehetséges partnerek bevonása kívánatos a Nyelv- és Beszédtechnológiai Platform tevékenységébe. Minden lehetséges fórumon és kiadványban hangsúlyoztuk a bővülés szándékát és azt a célkitűzést, hogy az egységes fellépés érdekében egy szervezetbe tömörítsük az összes hazai nyelv- és/ vagy beszédtechnológiával foglalkozó potentátot. Törekvésünk eredményeképpen a Nyelv- és Beszédtechnológiai Platform további nyolc új szervezettel bővült. A Nyelv- és Beszédtechnológiai Platform 2009. október 15-re plenáris ülést hívott össze az újonnan csatlakozott partnerszervezetek képviselőinek részvételével. A partnerszervezetek képviselői rövid összefoglaló keretében ismertették, hogy az általuk képviselt intézmény miként alkalmazza a nyelv- és beszédtechnológia eddigi eredményeit, illetve hogy felhasználóként mely új technológiai megoldások kifejlesztését szorgalmazzák. Az újonnan csatlakozott partnerszervezetek tevékenyen részt vesznek a Nyelv- és Beszédtechnológiai Platform életében, így demóikkal jelen lesznek a “Nyelvi áttörés – a nyelv- és beszédtechnológia mint húzóágazat” címmel rendezett, sajtótájékoztatóval egybekötött konferencián. Csatlakozzon a platformhoz! Ha szervezete a nyelv- és beszédtechnológiával foglalkozik, vagy ahhoz szorosan kapcsolódó területen tevékenykedik, töltse ki a következő űrlapot, és küldje el címünkre a kitöltött Belépési szándéknyilatkozat-ot.
2009. 2. szám
Alapító tagok AITIA International Zrt.
[email protected] Tel: +36 1 453-8080 Fax: +36 1 453-8081 1039 Budapest Czetz János u. 48-50. BME Média Oktatási és Kutató Központ
[email protected] Tel.: +36 1 463-3500 Fax: +36 1 463-3516 1111 Budapest Stoczek u. 2., III. em. 302. BME Távközlési és Médiainformatikai Tanszék
[email protected] Tel.: +36 1 463-3883 1117 Budapest Magyar tudósok krt. 2. Informatikai ép. I.B.220. Kilgray Kft.
[email protected] 5700 Gyula Béke sugárút 72. II/8. MTA Nyelvtudományi Intézet
[email protected] Tel.: +36 1 342-9372/ 6012 1068 Budapest Benczúr u. 33. H-1399 Pf. 701/518 MorphoLogic Kft.
[email protected] Tel.: +36 1 225-2323 Fax: +36 1 225-2320 1116 Budapest Kardhegy utca 5.
Hírlevél Alkalmazott Logikai Laboratórium Az Alkalmazott Logikai Laboratórium Kutató-fejlesztő Szövetkezet (ALL) az információelmélet és -technológia területén fejti ki tevékenységét. Fő célkitűzése újszerű technológiák és módszerek kidolgozása, és ezek bázisán magas innovációtartalmú termékek kifejlesztése. Megalakulása (1986) óta az ALL számos, külföldön is jegyzett kutatási, technológiai és termékszintű eredményt ért el többek között a mesterséges intelligencia, a tudásmenedzsment, a kognitív rendszerek, a nyelvtechnológia és az orvosbiológiai informatika területén. Az ALL 2004 óta foglalkozik beszédtechnológiai kutatásokkal és fejlesztésekkel. Az ez irányú tevékenység eredménye a VocALL termékcsalád, melynek három legfontosabb tagja: •
•
•
e g y m a g y a r é s a n g o l n y e l v e n műk ö dő, n a g y s z ó t á r a s beszédfelismerő rendszer, amely a hangzó beszédet szöveggé konvertálja; egy magyar és angol nyelven működő hangostárkereső, amely a digitális archívumokban tárolt beszédinformáció kereshetőségét biztosítja az archivált hanganyagokban elhangzó szavak és szósorozatok alapján; a beszélő személyt a rendszerben tárolt hangminta alapján azonosító szoftver.
Alkalmazott Logikai Laboratórium
[email protected] Tel.: +36 1 326 9056, 9057 Fax: +36 1 326 9058 1022 Budapest, Hankóczy J. u. 7.
2009. 2. szám
Hírlevél Alkalmazások Alkalmazott Logikai Laboratórium
[email protected] Tel.: +36 1 326 9056, 9057 Fax: +36 1 326 9058 1022 Budapest, Hankóczy J. u. 7.
VocALL – hangostárkereső beszédszakaszok visszakeresése audiovizuális archívumokban
A beszédalapú információ visszakeresése
Az ALL hangostárkeresője Az ALL hangostárkeresője audiovizuális archívumokban hangzó (beszéd) formában megőrzött, szöveges átirattal nem rendelkező anyagok (riportok, visszaemlékezések, hírek stb.) visszakeresését teszi lehetővé. Az archívum hangfájljai, illetve a videofájlok hangsávjai a beszédblokkokon kívül más hanganyagot (zene, motorzaj, madárfütty stb.) is tartalmazhatnak. Az ALL hangostárkeresője az archivált fájlokon belül felismeri a beszédszakaszokat, szolgáltatásai a beszédalapú információ visszakeresését támogatják. A beszédszakaszok visszakeresésekor az archívum fájljaiban tárolt szavakra, illetve szósorozatokra vonatkozó keresési feltételre a rendszer egy találati listával válaszol. A találati lista sorai beszédszakaszokat azonosítanak, és a szavak és/vagy szósorozatok előfordulási eredményeit. A rendszer kikeresi és betölti a találati listából kiválasztott beszédszakaszt tartalmazó fájlt, és a médialejátszót a beszédszakasz elejére pozicionálja. Az ALL hangostárkeresőjében mért standard minőségi mutatók megközelítik a jól ismert szöveges információ-visszanyerési rendszerek teljesítményét. A termék jó minőségét az ALL beszédfelismerőjét integráló előfeldolgozó modul biztosítja, melynek fő funkciója az archivált fájlok beszédszakaszainak az ott elhangzott szavakkal való indexelése. A termék előfeldolgozást végző modulja a magyar és angol nyelvre működik, a visszakeresést támogató modul nyelvfüggetlen. A hangostárkeresőt az ALL az EASAIER nevű EU FP6 projekt keretében fejlesztette ki. Az ALL hangostárkeresőjét integráló komplett EASAIER rendszert eddig a British Library és a Caledonian University (a BBC audiovizuális archívumát kezelő) Spoken Words részlege telepítette.
2009. 2. szám
Hírlevél Beszédtechnológia
Audiovizuális archívumok felkészítése beszédinformáció visszakeresésére
Keresés audiovizuális archívumokban
Egy tipikus hangostárkereső két önálló modulból áll. Az egyik modul egy beszédfelismerő alkalmazás, amely felkészíti az archívum hanganyagában fellehető beszédszegmenseket a későbbi visszakeresésre, a másik modul pedig megfelelő eszközt biztosít a végfelhasználók számára az archívumban tárolt beszédinformáció visszanyerésére. Az archivált fájlok előfeldolgozását megvalósító modul először lokalizálja az input fájlon belüli beszédszegmenseket, majd sorra véve a fájl beszédszegmenseit felismeri, hogy az adott szegmensben mi hangzott el, és a felismert szavakkal indexeli a szegmenst. Az archívumban tárolt fájlok közül azok válnak visszakereshetővé, amelyek előzőleg átesnek az előkészítési/indexelési fázison. A beszédinformáció visszakeresésére szakosodott szoftverrendszerek teljesítménye (eredetileg a szöveges dokumentumtárakból való információvisszanyerés minőségének megbecslésére kidolgozott) standardokkal jellemezhető: •
A rendszer megbízhatóságát jelzi, hogy egy adott keresési feltételt ténylegesen kielégítő beszédszakaszok közül várhatóan mennyi jelenik meg a találati listán.
• •
• •
A jó minőségű keresők 85-90%-os megbízhatóságot mutatnak. A rendszer használhatóságát mutatja, hogy a rendszer által produkált találati listának hanyadrésze releváns, az adott keresési feltételt ténylegesen kielégítő találat. A jó minőségű keresők 90% feletti relevanciaértékkel dolgoznak. A hangostárkeresők minősége az archívum hanganyagának keresésre való felkészítésekor dől el.
2009. 2. szám
Hírlevél Beszédtechnológia Beszédfelismerés
A beszédfelismerési szakasz kihívásai Mivel az archívum hanganyagának indexelése a beszédszakaszokban elhangzó szavak bázisán történik, a hangostárkereső minősége nagymértékben függ a rendszerbe beépített beszédfelismerő teljesítményétől. Egy jó minőségű hangostárkereső kialakításához legalább 75-80%-os felismerési pontosság szükséges. A hangostárkereső beszédfelismerőjével szembeni legnagyobb kihívás abban rejlik, hogy az audiovizuális archívumok esetén nem támaszkodhatunk a felismerés pontosságát hatásosan növelni képes technikákra és körülményekre: •
• •
•
•
nem lehet stúdióminőségre számítani, hiszen az archivált felvételek bárhol, akár az utcán vagy egy sportközvetítésen is készülhettek; beszélőadaptációs eszközökkel próbálkozni értelmetlen, mivel a riportokban, visszaemlékezésekben stb. bárki beszélhet; általános nyelvmodellt kell használni, hiszen az elhangzó beszéd bármilyen szakterületet érinthet; nem lehet számítani jól formált mondatokra, a beszélő megnyilvánulása gyakran szóismétléseket, nyelvtani hibákat, befejezetlen mondatokat tartalmazó spontán beszéd; a többszereplős hanganyagokban pedig külön problémát jelent az azonos hangerejű egymásra beszélés.
A kívánatos 75-80%-os beszédfelismerési pontosságot olyan feltételek mellett kell elérni, hogy az input hanganyag zajos környezetben elhangzó, bármilyen témakört érintő, tetszőleges személyek által artikulált spontán beszéd.
2009. 2. szám
Hírlevél Beszédtechnológia Indexelés
Indexelési stratégia A hangostárkeresőbe beépített beszédfelismerő minősége mellett a hanganyagok indexelésekor alkalmazott stratégia szintén szerepet játszik a rendszer egészének mérhető teljesítményében. Az indexelési stratégia kialakításakor komoly dilemma az, hogy a beszédszakaszokban elhangzó szavakat a szótövekkel vagy az ott elhangzó toldalékos formában indexeljük-e. A gyengén, illetve lényegében nem toldalékoló nyelvek esetében (ilyen például az angol) majdnem mindegy, hogy az indexelés szótövekre vagy toldalékolt szavakra történik-e. A dilemma az olyan erősen toldalékoló nyelvek esetén jelentkezik, mint amilyen például a magyar. A szótövekkel történő indexelés számottevően növelheti a rendszer megbízhatóságát, mivel elfedi a beszédfelismerő tévesztéseinek egy részét. (A beszédfelismerő tévesztéseit gyakran a toldalékok hibás felismerése okozza, például az adott beszédszakaszban elhangzó ”gépek” szó helyett a ”gépet” szót hallja a rendszer.) A szótőindexek használata ugyanakkor rengeteg irreleváns elemmel terhelheti meg a találati listát, drasztikusan csökkentve ezzel a rendszer használhatóságát. (Ha keresési feltételként például a ”gépekkel” szót adjuk meg, a találati listán megjelennek olyan beszédszegmensek is, amelyekben a ”gépekkel” szó nem hangzik el, de a ”gép”, ”gépet”, ”gépeinket” stb. szavak valamelyike igen.) Az erősen toldalékoló nyelvek esetén a megoldás a kettős indexelés lehet. Ez esetben a felhasználó dönthet arról, hogy olyan beszédszakaszok visszakeresését kérje-e, amelyekben a keresett szó bármilyen toldalékkal elhangozhat, vagy pedig csak azokét, amelyekben az a szó a keresési feltételben megadott formában hallható. Bár az archívum hanganyagának indexelése a beszédszakaszokból felismert szavak bázisán történik, nem életszerű, hogy keresési feltételként csupán szavakat lehessen előírni. Viszonylag egyszerűen megoldható ”a
2009. 2. szám
Hírlevél Beszédtechnológia
keresett beszédszegmens a felsorolt szavak mindegyikét/egyikét/egyikét sem tartalmazza” típusú összetett keresési feltétel kezelése. Ez azonban nem ad megoldást arra, ha a felhasználó azokat a beszédszegmenseket keresi, amelyekben például a ”Gépekkel – emberi nyelven” szlogen hangzik el. A megfelelő indexelési stratégiának gondoskodnia kell arról, hogy a felhasználó összefüggő szósorozatokra is keresni tudjon.
Keresés metaadatok alapján
A hangostárkereső alapszolgáltatásainak gazdagítása A hangostárkereső felkészíthető arra, hogy az elhangzott beszéden túlmenően az archivált hanganyag egyéb tulajdonságai alapján is keresni tudjunk. Erre a célra elvileg az archív anyagnak minden automatikusan felismerhető és szöveges metaadatok formájában leírható jellemzője alkalmas. A metaadatokkal az érintett hangszegmensek indexelhetők, és ezekkel is kereshetőkké válnak. A jól ismert beszédtechnológiai eszközök egy része kiválóan alkalmas keresési célú metaadatok képzésére. Néhány példa erre: • A beszélőazonosító szoftverek segítségével a beszélők nevével címkézhetők meg azok a beszédszegmensek, amelyekben a rendszerben tárolt beszédmintával rendelkező beszélők hallhatók. • A jól modellezhető, tipikus fehérzajok azonosítása információt szolgáltat arról, hogy a vizsgált, zajos beszédszegmens hol hangzott •
•
el (repülőtéren, sportközvetítésen stb.). A hangtípus-felismerő szoftverek nemcsak a beszédszegmensek hangfájlon belüli lokalizálására használhatók, segítségükkel megjelölhetők a hangfájl zenei blokkot, éneket stb. tartalmazó szegmensei is. A rohamosan fejlődő hangtechnológiai, illetve képfeldolgozó eszközkészlet komoly perspektívát nyit az eredetileg beszédinformáció visszanyerésére szakosodott hangostárkeresők szolgáltatásainak fokozatos bővítésére.