Számítógépes nyelvészet Babarczy Anna
A MESTERSÉGES INTELLIGENCIA KEZDETEI Az intelligens gép Az embert régóta foglalkoztatja az intelligenciával rendelkező gép ötlete. Érdekes, és filozófiai szempontból valószínüleg megválaszolhatatlan kérdés az, hogy mikor nevezhetünk egy gépet intelligensnek. Annyi azonban bizonyos, hogy a gépi intelligencia kutatásában kiemelt helyet foglal el a nyelvhasználat képessége, mivel a nyelv központi szerepet tölt be az emberi gondolkodás kifejezésében és a gondolatok átadásában. Ezen az alapon Alan Turing 1950-ben, az első modern számítógépek megjelenését követően, a következő tesztet találta ki a gépi intelligencia lemérésére: A tesztelő személy egy számára láthatatlan számítógéppel és egy ugyancsak láthatatlan másik személlyel levelezik bármilyen témáról. Mindkét levelezőpartner célja az, hogy meggyőzze a tesztelőt arról, hogy valódi ember. A tesztelő feladata pedig az, hogy eldöntse, a két levelezőpartner közül melyik a gép. Ha a tesztelő sikertelen, mondja Turing, praktikus szempontból intelligens géppel állunk szemben.
Az első modellek Turing kihívását sokan elfogadták és megkezdődött a verseny a társalgó gépek kifejlesztésében. A „mesterséges intelligencia” (artificial intelligence) kifejezés 1956-ból származik, amikor Marvin Minsky, Claude Shannon és más jeles kutatók ezen a néven konferenciát szerveztek, ahol a gépi nyelvi készség problémját egy formalizált logikai utasításrendszer segítségével próbálták megközelíteni. A kezdetben nagyon egyszerű módszer (részleges) sikerét Weisenbaum ELIZA nevű társalgórendszere bizonyította 1966-ban. ELIZA egy rogersiánus pszichoterapeutát szimulál, aki partnerét beszédre bíztatja, ő maga viszont tartalmilag semmit nem tesz hozzá a beszélgetéshez. Ezzel a kikötéssel elkerülhető volt a tárgyi tudás problémája, és fókuszban maradhattak a társalgás nyelvi kérdései. Az alkotók szerint a rendszer felhasználói több perc levelezés után után sem jöttek rá, hogy nem emberrel, hanem egy géppel beszélgetnek, vagyis ELIZA megfelelt a Turing teszt követelményeinek, bár csak a maga korlátozott témakörében. A következő társalgásrészlet angol eredetije Weisenbaum cikkében található: (1) Felhasználó: ELIZA: Felhasználó: ELIZA: 1
A férfiak mind egyformák Ezen mit értesz? Mindig cseszegetnek minket valamiért. Mondanál egy konkrét példát?
Felhasználó: ELIZA: Felhasználó: ELIZA: Felhasználó: ELIZA:
Hát, például a fiúm küldött el ide. A fiúd küldött el ide. Azt mondja, mindig depressziós vagyok. Sajnálom, hogy depressziós vagy. Talán ki kellene békülnöm az anyámmal. Mesélj még a családodról.
A rendszer egyszerű kulcsszavak által aktivált utasítások végrehajtásával működik. Bizonyos határozatlan kifejezések (mindig, valamiért, stb) például a „Mondanál egy konkrét példát” választ váltják ki, a depresszióra utaló szavak pedig sajnálatkifejezést. Egy másik stratégia a felhasználó mondatának megismétlése az első személyű birtokos (fiúm, angolul my boyfriend) második személyre váltásával (fiúd, angolul your boyfriend). Mindezt a program ún. reguláris kifejezések behelyettesítésével éri el, vagyis egy általánosított szövegkereső gépi nyelv felhasználásával. A sajnálatnyílvánítás például az alábbi (Perl) utasítással oldható meg: (2) s/.* (depressziós|szomorú) vagyok .* /Sajnálom, hogy \1 vagy/ ami annyit jelent, hogy ha a felhasználó szövegében bárhol megjelenik a „depressziós vagyok” vagy a „szomorú vagyok” karaktersor, ezt ELIZA helyettesítse be a a középső per jel után megadott szöveggel. A módszer határai persze azonnal láthatók (kezdetnek próbáljuk meg a magyar személycserét így megoldani!), de a reguláris kifejezések ma is fontos alapkövei különböző nyelvhasználó rendszereknek. A hetvenes évek során Roger Schank vezetésével az egyszerű nyelvközpontú modellek kibővítésével kisérleteztek a mesterséges intelligencia kutatói. Ezeknek az úgynevezett script (forgatókönyv) rendszereknek a lényege a nyelvi tudás mellett a rendszerezett háttérismeret volt, és azt tűzték ki célul, hogy hétköznapi szituációkra vonatkozó kérdésekre emberhez hasonlóan tudjon választ adni a gép. Egyik legismertebb példájuk az étterem-forgatókönyv: (3) Bemegyünk az étterembe. A ruhatárban levesszük a kabátot. Kiválasztunk egy asztalt. „Foglalt” táblával ellátott asztalhoz nem ülünk. Kérjük az étlapot. stb. A forgatókönyv ismeretében a rendszer logikai következtetéseket tudott levonni. Például arra a kérdésre, hogy van-e étlap a kabátos embernél, megkaptuk a választ, hogy (valószínüleg) nincs. Bár egy használhatóan részletes, mindenre kiterjedő forgatókönyv összeállítása megvalósíthatatlan feladatnak bizonyult, valamilyen formában a háttértudás ma is lényeges eleme sok nyelvfeldolgozó alkalmazásnak.
A NYELVTECHNOLÓGIA MAI CÉLJAI ÉS ESZKÖZEI A feladat Az utóbbi évtizedekben elsősorban szerényebb és jobban körülhatárolt célok felé 2
fordult a számítógépes nyelvészet. Ma már nem is mesterséges intelligenciáról, hanem inkább nyelvtechnológiáról beszélünk, aminek a mindennapokban is használt sikerei közé tartozik például a helyesírásellenőrzés, a szövegkivonatolás, a bankszámlaegyenleg lekérdezése, a mozijegyrendelés és bizonyos területeken (mint például a kanadai időjárásjelentés) a gépi fordítás. Ezek és más hasonló alkalmazások a nyelvtechnológia egyes részfeladatainak megoldásával jöhettek létre, melyek természetesen tükrözik az előző fejezetekben tárgyalt emberi nyelvértés pszicholingvisztikai részfeladait: 1. Beszédfelismerés: a hallgató szerepében a gép első feladata a felhasználó által adott akusztikus jelek felismerése és a folyamatos hanghullám nyelvi egységekre bontása. 2. Beszédszintézis: a dialógus másik oldalán a gépnek tudnia kell beszédhangokat szintetizálni és ezeket folyamatos beszéddé alakítani. 3. Parsing (elemzés): a nyelvelemzés során a feladat a szöveg különböző szintű elemeinek rendszerezése, az elemek közötti függőségek megállapítása. A mondatok szintjén a szavak szerveződését vizsgáljuk (pl. mi minek a jelzője, birtokosa, tárgya, stb.), a szavak szintjén pedig a szótő és a toldalékok viszonya az elemzés tárgya (pl. a szavak szófajának megállapítása és a végződések kategorizálása). 4. Szemantikai elemzés: a szöveg értelmezéséhez ismerni kell nemcsak a szavak jelentését, hanem a szöveg körülményeitől függő ún. deiktikus kifejezések utalási szándékát is. Az akkor, tegnap, ő, itt szavak például csak a szövegkörnyezethez és/vagy a fizikai környezethez viszonyítva értelmezhetők. 5. Generálás: nyelvgenerálásnak nevezzük valamilyen tudás nyelvi kódolását, vagyis természetes nyelven – megformált mondatokban, szövegben – való kifejezését. Tekinthető ez úgy, mint a parsing és a szemantikai elemzés fordított irányú alkalmazása. 6. Inferencia: végül egy bonyolultabb, háttértudással vagy tanulómemóriával rendelkező rendszer logikai következtetések levonására is alkalmas lehet, amivel input hiányában is kinyerhet új információt. Ezt a folyamatot nevezzük inferenciának. A nyelvtechnológiai rendszerek minden részfeladatánál két fő célt tartunk szem előtt, ahogy – feltételezhetően – az emberi nyelvfeldolgozásban is: az egyik a lefedettség maximalizálása (minél több nyelvi elemet tudjunk azonosítani illetve kódolni), a másik pedig a pontosság maximálizálása (az azonosítás vagy a kódolás hibamentes legyen). Más szóval minél több TALÁLATOT és minél kevesebb TÉVEDÉST akarunk elérni. A két törekvés gyakran ellentétben áll egymással, mert a találatok számának növeléséhez megengedőbb rendszerre van szükség, a tévedések csökkentését viszont szigorítással lehet elérni.
Két megközelítés A nyelvtechnológia jelenlegi módszereit két fő irányzathoz sorolhatjuk. A „klasszikus” megközelítés szabályok alkalmazásában látja a feladatok megoldását. A szabályrendszert a nyelvfeldolgozó program tervezője saját nyelvi tudása és a 3
pszicholingvisztikai kutatások eredményei alapján alkotja meg, gyakran általánosított, elvonatkoztatott kategóriákra építve. A szabályok tipikusan „mindent vagy semmit” alapon működnek, tehát vagy érvényesül egy szabály a feldolgozás során, vagy nem érvényesül, közbülső állapot nem létezik. Ezzel szembeállítható az újabban elterjedt statisztikai módszer, ahol a rendszer példatárakból (szakszóval korpuszokból) automatikusan von ki mintákat és ezeket alkalmazza más nyelvi megnyílvánulások feldolgozására. A mintákhoz tipikusan valószínűségeket rendel az algoritmus és újabb szövegek feldolgozásakor vagy generálásakor arra törekszik, hogy az együttes valószínűség maximalizálása mellett valósítsa meg a mintaillesztést. A modern nyelvtechnológiai alkalmazások többségében keverednek a szabályalapú és a statisztikai eszközök, bár az alsóbb szinteken (beszédfelismerés, szófaji elemzés) a statisztikai megoldások dominálnak, a felsőbb szinteken (parsing, szemantika) pedig a szabályalapú módszerek, amint azt a következő példákból látni fogjuk.
A SZÁMÍTÓGÉPES NYELVFELDOLGOZÁS SZINTJEI A beszédfelismerés A beszédfelismerő rendszerek egyik alapelve egy XVIII. századi matematikus, Thomas Bayes törvényein alapul. A bayesi megközelítés célja annak felbecslése, hogy ha adott egy hangsor h, mi annak a valószínűsége, hogy ez a hangsor s szóhoz tartozik: P(s|h). Például, ha az akusztikus jelek alapján a tom hangsort érzékeljük, milyen valószínűséggel értelmezhetjük ezt a hangsort a Tom, tudom, találom, atom stb. szavakhoz tartozó hangsornak. A valószínűségek kiszámításához három tárra van szükség: •
Egy variáció-lista, vagyis egy emberi segítséggel összeállított lista arról, hogy a korpuszban egy-egy hangsorhoz milyen szavak tartoznak. Ez adja meg a bayesi képlet lehetséges s szavait. Ez a lépés persze matematikailag nem szükségszerű, de a gazdaságosság megkívánja, hogy lényegében esélytelen szavakkal ne is próbálkozunk, vagyis pl. a tom hangsorhoz meg sem kíséreljük kiszámítani a kabát, űrhajó, világoskék, stb. szavak valószínűségét.
•
Egy lista a nyelv szavainak gyakoriságáról (hányszor fodul elő egy-egy szó a korpuszban). Ebből kapjuk a szó abszolút (vagy prior) valószínűségét: P(s). Az ok egyszerű: minél gyakrabban fordul elő egy szó, annál nagyobb az esély, hogy hallani fogjuk.
•
Egy lista a nyelvben előforduló fonotaktikai folyamatok gyakoriságáról (pl. szóvégi n hang lehagyásának valószínűsége). A variáció-tárhoz hasonlóan, ezt az információt is emberi munkával lehet a korpuszból kinyerni. Ez az információ adja egy-egy szóhoz tartozó hangsor valószínűségét, vagyis ha adott a tudom szó, annak a valószínűségét, hogy ez tudom, tom, túdom, stb. hangsorként hangzik el: P(h|s).
A keresett értéket a fenti három adat alapján számoljuk ki egyenként minden s szóra: P(s|h) = P(h|s)P(s). A tom hangsor példájánál maradva az alábbi egyenleteket kapjuk: 4
(4) P(Tom|tom) = P(tom|Tom)P(Tom) P(tudom|tom) = P(tom|tudom)P(tudom) P(találom|tom) = P(tom|találom)P(találom) P(atom|tom) = P(tom|atom)P(atom) Ezek közül a nyertes az a szó lesz, amelyik a legnagyobb értéket veszi fel. A módszert nemcsak beszédfelismerésre alkalmazzák, hanem helyesírásellenőrző rendszereket is építenek ezen az elven, ahol a hangsort értelemszerűen a karaktersor helyettesíti. A bayesi módszer gyenge pontja a szavak prior valószínűségének meghatározó szerepe. Ez azt eredményezi, hogy ritkább szavak esetében jó esély van a TÉVEDÉSRE. Az interaktív helyesírásellenőrző rendszerek a problémát egy találati lista megadásával küszöbölhetik ki, amiben bizonyos valószínűségi küszöb felett minden szó megjelenik és a választás a felhasználóra van bízva. Ez a megoldás azonban nem alkalmazható, amennyiben egy teljesen automatikus rendszer a cél. A bayesi módszer eredményeinek javítása megvalósítható a szövegkörnyezet figyelembevételével. A környezetfüggő előfordulási valószínűségek kiszámításának legelterjedtebb eszközei az N-gram modellek, ahol a célszavak prior valószínűségét az előttük szereplő N számú szó határozza meg. Míg például a tudom szó összességében lényegesen gyakoribb a magyarban, mint az atom szó, az iráni melléknevet követően megfordul a relatív valószínűségük. Ezeket a valószínűségeket automatikusan nyerjük a korpuszból: a szókapcsolat előfodulási gyakoriságát elosztva az első szó előfordulási gyakoriságával. Az 1. táblázat az atom, tudom és találom szavak előfordulási valószínűségeit mutatja a nem, helyesnek és iráni szavakat követően, egy Google keresés alapján a magyar weben. atom
tudom
találom
Nem
.000
.470
.022
Helyesnek
.000
.001
.009
Iráni
.003
.000
.000
Táblázat -1 Bigram nyelvtan részlete.
A táblázatból egyértelműen kiderül, hogy jelentős eltérések mutatkoznak a szavak előfordulási valószínűségeiben a szövegkörnyezettől függően. A nem után a három célszó közül a tudom szónak van a legnagyobb esélye, a helyesnek szót követően a találom a legvalószínűbb, az iráni melléknevet pedig leginkább az atom szó követheti. A beszédfelismerési és helyesírásellenőrzési eredmények tehát lényegesen javíthatók, ha a bayesi egyenletekben a szavak abszolút gyakoriságát a környezetfüggő valószínűségekkel helyettesítjük.
Parsing: szófaji és morfológiai elemzés A beszélt vagy írott szavak azonosítása után a nyelvfeldolgozás következő szintje a 5
szavak nyelvtani elemzése. Ez két részfeladatra bontható: egyrészt a szavak szófajának meghatározása (főnév, ige, névelő, határozószó, stb.), másrészt a szavak morfológiai összetételének elemzése (igekötők, képzők, ragok, jelek azonosítása). Az előbbi részfeladat tejesítésében ma a statisztikai programok a legsikeresebbek, míg az utóbbi problémára a magyarban és a magyarhoz hasonlóan bonyolult morfológiai rendszerű nyelvekben a szabályalapú módszerek kínálják a legjobb megoldást. A két részfeladat azonban nem egészen független egymástól, hiszen a morfológia segíthet a szófaj meghatározásában. A tűz szó például nyelvtanilag kétértelmű, lehet ige vagy főnév, a tüzet alak viszont egyértelműen főnév, a tűzött alak pedig egyértelműen ige. A szóelemzés legfontosabb errőforrása a szótár. A szótár tartalmazza a szótövek listáját, szófaji címkéikkel, morfofonológiai kategóriáikkal és alternatív töveikkel együtt. A bokor szóhoz például megadjuk azt az információt, hogy főnév és alternatív töve a bokr- (pl. bokrot), az olvas szó pedig igeként van megjelölve, azzal az információval, hogy a sziszegő hangra végződő szavak csoportjába tartozik (olvasol és nem olvassz a második személyű alakja). Elvben a szavak elemzése megoldható kizárólag szótáron keresztül, ahol a nyelv összes létező szóalakja és a hozzájuk tartozó szófaji illetve morfológiai címkék fel vannak sorolva. A gyakorlatban azonban ez a módszer nemcsak gazdaságtalan, hanem egyenesen kivitelezhetetlen, hiszen, mint az az előző fejezetekből kiderült, a szóalkotás kreatív folyamat a természetes nyelvekben. A szótár mellett tehát az elemzéshez szükség van egy szabályrendszerre, vagyis morfológiai nyelvtanra. Ez minimálisan a következő információkat tartalmazza: •
A toldalékok tipusait (igekötő, képző, rag)
•
A toldalékok morfológiai jegyeinek szerveződését, pl.: IGE: idő múlt, nem múlt szám egy, több személy 1., 2., 3.
•
A morfofonológiai kategóriákra vonatkozó szabályokat. Ide tartozik például az a megkötés, hogy a sziszegő hangra végződő igék 2. személyű ragja –l és nem –sz.
•
Morfotaktikai szabályokat, vagyis a toldalékok előfordulásának lehetséges sorrendjét. Ilyen megkötés például, hogy a birtokos rag nem állhat esetragok után (testvéremet és nem testvéretem). A morfotaktikai szabályok ismerete jelentősen csökkentheti a TÉVEDÉSEK számát. A szeletem szóalaknál például csak a sorrendi megkötés ismerete zárhatja ki azt a hibás elemzést, ami a szél szótőhöz vezet (szél <– szelet <– szel-et-em).
A szófaji és morfológiai elemzés során az elemző algoritmusok a szótárhoz és a nyelvtan szabályaihoz próbálják illeszteni az input szövegben található szóalakokat. Az illesztésnek három féle eredménye lehet: a legegyszerűbb esetben a szóalak egyértelműnek bizonyul és sikeresen felcímkézhető. A második lehetőség az, hogy több 6
elemzés is rendelhető az adott szóalakhoz. Végül előfordulhat az is, hogy az elemzendő szóalak töve nem szerepel a szótárban (lehet egy új szó a nyelvben, név vagy éppen idegen szó). A többértelműség feloldását a szövegkörnyezet teszi lehetővé az előzőekben említett bayesi valószínűségek és N-gram modellek segítségével. A hangalak helyén itt a szóalak áll, a célszó helyén pedig a szófaji/morfológiai kategória. Az egyértelműsítésben legsikeresebb N-gram modellek nem egyéni szavak előfordulási valószínűségeit mérik, hanem szófaji vagy morfológiai kategóriák gyakoriságát. Ehhez olyan tanulókorpuszra van szükség, ahol a szavak el vannak látva szófaji és morfológiai címkékkel. A modell a felcímkézett korpuszból vonja ki a kategóriák közötti átmeneti valószínűségeket, például hogy egy névelő után nagyobb eséllyel találunk főnevet, mint igét. Ennek ismeretében lehetővé válik pl. a tűz szó szófaji egyértelműsítése a A tűz felmelegítette az átfagyott túrázókat mondatban. Ismeretlen szótő esetén különböző stratégiák alkalmazhatók. A legbiztonságosabb, és valószínűleg leggazdaságtalanabb, megoldás a szótő válogatás nélküli többértelmű címkézése, vagyis a nyelvtanban szereplő összes szófaji címke felragasztása, amiket azután az egyértelműsítő N-gram modell rangsorol valószínűségük szerint. Ennél gazdaságosabb de kockázatosabb módszer az alacsony abszolút valószínűségű szófaji címkék kizárása még az egyértelműsítő fázis előtt. Végül a harmadik lehetőség a szófaj szabályalapú meghatározása a szóalak morfológiai jegyeinek segítségével. Például a mufjotban szóalakból kikövetkeztethető, hogy a mufjot főnévi szótőből és a –ban helyragból tevődik össze. Ez a módszer azonban korántsem tévedés-biztos (a mufjotban szó lehet éppen egy ragozatlan ige vagy bármi más is), és természetesen csak morfológiailag összetett szavakra alkalmazható. Szófaji és morfológiai elemzők ma már 95—98%-os pontossággal működnek a világ különböző nyelvein. Ez az eredmény azonos az emberi elemző teljesítményével, tehát ha két személy egymástól függetlenül felcímkéz egy szöveget egy adott nyelvtan alapján, tipikusan a címkék 95—98%-a egyezik meg.
Parsing: mondatelemzés A mondatelemzés célja a szavak közötti szintaktikai (szerkezeti) és szemantikai (jelentésbeli) viszonyok feltárása. Az elemzés eredményét különböző alkalmazásokban lehet hasznosítani, mint például nyelvhelyesség ellenőrzés, gépi fordítás, automatikus szövegkivonatolás és kérdés válaszoló rendszerek. A gépi mondatelemzés jelenleg elsősorban szabályalapú rendszerekkel történik, és eredményei egyelőre elmaradnak a beszédfelismerés és a morfológiai elemzés eredményeitől. A gépi mondatelemzés legfontosabb erőforrása a nyelvtan. A nyelvtanoknak két fő típusát különböztethetjük meg. A lexikalista dependencia nyelvtanok lényege, hogy a mondat szerkezeti függőségeit az egyes szavak (lexikális elemek) közötti átmenetek alapján határozzák meg, vagyis a nyelvtan lényegében egy kiterjesztett szókapcsolat tár vagy konstrukció halmaz. A nyelvtanok másik típusa a mondatot hierarchikusan elrendezett frázisokra (szócsoportokra) bontja és a mondat szerkezeti függőségeit a frázisok alapján határozza 7
meg. Az alábbi szerkezetileg kétértelmű mondatnak például két elemzése van, amik a frázisok elrendezésével fejezik ki a két féle függőséget az alkotóelemek között: (5) Tegnap láttam a fiatal rendőrt a távcsővel. (a) [tegnap] [láttam] [a fiatal rendőrt [a távcsővel]] (b) [tegnap] [láttam] [a fiatal rendőrt] [a távcsővel] Az (a) változatban a rendőrnél van a távcső, míg a (b) változatban a beszélőnél. Minden frázisnak van egy kategóriája, amit a frázist leginkább meghatározó szó szófaja ad. A [a fiatal rendőrt] szócsoport például egy főnévi frázis, míg a [tegnap] egyszavas frázist határozói frázisként osztályozzuk. A frázisstruktura nyelvtanokat le lehet írni ún. környezet-független újraíró szabályokkal, ahol a szabály bal oldalán egyetlen fráziskategória áll, amit a szabály jobb oldalán álló egy vagy több kategóriára vagy szóra lehet bontani. A nyelvtan környezetfüggetlen, mert a bal oldali kategória felbontása a szövegkörnyezetétől függetlenül van meghatározva. A szabálysor a legfelső kategória (a mondat) felbontásával kezdődik, és lépésenként halad lefelé a hierarchián, amíg el nem jut a szavakhoz. Az (5) alatti mondatot leíró mini-nyelvtan így néz ki (a zárójeles elemek opcionálisak): •
Mondat Határozói_fr Igei_fr Főnévi_fr (Főnévi_fr)
•
Határozói_fr Határozószó
•
Igei_fr Ige
•
Főnévi_fr Névelő (Melléknévi_fr) Főnév (Főnévi_fr)
•
Melléknévi_fr Melléknév
•
Határozószó tegnap
•
Ige láttam
•
Névelő a
•
Melléknév fiatal
•
Főnév rendőrt, távcsővel
A frázisstruktura nyelvtan újraíró szabályait ki kell egészíteni morfológiai megkötésekkel ahhoz, hogy ki tudjuk zárni a nyelvtanilag rossz mondatokat. A fenti nyelvtan például megengedi a (6) alatt szereplő hibás mondatokat is. (6a) *Tegnap láttalak a rendőrt a távcsővel (6b) *Tegnap látom a rendőrt a távcsővel. (6c) *Tegnap láttam a rendőrhöz a távcsőnek. Ugyanakkor lazítanunk kell a szórendi megkötéseken, hogy például a (7) alatti helyes mondatokat is elemezni tudjuk: (7a) Láttam tegnap a rendőrt a távcsővel. 8
(7b) A rendőrt tegnap láttam a távcsővel. (7c) A távcsővel a rendőrt tegnap láttam. A gépi mondatelemzés során az elemző algoritmus a nyelvtan által megengedett frázisszerkezeteket próbálja az input mondatra illeszteni. Mivel a nyelvtan szófaji kategóriákra és morfológiai jegyekre épül, a mondatelemző bemenete előzőleg felcímkézett szöveg kell hogy legyen. Amint azt a fenti példa is mutatja, egy mondat lehet szerkezetileg többértelmű. A többértelműség feloldásához a szövegkörnyezet figyelembe vételére van szükség, ami, mint azt már az előzőekben láttuk, statisztikai módszerekkel valósítható meg. Itt azonban lényegesen összetettebb problémáról van szó, mint a morfológiai egyértelműsítés esetében.
Szemantikai elemzés A mondatok értelmezésének minimális célja a mondat információtartalmának kivonása előre meghatározott szempontok alapján. Például egy automatizált repülőjegy foglaló rendszer céljaihoz a felhasználó alábbi mondatából a következő információszerkezetet kell kivonnunk: (8) Mondjon nekem kedd reggeli járatokat Bostonból San Franciscoba. LISTÁZ: JÁRAT: EREDET: VÁROS: Boston DÁTUM: kedd IDŐ: reggel CÉL: VÁROS: San Francisco A feladat (több-kevesebb sikerrel) megoldható egy környezet-független szemantikai „nyelvtan” segítségével, ahol az újraíró szabályok bal oldalán egy szemantikai kategória áll, a jobb oldalon pedig egy kifejezés lista: •
LISTÁZ -> mondjon nekem | szeretnék | mutatna|…
•
INDULÁSIDŐ -> ÓRA (előtt|körül|után) | reggel | délután | este
•
ÓRA -> egy|két|három…|huszonnégy
•
JÁRAT -> (egy) járat|járatok
•
EREDET -> VÁROS-EREDET_HELYRAG
•
CÉL -> VÁROS-CÉL_HELYRAG
•
VÁROS -> Boston | San Francisco | Budapest
Egy ehhez hasonló egyszerű rendszer felhasználhatósága persze igen korlátozott. Ennél általánosabb érvényű de hasonlóan elnagyolt értelmezés típus a mondat tematikai elemzése, vagyis a mondat által kifejezett esemény szereplőinek és körülményeinek 9
azonosítása. Az elemzés során a mondat frázisaihoz tematikus szerep címkéket rendelünk a morfoszintaktikai struktura – többnyire a frázisok morfológiai jegyei vagy lineáris elhelyezkedése – alapján. A morfoszintaktikai jegyek és a tematikus szerepek közötti megfeleltetéseket egy nyelvtan adja meg. Néhány lehetséges tematikus szerep: •
Ágens: az esemény kezdeményezője, a cselekvő – többnyire alanyi morfológiájú főnévi frázis. (A kutya tegnap a házig kergette a macskát.)
•
Patiens: az a szereplő, akire az esemény leginkább hatással van – többnyire tárgyi morfológiájú főnévi frázis. (A kutya tegnap a házig kergette a macskát.)
•
Cél: az esemény végpontja – többnyire helyragos főnévi frázis, névutós frázis vagy helyhatározó. (A kutya tegnap a házig kergette a macskát.)
•
Idő: az esemény ideje – többnyire időt kifejező határozó, névutós frázis vagy ragozott főnévi frázis, ami közvetlenül a mondat szintje alatt helyezkedik el a frázisstrukturában. (A kutya tegnap a házig kergette a macskát.)
Részletesebb szemantikai elemzéshez egy formális szemantikai nyelvre és a szavak közötti relációkat kifejező szemantikai hálókra van szükség, ezeket azonban itt nem tárgyaljuk.
Gépi fordítás A nyelvtechnológia egyik legnagyobb kihívása az egyik természetes nyelvről egy másik természetes nyelvre való fordítás. A gépi fordítórendszerek elsődleges célja jelenleg a hozzávetőleges fordítás, ami az emberi fordító munkáját segíti, bár korlátozott témakörökben léteznek teljesen automatikus fordítórendszerek is (pl. a kanadai angolfrancia időjárásjelentés). A gépi fordítás esetében is találunk szabályalapú és statisztikai rendszereket, illetve a két módszert kombináló megoldásokat. Egy tipikus szabályalapú fordítórendszer három fázisra osztható: az eredeti szöveg morfoszintaktikai és szemantikai elemzése, a kapott elemzésstruktura nyelv-független általánosítása + a szavak jelentésének nyelv-független reprezentálása, és végül a megfelelő szöveg generálása a célnyelven. A statisztikai fordítórendszerek ezzel szemben szerkezeti elemzés nélkül próbálják elvégezni a fordítás feladatát. Ehhez első lépésben parallel korpuszokat használnak erőforrásként, vagyis mindkét nyelven megtalálható, emberi munkával lefordított szövegeket. A cél annak megállapítása, hogy a forrásnyelv egyes mondatainak melyik célnyelvi mondat a legvalószínűbb fordítása. Ehhez egyrészt a parallel korpuszok mondatait kell egymáshoz illeszteni, másrészt a két nyelv szavait és szókapcsolatait kell összepárosítani. Eredményként azt az információt kapjuk, hogy az egyik nyelv egyes szavait és szókapcsolatait milyen gyakorisággal fordítja a másik nyelv egy-egy szava vagy szókapcsolata. A mondat nyertes fordítása a mondat kifejezéseinek legvalószínűbb fordításaiból áll össze. A legvalószínűbb részfordítások sora azonban nem feltétlenül eredményez nyelvtanilag helyes mondatot a célnyelven. A nyelvtani helyesség javítására két módszer alkalmazható: ki lehet egészíteni a fordítórendszert egy szabályalapú nyelvtannal, vagy – a statisztikai eszközöknél maradva – N-gram modellek segítségével ki lehet választani a lehetséges részfordítások közül azokat, amelyek a legnagyobb 10
valószínűséggel kombinálhatók egy mondatban a célnyelvben.
Kérdések, feladatok 1) Állítson össze egy bigram táblázatot a Google segítségével 5 különböző szó előfordulási valószínűségéről 5 másik szó után. 2) Gyűjtsön szófajilag többértelmű szótöveket, amiket a toldalékok alapján egyértelműsíteni lehet. 3) Egészítse ki a mini-frázisstruktura nyelvtant úgy, hogy kizárja a (6) alatti helytelen mondatokat és megengedje a (7) alatti helyes mondatokat. 4) Írjon be egy mondatot a Babelfish fordítóprogramba (http://babelfish.altavista.com), fordítassa le egy másik nyelvre, majd a fordítást fordítassa vissza az eredeti nyelvre. Mennyiben tér el az eredeti mondat a végeredményül kapott mondattól? Ajánlott Irodalom Prószéky Gábor, Olaszy Gábor, Váradi Tamás (2003), Nyelvtechnológia. In: Kiefer Ferenc, Siptár Péter (szerk.), A magyar nyelv kézikönyve. Budapest, Akadémiai Kiadó. Magyar Számítógépes Nyelvészeti Konferencia kiadványai, 2003, 2004, 2005. Szeged, SZTE. Kálmán László, Trón Viktor. (2005), Bevezetés a nyelvtudományba. Budapest, Tinta. Kálmán László, Trón Viktor, Varasdi Károly (2002), Lexikalista elméletek a nyelvészetben. Budapest, Tinta. BME Média Oktató és Kutató Központ: http://mokk.bme.hu/eszkozok MTA Nyelvtudományi Intézet http://www.nytud.hu/oszt/korpusz/index.html
Korpusznyelvészeti
Osztály:
Daniel Jurafsky, James H. Martin (2001), Speech and Language Processing. New Jersey, Prentice Hall.
11