Egy szónak is száz a vége Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
[email protected]
Magyar tudomány napja, MTA, 2003. 11. 04.
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Bevezetés • mit lát a számítógép a természetes nyelvi megnyilatkozásokból? karaktersorozatokat
• |a|z| |a|v|a|r| |s|í|r|: 11 azonos típusú elemi egység ˝ számára azonban számos fontos tulajdonsággal rendelkezo˝ jelek • a beszélok
1
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Bevezetés • mit lát a számítógép a természetes nyelvi megnyilatkozásokból? karaktersorozatokat
• |a|z| |a|v|a|r| |s|í|r|: 11 azonos típusú elemi egység ˝ számára azonban számos fontos tulajdonsággal rendelkezo˝ jelek • a beszélok ˝ Az oszi avar sír a lába alatt.
1
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Bevezetés • mit lát a számítógép a természetes nyelvi megnyilatkozásokból? karaktersorozatokat
• |a|z| |a|v|a|r| |s|í|r|: 11 azonos típusú elemi egység ˝ számára azonban számos fontos tulajdonsággal rendelkezo˝ jelek • a beszélok ˝ Az oszi avar sír a lába alatt. Csak az veri fel az erdo˝ csendjét, mivel az avar sír eddig feltáratlan maradt.
1
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Számítógép és nyelvi elemzés ˝ nyelvi jel(ek): határozzuk meg a kiterjedését és • homogén karakterfüzérbol adjuk meg a tulajdonságait
• elso˝ lépésben a szóalakok mint elemi egységek szintjén • 1 kódoló személy •
MNSZ :
150 millió szó; 2 sec/szó (napi 24 órában) ⇒ 9 év, 187 nap
• automatikus eljárás • morfoszintaktikai annotáció – morfológiai elemzés – egyértelmusítés ˝
2
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Morfológiai elemzés – miért?
3
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Morfológiai elemzés – miért? Birtokos
van
Szem.
Szám
egyes
többes
1
2
3
"-é(i)"
Szám
egyes
többes
nincs
nincs
egyes
egyes
többes
többes
Acc(-t)
Dat(-nAk)
Sub(-rA)
Nom(-)
Szóto˝ Fn
Eset
...
...
3
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Morfológiai elemzés – miért? Birtokos
= zz z zz zz z zz zz z zz zz
lapjaitokéinak O
van
Szem.
Szám
egyes
V VVVVVVVV V*
többes
nincs
egyes
többes
4 iiii iiiiii
Szóto˝ Fn
1
2
3
"-é(i)"
Szám
UUUU UUUU UU*
egyes
nincs
Eset
Nom(-)
Acc(-t)
33 Dat(-nAk) 33 33 C 33 33 Sub(-rA) 33 egyes 33 33 33 33 33 ... 33 33 3
többes
többes
...
3
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Morfológiai elemzés – miért? Birtokos
= zz z zz zz z zz zz z zz zz
lapjaitokéinak O
van
Szem.
Szám
egyes
V VVVVVVVV V*
többes
lapokéit
nincs
egyes
VVVVVVVV *
többes
4 iiii iiiiii
Szóto˝ Fn
DD DD DD DD DD DD DD DD D !
1
2
3
"-é(i)"
Szám
UUUU UUUU UU*
egyes
nincs
Eset
Nom(-)
Acc(-t)
F többes 33 Dat(-nAk) 33 C 33 33 33 33 Sub(-rA) egyes 33 33 33 33 33 ... 33 33 3
b1 bbbbbbbbbb bbbbbbbbbb b b b b b b b b b b bbbbbbbbbb
többes
...
3
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Morfológiai elemzés – miért? Birtokos
= zz z zz zz z zz zz z zz zz
lapjaitokéinak O
Szóto˝ Fn
van
DD DD DD DD DD DD DD DD D !
lapokéit
hh4 hhhhhhhh V VVVVVVVV V*
681 lehetséges alak
/
nincs
Szem.
Szám
h4 hhhhhhhh VVVVVVVV *
ddd2 ddddddd x< egyes U x xx FF UUUxUxUxxUU UU* FF xx xFFF x x ii4 xx iiiFFiFiFii i FF F többes ZZZZZZZZZF-#
Szám
"-é(i)"
Eset
Z Nom(-) Z Z 1 F ZZZZZZZ 6 FF C H m egyes U m FF mmm 4 m i U F i U m UUUU mm -- 88 < iiFiFiFi * FFxxxx iii -- 88 F / Acc(-t) nincs 2 UUUUUUUxxxx FFF# -- 88 4 xU -- 8i88iiiipip7 w; 28 DDQQQQQ z= F xx UU* w p 8 x p 2 8 DDD QQQQzzz w -p- ppp88ww xxx 2 8 DD zzz ( w 2 többes 8 d d p d w d d p 8 w p dddd 2 8 DDzDz Dat(-nAk) ppp33 wwJwJw-J--J 888 8 z D 3 p p 3 2 z2zz8 DDm D6 C pp ww33 --JJJJ 888 p w m D z p w 3 zzz mm2 mm8mm DD! ppp ww 33 --- JJ% 8 p 8 w p m p w 33 2 2 8 ww ppp p w 3 p w 8/ 33 f-f- 2 egyes ww ppp 2 8 Sub(-rA) p f w f p f 3 w 6 ff D Q Q Q 2 pp 8= ww fffff lll33ll-D Q Q2 zzz 8 ppp 33 -l ww ffffffffff p l p w z l D wffff z( 2 pp 33 lll -ffffwfw D Dzzz 2 ppp lll 3 l l p ffffffffffwwww z 33 l ... ff w lll zzzz D D6 2 33- m 2 egyes \\\\\\\\ww\w\w\w\\\ llllllll z z 33-m D 2 \l\l\\\\\\\\ D! zz m m ww \ l \ \ \ w \ l \ \ \ l \\\\\\\\\\ w l l w _ _ _ _/ lll ww ... bbbbb1 többes b ww lllll b b b b b b w b b b b b w ll b b b b b b b b b b b b b b bbbbbbbbbb
többes
3
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
A bemeno˝ XML szöveg Példa
Mire jó a nyelvtechnológia?
MTA 2003. november 4. Az ˝ oszi avar sír a lába alatt. Csak az veri fel az erd˝ o csendjét, mivel az avar sír eddig feltáratlan maradt.
4
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Szegmentálás és morfológiai elemzés
• bemeno˝ folyó szöveg mondatokra tagolása és a mondatok egyes szavakra bontása ˝ karakterfüzérekhez mint szóalakokhoz hozzárendeli • morfológiai elemzo: minden lehetséges morfológiai elemzésüket
5
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Morfológiailag elemzett szöveg Példa ... 4*1 5*1 # # 7*1 7*4 7*9 7*14 7*18 7*20 7*25 7*30 # #
TOK DATE
TOK TOK TOK TOK TOK TOK TOK PTERM
MTA BOS MTA*[N][NOM] 2003._november_4. EOS 2003._november_4.*[DATUM] )SENT (SENT <S> Az BOS az*[Det]|az*[Pro][NOM] ˝ ˝ oszi oszi*[A][NOM] avar avar*[A][NOM]|avar*[N][NOM] sír sír*[N][NOM]|sír*[V][e3] a a*[Det] lába láb*[N][PSe3][NOM] alatt alatt*[Adv]|alatt*[NU] . EOS .*SPUNCT )SENT (SENT <S> 6
Mire jó a nyelvtechnológia?
8*1 8*6 8*9 8*14 8*18 8*21 8*26 8*34 9*1 9*7 9*10 9*15 9*19 9*25 9*37 9*43 #
TOK TOK TOK TOK TOK TOK TOK PUNCT TOK TOK TOK TOK TOK TOK TOK PTERM
MTA, 2003.11.04.
Csak BOS az veri fel az erd˝ o csendjét , mivel az avar sír eddig feltáratlan maradt . EOS )SENT
csak*[Adv] az*[Det]|az*[Pro][NOM] ver*[V][Te3] fel*[Adv]|fel*[N][NOM]|fel*[Pre] az*[Det]|az*[Pro][NOM] erd˝ o*[N][NOM] csend*[N][PSe3][ACC] ,*WPUNCT mivel*[Con]|mi*[Pro][INS]|mivel*[Adv] az*[Det]|az*[Pro][NOM] avar*[A][NOM]|avar*[N][NOM] sír*[N][NOM]|sír*[V][e3] ez*[Pro][TER] feltáratlan*[A][NOM] maradt*[MIB][NOM]|marad*[V][Me3] .*SPUNCT
7
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Többértelmuség ˝ ˝ sort, • kezdtek, végeztek, terem, állam, köröm, hullám, tanára, muvére, ˝ noi, bájt, termet, nemzeti, feji, telefon, mondat, lejár, élek, sírok, laknak, falnak, halnak, telefonnak, váza, kacsa, héja, léptet, ereszt, béget, sikerül, települ, diák, torok, tubák, törtet, kopaszt, horpaszt, kisebben, fürgébben, adunk, kapunk, tudatunk
8
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Többértelmuség ˝ ˝ sort, • kezdtek, végeztek, terem, állam, köröm, hullám, tanára, muvére, ˝ noi, bájt, termet, nemzeti, feji, telefon, mondat, lejár, élek, sírok, laknak, falnak, halnak, telefonnak, váza, kacsa, héja, léptet, ereszt, béget, sikerül, települ, diák, torok, tubák, törtet, kopaszt, horpaszt, kisebben, fürgébben, adunk, kapunk, tudatunk / azNm avarFn sírFn ? OOOO ? ?? ?? OOO ?? ? ?? OOO ?? ? OOO ?? ?? O' ?? ?? ?? ?? ? ? ?? ??? ?? ?? o7 ?? ?? ooo o ?? o ? ?? oo ?? ? ooo oooo / avar / sír azDet Mn I
/
eddig
/
7 ooo o o ooo ooo
maradtMI
OOO OOO OOO OO'
feltáratlan
maradtI
8
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Morfoszintaktikai egyértelmusítés ˝ • lehetséges elemzések közül a szövegkörnyezetbe, az adott mondatba illo˝ kiválasztása
• 1 kódoló személy •
150 millió szó; kb. 23% többértelmu; ˝ 1 sec/szó (napi 24 órában) ⇒ 1 év, 35 nap MNSZ :
• nagy mennyiségu, ˝ változatos típusú szöveg ⇒ gyors, a változatosságot jól kezelo˝ automatikus módszer
• relatív gyakoriságon alapuló eljárás: az egyes elemzések gyakoriságát, valamint (legfeljebb) szóhármasok elemzésének gyakoriságát veszi figyelembe (másodrendu˝ rejtett Markov-modell)
9
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Morfoszintaktikai egyértelmusítés ˝ • a számítógépet meg kell tanítani a helyes elemzés kiválasztására • 270 ezer szavas kézzel egyértelmusített ˝ tanító korpusz (17 óra) ⇒ nyelvi modell
• adott kontextusban legvalószínubb ˝ elemzés kiválasztása a nyelvi modellben tárolt információ alapján
• egyszeru˝ modell: 97.5–98%-os teljesítmény
10
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Szabály alapú modul • egyértelmuen ˝ megadható feltételek fennállása esetén 100%-os pontossággal muköd ˝ o˝ szabályok
• 10%-kal csökkentheto˝ a rosszul egyértelmusített ˝ esetek száma 2. ’az([Pro]|[Det])’ - choose [Det] if followed by [N] beginning with vowel - choose [Pro] if followed by [Det] or [V] or [Con] or small case consonant or ’az’ ? x.token=az x.msd={[Pro],[Det]} + [Det] f.msd=[N] f.bw=aáeéiíoóö˝ ouúü˝ uAÁEÉIÍOÓÖ˝ OUÚÜ˝ U + [Pro] f.msd={[Det],[V],[Con]} + [Pro] f.bw=qwrtpsdfghjklmnbvcxz,:;.?! + [Pro] f.token=az
1. ábra. Egy egyértelmusít ˝ o˝ szabály 11
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Az egyértelmusít ˝ o˝ eszközlánc
XML bemenet
Szabály Szegmentáló HUMOR m. =⇒ =⇒ =⇒ alapú szur =⇒ ˝ o˝ Tokenizáló elemzo˝
TnT tagger
⇑ Nyelvi modell
=⇒
XML konverzió
Annotált =⇒ kimenet
2. ábra. Az egyértelmusít ˝ o˝ lánc komponensei
12
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
A kiválasztott elemzés
? ?? ?? ?? ?? ?? ?? ? ??? ?? ?? ?? ??
azNm
azDet
? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ? / avar / Mn /
avarFn
/
OOOO OOO OOO OOO O'
sírFn
o7 ooo o o oo ooo oooo
sírI
eddig
/
7 ooo o o ooo ooo
maradtMI
OOO OOO OOO OO'
feltáratlan
maradtI
13
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
A kiválasztott elemzés
? ?? ?? ?? ?? ?? ?? ? ??? ?? ?? ?? ??
azNm
azDet
? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ? / avar / Mn /
avarFn
/
OOOO OOO OOO OOO O'
sírFn
o7 ooo o o oo ooo oooo
sírI
eddig
/
7 ooo o o ooo ooo
maradtMI
OOO OOO OOO OO'
feltáratlan
maradtI
13
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
A végleges XML kimenet Példa
<s> <w lemma="mire" msd="Adv">Mire <w lemma="jó" msd="A.NOM">jó <w lemma="a" msd="Det">a <w lemma="nyelvtechnológia" msd="N.NOM">nyelvtechnológia
? <w lemma="MTA" msd="N.NOM">MTA 14
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
<w lemma="2003._november_4." msd="DATUM">2003._november_4. <s> <w lemma="az" msd="Det">Az <w lemma="˝ oszi" msd="A.NOM">˝ oszi <w lemma="avar" msd="N.NOM">avar <w lemma="sír" msd="V.e3">sír <w lemma="a" msd="Det">a <w lemma="láb" msd="N.PSe3.NOM">lába <w lemma="alatt" msd="NU">alatt . <s> <w lemma="csak" msd="Adv">Csak <w lemma="az" msd="Pro.NOM">az 15
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
<w lemma="ver" msd="V.Te3">veri <w lemma="fel" msd="Pre">fel <w lemma="az" msd="Det">az <w lemma="erd˝ o" msd="N.NOM">erd˝ o <w lemma="csend" msd="N.PSe3.ACC">csendjét , <w lemma="mivel" msd="Adv">mivel <w lemma="az" msd="Det">az <w lemma="avar" msd="A.NOM">avar <w lemma="sír" msd="N.NOM">sír <w lemma="ez" msd="Pro.TER">eddig <w lemma="feltáratlan" msd="A.NOM">feltáratlan <w lemma="marad" msd="V.Me3">maradt .
16
Mire jó a nyelvtechnológia?
MTA, 2003.11.04.
Összefoglalás
• már a gépi nyelvfeldolgozás kezdetén is számos olyan feladatot kell megol˝ számára triviális dani, ami a beszélok
• megkerülhetetlen lépések minden további nyelvfeldolgozó alkalmazás számára
• a bemutatott eljárás gyakorlati alkalmazása:
MNSZ
egyértelmusítése ˝
17
VÉGE
– Typeset by FoilTEX –
– Powered by Linux –