Intelligens elektronikus szótár és lexikai adatbázis IHM-ITEM 48/2002
Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály
[email protected]
Intelligens lexikon
Bevezetés • a jelenlegi helyzet: nincs az informatikai rendszerekben alkalmazható, megfelelo˝ kifejtettségu˝ nyelvi információt tartalmazó elektronikus szótár, lexikai adatbázis
• cél: nagyméretu˝ lexikai adatbázis (LAB) kifejlesztése • kiindulópont: – tartalmi: Magyar értelmezo˝ kéziszótár (ÉKsz.) átdolgozott változat; kb. 70.000 címszó – technológiai: C ONCEDE (Consortium for Central European Dictionary Encoding) COPERNICUS projekt ˝ • eszköz: C ONCEDE technológia + humán eroforrás
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Szótárak és lexikai adatbázisok • könyv alakú szótár – a nyelvet érto˝ emberi olvasásra készült – egyedi szerkezeti felépítésu˝ – szerkezeti elemek jelölése tipográfiai jegyekkel ˝ – erosen tömörített, nehezen formalizálható információ – szerkezeti, tartalmi, tipográfiai hibákkal
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Szótárak és lexikai adatbázisok • géppel olvasható szótár – lényegében papírszótár vmilyen elektronikus formátumban – nagyszámú szerkezeti elem egyértelmu˝ interpretáció nélkül
• lexikai adatbázis (LAB) – – – – –
sztenderdizált, jól definiált szerkezet elkülönített szerkezeti és tartalmi elemek nyelvtechnológiai szempontból releváns információ kevés elem, jól definiált interpretációval ˝ eloállítás: tartalmi és szerkezeti explikációval (up-translation)
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Az ÉKsz könyvváltozata
hegedül tn és ts ige 1. Hegedun ˝ játszik (vmit). 2. vál
ciripel.
• felépítés: címszó szótári alak; bevezeto˝ rész; értelmezo˝ és szemlélteto˝ rész • információ feldolgozása, "kinyerése": a nyelvet (és a használati útmutatót is) jól ismero˝ olvasó által
• a címszó lineáris feldolgozása során végzett számos implicit "nyelvfeldolgozó", értelmezo˝ muvelet ˝ (pl. tömörítések feloldása)
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Az ÉKsz könyvváltozata
hegedül tn és ts ige 1. Hegedun ˝ játszik (vmit). 2. vál ciripel.
• felépítés: címszó szótári alak; bevezeto˝ rész; értelmezo˝ és szemlélteto˝ rész • információ feldolgozása, "kinyerése": a nyelvet (és a használati útmutatót is) jól ismero˝ olvasó által
• a címszó lineáris feldolgozása során végzett számos implicit "nyelvfeldolgozó", értelmezo˝ muvelet ˝ (pl. tömörítések feloldása)
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Az ÉKsz könyvváltozata
hegedül tn és ts ige 1. Hegedun ˝ játszik (vmit). 2. vál ciripel.
• felépítés: címszó szótári alak; bevezeto˝ rész; értelmezo˝ és szemlélteto˝ rész • információ feldolgozása, "kinyerése": a nyelvet (és a használati útmutatót is) jól ismero˝ olvasó által
• a címszó lineáris feldolgozása során végzett számos implicit "nyelvfeldolgozó", értelmezo˝ muvelet ˝ (pl. tömörítések feloldása)
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Az ÉKsz könyvváltozata
hegedül tn és ts ige 1. Hegedun ˝ játszik (vmit). 2. vál ciripel.
• felépítés: címszó szótári alak; bevezeto˝ rész; értelmezo˝ és szemlélteto˝ rész • információ feldolgozása, "kinyerése": a nyelvet (és a használati útmutatót is) jól ismero˝ olvasó által
• a címszó lineáris feldolgozása során végzett számos implicit "nyelvfeldolgozó", értelmezo˝ muvelet ˝ (pl. tömörítések feloldása)
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Az elso˝ elektronikus változat Példa \entry{\lemma{hegedül\qlemma} \gramgrp{\subc{tn\qsubc} \pos{ige\qpos}\qgramgrp} \es{} \gramgrp{\subc{ts\qsubc} \pos{ige\qpos}\qgramgrp} \sense{\num{1.} \defi{heged˝ un játszik \hint{vmit\qhint}.\qdefi} \qsense{1.}} \sense{\num{2.} \usg{vál\qusg} \defi{\gloss{Tücsök\qgloss} ciripel.\qdefi} \qsense{2.}} \qentry}
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Az elso˝ elektronikus változat
• félúton a papírszótár és a géppel olvasható szótár között • kísérlet a címszó elemeinek és a köztük lévo˝ hierarchikus viszonyoknak a leképezésére
• következetlen kódolás, nehezen azonosítható hibák ˝ • gépi ellenorzés nem alkalmazható
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
A géppel olvasható szótár
• az ÉKsz elektronikus változata, ezért ugyanabban a lineáris és tömörített formában hordozza az információt ˝ • tipográfia még mindig elsodleges
• szabványos XML kódolású – szócikkelemek – elemszerkezet DTD által meghatározott ˝ DTD, nagyszámú elem, nem egyértelmu˝ interpretáció – "megengedo"
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
A kiinduló XML változat Példa <entry id="id-1300300"> hegedül <subc>tn ts <pos>ige <sensevar> <def>Heged˝ un játszik vmit. <sensevar> <usg>vál <def>Tücsök ciripel.
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Szócikkszerkezet • DTD: kiterjesztett környezetfüggetlen nyelvtan (ECFG) • leírt szerkezet egy fában ábrázolható
hhh hhhh qqq h h h q hhhh qqq hhhh hhhh
lemma
entry MMM MMM MM
gramgrp
sensevar
sensevar
pos
def
usg
MMM MMM MM
qq qqq q q q
subc
def
1. ábra. A példaszócikk elemágrajza.
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Szócikkszerkezet • a szócikk emberi feldolgozásának gépi modellje (információkinyerés): fabejárás
• problémák: – milyen elemek vezetnek be új információs csomópontot? – hogyan "áramlik" az információ egyik csomópontról a másikra? (szülo˝ cso˝ mópontról öröklodik ⇒ SUBC??) lemma: hegedül pos: ige subc: tn,ts ww ww w ww
def: hegedun ˝ játszik (vmit)
INFOtrend2003
GG GG
usg: vál def: ciripel
2003. november 27-29.
Intelligens lexikon
Szócikkszerkezet • a szócikk emberi feldolgozásának gépi modellje (információkinyerés): fabejárás
• problémák: – milyen elemek vezetnek be új információs csomópontot? – hogyan "áramlik" az információ egyik csomópontról a másikra? (szülo˝ cso˝ mópontról öröklodik ⇒ SUBC??) lemma: hegedül pos: ige subc: tn,ts
def: hegedun ˝ játszik (vmit) subc: tn,ts??
INFOtrend2003
?? ?? ?? ??
usg: vál def: ciripel subc: tn,ts??
2003. november 27-29.
Intelligens lexikon
A lexikai adatbázis
• szerkezeti elem: információs csomópontot reprezentál (STRUC) értelmezés: diszjunktív; az adott címszó egy-egy elemi használati módját reprezentálja
• tartalmi elemek: információt hordoznak (jegy-érték reprezentációban: jegy = elem neve; érték = elem tartalma) értelmezés: konjunktív; egy szerkezeti elem közvetlen leszármazott tartalmi elemei által hordozott információ mind érvényes az adott csomópontban
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
A lexikai adatbázis
˝ • információáramlás: öröklodés a csomópontok között – kumulatív: a csomópontok bejárása során az azonos jegyek értéke összeadódik (pl. USG?) – felülíró: az azonos jegyek közül az adott csomópontban a legközelebbi értéke érvényes
• tartalmi elemek meghatározása: – azon információtípusok, ahol a felülírás nem áll fenn, különbözo˝ elemekként jelennek meg (USG ⇒ REG , GEO, DOMAIN stb.) – egymást felülíró információtípusok: azonos elem különbözo˝ tartalom (POS , SUBC stb)
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Az adatbázis formátum Példa <entry id="hegedül.1"> hegedülhegedül<pos>ige <struc id="hegedül.1.1" type="sense"> <subc>tn <def>heged˝ un játszik <struc id="hegedül.1.2" type="sense"> <subc>ts <def>heged˝ un játszik <struc id="hegedül.1.3" type="sense"> <subc>tnváltücsök <def>ciripel
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Szócikkszerkezet a LAB-ban
entry
hw
hhhh hhhhmmmmm zz h h h h zz mmm hhhh zz hhhh mmmmmm h z h h h zz mm hhhh mmm zz hhhh m h z m h h m z h m hhhh pos orth
struc (1) zz zz z zz zz z z zz
subc (tn)
struc (3)
struc (2)
def
;; ;; ;; ;; ;; ;; ;; ;; ;; ;; ;; ;; ;; ;; ;;
subc (ts)
22 22 22 22 22
def
VV DD QQQVQVVVVVVV DD QQQQ VVVV VV DD QQQ DD QQQ VVVVVVV VVVV QQQ DD VVVV QQQ DD VVVV Q D QQ VVVV V
subc (tn)
reg
agent
2. ábra. A példaszócikk elemágrajza a LAB-ban. INFOtrend2003
2003. november 27-29.
def
Intelligens lexikon
Szócikkszerkezet a LAB-ban
oo ooo o o oo ooo o o ooo ooo
subc: tn def: hegedun ˝ játszik
hw: hegedül orth: hegedül pos: ige
OOO OOO OOO OOO OOO OOO OOO
subc: ts def: hegedun ˝ játszik OBJ
subc: tn usg: vál agent: tücsök def: ciripel
3. ábra. A fabejárás során kiolvasható információ a LAB-ban.
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Információkinyerés a LAB-ból
• a szócikkszerkezet minden egyes csomópontjához egyértelmu˝ és kimeríto˝ információ tartozik
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Információkinyerés a LAB-ból
• a szócikkszerkezet minden egyes csomópontjához egyértelmu˝ és kimeríto˝ információ tartozik 1. az adott csomópontnál van megadva
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Információkinyerés a LAB-ból
• a szócikkszerkezet minden egyes csomópontjához egyértelmu˝ és kimeríto˝ információ tartozik 1. az adott csomópontnál van megadva ˝ 2. öröklodik magasabb csomópontból
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Információkinyerés a LAB-ból
• a szócikkszerkezet minden egyes csomópontjához egyértelmu˝ és kimeríto˝ információ tartozik 1. az adott csomópontnál van megadva ˝ 2. öröklodik magasabb csomópontból
• minél alacsonyabb szintu˝ csomópont a fában, annál specifikusabb információt tartalmaz az adott címszó egy elemi használatáról
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Információkinyerés a LAB-ból
hw: hegedül orth: hegedül pos: ige
subc: tn def: hegedun ˝ játszik
INFOtrend2003
OOO OOO OOO OOO OOO OOO OOO
subc: ts def: hegedun ˝ játszik vmit
subc: tn usg: vál agent: tücsök def: ciripel
2003. november 27-29.
Intelligens lexikon
Információkinyerés a LAB-ból
hw: hegedül orth: hegedül pos: ige
OOO OOO OO
ö
subc: tn def: hegedun ˝ játszik
INFOtrend2003
subc: tn def: hegedun ˝ játszik vmit
OOO OOO O'OO '
hw: hegedül
subc: tn usg: vál agent: tücsök def: ciripel
2003. november 27-29.
Intelligens lexikon
Információkinyerés a LAB-ból
hw: hegedül orth: hegedül pos: ige
OOO OOO OO
hw: hegedül
örö OOO OOO O'OO orth: hegedül '
subc: tn def: hegedun ˝ játszik
INFOtrend2003
subc: tn def: hegedun ˝ játszik vmit
subc: tn usg: vál agent: tücsök def: ciripel
2003. november 27-29.
Intelligens lexikon
Információkinyerés a LAB-ból
hw: hegedül orth: hegedül pos: ige
OOO OOO OO
örököl OOO
OOO O'OO '
subc: tn def: hegedun ˝ játszik
INFOtrend2003
subc: tn def: hegedun ˝ játszik vmit
hw: hegedül orth: hegedül pos: ige subc: tn usg: vál agent: tücsök def: ciripel
2003. november 27-29.
Intelligens lexikon
Feladatok a LAB kialakítása során • tipográfiai szempontú kódolás átalakítása (különbözo˝ elemek azonos tipográfiával ⇒ következetlen kódolás) • szótári tömörítés feloldása – szerkezeti (v.ö. "hegedül") – tartalmi bronz . . . 1. Réznek és ónnak az ötvözete. ˝ készült (mu)tárgy, . . . 2. biz Ebbol ˝ kül. érem. ad . . . Vmire v. vminek adja magát v. a fejét: vmire szánja, ill. vminek átengedi magát.
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
Feladatok a LAB kialakítása során • nem releváns információ törlése (központozás, nyelvhelyességi "útmutató"), hibajavítás
• validáció – szerkezeti: XML validáló elemzo˝ ˝ – tartalmi: manuális ellenorzés kiválasztott elemeken
INFOtrend2003
2003. november 27-29.
Intelligens lexikon
A projekt várható eredménye
• nagyméretu, ˝ szabványos formátumú lexikai adatbázis – explicit, jól definiált, géppel értelmezheto˝ reprezentáció – számítógépes nyelvfeldolgozó alkalmazások alapja
• hálózati lekérdezo˝ felület – strukturált formában kinyerheto˝ információ ˝ – többszempontú lekérdezési lehetoség
INFOtrend2003
2003. november 27-29.
VÉGE
– Typeset by FoilTEX –
– Powered by Linux –