Z´ avislostn´ı redukˇ cn´ı anal´ yza pˇ rirozen´ ych jazyk˚ u Mark´eta Lopatkov´ a,1 Martin Pl´ atek2 a Vladislav Kuboˇ n3 1
CKL MFF UK, Praha
[email protected] 2 KTIML MFF UK, Praha
[email protected] 3 ´ UFAL MFF UK, Praha
[email protected]
Abstrakt V tomto ˇcl´ anku vyloˇz´ıme podstatu z´ avislostn´ı redukˇcn´ı anal´ yzy (DAR, dependency analysis by reduction) a jej´ı souvislost s pojmy z´ avislost a z´ avislostn´ı strom. V´ yklad budeme ilustrovat pˇr´ıklady z ˇceˇstiny, coˇz je jazyk s (v´ yraznˇe) voln´ ym slovosledem. Tento v´ yklad shrnuje z´ akladn´ı rysy v´ yvojov´ ych postup˚ u z´ avislostn´ı syntaxe. Bude vyuˇzit jako podklad pro ovˇeˇrov´ an´ı (a vysvˇetlov´ an´ı) adekv´ atnosti form´ aln´ıch a poˇc´ıtaˇcov´ ych model˚ u tˇechto postup˚ u.
1
Slovo u ´vodem k redukˇ cn´ı anal´ yze
Vˇetn´ a stavba angliˇctiny a dalˇs´ıch jazyk˚ u s pevn´ ym slovosledem se form´alnˇe popisuje fr´ azov´ ymi gramatikami. Popisy vˇetn´e stavby latiny, italˇstiny, nˇemˇciny, slovansk´ ych jazyk˚ u, arabˇstiny a dalˇs´ıch jazyk˚ u b´ yvaj´ı ˇcastˇeji a adekv´ atnˇeji zaloˇzeny na postupech, kter´e se souhrnnˇe naz´ yvaj´ı z´avislostn´ımi. Oba principy lze vykl´ adat pomoc´ı pozorov´ an´ı postupn´eho zjednoduˇsov´an´ı jednotliv´ ych vˇet jazyka, pomoc´ı tzv. redukˇcn´ı anal´ yzy. Principy fr´ azov´e redukˇcn´ı anal´ yzy a z´avislostn´ı redukˇcn´ı anal´ yzy se vˇsak podstatnˇe liˇs´ı. Fr´ azovou redukˇcn´ı anal´ yzu (jazyk˚ u s pevn´ ym slovosledem) lze pˇr´ımo modelovat anal´ yzou zdola pomoc´ı fr´ azov´ ych (Chomsk´eho) gramatik. Na z´ akladˇe tohoto textu by ˇcten´aˇr mˇel nahl´ednout, ˇze z´avislostn´ı redukˇcn´ı anal´ yzu jazyk˚ u s voln´ ym slovosledem je nutn´e modelovat podstatnˇe jinak. Abychom pˇribl´ıˇzili v´ yznam pˇredkl´ adan´eho textu, naznaˇc´ıme, v ˇcem se syntaktick´ a anal´ yza (vˇetn´ y rozbor) vˇet pˇrirozen´eho jazyka liˇs´ı od anal´ yzy vˇet (text˚ u) umˇel´eho (napˇr. programovac´ıho) jazyka. U umˇel´ ych jazyk˚ u urˇcujeme stavbu vstupn´ı vˇety, pˇriˇcemˇz obvykle m´ame k dispozici form´alnˇe zapsanou bezkontextovou gramatiku pˇr´ısluˇsn´eho jazyka (obvykle vznik´ a gramatika z´ aroveˇ n s jazykem), nav´ıc bˇeˇznˇe poˇzadujeme gramatiku takovou, kter´ a zaruˇcuje jednoznaˇcnost rozboru kaˇzd´e vˇety jazyka.4 4
ˇ Tento ˇcl´ anek je v´ ysledkem v´ yzkumu, kter´ y prob´ıh´ a za podpory grantu MSMT ˇ LN00A063 a grantu GA CR No. 201/02/1456 Ve form´ aln´ıch jazyc´ıch se obvykle mluv´ı o ,symbolech abecedy‘ a ,slovech‘, my budeme nad´ ale pouˇz´ıvat u form´ aln´ıch i pˇrirozen´ ych jazyk˚ u term´ın˚ u ,slovo (ze slovn´ıku)‘ a ,vˇeta‘.
U pˇrirozen´ ych jazyk˚ u je situace odliˇsn´a – pˇri vˇetn´em rozboru tak´e hled´ ame stavbu vstupn´ı vˇety. Ta vˇsak neb´ yv´ a urˇcena jednoznaˇcnˇe. M´ısto ucelen´e form´aln´ı gramatiky m´ ame k disposici dovednost vˇetn´eho rozboru – uˇc´ıme se jej ve ˇskol´ ach, je popisov´ an (ˇcasto pomoc´ı implicitn´ıch pravidel) v mluvnic´ıch dan´eho jazyka. Mluvnice ˇceˇstiny pˇredpokl´ adaj´ı, ˇze ˇclovˇek rozum´ı smyslu rozeb´ıran´e vˇety dˇr´ıve, neˇz zaˇcne vˇetn´ y rozbor prov´ adˇet (citujme zde Uˇcebnici vˇetn´eho rozboru [10]: Spr´ avn´ y rozbor vˇetn´ y nen´ı moˇzn´ y bez pˇresn´eho porozumˇen´ı vˇetˇe, ... “). ” Automatick´ a syntaktick´ a anal´ yza (podle form´ aln´ı gramatiky) porozumˇen´ı vˇetˇe nepˇredpokl´ ad´ a, ani je nem´ a k disposici. Je naopak jednou z prvn´ıch f´ az´ı pˇri poˇc´ıtaˇcov´em modelov´an´ı smyslu vˇety. Jak´ y je vztah vˇetn´eho rozboru k redukˇcn´ı anal´ yze? Jednoduˇse ˇreˇceno, vˇetn´ y rozbor ˇceˇstiny je zaloˇzen na element´arnˇejˇs´ı schopnosti prov´ adˇet redukˇcn´ı anal´ yzu, tj. postupnˇe zjednoduˇsovat zkouman´e vˇety. Cestu od vˇetn´eho rozboru k poˇc´ıtaˇcov´e syntaktick´e anal´ yze vybran´eho jazyka lze rozdˇelit na n´ asleduj´ıc´ı kroky: (a) vyhled´ an´ı a popis pravidel redukˇcn´ı anal´ yzy jazyka, (b) transformace pravidel redukˇcn´ı anal´ yzy do pravidel a omezen´ı z´avislostn´ıho formalismu, (c) sestrojen´ı (vybr´ an´ı) vhodn´eho analyz´ atoru pro dan´ y soubor z´ avislostn´ıch pravidel a omezen´ı. V tomto ˇcl´anku se budeme vˇenovat pozorov´ an´ım patˇr´ıc´ım bodu (a) a ˇc´asteˇcnˇe bodu (b), se zamˇeˇren´ım na z´avislostn´ı anal´ yzu ˇceˇstiny. Redukˇcn´ı anal´ yzou se zde zab´ yv´ ame pˇredevˇs´ım proto, abychom z´ıskali jasnou pˇredstavu o tom, jak ji form´ alnˇe a poˇc´ıtaˇcovˇe modelovat. K tomuto u ´ˇcelu jsou zavedeny a studov´ any restartovac´ı automaty (viz napˇr. [3]). N´ asleduj´ıc´ı pˇr´ıklad ilustruje zjednoduˇsenˇe metodiku z´avislostn´ı redukˇcn´ı anal´ yzy. Pˇ r´ıklad 1. Vˇetu ,Studenti dˇelali tˇeˇzkou zkouˇsku.‘ lze pˇri zachov´ an´ı syntaktick´e spr´avnosti zjednoduˇsit dvˇema zp˚ usoby (viz t´eˇz sch´ema na obr´ azku 1) – vypuˇstˇen´ım slova studenti, nebo vypuˇstˇen´ım slova tˇeˇzkou (ale uˇz ne vypuˇstˇen´ım slova zkouˇsku – vˇeta ,*Studenti dˇelali tˇeˇzkou.‘ nen´ı spr´ avnˇe utvoˇren´ a). Ve druh´em kroku m˚ uˇzeme vypustit slovo tˇeˇzkou (v prvn´ı vˇetvi anal´ yzy), nebo slovo studenti, ˇci slovo zkouˇsku (ve druh´e vˇetvi). V posledn´ım kroku lze vypustit slovo zkouˇsku (v prvn´ı vˇetvi), nebo slovo studenti. Studenti dˇelali tˇeˇzkou zkouˇsku.
Z
=
Z ~ Z
Dˇelali tˇeˇzkou zkouˇsku.
?
Studenti dˇelali zkouˇsku.
Z
=
Dˇelali zkouˇsku.
Z
Z ~ Z
Dˇelali.
Z ~ Z
Studenti dˇelali.
=
Obr´ azek 1. Sch´ema DAR pro vˇetu ,Studenti dˇelali tˇeˇzkou zkouˇsku.‘
Sch´ema DAR u ´zce souvis´ı se z´avislostn´ım stromem (na obr´azku 2 je z´avislostn´ı strom pro vˇetu ,Studenti dˇelali tˇeˇzkou zkouˇsku.‘). (i) Skuteˇcnost, ˇze nˇejak´e slovo lze z vˇety vypustit tak, ˇze z´ısk´ ame vˇetu jednoduˇsˇs´ı, znamen´a, ˇze z´avis´ı na nˇekter´em slovˇe ze zkr´acen´e vˇety (rozv´ıj´ı ho).
(ii) Dvˇe slova lze postupnˇe vypustit v libovoln´em poˇrad´ı, pr´ avˇe kdyˇz jsou vz´ajemnˇe nez´avisl´a. (iii) Nav´ıc se ukazuje, ˇze nˇekter´a slovn´ı spojen´ı (napˇr. spojen´ı pˇredloˇzky s podstatn´ ym jm´enem; viz napˇr. pˇr´ıklad 4 d´ ale) je nutno vypouˇstˇet v jednom kroku – i v tomto pˇr´ıpadˇe je nˇekdy vhodn´e urˇcovat z´avislosti. >
dˇelali
studenti
Z } Z
Z zkouˇsku >
tˇeˇzkou
Obr´ azek 2. Z´ avislostn´ı strom vˇety ,Studenti dˇelali tˇeˇzkou zkouˇsku.‘
Pˇredchoz´ı pˇr´ıklad ilustruje postup, jak pomoc´ı DAR z´ıskat ve vˇetˇe informaci o z´avislostech (vztaz´ıch mezi rozv´ıjen´ ymi a rozv´ıjej´ıc´ımi ˇcleny vˇety). M˚ uˇzeme si vˇsimnout, ˇze vezmeme-li vˇety ,Tˇeˇzkou zkouˇsku studenti dˇelali.‘ ˇci ,Tˇeˇzkou dˇelali studenti zkouˇsku.‘, nebo jejich dalˇs´ı permutace, z´ısk´ ame zcela analogick´a sch´emata redukce jako pro vˇetu p˚ uvodn´ı, tedy vypuˇstˇen´a slova (slovn´ı spojen´ı) v jednotliv´ ych redukˇcn´ıch kroc´ıch budou stejn´ a. Z´ avislostn´ı redukˇcn´ı anal´ yza n´ am t´ımto zp˚ usobem umoˇzn ˇuje pozorovat, do jak´e m´ıry jsou z´ avislosti invariantn´ı v˚ uˇci slovosledu. N´ asleduj´ıc´ı kapitoly se podrobnˇeji zab´ yvaj´ı z´avislostn´ı redukˇcn´ı anal´ yzou a urˇcov´an´ım z´avislost´ı na z´ akladˇe redukˇcn´ı anal´ yzy.
2
Z´ avislostn´ı redukˇ cn´ı anal´ yza
Z´ avislostn´ı redukˇ cn´ı anal´ yza (DAR) spoˇc´ıv´ a v postupn´em zjednoduˇsov´an´ı vˇety – kaˇzd´ y krok DAR je reprezentov´ an pr´ avˇe jednou operac´ı redukce, kter´ a m˚ uˇze b´ yt realizov´ ana dvˇema zp˚ usoby: (i) vypuˇstˇen´ım alespoˇ n jednoho slova vstupn´ı vˇety, nebo (ii) nahrazen´ım (obecnˇe nesouvisl´eho) podˇretˇezce vˇety kratˇs´ım podˇretˇezcem. Moˇznost aplikovat urˇcitou redukci je podm´ınˇena zachov´an´ım nˇekter´ ych (alespoˇ n prvn´ıho) z n´ asleduj´ıc´ıch princip˚ u DAR: (a) zachov´an´ı spr´ avnosti stavby vˇety (syntaktick´ a spr´ avnost); (b) zachov´ an´ı lemmatu (slovn´ıkov´eho hesla) a vybran´e morfologick´e znaˇcky (soubor morfologick´ ych kategori´ı, kter´e charakterizuj´ı dan´ y v´ yskyt slova); (c) zachov´an´ı v´ yznamu p˚ uvodn´ıch slov ve vˇetˇe (reprezentov´an napˇr. vaamcem,5 ˇci vhodn´ ym ekvivalentem v jin´em jazyce); lenˇcn´ım r´ (d) zachov´ an´ı v´ yznamov´e samostatnosti vˇety (v´ yznamovˇe samostatn´a vˇeta je takov´ a vˇeta, kter´a vyslovena samostatnˇe nevyvol´ av´ a nutnˇe dalˇs´ı ot´ azky).6 5 6
Valenˇcn´ı r´ amec, kter´ y popisuje syntakticko-s´emantick´e vlastnosti slova, odpov´ıd´ a jednomu jeho v´ yznamu, v´ıce viz napˇr. [6]. V lingvistick´e terminologii to znamen´ a, ˇze v´ yznamovˇe samostatn´ a vˇeta se skl´ ad´ a ze slovesa, vˇsech jeho s´emanticky ,povinn´ ych‘ doplnˇen´ı a (rekurzivnˇe) jejich ,povinn´ ych‘ doplnˇen´ı, pˇriˇcemˇz ,povinn´ a‘ doplnˇen´ı jsou ta doplnˇen´ı, kter´ a mus´ı mluvˇc´ı i posluchaˇc zn´ at pro dobr´e porozumˇen´ı vˇetˇe, v´ıce viz [7].
V z´avislosti na konkr´etn´ım u ´kolu (napˇr. kontrola gramatick´e spr´avnosti) lze tyto poˇzadavky na DAR uvolˇ novat; principy, kter´e nejsou uvolnˇeny, potom oznaˇcujeme jako platn´ e principy DAR (napˇr. v pˇr´ıkladu 1 byl uvolnˇen poˇzadavek zachov´an´ı v´ yznamov´e samostatnosti vˇety – p˚ uvodn´ı vˇeta byla redukov´ ana aˇz na jednoˇclennou vˇetu ,Dˇelali.‘, coˇz uˇz nen´ı samostatn´a vˇeta). Pokud lze v urˇcit´em kroku DAR aplikovat urˇcitou redukci pˇri zachov´ an´ı platn´ ych princip˚ u, mluv´ıme o pˇ r´ıpustn´ e redukci. Pomoc´ı vˇsech pˇr´ıpustn´ ych redukc´ı se lze dostat ke vˇsem pˇ r´ıpustn´ ym zjednoduˇ sen´ım zpracov´ avan´e vˇety. P˚ uvodn´ı, nezjednoduˇsenou vˇetu budeme (z technick´ ych d˚ uvod˚ u) povaˇzovat t´eˇz za pˇr´ıpustn´e zjednoduˇsen´ı vˇety. ematem) vˇ ety jazyka nazveme oriSch´ ematem DAR (redukˇ cn´ım sch´ entovan´ y graf, jehoˇz uzly reprezentuj´ı vˇsechna pˇr´ıpustn´ a zjednoduˇsen´ı dan´e vˇety (vˇcetnˇe p˚ uvodn´ı vˇety) a jehoˇz hrany odpov´ıdaj´ı vˇsem pˇr´ıpustn´ ym redukc´ım, kter´e lze aplikovat vˇzdy na poˇc´ateˇcn´ı uzel hrany a jejichˇz v´ ysledkem je pˇr´ıpustn´e zjednoduˇsen´ı vˇety v koncov´em uzlu hrany. Pˇ r´ıklad 2. Redukˇcn´ı sch´ema vˇety ,Studenti dˇelali tˇeˇzkou zkouˇsku.‘ z pˇr´ıkladu 1 ilustruje redukce typu (i) – v kaˇzd´em kroku DAR je vypuˇstˇeno jedno slovo vstupn´ı vˇety, pˇriˇcemˇz moˇznost vˇetven´ı zachycuje nedeterministickou povahu DAR. Redukce typu (ii) je ilustrov´ ana na moˇzn´em zjednoduˇsov´an´ı vˇety ,Kursem proˇslo patn´ act student˚ u.‘, jej´ıˇz redukˇcn´ı sch´ema je na obr´ azku 3. Prvn´ı krok prvn´ı vˇetve sch´ematu se realizuje vypuˇstˇen´ım slova kursem (podle bodu (i), opˇet je uvolnˇen poˇzadavek (d) na zachov´ an´ı v´ yznamov´e u ´plnosti vˇety), v prvn´ım kroku druh´e vˇetve je ˇretˇezec proˇslo patn´ act student˚ u nahrazen kratˇs´ım ˇretˇezcem proˇsli studenti (podle bodu (ii)). D´ ale redukce pokraˇcuje obdobnˇe. Kursem proˇslo patn´ act student˚ u.
Z
=
Z ~ Z
Proˇslo patn´ act student˚ u.
?
Kursem proˇsli studenti.
Z
=
Proˇsli studenti.
Z
Z ~ Z
Z ~ Z
Kursem proˇsli.
Proˇsli.
=
Obr´ azek 3. Sch´ema DAR pro vˇetu ,Kursem proˇslo patn´ act student˚ u.‘
3
Redukˇ cn´ı struktura a z´ avislostn´ı strom
Sch´ema DAR umoˇzn ˇuje zav´est a klasifikovat r˚ uzn´e typy vztah˚ u. Na z´ akladˇe takto zaveden´ ych vztah˚ u definujeme redukˇcn´ı strukturu vˇety. Pod´ıv´ ame se na jej´ı vztah k z´ avislostn´ımu stromu. Mˇejme jazyk L, vˇetu v ∈ L, v = v1 v2 ...vm , kde v1 , v2 , ..., vm jsou slova, ˇ a sch´ema DAR vˇety v. Rekneme, ˇze slova vi , i ∈ N, N ⊆ {1, 2, ...m} tvoˇr´ı redukˇ cn´ı komponentu, pokud jsou vˇsechna vi vypouˇstˇena vˇzdy najednou (tj. v redukˇcn´ım sch´ematu jsou vˇsechna vi vypouˇstˇena vˇzdy v jednom kroku, kter´emu ˇ cnˇ e) z´ avisl´ e odpov´ıd´ a jedna hrana sch´ematu). Rekneme, ˇze slovo vi je (redukˇ (pˇr´ıp. v redukci z´ avisl´ e) na slovˇe vj , pokud je ve vˇsech vˇetv´ıch DAR slovo vi
vypuˇstˇeno dˇr´ıve neˇz vj ; slovo vj budeme naz´ yvat slovem (v redukci) ˇ r´ıd´ıc´ım. ˇ Rekneme, ˇze slova vi a vj jsou redukˇ cnˇ e nez´ avisl´ a, pokud jsou vypouˇstˇena v libovoln´em poˇrad´ı (tj. existuje vˇetev DAR, ve kter´e je slovo vi vypuˇstˇeno pˇred slovem vj , a existuje vˇetev DAR, ve kter´e je slovo vj vypuˇstˇeno pˇred slovem vi ). azku 4 je Pˇ r´ıklad 3. Mˇejme form´aln´ı jazyk L = {ai bi ecn dn |i, n ≥ 0}. Na obr´ ykladu sch´ema redukˇcn´ı anal´ yzy vˇety a2 b2 ec3 d3 . Pˇrijmˇeme pro jednoduchost v´ pˇredpoklad, ˇze vypouˇstˇet v jednom kroku se smˇej´ı pouze dvojice nejbliˇzˇs´ıch slov, pokud je v´ıce moˇznost´ı. Potom v t´eto vˇetˇe a vˇet´ach redukovan´ ych tvoˇr´ı sousedn´ı slova a a b redukˇcn´ı komponentu, podobnˇe sousedn´ı slova c a d tvoˇr´ı tak´e redukˇcn´ı komponentu; slova a, b, c a d jsou redukˇcnˇe z´avisl´a na slovˇe e; slova a a b jsou redukˇcnˇe nez´avisl´a na slovech c a d. Jazyk L je pˇr´ıklad jazyka s pevn´ ym slovosledem. Jazyk s voln´ ym slovosledem a ,stejn´ ymi‘ redukcemi a (ne)z´ avislostmi z´ısk´ ame tak, ˇze budeme uvaˇzovat mnoˇzinu vˇsech permutac´ı vˇet z L. a2 b2 ec3 d3
Z Z = ~ Z 3 3 2 2
a b ec2 d2
abec d
=
Z
Z Z Z ~ Z = ~2 Z 2 2
Z
Z
3 3
ec d
a b2 ecd
abec d
Z 2 ~ 2 Z = ec d
Z
Z ~ Z =
Z ~2 Z
a b2 e
abecd
Z
Z Z Z ~ Z = ~ Z = ecd
Z
abe
Z ~ Z = e
Obr´ azek 4. Sch´ema DAR pro vˇetu a2 b2 ec3 d3
Na z´akladˇe zaveden´ ych vztah˚ u redukˇcn´ı z´avislosti a redukˇcn´ı komponenty definujeme redukˇcn´ı strukturu vˇety – ilustrujeme ji na n´ asleduj´ıc´ım pˇr´ıkladu. Pˇ r´ıklad 4. Redukˇcn´ı sch´ema vˇety ,Maminka povˇedˇela dˇetem chv´ıli pˇred usnut´ım poh´ adku.‘, kter´e zachov´av´ a vˇsechny principy DAR z pˇredchoz´ı sekce (tj. vˇcetnˇe principu (d) zachov´ an´ı v´ yznamov´e samostatnosti vˇety), je na obr´ azku 5 – pˇredloˇzkov´ a skupina pˇred usnut´ım mus´ı b´ yt redukov´ ana v jednom kroku; sloveso povˇedˇet m´a tˇri ,povinn´ a‘ doplnˇen´ı, kter´ a odpov´ıdaj´ı podmˇetu a tzv. pˇr´ım´emu a nepˇr´ım´emu pˇredmˇetu, podstatn´e jm´eno maminka nem´a povinn´ a doplnˇen´ı, proto adku.‘. m´a v´ yznamovˇe samostatn´a vˇeta tvar ,Maminka povˇedˇela dˇetem poh´ Maminka povˇ edˇela dˇetem chv´ıli pˇred usnut´ım poh´ adku.
?
Maminka povˇ edˇela dˇetem pˇred usnut´ım poh´ adku.
?
Maminka povˇ edˇela dˇetem poh´ adku. Obr´ azek 5. Sch´ema DAR pro vˇetu ,Maminka povˇedˇela dˇetem chv´ıli pˇred usnut´ım poh´ adku.‘ pˇri uplatnˇen´ı principu zachov´ an´ı v´ yznamov´e samostatnosti vˇety.
Redukˇ cn´ı strukturu budeme zachycovat diagramem, ve kter´em uzly reprezentuj´ı jednotliv´ a slova vˇety, horizont´ aln´ı hrany spojuj´ı slova tvoˇr´ıc´ı redukˇcn´ı komponentu (hranou jsou spojeny vˇzdy dvˇe sousedn´ı slova redukˇcn´ı kompoˇ e hrany odpov´ıdaj´ı redukˇcn´ım z´avislostem; povaˇzujeme je za oriennenty).7 Sikm´ tovan´e od z´avisl´eho slova (resp. od cel´e redukˇcn´ı komponenty) ke slovu ˇr´ıd´ıc´ımu (resp. opˇet k cel´e redukˇcn´ı komponentˇe, pokud je pro dan´e slovo / komponentu ˇr´ıd´ıc´ı). Line´ arn´ı uspoˇra´d´ an´ı uzl˚ u (zleva doprava) zachycuje slovosled (poˇrad´ı slov ve vˇetˇe). Na obr´ azku 6 je redukˇcn´ı struktura reprezentuj´ıc´ı vˇetu ,Maminka povˇedˇela dˇetem chv´ıli pˇred usnut´ım poh´ adku.‘ maminka
povˇedˇela
dˇetem
poh´ adku
Z } Z pˇred
Z
>
usnut´ım
chv´ıli
Obr´ azek 6. Redukˇcn´ı struktura pro vˇetu ,Maminka povˇedˇela dˇetem chv´ıli pˇred usnut´ım poh´ adku.‘
Stavba (ˇcesk´e) vˇety se tradiˇcnˇe zachycuje z´avislostn´ım stromem. To je pr˚ uhledn´e a korektn´ı pro vˇety, kter´e nejsou komplikov´ any koordinacemi, elipsami a nˇekter´ ymi okrajov´ ymi jevy. Z´ avislostn´ı strom je struktura, kter´ a je koneˇcn´ ym stromem ve smyslu teorie graf˚ u, m´ a koˇren, do kter´eho smˇeˇruj´ı vˇsechny cesty a jeho uzly jsou u ´plnˇe (line´ arnˇe zleva doprava) uspoˇra´d´ any. Uzly (jist´ ym, ne vˇzdy stejn´ ym zp˚ usobem) reprezentuj´ı v´ yskyty slov ve vˇetˇe, hrany reprezentuj´ı vztah mezi rozv´ıjen´ ym a rozv´ıjej´ıc´ım slovem (jednotkou) ve vˇetˇe. Zb´ yv´ a popsat, jak pˇrech´azet od redukˇcn´ı struktury k z´ avislostn´ımu stromu. Redukˇcn´ı z´avislosti nepˇredstavuj´ı probl´em, pˇr´ısluˇsn´e hrany charakterizuj´ı vztah mezi slovem rozv´ıjej´ıc´ım a slovem, kter´e je rozv´ıjeno, poˇrad´ı slov ve vˇetˇe je zachov´ano. U redukˇcn´ı komponenty mus´ıme urˇcit, kter´e slovo z dan´e komponenty bude povaˇzov´ano za slovo ˇr´ıd´ıc´ı a kter´e slovo / kter´a slova za z´avisl´a. K tomu je potˇreba uv´est dalˇs´ı pravidla pro jednotliv´e lingvistick´e jevy, kter´e pˇribl´ıˇz´ıme v n´ asleduj´ıc´ı sekci.
4
Redukˇ cn´ı vztahy v pˇ rirozen´ em jazyce
Form´ aln´ı typologie z´avislost´ı zaveden´a v pˇredchoz´ı sekci odpov´ıd´ a tradiˇcn´ı lingvistick´e klasifikaci – zde se pokus´ıme tuto souvislost detailnˇeji popsat. 4.1
Kr´ atce k lingvistick´ ym pojm˚ um
Pˇribliˇzme ve struˇcnosti pojmy (ˇcesk´e) lingvistiky, kter´e budeme d´ale pouˇz´ıvat. V´ıce lze nal´ezt napˇr´ıklad v [10], [9], [7] a [5]. 7
Za sousedn´ı slova zde povaˇzujeme vˇzdy dvojici slov z jedn´e redukˇcn´ı komponenty, mezi kter´ ymi neleˇz´ı slovo ze stejn´e komponenty (takov´ a slova se nemus´ı vyskytovat na sousedn´ıch slovosledn´ ych pozic´ıch ve vˇetˇe, mezi nimi m˚ uˇze b´ yt slovo, kter´e do t´eto komponenty nepatˇr´ı).
Stavba vˇ ety zachycuje vztahy mezi jednotliv´ ymi vˇetn´ ymi ˇcleny, a to zejm´ena y vˇetn´ y (i) vztah podˇ r´ızenosti (anglicky subordination),8 tj. vztah rozv´ıjen´ ˇclen – vˇetn´ y ˇclen jej rozv´ıjej´ıc´ı, a (ii) slovoslednou pozici ve vˇetˇe (viz [10]). Jako vˇetn´e ˇcleny pˇritom oznaˇcujeme v´ yrazy (jednotliv´ a slova i skupiny slov), kter´e maj´ı jedinou syntaktickou funkci (tj. vyjadˇruj´ı napˇr. podmˇet, predik´ at, pˇredmˇet, pˇr´ıvlastek ˇci pˇr´ısloveˇcn´e urˇcen´ı). Krit´erium pro rozliˇsen´ı vˇetn´ ych ˇclen˚ u ve dvojici ˇ clen rozv´ıjen´ y –ˇ clen jej rozv´ıjej´ıc´ı (anglicky modified – modifying member) je zaloˇzeno na pojmu tzv. endocentrick´e konstrukce,9 viz [9]: pokud lze jedno ze dvou slov vypustit, aniˇz se zmˇen´ı distribuˇcn´ı vlastnosti cel´eho p´ aru (tj. aniˇz se zmˇen´ı schopnost vyskytovat se ve stejn´em syntaktick´em okol´ı), je toto slovo povaˇzov´ano za rozv´ıjej´ıc´ı. Na z´akladˇe principu analogie (na u ´rovni slovn´ıch druh˚ u) se urˇc´ı y postup smˇer rozv´ıjen´ı i pro tzv. exocentrick´e konstrukce10 – ilustrujme takov´ v pˇr´ıpadˇe slovesa a jeho aktoru (coˇz je vˇetn´ y ˇclen v ˇcinn´e vˇetˇe typicky odpov´ıdaj´ıc´ı subjektu): protoˇze existuj´ı slovesa, kter´a nevyˇzaduj´ı aktor (napˇr. prˇs´ı), je vhodn´e povaˇzovat aktor vˇzdy za vˇetn´ y ˇclen rozv´ıjej´ıc´ı sloveso. Obdobnˇe je i ,povinn´ y‘ objekt (napˇr. u slovesa potkat) povaˇzov´an za vˇetn´ y ˇclen rozv´ıjej´ıc´ı sloveso (nebot’ existuj´ı slovesa, kter´a povinn´ y objekt nemaj´ı, napˇr. sloveso zemˇr´ıt). Jako doplnˇ en´ı slovesa, resp. podstatn´ eho jm´ ena, pˇ r´ıdavn´ eho jm´ ena ˇci pˇ r´ıslovce budeme oznaˇcovat vˇetn´e ˇcleny, kter´e rozv´ıjej´ı dan´e sloveso, resp. podstatn´e jm´eno, pˇr´ıdavn´e jm´eno ˇci pˇr´ıslovce. Pˇritom rozliˇsujeme vnitˇrn´ı a voln´ a doplnˇen´ı. Vnitˇ rn´ı doplnˇ en´ı (v anglick´e literatuˇre obvykle inner participants ˇci arguments) odpov´ıdaj´ı podmˇetu a pˇredmˇetu/˚ um dan´eho slovesa (napˇr. studenti dˇelali zkouˇsku, kursem proˇsli studenti, maminka povˇedˇela dˇetem poh´ adku, kr´ al zemˇrel, Petr ˇcetl o neˇstˇest´ı, rodiˇce ˇcekali na dˇeti), resp. jist´ ym typ˚ um pˇr´ıvlastk˚ u u podstatn´eho jm´ena (napˇr. zaˇc´ atek pˇredn´ aˇsky) a jist´ ym rozvit´ım u pˇr´ıdavn´ ych jmen a pˇr´ıslovc´ı (napˇr. z´ avisl´y na poˇcas´ı, kolmo na z´ akladnu). Voln´ a doplnˇ en´ı (anglicky obvykle adjuncts) odpov´ıdaj´ı pˇr´ısloveˇcn´ ym urˇcen´ım u, jde pomalu), resp. jist´ ym (ˇcasu, m´ısta, zp˚ usobu, ..., napˇr. jde vˇcas, jde dom˚ typ˚ u pˇr´ıvlastku (napˇr. mal´y st˚ ul), ˇci jist´ ym rozvit´ım pˇr´ıdavn´ ych jmen a pˇr´ıslovc´ı (napˇr. trochu kr´ atk´y, velmi rychle, zcela jistˇe). Vˇsechna doplnˇen´ı dˇel´ıme na obligatorn´ı, tj. povinnˇe pˇr´ıtomn´ a ve v´ yznamov´e reprezentaci vˇety (kter´ a vˇsak nemus´ı b´ yt vyj´ adˇrena v konkr´etn´ı (povrchov´e) realizaci vˇety, posluchaˇci / ˇcten´aˇri m˚ uˇzou b´ yt zn´ ama z pˇredchoz´ıho kontextu), a na 8
9
10
Term´ınem ,podˇr´ızenost‘ v tomto ˇcl´ anku oznaˇcujeme jazykov´ y vztah, zat´ımco term´ın ,z´ avislost‘ vyhrazujeme pro form´ aln´ı struktury, pomoc´ı nichˇz modelujeme jazykov´e vztahy, tedy napˇr. podˇr´ızenost. Obdobnˇe napˇr. Kunze v [4] rozliˇsuje ,Unterordnung‘ pro jazykov´e vztahy a ,Abh¨ angigkeit‘ pro jejich form´ aln´ı zachycen´ı. Endocentrick´ a konstrukce je konstrukce sest´ avaj´ıc´ı alespoˇ n ze dvou slov, z nichˇz jedin´e je ,povinn´e‘ a tvoˇr´ı ,hlavu‘ konstrukce, ostatn´ı slova jsou ,nepovinn´ a‘ a rozv´ıjej´ı tuto ,hlavu‘, napˇr. spojen´ı mal´ y st˚ ul je endocentrick´ a konstrukce, podstatn´e jm´eno st˚ ul tvoˇr´ı ,hlavu‘, pˇr´ıdavn´e jm´eno mal´ y je rozv´ıj´ı. Exocentrick´ a konstrukce je konstrukce, kter´ a nem´ a ,hlavu‘, kter´ a by mohla (syntakticky) zastupovat celou konstrukci (jde tedy napˇr. o pˇredloˇzkov´e skupiny); z argumentace v [9] lze vyvodit, ˇze za exocentrick´e konstrukce lze povaˇzovat i napˇr. konstrukce sest´ avaj´ıc´ı ze slovesa a jeho ,povinn´ ych‘ doplnˇen´ı.
doplnˇen´ı ,nepovinn´ a‘, fakultativn´ı. Pro rozliˇsen´ı obligatorn´ıch a fakultativn´ıch doplnˇen´ı slouˇz´ı dialogov´ y test popsan´ y v [7].
4.2
Modelov´ an´ı jazykov´ ych jev˚ u pomoc´ı redukˇ cn´ı struktury
Vrat’me se zpˇet k form´ aln´ı typologii redukˇcn´ıch vztah˚ u a pod´ıvejme se, jak´ ym zp˚ usobem souvisej´ı s r˚ uzn´ ymi typy vztah˚ u jazykov´ ych.
Redukˇ cn´ı z´ avislosti dovoluj´ı pˇr´ımo modelovat fakultativn´ı voln´ a doplnˇen´ı – jde vesmˇes o endocentrick´e konstrukce, u nichˇz lze celou dvojici nahradit rozv´ıjen´ ym slovem, ,hlavou‘ konstrukce (a to beze ztr´ aty v´ yznamov´e samostatnosti, princip (d) DAR). Takto jsou tedy zachyceny vztahy typu mal´y st˚ ul, jde pomalu, jde dom˚ u, jde vˇcas, trochu kr´ atk´y, velmi rychle, zcela jistˇe. Slovo (v redukci) ˇr´ıd´ıc´ı odpov´ıd´ a rozv´ıjen´emu slovu ve vˇetˇe (tj. ,hlavˇe‘ endocentrick´e konstrukce), slovo v redukci z´ avisl´e odpov´ıd´ a slovu, kter´e toto ˇr´ıd´ıc´ı slovo rozv´ıj´ı (viz obr´ azek 7). Zb´ yv´ a urˇcit ˇr´ıd´ıc´ı a z´avisl´ y ˇclen zpracov´ avan´e redukˇcn´ı z´avislosti v pˇr´ıpadech, kdy je rozv´ıjen´ y nebo rozv´ıjej´ıc´ı ˇclen t´eto z´avislosti tvoˇren celou redukˇcn´ı komponentou. (i) Pokud je rozv´ıjej´ıc´ı ˇclen tvoˇren redukˇcn´ı komponentou, potom jako z´ avisl´ y ˇclen urˇcujeme ˇr´ıd´ıc´ı slovo t´eto komponenty (urˇcen´ı ˇr´ıd´ıc´ıho slova u redukˇcn´ı komponenty viz n´ıˇze, zbyl´e ˇcleny komponenty budou tvoˇrit podstrom s koˇrenem v pˇr´ısluˇsn´em ˇr´ıd´ıc´ım slovˇe). (ii) Pokud je rozv´ıjen´ y ˇclen tvoˇren redukˇcn´ı komponentou, potom v obecn´em pˇr´ıpadˇe doch´ az´ı k (v´ yznamov´ ym) nejednoznaˇcnostem, kter´e jsou pro ˇceˇstinu dosti typick´e (zaj´ımav´e pˇr´ıklady jsou uvedeny v [2]). >
mal´ y
st˚ ul
jde
Z } Z
Z
dom˚ u
Obr´ azek 7. Redukˇcn´ı z´ avislosti modeluj´ı voln´ a doplnˇen´ı.
Redukˇ cn´ı komponenty dovoluj´ı modelovat sloˇzitˇejˇs´ı vztahy mezi v´ yskyty slov. Jsou to jednak (a) vztahy morfologicko-syntaktick´e, jednak (b) vztahy syntakticko-s´emantick´e. ad (a) Redukˇcn´ı komponenty popisuj´ı tzv. form´ emy, coˇz jsou jednotky odpov´ıdaj´ıc´ı jednomu vˇetn´emu ˇclenu – jsou to zejm´ena pˇredloˇzkov´e skupiny (pˇred usnut´ım, na stole, vzhledem k Pavlovi) nebo sloˇzen´e slovesn´e tvary (pˇriˇsel jsem, bude obˇedvat, je vytiˇstˇen, tiskne se). (Jde tedy o exocentrick´e konstrukce.)
pˇriˇsel
jsem
-
pˇriˇsel
Z } Z
Z
jsem
na
stole
-
na
Z } Z
Z
stole
Obr´ azek 8. Moˇzn´ y pˇrevod form´em˚ u na z´ avislostn´ı podstrom (podle u ´zu PDT).
Form´emy se v tradiˇcn´ı lingvistice zn´ azorˇ nuj´ı jako jeden uzel diagramu, resp. z´avislostn´ıho stromu zn´ azorˇ nuj´ıc´ıho vˇetnou stavbu, viz napˇr. [10], resp. [9].11 Pro mnoh´e prakticky orientovan´e u ´koly (napˇr. kontrola gramatick´e spr´avnosti, budov´ an´ı syntakticky anotovan´eho korpusu) je ovˇsem vhodn´e reprezentovat kaˇzd´e slovo vˇety vlastn´ım uzlem (tedy nejen slova plnov´ yznamov´ a); aby byl zachov´ an zaveden´ y datov´ y typ z´ avislostn´ıho stromu, je potˇreba urˇcit dodateˇcn´a pravidla, na jejichˇz z´akladˇe se i redukˇcn´ı komponenty pˇrevedou na podstromy, tj. je nutn´e urˇcit, kter´e slovo form´emu se bude urˇcovat jako ˇr´ıd´ıc´ı a kter´e/´a jako druhotnˇe z´avisl´e/´a (vybran´e ˇr´ıd´ıc´ı slovo budeme pro jednoduchost oznaˇcovat jako ,hlava‘, stejnˇe jako u endocentrick´ ych konstrukc´ı). Takov´ a pravidla jsou obvykle technick´eho charakteru a mohou se v jednotliv´ ych projektech liˇsit (na obr´ azku 8 je ˇreˇsen´ı pˇrijat´e v Praˇzsk´em z´avislostn´ım korpusu, PDT). ad (b) Druh´ ym typem vztah˚ u, kter´e jsou modelov´ any redukˇcn´ımi komponentami, jsou syntakticko-s´emantick´e vztahy. Jsou to zejm´ena valenˇ cn´ı vztahy – vztahy slovesa, resp. podstatn´eho jm´ena, pˇr´ıdavn´eho jm´ema ˇci pˇr´ıslovce a jeho povinn´ ych valenˇcn´ıch doplnˇen´ı. Jde tedy o konstrukce typu studenti dˇelali zkouˇslu, kursem proˇsli studenti, maminka povˇedˇela dˇetem poh´ adku, kr´ al zemˇrel, Petr ˇcetl (o neˇstˇest´ı), rodiˇce ˇcekali (na dˇeti), (na pˇredn´ aˇsku) pˇriˇsli studenti, zaˇc´ atek pˇredn´ aˇsky, z´ avisl´y (na poˇcas´ı), kolmo (na z´ akladnu)12 . Tyto konstrukce (b´ yvaj´ı charakterizov´ any jako exocentrick´e konstrukce) nelze beze ztr´aty v´ yznamov´e samostatnosti, princip DAR (d), nahradit jedn´ım slovem, ,hlavou‘ konstrukce. Valenˇcn´ı vztahy tradiˇcn´ı lingvistika zachycuje pomoc´ı z´avislostn´ıho stromu (viz [9], kde se vych´ az´ı z [10]). Teoretick´ ym krit´eriem pro urˇcen´ı rozv´ıjen´eho a rozv´ıjej´ıc´ıho vˇetn´eho ˇclenu se stal princip analogie, kter´ y zde byl kr´ atce pops´an v pˇredchoz´ıch odstavc´ıch. Na z´akladˇe tohoto krit´eria stanovujeme tak´e pravidla pro urˇcen´ı ˇr´ıd´ıc´ıho slova pˇri pˇrevodu redukˇcn´ı struktury na z´ avislostn´ı strom: sloveso urˇcujeme jako ˇr´ıd´ıc´ı vˇetn´ y ˇclen, slovesn´a doplnˇen´ı jako jeho slova z´ avisl´a; obdobnˇe pro podstatn´ a jm´ena, pˇr´ıdavn´ a jm´ena a pˇr´ıslovce a jejich doplnˇen´ı. Poznamenejme, ˇze princip analogie zde lze jednoduˇse nahradit uvolnˇen´ım poˇzadavku (d) na zachov´ an´ı v´ yznamov´e samostatnosti bˇehem DAR. 11
12
V tˇechto pojet´ıch jsou reprezentov´ ana samostatn´ ym uzlem pouze slova plnov´ yznamov´ a (zejm´ena v´ yznamov´ a slovesa, podstatn´ a jm´ena, pˇr´ıdavn´ a jm´ena a pˇr´ıslovce). Z´ avorkou zde pracovnˇe vyznaˇcujeme form´emy, viz bod (a).
kr´ al
zemˇrel
>
-
zemˇrel
kr´ al studenti
dˇelali
zkouˇsku
-
dˇelali
>
studenti
Z } Z
Z
zkouˇsku
Obr´ azek 9. Pˇrevod valenˇcn´ıch vztah˚ u na z´ avislostn´ı podstrom.
5
Z´ avˇ ereˇ cn´ e pozn´ amky
DAR dovoluje formulovat vztah z´ akladn´ıch syntaktick´ ych jev˚ u: z´ avislosti a slovosledu. To je nepostradateln´e zejm´ena pro modelov´ an´ı skladby jazyk˚ u s bohatou flex´ı a voln´ ym slovosledem, kde z´avislost a slovosled souvisej´ı velmi volnˇe a u jednotliv´ ych n´ arodn´ıch jazyk˚ u dosti odliˇsnˇe (srovnejme s angliˇctinou, kde z´ avislosti urˇcuje (hlavnˇe) velmi striktn´ı slovosled). Uk´ azali jsme, ˇze z´avislosti odvozujeme ze dvou r˚ uzn´ ych, nepˇrekr´ yvaj´ıc´ıch se, jednoduˇse pozorovateln´ ych, jazykovˇe nez´avisl´ ych jev˚ u: z redukˇcn´ıch z´avislost´ı a redukˇcn´ıch komponent. Pouk´ azali jsme na to, ˇze lingvistick´ a taxonomie jazykov´ ych jev˚ u (ˇcesk´a) tomuto rozkladu (rozdˇelen´ı) odpov´ıd´ a. Pˇribl´ıˇzili jsme tak lingvistick´ y a informatick´ y (mnoˇzinov´ y) pohled na danou problematiku.
Reference 1. Hajiˇc, J. 1998. Building a Syntactically Annotated Corpus: The Prague Dependency Treebank. In: Issues of Valency and Meaning. Studies in Honour of Jarmila Panevov´ a (ed. E. Hajiˇcov´ a), Karolinum, CU Press, Prague, pp. 106-132. 2. Holan, T., Kuboˇ n, V., Oliva, K., Pl´ atek, M. 2000. On Complexity of Word Order. In: Les grammaires de d´ependance - Traitement automatique des langues (TAL), Vol. 41, No. 1 (q.ed. S. Kahane), pp. 273-300. 3. Janˇcar, P, Mr´ az, F., Pl´ atek, M., Vogel, J. 1999. On Monotonic Automata with a Restart Operation. Journal of Automata, Languages and Combinatorics, Vol. 4, No. 4, pp. 287-311. 4. Kunze, J. 1975. Abh¨ angigkeitsgrammatik. Volume XII of Studia Grammatica, Akademie Verlag, Berlin. 5. Lopatkov´ a, M. 2003. Valency in the Prague Dependency Treebank: Building the Valency Lexicon. In: PBML 79-80, pp. 37-59. ˇ 6. Lopatkov´ a, M., Zabokrtsk´ y, Z., Skwarska, K., Beneˇsov´ a, V. 2001. Tektogramaticky anotovan´ y valenˇcn´ı slovn´ık ˇcesk´ ych sloves. UFAL/CKL, TR-2002-15. 7. Panevov´ a, J. 1980. Formy a funkce ve stavbˇe ˇcesk´e vˇety. Academia, Praha. 8. Pl´ atek, M., Lopatkov´ a, M., Oliva, K. 2003. Restarting Automata: Motivations and Applications. In: Proceedings of the workshop ”Petrinetze” (ed. Holzer, M.), Technische Universit¨ at M˝ unchen, pp. 90-96. 9. Sgall, P., Hajiˇcov´ a, E., Panevov´ a, J. 1986. The Meaning of the Sentence in Its Semantic and Pragmatic Aspects (ed. by J. Mey), Prague:Academia. ˇ 10. Smilauer, V. 1958. Uˇcebnice vˇetn´eho rozboru. Skripta FF UK, SPN, Praha.