Po íta ové zpracování p irozeného jazyka
Lingvistická terminologie Daniel Zeman http://ckl.mff.cuni.cz/~zeman/
Slovní druhy slovní druh
part of speech
podstatné jméno
substantivum
noun
p ídavné jméno
adjektivum
adjective
zájmeno
pronomium
pronoun
íslovka
numeralium
numeral
sloveso
verbum
verb
p íslovce
adverbium
adverb
p edložka
prepozice
preposition
spojka ástice citoslovce
conjunction partikule
particle
interjekce
interjection
len 4.11.1999
determiner, article http://ckl.mff.cuni.cz/~zeman/
2
Rody a ísla rod mužský
gender maskulinum
neživotný
masculine inanimate
ženský
femininum
feminine
st ední
neutrum
neuter
íslo
numerus
number
jednotné
singulár
singular
dvojné
duál
dual
množné
plurál
plural
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
3
Pády a osoby pád
case
1.
nominativ
nominative
2.
genitiv
genitive
3.
dativ
dative
4.
akuzativ
accusative
5.
vokativ
vocative
6.
lokál
local
7.
instrumentál
instrumental
osoba
person
1.
1st
2.
2nd
3.
3rd
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
4
asy, vidy, zp soby as
tense
p ítomný
prézens
present
minulý
préteritum
past
budoucí
futurum
future
neur itek
infinitiv
infinitive
vid
aspect
dokonavý
perfektum
perfect
nedokonavý
imperfektum
imperfect
zp sob
modus
mode
oznamovací
indikativ
indicative
rozkazovací
imperativ
imperative
podmi ovací
kondicionál
conditional
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
5
Slovesné rody, v tné zp soby, stupn , zápory slovesný rod
voice
inný
aktivní
active
trpný
pasivní
passive
tázací (zájmeno, v ta…)
interrogativum
interrogative
(ne)ur itý
(in)definite
zápor
negativeness
kladný
afirmativ
affirmative
záporný
negativ
negative
stupe
degree (of comparison)
1.
pozitiv
positive
2.
komparativ
comparative
3.
superlativ
superlative
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
6
V tné leny p ísudek
predikát
predicate
podm t
subjekt
subject
p edm t
objekt
object
p íslove né ur ení
adverbiale
adverbial
p ívlastek
atribut
attribute
p echodné sloveso
tranzitivní verbum
transitive verb
nep echodné sloveso
intranzitivní verbum
intransitive verb
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
7
Po íta ové zpracování p irozeného jazyka
Roviny zpracování p irozeného jazyka Daniel Zeman http://ckl.mff.cuni.cz/~zeman/
Popis jazyka • Gramatika – soubor pravidel, popisujících, co je v jazyce p ípustné
• Klasické gramatiky – ur eny lidem, kte í daný jazyk znají – definice a pravidla na základ p íklad – (skoro) žádné nástroje pro formalizaci; nelze naprogramovat
• Explicitní gramatiky (CFG, HPSG, závislostní gramatiky, spojové gramatiky, …) – formální popis – lze naprogramovat a testovat na datech (textech) 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
9
Jazykové roviny – – – – – –
pragmatika (znalost sv ta…), logika aj., meziv tné vztahy… sémantika (hloubková syntaxe, význam) syntaxe (povrchová) morfologie fonologie, morfonologie fonetika / pravopis
syntéza
analýza
• Základní roviny, vícemén spole né všem teoriím
• Každá rovina má vstupní a výstupní reprezentaci – výstup z nižší roviny je vstup do následující vyšší roviny – n kdy je vhodné n které roviny dále rozd lit, nebo naopak slou it i p esko it 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
10
Vztahy mezi rovinami vyšší rovina
jednoduchý
C
složený
R
nižší rovina Nižší je formou vyššího. Vyšší je funkcí nižšího. Shora dol = od významu k výrazu. 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
11
Fonetická rovina • Vstup: – akustický signál
• Výstup: – posloupnost fón (zvuk — vektor r zných charakteristik, rys , které lze vysledovat ve vstupním signálu)
• Obsah: – základní: charakteristiky (nap . délka samohlásky); silový slabi ný p ízvuk, tóny, délka samohlásek – složené: fóny (kombinace hodnot) zapsané fonetickou abecedou – suprasegmentální: intonace (v tný p ízvuk) – klasifikace hlásek ve vztahu k tvaru a pozici jazyka apod. 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
12
Fonetická rovina rys 2
rys 3
Cp Cp
rys 1
fonetika
Cp fón
s b a
k o u
akustický signál
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
13
Fonetická rovina • „Nelingvistická“ rovina. Nejde o funkci a formu, pouze o konverzi akustického signálu na adu charakteristik: – – – – –
samohláska / souhláska dlouhá / krátká tón vysoký / nízký / klesající / … zn lá / nezn lá nosová / nenosová
• Ne všechny zjišt né rozdíly jsou v daném jazyku relevantní. Tedy: ne všechny mají funkci. Ty, které ji mají, nazýváme distinktivní rysy. 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
14
P íklad: distinktivní rysy • Zn lost je v eštin distinktivní rys: t i – d i. Odlišuje r zné hlásky, zde t/d. • Podobn v angli tin je distinktivní rys i rozdíl mezi n a ng: thin (tenký) – thing (v c). • Tento rozdíl však není distinktivním rysem v eštin : rána – ranka. Nejde o dv hlásky, ale o dv pozi ní varianty jedné hlásky! • V n m in je distinktivní rys rozdíl mezi ü a ie: Abfahrt der Züge (odjezd vlak ) – Abfahrt der Ziege (odjezd kozy). V eštin tento rozdíl neodlišuje dv hlásky, pro nás je obojí i. 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
15
Fonologická rovina • Vstup: – posloupnost fón zapsaných ve fonetické abeced
• Výstup: – posloupnost hlásek (foném — zvuk majících „význam“ (funkci), zapsaných písmeny abstraktní abecedy — t eba podmnožiny té fonetické)
• Obsah: – základní: distinktivní rysy – složené: hlásky (fonémy) – vztah R mezi fóny a fonémy (jednotky, které mohou mít n jakou funkci na vyšší rovin ) 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
16
Fonologická rovina distinktivní rys 3 distinktivní Cp Cp rys 2 distinktivní rys 1
Cp
fonologie fonetika
4.11.1999
foném
s b a n k o u
R s b a
http://ckl.mff.cuni.cz/~zeman/
k o u
17
Fonologická rovina • Žádné složené struktury, jen jednoduché symboly. • Krom symbol , které popisují ur itý úsek výpov di a jdou za sebou, i takové, které se vztahují k celé posloupnosti úsek : v tná intonace. • I u v tné intonace pouze takové rysy, které v daném jazyce rozlišují význam.
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
18
Pravopisná rovina • Vstup: – text (posloupnost písmen — grafém — symbol abecedy konkrétního jazyka)
• Výstup: – posloupnost symbol abstraktní abecedy, použitelná na fonologické rovin
• Obsah: – normalizace, interpunkce, konce slov a v t
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
19
Pravopisná rovina fonémy fonologie pravopis
j a b l o
e
R j a b l o n
grafémy 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
20
Nestejná informace v psaném a mluveném vstupu
fonologie pravopis
4.11.1999
v i l y
R
v i/y l i/y
R v i l y
v i l i
http://ckl.mff.cuni.cz/~zeman/
fonetika
21
Opa ný p ípad: stejný zápis, jiná výslovnost
fonologie pravopis
4.11.1999
r e d r í d
R
r í d
R r e a d
r í d
http://ckl.mff.cuni.cz/~zeman/
fonetika
22
Opa ný p ípad: stejný zápis, jiná výslovnost
fonologie
k u t u b k a t a b
knihy psát
R
pravopis
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
23
Morfonologická rovina • Vstup: – posloupnost foném zapsaných v abstraktní abeced
• Výstup: – posloupnost morfoném
len ná do morf
• Obsah: – – – –
4.11.1999
základní prvky: morfonémy složené prvky: morfy morfoném víc než foném : vedle k|c| nadále existuje i k, c a morfy = kmeny a afixy (= koncovky, ale i p edpony, p ípony a infixy)
http://ckl.mff.cuni.cz/~zeman/
24
Morfonologická rovina morf
morfoném
Cs
mat(k|c| ) a
morfonologie fonologie
4.11.1999
m a t k|c|
…
R m a t k a m a t c e m a t i n
http://ckl.mff.cuni.cz/~zeman/
25
Morfematická rovina • Vstup: – posloupnost morf
• Výstup: – posloupnost slovních tvar spolu s lexikální (významovou) a gramatickou informací
• Obsah: – základní prvek: séma (lexikální nebo gramatické) – složený prvek: morfém (lexikální / gramatický (sklo ovací / asovací)) – složený prvek: formém – nejen ohýbání, ale i odvozování a skládání 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
26
Morfematická rovina Cs
[k,R3] ([zdravý,A(M|N)S33N])
morfematika morfonologie
sémata
formém
morfémy
rod = M|N íslo = S pád = 3
Cp
k nej ne zdrav
jší mu
k nej ne zdrav
jší mu
R
morfy
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
27
Morfematická rovina • Formém zhruba odpovídá slovnímu tvaru, ale po morfologické analýze jde hlavn o dvojici [lemma, zna ka]. • Morfémy jsou lexikální (nap . kmen „zdrav“) a gramatické (nap . koncovka „ jší“). • Sémata jsou lexikální (nap . kmen „zdrav“, slovní druh „p ídavné jméno“, „zájmeno osobní“) a gramatická (nap . „mužský rod“, „3. stupe “). • Morfém n kdy ~ 1 séma (aglutina ní jazyky), ast ji více sémat. 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
28
Odvozování × ohýbání • Odvozování slov je spolu s ohýbáním sou ástí morfologie. • N které pravidelné zp soby odvozování lze stejn jako sklo ování, asování apod. ešit automaticky: – d lat → ud lat, p ed lat, dod lat, odd lat, prod lat, vyd lat, zad lat, p id lat, pod lat… — sta í vyjmenovat povolené p edpony. – d lat → d lávat, d lání, d lající, ud lavší, ud laný, d lný, d lník → d lník v, d lnický, d lnice; dílo, dílna → dílnový… – u it → u itel, ale ne d lat → *d latel, ani u it → *u itník! (u edník ano, ale význam je jiný než u „d lník“)
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
29
Syntaktická (povrchová) rovina • Vstup: – posloupnost formém (obvykle [lemma, zna ka])
• Výstup: – v tná struktura (strom) s ozna ením v tných vztah
• Obsah: – – – –
4.11.1999
základní prvek: tagmém (v tný len) složený prvek: syntagmém (v ta: strom + povrchový slovosled) vztah mezi morfologickými kategoriemi a v tnou strukturou syntaktické kategorie (podm t, p ísudek, p edm t…)
http://ckl.mff.cuni.cz/~zeman/
30
Syntaktická rovina p ísudek
syntagmém p edm t p edm t p ívlastek
tagmémy syntaxe
psát dopis sv j VPS3A NIS4A PSRMS3
. Z
…
…
R
morfematika … 4.11.1999
p ítel NMS3A
…
…
http://ckl.mff.cuni.cz/~zeman/
31
Syntaktická rovina • Tagmém je v tný len, tedy nejen slovo, ale t eba i n kolik slov: „v dom “, „d lal jsem“. • Nepraktické: uzel stromu by musel být strukturovaný, aby uchoval informace o více slovech — protože nechceme zapomenout informaci z nižších rovin.
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
32
Sémantická (tektogramatická, hloubková) rovina • Vstup: – v tná struktura (strom) s pojmenováním vztah
• Výstup: – rovn ž stromová struktura, ale: hloubkové funkce, odstran ná pomocná slova
• Obsah: – základní prvek: sémantém (odpovídá tagmému) • sémoglyf (lexikální sémantém: synonyma jedním symbolem, syntaktické odvozeniny (nominalizace)) • typ dopln ní (sémantický v tný len)
– složený prvek: propozice (strom, hloubkový slovosled) – vztah mezi povrchovými kategoriemi jako „podm t“, „p edm t“ a 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 33 hloubkovými kategoriemi jako „konatel“, „trpitel“
Sémantická rovina žít, V, F 23 (v)
slu ovací Jana, N, T
36
bratr, N, T 35
ona, PP, T
založit, V, F 3
jenž, WH, T
Praha, N, F 30
rodina, N, F
Jana a její bratr, jež založili rodinu, žijí v Praze. 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
34
Sémantická rovina • Koordinace – pom r slu ovací (a, i, ani, nebo) – pom r odporovací (ale, avšak, nýbrž) – pom r vylu ovací (bu -nebo)
• Koreference – n co jako shoda podm tu s p ísudkem, ale na jiné úrovni (na dlouhé vzdálenosti) – zvratné zájmeno
• Hloubkové × povrchové funkce: „Pavel vid l Petra.“ „Petr byl vid n Pavlem.“ 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
35
Aktuální len ní v ty • V ta se d lí na téma (základ, východisko, topic) a réma (jádro, ohnisko, focus). – Východisko: to, co už víme. – Ohnisko: to, co o tom známém nového sd lujeme.
• Podrobn jší len ní: kontextová zapojenost len frází: východisko je kontextov zapojené, ohnisko je kontextov nezapojené. • V rámci východiska nebo ohniska se leny adí do tzv. systémového slovosledu daného daným jazykem. • Dohromady jde o hloubkový slovosled (× povrchový). 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
36
Rovina diskurzu • Vstup: – posloupnost v t (propozic) pat ících k sob (nap . jeden lánek) = diskurz
• Výstup: – diskurz s vy ešenými meziv tnými vztahy
• Obsah: – nap . anafora, katafora: „Pavel p išel po desáté. Dala jsem mu ve e i.“
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
37
Pragmatická (logická) rovina • Vstup: – hloubková struktura v ty (propozice)
• Výstup: – logická forma, která m že být vyhodnocena (pravda/nepravda)
• Obsah: – – – –
p i azení objekt reálného sv ta uzl m v tné struktury mimolingvistický obsah: znalost sv ta („o i barvy nebe“) kvantif. („mnoho knih te málo lidí“ × „mnoho lidí te málo knih“) nap íklad (já/Sg/Pat/t (vid t(Past/Pred/t) babi ka/Sg/Ag/f) ~ vid t(babi ka-BN[SSN:…],N mcová[SSN:…])[ as:p ed 26.10.2004 21:32][místo:mezi (50°20’00”N15°30’00”E,51°00’00”N16°30’20”E)]
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
38
Teorie a praxe • N které roviny jsou zbyte n podrobn len né, aniž to konkrétní aplikace pot ebuje: nap . skládání morfoném , pravopisná pravidla e = d apod. lze ešit najednou. • N které roviny lze n kdy vypustit, nap . asto máme text a fonetické problémy odpadnou. • N která len ní p inášejí technické obtíže, nap . u syntaktických strom je lepší pracovat se slovy než s formémy.
4.11.1999
http://ckl.mff.cuni.cz/~zeman/
39
Zjednodušený systém rovin • tektogramatická – hloubkový slovosled (aktuální len ní) – koordinace – koreference, dopln ní vypušt ných len , spojování len
• analytická (syntaktická) – posloupnost dvojic → stromová struktura
• morfologická – slovní tvar → dvojice [lemma, zna ka]
• p edzpracování – posloupnost znak (písmen) → posloupnost slov (a interpunkce) 4.11.1999
http://ckl.mff.cuni.cz/~zeman/
40