Počítačové zpracování přirozeného jazyka
Slovníky a morfologická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/
Slovník • Zásobárna informací o slovech – Morfologie • vzory ohýbání, pravidelné odvozování (zdrobněliny, přídavná jména slovesná…)
– Syntaxe • slovní druh • vztah k ostatním slovům: subkategorizace (neboli „povrchové valenční rámce“)
– Sémantika • významové rysy • valenční rámce se sémantickými rolemi
– … a cokoli dalšího, například překlad 18.11.1999
http://ufal.mff.cuni.cz/course/popj1
2
Slovní druhy (parts of speech) • Čeština – – – – – – – – – –
N A P C V D R J T I
18.11.1999
• Jiné podstatná jména přídavná jména zájmena číslovky slovesa příslovce předložky spojky částice citoslovce
– Z zvláštní (např. interpunkce) – X neznámé slovo – Člen (např. angličtina) – Wh-slovo (tázací / vztažné zájmeno či příslovce – např. angličtina: who, what, which, how, … – Počítací slovo (čínština)
http://ufal.mff.cuni.cz/course/popj1
3
Slovní druhy • Seznam slovních druhů (anglicky part of speech) je ve většině jazyků celkem podobný. • Jde o sémanticko-syntaktickou, ne morfologickou kategorii, ale určuje, které morf. kat. jsou relevantní. • Syntakticky vymezené druhy (podle vztahů ve větě) – Slovesa, podstatná jména, přídavná jména, příslovce, předložky, spojky, členy, wh-slova. Případně i citoslovce.
• Druhy vymezené jinak – Zájmena (syntakticky N, A, někdy se zvláštní funkcí – Wh) – Číslovky (syntakticky A, N, Adv) – Částice (to, co se nevešlo jinam) 18.11.1999
http://ufal.mff.cuni.cz/course/popj1
4
Slovní druhy • Otevřené kategorie (přijímají nová slova) – slovesa, podstatná jména, přídavná jména, příslovce, (citoslovce) – odvozování slov napříč kategoriemi
• Uzavřené kategorie (slova lze vyjmenovat) – zájmena, (předložky), spojky, částice, číslovky (matematicky neomezené, ale lingvisticky ano) – nejsou podkladem pro odvozování slov
18.11.1999
http://ufal.mff.cuni.cz/course/popj1
5
Sady značek • Obecná definice: – značka … (k1,k2,…,kn) – na sadu značek se často pohlíží jako na prostý seznam T = {ti}i=1..n přičemž se předpokládá vzájemně jednoznačné zobrazení T ↔ (K1,K2,…,Kn)
• Angličtina – Penn TreeBank (45) (VBZ: Verb,Pres,3,sg, JJR: Adj. Comp.) – Brown Corpus (87), Claws c5 (62), London-Lund (197)
18.11.1999
http://ufal.mff.cuni.cz/course/popj1
6
Sady značek • Rozdíly v různých korpusech a jazycích: – – – –
velikost (10 až 10000) pokryté kategorie (slovní druh, číslo, negace, …) míra podrobnosti rozpracování podoba (krátké identifikátory × dlouhé „poziční značky“)
• Čeština – – – – 18.11.1999
poziční značky PDT kompaktní (starší) značky PDT MULTEXT-EAST (Orwell 1984, paralelní korpus) Majka (FI MU Brno) http://ufal.mff.cuni.cz/course/popj1
7
Co všechno by měla kódovat morfologická značka pro češtinu? • Informace z morfologické značky by měla umožňovat vytvořit z lemmatu příslušný tvar slova. • Pokud je to nutné, může kromě morfologických informací obsahovat i lexikální, sémantické (slovní druh?) • Extrém 1: každý slovní tvar je „lemma“. Morfologie je nulová, lemma je samo svojí značkou. • Extrém 2: značka obsahuje detailní sémantické zařazení slova, takže lemma už není potřeba.
18.11.1999
http://ufal.mff.cuni.cz/course/popj1
8
Poziční značky PDT (Pražského závislostního korpusu) slovní druh poddruh
vnitřní vnitřní slovesný rod číslo zápor rod
AGFS3----1A---rod číslo pád osoba čas stupeň odstín
18.11.1999
http://ufal.mff.cuni.cz/course/popj1
9
Rod M
mužský životný
Y
M nebo I
I
mužský neživotný
T
I nebo F
F
ženský
W
I nebo N
N
střední
X
neznámý
18.11.1999
H, Q F nebo N Z
M, I nebo N
http://ufal.mff.cuni.cz/course/popj1
10
Číslo
18.11.1999
S
jednotné (singulár)
D
dvojné (duál)
P
množné (plurál)
X
neznámé http://ufal.mff.cuni.cz/course/popj1
11
Pád 1 2 3 4 5 6 7 X 18.11.1999
nominativ genitiv dativ akuzativ vokativ lokál instrumentál neznámý http://ufal.mff.cuni.cz/course/popj1
12
Stupeň, zápor, osoba • Stupeň přídavných jmen a příslovcí: – 1, 2 (komparativ), 3 (superlativ)
• Zápor (u V, A, D a taky N): – A (afirmativ), N (negativ)
• Osoba sloves a zájmen: – 1, 2, 3
18.11.1999
http://ufal.mff.cuni.cz/course/popj1
13
Slovesný čas, rod a způsob • Mění relevanci ostatních kategorií (jako je osoba a číslo) ⇒ zacházet s nimi jako se slovním (pod-) druhem. • Čas: přítomný (P), minulý (M), budoucí (F) • Rod: činný (aktivum A), trpný (pasivum P) • Způsob: oznamovací (N), rozkazovací (R), podmiňovací (C – např. bych)
18.11.1999
http://ufal.mff.cuni.cz/course/popj1
14
Stylová či jiná odchylka 1 jiná varianta, méně častá 2 jiná varianta, velmi řídká, zastaralá nebo knižní 3 velmi zastaralá, popř. hovorová varianta 5 hovorová, tolerovaná v mluv. i psaném projevu 6 hovorová, nevhodná v psaném projevu 7 hovorová jako 6, ale méně preferovaná mluvčími 9 zvláštní použití (např. po jistých předložkách) 18.11.1999
http://ufal.mff.cuni.cz/course/popj1
15
Sada značek Penn TreeBanku 1. CC coord. conj. 2. CD cardinal number 3. DT determiner 4. EX existential there 5. FW foreign word 6. IN preposition or subord. conjunction 7. JJ adjective 8. JJR adj, comparative 9. JJS adj, superlative
18.11.1999
10. LS list item marker 11. MD modal 12. NN noun, singular/mass 13. NNS noun, plural 14. NNP proper noun, sing. 15. NNPS proper noun, pl. 16. PDT predeterminer 17. POS possessive ending 18. PRP personal pronoun 19. PRP$ poss. pronoun
http://ufal.mff.cuni.cz/course/popj1
16
Sada značek Penn TreeBanku 20. RB adverb 21. RBR adv, comparative 22. RBS adv, superlative 23. RP particle 24. SYM symbol 25. TO to 26. UH interjection 27. VB verb, base (do) 28. VBD verb, past (did) 29. VBG verb, gerund or pres. participle (doing)
18.11.1999
30. VBN verb, past participle
(done) 31. VBP verb, non-3rd pers. sing. present (do) 32. VBZ verb, 3rd pers. sing. present (does) 33. WDT wh-det. (which?) 34. WP wh-pronoun (who) 35. WP$ possessive whpronoun (whose) 36. WRB wh-adv. (where) 37. . period…
http://ufal.mff.cuni.cz/course/popj1
17
Universal POS Tags http://universaldependencies.org/u/pos/index.html • • • • • •
NOUN PROPN (proper noun) VERB ADJ (adjective) ADV (adverb) INTJ (interjection)
22.10.2010
• • • • • • • • • • •
PRON (pronoun) DET (determiner) AUX (auxiliary) NUM (numeral) ADP (adposition) SCONJ (subordinating conj.) CONJ (coordinating conj.) PART (particle) PUNCT (punctuation) SYM (symbol) X (unknown)
http://ufal.mff.cuni.cz/course/npfl094
18
Universal Features http://universaldependencies.org/u/feat/index.html • • • •
PronType (druh zájmena) NumType (druh číslovky) Poss (přivlastňovací) Reflex (zvratné)
• • • • • •
Gender (rod) Animacy (životnost) Number (číslo) Case (pád) Definite(ness) (určitost) Degree (stupeň)
22.10.2010
• • • • • • •
VerbForm (slovesný tvar) Mood (způsob) Tense (čas) Aspect (vid) Voice (slovesný rod) Person (osoba) Negative(ness) (zápor)
http://ufal.mff.cuni.cz/course/npfl094
19
Morfologická analýza a syntéza • Formálně: Zobrazení, které každému slovu (slovnímu tvaru) přiřadí dvojici lemma – značka, nebo množinu takových dvojic. • Veškerá informace o slovním tvaru je ve značce. • Z dvojice lemma – značka lze jednoznačně dostat slovní tvar (= morfologická syntéza). 18.11.1999
http://ufal.mff.cuni.cz/course/popj1
20
Morfologie • A … abeceda grafémů, A+ je např. slovo • L ⊆ 2A+ … slovník lemmat (lemma = základní, heslový tvar) – lemma l ∈ L
• Ki … i-tá morfologická kategorie – kategorie je množina hodnot. – např. Krod = {M, I, F, N}
• T ⊆ K1×…×Kn = sada morfologických značek – v angličtině part-of-speech tag set, obvykle n=1; u nás např. n=15 – značka t = (k1, …, kn) ∈ T, ki je hodnota i-té kategorie 18.11.1999
http://ufal.mff.cuni.cz/course/popj1
21
Morfologická analýza a značkování • Analýza: • Syntéza: • Značkování: resp.
A+ → 2(L, T)
(L, T) → A+ A+ → (L, T) 2(L, T), Kontexty → (L, T)
• Značkování (tagging) je zjednoznačnění morfologické analýzy. • Může být ruční nebo automatické ((pos)taggerem). 18.11.1999
http://ufal.mff.cuni.cz/course/popj1
22
Příklady značkování • Slovní tvar A+ → 2(L,K1,…,Kn) → T – Vysušený kámen se pokryl bílou solí. • morfologická analýza: solí → {(sůl, podstatné-jméno, pád-7, číslojednotné), (solit, sloveso, číslo-jednotné, čas-přítomný, osoba-3)} • značkování (zjednoznačnění): … → (sůl, podstatné-jméno, …)
– He always books the tickets early. • morfologická analýza: books → {(book-1, podstatné-jméno, číslomnožné), (book-2, sloveso, číslo-jednotné, čas-přítomný)} • značkování: … → (book-2, sloveso, číslo-jednotné, čas-přítomný)
– [napodzim] [dozraje] [slatkí] [plot] • m.a.: [plot] → {(plot, pád-1), (plod, pád-1), (plot, pád-4), …} • značkování: … → (plod, pád-1) 18.11.1999
http://ufal.mff.cuni.cz/course/popj1
23
Lemmatizace • Opakování: lemma l∈L je lexikální jednotka (slovníkové heslo). Bývá reprezentováno základním tvarem slova, ale zrovna tak by to mohl být číselný odkaz. • Úplná morfologická analýza MA: A+ → 2(L,K1,K2,…,Kn)
• Lemmatizace je částečná morfologická analýza – LA: A+ → 2L (w → {l; (l,t1,t2,...,tn)∈MA(w)}) – chceme však A+ → L, takže opět musíme zjednoznačňovat (speciální případ rozlišování významu slov, WSD) – „klasické“ značkování se lemmatizací nezabývá (předpokládá, že se nějak provede později) 18.11.1999
http://ufal.mff.cuni.cz/course/popj1
24