PA153 Poˇc´ıtaˇcov´e zpracov´an´ı pˇrirozen´eho jazyka 04 – S´emantika I (reprezentace lexik´aln´ıho v´yznamu)
Karel Pala, Zuzana Nevˇeˇrilov´a Centrum ZPJ, FI MU, Brno
19. ˇr´ıjna 2016
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
1 / 34
1
Lexik´aln´ı v´yznam
2
Slovn´ıkov´e heslo
3
Nalezen´ı v´yznamu v kontextu Algoritmy lexik´aln´ı desambiguace
4
Popis lexik´aln´ıch v´yznam˚ u pro ZPJ S´emantick´e primitivy S´emantick´e tˇr´ıdy Teorie prototyp˚ u
5
Shrnut´ı
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
2 / 34
Lexik´aln´ı v´yznam
lexik´aln´ı v´yznam (lexical meaning): izolovan´y v´yznam slova [Oxford Dictionaries, 2013] bez ohledu na v´yznam vˇety, ve kter´e se slovo nach´az´ı bez ohledu na gramatick´e kategorie
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
3 / 34
Lexik´aln´ı v´yznam
lexik´aln´ı v´yznam (lexical meaning): izolovan´y v´yznam slova [Oxford Dictionaries, 2013] bez ohledu na v´yznam vˇety, ve kter´e se slovo nach´az´ı bez ohledu na gramatick´e kategorie jin´e v´yznamy: gramatick´y v´yznam, v´yznam slov a v´yznam vˇet
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
3 / 34
Lexik´aln´ı v´yznam
lexik´aln´ı v´yznam (lexical meaning): izolovan´y v´yznam slova [Oxford Dictionaries, 2013] bez ohledu na v´yznam vˇety, ve kter´e se slovo nach´az´ı bez ohledu na gramatick´e kategorie jin´e v´yznamy: gramatick´y v´yznam, v´yznam slov a v´yznam vˇet kuˇre – kuˇrata frekvence – kmitoˇcet Pan profesor bˇeˇz´ı na tramvaj. Gepard bˇeˇz´ı za koˇrist´ı.
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
3 / 34
2016-10-19
PA153 Zpracov´an´ı pˇrirozen´eho jazyka Lexik´aln´ı v´yznam
Lexik´aln´ı v´yznam
lexik´aln´ı v´yznam (lexical meaning): izolovan´y v´yznam slova [Oxford Dictionaries, 2013] bez ohledu na v´yznam vˇety, ve kter´e se slovo nach´az´ı bez ohledu na gramatick´e kategorie jin´e v´yznamy: gramatick´y v´yznam, v´yznam slov a v´yznam vˇet
Lexik´aln´ı v´yznam
kuˇre – kuˇrata frekvence – kmitoˇcet Pan profesor bˇeˇz´ı na tramvaj. Gepard bˇeˇz´ı za koˇrist´ı.
slova kuˇre a kuˇrata maj´ı tent´yˇz lexik´aln´ı v´yznam, ale rozd´ıln´y gramatick´y (singul´ar, plur´al) frekvence a kmitoˇcet jsou r˚ uzn´a slova, kter´a maj´ı tent´yˇz lexik´aln´ı (i gramatick´y a dokonce i dalˇs´ı) v´yznam bˇeˇzet m´a stejn´y v´yznam, pˇrestoˇze si pˇredstav´ıme celkem jinou ˇcinnost (styl, rychlost, ter´en)
Lexik´aln´ı forma a lexik´aln´ı v´yznam Lexik´aln´ı jednotka (lexical unit, LU) [Zikov´a, 2003]: reprezentov´ana lexik´aln´ı formou asociov´ana s urˇcit´ym lexik´aln´ım v´yznamem m´a urˇcit´e gramatick´e vlastnosti (napˇr. tranzitivn´ı sloveso) m˚ uˇze m´ıt urˇcit´e pragmatick´e vlastnosti (napˇr. j´a je pokaˇzd´e nˇekdo jin´y)
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
4 / 34
Lexik´aln´ı forma a lexik´aln´ı v´yznam Lexik´aln´ı jednotka (lexical unit, LU) [Zikov´a, 2003]: reprezentov´ana lexik´aln´ı formou asociov´ana s urˇcit´ym lexik´aln´ım v´yznamem m´a urˇcit´e gramatick´e vlastnosti (napˇr. tranzitivn´ı sloveso) m˚ uˇze m´ıt urˇcit´e pragmatick´e vlastnosti (napˇr. j´a je pokaˇzd´e nˇekdo jin´y)
LU se stejn´ym v´yznamem, ale jinou formou
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
4 / 34
Lexik´aln´ı forma a lexik´aln´ı v´yznam Lexik´aln´ı jednotka (lexical unit, LU) [Zikov´a, 2003]: reprezentov´ana lexik´aln´ı formou asociov´ana s urˇcit´ym lexik´aln´ım v´yznamem m´a urˇcit´e gramatick´e vlastnosti (napˇr. tranzitivn´ı sloveso) m˚ uˇze m´ıt urˇcit´e pragmatick´e vlastnosti (napˇr. j´a je pokaˇzd´e nˇekdo jin´y)
LU se stejn´ym v´yznamem, ale jinou formou synonymie (napˇr. ˇsalina, tramvaj, ˇsmirgl) LU se stejnou formou, ale jin´ym v´yznamem
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
4 / 34
Lexik´aln´ı forma a lexik´aln´ı v´yznam Lexik´aln´ı jednotka (lexical unit, LU) [Zikov´a, 2003]: reprezentov´ana lexik´aln´ı formou asociov´ana s urˇcit´ym lexik´aln´ım v´yznamem m´a urˇcit´e gramatick´e vlastnosti (napˇr. tranzitivn´ı sloveso) m˚ uˇze m´ıt urˇcit´e pragmatick´e vlastnosti (napˇr. j´a je pokaˇzd´e nˇekdo jin´y)
LU se stejn´ym v´yznamem, ale jinou formou synonymie (napˇr. ˇsalina, tramvaj, ˇsmirgl) LU se stejnou formou, ale jin´ym v´yznamem homonymie (napˇr. kolej)
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
4 / 34
Kde naj´ıt informace o lexik´aln´ım v´yznamu? Slovn´ık/lexikon/lexik´aln´ı datab´aze = soubor lexik´aln´ıch jednotek (LU)
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
5 / 34
Kde naj´ıt informace o lexik´aln´ım v´yznamu? Slovn´ık/lexikon/lexik´aln´ı datab´aze = soubor lexik´aln´ıch jednotek (LU) Slovn´ıky: jednojazyˇcn´e v´ykladov´e pˇrekladov´e souˇcasn´eho jazyka (synonym, zkratek, r´ym˚ u ...) terminologick´e historick´e etymologick´e speci´aln´ı (frekvenˇcn´ı, retrogr´adn´ı, valenˇcn´ı) ... strojovˇe ˇciteln´e slovn´ıky = machine readable dictionaries
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
5 / 34
Struktura slovn´ıkov´eho hesla
lexik´aln´ı forma gramatick´e vlastnosti definice kolokace pˇr´ıklady uˇzit´ı odvozen´e lexik´aln´ı formy (hn´ızdov´an´ı)
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
6 / 34
2016-10-19
PA153 Zpracov´an´ı pˇrirozen´eho jazyka Slovn´ıkov´e heslo
Struktura slovn´ıkov´eho hesla
lexik´aln´ı forma gramatick´e vlastnosti definice
Struktura slovn´ıkov´eho hesla
kolokace pˇr´ıklady uˇzit´ı odvozen´e lexik´aln´ı formy (hn´ızdov´an´ı)
ˇ kde nen´ı ˇz´adn´a odvozen´a forma, ale v SSC ˇ je bezov´y Uk´azka je ze SSJC, ˇ a bezinka. Pro jin´a slova je v SSC mnohem v´ıce odvozen´ych forem: kvˇet, kvˇeten, kvˇetena, kvˇet´ak, kvˇetenstv´ı, kvˇetina, kvˇetin´aˇc, kvˇetin´aˇrka, kvˇetin´aˇrstv´ı
Kolokace jako slovn´ıkov´e heslo pevn´e kolokace: zakopan´y pes, dev´ıtiocas´a koˇcka, slamˇen´y vdovec, New York, kˇr´ıˇzem kr´aˇzem, ad hoc poruˇsuj´ı princip kompozicionality samostatn´a slovn´ıkov´a hesla?
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
7 / 34
Kolokace jako slovn´ıkov´e heslo pevn´e kolokace: zakopan´y pes, dev´ıtiocas´a koˇcka, slamˇen´y vdovec, New York, kˇr´ıˇzem kr´aˇzem, ad hoc poruˇsuj´ı princip kompozicionality samostatn´a slovn´ıkov´a hesla? v NLP se pouˇz´ıv´a term´ın multiword expresion (MWE) je d˚ uleˇzit´e MWE identifikovat, napˇr. pro strojov´y pˇreklad: pevn´e MWE: zakopan´y pes vzory: vz´ıt
na h˚ ul
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
7 / 34
Slovn´ıkov´e definice a hyperonymie
Definice pomoc´ı synonym: bez = ˇseˇr´ık
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
8 / 34
Slovn´ıkov´e definice a hyperonymie
Definice pomoc´ı synonym: bez = ˇseˇr´ık
Definice klasick´a: bez = vysok´y keˇr s kvˇetenstv´ım drobn´ych naˇzloutl´ych kvˇet˚ u. . . [Havr´anek et al., 1960] genus proximum (nejbliˇzˇs´ı rod) differentia specifica (druhov´e rozd´ıly)
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
8 / 34
Slovn´ıkov´e definice a hyperonymie
Definice pomoc´ı synonym: bez = ˇseˇr´ık
Definice klasick´a: bez = vysok´y keˇr s kvˇetenstv´ım drobn´ych naˇzloutl´ych kvˇet˚ u. . . [Havr´anek et al., 1960] genus proximum (nejbliˇzˇs´ı rod) differentia specifica (druhov´e rozd´ıly)
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
8 / 34
Slovn´ıkov´e definice a hyperonymie
Definice pomoc´ı synonym: bez = ˇseˇr´ık
Definice klasick´a: bez = vysok´y keˇr s kvˇetenstv´ım drobn´ych naˇzloutl´ych kvˇet˚ u. . . [Havr´anek et al., 1960] genus proximum (nejbliˇzˇs´ı rod) differentia specifica (druhov´e rozd´ıly)
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
8 / 34
Slovn´ıkov´e definice a hyperonymie
Definice pomoc´ı synonym: bez = ˇseˇr´ık
Definice klasick´a: bez = vysok´y keˇr s kvˇetenstv´ım drobn´ych naˇzloutl´ych kvˇet˚ u. . . [Havr´anek et al., 1960] genus proximum (nejbliˇzˇs´ı rod) differentia specifica (druhov´e rozd´ıly) hyperonymie
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
8 / 34
Slovn´ıkov´e definice a hyperonymie
Definice pomoc´ı synonym: bez = ˇseˇr´ık
Definice klasick´a: bez = vysok´y keˇr s kvˇetenstv´ım drobn´ych naˇzloutl´ych kvˇet˚ u. . . [Havr´anek et al., 1960] genus proximum (nejbliˇzˇs´ı rod) differentia specifica (druhov´e rozd´ıly) hyperonymie
troponymie Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
8 / 34
2016-10-19
PA153 Zpracov´an´ı pˇrirozen´eho jazyka Slovn´ıkov´e heslo Slovn´ıkov´e definice a hyperonymie
Slovn´ıkov´e definice a hyperonymie
Definice pomoc´ı synonym: bez = ˇseˇr´ık
Definice klasick´a: bez = vysok´y keˇr s kvˇetenstv´ım drobn´ych naˇzloutl´ych kvˇet˚ u. . . [Havr´anek et al., 1960] genus proximum (nejbliˇzˇs´ı rod) differentia specifica (druhov´e rozd´ıly) hyperonymie
troponymie
klasick´e slovn´ıkov´e heslo vyˇzaduje pro porozumˇen´ı aspoˇ n nˇejakou znalost jazyka, tud´ıˇz je pro poˇc´ıtaˇcov´e zpracov´an´ı ne´ upln´e
Nalezen´ı v´yznamu v kontextu
nˇekdy (ve skuteˇcnosti velmi ˇcasto) jen se znalost´ı lexik´aln´ıho v´yznamu nevystaˇc´ıme ⇒ je tˇreba zn´at kontext
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
9 / 34
Nalezen´ı v´yznamu v kontextu
nˇekdy (ve skuteˇcnosti velmi ˇcasto) jen se znalost´ı lexik´aln´ıho v´yznamu nevystaˇc´ıme ⇒ je tˇreba zn´at kontext lexik´aln´ı desambiguace (Word Sense Disambiguation) funkce: (w , c) → s w ∈ W – mnoˇzina slov c ∈ C – mnoˇzina kontext˚ u s ∈ S – mnoˇzina v´yznam˚ u
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
9 / 34
ˇ [Lesk, 1986] Naivn´ı Lesk˚ uv algoritmus: list (SSJC) jeden ze z´akladn´ıch org´an˚ u rostlin, zprav. do plochy rozˇs´ıˇren´y a velmi r˚ uzn´ych tvar˚ u; lupen: kaˇstanov´y, dubov´y, javorov´y l.; velk´y, mal´y l.; drobn´e listy bor˚ uvˇc´ı; ˇsirok´e listy lip; zeln´e listy; f´ıkov´y l., pˇren. (ve v´ytv. d´ılech) jeho zpodoben´ı zakr´yvaj´ıc´ı ohanb´ı, jedn´an´ı ap. vˇecnˇe nˇeco zast´ıraj´ıc´ı; 2 kniˇ z. a n´aˇr. list´ı: svˇeˇz´ım listem zalesklo se habˇr´ı (Jir.); stromy obalily se listem (Nˇem.) 3 kus pap´ ıru ˇctyˇru ´heln´ıkov´eho tvaru, zprav. urˇcen´y k psan´ı, tisku ap.: seˇsit o 24 listech; tituln´ı l. v knize; l. pergamenu; cyklus grafick´ych list˚ u; jej´ı duˇse je nepopsan´y l. (kniˇz.) nem´a zkuˇsenosti; zp´ıvat, hr´at pˇr´ımo z listu z notov´eho partu bez cviˇcen´ı; . . . 4 kniˇ z. a zast. dopis, psan´ı: zalepen´y, zapeˇcetˇen´y l.; otevˇren´y l.; veˇrejn´y, osobn´ı l.; listy Jana Nerudy; hist. opovˇedn´y, odporn´y, v´yhostn´ı l.; c´ırk. apoˇstolsk´y, past´yˇrsk´y l. provol´an´ı, v´yzva papeˇze, biskupa 5 u nuj´ıc´ı: rodn´y, ´ˇredn´ı listina o nˇeˇcem svˇedˇc´ıc´ı, k nˇeˇcemu opravˇ domovsk´y (dˇr.), oddac´ı, u ´mrtn´ı l.; v´yuˇcn´ı, ˇzivnostensk´y l.; odbˇern´ı, dodac´ı l.; n´akladn´ı l.; z´aruˇcn´ı, z´astavn´ı l.; v˚ udˇc´ı l. (dˇr.) ˇridiˇcsk´y ukaz; pozemkov´ ychZpracov´ knihan´ı pˇrirozen´eho jazyka Karelpr˚ Pala, Zuzanalisty Nevˇ eˇrilov´ a PA153 04 – S´ emantika I 10 / 34 1
Naivn´ı Lesk˚ uv algoritmus: vstup
Jeˇstˇe lepˇs´ım ˇreˇsen´ım by bylo vydat se evropskou cestou: zbavit se u u ´vˇer˚ bez zodpovˇednosti dluˇzn´ıka a rozvinout syst´em financ´ı zaloˇzen´y na z´astavn´ıch listech, jako jsou nˇemeck´e Pfandbriefe. ↓
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
11 / 34
Naivn´ı Lesk˚ uv algoritmus: vstup
Jeˇstˇe lepˇs´ım ˇreˇsen´ım by bylo vydat se evropskou cestou: zbavit se u u ´vˇer˚ bez zodpovˇednosti dluˇzn´ıka a rozvinout syst´em financ´ı zaloˇzen´y na z´astavn´ıch listech, jako jsou nˇemeck´e Pfandbriefe. ↓ {a, bez, by, b´yt, cesta, dluˇzn´ık, dobr´y, evropsk´y, finance, jako, jeˇstˇe, nˇemeck´y, rozvinout, ˇreˇsen´ı, se, syst´em, u ´vˇer, vydat, zaloˇzen´y, z´astavn´ı, zbavit, zodpovˇednost}
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
11 / 34
Naivn´ı Lesk˚ uv algoritmus {a, bez, by, b´yt, cesta, dluˇzn´ık, dobr´y, evropsk´y, finance, jako, jeˇstˇe, nˇemeck´y, rozvinout, ˇreˇsen´ı, se, syst´em, u ´vˇer, vydat, zaloˇzen´y, z´astavn´ı, zbavit, zodpovˇednost} 1:{a, bor˚ uvˇc´ı, d´ılo, do, drobn´y, dubov´y, f´ıkov´y, javorov´y, jeden, jedn´an´ı, kaˇstanov´y, l´ıpa, lupen, mal´y, ohanb´ı, org´an, plocha, rostlina, rozˇs´ıˇren´y, r˚ uzn´y, ˇsirok´y, tvar, vˇeˇcnˇe, velk´y, velmi, . . . } 2:{habˇr´ı, list´ı, obalit, se, strom, svˇeˇz´ı, zalesknout} 3:{bez, b´yt, cviˇcen´ı, cyklus, ˇctyˇru ´heln´ıkov´y, dnes, duˇse, grafick´y, hr´aˇc, hr´at, jeden, jeho, jin´y, k, karta, kniha, kter´y, kus, m´ıt, mluvit, nˇeco, notov´y, o, obr´atit, on, padat, pap´ır, part, pergamen, popsan´y, pˇr´ımo, psan´ı, ruka, se, seˇsit, situace, souhrn, ˇstˇest´ı, tvar, urˇcen´y, v, tisk, tituln´ı, z, . . . } 4:{apoˇstolsk´y, biskup, dopis, Jan, Neruda, odporn´y, opovˇedn´y, osobn´ı, otevˇren´y, papeˇz, past´yˇrsk´y, provol´an´ı, psan´ı, veˇrejn´y, v´yhostn´ı, v´yzva, zalepen´y, zapeˇcetˇen´y} 5:{dodac´ı, domovsk´y, k, kniha, listina, n´akladn´ı, nˇeco, o, odbˇern´ı, oddac´ı, opravˇ nuj´ıc´ı, pr˚ ukaz, pozemkov´y, rodn´y, ˇridiˇcsk´y, svˇedˇc´ıc´ı, u ´mrtn´ı, u ´ˇredn´ı, v˚ udˇc´ı, v´yuˇcn´ı, z´aruˇcn´ı, z´astavn´ı, ˇzivnostensk´y} Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
12 / 34
Naivn´ı Lesk˚ uv algoritmus {a, bez, by, b´yt, cesta, dluˇzn´ık, dobr´y, evropsk´y, finance, jako, jeˇstˇe, nˇemeck´y, rozvinout, ˇreˇsen´ı, se, syst´em, u ´vˇer, vydat, zaloˇzen´y, z´astavn´ı, zbavit, zodpovˇednost} 1:{a, bor˚ uvˇc´ı, d´ılo, do, drobn´y, dubov´y, f´ıkov´y, javorov´y, jeden, jedn´an´ı, kaˇstanov´y, l´ıpa, lupen, mal´y, ohanb´ı, org´an, plocha, rostlina, rozˇs´ıˇren´y, r˚ uzn´y, ˇsirok´y, tvar, vˇeˇcnˇe, velk´y, velmi, . . . } 2:{habˇr´ı, list´ı, obalit, se, strom, svˇeˇz´ı, zalesknout} 3:{bez, b´yt, cviˇcen´ı, cyklus, ˇctyˇru ´heln´ıkov´y, dnes, duˇse, grafick´y, hr´aˇc, hr´at, jeden, jeho, jin´y, k, karta, kniha, kter´y, kus, m´ıt, mluvit, nˇeco, notov´y, o, obr´atit, on, padat, pap´ır, part, pergamen, popsan´y, pˇr´ımo, psan´ı, ruka, se, seˇsit, situace, souhrn, ˇstˇest´ı, tvar, urˇcen´y, v, tisk, tituln´ı, z, . . . } 4:{apoˇstolsk´y, biskup, dopis, Jan, Neruda, odporn´y, opovˇedn´y, osobn´ı, otevˇren´y, papeˇz, past´yˇrsk´y, provol´an´ı, psan´ı, veˇrejn´y, v´yhostn´ı, v´yzva, zalepen´y, zapeˇcetˇen´y} 5:{dodac´ı, domovsk´y, k, kniha, listina, n´akladn´ı, nˇeco, o, odbˇern´ı, oddac´ı, opravˇ nuj´ıc´ı, pr˚ ukaz, pozemkov´y, rodn´y, ˇridiˇcsk´y, svˇedˇc´ıc´ı, u ´mrtn´ı, u ´ˇredn´ı, v˚ udˇc´ı, v´yuˇcn´ı, z´aruˇcn´ı, z´astavn´ı, ˇzivnostensk´y} Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
12 / 34
Naivn´ı Lesk˚ uv algoritmus {a, bez, by, b´yt, cesta, dluˇzn´ık, dobr´y, evropsk´y, finance, jako, jeˇstˇe, nˇemeck´y, rozvinout, ˇreˇsen´ı, se, syst´em, u ´vˇer, vydat, zaloˇzen´y, z´astavn´ı, zbavit, zodpovˇednost} 1:{a, bor˚ uvˇc´ı, d´ılo, do, drobn´y, dubov´y, f´ıkov´y, javorov´y, jeden, jedn´an´ı, kaˇstanov´y, l´ıpa, lupen, mal´y, ohanb´ı, org´an, plocha, rostlina, rozˇs´ıˇren´y, r˚ uzn´y, ˇsirok´y, tvar, vˇeˇcnˇe, velk´y, velmi, . . . } 2:{habˇr´ı, list´ı, obalit, se, strom, svˇeˇz´ı, zalesknout} 3:{bez, b´yt, cviˇcen´ı, cyklus, ˇctyˇru ´heln´ıkov´y, dnes, duˇse, grafick´y, hr´aˇc, hr´at, jeden, jeho, jin´y, k, karta, kniha, kter´y, kus, m´ıt, mluvit, nˇeco, notov´y, o, obr´atit, on, padat, pap´ır, part, pergamen, popsan´y, pˇr´ımo, psan´ı, ruka, se, seˇsit, situace, souhrn, ˇstˇest´ı, tvar, urˇcen´y, v, tisk, tituln´ı, z, . . . } 4:{apoˇstolsk´y, biskup, dopis, Jan, Neruda, odporn´y, opovˇedn´y, osobn´ı, otevˇren´y, papeˇz, past´yˇrsk´y, provol´an´ı, psan´ı, veˇrejn´y, v´yhostn´ı, v´yzva, zalepen´y, zapeˇcetˇen´y} 5:{dodac´ı, domovsk´y, k, kniha, listina, n´akladn´ı, nˇeco, o, odbˇern´ı, oddac´ı, opravˇ nuj´ıc´ı, pr˚ ukaz, pozemkov´y, rodn´y, ˇridiˇcsk´y, svˇedˇc´ıc´ı, u ´mrtn´ı, u ´ˇredn´ı, v˚ udˇc´ı, v´yuˇcn´ı, z´aruˇcn´ı, z´astavn´ı, ˇzivnostensk´y} Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
12 / 34
Naivn´ı Lesk˚ uv algoritmus {a, bez, by, b´yt, cesta, dluˇzn´ık, dobr´y, evropsk´y, finance, jako, jeˇstˇe, nˇemeck´y, rozvinout, ˇreˇsen´ı, se, syst´em, u ´vˇer, vydat, zaloˇzen´y, z´astavn´ı, zbavit, zodpovˇednost} 1:{a, bor˚ uvˇc´ı, d´ılo, do, drobn´y, dubov´y, f´ıkov´y, javorov´y, jeden, jedn´an´ı, kaˇstanov´y, l´ıpa, lupen, mal´y, ohanb´ı, org´an, plocha, rostlina, rozˇs´ıˇren´y, r˚ uzn´y, ˇsirok´y, tvar, vˇeˇcnˇe, velk´y, velmi, . . . } 2:{habˇr´ı, list´ı, obalit, se, strom, svˇeˇz´ı, zalesknout} 3:{bez, b´yt, cviˇcen´ı, cyklus, ˇctyˇru ´heln´ıkov´y, dnes, duˇse, grafick´y, hr´aˇc, hr´at, jeden, jeho, jin´y, k, karta, kniha, kter´y, kus, m´ıt, mluvit, nˇeco, notov´y, o, obr´atit, on, padat, pap´ır, part, pergamen, popsan´y, pˇr´ımo, psan´ı, ruka, se, seˇsit, situace, souhrn, ˇstˇest´ı, tvar, urˇcen´y, v, tisk, tituln´ı, z, . . . } 4:{apoˇstolsk´y, biskup, dopis, Jan, Neruda, odporn´y, opovˇedn´y, osobn´ı, otevˇren´y, papeˇz, past´yˇrsk´y, provol´an´ı, psan´ı, veˇrejn´y, v´yhostn´ı, v´yzva, zalepen´y, zapeˇcetˇen´y} 5:{dodac´ı, domovsk´y, k, kniha, listina, n´akladn´ı, nˇeco, o, odbˇern´ı, oddac´ı, opravˇ nuj´ıc´ı, pr˚ ukaz, pozemkov´y, rodn´y, ˇridiˇcsk´y, svˇedˇc´ıc´ı, u ´mrtn´ı, u ´ˇredn´ı, v˚ udˇc´ı, v´yuˇcn´ı, z´aruˇcn´ı, z´astavn´ı, ˇzivnostensk´y} Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
12 / 34
Naivn´ı Lesk˚ uv algoritmus {a, bez, by, b´yt, cesta, dluˇzn´ık, dobr´y, evropsk´y, finance, jako, jeˇstˇe, nˇemeck´y, rozvinout, ˇreˇsen´ı, se, syst´em, u ´vˇer, vydat, zaloˇzen´y, z´astavn´ı, zbavit, zodpovˇednost} 1:{a, bor˚ uvˇc´ı, d´ılo, do, drobn´y, dubov´y, f´ıkov´y, javorov´y, jeden, jedn´an´ı, kaˇstanov´y, l´ıpa, lupen, mal´y, ohanb´ı, org´an, plocha, rostlina, rozˇs´ıˇren´y, r˚ uzn´y, ˇsirok´y, tvar, vˇeˇcnˇe, velk´y, velmi, . . . } 2:{habˇr´ı, list´ı, obalit, se, strom, svˇeˇz´ı, zalesknout} 3:{bez, b´yt, cviˇcen´ı, cyklus, ˇctyˇru ´heln´ıkov´y, dnes, duˇse, grafick´y, hr´aˇc, hr´at, jeden, jeho, jin´y, k, karta, kniha, kter´y, kus, m´ıt, mluvit, nˇeco, notov´y, o, obr´atit, on, padat, pap´ır, part, pergamen, popsan´y, pˇr´ımo, psan´ı, ruka, se, seˇsit, situace, souhrn, ˇstˇest´ı, tvar, urˇcen´y, v, tisk, tituln´ı, z, . . . } 4:{apoˇstolsk´y, biskup, dopis, Jan, Neruda, odporn´y, opovˇedn´y, osobn´ı, otevˇren´y, papeˇz, past´yˇrsk´y, provol´an´ı, psan´ı, veˇrejn´y, v´yhostn´ı, v´yzva, zalepen´y, zapeˇcetˇen´y} 5:{dodac´ı, domovsk´y, k, kniha, listina, n´akladn´ı, nˇeco, o, odbˇern´ı, oddac´ı, opravˇ nuj´ıc´ı, pr˚ ukaz, pozemkov´y, rodn´y, ˇridiˇcsk´y, svˇedˇc´ıc´ı, u ´mrtn´ı, u ´ˇredn´ı, v˚ udˇc´ı, v´yuˇcn´ı, z´aruˇcn´ı, z´astavn´ı, ˇzivnostensk´y} Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
12 / 34
Naivn´ı Lesk˚ uv algoritmus {a, bez, by, b´yt, cesta, dluˇzn´ık, dobr´y, evropsk´y, finance, jako, jeˇstˇe, nˇemeck´y, rozvinout, ˇreˇsen´ı, se, syst´em, u ´vˇer, vydat, zaloˇzen´y, z´astavn´ı, zbavit, zodpovˇednost} 1:{a, bor˚ uvˇc´ı, d´ılo, do, drobn´y, dubov´y, f´ıkov´y, javorov´y, jeden, jedn´an´ı, kaˇstanov´y, l´ıpa, lupen, mal´y, ohanb´ı, org´an, plocha, rostlina, rozˇs´ıˇren´y, r˚ uzn´y, ˇsirok´y, tvar, vˇeˇcnˇe, velk´y, velmi, . . . } 2:{habˇr´ı, list´ı, obalit, se, strom, svˇeˇz´ı, zalesknout} 3:{bez, b´yt, cviˇcen´ı, cyklus, ˇctyˇru ´heln´ıkov´y, dnes, duˇse, grafick´y, hr´aˇc, hr´at, jeden, jeho, jin´y, k, karta, kniha, kter´y, kus, m´ıt, mluvit, nˇeco, notov´y, o, obr´atit, on, padat, pap´ır, part, pergamen, popsan´y, pˇr´ımo, psan´ı, ruka, se, seˇsit, situace, souhrn, ˇstˇest´ı, tvar, urˇcen´y, v, tisk, tituln´ı, z, . . . } 4:{apoˇstolsk´y, biskup, dopis, Jan, Neruda, odporn´y, opovˇedn´y, osobn´ı, otevˇren´y, papeˇz, past´yˇrsk´y, provol´an´ı, psan´ı, veˇrejn´y, v´yhostn´ı, v´yzva, zalepen´y, zapeˇcetˇen´y} 5:{dodac´ı, domovsk´y, k, kniha, listina, n´akladn´ı, nˇeco, o, odbˇern´ı, oddac´ı, opravˇ nuj´ıc´ı, pr˚ ukaz, pozemkov´y, rodn´y, ˇridiˇcsk´y, svˇedˇc´ıc´ı, u ´mrtn´ı, u ´ˇredn´ı, v˚ udˇc´ı, v´yuˇcn´ı, z´aruˇcn´ı, z´astavn´ı, ˇzivnostensk´y} Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
12 / 34
Naivn´ı Lesk˚ uv algoritmus Jeˇstˇe lepˇs´ım ˇreˇsen´ım by bylo vydat se evropskou cestou: zbavit se u u ´vˇer˚ bez zodpovˇednosti dluˇzn´ıka a rozvinout syst´em financ´ı zaloˇzen´y na z´astavn´ıch listech, jako jsou nˇemeck´e Pfandbriefe. {a, bez, by, b´yt, cesta, dluˇzn´ık, dobr´y, evropsk´y, finance, jako, jeˇstˇe, nˇemeck´y, rozvinout, ˇreˇsen´ı, se, syst´em, u ´vˇer, vydat, zaloˇzen´y, z´astavn´ı, zbavit, zodpovˇednost} D1 D2 D3 D4 D5
= = = = =
{a} {se} {bez, b´yt, se} {} {z´astavn´ı}
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
13 / 34
Naivn´ı Lesk˚ uv algoritmus Jeˇstˇe lepˇs´ım ˇreˇsen´ım by bylo vydat se evropskou cestou: zbavit se u u ´vˇer˚ bez zodpovˇednosti dluˇzn´ıka a rozvinout syst´em financ´ı zaloˇzen´y na z´astavn´ıch listech, jako jsou nˇemeck´e Pfandbriefe. {a, bez, by, b´yt, cesta, dluˇzn´ık, dobr´y, evropsk´y, finance, jako, jeˇstˇe, nˇemeck´y, rozvinout, ˇreˇsen´ı, se, syst´em, u ´vˇer, vydat, zaloˇzen´y, z´astavn´ı, zbavit, zodpovˇednost} D1 D2 D3 D4 D5
= = = = =
{a} {se} {bez, b´yt, se} {} {z´astavn´ı}
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
13 / 34
Naivn´ı Lesk˚ uv algoritmus Jeˇstˇe lepˇs´ım ˇreˇsen´ım by bylo vydat se evropskou cestou: zbavit se u u ´vˇer˚ bez zodpovˇednosti dluˇzn´ıka a rozvinout syst´em financ´ı zaloˇzen´y na z´astavn´ıch listech, jako jsou nˇemeck´e Pfandbriefe. {a, bez, by, b´yt, cesta, dluˇzn´ık, dobr´y, evropsk´y, finance, jako, jeˇstˇe, nˇemeck´y, rozvinout, ˇreˇsen´ı, se, syst´em, u ´vˇer, vydat, zaloˇzen´y, z´astavn´ı, zbavit, zodpovˇednost} D1 D2 D3 D4 D5
= = = = =
{a} {se} {bez, b´yt, se} {} {z´astavn´ı}
kus pap´ıru ˇctyˇru ´heln´ıkov´eho tvaru, zprav. urˇcen´y k psan´ı, tisku ap. . . .
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
13 / 34
2016-10-19
PA153 Zpracov´an´ı pˇrirozen´eho jazyka Nalezen´ı v´yznamu v kontextu Algoritmy lexik´aln´ı desambiguace Naivn´ı Lesk˚ uv algoritmus
Naivn´ı Lesk˚ uv algoritmus Jeˇstˇe lepˇs´ım ˇreˇsen´ım by bylo vydat se evropskou cestou: zbavit se u u ´vˇer˚ bez zodpovˇednosti dluˇzn´ıka a rozvinout syst´em financ´ı zaloˇzen´y na z´astavn´ıch listech, jako jsou nˇemeck´e Pfandbriefe. {a, bez, by, b´yt, cesta, dluˇzn´ık, dobr´y, evropsk´y, finance, jako, jeˇstˇe, nˇemeck´y, rozvinout, ˇreˇsen´ı, se, syst´em, u ´vˇer, vydat, zaloˇzen´y, z´astavn´ı, zbavit, zodpovˇednost} D1 D2 D3 D4 D5
= = = = =
{a} {se} {bez, b´yt, se} {} {z´astavn´ı}
kus pap´ıru ˇctyˇru ´heln´ıkov´eho tvaru, zprav. urˇcen´y k psan´ı, tisku ap. . . .
Naivn´ı L. algoritmus urˇcil, ˇze v´yznam slova list v uveden´e vˇetˇe je 3. Je to ˇ tak´e nejv´ıc textu. sp´ıˇs n´ahoda podpoˇren´a t´ım, ˇze u v´yznam˚ u 1 a 3 v SSJC Vylepˇsen´e verze L. algoritmu nˇekter´a slova nepoˇc´ıtaj´ı, pˇrid´avaj´ı slov˚ um v´ahy (napˇr. pomoc´ı TF-IDF), zohledˇ nuj´ı vzd´alenost od desambiguovan´eho slova
Slabiny Leskova algoritmu
slovn´ıkov´e definice a pˇr´ıklady uˇzit´ı
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
14 / 34
WSD zaloˇzen´e na metod´ach strojov´eho uˇcen´ı [Yarowsky, 1995]
1
stanovit v´yznam u pevn´ych kolokac´ı (ruˇcnˇe nebo ze slovn´ıku) obr´atit list (list:3), ˇzivnostensk´y list (list:5), . . .
2
iterativnˇe zjistit dalˇs´ı kolokace kopie (ˇzivnostensk´eho listu) → kopie oddac´ıho listu (list:5)
3
opakovat, dokud desambiguovan´e mnoˇziny nepˇrestanou nar˚ ustat
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
15 / 34
WSD zaloˇzen´e na metod´ach strojov´eho uˇcen´ı [Yarowsky, 1995]
1
stanovit v´yznam u pevn´ych kolokac´ı (ruˇcnˇe nebo ze slovn´ıku) obr´atit list (list:3), ˇzivnostensk´y list (list:5), . . .
2
iterativnˇe zjistit dalˇs´ı kolokace kopie (ˇzivnostensk´eho listu) → kopie oddac´ıho listu (list:5)
3
opakovat, dokud desambiguovan´e mnoˇziny nepˇrestanou nar˚ ustat
Algoritmus natr´enovan´y na obecn´em korpusu je pouˇziteln´y na dalˇs´ıch textech.
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
15 / 34
Slabiny WSD (w , c) → s w ∈ W – mnoˇzina slov c ∈ C – mnoˇzina kontext˚ u s ∈ S – mnoˇzina v´yznam˚ u
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
16 / 34
Slabiny WSD (w , c) → s w ∈ W – mnoˇzina slov c ∈ C – mnoˇzina kontext˚ u s ∈ S – mnoˇzina v´yznam˚ u Vˇsechny algoritmy WSD z´avisej´ı na invent´aˇri a popisu v´yznam˚ u.
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
16 / 34
Slabiny WSD (w , c) → s w ∈ W – mnoˇzina slov c ∈ C – mnoˇzina kontext˚ u s ∈ S – mnoˇzina v´yznam˚ u Vˇsechny algoritmy WSD z´avisej´ı na invent´aˇri a popisu v´yznam˚ u. Kolik v´yznam˚ u m´a slovo list? ˇ SSJC: 8 ˇ 6 SSC: Slovn´ık ˇcesk´ych synonym: 4 ˇ y WordNet: 9 Cesk´
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
16 / 34
2016-10-19
PA153 Zpracov´an´ı pˇrirozen´eho jazyka Nalezen´ı v´yznamu v kontextu Algoritmy lexik´aln´ı desambiguace Slabiny WSD
Slabiny WSD (w , c) → s w ∈ W – mnoˇzina slov c ∈ C – mnoˇzina kontext˚ u s ∈ S – mnoˇzina v´yznam˚ u Vˇsechny algoritmy WSD z´avisej´ı na invent´aˇri a popisu v´yznam˚ u. Kolik v´yznam˚ u m´a slovo list? ˇ 8 SSJC: ˇ 6 SSC: Slovn´ık ˇcesk´ych synonym: 4 ˇ y WordNet: 9 Cesk´
Lesk˚ uv a. je jednoduch´y i ve sv´ych pokroˇcilejˇs´ıch verz´ıch, zaj´ımav´y algoritmus nab´ıdl [Yarowsky, 1995]. Jde o a. strojov´eho uˇcen´ı, kdy se v prvn´ım pr˚ uchodu urˇc´ı kolokace, kter´e naprosto jistˇe souvisej´ı s konkr´etn´ım v´yznamem slova. V dalˇs´ıch pr˚ uchodech se vypoˇc´ıt´avaj´ı dalˇs´ı slova, kter´a signalizuj´ı konkr´etn´ı v´yznam slova.
WSD nebo WSD Algoritmy, kter´e nepoˇc´ıtaj´ı s pevn´ym invent´aˇrem v´yznam˚ u, jen s kontextem: Word Sense Discrimination
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
17 / 34
WSD nebo WSD Algoritmy, kter´e nepoˇc´ıtaj´ı s pevn´ym invent´aˇrem v´yznam˚ u, jen s kontextem: Word Sense Discrimination
[V´eronis, 2004] Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
17 / 34
Komponentov´a anal´yza (Componential analysis)
= popis v´yznam˚ u slov pomoc´ı mnoˇziny s´emantick´ych rys˚ u (primitiv), kter´e jsou bud’ pˇr´ıtomny, nebo nepˇr´ıtomny, nebo irelevantn´ı pro dan´y v´yznam: muˇz = +HUMAN +ADULT +MALE ˇzena = +HUMAN +ADULT -MALE chlapec = +HUMAN -ADULT +MALE batole = +HUMAN -ADULT ±MALE [Katz and Fodor, 1963] a [Bierwisch, 1971]
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
18 / 34
Komponentov´a anal´yza (Componential analysis) I
oznaˇcen´ı T L BYT HUM ANIM PLANT QUA FEN ENT OBJ
popis tempus, ˇcas locus, m´ısto bytost ˇclovˇek zv´ıˇre rostlina vlastnost fenom´en entita objekt, pˇredmˇet
Karel Pala, Zuzana Nevˇ eˇrilov´ a
pˇr´ıklad den, rok, leden, soumrak d˚ um, chr´am, svˇetad´ıl, bˇreh v´ıla strejda, rada, baˇca pes, slon, velbloud strom, kosatec nespokojenec, pov´yˇsenec + HUM u ´kaz, z´azrak protiklad, argument st˚ ul, krb, ale i d˚ um (OBJ + L)
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
19 / 34
Komponentov´a anal´yza (Componential analysis) II
oznaˇcen´ı INF EMO INS MACH PROC MOT AKT MAT BP ORG
popis informace emoce instrument, n´astroj stroj, apar´at, zaˇr´ızen´ı proces pohyb aktivita, ˇcinnost materi´al ˇc´ast tˇela (body part) organizace, instituce
Karel Pala, Zuzana Nevˇ eˇrilov´ a
pˇr´ıklad telefon´at, ˇcl´anek, vzkaz cit, radost, strach, neklid, u ´smˇev n˚ uˇz, ˇs´ıp hˇreben poˇc´ıtaˇc z´aˇzeh, postup, pokrok bˇeh, let, p´ad boj, odboj, pˇr´ıchod hl´ına, dˇrevo prst, krk vl´ada
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
20 / 34
S´emantick´e tˇr´ıdy
= skupiny slov, kter´a sd´ılej´ı urˇcit´y s´emantick´y rys
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
21 / 34
S´emantick´e tˇr´ıdy
= skupiny slov, kter´a sd´ılej´ı urˇcit´y s´emantick´y rys obratlovec – savec – ˇselma – psovit´a ˇselma – pes – pudl – trpasliˇc´ı pudl
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
21 / 34
S´emantick´e tˇr´ıdy
= skupiny slov, kter´a sd´ılej´ı urˇcit´y s´emantick´y rys obratlovec – savec – ˇselma – psovit´a ˇselma – pes – pudl – trpasliˇc´ı pudl taxonomie, hierarchie tˇr´ıd
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
21 / 34
S´emantick´e tˇr´ıdy, Porfyri˚ uv strom
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
22 / 34
S´emantick´e tˇr´ıdy, s´emantick´e s´ıtˇe, odvozov´an´ı
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
23 / 34
S´emantick´e tˇr´ıdy, s´emantick´e s´ıtˇe, odvozov´an´ı
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
23 / 34
S´emantick´e s´ıtˇe WordNet (Princeton WordNet, PWN) – lexik´aln´ı s´ıt’ p˚ uvodnˇe n´astroj k ovˇeˇren´ı teorie o uspoˇr´ad´an´ı lidsk´e pamˇeti (G. A. Miller, od r. 1985) poˇc´ıtaˇcovˇe dobˇre zpracovateln´y zdroj informac´ı o v´yznamech slov a vztaz´ıch mezi v´yznamy [Fellbaum, 1998] jednotkou je synonymick´a ˇrada (synonymical set, synset) synsety jsou spojeny relacemi: I I
I I I
hyperonymie/hyponymie: v˚ uz, automobil – dod´avka holonymie/meronymie (part of, member of): v˚ uz, automobil – tlumiˇc; orchestr – houslista troponymie: ˇseptat – mluvit near-antonym: den – noc odvozen´ı: velikost – velk´y
slovn´ı druhy: substantiva, adjektiva, verba, adverbia
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
24 / 34
WordNet
angliˇctina: PWN (117 tis. synset˚ u)
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
25 / 34
WordNet
angliˇctina: PWN (117 tis. synset˚ u) projekty EuroWordNet (angliˇctina + holandˇstina, italˇstina, ˇspanˇelˇstina, nˇemˇcina, francouzˇstina, ˇceˇstina, estonˇstina) ILI - InterLingual Index Top Ontology (63 kategori´ı) Base Concepts
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
25 / 34
WordNet
angliˇctina: PWN (117 tis. synset˚ u) projekty EuroWordNet (angliˇctina + holandˇstina, italˇstina, ˇspanˇelˇstina, nˇemˇcina, francouzˇstina, ˇceˇstina, estonˇstina) ILI - InterLingual Index Top Ontology (63 kategori´ı) Base Concepts projekty (BalkaNet: bulharˇstina, ˇceˇstina, rumunˇstina, ˇreˇctina, srbˇstina, tureˇctina), pˇri kter´ych vznikaj´ı wordnety pro dalˇs´ı jazyky, koordin´atorem datab´az´ı je Global WordNet Association (GWA)
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
25 / 34
WordNet
angliˇctina: PWN (117 tis. synset˚ u) projekty EuroWordNet (angliˇctina + holandˇstina, italˇstina, ˇspanˇelˇstina, nˇemˇcina, francouzˇstina, ˇceˇstina, estonˇstina) ILI - InterLingual Index Top Ontology (63 kategori´ı) Base Concepts projekty (BalkaNet: bulharˇstina, ˇceˇstina, rumunˇstina, ˇreˇctina, srbˇstina, tureˇctina), pˇri kter´ych vznikaj´ı wordnety pro dalˇs´ı jazyky, koordin´atorem datab´az´ı je Global WordNet Association (GWA) souˇcasn´y ˇcesk´y W.: 28 tis. synset˚ u
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
25 / 34
WordNet nen´ı jedin´y
Ontologie = explicitn´ı specifikace sd´ılen´e konceptualizace firemn´ı o. vˇseobecn´e o. SUMO/MILO (Suggested Upper Merged Ontology, MId-Level Ontology) common sense o. ConceptNet
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
26 / 34
Ontologie a datov´e form´aty (ontologick´e jazyky)
predik´atov´a logika 1. ˇr´adu a rozˇs´ıˇren´ı Rodina KIF (Knowledge Interchange Format) Rodina RDF (Resource Description Framework), „jazyky s´emantick´eho webu“: RDF, RDFS, OWL, DAML
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
27 / 34
Teorie prototyp˚ u: co je to pt´aˇcek?
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
28 / 34
Teorie prototyp˚ u: co je to pt´aˇcek?
Aitchison, 2003 in [Goddard, 2011] Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
28 / 34
Teorie prototyp˚ u
E. Rosch dok´azala, ˇze lid´e uvaˇzuj´ı o vlastnostech tˇr´ıdy jako o vlastnostech typick´eho z´astupce tˇr´ıdy.
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
29 / 34
Teorie prototyp˚ u
E. Rosch dok´azala, ˇze lid´e uvaˇzuj´ı o vlastnostech tˇr´ıdy jako o vlastnostech typick´eho z´astupce tˇr´ıdy. t. prototyp˚ u se uplatˇ nuje v popisu typick´ych situac´ı (r´amce, skripty)
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
29 / 34
Teorie prototyp˚ u
E. Rosch dok´azala, ˇze lid´e uvaˇzuj´ı o vlastnostech tˇr´ıdy jako o vlastnostech typick´eho z´astupce tˇr´ıdy. t. prototyp˚ u se uplatˇ nuje v popisu typick´ych situac´ı (r´amce, skripty) vzd´alenost mezi koncepty: ˇzidle je v´ıc n´abytek neˇz spor´ak
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
29 / 34
Shrnut´ı gramatika syntax s´emantika
slovn´ı druh, gramatick´e kategorie vˇetn´y ˇclen s´emantick´a tˇr´ıda
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
30 / 34
Shrnut´ı gramatika syntax s´emantika
slovn´ı druh, gramatick´e kategorie vˇetn´y ˇclen s´emantick´a tˇr´ıda
popis lexik´aln´ıho v´yznamu: pro uˇzivatele jazyka: slovn´ıky pro poˇc´ıtaˇcov´e programy: specializovan´e zdroje (s´em. rysy, ontologie, prototypy)
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
30 / 34
Shrnut´ı gramatika syntax s´emantika
slovn´ı druh, gramatick´e kategorie vˇetn´y ˇclen s´emantick´a tˇr´ıda
popis lexik´aln´ıho v´yznamu: pro uˇzivatele jazyka: slovn´ıky pro poˇc´ıtaˇcov´e programy: specializovan´e zdroje (s´em. rysy, ontologie, prototypy) rozliˇsen´ı lexik´aln´ıho v´yznamu: pro uˇzivatele jazyka: ˇc´ıslo v´yznamu pro poˇc´ıtaˇcov´e programy: WSD, vzd´alenost mezi koncepty
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
30 / 34
Odkazy I Bierwisch, M. (1971). On classifying semantic features. In M. Bierwisch, K. E. H., editor, Progress in Linguistics, pages 27–50. Mouton. Fellbaum, C. (1998). WordNet: An Electronic Lexical Database (Language, Speech, and Communication). The MIT Press. Published: Hardcover. Goddard, C. (2011). Semantic Analysis: A Practical Introduction. Oxford Textbooks in Linguistics. Oxford University Press.
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
31 / 34
Odkazy II
Havr´anek, B. et al. (1960). Slovn´ık spisovn´eho jazyka ˇcesk´eho (Dictionary of Written Czech, ˇ SSJC). Academia, Praha, 1st edition. electronic version, created in the Institute of Czech Language, Czech Academy of Sciences Prague in cooperation with Faculty of Informatics, Masaryk University Brno. Katz, J. and Fodor, J. (1963). The structure of a semantic theory. Language, (39):170–210.
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
32 / 34
Odkazy III Lesk, M. (1986). Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone. In Proceedings of the 5th annual international conference on Systems documentation, SIGDOC ’86, pages 24–26, New York, NY, USA. ACM. Oxford Dictionaries (2013). lexical meaning. Oxford Dictionaries. online. http://oxforddictionaries.com/definition/english/ lexical-meaning (accessed October 03, 2013). V´eronis, J. (2004). Hyperlex: Lexical cartography for information retrieval. In Computer Speech and Language: Special Issue on Word Sense Disambiguation, page 23. Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
33 / 34
Odkazy IV
Yarowsky, D. (1995). Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of the 33rd annual meeting on Association for Computational Linguistics, ACL ’95, pages 189–196, Stroudsburg, PA, USA. Association for Computational Linguistics. Zikov´a, M. (2003). Souˇcasn´y ˇcesk´y jazyk: Tvoˇren´ı slov. online. http://www.phil.muni.cz/cest/lide/zikova/CJA009_1.rtf (accessed October 03, 2013).
Karel Pala, Zuzana Nevˇ eˇrilov´ a
PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka
04 – S´ emantika I
34 / 34