Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí „porozuměly“ počítače? Markéta Lopatková Ústav formální a aplikované lingvistiky, MFF UK
[email protected] Seminář současné matematiky, 12.3.2014
FJFI CVUT
Cíl – popsat přirozený jazyk • akademická / filosofická perspektiva • výzva ~ velice komplexní systém • jazyk ~ myšlení, poznávání světa
• analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine,…
• skrze jazyk si uvědomujeme sebe sama • prostředek porozumění (si navzájem)
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Cíl – popsat přirozený jazyk • akademická / filosofická perspektiva • výzva ~ velice komplexní systém • jazyk ~ myšlení, poznávání světa
• analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine,…
• skrze jazyk si uvědomujeme sebe sama • prostředek porozumění (si navzájem)
• nástroje pro automatické zpracování přirozeného jazyka • strojový překlad • dialogové systémy • vyhledávání informací nestrukturovaná – (částečně) strukturovaná data
formální modely pro reprezentaci dat Seminář současné matematiky, 12.3.2014
FJFI CVUT
Osnova • Jak se přirozený jazyk liší od formálního • komplexnost • víceznačnost • volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies)
• Základní jazykové vztahy • Stromové formalismy – složkové vs. závislostní přístupy • OK pro např. pro angličtinu, ne pro češtinu • proto závislostní
• Jaký modelovat (ne)závislosti? • • • •
jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model – restartovací automat
• Závislostní popis v nástrojích NLP Seminář současné matematiky, 12.3.2014
FJFI CVUT
Komplexnost význam
výraz Seminář současné matematiky, 12.3.2014
FJFI CVUT
Víceznačnost (a stejnoznačnost) koleje; ?kohoutek; jeřáb; stát; žena; nakupovat
Seminář současné matematiky, 12.3.2014
lexikum
homonymie
Víceznačnost (a stejnoznačnost) koleje; ?kohoutek; jeřáb; stát; žena; nakupovat
lexikum
Brňáci čekají na nádraží. (Petkevič) morfologie Jemnou dětskou pokožku chrání i pěstí. (Spoustová) Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: „Můj šašek polyká meče!“ – „No, ten můj polyká mlaskaje.“ (Zeman)
Seminář současné matematiky, 12.3.2014
homonymie
Víceznačnost (a stejnoznačnost) koleje; ?kohoutek; jeřáb; stát; žena; nakupovat
lexikum
Brňáci čekají na nádraží. (Petkevič) morfologie Jemnou dětskou pokožku chrání i pěstí. (Spoustová) Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: „Můj šašek polyká meče!“ – „No, ten můj polyká mlaskaje.“ (Zeman) … (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák – Klíč je pod rohožkou)
Seminář současné matematiky, 12.3.2014
syntax (povrchová)
homonymie
Víceznačnost (a stejnoznačnost) koleje; ?kohoutek; jeřáb; stát; žena; nakupovat
lexikum
Brňáci čekají na nádraží. (Petkevič) morfologie Jemnou dětskou pokožku chrání i pěstí. (Spoustová) Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: „Můj šašek polyká meče!“ – „No, ten můj polyká mlaskaje.“ (Zeman) … (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák – Klíč je pod rohožkou)
syntax (povrchová)
Spotřeba motorů stoupá. (Sgall, 1967) Kritika brazilského delegáta byla ostrá. (Daneš, 1964) Udělá to za dvě hodiny. (Panevová, 1980) Nechceš udělat kávu?
syntax (hloubková) Seminář současné matematiky, 12.3.2014
homonymie
Víceznačnost (a stejnoznačnost) eliminace homonymie • 'garden path sentences' Vlaky u nás jezdí se zpožděním. Před vlastním zásahem policie neprodyšně uzavřela okolí kostela.
Seminář současné matematiky, 12.3.2014
homonymie
Víceznačnost (a stejnoznačnost) eliminace homonymie • 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997)
Seminář současné matematiky, 12.3.2014
homonymie
Víceznačnost (a stejnoznačnost) eliminace homonymie • 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997)
• kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (iDnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.]
Seminář současné matematiky, 12.3.2014
homonymie
Víceznačnost (a stejnoznačnost) eliminace homonymie • 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997)
• kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (iDnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.] Dementi MŠMT ke spekulacím o zastavení Operačního programu Vzdělávání pro konkurenceschopnost. (TÝDEN, 6.2.2012, rubrika Zápisník z Malé Strany) Seminář současné matematiky, 12.3.2014
homonymie
(Víceznačnost a) stejnoznačnost borovice – sosna; kopaná – fotbal, obrátit se – otočit se
lexikum
konverzivní predikáty: prodávat – kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem – být předchůdcem; být vyšší – být nižší
Seminář současné matematiky, 12.3.2014
synonymie
(Víceznačnost a) stejnoznačnost borovice – sosna; kopaná – fotbal, obrátit se – otočit se
lexikum
konverzivní predikáty: prodávat – kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem – být předchůdcem; být vyšší – být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla. ?Když babička přijede, půjdou rodiče do divadla.
Seminář současné matematiky, 12.3.2014
syntax (povrchová)
synonymie
(Víceznačnost a) stejnoznačnost borovice – sosna; kopaná – fotbal, obrátit se – otočit se
lexikum
konverzivní predikáty: prodávat – kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem – být předchůdcem; být vyšší – být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla. ?Když babička přijede, půjdou rodiče do divadla.
syntax (povrchová)
Ten starý stůl je žlutý. ?Ten žlutý stůl je starý.
syntax (hloubková) Seminář současné matematiky, 12.3.2014
synonymie
Volný slovosled • změnou slovosledu se mění význam, ale … Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla. … ? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. …
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Volný slovosled • změnou slovosledu se mění význam, ale … Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla. … ? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. …
• zdůrazněny jiné informace (distinkce staré-nové) … informační struktura věty (Hajičová et al., 1998; 2004) • stejné strukturní vztahy
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Volný slovosled • změnou slovosledu se mění význam, ale … Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla. … ? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. …
• zdůrazněny jiné informace (distinkce staré-nové) … informační struktura věty (Hajičová et al., 1998; 2004) • stejné strukturní vztahy
neprojektivitní konstrukce Seminář současné matematiky, 12.3.2014
FJFI CVUT
Osnova • Jak se přirozený jazyk liší od formálního • komplexnost • víceznačnost • volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies)
• Základní jazykové vztahy • Stromové formalismy – složkové vs. závislostní přístupy • OK pro např. pro angličtinu, ne pro češtinu • proto závislostní
• Jaký modelovat (ne)závislosti? • • • •
jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model – restartovací automat
• Závislostní popis v nástrojích NLP Seminář současné matematiky, 12.3.2014
FJFI CVUT
Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost … základní syntakticko-sémantická struktura věty
• binární vztah řídící – závislý větný člen • valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit
(Concise Oxford Dictionary of Linguistics,1997)
• 'valenční' doplnění ~ slovníková informace • volná doplnění lexikalizace
Seminář současné matematiky, 12.3.2014
Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost … základní syntakticko-sémantická struktura věty
• binární vztah řídící – závislý větný člen • valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit
(Concise Oxford Dictionary of Linguistics,1997)
• 'valenční' doplnění ~ slovníková informace • volná doplnění lexikalizace
2. slovosled … lineární uspořádání slov
(a interpunkce) ve větě
Seminář současné matematiky, 12.3.2014
Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost … základní syntakticko-sémantická struktura věty
• binární vztah řídící – závislý větný člen • valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit
(Concise Oxford Dictionary of Linguistics,1997)
• 'valenční' doplnění ~ slovníková informace • volná doplnění lexikalizace
2. slovosled … lineární uspořádání slov
(a interpunkce) ve větě
3. koordinace … `zmnožení' syntaltické pozice Po babiččině příjezdu půjdou rodiče do divadla. Po babiččině příjezdu půjde maminka s tatínkem do divadla. Po babiččině příjezdu půjdou maminka a tatínek do divadla. Petr potkal Marii v divadle . Petr se potkal s Marií v divadle . Petr a Marie se potkali v divadle. Petr potkal Marii v divadle a Marie potkala Petra v divadle.
Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost … základní syntakticko-sémantická struktura věty 2. slovosled … lineární uspořádání slov a interpunkce ve větě 3. koordinace … 'zmnožení' syntaktické pozice
stromové formalismy pro popis syntaxe Seminář současné matematiky, 12.3.2014
FJFI CVUT
Osnova • Jak se přirozený jazyk liší od formálního • komplexnost • víceznačnost • volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies)
• Základní jazykové vztahy • Stromové formalismy – složkové vs. závislostní přístupy • typologie jazyků: angličtina vs. čeština • závislostní pro jazyky s volným slovosledem
• Jaký modelovat (ne)závislosti? • • • •
jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model – restartovací automat
• Závislostní popis v nástrojích NLP Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" • N. Chomsky: Syntactic Structures (1957) • rekurzivní • vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty)
Mary will eat bread. S NP N Mary
VP NP
VP AuxV will
V
N
eat bread
zásobníkové automaty Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" • N. Chomsky: Syntactic Structures (1957) • rekurzivní • vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty)
Mary will eat bread. S NP N Mary
What will Mary eat?
VP
AuxV will
S
NP
VP V
N
eat bread
NP N Mary
zásobníkové automaty Seminář současné matematiky, 12.3.2014
VP VP AuxV will
NP V
N
eat bread
Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" • N. Chomsky: Syntactic Structures (1957) • rekurzivní • vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty)
Mary will eat bread. S NP N Mary
What will Mary eat? S' NP
VP NP
VP AuxV will
V
N
eat bread
what
T' AuxV will
S
N Mary
zásobníkové automaty Seminář současné matematiky, 12.3.2014
VP
NP VP AuxV tracei
NP V eat
N tracej
Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" • • • •
N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem problém s volným slovosledem S VP
NP VP
PrepP Prep po
NP
VP V
Atr
N
babičině
příjezdu půjdou
Seminář současné matematiky, 12.3.2014
N PrepP
rodiče Prep
NP
do
N divadla
FJFI CVUT
Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" • • • •
L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.Pred
po příjezdu.Adv
rodiče.Sb do divadla.Adv
babiččině.Atr
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" • • • •
L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.Pred
po příjezdu.Adv
rodiče.Sb do divadla.Adv půjdou.Pred
babiččině.Atr půjdou.Pred po příjezdu.Adv
rodiče.Sb
rodiče.Sb do divadla.Adv
babiččině.Atr Seminář současné matematiky, 12.3.2014
po příjezdu.Adv do divadla.Adv babiččině.Atr
?? vhodný formální model FJFI CVUT
Osnova • Jak se přirozený jazyk liší od formálního • komplexnost • víceznačnost • volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies)
• Základní jazykové vztahy • Stromové formalismy – složkové vs. závislostní přístupy • typologie jazyků: angličtina vs. čeština • závislostní pro jazyky s volným slovosledem
• Jaký modelovat (ne)závislosti? • • • •
jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model – restartovací automat
• Závislostní popis v nástrojích NLP Seminář současné matematiky, 12.3.2014
FJFI CVUT
Jak modelovat (ne)závislosti? • metoda redukční analýzy (RA)
(Jančar et al., 1999, Lopatková et al., 2005; 2007)
• postupné zjednodušování věty při zachování správnosti a významu – vypuštění slova/několika slov (a příp. přepsání jiných)
Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Jak modelovat (ne)závislosti? • metoda redukční analýzy (RA)
(Jančar et al., 1999, Lopatková et al., 2005; 2007)
• postupné zjednodušování věty při zachování správnosti a významu – vypuštění slova/několika slov (a příp. přepsání jiných)
• určení formálních závislostních vztahů
(Lopatková et al., 2005)
– vzájemně nezávislé uzly vypouštěny v libovolném pořadí
Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
tato, Texas …
vzájemně nezávislé Seminář současné matematiky, 12.3.2014
FJFI CVUT
Jak modelovat (ne)závislosti? • metoda redukční analýzy (RA)
(Jančar et al., 1999, Lopatková et al., 2005; 2007)
• postupné zjednodušování věty při zachování správnosti a významu – vypuštění slova/několika slov (a příp. přepsání jiných)
• určení formálních závislostních vztahů
(Lopatková et al., 2005)
– vzájemně nezávislé uzly vypouštěny v libovolném pořadí – závislý uzel vypuštěn vždy dřív než řídící
Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas. firma
Tato firma sídlí ve státě Texas. tato
Seminář současné matematiky, 12.3.2014
ve státě Texas
FJFI CVUT
Jak modelovat (ne)závislosti? • metoda redukční analýzy (RA)
(Jančar et al., 1999, Lopatková et al., 2005; 2007)
• postupné zjednodušování věty při zachování správnosti a významu – vypuštění slova/několika slov (a příp. přepsání jiných)
• určení formálních závislostních vztahů
(Lopatková et al., 2005)
– vzájemně nezávislé uzly vypouštěny v libovolném pořadí – závislý uzel vypuštěn vždy dřív než řídící – některé uzly vypuštěny současně: redukční komponenty
Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas. firma
Tato firma sídlí ve státě Texas. tato firma sídlí ve státě.
firma sídlí ve státě.
firma sídlí ve státě. Seminář současné matematiky, 12.3.2014
ve státě Texas
firma, ve státě …
vzájemně nezávislé FJFI CVUT
Jak modelovat (ne)závislosti? • metoda redukční analýzy (RA)
(Jančar et al., 1999, Lopatková et al., 2005; 2007)
• postupné zjednodušování věty při zachování správnosti a významu – vypuštění slova/několika slov (a příp. přepsání jiných)
• určení formálních závislostních vztahů
(Lopatková et al., 2005)
– vzájemně nezávislé uzly vypouštěny v libovolném pořadí – závislý uzel vypuštěn vždy dřív než řídící – některé uzly vypuštěny současně: redukční komponenty
Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
sídlí
Tato firma sídlí ve státě Texas. firma sídlí ve státě.
firma
firma sídlí ve státě. tato
ve státě . Texas
firma sídlí ve státě. Seminář současné matematiky, 12.3.2014
FJFI CVUT
Závislosti a slovosled při RA
Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit.
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Závislosti a slovosled při RA • rozšíření redukční analýzy: operace shift
(Kuboň et al., 2012)
• změna slovosledu, pokud si vynucuje princip zachování správnosti (permutace slov, zachování hran) Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit.
rozhodl se nekoupit. rozhodl
rozhodl
se
nekoupit
.
se
nekoupit
.
využít operaci shift pro měření volnosti slovosledu ?? Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • projektivivta (Marcus, 1965; Nebeský, 1975; Havelka et al.. 2004) • počet 'děr' v pokrytí hrany (Plátek et al., 2000) • (m-)planarita (Kuhlmann, Nivre, 2006) • 'zahnízděnost'
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu
(Kuhlmann, Nivre, 2006)
Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou ??
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001):
73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004)
(Kuboň et al, 2012) Seminář současné matematiky, 12.3.2014
Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001):
73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004)
(Kuboň et al, 2012) FJFI CVUT
Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0
(Hajič et al, 2001):
73 tis. vět, z nich 23% neproj. (17 tis.)
klitiky Opravit jsem se mu to včera snažil marně. (Hana, 2007)
neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004)
snažil opravit jsem se
včera
marně
mu to (Kuboň et al, 2012) FJFI CVUT
Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem.
(s využitím Holan et al, 2000)
bála se
.
pomoci mu
s
úkolem těžkým
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem.
(s využitím Holan et al, 2000)
S těžkým se bála pomoci úkolem.
bála
* S se bála pomoci úkolem. se
S úkolem se bála pomoci. * se bála pomoci.
.
pomoci mu
s
úkolem
* Bála se bála pomoci. těžkým (Kuboň et al, 2013) Seminář současné matematiky, 12.3.2014
alespoň 2 shifty potřeba FJFI CVUT
Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu • další zjemnění: – vypouštění sousedících slov – 'projektivizace' vypouštění
??? Jak se projevuje v českých větách? Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu • PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací sada) • automatická RA (řízená závislostními stromy)
'Podezřelé' jevy v PDT 2.0 Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu • PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací) • automatická RA (řízená závislostními stromy) – věty o 10-25 slovech (vč. interpunkce) – bez koordinace – jen věty s 1 určitým slovesem – bez číslovkových výrazů
• testovací sada
2,5 tis. vět
• projektivní RA bez 'shiftů': 1800
10000
1640
1600
1640
1400
1000 354
1200
235 113
1000 100 800
44
29
21
600
10 354
400
10
5
235
200
113
29
2
44
21
10
5
2
6
7
8
9
10
0
1 1
2
3
4
5
Seminář současné matematiky, 12.3.2014
1
2
3
4
5
6
7
8
9
10
FJFI CVUT
Složitost vs. volnost slovosledu • PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací) • automatická RA (řízená závislostními stromy) • testovací sada
– věty o 10-25 slovech (vč. interpunkce) – bez koordinace – jen věty s 1 určitým slovesem – bez číslovkových výrazů
2,5 tis. vět
• projektivní RA bez 'shiftů':
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu • PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací) • automatická RA (řízená závislostními stromy) • testovací sada
– věty o 10-25 slovech (vč. interpunkce) – bez koordinace – jen věty s 1 určitým slovesem – bez číslovkových výrazů
2,5 tis. vět
• projektivní RA bez 'shiftů': • redukovaná věta s 10 uzly
??? Jak se projevuje ve složitějších větách? Seminář současné matematiky, 12.3.2014
FJFI CVUT
Formální model syntaxe • struktura závislostních vztahů ve větě • rekurzivita • nelokální chování češtiny • lexikalizace
jednoduchá RA ~ model závislostí • slovosled • míra volnosti slovosledu • (ne)projektivita ~ míra složitosti slovosledu
RA se shifty • závislostní stromy pro popis syntaktické struktury
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Restartovací automat matematický model závislostní redukční analýzy přirozeného jazyka jednoduchý restartovací automat (simple restarting automaton)
(Jančar et al., 1995; Otto, 2006)
• zpracování vstupní věty – delete, rewrite
výpočet v cyklech rekurze • nelokální chování ~ volný slovosled • budování struktury věty • restart
– DR-stromy, D-stromy (Plátek et al, 2000) – (paralelní) závislostní struktury (Plátek et al., 2010) – operace shift (Kuboň et al, 2012; Lopatková, Plátek 2013)
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Osnova • Jak se přirozený jazyk liší od formálního • komplexnost • víceznačnost • volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies)
• Základní jazykové vztahy • Stromové formalismy – složkové vs. závislostní přístupy • typologie jazyků: angličtina vs. čeština • závislostní pro jazyky s volným slovosledem
• Jaký modelovat (ne)závislosti? • • • •
jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model – restartovací automat
• Závislostní popis v nástrojích NLP Seminář současné matematiky, 12.3.2014
FJFI CVUT
Korpusová lingvistika a slovníky • Pražský závislostní korpus (PDT) • 3 roviny anotace: m-rovina, a-rovina, t-rovina (semantické role, gramatémy, inf. struktura, koreference)
• PDT 3.0 (Hajič et al., 2003, Bejček et al, 2013) http://ufal.mff.cuni.cz/pdt3.0/ http://ufal.mff.cuni.cz/pdt2.0/visual-data/sample/sample0_a_2.htm
• Prague Czech English Dependency Treebank (PCEDT)
(Hajič et al., 2010)
• texty z Penn Treebank (Wall Street Journal) • přeloženy do češtiny (překladatelé) • anotační schéma 'zděděné' z PDT http://ufal.mff.cuni.cz/pcedt2.0/trees/00/01/wsj_0001_1.xhtml?lang=en
• Pražský závislostní korpus mluvené češtiny • Prague Arabic Dependency Treebank … Seminář současné matematiky, 12.3.2014
FJFI CVUT
Korpusová lingvistika a slovníky Syntaktické slovníky • Valenční slovník českých sloves VALLEX (Lopatkováet al., 2003, 2008)
• PDT-VALLEX
(Hajič et al., 2003; Urešová, 2011)
• EngVallex
(Šindlerová, Cinková, 2011)
• nejčastější česká slovesa – valenční rámec – glosa, příklady …
• přístupnost pro uživatele – NLP technologie (xml) – člověk (html, pdf) Seminář současné matematiky, 12.3.2014
Závislostní popis v datech a nástrojích K čemu korpusy a slovníky? • počítačové zpracování přirozeného jazyka – data: statistické metody, strojové učení – vyhodnocování experimentů – datové formáty
• uživatel-člověk – výuka češtiny, – tradiční teoretická lingvistika
• formální modelování – složitost přirozeného jazyka
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Strojový překlad • frázový překlad: Moses, Joshua (Ondřej Bojar, …) • En → Cz (Russian, Hindi, …)
http://quest.ms.mff.cuni.cz/khresmoi/demo/
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Strojový překlad • překlad analýza – transfer – syntéza: TectoMT … En → Cz (Tamil) • Zdeněk Žabokrtský, David Mareček, Martin Popel transfer
She has never laughed in her new boss's office. Seminář současné matematiky, 12.3.2014
Nikdy se nesmála v úřadu svého nového šéfa. FJFI CVUT
Strojový překlad
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Dialogové systémy Companions
(Hajič, Cinková, Ptáček et al.)
• společník pro seniory • prohlížení fotografií
"Petra je sympatický partner pro konverzaci, zajímá se o Vaše fotky a o vzpomínky, které s nimi máte spojené. Je jí kolem třiceti a je to Češka jako poleno, názory na generaci jejích rodičů odpovídají jejímu věku. Má svoje názory, ale už nezná svoji biografii." http://www.youtube.com/watch?v=SeUd4bSnL2I&feature=mfu_in_order&list=UL http://www.youtube.com/watch?v=4DlLjJg_Ztk&feature=mfu_in_order&list=UL http://www.youtube.com/watch?v=6aTuEST85pU&feature=mfu_in_order&list=UL Seminář současné matematiky, 12.3.2014
Dialogové systémy • automatické zpracování jazyka
– analýza vět (až na roviny významu) – generování
• „dialog manager“ Dialog::DAFRunner – DAF (= dialog action form) – šablony pro sítě stavů – instance těchto sítí v průběhu dialogu (aktuální stav pro každého uživatele)
• dialogové korpusy
Seminář současné matematiky, 12.3.2014
Malá Úpa, Seminář současné 3.6.2013matematiky, 12.3.2014
FJFI CVUT1