Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY
Karel Oliva Ústav pro jazyk český Akademie věd ČR
Předchůdce: „korektor pravopisu“ • Příklad:
Psi štěkaly.
OK
• Technologie: vyhledávání v (dlouhém) seznamu slov slovo ~ posloupnost znaků „od mezery do mezery“
Kontrola gramatiky je jiná Technologie: • Segmentace textu na slova, čísla, interpunkci …. a na věty • Analýza (ne)gramatičnosti věty • Vyhledání a ohlášení chyby • Návrh opravy
První nápad aneb průkopnictví Naučíme počítač větný rozbor (4. třída): co se nepovede rozebrat, je špatně Problém: zatím nerozřešený úkol, přirozený jazyk se nedaří formalizovat
NEBEZPEČÍ: BUDEME HLÁSIT CHYBY, KDE NEJSOU
Druhý nápad (prokopávání DALŠÍCH slepých uliček) Zaměříme se na nejčastější vytvoříme „chybové vzorce“ – Problém: nefunguje to Podst. jm., MŽ, MnČ. 1. p. + Sloveso, Ž, MnČ Psi štěkaly. Chlapci šly. Koupil jsem oběma dětem na pouti hodinky. Dívce už druhý den nešly. Chlapci šly.
Takže POŘÁDNĚ:
s matematikou
~ jazyk jako množina řetězců slov
... mžina slovních tvarů * … mžina všech řetězců nad (nekonečná) *
J ... jazyk, mžina správně tvořených řetězců
* \ J … mžina nesprávně tvořených řetězců
* J Děvčata se smála. *\J
Děvčata se smáli. Děvčata smála se.
Děvčata smála. Děvčata se smála knihu.
Nevyslovený předpoklad: existence ostré hranice * * J
hranice * \ J
Co s příklady • budu se soustředit (slovesný vid a časování sloves) • Marie je ještě krásnější než Valerie, než jsem si myslel. (větná stavba + význam)
Realističtější obrázek
Realističtější obrázek
správné
Realističtější obrázek
správné
nesprávné
Realističtější obrázek
správné
nejasné
nesprávné
Chyba, minimální chybová konfigurace • Chyba („definice“): porušení jazykového pravidla • Minimální chybová konfigurace („2. slepá ulička“): Prší. Psi štěkaly.
MŽ, MnČ, 1.pád & UŽ NIC JINÉHO
Ž, MnČ, MinČas NEBO JINÝ TVAR SLOVESA & UŽ NIC JINÉHO
Problém 1: reálné konfigurace nejsou minimální • • • • • •
Psi štěkaly. Psi včera štěkaly. Psi včera na dvoře štěkaly. Psi včera na dvoře dlouho štěkaly. … Naši staří psi včera na dvoře dlouho štěkaly na kočku.
Řešení: • teorie „minimálních nesprávných vět“ • teorie „rozšíření minimálních nesprávných vět“
Rozšíření na konfigurace neomezené délky Podst.jm. MŽ, MnČ, 1.pád
+
Sloveso Ž, MnČ, MinČas
Podst.jm. + Příslovce + Sloveso MŽ, MnČ, 1.pád Ž, MnČ, MinČas Podst.jm. + Příslovce + Příslovce + Sloveso MŽ, MnČ, Ž, MnČ, 1.Pád MinČas
Problém 2: některé neminimální konfigurace nejsou negramatické • Úplně stejně jako naši staří psi včera dlouho do noci štěkaly na Měsíc hyeny. Při rozšiřování negramatické konstrukce nemůžu přidat „cokoliv, co mě napadne“ Řešení: lingvistická teorie „vždy nesprávných vět“
Problém 3: lexikální a tvarová homonymie češtiny • Jeho čelisti klapaly naprázdno. • Jeho čelisti klapali naprázdno. • Jeho čelisti vyšli po koncertě ze sálu.
Problém 3: lexikální a tvarová homonymie češtiny • Jeho čelisti klapaly naprázdno. • Jeho čelisti klapali naprázdno. • Jeho čelisti vyšli po koncertě ze sálu.
Problém 3: lexikální a tvarová homonymie češtiny • Jeho čelisti klapaly naprázdno. • Jeho čelisti klapali naprázdno. • Jeho čelisti vyšli po koncertě ze sálu.
Problém 3: lexikální a tvarová homonymie češtiny • Jeho dásně klapaly naprázdno. • Jeho dásně klapali naprázdno. • Jeho dásně vyšly po koncertě ze sálu.
Problém 3: lexikální a tvarová homonymie češtiny • Jeho dásně klapaly naprázdno. • Jeho dásně klapali naprázdno. • Jeho dásně vyšly po koncertě ze sálu.
Hráli si tam nějaké hezké dívky? Hráli si tam nějaké hezké hry? (1./4. pád, MnČ, Ž)
Řešení: • Vytvoření přehledu homonymie v češtině • Vytvoření metod pro odstraňování homonymie
Redukce homonymie užitím chybových konfigurací ZAČÁTEK_VĚTY + Podst.jm. - 1.p. + Sloveso v urč. tv. ( "být/bývat/slout ") + Podst.jm. - 1.p. + KONEC_VĚTY
Ústava-1.p.
zaručuje
rovnost-1.p. / 4.p.
Redukce homonymie užitím chybových konfigurací ZAČÁTEK_VĚTY + Podst.jm. - 1.p. + Sloveso v urč. tv. ( "být/bývat/slout ") + Podst.jm. - 1.p. + KONEC_VĚTY
Ústava-1.p.
zaručuje
rovnost-1.p. / 4.p.
NELZE použít vždy (!!!) ZAČÁTEK_VĚTY + Podst.jm. - 1.p. + Sloveso v urč. tv. ( "být/bývat/slout ") + Podst.jm. - 1.p. + KONEC_VĚTY
Zákon-1.p. / 4.p
zaručuje
rovnost-1.p. / 4.p.
Kdy LZE ? ZAČÁTEK_VĚTY - JISTOTA + Podst.jm. - 1.p. - JISTOTA + Sloveso ( "být/bývat/slout ") - JISTOTA + Podst.jm. - 1.p. – MOŽNOST = REDUKCE + KONEC_VĚTY - JISTOTA Ústava-1.p. Zákon-1.p./4.p
zaručuje zaručuje
rovnost-1.p. / 4.p. rovnost-1.p. / 4.p.
Úkrok stranou do jazykovědy Každé slovo ve větě musí vykazovat určité kategorie: Ústava-1.p. zaručuje-3.os svobodu-4.p. • někdy je lehké rozhodnout, o které kat. (ne)jde Milence vzdálenost nedělí-7.p.j.č. • někdy je to těžší (ale ví to autor věty/výpovědi) Tento stroj-1.p. vyrábí uvedené zařízení-4.p. Tento stroj-4.p. vyrábí uvedené zařízení-1.p.
Úkrok stranou do jazykovědy Každé slovo ve větě musí vykazovat určité kategorie: • někdy to přesně nejde (a neví to ani autor)
Používáme postupu-2.p. , který zaručuje … Používáme postup-4.p. , který zaručuje … Používáme zařízení-2.p./4.p. , které zaručuje…
Úkrok stranou do jazykovědy Každé slovo ve větě musí vykazovat určité kategorie: • VŽDY musí být možné nějakou kategorii přiřadit
Úkrok zpět
Redukce homonymie „ad absurdum“ … FORMÁLNÍ nalezení chybovosti ZAČÁTEK_VĚTY - JISTOTA + Podst.jm. - 1.p. - JISTOTA + Sloveso ( "být/bývat/slout ") - JISTOTA + Podst.jm. - 1.p. – MOŽNOST = REDUKCE + KONEC_VĚTY - JISTOTA Ústava-1.p.
zaručuje
svoboda-1.p.
Redukce homonymie „ad absurdum“ … FORMÁLNÍ nalezení chybovosti ZAČÁTEK_VĚTY - JISTOTA + Podst.jm. - 1.p. - JISTOTA + Sloveso ( "být/bývat/slout ") - JISTOTA + Podst.jm. - 1.p. – MOŽNOST = REDUKCE + KONEC_VĚTY - JISTOTA Ústava-1.p.
zaručuje
svoboda-*NIC*
Generalizace na konfigurace neomezené délky Základní postřeh: konfigurace pevné délky lze rozvolnit přidáním materiálu mezi členy konfigurace (při zachování negramatičnosti) Příklad:
Předl + Sl. v u.t. Předl + Přísl + Sl. v u.t. Předl + Přísl + Přísl + Sl. v u.t. Předl + Přísl + Přísl + Přísl + Sl. v u.t. ...
Generalizace na konfigurace neomezené délky ZAČÁTEK_VĚTY + n x Přísl. + Podst.jm. - 1.p. + n x Přísl. + Sloveso v urč. tv. ( "být/bývat/slout ") + n x Přísl. + Podst.jm. - 1.p. + n x Přísl. + KONEC_VĚTY
Problém 4: konkrétní návrh opravy chyby Psi pokousaly hyeny. Má se opravit na • Psi pokousali hyeny. (chyba ve slovesném tvaru) nebo na • Psy pokousaly hyeny. (chyba ve tvaru podst. jména)
Řešení (ale nic moc): „váhy“ minimálních nesprávných vět
Vývoj systému – přehled: • Obecná lingvistická teorie „nesprávných vět“ • Popis rozsáhlé oblasti „nesprávných vět češtiny“ („ne-gramatika češtiny“) – 3 000 základních, 10 000 všech konfigurací • Obecná lingvistická teorie odstraňování homonymie • Empirická studie frekvence chyb • Efektivní softwarová podpora: – Specializovaný programovací jazyk – Implementace • Serendipita
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání
správné
nejasné
nesprávné
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání
popsáno generativním formalismem
nepopsáno
popsáno řetězcovým formalismem
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání Schema skutečné situace
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání Schema skutečné situace
???
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání Napětí mezi gramatikou a jejím užíváním: REKURSE Obecní úřad každému občanovi vyplatí 50 Kč. Obecní úřad každému občanovi, který toho tuláka udá, vyplatí 50 Kč. Obecní úřad každému občanovi, který toho tuláka, jenž onu sochu poškodil, udá, vyplatí 50 Kč. … Obecní úřad každému občanovi, který toho tuláka, jenž onu sochu, která na sloupu, jenž na mostě, který na cestě, jež Horní a Dolní náměstí spojuje, leží, stojí, stojí, poškodil, udá, vyplatí 50 Kč.
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání Napětí mezi gramatikou a jejím užíváním: REKURSE - pokr. … narazíme na hotel ... … narazíme na v restituci vrácený hotel … (ČNK) … narazíme na v před deseti lety proběhnuvší restituci vrácený hotel … narazíme na v před za turbulentní pokládanými deseti lety proběhnuvší restituci vrácený hotel … narazíme na v před za podle kritiků turbulentní pokládanými deseti lety proběhnuvší restituci vrácený hotel ...
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání Napětí mezi gramatikou a jejím užíváním: REKURSE - pokr. … narazíme na hotel ... … narazíme na v restituci vrácený hotel … (ČNK) … narazíme na v před deseti lety proběhnuvší restituci vrácený hotel ... … narazíme na v před za turbulentní pokládanými deseti lety proběhnuvší restituci vrácený hotel ... … narazíme na v před za podle kritiků turbulentní pokládanými deseti lety proběhnuvší restituci vrácený hotel ... ...
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání Napětí mezi gramatikou a jejím užíváním: REKURSE Obecní úřad každému občanovi vyplatí 50 Kč. Obecní úřad každému občanovi, který toho tuláka udá, vyplatí 50 Kč. Obecní úřad každému občanovi, který toho tuláka, jenž onu sochu poškodil, udá, vyplatí 50 Kč. … Obecní úřad každému občanovi, který toho tuláka, jenž onu sochu, která na sloupu, jenž na mostě, který na cestě, jež Horní a Dolní náměstí spojuje, leží, stojí, stojí, poškodil, udá, vyplatí 50 Kč.
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání Napětí mezi gramatikou a jejím užíváním: REKURSE Obecní úřad každému občanovi vyplatí 50 Kč. Obecní úřad každému občanovi, který toho tuláka udá, vyplatí 50 Kč. Obecní úřad každému občanovi, který toho tuláka, jenž onu sochu poškodil, udá, vyplatí 50 Kč. … Obecní úřad každému občanovi, který toho tuláka, jenž onu sochu, která na sloupu, jenž na mostě, který na cestě, jež Horní a Dolní náměstí spojuje, leží, stojí, stojí, poškodil, udá, vyplatí 50 Kč.
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání Napětí mezi gramatikou a jejím užíváním: REKURSE Obecní úřad každému občanovi vyplatí 50 Kč. Obecní úřad každému občanovi, který toho tuláka udá, vyplatí 50 Kč. Obecní úřad každému občanovi, který toho tuláka, jenž onu sochu poškodil, udá, vyplatí 50 Kč. … Obecní úřad každému občanovi, který toho tuláka, jenž onu sochu, která na sloupu, jenž na mostě, který na cestě, jež Horní a Dolní náměstí spojuje, leží, stojí, stojí, poškodil, udá, vyplatí 50 Kč.
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání Negramatické konfigurace: • Předl + Předl + Předl + Předl •VztZáj + n x (ANY V-urč.tv.) + VztZáj + n x (ANY V- urč.tv.) + VztZáj + n x (ANY V- urč.tv.) + VztZáj + n x (ANY V- urč.tv.) + VztZáj
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání Schema skutečné situace
!!!
Teoretický přínos: zjednodušení vztahu gramatiky a jejího užívání
• povedlo se vyřešit situaci, kdy se generativní „slabost“ aparátu gramatiky standardně vyrovnává odkazem na její užívání
• stojí za podrobnější úvahy: × *váhy* negramatických konfigurací (šest předložek je „horší“ než tři apod.) × zavedení negramatických *struktur* (popis zeugmat atd.)
Atraktivita projektu (a oboru) • Kombinace inovativního výzkumu v “klasické humanitní” disciplíně s “matematickou přesností” • “Cutting edge research”
- špička vyhledávacího výzkumu • Perspektiva vývoje oboru
• Užitečné aplikace