Nedostatky bezkontextov´ e gramatiky • Bˇeˇzn´ a gramatika nezachyt´ı schodu podmˇetu s pˇr´ısudkem. • Lze ˇreˇsit pˇrid´ an´ım zvl´aˇstn´ıch netermin´al˚ u pro jednotn´e ˇc´ıslo, mnoˇzn´e ˇc´ıslo. . . → Velk´ y n´ arust poˇctu netermin´al˚ u
Rozˇ s´ıˇ ren´ e pˇ rechodov´ e s´ıtˇ e • ATN - Augmented Transition Networks Gramatika: S → NP VP NP → Det N VP → V [NP]
S´ıˇ t: → S0 → seek NP(Prohled´ an´ı grafu NP) → S1 → seek VP → → N P0 → cat Det(vyzvednut´ı ˇclenu ze slovn´ıku) → N P1 → cat N → N P2 → → V P0 → cat V → V P1 → seek NP/jump → V P2 →
Syst´ emy Q • Pouˇzit mechanizmus grafov´eho analyz´atoru – Slova tvoˇr´ı ohodnocen´ı hran. – Postupnˇe tvoˇr´ıme hrany ohodnecen´e levou stranou pravidel z gramatiky. Hrany kter´e byli pˇreklenuty oznaˇc´ıme teˇckou. – Opakujeme, dokud existuj´ı pravidla. – N´ asleduje f´ aze ˇciˇstˇen´ı: 1. Odstran´ıme vˇsechny hrany odstranˇen´e teˇckou. 2. Ponech´ ame pouze hranu vedouc´ı z poˇc´atku do konce. 3. Odstran´ıme paraleln´ı hrany se stejn´ ym ohodnocen´ım. – Anal´ yzu cel´e vˇety m˚ uˇzeme rozloˇzit do nˇekolika f´az´ı. • Nev´ yhodou m˚ uˇze b´ yt sloˇzit´ y z´apis gramatiky
Unifikaˇ cn´ı gramatiky • speci´ aln´ı datov´ y typ - Sestava rys˚ u(Feature Structure FS)
1
oznamovac´ı slovn´ı druh: N S podmˇet: ˇc´ıslo: rod: F slovn´ı druh: V S pˇr´ısudek: ˇc´ıslo: rod: F
vˇeta:
Nezachycuje shodu, proto vylepˇs´ıme:
oznamovac´ı slovn´ı druh: N ˇ c ´ ıslo: S podmˇet: shoda: 1− rod: F slovn´ı druh: V pˇr´ısudek: shoda: 1 vˇeta:
• Unifikace:
ˇc´ıslo: ∅ rod: F
ˇc´ıslo: ∪ rod: p´ad:
S ˇc´ıslo: S ∅ = rod: F 7 p´ad: 7
• Lze kombinovat syntaxi i s´emantiku • Velmi pr˚ uhledn´e a obecn´e(lze pouˇz´ıt i na morfologick´e, syntaktick´e a semantick´e u ´rovni) • Pˇri ˇspatn´em n´ avrhu struktury m˚ uˇzeme skonˇcit u slovesa s p´adem nebo podobn´ ych vˇec´ı. Lze zlepˇsit zaveden´ım typ˚ u.
Automatick´ e rozpozn´ av´ an´ı ciz´ıch slov Vlastnosti ˇ cesk´ eho jazyka • fon´em = graf´em, fonologick´e p´ısmo. Vyskytuje se jen u jazyk˚ u, do nichˇz to bylo zavedeno reformou. • Slovenˇstina - rytmick´ y z´akon - po dlouh´e slabice n´asledje kr´atk´a • Obojetn´e souhl´ asky jsou p˚ uvodem mˇekk´e • Probl´emy - napˇe´ı, napnul, napjet´ı • V´ yvoj 2
– stahov´ an´ı - bojati se → b´at se, ale z˚ ustalo zachov´ano boj´ım se – depalatizace - odstraˇ nov´an´ı mˇekˇcidel – diftongizace - u ´ → ou – zmˇeny hl´ asek - slovansk´e g → h, ´o → uo → ˚ u
Hled´ an´ı ciz´ıch slov • Jin´ a seskupen´ı p´ısmen, nerespektuj´ı pravidla ˇceˇstiny • Ciz´ı graf´emy – x,q,w – f (kromˇe ”foukat”, ”doufat”, ”zoufat”) – g - p˚ uvodn´ı g se zmˇenilo v h – ´ o - ˇcesk´e pˇreˇslo v ˚ u • Aˇz na vyj´ımky nezaˇc´ınaj´ı slova na samohl´asky • Existuje pouze jedna dvouhl´aska - ou, zbytek jsou ciz´ı slova, slov´aci maj´ı dvouhl´ asek v´ıc. • Nosovky - rekomando, konstanta, . . . • Pˇri pˇrej´ım´ an´ı slov se redukuj´ı zdvojen´e souhl´asky • ph → f • M˚ uˇzeme pouˇz´ıvat ciz´ıch pˇredpon a pˇr´ıpon • Tvrd´ a samohl´ aska se po mˇekk´e souhl´asce mˇen´ı na mˇekkou samohl´asku. • Tvrd´ a souhl´ aska se pˇred mˇekkou samohl´askou mˇen´ına mˇekkou souhl´asku. – ´e je tvrd´e, ˇe je mˇekk´e, ale e je obojetn´e • metateze likvid - ((E—O)R)—((E—O)L)→(R(E—A))—(L(E—A)) – ert → ret, Elbe → Labe • Slova konˇc´ıc´ı na ´y jsou pˇr´ıdavn´a jm´ena - vyj´ımky pr´ y, u ´ter´ y, ˇceh´ y • -ost - vˇetˇsinou podstatn´e jm´eno odvozen´e zpˇr´ıdavn´eho • Nerozluˇcn´e skupiny souhl´asek – zd/st, ˇzd/ˇst • Polosamohl´ asky - l/r
3
Automatick´ y pˇ reklad Motivaˇ cn´ı pˇ r´ıklad Budeme pˇrekl´ adat vˇetu: Kageru-to mugade hala jo deka medsene seno gejay! kageru sej´ıt se, shrom´aˇzdit se mugade hlava hala skupina jo jeden, jedna deka pˇet medse hodina seno velk´ y jay muˇz Sej´ıt se hlava skupina jeden pˇet hodina velk´ y (?muˇz?) Chyb´ı n´ am morfologie ≤sloveso≥+to budouc´ı ˇcas pˇr´ıpona -ne ˇcasov´ a pˇredloˇzka v pˇredpona ge m´ıstn´ı urˇcen´ı Sejde se hlava skupina v jeden pˇet hodina velk´ y u muˇz. Pravidla domorod´ eho pravopisu • V oznamovac´ıch vˇet´ ach pevn´ y poˇr´adek slov • Syst´em ˇc´ıslovek se chov´ a jako ˇr´ımsk´ y • Pˇr´ıdavn´ a jm´ena rozv´ıjej´ı n´asleduj´ı vˇetn´ y ˇclen Sejde se hlava skupina ve ˇctyˇri hodiny u velk´eho muˇze. Ust´ alen´ a spojen´ı mugade hala seno jay
rada starˇs´ıch n´ aˇceln´ık
Rada starˇs´ıch se sejde ve ˇctyˇri hodiny u n´aˇceln´ıka. Dalˇs´ı probl´em - hodiny se poˇc´ıtaj´ı od zaˇc´atku dne. Potˇrebujeme tedy jeˇstˇe vˇedˇet, jak to v patˇriˇcn´em prostˇred´ı chod´ı. Pˇreklad m˚ uˇze z´ aviset na situaci.
4
Historie Zdrojov´ y text → anal´ yza → transfer(pˇreklad, struktur´aln´ı zmˇeny ve stromˇe, . . . ) → generov´ an´ı → c´ılov´ y text Ide´ aln´ı by bylo vynechat transfer a prov´adˇet anal´ yzu aˇz do interliguy a odtud pˇr´ımo generovat. • 1946 - A. D. Booth - Slovn´ıkov´ y pˇreklad slovo od slova. • 1948 - R. M. Richens - pracuje s morf´emy. • 1950 E. Reifler - zav´ ad´ı pre- a post- editing – controled language - preediting - ˇclovˇek p´ıˇse jednoduˇse s ohledem na pˇreklad • 1952 - Prvn´ı konference o strojov´em pˇrekladu na MIT – L. E. Doster - pivotn´ı jazyk - pˇrirozen´ y jazyk hraj´ıc´ı roli interlinguy(ta byla form´ aln´ım jazykem) • 7. 1. 1954 - Georgetownsk´ y experiment – 45 vˇet, 250 slov, 6 syntaktick´ ych ”z´akon˚ u” . . . • 1956 - Prvn´ı mezin´ arodn´ı konference • 1957 - N. Chomsky - Standart theory • 1960 - Y. Bar Hillel - ”Vysoce kvalitn´ı plnˇe automatick´ y pˇreklad nem˚ uˇze b´ yt nikdy dosaˇzen” FAHQMT HSMT • Zaˇc´ına se hovoˇrit o kategori´ıch MAHT HT
plnˇe automatick´ y ˇclovˇek pom´ah´a poˇc´ıtaˇci poˇc´ıtaˇc pom´ah´a ˇclovˇeku slovn´ıky, translation memory(hled´a podobn´e vˇety u nichˇz zn pˇrekl´ad´a ˇclovˇek
Souˇ casn´ e trendy Statistick´ e metody • Mˇeˇren´ı kvality pomoc´ı referenˇcn´ıho pˇrekladu • Vyuˇz´ıvaj´ı jiˇz pˇreloˇzen´e texty N´ astroje podporuj´ıc´ı pˇ reklad • Pouˇz´ıvaj´ı ”pˇrekladovou pamˇeˇt” • Nab´ızej´ı pˇrekladateli to, jak to pˇreloˇzil minule • IBM Translation Manager, Deja Vu, TRADOS, SDLX 5
ˇ Cesk´ e syst´ emy ˇ APAC • Pˇreklad z angliˇctiny do ˇceˇstiny • Vytvoˇren ve shodn´em formalismu jako METEO • Transdukˇcn´ı slovn´ık - odborn´a slova pˇrejat´a z ciz´ıch jazyk˚ u(ˇrevctina nebo latina) do ENG i CZ se pˇrekl´adaj´ı dobˇre(-ation → -ace(industrialization → industrializace, -ic → -ick´ y) Ruslan • Pˇreklad z ˇceˇstiny do ruˇstiny • Nebyl dokonˇcen • Transdukˇcn´ı slovn´ık • Q-syst´emy • Z´ achrann´ a pravidla pro pˇr´ıpad probl´em˚ u pˇri anal´ yze ˇ ılko Syst´ em Ces´ • Lokalizace velk´ ych softwarov´ y syst´em˚ u • Pˇreklad z ˇceˇstiny do slovenˇstiny a polˇstiny • Pouˇzije se pˇrekladov´ a pamˇeˇt a ˇcesk´ y pˇreklad se automaticky pˇreloˇz´ı do slovenˇstiny a polˇstiny a vr´ at´ı se do pamˇeti ˇ siny a Slovenˇstiny • Rozd´ıly Ceˇ – Shodn´ a syntaxe (probl´em - bude-li → ak bude) ˇ y a Slovensk´ – 3 slovn´ıky - Cesk´ y morfologick´ y slovn´ık a pˇrekladov´ y slovn´ık – Vˇetˇsinou shodn´e poˇrad´ı ve ˇetˇe – Naprosto odliˇsn´e tvaroslov´ı – Pouˇz´ıv´ a se tagger - urˇcuje v jak´em kontextu se slovo vyskytuje – Moˇzno vyuˇz´ıvat dalˇz´ı slovn´ıky PC Traslator Probl´ emy • Rozpozn´ an´ı vec´ı, kter´e se nepˇrekl´adaj´ı - Rozpozn´av´an´ı pojmenovan´ ych entit - Named-entity recognizer • Zachov´ av´ a anglick´ y poˇr´ adek slov ve vˇetˇe 6
Korpusov´ a lingvistika Nejcennˇejˇs´ı je to, ˇze korpus je oznaˇckovan´ y. Nejˇcastˇeji morfologick´a alanl´ yza, ale je dobr´e vˇedˇet i p´ ady, rody, ˇc´ısla a podobnˇe. D˚ uleˇzit´ ym rozhodnut´ım je, co do korpusu d´ avat. Znaˇ ckov´ an´ı • Z´ akladem je morfoligick´ a anal´ yza • Dalˇs´ı nejd˚ uleˇzitˇejˇs´ı je syntaxtick´e oznaˇckov´an´ı(m˚ uˇze pomoct pˇri ovˇeˇrov´an´ı hypot´ez ohlednˇe jazykov´ ych pravidel)
Historie Brown˚ uv korpus • W. N. Francis a H. Kuˇcera na Brown University • 1 milion slov text˚ u v americk´e angliˇctinˇe vytiˇstˇen´ ych v roce 1961 • 15 druh˚ u textu, 500 text˚ u, kaˇzd´ y asi kolem 2000 slov • Snaha o z´ısk´ an´ı reprezentativn´ıho vzorku(dnes sp´ıˇse snaha o z´ısk´an´ı co nejvˇetˇs´ıho mnoˇzstv´ı dat) • Oznaˇckov´ an pouze morfologicky PennTreebank ˇ anky z Wall Street Journal • Cl´ • Syntakticky znaˇckovan´ y korpus • Z´ avorkovac´ı syst´em. ˇ Cesk´ y N´ arodn´ı Korpus ´ ˇ y • Spolupr´ ace UK, MU a Ustavu pro jazyk Cesk´ • Sb´ır´ a text od zaˇc´ atku devades´at´ ych let - zpoˇc´atku hlavnˇe novinov´e texty • Morfologicky znaˇckov´ ano • V souˇcastnosti 500milion˚ u slov, 100milion˚ u slov dostupn´ ych veˇrejnosti • Neznaˇckuje se ruˇcnˇe, pouˇz´ıv´a se tagger - je potˇreba v´ ysledky proˇcistit • Jsou vytv´ aˇrena gramatick´ a pravidla pom´ahaj´ıc´ı odhalit chyby zp˚ usoben´e taggerem
7
• Sloˇzen´ı - 60% - novinov´e texty, 15% literatura(11% fikce), 25% technick´e a specializovan´e texty • Pr˚ umˇernˇe 4.29 znaˇcek na slovo • Pr˚ umˇern´ a pˇrestnost taggeru - 95% Praˇ zsk´ y z´ avislostn´ı korpus • Inspirov´ an Penn Treebankem, ale mnohem sloˇzitˇejˇs´ı • Snaha vybudovat znaˇcky na nˇekolika u ´rovn´ıch – morfologick´ ai – syntaktick´ a -analytick´ a ∗ skoro povrchov´ a - pˇriˇrazen´ı analitick´e funkce ∗ definov´ ano pomoc´ı pˇr´ıklad˚ u ∗ tvoˇr´ı strom - uzly jsou funkˇcn´ı jednotky(slova, interpunkˇcn´ı znam´enka, ...) ∗ kaˇzd´ a vˇeta m´ a jeden technick´ y uzel – tectogrammatick´ a(hloubkov´a) ∗ Mus´ı tam b´ yt vˇse podstatn´e(doplnˇen´ı nevyj´adˇren´ehopodmˇetu) ∗ Oproti pˇredchoz´ı u ´rovni nˇeco ubyde(napˇr. pˇredloˇzky urˇcuj´ıc´ı p´ad a obˇcas i nˇeco pˇribyde(povinn´e aktanty(slova spadaj´ıc´ı do valenˇcn´ıho r´amce slovesa) ∗ Uˇz zbudov´ an´ı struktury a rohodnut´ı kter´a slova se budou znaˇckovat m´ uˇze b´ yt z´ aleˇzet na u ´hlu pohledu ˇ ri podstruktury ∗ Ctyˇ 1. z´ avislostn´ı struktura, funktory 2. topic/focus - j´ adro a ohnisko vˇety a slovosled 3. koreference - co zastupuj´ı z´ajmena, kontext 4. zbytek ∗ Vˇety ch´ ap´ anyv kontextu • Bˇehem anotace byli vyvynuty i manu´aly pro anotaci(potˇreba sjednotit anot´atory ˇ aho n´ • Podmnoˇzina Cesk´ arodn´ıho korpusu(novinov´e texty) 8
Praˇ zsk´ y Arabsk´ y z´ avislostn´ı slovn´ık • Na araby se dobˇre sch´ anˇej pen´ıze ;-) • Uk´ azka, ˇze tectogrammatick´a rovina je dobr´a pro vˇsechny roviny, l´epe se bude pˇrekl´ adat na tectogrammatick´e u ´rovni, ot´azka je ovˇsem n´aroˇcnost dost´ an´ı se na tectogrammatickou u ´roveˇ n PCEDT • • •
Anotov´ an automaticky ˇ Cesko-Anglick´ y Data z Wall Street Journal
Anotaˇ cn´ı pom˚ ucky • NetGraph • TrEd
9