´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Jazykov´e modelov´an´ı Pavel Smrˇz
27. listopadu 2006
Rozˇs´ıˇren´ı model˚ u n-tic
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Osnova
1
´ Uvod – motivace, z´akladn´ı pojmy
2
Modely n-tic
3
Zp˚ usob vyhodnocov´an´ı
4
Vyhlazov´an´ı a stahov´an´ı
5
Rozˇs´ıˇren´ı model˚ u n-tic
6
Lingvisticky motivovan´e modely
Rozˇs´ıˇren´ı model˚ u n-tic
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Motivace ´ pˇredpovˇedˇet n´asleduj´ıc´ı slovo na z´akladˇe pˇredchoz´ıch Ukol: Pouˇzit´ı: Rozpozn´av´an´ı mluven´e ˇreˇci Strojov´y pˇreklad Obnoven´ı diakritiky (doplnˇen´ı h´aˇck˚ u a ˇc´arek) Korektory pravopisu a gramatiky OCR – rozpozn´av´an´ı tiˇstˇen´eho textu Rozpozn´av´an´ı rukopisn´eho textu Prediktivn´ı psan´ı SMS Pravdˇepodobnostn´ı syntaktick´a anal´yza Zjednoznaˇcn ˇov´an´ı morfosyntaktick´ych kategori´ı Zjednoznaˇcn ˇov´an´ı slovn´ıch v´yznam˚ u
Dlouh´a historie – Andrej A. Markov (1913) – modelov´an´ı ˇretˇezc˚ u znak˚ u, Claude E. Shannon – Shannonova hra (1951) – odhad dalˇs´ıho slova/p´ısmene v textu
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Z´akladn´ı pojmy
Urˇcujeme apriorn´ı pravdˇepodobnost ˇretˇezc˚ u slov Vezmeme tr´enovac´ı vzorek textov´ych dat Pouˇzijeme statistickou inferenci – bereme data (generovan´a podle nezn´am´eho rozdˇelen´ı pravdˇepodobnosti) a dˇel´ame z´avˇery o tomto rozdˇelen´ı Chceme se nauˇ cit“ rozdˇelen´ı pravdˇepodobnosti, tj. funkci P ” P takovou, ˇze: P(x) = 1, P(x) ≥ 0 ∀x ∈ V ∗ x∈V ∗
Obvykle pˇredpokl´ad´ame, ˇze tr´enovac´ı vzorek je vybr´an ze z´akladn´ıho rozdˇelen´ı pravdˇepodobnosti P, kter´emu se chceme pomoc´ı P 0 co nejv´ıce pˇribl´ıˇzit.
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Pravidlo zˇretˇezen´ı a Markov˚ uv pˇredpoklad
P(w1 , w2 , . . . , wn ) = P(w1 | START) × P(w2 | START, w1 ) ×P(w3 | START, w1 , w2 ) × . . . ×P(wn | START, w1 , w2 , . . . , wn − 1) ×P(STOP | START, w1 , w2 , . . . , wn−1 , wn ) Markov˚ uv pˇredpoklad nez´avislosti – dalˇs´ı slovo z´aleˇz´ı jen na k pˇredchoz´ıch, napˇr.: P(wi | START, w1 , w2 , . . . , wi − 1) = (wi | wi−2 , wi−1 ) ˇ ad modelu – na z´akladˇe kolika pˇredchoz´ıch slov (= historie) se R´ rozhodujeme
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Velikost model˚ u – pˇr´ıklad
Poˇcet parametr˚ u modelu – pˇredpokl´adejme slovn´ık 50 000 slov (slovn´ıch tvar˚ u): model 1.ˇr´adu – dvojice – 50 000 × 49 999 ≈ 2, 5 × 109 model 2.ˇr´adu – trojice – 50 0002 × 49 999 ≈ 1, 25 × 1014 model 3.ˇr´adu – ˇctveˇrice – 50 0003 × 49 999 ≈ 6, 25 × 1018
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Velikost model˚ u – pˇr´ıklad
Poˇcet parametr˚ u modelu – pˇredpokl´adejme slovn´ık 50 000 slov (slovn´ıch tvar˚ u): model 1.ˇr´adu – dvojice – 50 000 × 49 999 ≈ 2, 5 × 109 model 2.ˇr´adu – trojice – 50 0002 × 49 999 ≈ 1, 25 × 1014 model 3.ˇr´adu – ˇctveˇrice – 50 0003 × 49 999 ≈ 6, 25 × 1018
Nejhorˇs´ı pˇr´ıpad – poˇcet r˚ uzn´ych n-tic je line´arn´ı vzhledem k velikosti korpusu
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Velikost model˚ u – pˇr´ıklad
Poˇcet parametr˚ u modelu – pˇredpokl´adejme slovn´ık 50 000 slov (slovn´ıch tvar˚ u): model 1.ˇr´adu – dvojice – 50 000 × 49 999 ≈ 2, 5 × 109 model 2.ˇr´adu – trojice – 50 0002 × 49 999 ≈ 1, 25 × 1014 model 3.ˇr´adu – ˇctveˇrice – 50 0003 × 49 999 ≈ 6, 25 × 1018
Nejhorˇs´ı pˇr´ıpad – poˇcet r˚ uzn´ych n-tic je line´arn´ı vzhledem k velikosti korpusu Re´aln´y pˇr´ıklad – 275 mil. slov z korpusu Gigaword r˚ uzn´ych slov r˚ uzn´ych dvojic r˚ uzn´ych trojic
716 706 12 537 755 22 174 483
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Odhad nejvˇetˇs´ı vˇerohodnosti (MLE)
MLE: PMLE (wi |w1 w2 . . . wi−1 ) = PMLE (wi |wi−n+1 . . . wi−1 ) =
P CC(w(w
i−n+1 ...wi )
j
i−n+1 ...wi wj )
=
C (wi−n+1 ...wi ) C (wi−n+1 ...wi−1 )
Vyb´ır´ame takov´e hodnoty parametr˚ u, kter´e d´avaj´ı nejvyˇsˇs´ı pravdˇepodobnost tr´enovac´ım dat˚ um (v´yskyt urˇcit´e n-tice je br´an jako n´ahodn´a promˇenn´a s binomin´aln´ım rozdˇelen´ım, tzn. kaˇzd´a n-tice je nez´avisl´a na dalˇs´ıch – neplat´ı!!!)
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Pˇr´ıklad – unigramov´y model Tr´enovac´ı mnoˇzina: Honza m´a kr´asn´y velk´y byt Petr koupil kr´asn´y byt Franta koupil drah´y nov´y byt Testovac´ı vˇeta: Franta koupil kr´asn´y velk´y byt Model M0 : P(Honza) = 0,0714 P(velk´y) = 0,0714 P(koupil) = 0,1429 P(nov´y) = 0,0714
P(m´a) = 0,0714 P(byt) = 0,2143 P(Franta) = 0,0714
P(kr´asn´y) = 0,1429 P(Petr) = 0,0714 P(drah´y) = 0,0714
P(S) = 0, 0714 × 0, 1429 × 0, 0714 × 0, 1429 × 0, 2143 = 0, 0000231 | {z } | {z } | {z } | {z } | {z } Franta
koupil
kr ´ asn´ y
velk y´
byt
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Pˇr´ıklad – bigramov´y model
Model M1 : P(m´a | Honza) = 1, 0 P(velk y´ | kr ´asn´ y ) = 0, 5 P(byt | velk y´ ) = 1, 0 P(kr ´asn´ y | koupil) = 0, 5 P(koupil | Franta) = 1, 0 P(byt | nov y´ ) = 1, 0 P(Honza | START ) = 1, 0
P(kr ´asn´ y | m´a) = 1, 0 P(byt | kr ´asn´ y ) = 0, 5 P(koupil | Petr ) = 1, 0 P(drah´ y | koupil) = 0, 5 P(nov y´ | drah´ y ) = 1, 0 P(Franta | START ) = 0, 333 P(Petr | START ) = 0, 333
P(S) = 0, 333 × 1, 0 × 0, 5 × 0, 5 × 1, 0 = 0, 0833 | {z } |{z} |{z} |{z} |{z} Franta
koupil
kr ´ asn´ y
velk y´
byt
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Vyhodnocov´an´ı
Nejpˇresnˇejˇs´ı – vyhodnocov´an´ı v konkr´etn´ıch aplikac´ıch (citlivost na zmˇeny stylu, t´ematu, ˇz´anru – 2 mil. > 140 mil.) ˇ Casto nevhodn´e – nez´avisl´y v´yvoj – nutnost samostatn´eho vyhodnocov´an´ı jazykov´eho modelu → perplexita Dobr´y model d´av´a vysokou pravdˇepodobnost skuteˇcn´emu textu Entropie (neuspoˇr´adanost) H(P) = −
X x
P(x) log2 P(x)
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Entropie (1) Entropie pˇres posloupnosti slov w1 , . . . , wn jazyka L: X H(w1 , . . . , wn ) = − P(W1n ) log2 P(W1n ) W1n ∈L
Entropie na posloupnostech silnˇe z´avis´ı na jejich d´elce Abychom z´ıskali rozumnou m´ıru, poˇc´ıt´ame entropii na slovo – m´ıru entropie – pr˚ umˇern´y poˇcet bit˚ u na slovo potˇrebn´y k optim´aln´ımu zak´odov´an´ı testovac´ıch dat 1 X 1 H(w1 , . . . , wn ) = − P(W1n ) log2 P(W1n ) n n n W1 ∈L
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Entropie (2) Entropii pro jazyk L potom z´ısk´ame, pokud uv´aˇz´ıme posloupnosti nekoneˇcn´e d´elky: 1 1 X H(w1 , . . . , wn ) = lim − P(W1n ) log2 P(W1n ) n→∞ n n→∞ n n
H(L) = lim
W1 ∈L
Tento vztah lze na z´akladˇe Shannonovy-McMillanovy-Breimanovy vˇety zjednoduˇsit: 1 H(L) = lim − log2 P(W1n ) n→∞ n Intuitivnˇe – pokud je posloupnost nekoneˇcn´a, nemus´ıme sˇc´ıtat pˇres vˇsechny moˇzn´e posloupnosti, nebot’ nekoneˇcn´a posloupnost obsahuje vˇsechny podposloupnosti
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Entropie (3) V praxi nezn´ame skuteˇcn´e rozdˇelen´ı pravdˇepodobnosti P pro jazyk L, m´ame pouze model M Definujeme vz´ajemnou entropii 1 H(P, M) = lim − log2 M(W1n ) n→∞ n D´ale nem´ame nekoneˇcn´e posloupnosti, jsme omezeni testovac´ı mnoˇzinou (pokud je dostateˇcnˇe velk´a, vypoˇcten´a vz´ajemn´a entropie je dobr´ym odhadem skuteˇcn´e vz´ajemn´e entropie) Perplexita – pr˚ umˇern´y poˇcet variant v kaˇzd´em bodˇe PP(P, M) = 2H(P,M)
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Pˇr´ıklad – perplexita pro bigramov´y model
P(S) = 0, 333 × 1, 0 × 0, 5 × 0, 5 × 1, 0 = 0, 0833 | {z } |{z} |{z} |{z} |{z} Franta
koupil
kr ´ asn´ y
velk y´
byt
H(P, M) = − 51 log2 P(S) = − 15 (log2 0, 333 + log2 1, 0 + log2 0, 5 | {z } |{z} |{z} Franta
koupil
+ log2 0, 5 + log2 1, 0 ) |{z} |{z} velk y´
byt
= 0, 7173 PP(P, M) = 2H(P,M) = 1, 6441
kr ´ asn´ y
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Motivaˇcn´ı pˇr´ıklad pro vyhlazov´an´ı a stahov´an´ı
Testovac´ı vˇeta S2 : Franta koupil kr´asn´y nov´y byt
Rozˇs´ıˇren´ı model˚ u n-tic
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Motivaˇcn´ı pˇr´ıklad pro vyhlazov´an´ı a stahov´an´ı
Testovac´ı vˇeta S2 : Franta koupil kr´asn´y nov´y byt Dvojice kr´asn´y nov´y nebyla v tr´enovac´ıch datech: PMLE (nov y´ | kr ´asn´ y ) = 0 → PMLE (S2 ) = 0 Dvˇe pˇr´ıˇciny nulov´e pravdˇepodobnosti: V tr´enovac´ıch datech nebylo dan´e slovo – nezn´am´a slova“ – ” token UNKNOWN V tr´enovac´ıch datech nebyla dan´a n-tice – vyhlazov´an´ı – pˇriˇrad´ı se jim nˇejak´a n´ızk´a pravdˇepodobnost – a/nebo stahov´an´ı k niˇzˇs´ım model˚ um
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Vyhlazov´an´ı odeˇc´ıt´an´ım konstanty ˇ sen´ı – sn´ıˇzit pravdˇepodobnost n-tic z tr´enovac´ıch dat (a Reˇ nechat ji pro nevidˇen´e“), tzn. vyhladit“ funkci ” ” pravdˇepodobnosti (nebudou 0) – discounting, smoothing Vyhlazov´an´ı pˇriˇc´ıt´an´ım jedniˇcky“ (Laplaceovo): ” C (wi−n+1 . . . wi ) + 1 PMLE (wi |w1 w2 . . . wi−1 ) = C (wi−n+1 . . . wi−1 ) + B Odpov´ıd´a pˇr´ıpadu, kdy jsou vˇsechny n-tice stejnˇe pravdˇepodobn´e Z´avisl´e na velikosti slovn´ıku!!! Pro ˇr´ıdk´a data nad velk´ym slovn´ıkem d´av´a pˇr´ıliˇs velkou pravdˇepodobnost nepozorovan´ym“ n-tic´ım ”
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Vyhlazov´an´ı odeˇc´ıt´an´ım konstanty ˇ sen´ı – sn´ıˇzit pravdˇepodobnost n-tic z tr´enovac´ıch dat (a Reˇ nechat ji pro nevidˇen´e“), tzn. vyhladit“ funkci ” ” pravdˇepodobnosti (nebudou 0) – discounting, smoothing Vyhlazov´an´ı pˇriˇc´ıt´an´ım jedniˇcky“ (Laplaceovo): ” C (wi−n+1 . . . wi ) + 1 PLap (wi |w1 w2 . . . wi−1 ) = C (wi−n+1 . . . wi−1 ) + B Odpov´ıd´a pˇr´ıpadu, kdy jsou vˇsechny n-tice stejnˇe pravdˇepodobn´e Z´avisl´e na velikosti slovn´ıku!!! Pro ˇr´ıdk´a data nad velk´ym slovn´ıkem d´av´a pˇr´ıliˇs velkou pravdˇepodobnost nepozorovan´ym“ n-tic´ım ”
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Vyhlazov´an´ı odeˇc´ıt´an´ım konstanty – re´aln´y pˇr´ıklad
Experimenty Churche a Galea (1991) – 22 mil. tr´enovac´ıch a 22 mil. testovac´ıch slov, ze stejn´e oblasti – poˇcty dvojic: ˇ Cetnost v tr´enovac´ıch datech 0 1 2 3 4 5
Skuteˇcn´a ˇcetnost v testovac´ıch datech 0,000027 0,448 1,25 2,24 3,23 4,21
Oˇcek´avan´a ˇcetnost v testovac´ıch datech (pˇriˇc´ıt´an´ı jedniˇcky) 0,000132 0,000274 0,000411 0,000548 0,000685 0,000822
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Vyhlazov´an´ı odeˇc´ıt´an´ım konstanty – hodnocen´ı Nadhodnotili jsme nevidˇen´e“ (0, 000132 > 0, 000027), a ” protoˇze je jich tak mnoho, sebrali“ n´am pˇr´ıliˇs moc ” Pro ˇr´ıdk´a data nad velk´ym slovn´ıkem d´av´a pˇr´ıliˇs velkou pravdˇepodobnost nepozorovan´ym“ n-tic´ım ” Krichevski-Trofimov (pˇriˇc´ıt´an´ı 1/2): PKT (wi |w1 w2 . . . wi−1 ) =
C (wi−n+1 . . . wi ) + 12 C (wi−n+1 . . . wi−1 ) + 12 B
Hardy a Lidstone: PHL (wi |w1 w2 . . . wi−1 ) =
C (wi−n+1 . . . wi ) + λ C (wi−n+1 . . . wi−1 ) + λB
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Jeffreys˚ uv-Perks˚ uv odhad
Jeffreys˚ uv-Perks˚ uv z´akon – line´arn´ı interpolace mezi MLE a uniformn´ım rozdˇelen´ım apriorn´ı pravdˇepodobnosti odhad oˇcek´avan´e vˇerohodnosti
PJP (wi |w1 w2 . . . wi−1 ) = µ µ=
C (wi−n+1 . . . wi ) 1 + (1 − µ) N B
N N+Bλ
Vyhlazov´an´ı na validaˇcn´ıch datech
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Good˚ uv-Turing˚ uv odhad I. J. Good a A. M. Turing chtˇeli rozlomit Enigmu . . . Good-Turing: n-tici, kter´a se vyskytla r kr´at, bereme, jako by se vyskytla r ∗ kr´at: r ∗ = (r + 1)
E (Nr +1 ) E (Nr )
V´yborn´e v´ysledky pro m´alo frekventovan´e, proto v praxi ˇcasto: pro #(w1 , ..., wn ) = r > 0 : ∗ +1) PGT (w1 , ..., wn ) = rN ; r ∗ = (r + 1) S(r S(r ) pro #(w1 , ..., wn ) = 0 : PGT (w1 , ..., wn ) = NN01N
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Modely zaloˇzen´e na tˇr´ıd´ach slov n-tice, kter´a se nevyskytla v tr´enovac´ıch datech by mˇela dostat vyˇsˇs´ı pravdˇepodobnost, pokud je sloˇzena z prvk˚ u, kter´e jsou podobn´e prvk˚ um vyskytuj´ıc´ıch se n-tic LM zaloˇzen´e na tˇr´ıd´ach slov – kombinace slov a znaˇcek tˇr´ıd je m´enˇe neˇz slov – potˇrebujeme m´enˇe dat, m´ame menˇs´ı modely v´ypoˇcetnˇe n´aroˇcn´e, problematick´e urˇcen´ı poˇctu tˇr´ıd, obt´ıˇznˇe zaˇcleniteln´e do dekod´eru, lingvisticky motivovan´e tˇr´ıdy vs. ˇcistˇe statistick´y pˇr´ıstup morfologick´e tˇr´ıdy LSI pro nalezen´ı s´emantick´ych tˇr´ıd
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Automaticky generovan´e tˇr´ıdy – slovo v 1 tˇr´ıdˇe Shlukovac´ı algoritmus – nemus´ı existovat snadn´a interpretace Napˇr´ıklad maximalizace pr˚ umˇern´e vz´ajemn´e informace: X P(c(wi ), c(wj )) arg max P(c(wi ), c(wj ))log P(c(wi ))P(c(wj )) {c} c(wi ),c(wj )
kde c(wi ) je tˇr´ıda i´t´eho slova Spojen´ı s modely n-tic slov n−1 n−1 P(wn |wn−N+1 ) = P(wn |cn )P(cn |cn−N+1 )
kde cn je tˇr´ıda, do n´ıˇz patˇr´ı n´t´e slovo a P(wn |cn ) = n−1 P(cn |cn−N+1 )=
n C (cn−N+1 ) n−1 C (cn−N+1 )
C (wn ) C (cn )
´ Uvod
Modely n-tic
Vyhodnocov´ an´ı
Vyhlazov´ an´ı a stahov´ an´ı
Rozˇs´ıˇren´ı model˚ u n-tic
Automaticky generovan´e tˇr´ıdy – slovo v n tˇr´ıd´ach
n−1 P(wn |wn−N+1 )=
X
n−1 P(wn |cn )P(cn |cn−N+1 )
cn
Spojen´ı s modely n-tic slov pomoc´ı line´arn´ı interpolace P(w |h) = λ0 Pg (w |h) +
M X
λm Pc (w |c(w ), S)Pm (c(w )|c(h))
m=i
kde w je dan´e slovo, Pg je obecn´y jazykov´y model tr´enovan´y na cel´em korpusu, h je historie n-tic, Pm je jedna P z M tˇr´ıd, λm = 1 λm je v´aha pˇriˇrazen´a kaˇzd´emu modelu tak, ˇze (λm > 0), Pc je tˇr´ıda dan´a slovu unigramov´ym modelem a S je zdroj adaptaˇcn´ıch dat pouˇzit´y k tr´enov´an´ı Pc