Az inform´ aci´ osz´ am´ıt´ as n´ eh´ any fontos fogalma ´ es eredm´ enye. 1. Az entr´ opia ´ es felt´ eteles entr´ opia fogalma ´ es tulajdons´ agai. Annak ´erdek´eben, hogy meg´erts¨ uk az entr´ opia fogalm´at ´es azt, hogy milyen probl´em´ak vezettek annak megalkot´ as´ahoz tekints¨ uk a k¨ ovetkez˝ o k´erd´est. Tudunk-e nyerni a tot´on, ha j´ ol ismerj¨ uk a tot´oban szerepl˝o csapatok erej´et, ´es ez´ert nagy val´ osz´ın˝ us´eggel meg tudjuk tippelni a m´erk˝ oz´esek eredm´eny´et? Mivel igaz´ an nagy nyerem´enyt csak telital´alatos szelv´ennyel lehet nyerni, foglalkozunk azzal a k´erd´essel, hogy h´any szelv´enyt kell kit¨ olteni a telital´alat el´er´ese ´erdek´eben annak, aki ´ert ´es annak aki nem ´ert a futballhoz. Azt v´ arjuk, hogy egy futballhoz ´ert˝ onek sokkal jobbak a nyer´esi es´elyei. Ez ´ıgy is van. De ahhoz, hogy ezt jobban meg´erts¨ uk ´es a probl´em´at alaposabban vizsg´alhassuk el˝ osz¨ or meg kell fogalmazni a k´erd´est pontosabban. Ha biztos telital´alatot szeretn´enk el´erni, akkor hi´ aba tudjuk az eredm´enyeket nagy, de nem 100 sz´azal´ekos biztons´aggal eltal´ alni, c´elunkat csak u ´gy ´erhetj¨ uk el, ha minden lehets´eges kimenetre fogadunk. Ebben az esetben teh´at nem tudunk m´ ast tenni, mint egy olyan fogad´ o, aki semmit sem tud az egyes m´erk˝ oz´esek val´ osz´ın˝ u eredm´eny´er˝ ol. M´as azonban a helyzet, ha megel´egsz¨ unk azzal, hogy nagy, mondjuk 0.95 val´ osz´ın˝ us´eggel nyerj¨ unk. Ekkor a futballhoz ´ert˝ o hat´arozott el˝ onyben van a futballhoz nem ´ert˝ ovel szemben. Neki sokkal kevesebb szelv´enyt kell kit¨ olteni e c´el el´er´ese ´erdek´eben, mint a m´ asiknak. M´asr´eszt elk´epzelhet˝o, hogy ´erdemes tot´ozni, ha 10000 szelv´eny kit¨ olt´es´evel tudjuk biztos´ıtani a majdnem biztos nyer´est, de nem ´erdemes akkor, ha ehhez 100000 szelv´enyt kell kit¨ olten¨ unk. A fenti k´erd´es term´eszetesen elvezet a k¨ ovetkez˝ o probl´em´ahoz. Tegy¨ uk fel, hogy n m´erk˝ oz´es van, ezek eredm´enye egym´ ast´ ol f¨ uggetlen, ´es meg tudjuk it´elni, hogy a p´alyav´ alaszt´ o p1 , a vend´egcsapat p2 val´ osz´ın˝ us´eggel nyer, ´es p3 val´ osz´ın˝ us´eggel lesz az eredm´eny d¨ontetlen. Tegy¨ uk fel, hogy ezek a p1 , p2 ´es p3 val´ osz´ın˝ us´egek mindegyik tal´ alkoz´ on ugyanazok a sz´amok, ´es az egyes m´erk˝ oz´esek eredm´enyei egym´ ast´ ol f¨ uggetlenek. Jel¨olj¨ uk a p´alyav´ alaszt´ o nyer´es´enek bek¨ovetkezt´et 1-gyel, a vend´egcsapat´et 2-vel, a d¨ontetlen eredm´enyt pedig x-szel, u ´gy ahogy az a tot´oban szok´ as. Arra vagyunk kiv´ancsiak, hogy h´any tippet, h´any n hossz´ us´ ag´ u 1, 2, x sorozatot kell megadnunk ahhoz, hogy p val´ osz´ın˝ us´eggel ezen tippek valamelyike tartalmazza az o¨sszes m´erk˝ oz´es helyes v´egeredm´eny´et. A p sz´am egy az 1 sz´amn´ al kicsit kisebb r¨ogz´ıtett (azaz a m´erk˝ oz´esek n sz´am´at´ ol nem f¨ ugg˝o) sz´am, ´es minket az ´erdekel, hogy k¨ or¨ ulbel¨ ul h´ any tippet kell megadnunk c´elunk el´er´ese ´erdek´eben akkor, ha n, azaz a m´erk˝ oz´esek sz´ama nagyon nagy. Vil´ agos, hogy ez a sz´am f¨ ugg a p1 , p2 ´es p3 sz´amokt´ ol, azaz att´ol, hogy milyen biztons´aggal tudjuk megtippelni az eredm´enyeket. Az, hogy semmit nem tudunk a lehets´eges v´egeredm´enyr˝ol azt jelenti, hogy p1 = p2 = p3 = 31 . El˝osz¨ or pongyol´ an fogalmazom meg az eredm´enyeket, ´es azokra egy heurisztikus indokl´ ast adok, majd megadom az ´ all´ıt´ asok ´es felhaszn´alt fogalmak pontos megfogalmaz´ as´at az ´ altal´ anos esetben, ´es ismertetem a prec´ız bizony´ıt´ asokat. Meg tudjuk mondani, hogyan kell kit¨ olteni a szelv´enyeket, ha pontosan k tippet tehet¨ unk, ´es az a c´elunk, hogy a lehet˝ o legnagyobb val´ osz´ın˝ us´eggel legyen telital´alatunk. Ha k = 1, akkor a m´erk˝ oz´essorozat legval´ osz´ın˝ ubb eredm´eny´ere ´erdemes tippelni. Ha 1
k = 2, akkor a k´et legval´ osz´ın˝ ubb eredm´enyre tippelj¨ unk, ´es ´ altal´ anos k eset´en a legjobb strat´egia a k legval´ osz´ın˝ ubb eredm´enyre fogadni. Ezut´an ha meghat´ arozzuk, hogy melyik az a legkisebb k = k(n) sz´am, amelyre a k legval´ osz´ın˝ ubb eredm´eny valamelyike legal´ abb p val´ osz´ın˝ us´eggel bek¨ovetkezik, akkor megoldjuk a feladatot. Ennek a k = k(n) sz´amnak a pontos meghat´ aroz´asa azonban neh´ez. Enn´el sokkal egyszer˝ ubb az al´ abbi ´ervel´es, amely a nagy sz´amok (gyenge) t¨orv´enye seg´ıts´eg´evel j´ o k¨ ozel´ıt˝ o ´ert´eket ad a keresett k = k(n) sz´amra. Be fogjuk l´atni, hogy akkor ´erhet˝ o el, hogy majdnem 1 val´ osz´ın˝ us´eggel lesz telitaHn l´alatunk n m´erk˝ oz´es tippel´ese sor´ an, ha k¨ or¨ ulbel¨ ul 2 szelv´enyt t¨olt¨ unk ki alkalmas m´ odon, ahol H egy a p1 , p2 ´es p3 val´ osz´ın˝ us´egekt˝ ol f¨ ugg˝o sz´am. Azaz, exponenci´alisan sok szelv´enyt kell kit¨ olteni, de az hogy milyen H egy¨ utthat´o szerepel a kitev˝ oben att´ol f¨ ugg, hogy milyen biztons´aggal tudjuk eltal´ alni a m´erk˝ oz´esek eredm´eny´et. Ennek a H sz´amnak a kisz´ am´ıt´ asa vezet el az entr´ opia fogalm´anak bevezet´es´ehez. A m´erk˝ oz´essorozat eredm´enye egy n hossz´ us´ ag´ u v´eletlen 1, 2 ´es x jelekb˝ol a´ll´ o sorozat, ahol mindegyik jel a t¨obbiekt˝ol f¨ uggetlen¨ ul p1 val´ osz´ın˝ us´eggel vesz fel 1 p2 val´ osz´ın˝ us´eggel 2 ´es p3 val´ osz´ın˝ us´eggel x ´ert´eket. C´elunk viszonylag kev´es sorozat kiv´alaszt´ asa u ´gy, hogy annak val´ osz´ın˝ us´ege, hogy a megjelen˝o v´eletlen sorozat ezen sorozatok valamelyike legyen majdnem 1. Vegy¨ uk ´eszre, hogy a nagy sz´amok (gyenge) t¨orv´enye szerint majdnem minden sorozat olyan, hogy k¨ or¨ ulbel¨ ul np1 darab 1 ´ert´eket, np2 darab 2 ´ert´eket ´es np3 darab x ´ert´eket tartalmaz. Nevezz¨ unk egy ezzel a tulajdons´aggal rendelkez˝ o sorozatot tipikusnak. Nagy n sz´amra el´eg a tipikus sorozatokra tippelni, mert annak a val´ osz´ın˝ us´ege, hogy valamelyik nem tipikus sorozat jelenik meg majdnem nulla. Ez´ert azt kell meghat´ aroznunk, hogy h´any tipikus sorozat van. A tipikus sorozatok sz´am´at a k¨ ovetkez˝ o heurisztikus ´ervel´es seg´ıts´eg´evel hat´arozhatjuk meg. Egy r¨ogz´ıtett tipikus sorozat megjelen´es´enek a val´ osz´ın˝ us´ege k¨ or¨ ulbel¨ ul 1 np2 np3 pnp p p , a tipikus sorozatok o ¨ sszval´ o sz´ ın˝ u s´ e ge majdnem 1, ez´ e rt a tipikus sorozatok 1 2 3 1 nH , ahol H = −p1 log p1 − p2 log p2 − p3 log p3 . Itt ´es a sz´ama k¨ or¨ ulbel¨ ul pnp1 pnp 2 pnp3 = 2 1 2 3 tov´ abbiakban is a log jel 2-es alap´ u logaritmust fog jelenteni. A term´eszetes logaritmust az ln kifejez´es fogja jel¨olni. Megfogalmazom ´es bebizony´ıtom a fenti heurisztikus ´ervel´es seg´ıts´eg´evel kapott eredm´eny egy term´eszetes ´ altal´ anos´ıt´ as´at. El˝otte ismertetem az eredm´enyben megjelen˝o entr´ opia fogalm´at. Entr´ opia definici´ oja. Legyen ξ egy ´ert´ekeit egy v´eges vagy megsz´ aml´ alhat´ oan v´egtelen X = {x1 , x2 , . . . } P halmazon felvev˝ o val´ osz´ın˝ us´egi v´ altoz´ o, amelyre P (ξ = xj ) = p(xj ), j = 1, 2, . . . , ahol p(xj ) = 1. A ξ val´ osz´ın˝ us´egi v´ altoz´ o entr´ opi´ aja a j
H(ξ) = −
X
p(xj ) log p(xj )
j
esetleg v´egtelen ´ert´eket felvev˝ o mennyis´eg, ahol log a 2-es alap´ u logaritmust jel¨ oli. 1. Megjegyz´ es. K´enyelmi okokb´ ol megengedj¨ uk, hogy az entr´ opia fenti definici´ oj´ aban P (ξ = xj ) = 0 legyen bizonyos xj ´ert´ekekre. Annak ´erdek´eben, hogy a definici´ o ebben az esetben is ´ertelmes legyen bevezetj¨ uk a 0 log 0 = 0 konvenci´ ot. 2
2. Megjegyz´ es. Ha t¨ obb ξ1 , . . . , ξk v´eges vagy megsz´ aml´ alhat´ o sok ´ert´eket felvev˝ o val´ osz´ın˝ us´egi v´ altoz´ onk van, akkor ezek egy¨ uttes H(ξ1 , . . . , ξk ) entr´ opi´ aj´ at u ´gy definia ´ljuk, hogy a ξ1 , . . . , ξk val´ osz´ın˝ us´egi v´ altoz´ o sorozatot term´eszetes m´ odon azonos´ıtjuk a (ξ1 , . . . , ξk ) v´eletlen vektorral, ´es annak entr´ opi´ aj´ at defini´ aljuk, mint a H(ξ1 , . . . , ξk ) entr´ opi´ at. Term´eszetesen a tekintett v´eletlen vektor eloszl´ as´ at a (1)
(k)
(1)
(k)
P ((ξ1 , . . . , ξk ) = (xi1 , . . . , xik )) = P (ξ1 = xi1 , . . . , ξk = xik ) (1)
(k)
k´eplet defini´ alja minden xi1 , . . . , xik sorozatra. Vegy¨ uk ´eszre, hogy egy ξ val´ osz´ın˝ us´egi v´ altoz´ o entr´ opi´aja nem f¨ ugg att´ol, hogy ξ milyen ´ert´ekeket vesz fel. Az csak a val´ osz´ın˝ us´egi mez˝ onek a ξ val´ osz´ın˝ us´egi v´ altoz´ o altal meghat´ ´ arozott partici´oj´at´ ol f¨ ugg, azaz att´ol a partici´ ot´ ol, amelynek elemei a ξ val´ osz´ın˝ us´egi v´ altoz´ o n´ıv´ohalmazai, vagyis azok a halmazok, ahol ξ valamilyen r¨ogz´ıtett ´ert´eket vesz fel. Hasonl´ o megjegyz´es ´erv´enyes a k´es˝obb bevezetend˝ o felt´eteles entr´ opi´ara is. A k¨ ovetkez˝ o eredm´enyt fogjuk bizony´ıtani. T´ etel f¨ uggetlen val´ osz´ın˝ us´ egi v´ altoz´ okb´ ol ´ all´ o tipikus sorozatok sz´ am´ ar´ ol. Legyen ξ egy ´ert´ekeit valamely v´eges X = {x1 , x2 , . . . , xr } halmazon f¨ olvev˝ o val´ osz´ın˝ us´egi v´ altoz´ o, ξ1 , . . . , ξn pedig f¨ uggetlen, a ξ val´ osz´ın˝ us´egi v´ altoz´ oval azonos eloszl´ as´ u val´ osz´ın˝ us´egi v´ altoz´ ok sorozata. Ekkor minden ε > 0 ´es δ > 0 sz´ amhoz l´etezik olyan n0 = n0 (ε, δ) k¨ usz¨ obindex, hogy n ≥ n0 eset´en minden a P ((ξ1 , . . . , ξn ) ∈ A) ≥ δ felt´etelt (k) (k) us´ ag´ u sorozatokb´ ol a ´ll´ o teljes´ıt˝ o A = {(xj1 , . . . , xjn ), 1 ≤ k ≤ L} X halmazbeli n-hossz´ (1−ε)nH(ξ) halmaz L elemsz´ ama teljes´ıti az L = |A| ≥ 2 egyenl˝ otlens´eget. (k) (k) ¯ L ¯ darab X halmazMegford´ıtva, l´etezik olyan A¯ = {(xj1 , . . . , xjn ), 1 ≤ k ≤ L} ¯ ≥ 1 − δ, ´es az beli n-hossz´ us´ ag´ u sorozatb´ ol a ´ll´ o halmaz, amelyre P ((ξ1 , . . . , ξn ) ∈ A) (1+ε)nH(ξ) ¯ elemsz´ ¯ = |A| ¯ ≤ 2 A¯ halmaz L ama teljes´ıti az L egyenl˝ otlens´eget. A fenti egyenl˝ otlens´egekben H(ξ) a ξ val´ osz´ın˝ us´egi v´ altoz´ o entr´ opi´ aj´ at jel¨ oli. Megjegyz´es. A fenti t´etel akkor is ´erv´enyes, ha a ξ val´ osz´ın˝ us´egi v´ altoz´ o nem csak v´eges sok, hanem megsz´ aml´alhat´ oan v´egtelen sok ´ert´eket is felvehet. Egy kieg´esz´ıt´esben ismertetem ennek az ´ altal´ anosabb eredm´enynek a bizony´ıt´ as´at. Ez a bizony´ıt´ as n´eh´ any u ´j gondolatot ig´enyel. Egy k´es˝obb t´argyaland´o h´ıres eredm´enynek, az u ´gynevezett Shannon–McMillan–Breiman t´etelnek egy speci´alis ´es egyszer˝ uen igazolhat´o eset´et fogjuk felhaszn´alni. Bizony´ıt´ as. Jel¨olje B az ¨ osszes olyan X-beli elemekb˝ ol ´ all´ o n hossz´ us´ ag´ u xj1 , . . . , xjn sorozatok halmaz´ at, amely sorozatok legal´ abb np(xk )(1 − ε/2) multiplicit´assal tartalmazz´ ak az xk jelet minden 1 ≤ k ≤ r indexre, ahol p(xk ) = P (ξ = xk ). A nagy sz´amok gyenge t¨orv´enye szerint P ((ξ1 , . . . , ξn ) ∈ B) ≥ 1 − 2δ , ha n ≥ n0 (ε, δ) alkalmas n0 (ε, δ) k¨ usz¨ obindexszel. Ez´ert P ((ξ1 , . . . , ξn ) ∈ A ∩ B) ≥ 2δ , ha P ((ξ1 , . . . , ξn ) ∈ A) ≥ δ. El´eg bel´ atni, hogy az A ∩ B halmaz sz´amoss´ aga nagyobb, mint 2n(1−ε)H(ξ) . Ennek ´erdek´eben defini´aljuk a k¨ ovetkez˝ o mennyis´egeket. Legyen s(k, x(n) ) az x(n) = (xj1 , . . . , xjn ) sorozatban lev˝ o xk jelek sz´ama minden 1 ≤ k ≤ r indexre. Ekkor minden x(n) = 3
(xj1 , . . . , xjn ) ∈ A ∩ B, illetve ´ altal´ anosabban minden x(n) = (xj1 , . . . , xjn ) ∈ B sorozatra P ((ξ1 , . . . , ξn ) = (xj1 , . . . , xjn )) r Y (n) = p(xk )s(k,x ) ≤ p(x1 )n(1−ε/2)p(x1 ) · · · p(xr )n(1−ε/2)p(xr ) = 2−n(1−ε/2)H(ξ) , k=1
´es mivel P ((ξ1 , . . . , ξn ) ∈ A ∩ B) ≥ 2δ , az A ∩ B halmaz sz´amoss´ aga nagyobb, mint δ n(1−ε/2)H(ξ) n(1−ε)H(ξ) ≥2 , ha az n0 (ε, δ) k¨ usz¨ obindexet el´eg nagyra v´ alasztjuk. 22 ¯ ¯ Olyan A halmazt, amelyre P ((ξ1 , . . . , ξn ) ∈ A) > 1 − δ, ´es elemsz´ama teljes´ıti a k´ıv´ant fels˝o becsl´est v´ alaszthatuk u ´gy, mint az ¨ osszes olyan n hossz´ us´ ag´ u X-beli elemeket tartalmaz´ o (xj1 , . . . , xjn ) sorozatb´ ol ´ all´ o halmazt, amely sorozatok legfeljebb np(xk )(1+ε) multiplicit´assal tartalmazz´ ak az xk jelet minden 1 ≤ k ≤ r indexre. Ism´et a nagy sz´amok gyenge t¨orv´eny´ere hivatkozva kapjuk, hogy P ((ξ1 , . . . , ξn ) ∈ A) ≥ 1−δ, ha n ≥ n0 (ε, δ) alkalmas n0 (ε, δ) k¨ usz¨ obindexszel. M´asr´eszt minden x(n) = (xj1 , . . . , xjn ) ∈ A¯ sorozatra P ((ξ1 , . . . , ξn ) = (xj1 , . . . , xjn )) r Y (n) = p(xk )s(k,x ) ≥ p(x1 )n(1+ε)p(x1 ) · · · p(xr )n(1+ε)p(xr ) = 2−n(1+ε)H(ξ) , k=1
´es mivel az ilyen sorozatok ¨ osszval´ osz´ın˝ us´ege kisebb vagy egyenl˝o mint 1, innen k¨ ovetkezik, hogy az A¯ halmaz sz´amoss´ aga kisebb, mint 2n(1+ε)H(ξ) . A fent bizony´ıtott eredm´enyt a k¨ ovetkez˝ o m´ odon is interpret´alhatjuk. Tekints¨ uk egy ξ val´ osz´ın˝ us´egi v´ altoz´ oval azonos eloszl´ as´ u, f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ ok nhossz´ us´ ag´ u sorozatait, ´es v´ alasszuk ki e v´eletlen sorozatok p-ed r´esz´et alkalmas m´ odon, u ´gy hogy csak viszonylag kev´es sorozatot kelljen kiv´alasztanunk. A p-ed r´esz kifejez´es itt azt jelenti, hogy a kiv´alasztott sorozatok ¨ osszval´ osz´ın˝ us´ege legal´ abb p. Az ebben a feladatban szerepl˝o p sz´am teljes´ıti a 0 < p < 1 egyenl˝otlens´eget, egy´ebk´ent tetsz˝olegesen v´ alaszthatjuk. Azt l´attuk be, hogy c´elunkat el´erhetj¨ uk 2nH(ξ)+o(n) alkalmasan v´ alasztott sorozat megad´as´aval, de kevesebbel m´ ar nem. Ennek az eredm´enynek megfogalmazhatjuk az al´ abbi k¨ ovetkezm´eny´et. Ha a tekintett v´eletlen sorozatok nagy r´esz´et meg akarjuk jel¨olni k¨ ul¨ onb¨oz˝ o, de azonos hossz´ us´ ag´ u v´eletlen 0–1 sorozatokkal, ahol a ‘nagy r´esz´et’ kifejez´es azt jelenti, hogy a sorozatok kis (alkalmasan v´ alasztott) ε val´ osz´ın˝ us´egi r´esz´et figyelmen k´ıv¨ ul hagyhatjuk, akkor az egyes sorozatokat k¨ or¨ ulbel¨ ul nH(ξ) hossz´ us´ ag´ u 0–1 sorozatokkal kell megjel¨oln¨ unk. Ezt szok´ as u ´gy interpret´alni, hogy a tekintett v´eletlen sorozat egyes tagjainak a megnevez´es´ehez H(ξ) bit sz¨ uks´eges, azaz ennyi inform´ aci´o kell annak megismer´es´ehez. Olyan probl´em´at tekintett¨ unk, amelynek vizsg´alat´aban term´eszetes m´ odon megjelent az entr´ opia fogalma. Tekints¨ uk ennek a probl´em´anak egy olyan v´ altozat´ at, ahol az el˝ obb t´argyalt feladathoz hasonl´oan egy v´eletlen sorozatot akarunk nagy val´ osz´ın˝ us´eggel eltalal´alni, de rendelkez¨ unk bizonyos plusz inform´ aci´oval. Nevezetesen ismerj¨ uk egy 4
m´ asik, a minket ´erdekl˝ o v´eletlen sorozattal kapcsolatban lev˝ o v´eletlen sorozat ´ert´ekeit, ´es ezt a plusz inform´ aci´ot is fel k´ıv´anjuk haszn´ alni. A probl´ema jobb meg´ert´ese ´erdek´eben tekints¨ uk a kor´ aban vizsg´alt tot´oz´ asr´ ol sz´ol´ o feladat egy olyan v´ altozat´ at, amelyben ilyen k´erd´es mer¨ ul fel. A k¨ ovetkez˝ o feladatot vizsg´aljuk. Megint egy m´erk˝ oz´essorozat eredm´enyeire akarunk j´ ol tippelni a tot´on. Viszont a m´erk˝ oz´esek el˝ otti napon az egyes tal´ alkoz´ okon r´esztvev˝o egy¨ uttesek ifj´ us´ agi csapatai is j´ atszanak egym´ as ellen, ´es annak eredm´eny´et megismerhetj¨ uk a tot´oszelv´eny kit¨ olt´ese el˝ ott. Az, hogy az ifj´ us´ agi csapatok milyen eredm´enyt ´ernek el, hogy vannak felk´esz¨ ulve, inform´ aci´ot ad a nagy csapatok felk´esz¨ ults´eg´er˝ ol is, ´es ez megv´ altoztatja megit´el´es¨ unket a lehets´eges v´egeredm´enyek val´ osz´ın˝ us´eg´er˝ ol. A tot´oszelv´enyek kit¨ olt´es´en´el ´erdemes ezt az inform´aci´ot is figyelembe venni. A k´erd´es az, hogy hogyan vegy¨ uk ezt figyelembe, ´es ezen plusz inform´ aci´ok felhaszn´al´ asa eset´en h´any szelv´enyt kell kit¨ olten¨ unk annak ´erdek´eben, hogy nagy val´ osz´ın˝ us´eggel telital´alatot ´erj¨ unk el. Fogalmazzuk meg a feladatot pontosabban. Tekints¨ uk n m´erk˝ oz´esp´ ar eredm´enyeit, amelyeket jel¨olj¨ unk a (ξl , ηl ), 1 ≤ l ≤ n, jelp´ arokkal. (Az l-ik m´erk˝ oz´esp´ ar eredm´enye a tot´o l-ik fordul´ oj´aban szerepl˝o feln˝ ott ´es a nekik megfelel˝ o ifj´ us´ agi csapatok m´erk˝ oz´es´enek az eredm´enye, amelyeket ξl -lel illetve ηl -lel jel¨ol¨ unk.) Tegy¨ uk fel, hogy ezek a (ξl , ηl ) vektorok egym´ ast´ ol f¨ uggetlenek, ´es azonos eloszl´ as´ uak, tov´ abb´a ezt az eloszl´ ast ismerj¨ uk. Vezess¨ uk be az r(i, j) = P (ξl = i, ηl = j) val´ osz´ın˝ us´egeket, ahol az i ´es j v´ altoz´ ok az 1, 2 ´es x ´ert´ekeket veheti fel. A k´erd´es az, hogy ismerve az η1 , . . . , ηn val´ osz´ın˝ us´egi v´ altoz´ ok ´ert´ekeit, h´any n hossz´ us´ ag´ u 1, 2, x sorozatot kell (alkalmasan) a tot´oszelv´anyen megadni, ha azt akarjuk el´erni, hogy ezen tippsorozatok valamelyike majdnem 1 val´ osz´ın˝ us´eggel megegyezzen a v´eletlen ξ1 , . . . , ξn sorozattal. Most is feltessz¨ uk, hogy a m´erk˝ oz´esek n sz´ama nagy. El˝osz¨ or a feladat heurisztikus megold´ as´at ismertetem, majd megfogalmazok egy altal´ ´ anosabb eredm´enyt, ´es megadom annak a bizony´ıt´ as´at. Jel¨olje p(i) = r(i, 1) + r(i, 2) + r(i, x) a ξl ´es q(j) = r(1, j) + r(2, j) + r(x, j) az ηl val´ osz´ın˝ us´egi v´ altoz´ ok eloszl´ as´at, ahol i ´es j az 1, 2 ´es x ´ert´ekeket veszi fel, ´es jel¨olje r(i,j) osz´ın˝ us´egi v´ altoz´ o felt´eteles eloszl´ as´at felt´eve r(i|j) = q(j) = P (ξl = i|ηl = j) a ξl val´ az ηl val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ek´et. Tekints¨ uk az olyan yv1 , . . . , yvl sorozatokat, amelyek k¨ or¨ ulbel¨ ul nq(j) darab j jelet tartalmaznak, ahol j = 1, 2 vagy x. Ha az η1 , . . . , ηn sorozat, azaz az ifj´ us´ agi m´erk˝ oz´esek eredm´enyeinek a sorozata ilyen ar´ anyban veszi fel ezeket az ´ert´ekeket, akkor tippelj¨ unk u ´gy, hogy az ¨ osszes olyan tippet megadjuk, amelyekben azon k¨ or¨ ulbel¨ ul nq(j) m´erk˝ oz´es k¨ oz¨ ul, amelyeknek ifj´ us´ agi m´erk˝ oz´es megfelel˝ oj´eben az ηl = j eredm´eny sz¨ uletett k¨ or¨ ulbel¨ ul nq(j)r(i|j) = np(i, j) m´erk˝ oz´es eredm´eny´et tippelj¨ uk i-nek, i = 1, 2 vagy x. Ha az ηl , 1 ≤ l ≤ n, m´erk˝ oz´esek eredm´enyei nem teljes´ıtik a k´ıv´ant felt´etelt, akkor a tot´oszelv´enyeket tetsz˝olegesen kit¨ olthetj¨ uk, csup´an arra u ¨gyelve, hogy ne t¨olts¨ unk ki t´ ul sok szelv´enyt. A nagy sz´amok t¨orv´eny´eb˝ ol k¨ ovetkezik, hogy az adott m´ odon kit¨ oltve a szelv´enyeket majdnem egy val´ osz´ın˝ us´eggel lesz telital´alatunk. Azt kell m´eg megbecs¨ ul¨ unk, hogy h´any szelv´enyt t¨olt¨ ott¨ unk ki. Ezt az el˝ oz˝ o feladatban alkalmazott heurisztikus ´ervel´eshez hasonl´oan tehetj¨ uk meg. El´eg csak azokat az eseteket n´ezni, amelyekben az η1 , . . . , ηl 5
val´ osz´ın˝ us´egi v´ altoz´ ok ´ altal felvett yv1 , . . . , yvn eredm´enyek k¨ or¨ ulbel¨ ul nq(j) j eredm´enyt tartalmaznak, j = 1, 2 vagy x. Ebben az esetben egy olyan ξ1 = xu1 , . . . , ξn = xun eredm´enynek, amelyre tippelt¨ unk a felt´etelesQval´ osz´ın˝ (·|η1 = yv1 , . . . , ηn = Qus´ege a Pnr(i,j) yvn ) felt´eteles eloszl´ as szerint k¨ or¨ ulbel¨ ul r(i|j) , ´es mivel annak i∈{1,2,x} j∈{1,2,x}
felt´eteles val´ osz´ın˝ us´ege a tekintett felt´eteles val´ osz´ın˝ us´eg szerint, hogy lesz telital´alatunk majdnem 1, ez´ert a kit¨ olt¨ ott szelv´enyek sz´ama k¨ or¨ ulbel¨ ul Y Y ¯ r(i|j)−nr(i,j) = 2nH , i∈{1,2,x} j∈{1,2,x}
¯ =− ahol H
P
P
r(i, j) log
i∈{1,2,x} j∈{1,2,x}
r(i,j) q(j) .
¯
Teh´ at k¨ or¨ ulbel¨ ul 2nH szelv´eny kit¨ olt´es´evel
tudunk majdnem biztosan telital´alatot el´erni. Annak ´erdek´eben, hogy a fenti heurisztikus t´argyal´ asban kapott eredm´enyt pontosabban megfogalmazhassuk vezess¨ uk be a k¨ ovetkez˝ o fogalmat. A felt´ eteles entr´ opia definici´ oja. Legyen adva k´et ξ ´es η val´ osz´ın˝ us´egi v´ altoz´ o, amelyek ´ert´ekeiket egy v´eges vagy megsz´ aml´ alhat´ oan v´egtelen X = {x1 , x2 , . . . } illetve Y = {y1 , y2 , . . . } halmazon veszik fel, ´es egy¨ uttes eloszl´ asuk valamely r(xi , yP j ) = P (ξ = r(xi , yj ) xi , η = yj ), xi ∈ X, yj ∈ Y , f¨ uggv´eny. Vezess¨ uk be a q(yj ) = P (η = yj ) = xi ∈X
val´ osz´ın˝ us´egeket is minden yj ∈ Y ´ert´ekre. A ξ val´ osz´ın˝ us´egi v´ altoz´ o felt´eteles entr´ opi´ aja az η val´ osz´ın˝ us´egi v´ altoz´ ora vonatkoz´ olag a H(ξ|η) = −
X X
r(xi , yj ) log
xi ∈X yj ∈Y
r(xi , yj ) q(yj )
esetleg v´egtelen ´ert´eket felvev˝ o mennyis´eg, ahol log a 2-es alap´ u logaritmust jel¨ oli. A fenti defini´ oban megengedj¨ uk az r(xi , yj ) = 0 lehet˝ os´eget bizonyos (xi , yj ) p´ arokra. Annak ´erdek´eben, hogy a fenti o ¨sszeget ekkor is ´ertelmezhess¨ uk bevezetj¨ uk a 0 log 0 = ot. 0 log 00 = 0 konvenci´ Megjegyz´ es. Abban az esetben, ha H(η) < ∞, ´erv´enyes a H(ξ|η) = −
X X
r(xi , yj ) log r(xi , yj ) +
xi ∈X yj ∈Y
X
yj ∈Y
q(yj ) log q(yj ) = H(ξ, η) − H(η)
azonoss´ ag. A k¨ ovetkez˝ o t´etel megfogalmaz´as´anak ´erdek´eben vezess¨ unk be n´eh´ any jel¨ol´est. Legyen adva egy X = {x1 , . . . , xr } halmaz, ´es jel¨olje X n az X halmazbeli elemekb˝ ol a´ll´ o n hossz´ us´ ag´ u (xi1 , . . . , xin ) sorozatok halmaz´ at, ahol xik ∈ X minden 1 ≤ k ≤ n indexre. Hasonl´ oan, legyen adva egy Y = {y1 , . . . , ys } halmaz, ´es jel¨olje Y n az yjk ∈ Y , 1 ≤ k ≤ n, elemekb˝ ol ´ all´ o n hossz´ us´ ag´ u (yj1 , . . . , yjn ) sorozatok halmaz´ at. Tov´abb´a, n n (n) (n) (n) jel¨olje X × Y az (x , y ) = ((xi1 , . . . , xin ), (yj1 , . . . , yjn )), x ∈ X n , y (n) ∈ Y n 6
sorozatok halmaz´ at. Adva egy A ⊂ X n × Y n halmaz ´es egy (yj1 , . . . , yjn ) ∈ Y n sorozat legyen A(yj1 , . . . , yjn ) az A halmaz metszete az X n × {(yj1 , . . . , yjn )} halmazzal, azaz A(yj1 , . . . , yjn ) = {(xi1 , . . . , xin ): ((xi1 , . . . , xin ), (yj1 , . . . , yjn )) ∈ A}. Jel¨olje |A| egy (v´eges) A halmaz elemsz´am´at.
Az al´ abb megfogalmazott t´etel jobb meg´ert´ese ´erdek´eben le´ırom el˝ obb annak heurisztikus tartalm´ at. A k¨ ovetkez˝ o probl´em´aval foglalkozunk. Ha adva van f¨ uggetlen, egyforma eloszl´ as´ u (ξj , ηj ), 1 ≤ j ≤ n, v´eletlen vektorok egy sorozata, akkor az η (n) = (η1 , . . . , ηn ) sorozat ismeret´eben meg akarunk adni egy olyan viszonylag kev´es x(n) ∈ X n sorozatb´ ol ´ all´ o halmazt, amely nagy val´ osz´ın˝ us´eggel tartalmazza az ξ (n) = (ξ1 , . . . , ξn ) v´eletlen sorozatot. Ez azt jelenti, hogy olyan A ⊂ X n × Y n halmazt akarunk defini´alni, amelyre a P (ξ (n) ∈ A(y (n) )|η (n) = y (n) ) felt´eteles val´ osz´ın˝ us´eg viszonylag nagy, ´es az A(y (n) ) halmaz |A(y (n) )| sz´amoss´ aga viszonylag kicsi az y (n) ∈ Y n sorozatok nagy r´esz´ere, azaz az y (n) sorozatok egy olyan alkalmas B ⊂ Y n halmaz´ ara, amelyre P (η (n) ∈ B) majdnem 1-gyel egyenl˝o. A t´etel azt ´ all´ıtja, hogy ahhoz, hogy a tekintett felt´eteles val´ osz´ın˝ us´egek teljes´ıts´ek a k´ıv´ant felt´etelt az A halmazt u ´gy kell v´ alasztani, hogy |A(y (n) )| > 2(1−ε)nH(ξ|η) legyen minden y (n) ∈ B sorozatra. M´asr´eszt meg lehet adni a k´ıv´ant tulajdons´aggal rendelkez˝ o A halmazt u ´gy, hogy az |A(y (n) )| < 2(1+ε)nH(ξ|η) egyenl˝otlens´eg teljes¨ ulj¨on minden y (n) ∈ B sorozatra.
T´ etel f¨ uggetlen val´ osz´ın˝ us´ egi v´ altoz´ okb´ ol ´ all´ o´ es egy m´ asik f¨ uggetlen val´ osz´ın˝ us´ egi v´ altoz´ okb´ ol ´ all´ o v´ eletlen sorozat szerint tipikus sorozatok sz´ am´ ar´ ol. Legyen adva egy (ξ, η) v´eletlen vektor, amelynek koordin´ at´ ai k¨ oz¨ ul ξ ´ert´ekeit egy X = {x1 , . . . , xr } η pedig egy Y = {y1 , . . . , ys } v´eges halmazon veszi fel. Legyen adva f¨ uggetlen ´es a (ξ, η) p´ arral azonos eloszl´ as´ u ((ξ1 , η1 ), . . . , (ξn , ηn )) v´eletlen vektorok egy sorozata. Ekkor minden 0 < ε, δ < 1 sz´ amp´ arhoz van egy olyan n0 = n0 (ε, δ) k¨ usz¨ obindex, hogy n n minden n ≥ n0 sz´ amra igaz a k¨ ovetkez˝ oa ´ll´ıt´ as. Ha A ⊂ X ×Y olyan halmaz, amelyre P (((ξ1 , . . . , ξn ), (η1 , . . . , ηn )) ∈ A|η1 = yj1 , . . . , ηn = yjn ) ≥ δ minden (yj1 , . . . , yjn ) ∈ Y n sorozatra, akkor van olyan B0 ⊂ Y n halmaz, amelyre P ((η1 , . . . , ηn ) ∈ B0 ) > 1 − δ, ´es az A(yj1 , . . . , yjn ) halmaz sz´ amoss´ aga teljes´ıti az |A(yj1 , . . . , yjn )| > 2n(1−ε)H(ξ|η) egyenl˝ otlens´eget minden (yj1 , . . . , yjn ) ∈ B0 sorozatra. Igaz a k¨ ovetkez˝ o ford´ıtott ir´ any´ u egyenl˝ otlens´eg is. L´eteznek olyan A ⊂ X n × Y n n ´es B1 ⊂ Y halmazok, amelyekre P ((η1 , . . . , ηn ) ∈ B1 ) ≥ 1 − δ, P (((ξ1 , . . . , ξn ), (η1 , . . . , ηn )) ∈ A|η1 = yj1 , . . . , ηn = yjn ) ≥ 1 − δ minden (yj1 , . . . , yjn ) ∈ B1 sorozatra, ´es az A(yj1 , . . . , yjn ) halmaz sz´ amoss´ aga teljes´ıti az |A(yj1 , . . . , yjn )| ≤ 2n(1+ε)H(ξ|η) egyenl˝ otlens´eget minden (yj1 , . . . , yjn ) ∈ B1 sorozatra. A fenti egyenl˝ otlens´egekben H(ξ|η) a ξ val´ osz´ın˝ us´egi v´ altoz´ o felt´eteles entr´ opi´ aj´ at jel¨ oli az η val´ osz´ın˝ us´egi v´ altoz´ ora vonatkoz´ olag. Feladat: Bizony´ıtsuk be a fenti t´etel olyan ´elesebb form´ aj´ at, amelyben megengedj¨ uk azt is, hogy az X ´es Y halmazok megsz´ aml´ alhat´ oan v´egtelen sz´ amoss´ ag´ uak legyenek. 7
A t´etel bizony´ıt´ asa. Vezess¨ uk be az r(xi , yj ) = P (ξ = xi , η = yj ), q(yj ) = P (η = r P r(x ,y ) yj ) = r(xi , yj ) ´es r(xi |yj ) = P (ξ = xi |η = yj ) = q(yi j )j , 1 ≤ i ≤ r, 1 ≤ j ≤ s, i=1
mennyis´egeket. Adva egy y (n) = (yj1 , . . . , yjn ) ∈ Y n vektor, jel¨olje s(y (n) , j) az y (n) sorozatban szerepl˝o yj elemek sz´am´at, 1 ≤ j ≤ s, ´es defini´aljuk a B0 ∈ Y n halmazt, mint B0 = {y (n) = (yj1 , . . . , yjn ): y (n) ∈ Y n , s(y (n) , j) ≥ (1 − 4ε )nq(yj ) minden 1 ≤ j ≤ s indexre}.
Ekkor a nagy sz´amok t¨orv´enye szerint P ((η1 , . . . , ηn ) ∈ B0 ) ≥ 1 − δ, ha n ≥ n0 egy el´eg nagy n0 = n0 (ε, δ) k¨ usz¨ obindexszel.Defini´ aljuk az ℓ(x(n) , y (n) , i, j) mennyis´eget minden (x(n) , y (n) ) = ((xi1 , . . . , xin ), (yj1 , . . . , yjn )) ∈ X n × Y n sorozatra ´es 1 ≤ i ≤ r, 1 ≤ j ≤ s indexekre u ´gy, mint az (x(n) , y (n) ) vektorban szerepl˝o olyan (xik , yjk ), 1 ≤ k ≤ n, p´arok sz´am´at, amelyek egyenl˝oek az (xi , yj ) p´arral. Adva egy y (n) = (yj1 , . . . , yjn ) ∈ Y (n) vektor defini´aljuk a k¨ ovetkez˝ o C(y (n) ) ⊂ X n halmazt. C(y (n) ) = {x(n) = (xi1 , . . . , xin ): (x(n) , y (n) ) ∈ X n × Y n , ℓ(xn) , y (n) , i, j) ≥ (1 − 2ε )nr(xi , yj )
minden 1 ≤ i ≤ r, 1 ≤ j ≤ s p´arra}.
Megmutatom a nagy sz´amok t¨orv´enye seg´ıts´eg´evel, hogy δ P ((ξ1 , . . . , ξn ) ∈ C(y (n) )|η1 = yj1 , . . . , ηn = yjn ) ≥ 1 − , ha y (n) = (yj1 , . . . , yjn ) ∈ B0 . 2 Ennek ´erdek´eben el˝ osz¨ or r¨ogz´ıtek egy i ´es j sz´amot, ´es megmutatom, hogy az η1 = yj1 , . . . , ηn = yjn felt´etel mellett, ahol y (n) = (yj1 , . . . , yjn ) ∈ B0 , annak felt´eteles val´ osz´ın˝ us´ege, hogy a (ξ1 , . . . , ξn ) sorozat olyan x(n) = (xi1 , . . . , xin ) ´ert´eket vesz fel, amelyre az (x(n) , y (n) ) vektornak legal´ abb n(1 − 2ε ) koordin´ at´ aja egyenl˝o az (xi , yj ) δ (n) oban, ha y ∈ B0 , akkor e felt´eteles val´ osz´ın˝ us´eg p´arral, nagyobb, mint (1 − 2rs ). Val´ ε (n) felt´etel´eben s(y , j) ≥ nq(yj )(1 − 4 ) olyan k index van, amelyre ηk = yj . A ξk val´ osz´ın˝ us´egi v´ altoz´ ok egy¨ uttes eloszl´ asa ezen k indexekre a tekintett felt´eteles eloszl´ as ε (n) uggetlen, r(·|yj ) eloszl´ as´ u val´ osz´ın˝ us´eszerint megegyezik s(y , j) ≥ (1 − 4 )nq(yj ) f¨ gi v´ altoz´ o egy¨ uttes eloszl´ as´aval. Ez´ert ez a sorozat a nagy sz´amok t¨orv´enye szerint δ ) val´ osz´ın˝ us´eggel tartalmaz legal´ abb s(y (n) , j)(1 − 4ε )r(xi , yj ) ≥ t¨obb, mint (1 − 2rs ε 2 ε n(1 − 4 ) q(yj )r(xi |yj ) ≥ n(1 − 2 )r(xi , yj ) sz´am´ u xi elemet minden 1 ≤ i ≤ r indexre, ha n ≥ n0 (ε, δ). Mivel ez az egyenl˝otlens´eg minden (i, j), 1 ≤ i ≤ r, 1 ≤ j ≤ s p´arra ´erv´enyes, innen k¨ ovetkezik a bizony´ıtani k´ıv´ant egyenl˝otlens´eg is. A most bizony´ıtott egyenl˝otlens´egb˝ol ´es a t´etel felt´eteleib˝ol k¨ ovetkezik, hogy tet(n) sz˝oleges y = (yj1 , . . . , yjn ) ∈ B0 vektorra P (((ξ1 , . . . , ξn ), (η1 , . . . , ηn )) ∈ A, (ξ1 , . . . , ξn ) ∈ C(y (n) )|η1 = yj1 , . . . , ηn = yjn ) ≥ ami u ´gy is ´ırhat´ o, hogy P ((ξ1 , . . . , ξn ) ∈ C(y (n) ) ∩ A(y (n) )|η1 = yj1 , . . . , ηn = yjn ) ≥ 8
δ , 2
δ , 2
ahol A(y (n) ) = A(yj1 , . . . , yjn ). Felhaszn´alva ezt az egyenl˝otlens´eget ´es a C(y (n) ) halmaz elemeinek a tulajdons´agait bel´ atjuk, hogy |A(y (n) ) ∩ C(y (n) )| ≥ 2n(1−ε)H(ξ|η) . Ennek ´erdek´eben vegy¨ uk ´eszre, hogy tetsz˝oleges y (n) = (yj1 , . . . , yjn ) ∈ B0 ´es (xi1 , . . . , xin ) ∈ (n) C(y ) vektorokra P (ξ1 = xi1 , . . . , ξn = xin |η1 = yj1 , . . . , ηn = yjn ) = ≤
s r Y Y
i=1 j=1
s r Y Y
i=1 j=1
(n)
r(xi |yj )ℓ(x
,y (n) ,i,j)
r(xi |yj )(1−ε/2)nr(xi ,yj ) = 2−n(1−ε/2)H(ξ|η) .
Az utols´ o k´et egyenl˝otlens´egb˝ol k¨ ovetkezik, hogy |A(yj1 , . . . , yjn )| ≥ |A(yj1 , . . . , yjn ) ∩ C(y (n) )| ≥
δ n(1−ε/2)H(ξ|η) 2 ≥ 2(1−ε)nH(ξ|η) , 2
ha y n) = (yj1 , . . . , yjn ) ∈ B0 . A m´ asik ir´any´ u becsl´est az alkalmas B1 ⊂ Y n ´es A ⊂ X n × Y n halmazok definici´ oj´ aval hasonl´oan bizony´ıthatjuk. Legyen B1 = {y (n) = (yj1 , . . . , yjn ): y (n) ∈ Y n , s(y (n) , j) ≤ (1 + 2ε )nq(yj ) minden 1 ≤ j ≤ s indexre}, ´es A = {(x(n) , y (n) ) = ((xi1 , . . . , xin ), (yj1 , . . . , yjn )): (x(n) , y (n) ) ∈ X n × Y n , y (n) ∈ B1 , ℓ(x(n) , y (n) , i, j) ≤ (1 + ε)nr(xi , yj ) minden 1 ≤ i ≤ r, 1 ≤ j ≤ s p´arra}.
Az el˝ oz˝ o eset ´ervel´es´ehez hasonl´oan bizony´ıthatjuk a nagy sz´amok t¨orv´enye seg´ıts´eg´evel, hogy P ((η1 , . . . , ηn ) ∈ B1 ) ≥ 1 − δ, ha n ≥ n0 , ´es P (((ξ1 , . . . , ξn ), (η1 , . . . , ηn )) ∈ A|η1 = yj1 , . . . , ηn = yjn )
= P ((ξ1 , . . . , ξn ), ∈ A(yj1 , . . . , yjn )|η1 = yj1 , . . . , ηn = yjn ) ≥ 1 − δ
minden (yj1 , . . . , yjn ) ∈ B1 sorozatra. Tov´ abb´a P (ξ1 = xi1 , . . . , ξn = xin |η1 = yj1 , . . . , ηn = yjn ) = ≥
s r Y Y
i=1 j=1
s r Y Y
i=1 j=1
(n)
r(xi |yj )ℓ(x
,y (n) ,i,j)
r(xi |yj )(1+ε)nr(xi ,yj ) = 2−n(1+ε)H(ξ|η) ,
ha (yj1 , . . . , yjn ) ∈ B1 ´es (xi1 , . . . , xin ) ∈ A(yj1 , . . . , yjn ). Felhaszn´alva a (trivi´alis) P ((ξ1 , . . . , ξn ) ∈ A(yj1 , . . . , yjn )|η1 = yj1 , . . . , ηn = yjn ) ≤ 1 egyenl˝otlens´eget innen kapjuk, hogy |A(yj1 , . . . , yjn )| ≤ 2n(1+ε)H(ξ|η) minden (yj1 , . . . , yjn ) ∈ B1 sorozatra. 9
A most bizony´ıtott eredm´enyt az el˝ oz˝ o eredm´enyhez hasonl´oan a k¨ ovetkez˝ ok´epp is interpret´alhatjuk. Legyen adva egy v´eges sok ´ert´eket felvev˝o (ξ, η) v´eletlen vektor (val´ oj´aban az al´ abb megfogalmazott ´ all´ıt´ as akkor is igaz, ha ez a v´eletlen vektor v´egtelen sok ´ert´eket is felvehet, de ezt nem bizony´ıtottuk be), ´es f¨ uggetlen v´eletlen vektoroknak egy ezzel a v´eletlen vektorral azonos eloszl´ as´ u, n-hossz´ us´ ag´ u (ξ1 , η1 ), . . . , (ξn , ηn ) sorozata. Ismerve az η1 , . . . , ηn val´ osz´ın˝ us´egi v´ altoz´ ok ´ert´ekeit, ki akarunk v´ alasztani viszonylag kev´es sorozatot u ´gy, hogy ezek egyike majdnem biztos megegyezz´ek a ξ1 , . . . , ξn v´eletlen sorozat ´ert´ek´evel. A majdnem biztos kiv´alaszt´ as itt azt jelenti, hogy r¨ogz´ıt¨ unk egy kis ε > 0 sz´amot, megadjuk az (η1 , . . . , ηn ) sorozatok lehets´eges ´ert´ekeinek egy legal´ abb 1 − ε m´ert´ek˝ u halmaz´ at, ´es amennyiben az (η1 , . . . , ηn ) sorozat ezek valamelyik´evel egyenl˝o, akkor kijel¨ olj¨ uk n hossz´ us´ ag´ u sorozatok egy viszonylag kev´es elemb˝ol ´ all´ o halmaz´ at u ´gy, hogy annak a val´ osz´ın˝ us´ege, hogy a (ξ1 , . . . , ξn ) v´eletlen sorozat megegyezik ezek valamelyik´evel legal´ abb 1 − ε. A kiv´alasztott sorozatok halmaza f¨ ugghet az (η1 , . . . , ηn ) vektor ´ert´ek´et˝ ol. Azt l´attuk be, hogy ezt megtehetj¨ uk nH(ξ|η)+o(n) 2 alkalmasan v´ alasztott sorozat seg´ıts´eg´evel, de kevesebbel m´ ar nem. Ennek az eredm´enynek megfogalmazhatjuk az al´ abbi k¨ ovetkezm´eny´et. Meg akarjuk nevezni a (ξ1 , . . . , ξn ) sorozatokat az η1 , . . . , ηn sorozat ismeret´eben m = m(n) hossz´ us´ ag´ u az η1 , . . . , ηn sorozatt´ ol f¨ ugg˝o v´ alaszt´ assal 0–1 sorozatokkal u ´gy, hogy 1−ε val´ osz´ın˝ us´eggel egy (ξ1 , . . . , ξn ) sorozatot megnevez¨ unk, ´es r¨ogz´ıtett η1 , . . . , ηn sorozat megjelen´ese eset´en k´et k¨ ul¨ onb¨oz˝ o ξ1 , . . . , ξn sorozat elnevez´ese k¨ ul¨ onb¨oz˝ o. Ez lehets´eges m = nH(ξ|η) + o(n) hossz´ us´ ag´ u 0–1 sorozatokkal, de r¨ovidebb sorozatokkal nem. Ezt szok´ as u ´gy interpret´alni, hogy az η1 , . . . , ηn sorozat ismeret´eben a ξ1 , . . . , ξn sorozat egyes tagjainak a megnevez´es´ehez H(ξ|η) bit sz¨ uks´eges, azaz az ηk v´ altoz´ ok ´ert´ek´enek az ismeret´eben ennyi inform´ aci´o kell az egyes ξk v´eletlen v´ altoz´ ok megismer´es´ehez. Megfogalmazom ´es bebizony´ıtom az entr´ opi´aval ´es felt´eteles entr´ opi´aval kapcsolatos legfontosabb egyenl˝otlens´egeket. Ezek mindegyike heurisztikus szinten ‘nyilv´anval´ o’ k¨ ovetkezm´enye az entr´ opia ´es felt´eteles entr´ opia szeml´eletes tartalm´ anak. T´ etel az entr´ opi´ aval ´ es felt´ eteles entr´ opi´ aval kapcsolatos fontos egyenl˝ otlens´ egekr˝ ol. Legyenek ξ, η ´es ζ v´eges vagy megsz´ aml´ alhat´ o sok ´ert´eket f¨ olvev˝ o val´ osz´ın˝ us´egi v´ altoz´ ok. Ezek teljes´ıtik a k¨ ovetkez˝ o egyenl˝ otlens´egeket: a1.) H(ξ) ≥ 0, ´es egyenl˝ os´eg akkor ´es csak akkor ´erv´enyes, ha a ξ val´ osz´ın˝ us´egi v´ altoz´ o egy val´ osz´ın˝ us´eggel egy konstanssal egyenl˝ o. a2.) Ha a ξ val´ osz´ın˝ us´egi v´ altoz´ o n ´ert´eket vesz fel, akkor H(ξ) ≤ log n. Egyenl˝ os´eg akkor ´es csak akkor ´erv´enyes, ha a ξ val´ osz´ın˝ us´egi v´ altoz´ o a ´ltal felvett x1 , . . . , xn ´ert´ekekre P (ξ = xk ) = n1 minden 1 ≤ k ≤ n indexre. b.) H(ξ, η) ≤ H(ξ) + H(η), illetve kiss´e a ´ltal´ anosabban H(ξ|η) ≤ H(ξ). Egyenl˝ os´eg akkor ´es csak akkor teljes¨ ul a m´ asodik, a ´ltal´ anosabb egyenl˝ otlens´egben, ha ξ ´es η f¨ uggetlenek, vagy H(ξ|η) = ∞. c.) H(η) ≤ H(ξ, η), illetve kiss´e a ´ltal´ anosabban H(ξ|η) ≥ 0. Egyenl˝ os´eg akkor ´es csak akkor teljes¨ ul a m´ asodik, a ´ltal´ anosabb egyenl˝ otlens´egben, ha ξ = f (η) valamely f (·) 10
f¨ uggv´ennyel, azaz ξ az η f¨ uggv´enye. d.) H(ξ|η, ζ) ≤ H(ξ|η). Abban az esetben, ha l´etezik olyan a (ξ, η) v´eletlen vektort´ ol f¨ uggetlen Z val´ osz´ın˝ us´egi v´ altoz´ o, amelyre ζ = h(η, Z) valamely alkalmas h f¨ uggv´ennyel, akkor egyenl˝ os´eg a ´ll fenn. Megjegyz´es. A felt´eteles entr´ opi´ar´ ol sz´ol´ o b) ´es c) pontban megfogalmazott egyenl˝otlens´egek akkor is ´erv´enyesek, ha H(η) = ∞. Ebben az esetben ezek az a´ll´ıt´ asok t¨obbet mondanak, mint a nekik megfelel˝ o az entr´ opi´ar´ ol megfogalmazott egyenl˝otlens´egek. K¨ ovetkezm´ eny. a.) H(f (ξ)) ≤ H(ξ) tetsz˝ oleges f (·) f¨ uggv´enyre. Vegye fel egy ξ val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ekeit egy v´egtelen X = {x1 , x2 , . . . } halmazban, legyen H(ξ) < ∞, ´es defini´ aljuk minden K ≥ 1 sz´ amra egy olyan ξ (K) , val´ osz´ın˝ us´egi v´ altoz´ ot, amelyre ξ = xj eset´en (K) (K) ∗ ∗ ξ = xj , ha j ≤ K, ´es ξ = x valamely x 6= xj ´ert´ekkel, ha j > K. Ezzel a v´ alaszt´ assal H(ξ (K) ) ≤ H(ξ), ´es minden ε > 0 sz´ amhoz l´etezik olyan K0 = K0 (ε) (K) index, hogy H(ξ ) ≥ H(ξ) − ε, ha K ≥ K0 . ´ enyesek a H(ξ, η|ζ) = H(η|ξ, ζ) + H(ξ|ζ) ´es H(ξ, η) = H(η|ξ) + H(ξ) azonosb.) Erv´ s´ agok. Tov´ abb´ a H(ξ, η|ζ) ≥ H(ξ|ζ), ´es egyenl˝ os´eg akkor ´es csak akkor a ´ll fenn, ha vagy η = f (ξ, ζ) alkalmas f f¨ uggv´ennyel vagy H(ξ|ζ) = ∞. Tov´ abb´ a H(ξ, η|ζ) ≤ H(ξ|ζ) + H(η|ζ). A k¨ ovetkezm´eny bizony´ıt´ asa. Az a) r´esz bizony´ıt´ asa: H(ξ) = H(ξ, f (ξ)) ≥ H(f (ξ)) a t´etel c) pontja szerint. Innen k¨ ovetkezik a H(ξ (K) ) ≤ H(ξ) egyenl˝otlens´eg, az X t´eren defini´alt f (xj ) = xj , ha j ≤ K, ´es f (xj ) = x∗ , ha j ≥ K v´ alaszt´ assal. Legyen ∞ P p(xj ) = P (ξ = xj ), j = 1, 2, . . . . A H(ξ) = − p(xj ) log p(xj ) < ∞ felt´etelb˝ ol j=1
k¨ ovetkezik, hogy l´etezik olyan K0 = K0 (ε) index, hogy −
K P0
j=1
p(xj ) log p(xj ) < H(ξ) − ε.
Ilyen K0 = K0 (ε) v´ alaszt´ assal igaz az a) r´esz utols´ o´ all´ıt´ asa is. P
i,j,k
A k¨ ovetkezm´eny b) r´esz´eben szerepl˝o els˝ o azonoss´ag k¨ ovetkezik a H(ξ, η|ζ) = P P (ξ=i,η=j,ζ=k) ´es H(η|ξ, ζ) + H(ξ|ζ) = P (ξ = i, η = P (ξ = i, η = j, ζ = k) log P (ζ=k) i,j,k
P (ξ=i,η=j,ζ=k) P (ξ=i,ζ=k) P (ξ=i,ζ=k) +log P (ζ=k) )
j, ζ = k)(log rel´ aci´okb´ ol. A m´ asodik azonoss´ag hasonl´ona indokolhat´ o. A b) r´esz tov´ abbi ´ all´ıt´ asa k¨ ovetkezik a H(ξ, η|ζ) = H(η|ξ, ζ) + H(ξ|ζ) azonoss´agb´ol ´es a t´etel c) illetve d) r´esz´enek az ´ all´ıt´ as´ab´ ol.
´ uk meg, hogy az el˝ Erts¨ obb megfogalmazott t´etel egyenl˝otlens´egei az entr´ opia ´es felt´eteles entr´ opia szeml´eletes tartalm´ anak megfelel˝ o tulajdons´agokat fejeznek ki. Az a1) tulajdons´ag azt mondja, hogy a ξ val´ osz´ın˝ us´egi v´ altoz´ o´ altal felvett ´ert´ek megismer´es´ehez pozit´ıv inform´ aci´o sz¨ uks´eges, kiv´eve azt az elfajul´o esetet, amikor ξ ´ert´eke (ismert) konstans, ´es ez´ert nulla inform´ aci´o is elegend˝ o. Az a2) ´ all´ıt´ as szerint egy n ´ert´eket felvev˝o val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ek´enek a megismer´es´ehez akkor kell a legt¨obb inform´ aci´o, ha minden ´ert´eket egyforma val´ osz´ın˝ us´eggel vesz fel, amit u ´gy is interpret´alhatunk, hogy 11
azonk´ıv¨ ul, hogy tudjuk, hogy ξ n ´ert´eket vesz fel, semmilyen plusz inform´ aci´onk nincs annak viselked´es´er˝ ol. A b) tulajdons´ag azt fejezi ki, hogy egy η val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ek´enek az ismerete cs¨okkentheti egy ξ val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ek´enek megismer´es´ehhez sz¨ uks´eges inform´ aci´ot. Akkor nincs cs¨okken´es, ha ξ ´es η f¨ uggetlenek, ´es ez´ert η ismerete semmilyen ´ert´ekes inform´ aci´ot nem ad ξ viselked´es´er˝ ol. A c) tulajdons´ag szerint egy ξ val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ek´enek a megismer´es´ehez pozit´ıv inform´ aci´o sz¨ uks´eges egy η val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ek´enek az ismeret´eben is. Akkor el´eg nulla inform´ aci´o, ha ξ az η ismert f¨ uggv´enye. A d) tulajdons´ag jelent´ese az, hogy egy ξ val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ek´enek a megismer´es´ehez kevesebb inform´ aci´o sz¨ uks´eges, ha egy η val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ek´en k´ıv¨ ul egy m´ asik ζ val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ek´et is ismerj¨ uk. Semmilyen nyeres´eget nem jelent viszont ζ ismerete, ha az a m´ ar ismert η ´es egy mind a ξ mind az η val´ osz´ın˝ us´egi v´ altoz´ ot´ ol f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ o f¨ uggv´enye. A t´etel bizony´ıt´ as´aban fontos szerepet j´ atszik egy egyszer˝ u a´ll´ıt´ as, amelyet a bizony´ıt´ as jobb ´ attekinthet˝ os´ege ´erdek´eben k¨ ul¨ on lemm´aban fogalmazok meg. Lemma az x log x f¨ uggv´ eny viselked´ es´ er˝ ol. A g(x) = x log x, ha x > 0, g(0) = 0 f¨ uggv´eny egy a [0, ∞) f´elegyenesen folytonos, szigor´ uan konvex f¨ uggv´eny, amelyre g(0) = g(1) = 0. A lemma bizony´ıt´ asa. K¨ onnyen l´athat´ o, hogy g(x) folytonos f¨ uggv´eny a [0, ∞) f´elegyenesen, ´es g(0) = g(1) = 0. Ezenk´ıv¨ ul g ′′ (x) = logx e > 0 minden x > 0 sz´amra, ahonnan k¨ ovetkezik, hogy g(x) szigor´ uan konvex f¨ uggv´eny. A t´etel bizony´ıt´ asa. Jel¨olje X = {x1 , x2 , . . . } a ξ, Y = {y1 , y2 , . . . } az η ´es Z = {z1 , z2 , . . . } a ζ val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ekeit. Az a) b) ´es c) r´eszben haszn´aljuk a p(xi ) = P (ξ = xi ), q(yj ) = P (η = yj ) ´es r(xi , yj ) = P (ξ = xi , η = yj ) jel¨ol´est. Az a1) all´ıt´ ´ as nyilv´anval´ o, mert −p(xi ) log p(xi ) > 0, ha 0 < p(xi ) < 1, ´es 0 log 0 = 1 log 1 = 0. Az a2) ´ all´ıt´ as k¨ ovetkezik a ! n n X 1 1X 1 = − log n −H(ξ) = n p(xi ) = ng g(p(xi )) ≥ ng n n i=1 n i=1 egyenl˝otlens´egb˝ol, ahol g(x) a lemm´aban szerepl˝o konvex f¨ uggv´eny. Mivel a g(·) f¨ ugg1 v´eny szigor´ uan konvex egyenl˝os´eg csak a p(xi ) = n , 1 ≤ i ≤ n, esetben lehets´eges. A b) a´ll´ıt´ as bizony´ıt´ asa ´erdek´eben ´ırjuk fel a X X X r(xi , yj ) r(xi , yj ) r(xi , yj ) q(yj )g log =− H(ξ|η) = − q(yj ) q(yj ) q(yj ) q(yj ) j i i,j X X X r(xi , yj ) g q(yj ) ≤− =− g(p(xi )) = H(ξ) q(y ) j j i i 12
egyenl˝otlens´eget. E sz´amol´ asban felhaszn´altuk a g(x) = x log x f¨ uggv´eny konvexit´ as´at!a P P P q(yj ), q(yj ) > 0, q(yj ) = 1, s´ ulyokkal, azaz azt, hogy q(yj )g(uj ) ≤ g q(yj )uj ) j j j P minden u1 ≥ 0, u2 ≥ 0, . . . sz´amsorozatra, ´es a r(xi , yj ) = p(xi ) azonoss´agot. j
Felhaszn´alva a g(·) f¨ uggv´eny szigor´ u konvexit´ as´at kapjuk, hogy egyenl˝os´eg akkor ´es csak r(x ,y ) akkor lehets´eges, ha vagy H(ξ|η) = ∞ vagy b´armely r¨ogz´ıtett i indexre q(yi j )j = αi valamely αi sz´ammal minden j indexre. Ez azt jelenti. hogy r(xi , yjP ) = αi q(j), ´es ezt az azonoss´agot ¨ osszegezve a j v´ altoz´ ora azt kapjuk, hogy p(xi ) = r(xi , yj ) = αi , j
azaz r(xi , yj ) = p(xi )q(yj ) minden i ´es j indexre, teh´at a ξ ´es η val´ osz´ın˝ us´egi v´ altoz´ ok f¨ uggetlenek. A c) a´ll´ıt´ as bizony´ıt´ asa ´erdek´eben vegy¨ uk ´eszre, hogy a X r(xi , yj ) H(ξ|η) = − r(xi , yj ) log q(yj ) i,j r(x ,y )
azonoss´ag jobboldal´ an csak nem-pozit´ıv tagok szerepelnek a 0 ≤ q(yi j )j ≤ 1 rel´ aci´o miatt. Innen k¨ ovetkezik, hogy H(ξ|η) ≥ 0. (A fenti ¨ osszeg tagjainak azonos el˝ ojel´et implicite a b) r´esz bizony´ıt´ as´aban is felhaszn´altuk. Ez feljogos´ıtott minket arra, hogy a bizony´ıt´ asban vizsg´alt ¨ osszeget a sz´amunkra megfelel˝ o m´ odon ´ atrendezz¨ uk.) Egyenl˝os´eg r(xi ,yj ) csak akkor lehets´eges, ha mindegyik q(yj ) tag vagy null´ aval vagy eggyel egyenl˝o. Ez r(x
,y )
i(j) j = 1, azaz P (ξ = xi(j) |η = azt jelenti, hogy l´etezik egy olyan i(j) index, hogy q(y j) yj ) = 1. Ez´ert egyenl˝os´eg akkor ´es csak akkor teljes¨ ul, ha ξ = f (η) valamely alkalmas f f¨ uggv´ennyel. A d) r´esz ´ all´ıt´ as´anak vizsg´alat´aban vezess¨ uk be a p(xi ) = P (ξ = xi ) ´es q(yj ) = P (η = yj ) mennyis´egek mellett az u(xi , yj ) = P (ξ = xi , η = yj ), v(yj , zk ) = P (η = yj , ζ = zk ) valamint a t(xi , yj , zk ) = P (ξ = xi , η = yj , ζ = zk ) mennyis´egeket is. Ezekkel a jel¨ol´esekkel fel´ırhatjuk, hogy X t(xi , yj , zk ) H(ξ|η, ζ) = − t(xi , yj , zk ) log v(yj , zk ) xi ,yj ,zk ! X X v(yj , zk ) t(xi , yj , zk ) t(xi , yj , zk ) =− q(yj ) log q(y ) v(y , z ) v(yj , zk ) j j k xi ,yj zk ! X X v(yj , zk ) t(xi , yj , zk ) =− g q(yj ) q(y ) v(yj , zk ) j xi ,yj zk ! X X v(yj , zk ) t(xi , yj , zk ) ≤− q(yj )g q(yj ) v(yj , zk ) xi ,yj zk ! X X X t(xi , yj , zk ) u(xi , yj ) =− =− q(yj )g q(yj )g q(yj ) q(yj ) x ,y x ,y z i
j
i
k
13
j
=−
X
P (ξ = xi , η = yj ) log
xi ,yj
P (ξ = xi , η = yj ) = H(ξ|η). P (η = yj )
P v(yj ,zk ) = 1, ´es E sz´amol´ asokban felhaszn´altuk azt, hogy a g(·) f¨ uggv´eny konvex, q(yj ) k P t(xi ,yj ,zk ) u(x ,y ) = q(yi j )j . A kapott egyenl˝otlens´egben azonoss´agot ´ırhatunk abban a q(yj ) k
speci´alis esetben, ha
t(xi ,yj ,zk ) v(yj ,zk )
= α(i, j), azaz, ha ez a t¨ort csak az csak az xi ´es yj t(x ,y ,z )
i j k = u(xi , yj )q(yj ) vagy v´ altoz´ ot´ ol f¨ ugg. Speci´ alisan egyenl˝os´eg ´erv´enyes, ha v(y j ,zk ) ekvivalens m´ odon megfogalmazva akkor, ha P (ζ = zk |ξ = xi , η = yj ) = P (ζ = zk |η = yj ) minden i, j ´es k indexre. (N´emi sz´amol´ as megmutatja, mi´ert ´erdemes az α(i, j) f¨ uggv´enyt ´ıgy v´ alasztani.) A t´etel bizony´ıt´ as´at befejezz¨ uk, ha megmutatjuk, hogy ez az azonoss´ag teljes¨ ul akkor, ha ζ = h(η, Z) egy a (ξ, η) v´eletlen vektort´ ol f¨ uggetlen Z val´ osz´ın˝ us´egi v´ altoz´ oval. Ez az azonoss´ag viszont igaz, mert az adott esetben P (ζ = zk |ξ = xi , η = yj ) = P (h(yj , Z) = zk |ξ = xi , η = yj ) = P (h(yj , Z) = zk ) = P (ζ = zk ), ´es hasonl´oan P (ζ = zk |η = yj ) = P (h(yj , Z) = zk |η = yj ) = P (h(yj , Z) = zk ) = P (ζ = zk ).
Feladat: Legyen ξ1 , . . . , ξn egy Markov l´anc. Bizony´ıtsuk be, hogy H(ξn |ξn−1 , . . . , ξ1 ) = H(ξn |ξn−1 ). Kieg´ esz´ıt´ es: F¨ uggetlen, ´ert´ekeiket esetleg v´egtelen halmazban felvev˝ o val´ osz´ın˝ us´egi v´ altoz´ okb´ ol a ´ll´ o tipikus sorozatok sz´ am´ anak a becsl´ese. A f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ okb´ ol a ´ll´ o tipikus sorozatok sz´ am´ ar´ ol sz´ol´ o t´etelben becsl´est adtunk arra, hogy h´any tipikus sorozatot tartalmaz egy ξ val´ osz´ın˝ us´egi v´ altoz´ oval azonos eloszl´ as´ u f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ ok ξ1 , . . . , ξn sorozata. Pontosabban fogalmazva azt becs¨ ult¨ uk meg, hogy r¨ogz´ıtve egy kis ε > 0 sz´amot k¨ or¨ ulbel¨ ul h´any sorozatot tartalmaz a (ξ1 , . . . , ξn ) v´eletlen sorozatok egy 1 − ε m´ert´ek˝ u alkalmasan v´ alasztott r´eszhalmaza. A v´ alasz a ξ val´ osz´ın˝ us´egi v´ altoz´ o H(ξ) entr´ opi´aj´at´ ol f¨ ugg. Ezt az eredm´enyt csak abban az esetben l´attuk be, ha a ξ val´ osz´ın˝ us´egi v´ altoz´ o csak v´eges sok ´ert´eket vehet fel. Ugyanakkor term´eszetes azt v´ arni, hogy a t´etel a´ll´ıt´ asa ´erv´enyes megsz´ aml´alhat´ oan v´egtelen sok ´ert´eket felvev˝o ξ val´ osz´ın˝ us´egi v´ altoz´ o eset´en. Bel´ atjuk, hogy ez t´enyleg ´ıgy van. Az egyszer˝ u fogalmaz´ as ´erdek´eben feltessz¨ uk, hogy H(ξ) < ∞, hiszen val´ oj´aban minket csak ez az eset ´erdekel. A k¨ ovetkez˝ o eredm´enyt fogom bizony´ıtani. T´ etel f¨ uggetlen, v´ eges vagy megsz´ aml´ alhat´ oan v´ egtelen sok ´ ert´ eket felvev˝ o val´ osz´ın˝ us´ egi v´ altoz´ okb´ ol ´ all´ o tipikus sorozatok sz´ am´ ar´ ol. A f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ okb´ ol a ´ll´ o tipikus sorozatok sz´ am´ ar´ ol megfogalmazott t´etel a ´ll´ıt´ asa akkor is ´erv´enyes, ha az abban szerepl˝ o ξ val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ekeit valamely v´eges vagy v´egtelen X = {x1 , x2 , . . . , } halmazon veszi fel, ´es mind¨ ossze annyit tesz¨ unk fel r´ ola, hogy H(ξ) < ∞. 14
A t´etel bizony´ıt´ asa. Defini´ aljuk a p(xk ) = P (ξ = xk ), k = 1, 2, . . . , f¨ uggv´enyt, ´es adva f¨ uggetlen a ξ val´ osz´ın˝ us´egi v´ altoz´ oval azonos eloszl´ as´ u, f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ oknak egy ξ1 , . . . , ξn sorozata vezess¨ uk be a ζj = − log p(ξj ), 1 ≤ j ≤ n, val´ osz´ın˝ us´egi v´ altoz´ okat. Vegy¨ uk ´eszre, hogy Eζj = H(ξ), ´es a nagy sz´amok (gyenge) t¨orv´enye alapj´ an n 1X ζj ⇒ H(ξ), ha n → ∞, n j=1 ahol ⇒ sztochasztikus konvergenci´ at jel¨ol. Jel¨olje ηk (n) a ξ1 , . . . , ξn sorozatban szerepl˝o xk elemek sz´am´at. Ekkor az el˝ obb fel´ırt formula ekvivalens a k¨ ovetkez˝ o a´ll´ıt´ assal: 1X (ηk (n) − np(xk )) log p(xk ) ⇒ 0, n k
ha n → ∞,
(A1)
Megmutatom, hogy a (A1) rel´ aci´ob´ ol k¨ ovetkezik a t´etel ´ all´ıt´ asa. E c´elb´ol v´ alasszunk olyan εn → 0 ´es δn → 0 sorozatokat, amelyekre ! X P (ηk (n) − np(xk )) log p(xk ) > nεn ≤ δn . (A2) k
Ez az (A1) rel´ aci´o ´erv´enyess´ege miatt megtehet˝o. Adva egy x(n) = (xj1 , . . . , xjn ) ∈ X n sorozat jel¨olje s(k, x(n) ) azon r, 1 ≤ r ≤ n, indexek sz´am´at, amelyekre xjr = xk . Defini´ aljuk minden n = 1, 2, . . . indexre az ( ) ∞ X A1 (n) = x(n) = (xj1 , . . . , xjn ): x(n) ∈ X n , (s(k, x(n) ) − np(xk )) log p(xk ) ≤ nεn k=1
´es ∞ X (n) (n) n (n) A2 (n) = x = (xj1 , . . . , xjn ): x ∈ X , (s(k, x )−np(xk )) log p(xk ) ≥ −nεn k=1
halmazokat, ahol εn megegyezik az (A2) formul´ aban szerepl˝o εn sz´ammal. Vegy¨ uk ´eszre, hogy mivel (ξ( ω), . . . , ξn (ω)) = (xj1 , . . . , xjn ), x(n) = (xj1 , . . . , xjn )) eset´en ηk (n)(ω) = s(k, x(n) ). Ez´ert az (A2) formula alapj´ an P ((ξ1 , . . . , ξn ) ∈ Aj (n)) ≥ 1 − δn ≥ 1 − δ/2 mind j = 1 mind j = 2 indexszel, ha n ≥ n0 (δ, ε) alkalmas n0 k¨ usz¨ obindexszel. A f˝ o r´eszben ismertetett bizony´ıt´ ast alkalmazhatjuk a most t´argyalt esetben is minim´alis v´ altoztat´ asokkal, ha megmutatjuk, hogy egy x(n) = (xj1 , . . . , xjn ) ∈ X n vektorra P ((ξ1 , . . . , ξn ) = (xj1 , . . . , xjn )) ≤ 2−n(1−ε)H(ξ) ,
ha x(n) = (xj1 , . . . , xjn ) ∈ A1 (n).
P ((ξ1 , . . . , ξn ) = (xj1 , . . . , xjn )) ≥ 2−n(1+ε)H(ξ) ,
ha x(n) = (xj1 , . . . , xjn ) ∈ A2 (n),
´es
15
felt´eve, hogy n ≥ n0 (ε, δ) egy alkalmas n0 k¨ usz¨ obindexszel. Ezekb˝ol az egyenl˝otlens´egekb˝ol ugyanis a f˝ o r´eszben ismertetett bizony´ıt´ as m´ odszer´evel k¨ ovetkezik a sz´amunkra sz¨ uks´eges becsl´es az A1 (n) illetve az A2 (n) halmaz elemsz´am´ara. A k´ıv´ant becsl´esek bizony´ıt´ as´anak az ´erdek´eben ´ırjuk fel az al´ abbi azonoss´agot (n) n minden x = (xj1 , . . . , xjn ) ∈ X vektorra. P ((ξ1 , . . . , ξn ) = (xj1 , . . . , xjn )) =
∞ Y
p(xk )
s(k,x)
=
k=1
= exp
(
1 log 2
∞ X
)
np(xk ) log p(xk ) exp
k=1
(
1 log 2
∞ Y
k=1 ∞ X
k=1
p(xk )
npk (x)
∞ Y
p(xk )s(k,x)−npk (x)
k=1
)
(s(k, x(n) ) − np(xk )) log p(xk ) .
Innen k¨ ovetkezik, hogy P ((ξ1 , . . . , ξn ) = (xj1 , . . . , xjn )) ≤ 2−nH(ξ) · 2nεn ≥ 2−n(1−ε/2)H(ξ) minden x(n) = (xj1 , . . . , xjn ) ∈ A1 (n) vektorra, ´es P ((ξ1 , . . . , ξn ) = (xj1 , . . . , xjn )) ≥ 2−nH(ξ) · 2−nεn ≥ 2−n(1+ε)H(ξ) minden x(n) = (xj1 , . . . , xjn ) ∈ A2 (n) vektorra, ha n ≥ n0 (ε, δ). Innen k¨ ovetkezik, hogy n(1−ε)H(ξ) az A1 (n) ´es A2 (n) halmazok elemsz´ama teljes´ıti az |A1 (n)| ≥ 2 ´es |A2 (n)| ≤ 2n(1+ε)H(ξ) egyenl˝otlens´egeket. S˝ot az is igaz, hogy amennyiben B ⊂ X n olyan halmaz, amelyre P ((ξ1 , . . . , ξn ) ∈ B) ≥ δ, akkor |A1 (n) ∩ B| ≥ 2n(1−ε)H(ξ) . 2. Forr´ ask´ odol´ as ´ es dek´ odol´ as. Az inform´ aci´oelm´elet egyik legfontosabb probl´em´aja a k¨ ovetkez˝ o k´ odol´ asi probl´em´anak nevezett k´erd´es. Legyen adva val´ osz´ın˝ us´egi v´ altoz´ ok valamely ξ1 , ξ2 , . . . v´eges vagy v´egtelen sorozata, amelynek tagjai ´ert´ek¨ uket valamely X v´eges vagy megsz´ aml´alhat´ oan v´egtelen sz´amoss´ ag´ u halmazban veszik fel. A ξ1 , ξ2 . . . sorozatot forr´ asnak, a ξj val´osz´ın˝ us´egi v´ altoz´ ok ´ altal felvett ´ert´ekek X halmaz´ at pedig (forr´ as) ABC-nek szok´ as nevezni az irodalomban. Ennek a ξ1 , ξ2 . . . sorozatnak az ´ert´ekeit szeretn´enk k¨ oz¨ olni valakivel, akit felhaszn´al´ onak nevez¨ unk. E c´el el´er´ese ´erdek´eben bizonyos jeleket leadunk a felhaszn´al´ onak, aki ezeket a jeleket, esetleg n´emi hib´aval, megkapja. Azt az appar´atust, amely ezeket a jeleket tov´ abb´ıtja csatorn´anak nevezz¨ uk. A felhaszn´al´ o, a csatorn´an kereszt¨ ul megkapott jelek seg´ıts´eg´evel megpr´ob´ alja rekonstru´ alni az eredeti ξ1 , ξ2 , . . . u ¨zenetet. Tegy¨ uk fel, hogy a kiindul´o ξ1 , ξ2 , . . . sorozat egym´ as ut´ ani jelei meg´erkeznek bizonyos sebess´eggel, ´es mi le tudjuk adni a csatorn´an a jeleinket a felhaszn´ al´ onak bizonyos sebess´eggel. A k´erd´es az, hogy mikor tudjuk egy a felhaszn´al´ oval kor´ abban egyeztetett m´ odszer seg´ıts´eg´evel el´erni, hogy ˝ o a kapott jelsorozat seg´ıts´eg´evel viszonylag kis hib´aval rekonstru´ alni tudja az eredeti ξ1 , ξ2 , . . . forr´ ast. Az el˝ obb megfogalmazott k´ odol´ asi probl´ema egy tipikus esete az, ha egy sz¨oveg egym´ as ut´ ani bet˝ ui ´erkeznek (a sz´ok¨ozi sz¨ uneteket k¨ ul¨ on jelnek tekintj¨ uk), ´es ezt a 16
folyamatosan ´erkez˝ o sz¨oveget akarjuk k¨ oz¨ olni egy t˝ol¨ unk t´avol lev˝ o ismer˝ os¨ unknek. Ennek ´erdek´eben le tudunk adni egym´ as ut´ an 0 ´es 1 jeleket egy t´av´ır´on. Azt akarjuk el´erni, hogy ismer˝ os¨ unk, aki e jeleket megkapja k´epes legyen viszonylag pontosan rekonstru´ alni az eredeti sz¨oveget m´eg akkor is, ha a jeltov´ abb´ıt´ asban id˝ onk´ent hib´ak l´epnek fel. Azt vizsg´aljuk, hogy ez mikor lehets´eges. C´elszer˝ u az egyes bet˝ uknek bizonyos jelsorozatot ´ (k´odot) megfeleltetni. Ugy k´ıv´anjuk ezt tenni, hogy ismer˝ os¨ unk k´epes legyen a kapott jelsorozat seg´ıts´eg´evel viszonylag pontosan rekonstru´ alni (dek´odolni) az eredeti sorozatot m´eg akkor is, ha a leadott jelsorozat egyes jelei hib´asan ´erkeznek meg hozz´ a. C´elunkat el´erhetj¨ uk p´eld´aul u ´gy, hogy mindegyik bet˝ unek ugyanolyan hossz´ u ´es egym´ ast´ ol k¨ ul¨ onb¨oz˝ o k´ odsz´ot feleltet¨ unk meg, ´es mindegyik k´ odsz´ot egym´ as ut´ an sz´azszor k¨ uldj¨ uk el a csatorn´an. Ekkor kicsi annak a val´ osz´ın˝ us´ege, hogy egy ilyen 100-szor elk¨ uld¨ott jel az esetek t¨obbs´eg´eben helytelen¨ ul ´erkezik, ´ıgy ismer˝ os¨ unk nagy val´ osz´ın˝ us´eggel rekonstru´ alni tudja az eredeti u ¨zenetet. A probl´ema az, hogy ilyen m´ odszerrel az u ¨zenet tov´ abb´ıt´ asa t´ uls´ agosan sok id˝ ot vesz ig´enybe, ´es ez´ert esetleg nem tudjuk k¨ ovetni az eredetileg ´erkez˝ o jelsorozat sebess´eg´et. C´elunk teh´at az, hogy egy olyan m´ odszert dolgozzunk ki, amelynek seg´ıts´eg´evel az eredeti h´ırforr´ast viszonylag gyorsan ´es pontosan meg tudjuk ismertetni a felhaszn´al´ oval. A m´ odszer kidolgoz´ as´an´ al ´erdemes figyelembe venni azt, hogy a (v´eletlen) ξ1 , ξ2 , . . . forr´ as milyen val´ osz´ın˝ us´egi t¨orv´enynek tesz eleget, illetve, hogy milyen val´ osz´ın˝ us´eggel k¨ ovetkeznek be bizonyos hib´ak, amikor a jeleket leadjuk a csatorn´an. Az el˝ obb megfogalmazott k´ odol´ asi probl´em´at ´erdemes k´et probl´ema vizsg´alat´anak a seg´ıts´eg´evel megoldani. Az els˝ o probl´ema a k¨ ovetkez˝ o. Adva egy r¨ogz´ıtett n sz´am, ´es egy r¨ogz´ıtett V = {v1 , v2 , . . . } v´eges vagy megsz´ aml´alhat´ oan v´egtelen halmaz, tekints¨ uk a ξln+1 , . . . , ξl(n+1) , l = 1, 2, . . . , blokkokat. V´alaszuk ki ezenk´ıv¨ ul a V halmazbeli elemeket tartalmaz´ o n-hossz´ us´ ag´ u n sorozatoknak egy alkalmas A = A(n) ⊂ V r´eszhalmaz´ at. (Itt, ´es a tov´ abbiakban, n n V jel¨oli a V halmazbeli, ´es X az X halmazbeli elemeket tartalmaz´ o n hossz´ us´ ag´ u sorozatok halmaz´ at.) Olyan f : X n → A(n) ´es g: A(n) → X n f¨ uggv´enyeket keres¨ unk, amelyekre P (g(f (ξln+1 , . . . , ξ(l+1)n )) = (ξln+1 , . . . , ξ(l+1)n )) ≥ 1 − ε
minden l = 0, 1, . . . indexre (2.1) egy kis fix ε > 0 sz´ammal. Ha tal´ alunk ilyen f, g) f¨ uggv´enyp´art akkor f (·) f¨ uggv´enyt k´ odf¨ uggv´enynek, az f (xp(1) , . . . , xp(n) ) sorozatot az xp(1) , . . . , xp(n) sorozat k´ odj´ anak nevezz¨ uk, a g(·) f¨ uggv´enyt pedig dek´ odol´ o f¨ uggv´enynek h´ıvjuk. Ebben az esetben azt mondjuk, hogy ε-n´ al kisebb hib´aval k´ odoltunk.Olyan A(n) ⊂ V n halmazt ´es a (2.1) formul´ at teljes´ıt˝ o f (·), g(·) f¨ uggv´enyp´art szeretn´enk tal´ alni, amelyekre az n blokkhosszt´ ol f¨ ugg˝o A(n) halmaznak viszonylag kicsi az elemsz´ama. E feladat megold´ as´at nevezz¨ uk forr´ as k´ odol´ asnak ´es forr´ as dek´ odol´ asnak. A m´ asodik feladat arr´ ol sz´ol, hogy amikor a forr´ as k´ odol´ asak´ent kapott sorozat ´ert´ek´et alkalmas csatorna esetleg hib´as k¨ ozvet´ıt´ese seg´ıts´eg´evel k¨ oz¨ olj¨ uk a felhaszn´al´ oval, akkor o˝ hogyan tudja viszonylag kis hib´aval rekonstru´ alni a csatorn´an kereszt¨ ul elk¨ uld¨ott sorozatot. Ezt a feladatot, amelyet csatorna k´ odol´ asnak ´es dek´ odol´ asnak neveznek a 17
k¨ ovetkez˝ o fejezetben fogom t´argyalni, ´es mag´ at a feladatot is csak ott fogom pontosan megfogalmazni. E fejezet t´em´aja a forr´ as k´ odol´ as ´es dek´ odol´ as. Csak azzal az esettel fogok foglalkozni, amikor a ξ1 , ξ2 , . . . forr´ as f¨ uggetlen ´es egyforma eloszl´ as´ u v´eges vagy megsz´ aml´alhat´oan v´egtelen sok ´ert´eket felvev˝o val´ osz´ın˝ us´egi v´ altoz´ ok sorozata. Ebben az esetben egy j´ o forr´ as k´ odol´ as ´es dek´ odol´ as megtal´ al´ asa viszonylag egyszer˝ u feladat, az k¨ onnyen megtehet˝o az el˝ oz˝ o fejezet eredm´enyeinek a seg´ıts´eg´evel. T´ argyalni fogom tov´ abb´a ennek a feladatnak egy ¨ onmag´ aban is ´erdekes v´ altozat´ at, amelyben egy v´eletlen sorozatot akarunk viszonylag r¨ovid sorozattal u ´gy k´ odolni, hogy az hib´atlanul dek´ odolhat´ o legyen. A k´ odolt sorozat hossza f¨ ugghet a v´eletlent˝ol, ´es e v´eletlen sz´ohossz v´arhat´ o ´ert´ek´et szeretn´enk kicsiv´e tenni. Megfogalmazom ezt a m´ odos´ıtott feladatot pontosabban. Legyen adva egy ξ val´osz´ın˝ us´egi v´ altoz´ o, amely ´ert´ekeit egy v´eges X = {x1 , . . . , xM } halmazban veszi fel, ´es amelynek ismert a P (ξ = xi ) = p(i), 1 ≤ i ≤ M , eloszl´ asa. (Az egyszer˝ us´eg kedv´e´ert feltettem, hogy a ξ val´ osz´ın˝ us´egi v´ altoz´ o X ´ert´ekk´eszlete egy v´eges halmaz, b´ar t¨obb al´ abb ismertetend˝ o eredm´eny akkor is ´erv´enyes, ha az X halmaz sz´amoss´ aga megsz´ aml´alhat´ oan v´egtelen is lehet.) Legyen adva egy v´eges d-elem˝ u Y = {y1 , . . . , yd } halmaz, amelyet a tov´ abbiakban ABC-nek fogunk nevezni, ´es a ξ val´ osz´ın˝ us´egi v´ altoz´ oval azonos eloszl´ as´ u ξ1 , . . . , ξl val´ osz´ın˝ us´egi v´ altoz´ oknak egy sorozata. Nevezz¨ uk az Y halmaz elemeib˝ ol ´ all´ o v´eges yj1 , . . . , yjn sorozatokat szavaknak. Minden xi ∈ X elemnek (i) (i) us´ ag´ u Y halmaz elemeib˝ ol meg akarunk feleltetni egy u(xi ) = yj1 , . . . , yjn(i) n(i) hossz´ ´ all´ ´ o sorozatot, amelyet az xi sorozat nev´enek fogunk nevezni. Ugy k´ıv´anjuk ezt a megfeleltet´est csin´alni, hogy ha egym´ as ut´ an felsorolj´ ak nek¨ unk egy xi1 , . . . , xil sorozat elemeinek u(xi1 ), . . . , u(xil ) neveit, akkor k´epesek legy¨ unk ennek alapj´ an az xi1 , . . . , xil sorozatot egy´ertelm˝ uen rekonstru´ alni. Az ilyen xi → u(xi ), xi ∈ X, lek´epez´eseket egy´ertelm˝ uen dek´ odolhat´ o k´ odol´ asoknak fogjuk nevezni. Ennek pontos definici´ oj´at al´ abb ismertetem. Azzal a k´erd´essel fogunk foglalkozni, hogy milyen kicsiv´e tudjuk tenni egy egy´ertelm˝ uen dek´ odolhat´ o xi → u(xi ), 1 ≤ i ≤ M , k´ odol´ as n(i) hossz´anak a M P v´ arhat´ o ´ert´ek´et, azaz a p(i)n(i) mennyis´eget. i=1
Az egy´ ertelm˝ uen dek´ odolhat´ o k´ odol´ as definici´ oja. Legyen X = {x1 , x2 , . . . } egy v´eges vagy megsz´ aml´ alhat´ oan v´egtelen sz´ amoss´ ag´ u halmaz ´es Y = {y1 , . . . , yd } egy m´ asik d elemsz´ am´ u halmaz (ABC). Egy az X halmaz elemeit az Y halmaz elemeib˝ ol (i) (i) o lek´epez´es´et az X halmaza ´ll´ o v´eges elemsz´ am´ u u(xi ) = yj1 . . . yjn(i) sorozatokba k´epez˝ nak az Y ABC szavaival v´egzett egy´ertelm˝ uen dek´ odolhat´ o k´ odol´ as´ anak nevez¨ unk, ha minden xi1 , . . . , xil , l = 1, 2, . . . , xij ∈ X, 1 ≤ j ≤ l, sorozatnak az u(xi1 ), . . . , u(xil ) aci´ o, ha sorozatot megfeleltetve teljes¨ ul az u(xi1 ), . . . , u(xil1 ) 6= u(x′i1 ), . . . , u(x′il ) rel´ 2 ′ ′ ugghet az xi1 , . . . , xil1 6= xi1 , . . . , xil . (Megjegyzem, hogy az u(xi ) sorozat n(i) hossza f¨ 2 xi ∈ X elemt˝ ol.) El˝osz¨ or az eredeti k´ odol´ asi feladattal foglalkozom. Megfogalmazom azt az eredm´enyt, amely megadja, hogy milyen N (n) elemsz´am´ u A(n) ⊂ V n halmaz seg´ıts´eg´evel lehet megadni valamely f¨ uggetlen, egyforma eloszl´ as´ u ξ1 , . . . , ξn val´ osz´ın˝ us´egi v´ altoz´ okb´ ol a´ll´ o 18
forr´ asnak egy ε-n´ al kisebb hib´aj´ u, azaz a (2.1) rel´ aci´ot teljes´ıt˝ o f (·) k´ odol´ as´at ´es g(·) dek´ odol´ as´at. A most ismertetett t´etel val´ oj´aban az el˝ oz˝ o fejezet bizonyos eredm´enyeinek egyszer˝ u k¨ ovetkezm´enye. T´ etel f¨ uggetlen, egyforma eloszl´ as´ u val´ osz´ın˝ us´ egi v´ altoz´ okb´ ol ´ all´ o forr´ as kis hib´ aj´ u k´ odol´ as´ ar´ ol ´ es dek´ odol´ as´ ar´ ol. Legyen ξ egy ´ert´ekeit valamely v´eges vagy megsz´ aml´ alhat´ oan v´egtelen sz´ amoss´ ag´ u X = {x1 , x2 , . . . } halmazon f¨ olvev˝ o val´ osz´ın˝ us´egi v´ altoz´ o, ξ1 , . . . , ξn pedig f¨ uggetlen, a ξ val´ osz´ın˝ us´egi v´ altoz´ oval azonos eloszl´ as´ u val´ osz´ın˝ us´egi v´ altoz´ ok sorozata. Legyen ezenk´ıv¨ ul adva egy V = {v1 , v2 , . . . } halmaz. Jel¨ olje X n az X halmazb´ ol, V n a V halmaz elemeib˝ ol a ´ll´ o n hossz´ us´ ag´ u sorozatok n halmaz´ at. V´ alasszunk egy N = N (n) elemsz´ am´ u A = A(n) ⊂ V halmazt. Minden ε > 0 ´es δ > 0 sz´ amhoz l´etezik n0 = n0 (ε, δ) k¨ usz¨ obindex u ´gy, hogy ha n ≥ n0 ´es N (n) ≥ 2(1+δ)H(ξ)n , akkor l´eteznek olyan f : X n → A(n) ´es g: A(n) → X n f¨ uggv´enyek, amelyekre P (g(f (ξ1 , . . . , ξn )) = (ξ1 , . . . , ξn )) ≥ 1 − ε. Megford´ıtva, ha N (n) ≤ 2(1−δ)H(ξ)n , ´es n ≥ n0 (ε, δ) akkor minden f : X n → A(n) ´es g: A(n) → X n f¨ uggv´enyp´ arra P (g(f (ξ1 , . . . , ξn )) = (ξ1 , . . . , ξn )) ≤ ε. Bizony´ıt´ as. L´ attuk a f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ okb´ ol ´ all´ o tipikus sorozatok sz´am´ar´ ol sz´ol´ o t´etel bizony´ıt´ as´aban (ha megsz´ aml´alhat´ oan v´egtelen sz´amoss´ag´ u halmazokkal akarunk dolgozni, akkor e t´etelnek a kieg´esz´ıt´esben t´argyalt ´ altal´ anos´ıt´ as´at kell tekinn ten¨ unk), hogy n ≥ n0 (ε, δ) eset´en l´etezik olyan B ⊂ X halmaz, amelyre az B halmaz kevesebb, mint 2(1+δ)H(ξ)n elemet tartalmaz, ´es P ((ξ1 , . . . , ξn ) ∈ B) ≥ 1−ε. V´alasszunk (n) (n) (n) egy ilyen B halmazt, ´es soroljuk fel az elemeit, mint B = {x1 , x2 , . . . , xN¯ (n) } valamely ¯ (n) ≤ 2(1+δ)nH(ξ) sz´ammal. Soroljuk fel az A(n) halmaz elemeit is, mint A(n) = N (n) (n) ¯ (n) ≤ N (n). }. Ha N (n) ≥ 2(1+δ)H(ξ)n , ´es n ≥ n0 (ε, δ) akkor N {v , v (n) , . . . , v 1
N (n)
Defini´ aljuk ebben az esetben az f (x) f¨ uggv´enyt egy olyan x = (x1 , . . . , xn ) ∈ X n (n) ¯ (n), alakban, u elemre, amelyre x ∈ B, ´es ez´ert fel´ırhat´ o x = xk , 1 ≤ k ≤ N ´gy (n)) (n) (n) (n) aljuk a g(vk ) mint f (x) = f (xk ) = vk . Ha x ∈ / B, legyen f (x) = v1 . Defini´ (n) (n) (n) ¯ ¯ f¨ uggv´enyt, mint g(vk ) = xk , ha k ≤ N (n). Ha N (n) < k ≤ N (n), akkor a g(vk ) f¨ uggv´enyt tetsz˝oleges m´ odon defini´alhatjuk. Ilyen v´ alaszt´ assal P (g(f (ξ1 , . . . , ξn )) = (ξ1 , . . . , ξn )) ≥ P ((ξ1 , . . . , ξn ) ∈ B) ≥ 1 − ε.
A t´etel m´ asodik fel´enek bizony´ıt´ as´aban azt haszn´ aljuk ki, hogy n ≥ n0 eset´en ¯ halmaz ¯ ⊂ X n halmaz, amelyre P ((ξ1 , . . . , ξn ) ∈ B) ¯ ≥ 1 − ε , ´es a B l´etezik olyan B 2 elemei viszonylag nagy val´ osz´ın˝ us´eggel jelennek meg. Pontosabban, P ((ξ1 , . . . , ξn ) = −(1− δ2 )H(ξ)n ¯ vektorokra. Ha N (n) ≤ 2(1−δ)H(ξ)n az (xj1 , . . . , xjn ) ∈ B (xj1 , . . . , xjn )) ≤ 2 eset´en is lenne olyan f (·), g(·) f¨ uggv´enyp´ar, amelyre P (g(f (ξ1 , . . . , ξn )) = (ξ1 , . . . , ξn )) ≥ ε, akkor l´etezne olyan B0 ⊂ X n halmaz, amelyre P ((ξ1 , . . . , ξn ) ∈ B0 ) ≥ ε, ´es az o¨sszes x = (xj1 , . . . , xjn ) ∈ B0 vektor f (x) ∈ A(n) k´epe k¨ ul¨ onb¨oz˝ o lenne. (A B0 halmazt u ´gy v´ alaszthatjuk, mint azon x ∈ X n vektorok halmaz´ at, amelyekre g(f (x)) = x.) ¯ ≥ ε , ´es minden x ∈ B0 ∩ B ¯ Ekkor az is igaz lenne, hogy P ((ξ1 , . . . , ξn ) ∈ B0 ∩ B) 2 δ ¯ halmaz ovetkezne, hogy az B0 ∩ B vektorra P ((ξ1 , . . . , ξn ) = x) ≤ 2−(1− 2 )H(ξ)n . Innen k¨ δ elemsz´ama nagyobb, mint 2ε 2(1− 2 )H(ξ)n > 2(1−δ)H(ξ)n , ha n ≥ n0 (ε, δ). Ez ellentmond ¯ vektor f (x) ∈ A(n) k´epe k¨ annak, hogy minden x ∈ B0 ∩ B ul¨ onb¨oz˝ o, mert az A(n) 19
halmaz elemsz´ama N (n) ≤ 2(1−δ)H(ξ)n . Megjegyz´es. Mivel a tekintett ξ1 , ξ2 , . . . sorozat f¨ uggetlen ´es egyforma eloszl´ as´ u val´ osz´ın˝ us´egi v´ altoz´ okb´ ol ´ all, ez´ert az el˝ oz˝ o t´etel eredm´eny´et alkalmazhatjuk nemcsak a (ξ1 , . . . , ξn ) hanem a (ξln+1 , . . . , ξ(l+1)n ) sorozatra is minden l = 1, 2, . . . indexre. Ez´ert a (2.1) rel´ aci´o is teljes¨ ul egy alkalmas f (·), g(·) f¨ uggv´enyp´arral, ha az A(n) halmaz N (n) elemsz´am´ara N (n) ≥ 2(1+δ)H(ξ)n , ´es n ≥ n0 (ε, δ). Tov´ abb´a P (g(f (ξln+1 , . . . , ξ(l+1)n )) = (ξln+1 , . . . , ξ(l+1)n )) ≤ ε minden l = 0, 1, . . . indexre ´es f, g f¨ uggv´enyp´arra, ha N (n) ≤ (1−δ)H(ξ)n 2 , ´es n ≥ n0 (ε, δ). R´ at´erek az egy´ertelm˝ uen dek´ odolhat´ o k´ odok vizsg´alat´ara. Azt vizsg´aljuk, hogyan lehet egy M elemb˝ol ´ all´ o X = {x1 , . . . , xM } halmaz elemeit, pontosabban ezen elemekb˝ ol all´ ´ o sorozatokat hib´atlanul k´ odolni ´es dek´ odolni viszonylag r¨ovid k´ odokkal egy d elem˝ u Y = {y1 , . . . , yd } ABC seg´ıts´eg´evel. Az ´ altal´ anoss´ag megszor´ıt´ asa n´elk¨ ul feltehetj¨ uk, ´ hogy Y = {1, . . . , d}. Erdemes bevezetni a k¨ ovetkez˝ o fogalmat. Prefix k´ odok definici´ oja. Legyen adva egy X = {x1 , . . . , xM } halmaz, ´es egy Y = (i) (i) {1, . . . , d} ABC. Feleltess¨ unk meg minden xi ∈ X elemnek egy u(xi ) = j1 , . . . jn(i) , (i)
1 ≤ js ≤ d, 1 ≤ s ≤ n(i), sorozatot. Azt mondjuk, hogy ez a megfeleltet´es az X halmaz elemeinek prefix k´ odja, ha nincs olyan xp ∈ X, xq ∈ X p´ ar, amelyre az u(xp ) sorozat az u(xq ) sorozat megszor´ıt´ asa annak elej´ere, azaz semmilyen xp , xq p´ arra nem lehet megkapni az u(xp ) sorozatot u ´gy, hogy alkalmas sz´ am´ u jelet let¨ orl¨ unk az u(xq ) sorozat v´eg´er˝ ol. Fontos lesz sz´amunkra az al´ abbi lemm´aban megfogalmazott egyszer˝ u ´eszrev´etel.
Lemma a prefix k´ odok egy tulajdons´ ag´ ar´ ol. Minden prefix k´ od egy´ertelm˝ uen dek´ odolhat´ o k´ od. Bizony´ıt´ as. Ha egy x1 , . . . , xn sorozatnak egy u(x1 ), u(x2 ), . . . , u(xn ) prefix k´ od felel meg, akkor a prefix tulajdons´ag alapj´ an meg tudjuk ´ allap´ıtani, hol fejez˝ odik be e sorozatban az u(x1 ), sorozat, ´es ´ıgy azonos´ıthat´ o az x1 jel. Ezut´an rekurz´ıv m´ odon meg tudjuk hat´arozni egym´ as ut´ an az x2 , x3 , . . . ´ert´eketet is. L´eteznek nem prefix, de egy´ertelm˝ uen dek´ odolhat´ o k´ odok. P´eld´aul, ha X k´et elem˝ u halmaz, ´es D = {1, 2} v´ alaszthatjuk x1 k´ odj´ anak az 1, x2 k´ odj´ anak az 1,2 sorozatot. Vagy x1 k´ odj´ anak az 1, x2 k´ odj´ anak az 1, . . . , 1, 2 sorozatot, ahol az 1 jeleknek egy n hossz´ us´ ag´ u sorozat´at vett¨ uk a 2 jel el˝ ott egy tetsz˝oleges (ismert) pozit´ıv eg´esz n sz´ammal. Ezek egy´ertelm˝ uen dek´ odolhat´ o, de nem prefix k´ odok. Viszont, mint l´ atni fogjuk, minden egy´ertelm˝ uen dek´ odolhat´ o k´ odhoz lehet tal´ alni egy legal´ abb ugyanolyan j´ o prefix k´ odot, ez´ert figyelm¨ unket koncentr´ alhatjuk a prefix k´ odokra. Ezeknek megvan az az el˝ ony¨ uk is, hogy gyorsan dek´ odolhat´ oak. Ha egym´ as ut´ an meg´erkeznek az xj1 , xj2 , . . . , jelek prefix k´ odjai, akkor mihelyt meg´erkezett egy jel k´ odja, azonnal dek´ odolhatjuk azt. Nem prefix, de egy´ertelm˝ uen dek´ odolhat´ o k´ odok eset´eben a helyzet bonyolultabb. P´eld´aul, ha a k´et elem˝ u X halmaz x1 elem´enek a k´ odszava 1, az x2 elem k´ odszava 1, . . . , 1, 2, (n darab 1 jellel), akkor egy 1 jel meg´erkez´ese ut´ an lehet, hogy 20
m´eg n jel meg´erkez´es´et is meg kell v´ arni, ´es csak azut´ an tudjuk eld¨onteni, hogy ez az 1-es jel az x1 k´ odszava vagy az x2 k´ odszav´ anak az els˝ o eleme volt-e. Egy´ebk´ent l´etezik egy m´ odszer annak eld¨ont´es´ere, hogy mikor dek´ odolhat´ o egy k´ od egy´ertelm˝ uen, (l´ asd (Robert Ash: Information theory, Theorem 2.2.1), de erre a meglehet˝osen bonyolultan bizony´ıthat´ o eredm´enyre nem lesz sz¨ uks´eg¨ unk. Ez´ert azt nem t´argyalom. A k¨ ovetkez˝ o eredm´enyben, amelyet Kraft–egyenl˝otlens´egnek is h´ıvnak az irodalomban, megadjuk, hogy milyen hossz´ uak lehetnek egy prefix k´ od k´ odszavai. T´ etel egy prefix k´ od szavainak lehets´ eges hossz´ ar´ ol. (Kraft egyenl˝ otlens´ eg.) Legyen X = {x1 , . . . , xM } egy M elem˝ u halmaz, ´es legyen u(xi ), 1 ≤ i ≤ M , e halmaz egy prefix k´ odja az Y = {1, . . . , d} d-elem˝ u ABC-vel. Jel¨ olje n(i) az u(xi ) sz´ o k´ odhossz´ at. M P Ekkor teljes¨ ul a d−n(i) ≤ 1 egyenl˝ otlens´eg. Megford´ıtva, ha az n(i), 1 ≤ i ≤ M , i=1
pozit´ıv eg´esz sz´ amok sorozata teljes´ıti a
M P
i=1
d−n(i) ≤ 1 egyenl˝ otlens´eget, akkor l´etezik az
X halmaz elemeinek olyan u(xi ), 1 ≤ i ≤ M , prefix k´ odja az Y = {1, . . . , d} d-elem˝ u ABC-vel, amelyre az u(xi ) sz´ o k´ odhossza n(i). Bizony´ıt´ as. Feltehetj¨ uk, hogy az xi ∈ X elemek u ´gy vannak indexelve, hogy n(1) ≤ n(2) ≤ · · · ≤ n(M ). Ha adva van egy u(xi ), 1 ≤ i ≤ M , prefix k´ od, akkor minden egyes u(xi ) k´ odsz´onak feleltess¨ uk meg az ¨ osszes olyan n(M ) hossz´ us´ ag´ u, az Y = {1, . . . , d} halmaz elemeib˝ ol ´ all´ o sorozatok halmaz´ at, amely sorozatok az u(xi ) k´ odsz´o folytat´asai. n(M )−n(i) Az u(xi ) k´ odsz´onak d ilyen folytat´asa van, ´es az u(·) k´ od prefix tulajdons´aga miatt ´ıly m´ odon csupa k¨ ul¨ onb¨oz˝ o n(M ) hossz´ us´ ag´ u az {1, . . . , d} halmaz elemeib˝ ol a´ll´ o M P sorozatot kapunk. Mivel ¨ osszesen dn(M ) ilyen sorozat van, ez´ert dn(M )−n(i) ≤ dn(M ) . i=1
Innen dn(M ) -mel osztva megkapjuk a
M P
i=1
d−n(i) ≤ 1 egyenl˝otlens´eget.
Ha adva van egy 1 ≤ n(1) ≤ n(2) ≤ · · · ≤ n(M ) a
M P
i=1
d−n(i) ≤ 1 egyenl˝otlens´eget
teljes´ıt˝ o sorozat, akkor a k¨ ovetkez˝ o m´ odon tudunk a k´ıv´ant hossz´ us´ ag´ u k´ odszavakb´ ol a´ll´ o prefix k´ odot konstru´ alni. Legyen u(x1 ) tetsz˝oleges n(1) hossz´ us´ ag´ u az Y = {1, . . . , d} halmaz elemeib˝ ol ´ all´ o sorozat. Az i v´ altoz´ o szerinti indukci´ oval defini´aljuk az u(xi ) k´ odszavakat u ´gy, hogy az u(x1 ), . . . , u(xi ) k´ odszavak az Xi = {x1 , x2 , . . . , xi } halmaz prefix k´ odj´ at alkoss´ ak. Ha az i − 1 indexre tal´ altunk ilyen k´ odszavakat, akkor a prefix tulajdons´ag meg˝ orz´es´ehez az indukci´ o i-ik l´ep´es´eben el´eg olyan n(i) hossz´ us´ ag´ u u(xi ) k´ odsz´ot tal´ alni, amely nem folytat´asa egyik u(xj ), 1 ≤ j ≤ i − 1, k´ odsz´onak sem. Ez azt jelenti, hogy az dn(i) darab n(i) hossz´ us´ ag´ u, az Y = {1, . . . , d} halmaz elemeib˝ ol i−1 P n(i)−n(j) all´ ´ o sorozat k¨ oz¨ ul d sorozat v´ alaszt´ asa van tiltva. Akkor tudunk egy k´ıv´ant j=1
i−1 P n(i)−n(j) tulajdons´ag´ u u(xi ) sorozatot (k´odsz´ot) v´ alasztani, ha d < dn(i) , azaz, ha j=1 Pi−1 −n(j) < 1. Az adott felt´etel mellett ez a tulajdons´ag minden 2 ≤ i ≤ M indexre j=1 d teljes¨ ul. Ezzel bel´ attuk a t´etel m´ asodik ´ all´ıt´ as´at is.
21
A k¨ ovetkez˝ o eredm´eny azt ´ all´ıtja, hogy adott sz´ohossz´ us´ ag´ u k´ odszavakkal rendelkez˝ o prefix k´ odok l´etez´es´enek ugyanaz a felt´etele, mint annak, hogy l´etezzen ilyen hossz´ us´ ag´ u k´ odszavakkal rendelkez˝ o egy´ertelm˝ uen dek´ odolhat´ o k´ od. T´ etel egy´ ertelm˝ uen dek´ odolhat´ o k´ odok l´ etez´ es´ enek sz¨ uks´ eges felt´ etel´ er˝ ol. Legyen X = {x1 , . . . , xM } egy M elem˝ u halmaz, ´es legyen u(xi ) e halmaz egy egy´ertelm˝ uen dek´ odolhat´ o k´ odja az Y = {1, . . . , d} d-elem˝ u ABC-vel. Ekkor az u(xi ) k´ odszavak M P n(i) k´ odhosszai teljes´ıtik a d−n(i) ≤ 1 egyenl˝ otlens´eget. i=1
Bizony´ıt´ as. Jel¨olje ωj azon xi ∈ X, 1 ≤ i ≤ M , pontok sz´am´at, amelyek u(xi ) M P k´ odszav´ anak a hossza n(i) = j, ´es legyen r = sup n(i). Ezzel a jel¨ol´essel d−n(i) = r P
ωj d−j , ´es a bizony´ıtand´ o egyenl˝otlens´eg
j=1
1≤i≤M r P j=1
i=1
ωj d−j ≤ 1 alakban is ´ırhat´ o. Ezen
egyenl˝otlens´eg igazol´asa ´erdek´eben vegy¨ unk egy pozit´ıv eg´esz p sz´amot, ´es ´ırjuk fel a p pr r X X −1 −r p −j = (ω1 d + · · · + ωr d ) = Nk d−k ωj d j=1
k=p
azonoss´agot, ahol
X
Nk =
ωi1 . . . ωip ,
(i1 ,...,ip ): i1 +···+ip =k
p ≤ k ≤ pr.
Azt ´ all´ıtom, hogy teljes¨ ul az Nk ≤ dk egyenl˝otlens´eg minden p ≤ k ≤ pr indexre. Val´ oban, az ωi1 . . . ωip szorzat azon u(xl1 ), . . . , u(xlp ) k´ odsz´osorozatok sz´am´aval egyenl˝o, amelyekre n(l1 ) = i1 , . . . , n(lp ) = ip . Ez´ert Nk egyenl˝o azon u(xl1 ), . . . , u(xlp ) k´ odsz´osorozatok sz´am´aval, amelyek ¨ osszhossza k-val egyenl˝o. Az egy´ertelm˝ u dek´ odolhat´ os´ag miatt az o¨sszes el˝ obb felsorolt k´ odsz´osorozat k¨ ul¨ onb¨oz˝ o, ez´ert sz´amuk kisebb, mint az osszes lehets´eges k hossz´ ¨ us´ ag´ u az Y = {1, . . . , d} halmaz elemeit tartalmaz´ o sorozat k sz´ama. Ez´ert Nk ≤ d , amint ´ all´ıtottuk. A fenti ¨ osszef¨ ugg´esekb˝ol k¨ ovetkezik, hogy p pr r X X −j ωj d ≤ dk · d−k = (p(r − 1) + 1) ≤ pr, j=1
ez´ert
r X j=1
k=p
ωj d−j ≤ (pr)1/p
minden p = 1, 2, . . . sz´amra.
Innen p → ∞ hat´ar´ atmenetet v´eve azt kapjuk, hogy r X j=1
ωj d−j ≤ lim (pr)1/p = 1, p→∞
22
ahonnan k¨ ovetkezik a t´etel ´ all´ıt´ asa. A bizony´ as gondolat´anak jobb meg´ert´ese ´erdek´eben ´erdemes megjegyezni, hogy a !pıt´ r P ωj d−j kifejez´es becsl´es´eben felhaszn´alt Nk ≤ dk egyenl˝otlens´eg indokl´ asa azon j=1
alapult, hogy a k ≤ pr hossz´ us´ ag´ u k´ odszavak egy´ertelm˝ uen dek´ odolhat´ oak. A tekintett k´ od egy´ertelm˝ u dek´ odolhat´ os´ag´ at, azt, hogy a hossz´ u xl1 , . . . , xlp sorozatok k´ odjai is egy´ertelm˝ uen dek´ odolhat´ ok a p → ∞ hat´ar´ atmenet alkalmaz´asakor haszn´ altuk ki. Legyen adva egy ξ val´ osz´ın˝ us´egi v´ altoz´ o, amely ´ert´ekeit egy X = {x1 , . . . , xM } halmazon veszi fel, ´es P (ξ = xi ) = p(i), 1 ≤ i ≤ M . Legyen u(xi ), xi ∈ X, az X halmaz elemeinek egy olyan k´ odja, amelyre u(xi ) egy n(i) hossz´ us´ ag´ u az Y = {1, . . . , d} halmaz elemeib˝ ol a´ll´ o sorozat. Jel¨olje |u(ξ)| a ξ val´ osz´ın˝ us´egi v´ altoz´ o u(ξ) k´ odj´ anak a hossz´at, azaz, ha ξ = xi , akkor bevezetve az |u(xi )| = n(i) jel¨ol´est azt ´ırhatjuk, hogy u(ξ) = u(xi ), ´es |u(ξ)| = n(i). Az u(ξ) v´eletlen k´ odsz´o |u(ξ)| hossz´anak a v´ arhat´ o ´ert´eke M P E|u(ξ)| = p(i)n(i). Az u(ξ) v´eletlen k´ odsz´o hossz´anak a v´ arhat´ o ´ert´ek´ere k´ıv´anunk i=1
j´ o als´ o becsl´est adni, ha u(xi ), xi ∈ X prefix, illetve ´ altal´ anosabban, ha az egy´ertelm˝ uen dek´ odolhat´ o k´ od. Ezenk´ıv¨ ul j´ o fels˝o becsl´est is akarunk adni egy j´ ol v´ alasztott prefix k´ od hossz´anak a v´ arhat´ o ´ert´ek´ere. Tudjuk, hogy akkor ´es csak akkor l´etezik n(i), 1 ≤ i ≤ M , hossz´ u, az Y = {1, . . . , d} ABC-t haszn´ al´ o k´ odszavakkal rendelkez˝ o prefix, illetve ´ altal´ anosabban egy´ertelm˝ uen M P dek´ odolhat´ o k´ od, ha teljes¨ ul a d−n(i) ≤ 1 egyenl˝otlens´eg. Ez´ert probl´em´ank ahhoz i=1
az eg´esz-´ert´ek˝ u sz´els˝ o´ert´ek feladathoz vezet, hogy keress¨ uk meg a
M P
p(i)n(i) kifejez´es
i=1
(majdnem) optimum´at a
M P
i=1
d−n(i) ≤ 1 felt´etel mellett. Ezen optimaliz´ aci´os probl´ema
vizsg´alat´aban hasznos az al´ abbi becsl´es, amelyet I-divergencia t´ıpus´ u becsl´esnek fogok h´ıvni. Ugyanis, mint egy megjegyz´esben elmagyar´ azom, ez a becsl´es tekinthet˝ o, u ´gy mint az inform´ aci´oelm´elet egyik fontos, a k´es˝obb bevezetend˝ o I-divergenci´ ar´ ol sz´ol´ o becsl´es´enek a speci´ alis esete. Egy I-divergencia t´ıpus´ u becsl´ est megfogalmaz´ o lemma. Legyen a1 , a2 , . . . ´es b1 , b2 , . . . k´et v´eges vagy v´egtelen, ugyanannyi elemet tartalmaz´ o sorozat, amelyekre ai ≥ P P 0, bi ≥ 0 minden i indexre, ´es a = ai < ∞, 0 < b = bi < ∞. Ekkor i
X i
ai log
i
a ai ≥ a log . bi b
Egyenl˝ os´eg akkor ´es csak akkor ´erv´enyes, ha elhagyva azon (ai , bi ) p´ arokat, amelyekre ai a ai = bi = 0 bi = b minden i indexre. (Ezen egyen˝ otlens´egben az x · log x0 = 0, ha x ≥ 0, ot alkalmazzuk.) ´es x · log x0 = ∞, ha x > 0 konvenci´ Bizony´ıt´ as. Fel fogjuk haszn´ alni, hogy az els˝ o fejezetben bevezetett ´es vizsg´alt g(x) = x log x, x ≥ 0, f¨ uggv´eny konvex. A g(x) f¨ uggv´eny a konvexit´ as´at az ui = abii koordin´ at´ ak, 23
´es pi = Pbib = i
bi b
s´ ulyok v´ alaszt´ as´aval fogom alkalmazni. (Nyilv´ an pi ≥ 0, ´es
i
1.) A g(x) f¨ uggv´eny konvexit´ as´at felhaszn´alva azt kapjuk, hogy ! a X X X a ai =b pi g(ui ) ≥ bg = a log . pi ui = bg ai log bi b b i i i
P
p(i) =
i
A g(·) szigor´ u konvexit´ as´ab´ ol k¨ ovetkezik, hogy egyenl˝os´eg csak a lemm´aban megadott esetben van. Megjegyz´ eP s. A fenti lemm´at k¨ onnyen reduk´ alni lehet arra a speci´ alis esetre, amikor P otlens´eg jobboldal´ an 0 a´ll. Ez a rei ai = i bi = 1. Ebben az esetben az egyenl˝ duk´ alt egyenl˝otlens´eg felfoghat´o az al´ abbi egyenl˝otlens´eg speci´alis eset´enek. Legyen µ ´es ν k´et olyan val´ osz´ın˝ us´egi m´ert´ek ugyanazon az (X, X ) m´erhet˝ o t´eren, amelyekre dν a ν m´ert´eknekek a µ a ν m´ert´ek abszolut folytonos a µ m´ert´ekre n´ezve. Jel¨olje dµ R dν (x) dν(x) ≥ 0. Ez az m´ert´ek szerinti Radon–Nikodym deriv´altj´ at. Ekkor X log dµ egyenl˝otlens´eg tekinthet˝ ou ´gy, mint a k´es˝obb bevezetend˝ o I-divergencia egy fontos tulajdons´aga. Egy´ebk´ent ez az egyenl˝otlens´eg a lemm´ahoz hasonl´oan bizony´ıthat´ o. A most ismertetett lemma seg´ıt az al´ abbi eredm´eny bizony´ıt´ as´aban. T´ etel egy´ ertelm˝ uen dek´ odolhat´ o´ es prefix k´ odok hossz´ anak v´ arhat´ o´ ert´ ek´ er˝ ol. Vegye fel egy ξ val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ekeit egy X = {x1 , . . . , xM } halmazon, amelynek az eloszl´ as´ at a P (ξ = xi ) = p(i), 1 ≤ i ≤ M , k´eplet adja meg. Legyen u(xi ), xi ∈ X, az X halmaznak egy az Y = {1, . . . , d} halmaz seg´ıts´eg´evel defini´ alt prefix, vagy a ´ltal´ anosabban, egy´ertelm˝ uen dek´ odolhat´ o k´ odja, ´es jel¨ olje n(i) az u(xi ) k´ odsz´ o sz´ ohossz´ at. Ekkor az u(ξ) v´eletlen k´ odsz´ o |u(ξ)| hossz´ anak a v´ arhat´ o ´ert´eke teljes´ıti az E|u(ξ)| =
M X i=1
p(i)n(i) ≥
H(ξ) log d
egyenl˝ otlens´eget. Megford´ıtva, l´etezik az X halmaznak olyan prefix k´ odja, amelyre E|u(ξ)| =
M X i=1
p(i)n(i) ≤
H(ξ) + 1. log d
Bizony´ıt´ as. Legyen u(xi ), 1 ≤ i ≤ M , az X halmaznak az Y = {1, . . . , d} ABC seg´ıts´eg´evel defini´alt egy´ertelm˝ uen dek´ odolhat´ o k´ odja, ´es legyen n(i) az u(xi ) k´ odsz´o M P k´ odhossza. Tudjuk, hogy ekkor d−n(i) ≤ 1. Alkalmazzuk az el˝ oz˝ o lemm´aban bii=1
zony´ıtott egyenl˝otlens´eget ai = p(i) ´es bi = d−n(i) , 1 ≤ i ≤ M , v´ alaszt´ assal. Ekkor M M P P a= ai = 1, ´es b = bi ≤ 1, ahonnan i=1
i=1
M X i=1
p(i) log(p(i)d
n(i)
)=
M X i=1
24
ai log
a ai ≥ a log ≥ 0. bi b
Teh´ at log d ·
M P
i=1
n(i)p(i) ≥ −
M P
i=1
p(i) log p(i), azaz log d · Eu|(ξ)| ≥ H(ξ), ´es ezt kellett
bel´ atni. L´ attuk, hogy a t´etel m´ asodik fel´enek igazol´asa ´erdek´eben olyan n(i), 1 ≤ i ≤ M P M , pozit´ıv eg´esz sz´amokat kell tal´ alnunk, amelyekre d−n(i) ≤ 1, ´es az E|u(ξ)| = i=1
M P
p(i)n(i) v´ arhat´ o ´ert´ek viszonylag kicsi. Term´eszetes olyan n(i) sz´amokat v´ alasztani,
i=1
amelyekre az E|u(ξ)| v´ arhat´ o ´ert´ekre adott als´ o becsl´es bizony´ıt´ as´aban felhaszn´alt Idivergencia t´ıpus´ u becsl´est megfogalmaz´o lemm´aban szerepl˝o egyenl˝otlens´eg majdnem egyenl˝os´eggel teljes¨ ul. Ez´ert v´ alasszunk olyan n(i) eg´esz sz´amokat, amelyekre d−n(i) ≤ −n(i) p(i), ´es a d sz´am olyan k¨ ozel van a p(i) sz´amhoz, amennyire ez a felt´etel megengedi. Ennek alapj´ an a k¨ ovetkez˝ o v´ alaszt´ ast tessz¨ uk. Legyen minden 1 ≤ i ≤ M indexre n(i) az M M P P −n(i) −n(i) p(i) = 1, azaz l´etezik d ≤ ≤ d ≤ p(i). Ekkor az eg´esz sz´am, amelyre p(i) d i=1
i=1
p(i) a k´ıv´ant hossz´ us´ ag´ u k´ odszavakkal rendelkez˝ o prefix k´ od. M´asr´eszt n(i) ≤ − log log d + 1, M M M P P P p(i) log p(i) ´es ez´ert E|u(ξ)| = + at e prefix p(i)n(i) ≤ − p(i) = H(ξ) log d log d + 1, teh´ i=1
i=1
i=1
k´ od hossz´anak a v´ arhat´ o ´ert´eke teljes´ıti a k´ıv´ant egyenl˝otlens´eget.
Az egy´ertelm˝ uen dek´ odolhat´ o ´es prefix k´ odok hossz´anak v´ arhat´ o ´ert´ek´er˝ ol sz´ol´ o t´etel fels˝o becsl´es´enek bizony´ıt´ as´aban defini´alt prefix k´ od hossza k¨ ozel van az optimumhoz, de nem felt´etlen¨ ul egyenl˝o vele. Ugyanakkor ismert az optim´alis, u ´gynevezett Huffman k´ od konstrukci´ oja is. (L´asd Robert Ash: Information Theory, Lemma 2.6.2), amely el´egg´e bonyolult. Ez´ert e k´ od tulajdons´agai nehezen vizsg´alhat´ oak, ´es jelent˝os´ege korl´ atozott. Emiatt mi a Huffman k´ odot nem t´argyaljuk. Hasonl´ o jelens´eggel tal´ alkoztunk, amikor f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ ok n hossz´ us´ag´ u sorozataib´ol ´ all´ o viszonylag kis elemsz´am´ u majdnem 1 val´ osz´ın˝ us´eg˝ u, alkalmasan defini´alt halmazok elemsz´am´at becs¨ ult¨ uk. Ott sem az optim´alis halmaz elemsz´am´at becs¨ ult¨ uk. Ez a legval´ osz´ın˝ ubb sorozatok alkalmas elemsz´am´ u halmaza lett volna. Ehelyett egy olyan csak aszimptotikusan optim´alis halmazt tekintett¨ unk, amelynek elemsz´am´at a nagy sz´amok t¨orv´enye seg´ıts´eg´evel j´ ol tudtuk becs¨ ulni. Megjegyz´es. A most bizony´ıtott eredm´enyek viszonylag r¨ovid, hib´atlanul dek´ odolhat´ o forr´ ask´odol´ ast biztos´ıtanak prefix k´ odok seg´ıts´eg´evel. Gyakorlati szempontb´ ol azonban a most ismertetett prefix k´ odok eredeti form´ajukban nem j´ ol haszn´ alhat´ oak. A f˝ o probl´ema az, hogy ha egy prefix k´ od dek´ odol´ asa sor´ an egyszer hib´aztunk, akkor ennek a hib´anak a k¨ ovetkezt´eben az ¨ osszes tov´ abbi u ¨zenet dek´ odol´ asa hib´as lehet. Ugyanis nem tudjuk, hogy az u ¨zenet tov´ abbi dek´ odoland´ o jelei hol kezd˝odtek. Az ilyen probl´em´ak lek¨ uzd´es´ere ´erdemes olyan kiss´e lass´ ubb m´ odszereket kidolgozni, amelyekbe bizonyos jav´ıt´ asi lehet˝ os´egeket ´ep´ıtenek be. Az ilyen, u ´gynevezett ‘error correcting codes’ m´ odszereknek k¨ ul¨ on elm´elete van. Ezzel azonban itt nem foglalkozunk.
25
3. Csatorna k´ odol´ as ´ es dek´ odol´ as. E fejezet f˝ o t´em´aja az a k´erd´es, hogy hogyan lehet egy a jeleket esetleg hib´aval k¨ ozvet´ıt˝ o csatorn´an kereszt¨ ul viszonylag biztosan ´es gyorsan u ¨zeneteket a´tadni. A k¨ ovetkez˝ o fejezetben t´argyalom azt a k´erd´est, hogy az ebben ´es az el˝ oz˝o fejezetekben bizony´ıtott eredm´enyek seg´ıts´eg´evel hogyan lehet egy h´ırforr´as k¨ ozvet´ıt´es´et egy csatorn´an kereszt¨ ul j´ ol tov´ abb´ıtani. Egy u ¨zenetnek egy (h´ırk¨ozl´esi) csatorna seg´ıts´eg´evel v´egrehajtott tov´ abbad´asa azt jelenti szeml´eletesen, hogy a csatorna bemeneti v´eg´en leadnak egy jelet, ´es ennek hat´as´ara valamilyen m´ asik jel jelenik meg a csatorna m´ asik, kimeneti v´eg´en. A kimeneti jel ´ert´eke f¨ ugghet a v´eletlent˝ol, ´es az, hogy a kimeneti oldalon milyen val´ osz´ın˝ us´eggel milyen jel jelenik meg, att´ol f¨ ugg, hogy mi volt a bemeneti jel. Egy felhaszn´al´ o, aki a kimeneti jelet megismeri, megpr´ob´ al ennek alapj´ an visszak¨ovetkeztetni a leadott bemeneti jelre. Olyan elj´ar´ ast akarunk kidolgozni a csatorna tulajdons´againak az ismeret´eben, amely lehet˝ ov´e teszi, hogy a felhaszn´al´ o viszonylag nagy val´ osz´ın˝ us´eggel helyesen k¨ ovetkeztessen a leadott bemeneti jelre akkor is, ha a bemeneti jelek sz´ama viszonylag nagy. Fogalmazzuk meg ezt a v´ azlatosan le´ırt probl´em´at pontosabban. Ennek ´erdek´eben bevezetem el˝ osz¨ or a (h´ırk¨ozl´esi) csatorna fogalm´at. (H´ırk¨ ozl´ esi) csatorna ´ es e csatorna ´ altal ¨ osszekapcsolt val´ osz´ın˝ us´ egi v´ altoz´ ok ˜ definici´ oja. Legyen adva k´et V = {v1 , v2 , . . . } ´es V = {˜ v1 , v˜2 , . . . } v´eges vagy megsz´ aml´ alhat´ oan v´egtelen halmaz. Egy p(˜ vj |vi ), vi ∈ V , v˜j ∈ V˜ , a ´tmenetval´ osz´ın˝ us´eg f¨ uggv´enyt a V ´es V˜ halmaz k¨ oz¨ otti csatorn´ anak nevez¨ unk. Az, hogy a p(˜ vj |vi ), vi ∈ V , ˜ v˜j ∈ V f¨ uggv´eny a ´tmenetval´ osz´ın˝ us´eg f¨ uggv´eny azt jelenti, hogy p(˜ vj |vi ) ≥ 0 minden P ˜ p(˜ vj |vi ) = 1 minden vi ∈ V elemre. A V halmazt vi ∈ V ´es v˜j ∈ V p´ arra, ´es v ˜j ∈V˜
a csatorna bemeneti, a V˜ halmazt a csatorna kimeneti oldal´ anak fogjuk h´ıvni, a vi ∈ ˜ V pontokat bemeneti, a v˜j ∈ V pontokat pedig kimeneti jeleknek fogjuk nevezni. Azt mondjuk hogy k´et η ´es η˜ val´ osz´ın˝ us´egi v´ altoz´ o o ¨ssze van kapcsolva a p(˜ vj |vi ), vi ∈ V , v˜j ∈ V˜ , csatorn´ aval ha η(ω) ∈ V , η˜(ω) ∈ V˜ minden ω elemi esem´enyre, ´es P (˜ η = ˜ v˜j |η = vi ) = p(˜ vj |vi ) minden vi ∈ V ´es v˜j ∈ V elemp´ arra. Ha egy csatorn´an leadunk valamely vi ∈ V bemeneti jelet, akkor a felhaszn´al´ o p(˜ vj |vi ) val´ osz´ın˝ us´eggel kapja a v˜j kimeneti jelet. Ezen kimeneti jel seg´ıts´eg´evel pr´ ob´ alja megtal´ alni a bemeneti jel ´ert´ek´et. Ennek ´erdek´eben term´eszetes a k¨ ovetkez˝ o t´ıpus´ u elj´ar´ as alkalmaz´asa. A bemeneti oldalon alkalmas m´ odon kiv´alasztunk n´eh´ any vi1 ∈ V , . . . , viN ∈ V elemet bizonyos N elemsz´ammal, ´es ezen jelek valamelyik´et adjuk le a csatorn´an. Ezeknek a bemeneti jeleknek a kiv´alaszt´ as´at nevezz¨ uk csatorna k´ odol´ asnak. ´ Ugy k´ıv´anjuk ezt a kiv´alaszt´ ast v´egrehajtani, hogy az egyes kiv´alasztott elemeket a csatorn´an leadva, azok nagy val´ osz´ın˝ us´eggel k¨ ul¨ onb¨oz˝ o halmazokba essenek. Ez a k¨ ovetkez˝ ot jelenti. Ha egy vi ∈ V jelet leadunk a csatorn´an, akkor jel¨olje az η˜(vi ) val´ osz´ın˝ us´egi v´ altoz´ o a kimen˝ o jel ´ert´ek´et. Olyan vi1 ∈ V , . . . , viN ∈ V elemeket akarunk a k´ odol´ asban v´ alasztani, amelyekhez tal´ alhat´ oak olyan diszjunt B1 ⊂ V˜ , . . . , ˜ BN ⊂ V diszjunkt halmazok, amelyekre a P (˜ η (vik ) ∈ Bk ) val´ osz´ın˝ us´egek minden 1 ≤ k ≤ N indexre viszonylag nagyok. Ha a kimeneti oldalon egy olyan v˜j jel je26
lent meg, amelyre v˜j ∈ Bk , akkor tekintse a felhaszn´al´ o a vik jelet a bemeneti jelnek. A Bk , 1 ≤ k ≤ N , halmazok kiv´alaszt´ as´at ´es a Bk → vik lek´epez´es megad´as´at csatorna N S dek´ ododol´asnak nevezz¨ uk. E definici´ ot u ´gy adtam meg, hogy amennyiben v˜j ∈ / Bk i=k
akkor az itt ismertetett elj´ar´ as szerint nem dek´ odoljuk a v˜j kimenetet. Az azonban, hogy ezt az elvet k¨ ovetj¨ uk-e, vagy olyan elj´ar´ ast adunk, amelyikben mindig tudunk dek´ odolni csak apr´o ´ızl´esbeli k´erd´es. A Bk halmazok kiterjeszt´es´evel ugyanis azt is el´erhetj¨ uk, hogy ezek a halmazok ne csak diszjunktak legyenek, hanem egyben a V˜ halmaz egy partici´oj´at is szolg´ altass´ ak. Ilyen v´ alaszt´ assal minden kimenetet tudunk dek´ odolni, ´es az elj´ar´ asban a j´ o dek´ odol´ as val´ osz´ın˝ us´ege a Bk halmazok kiterjeszt´ese altal nem cs¨okkent. C´elunk viszonylag sok k´ ´ odsz´o kiv´alaszt´ asa u ´gy, hogy a dek´ odol´ as nagy val´ osz´ın˝ us´eggel j´ o legyen. A k´es˝obbi eredm´enyek pontos megfogalmaz´as´anak az ´erdek´eben vezess¨ uk be a k¨ ovetkez˝ o definici´ ot. Egy csatorna ´ altal λ megk¨ ul¨ onb¨ oztethet˝ o elemekb˝ ol ´ all´ o halmaz definici´ oja. Legyen adva k´et V = {v1 , v2 , . . . } ´es V˜ = {˜ v1 , v˜2 , . . . } v´eges vagy megsz´ aml´ alhat´ oan ˜ v´egtelen halmaz ´es k¨ ozt¨ uk egy p(˜ vj |vi ), vi ∈ V , v˜j ∈ V csatorna. Ha egy vi1 ∈ V , . . . , viN ∈ V sorozat elemeihez l´eteznek olyan B1 ⊂ V˜ , . . . BN ⊂ V˜ diszjunkt halmazok, amelyekre P (Bk |vik ) =
X
j∈Bk
p(˜ vj |vik ) ≥ 1 − λ
minden 1 ≤ k ≤ N indexre,
akkor azt mondjuk, hogy az A = {vi1 , . . . , viN } halmaz elemei λ megk¨ ul¨ onb¨ oztethet˝ oek. Megjegyz´es. Az el˝ obbi definici´ oban fel´ırt egyenl˝otlens´eget u ´gy is megfogalmazhatjuk, hogy amennyiben η ´es η˜ k´et a csatorn´aval ¨ osszekapcsolt val´ osz´ın˝ us´egi v´ altoz´ o, akkor P (˜ η ∈ Bk |η = vik ) ≥ 1 − λ
minden 1 ≤ k ≤ N indexre.
A k´es˝obbiekben t¨obbsz¨ or ezt a jellemz´es´et fogjuk haszn´ alni az egy csatorna a´ltal λ megk¨ ul¨ onb¨oztethet˝o elemekb˝ ol ´ all´ o halmazoknak. Egy az el˝ obb le´ırt m´ odon defini´alt j´ o, azaz kis hib´aj´ u csatorna k´ odol´ as, dek´ odol´ as definici´ oja egy λ megk¨ ul¨ onb¨oztethet˝o elemekb˝ ol ´ all´ o vi1 ∈ V , . . . , viN ∈ V sorozat megad´as´at jelenti kis λ > 0 param´eterrel az e sorozatokhoz tartoz´o B1 ⊂ V˜ , . . . , BN ⊂ V˜ halmazokkal egy¨ utt. A minket ´erdekl˝ o feladatokban val´ oj´aban nem egy jelet, hanem egy jelsorozat elemeit adjuk le egym´ as ut´ an a csatorn´an, ´es c´elunk ennek a jelsorozatnak a min´el pontosabb azonos´ıt´ asa. Minket az az eset ´erdekel els˝ osorban, amikor a jelsorozat egyes jelei egym´ ast´ ol f¨ uggetlen¨ ul, ´es ugyanolyan t¨orv´enyszer˝ us´egek szerint mennek ´ at a csatorn´an. Ebben a jegyzetben csak ezt az esetet fogom t´argyalni. A probl´ema pontos megfogalmaz´asa ´erdek´eben bevezetem az eml´ekezet n´elk¨ uli csatorna fogalm´at. Eml´ ekezet n´ elk¨ uli csatorna definici´ oja. Legyen adva k´et V = {v1 , v2 , . . . } ´es ˜ V = {˜ v1 , v˜2 , . . . } v´eges vagy megsz´ aml´ alhat´ o halmaz, ´es k¨ oz¨ ott¨ uk egy p(˜ vj |vi ), vi ∈ V , 27
v˜j ∈ V˜ , a ´tmenetval´ osz´ın˝ us´egekkel defini´ alt csatorna. Az e csatorna a ´ltal defini´ alt n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorna olyan csatorna, amelynek bemeneti jelei a V n , kimeneti jelei a V˜ n halmaz elemei, azaz az n hossz´ us´ ag´ u vik illetve v˜jk , 1 ≤ k ≤ n, elemekb˝ ol a ´ll´ o sorozatok, a ´tmenetval´ oszin˝ us´ege pedig p((˜ vj1 , . . . , v˜jn )|(vi1 , . . . , vin )) = n Q p(˜ vjk |vik ) tetsz˝ oleges v = (vi1 , . . . , vin ) ∈ V n , ´es v˜ = (˜ vj1 , . . . , v˜jn ) ∈ V˜ n sorozak=1
tokra.
Az eml´ekezet n´elk¨ uli csatorna term´eszetes megfelel˝ oje a f¨ uggetlen, egyforma eloszl´as´ u val´ osz´ın˝ us´egi v´ altoz´ ok sorozatainak. Azt a k´erd´est fogjuk vizsg´alni, hogy egy n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorna bemeneti oldal´ an aszimptotikusan h´any a csatorna ´ altal λ megk¨ ul¨ onb¨oztethet˝o elemet tartalmaz´ o halmazt lehet kiv´alasztani nagy n ´es r¨ogz´ıtett 0 < λ < 1 sz´am eset´en. Be fogjuk l´atni, hogy nagyon a´ltal´ anos felt´etelek mellett ez a sz´am 2Cn(1+o(1)) , ahol a C sz´am, amelyet csatorna kapacit´asnak fogunk h´ıvni, a csatorna tulajdons´agait´ ol f¨ ugg. Ahhoz, hogy az eredm´enyt pontosan megfogalmazzam defini´alni kell a csatorna kapacit´ast. Ennek ´erdek´eben bevezetem el˝osz¨ or k´et val´ osz´ın˝ us´egi v´ altoz´ o k¨ olcs¨on¨ os inform´ aci´oj´anak a fogalm´at. A k¨ olcs¨ on¨ os inform´ aci´ o fogalma. Legyen η ´es η˜ k´et ´ert´ekeiket egy V = {v1 , v2 , . . . } ˜ illetve V = {˜ v1 , v˜2 , . . . } v´eges vagy megsz´ aml´ alhat´ o halmazon felvev˝ o val´ osz´ın˝ us´egi v´ altoz´ o, ´es jel¨ olje r(vi , v˜j ) = P (η = vi , ηP ˜ = vj ), vi ∈ V , v˜j ∈ V˜ , az egy¨ uttes P eloszl´ asukat. r(vi , vj ), r(vi , v˜j ) ´es q(˜ vj ) = P (˜ η = v˜j ) = Vezess¨ uk be a p(vi ) = P (η = vi ) = v ˜j V˜
vi ∈V
vi ∈ V , v˜j ∈ V˜ , mennyis´egeket is. Ezzel a jel¨ ol´essel az η ´es η˜ val´ osz´ın˝ us´egi v´ altoz´ ok k¨ olcs¨ on¨ os inform´ aci´ oja az X r(vi , v˜j ) I(η ∧ η˜) = r(vi , v˜j ) log p(vi )q(˜ vj ) vi ∈V,˜ vj ∈V˜
kifejez´essel egyenl˝ o. Az I(η ∧ η˜) k¨ olcs¨ on¨ os inform´ aci´ ot kifejez˝ o o ¨sszegben csak olyan (vi , v˜j ) p´ arokra o ¨sszegez¨ unk, amelyekre r(vi , v˜j ) > 0. ´ enyes az I(η ∧ η˜) ≥ 0 egyenT´ etel a k¨ olcs¨ on¨ os inform´ aci´ o viselked´ es´ er˝ ol. Erv´ l˝ otlens´eg, ´es egyenl˝ os´eg akkor ´es csak akkor a ´ll fenn ebben a formul´ aban, ha η ´es η˜ f¨ uggetlenek. P r(vi , v˜j ), Bizony´ıt´ as. Alkalmazzuk az r(vi , v˜j ) = P (η = vi , η˜ = v˜j ), ´es p(vi ) = q(˜ vj ) =
P
vi ∈V
v ˜j ∈V˜
r(vi , v˜j ) vi ∈ V , v˜j ∈ V˜ , jel¨ol´eseket. Azt kapjuk, felhaszn´alva a g(x) =
x log x f¨ uggv´eny szigor´ u konvexit´ as´at, hogy X X r(vi , v˜j ) r(vi , v˜j ) = p(vi )q(˜ vj )g I(η ∧ η˜) = r(vi , v˜j ) log p(vi )q(˜ vj ) p(vi )q(˜ vj ) ˜ ˜ vi ∈V,˜ vj ∈V vi ∈V,˜ v j ∈V X r(vi , v˜j ) = g(1) = 0, ≥ g vi ∈V,˜ vj ∈V˜
28
Ebben a sz´amol´ asban a g(x) f¨ uggv´ eny konvexit´ as´at alkalmaztuk a p(vi )q(˜ vj ) s´ ulyf¨ uggP p(vi )q(˜ vj ) = 1, ´es p(vi )q(˜ vj ) ≥ 0 minden i ´es v´ennyel. Vegy¨ uk ´eszre, hogy vi ∈V,˜ vj ∈V˜
j indexre. Tov´ abb´a felhaszn´altuk azt is, hogy mivel a g(x), x ≥ 0, f¨ uggv´eny alulr´ ol korl´ atos, ez´ert jogunk van a bizony´ıt´ asban haszn´ alt konvexit´ asi tulajdons´agot akkor is haszn´ alni, ha v´egtelen sok oszt´opontot tekint¨ unk. Egyenl˝os´eg a g(x) f¨ uggv´eny szigor´ u r(vi ,˜ vj ) ol nem f¨ ugg˝o konvexit´ asa miatt csak akkor teljes¨ ul, ha p(vi )q(˜vj ) = α egy az i ´es j indext˝ α sz´ammal minden i ´es j indexre. (Ha p(vi )q(˜ vj ) = 0,Pakkor r(vi , v˜j ) =P0, ´es ekkor ezt a t¨ortet tetsz˝oleges m´ odon defini´alhatjuk.) De mivel p(vi )q(˜ vj ) = r(vi , v˜j ) = 1, vi ,˜ vj
vi ,˜ vj
ez csak akkor lehets´eges, hogy α = 1, azaz az η ´es η˜ val´ osz´ın˝ us´egi v´ altoz´ ok f¨ uggetlenek.
1. megjegyz´es. Ha az η˜ val´ osz´ın˝ us´egi v´ altoz´ o entr´ opi´aja teljes´ıti a H(˜ η ) < ∞ felt´etelt (vagy H(η) < ∞), akkor az η ´es η˜ val´ osz´ın˝ us´egi v´ altoz´ ok k¨ olcs¨on¨ os inform´ aci´oja egyszer˝ ubben is kifejezhet˝o, ´es az el˝ oz˝ o t´etel ´ all´ıt´ asa k¨ ovetkezik az entr´ opia m´ ar bizony´ıtott tulajdons´agaib´ol is. Ekkor X r(vi , v˜j ) I(η ∧ η˜) = r(vi , v˜j ) log p(vi )q(˜ vj ) vi ∈V,˜ vj ∈V˜
=
X
r(vi , v˜j ) log
vi ∈V,˜ vj ∈V˜
r(vi , v˜j ) − q(˜ vj )
X
r(vi , v˜j ) log p(vi )
vi ∈V,˜ vj ∈V˜
= H(˜ η ) − H(˜ η |η), ahonnan (Iη ∧ η˜) = H(˜ η ) − H(˜ η |η) ≥ 0, ´es egyenl˝os´eg csak akkor a´ll fenn, ha η ´es η˜ f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ ok. Ha a H(η) < ∞ felt´etel is teljes¨ ul, akkor I(η ∧ η˜) = H(η) + H(˜ η ) − H(η, η˜) = H(η) − H(η|˜ η ) = H(˜ η ) − H(˜ η |η).
´ 2. megjegyz´es. Erdemes felid´ezni az els˝ o fejezetben t´argyalt eredm´enyeket ´es t´argyalni azok kapcsolat´ at a k¨ olcs¨on¨ os inform´ aci´o fogalm´aval. El˝osz¨ or azt a p´eld´at t´argyaltuk, hogy ha egy m´erk˝ oz´essorozat ξ1 , . . . , ξn eredm´enyei egym´ ast´ ol f¨ uggetlen ´es egy ξ val´osz´ın˝ us´egi v´ altoz´ oval azonos eloszl´ as´ u val´ osz´ın˝ us´egi v´ altoz´ ok, akkor k¨ or¨ ulbel¨ ul 2nH(ξ) szelv´enyt kell kit¨ olteni annak ´erdek´eben, hogy majdnem biztosan legyen telital´alatunk. Ha ismerj¨ uk egy m´ asik m´erk˝ oz´essorozat η1 , . . . , ηn eredm´enyeit, ´es a (ξ1 , η1 ), . . . , (ξn , ηn ) eredm´enyp´arok egym´ ast´ ol f¨ uggetlen, ´es egy (ξ, η) v´eletlen vektorral azonos eloszl´ as´ u val´ osz´ın˝ us´egi v´ altoz´ ok, akkor az η1 , . . . , ηn m´erk˝ oz´essorozat eredm´enyeinek ismeret´eben k¨ or¨ ulbel¨ ul 2nH(ξ|η) szelv´enyt kell kit¨ olten¨ unk a majdnem biztos telital´alat el´er´es´ehez, −n(H(ξ)−H(ξ|η)) −nI(ξ∧η) teh´at k¨ or¨ ulbel¨ ul 2 =2 -szoros´ at annak amennyi szelv´enyt akkor kell kit¨ olten¨ unk, ha az η1 , . . . , ηn m´erk˝ oz´essorozat eredm´enyeit nem ismerj¨ uk. Ezt az eredm´enyt heurisztikusan u ´gy is interpret´alhatjuk, hogy az ηj val´ osz´ın˝ us´egi v´ altoz´ o ismerete I(ξ ∧η)-vel cs¨okkenti a ξj val´ osz´ın˝ us´egi v´ altoz´ o megismer´es´ehez sz¨ uks´eges inform´ aci´ot. Az I(ξ∧η) = H(ξ)−H(ξ|η) = H(η)−H(η|ξ) azonoss´ag azt jelenti, hogy a k¨ olcs¨on¨ os inform´ aci´onak ebben az interpret´aci´oj´aban a ξ ´es η val´ osz´ın˝ us´egi v´ altoz´ ok szerepe felcser´elhet˝ o. Bevezetem a csatorna kapacit´as fogalm´at. 29
A csatorna kapacit´ as fogalma. Legyen adva k´et V = {v1 , v2 , . . . } ´es V˜ = {˜ v1 , v˜2 , . . . } v´eges vagy megsz´ aml´ alhat´ o halmaz, ´es k¨ oz¨ ott¨ uk egy p(˜ vj |vi ), vi ∈ V , v˜j ∈ V˜ , a ´tmenetval´ osz´ın˝ us´egekkel defini´ alt csatorna. A csatorna kapacit´ as´ at a C = sup I(η ∧ η˜) η,˜ η
k´eplet adja meg, ahol a szupr´emumban az o ¨sszes a csatorna a ´ltal o ¨sszekapcsolt (η, η˜) val´ osz´ın˝ us´egi v´ altoz´ o p´ art tekintj¨ uk. Megjegyz´es. L´ attuk, hogy egy csatorna kapacit´asa mindig nagyobb vagy egyenl˝o, mint nulla. S˝ot, jellemezni lehet azt az esetet is, amikor a csatorna kapacit´as null´ aval egyenl˝o. Ez akkor k¨ ovetkezik be, ha b´armely k´et a csatorn´aval ¨ osszekapcsolt η ´es η˜ val´ osz´ın˝ us´egi v´ altoz´ o f¨ uggetlen. Nem neh´ez bel´ atni, hogy ez akkor ´es csak akkor lehets´eges, ha a csatorn´at meghat´ aroz´o p(˜ vj |vi ) a´tmenetval´ osz´ın˝ us´egek nem f¨ uggnek a vi bemeneti jel ´ert´ek´et˝ ol. Ez azt jelenti, hogy b´armely bemeneti jel lead´ asa eset´en ugyanolyan val´ osz´ın˝ us´eggel kapjuk b´armely kimeneti jelet. Ekkor a kimeneti jel ismerete semmilyen inform´ aci´ot nem ny´ ujt arr´ ol, hogy milyen bemeneti jelet adtak le. E fejezet f˝ o eredm´enyei arra adnak becsl´est, hogy, milyen nagy, azaz h´any λ megk¨ ul¨onb¨oztethet˝o elemet tartalmaz´ o halmazt lehet konstru´ alni egy n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorna bemeneti oldal´ an. A k¨ ovetkez˝ o eredm´enyeket fogom bel´ atni. Csatorna k´ odol´ asi t´ etel. Legyen adva adva k´et V = {v1 , v2 , . . . } ´es V˜ = {˜ v1 , v˜2 , . . . } v´eges vagy megsz´ aml´ alhat´ o halmaz, ´es k¨ oz¨ ott¨ uk egy p(˜ vj |vi ), vi ∈ V , v˜j ∈ V˜ , a ´tmenetval´ osz´ın˝ us´egekkel defini´ alt C < ∞ csatorna kapacit´ as´ u csatorna. Tekints¨ unk egy ezen csatorna a ´ltal defini´ alt n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorn´ at. Minden 0 < λ < 1 ´es ε > 0 sz´ amhoz l´etezik olyan n0 = n0 (ε, λ) k¨ usz¨ obindex u ´gy, hogy amennyiben n ≥ n0 , (k) (k) (1−ε)Cn akkor l´etezik N ≥ 2 n hossz´ us´ ag´ u (vj1 , . . . , vjn ) ∈ V n , 1 ≤ k ≤ N , alak´ u λ megk¨ ul¨ onb¨ oztethet˝ o sorozatot tartalmaz´ o halmaz ennek az n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorn´ anak a bemeneti oldal´ an. A fenti eredm´eny megford´ıt´ as´at, azaz egy λ megk¨ ul¨ onb¨oztethet˝o halmaz elemsz´am´ ara adott fels˝o becsl´est csak v´eges ´ allapotter˝ u csatorn´akra fogom bizony´ıtani. Egy csatorn´at v´eges ´ allapotter˝ unek nevezek, ha mind a bemeneti jelek V mind a kimeneti ˜ jelek V halmaza v´eges elemsz´am´ u. A csatorna k´ odol´ asi t´ etel megford´ıt´ asa. Legyen adva k´et V = {v1 , . . . , vm } ´es ˜ V = {˜ v1 , . . . , v˜n } v´eges halmaz, ´es k¨ oz¨ ott¨ uk egy p(˜ vj |vi ), vi ∈ V , v˜j ∈ V˜ , a ´tmenetval´ osz´ın˝ us´egekkel defini´ alt v´eges a ´llapotter˝ u C < ∞ csatorna kapacit´ as´ u csatorna. Tekints¨ unk egy ezen csatorna a ´ltal defini´ alt n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorn´ at. Legyen A a V n halmaz egy λ megk¨ ul¨ onb¨ oztethet˝ o sorozatokat tartalmaz´ o r´eszhalmaza valamely 0 < λ < 1 sz´ ammal. Ekkor l´etezik olyan n0 = n0 (ε, λ) k¨ usz¨ obindex, hogy amennyiben n ≥ n0 , akkor az A halmaz elemsz´ ama kisebb, mint 2(1+ε)Cn . S˝ ot, igaz a k¨ ovetkez˝ o ´elesebb becsl´es. Minden n ≥ 1 sz´ amra az adott tulajdons´ ag´ u A halmaz elemsz´ ama kisebb, √ √ 2 Cn+K n/ 1−λ egy alkalmas, a csatorna tulajdons´ agait´ ol f¨ ugg˝ o K konstanssal. mint 1−λ 2 30
Megjegyz´es. Az el˝ obb megfogalmazott eredm´enyt az irodalomban gyakran a a csatorna k´ odol´ asi t´etel er˝ os megford´ıt´ as´anak h´ıvj´ ak. E t´etel bizony´ıt´ as´aban ki fogjuk haszn´ alni, ´ hogy a tekintett csatorna v´eges ´ allapotter˝ u. Altal´anos, nem felt´etlen¨ ul v´eges a´llapotter˝ u csatorn´ak eset´eben csak egy gyeng´ebb ´ all´ıt´ ast tudnak bizony´ıtani, amelyet a csatorna k´ odol´ asi t´etel gyenge megford´ıt´ as´anak neveznek. Mi ezzel az eredm´ennyel nem fogunk foglalkozni. Megel´egsz¨ unk a csatorna k´ odol´ asi t´etel er˝ os megford´ıt´ as´anak a bizony´ıt´ as´aval abban a speci´alis esetben, amikor a csatorna v´eges a´llapotter˝ u. Miel˝ott r´at´ern´ek a fenti t´etelek bizony´ıt´ as´ara, heurisztikus magyar´ azatot adok arra, hogy mi´ert term´eszetes ilyen eredm´enyeket v´ arni. Ha adva van egy csatorn´at meghat´ aroz´o p(˜ vj |vi ), vi ∈ V , v˜j ∈ V˜ , a´tmenetval´ osz´ın˝ us´eg f¨ uggv´eny, akkor tekints¨ unk egy ehhez az ´ atmenetval´ osz´ın˝ us´eghez adapt´alt µ m´ert´eket a V × V˜ halmazon, azaz egy olyan µ val´ osz´ın˝ us´egi m´ert´eket, amelyre egy µ eloszl´ as´ u (η, η˜) v´eletlen vektor teljes´ıti a P (˜ η = v˜j |ηi = vi ) = p(˜ vj |vi ) azonoss´agot ˜ minden vi ∈ V ´es v˜j ⊂ V pontra. V´alasszuk ezt a µ m´ert´eket u ´gy, hogy egy µ eloszl´ as´ u (η, η˜) p´arra I(η ∧ η˜) = C, vagy legal´ abbis I(η ∧ η˜) nagyon k¨ ozel van a C csatorna kapacit´ashoz. Tekints¨ uk a µ m´ert´ek µn n-ik hatv´any´ at a V n × V˜ n szorzatt´eren, ´es jel¨olje ν1n ´es ν2n a µn m´ert´ek vet¨ ulet´et a V n illetve V˜ n t´erre. Pr´ ob´ aljunk a λ n n megk¨ ul¨ onb¨oztethet˝o v1 ∈ V , v2 ∈ Vn , . . . , sorozatokat a ν1 m´ert´ek szerint tipikus sorozatok k¨ oz¨ ul kiv´alasztani, ´es v´ alasszuk a vk vektornak megfelel˝ o Bk halmazt u ´gy, n mint a µ (·|vk ) felt´eteles m´ert´ek szerinti tipikus sorozatok halmaz´ at, illetve ezen halmaz kis m´ odos´ıt´ as´at. Ezt a m´ odos´ıt´ ast a Bk halmazok diszjunkts´ag´ anak a biztos´ıt´ asa ´erdek´eben tessz¨ uk. Annak ´erdek´eben, hogy megbecs¨ ulj¨ uk h´any ilyen (vk , Bk ) p´art tudunk v´ alasztani becs¨ ulj¨ uk meg a Bk halmazok ν2n m´ert´ek´et. Az els˝ o fejezet eredm´enyei nH(˜ η |η) alapj´ an a Bk halmaz k¨ or¨ ulbel¨ ul 2 sorozatb´ ol ´ all, ´es az egyes sorozatok ν2n m´ert´eke k¨ or¨ ulbel¨ ul 2−nH(˜η) . Ez´ert ν2n (Bk ) ∼ 2nH(˜η|η)−nH(˜η) = 2−nI(η∧˜η) , ´es k¨ or¨ ulbel¨ ul 2nI(η∧˜η) n ˜ Bk halmaz fedi le a V teret. Viszont, ha enn´el sokkal kevesebb, nevezetesen csak 2n(1−ε)C ∼ 2(1−ε)nI(η∧˜η) sz´am´ u Bk halmazt v´ alasztunk, akkor b´ızhatunk abban, hogy ily m´ odon egy a csatorna k´ odol´ asi t´etelt teljes´ıt˝ o rendszert kapunk. A csatorna k´ odol´ asi t´etel bizony´ıt´ asa tekinthet˝ ou ´gy, mint a fenti heurisztikus okoskod´as rendbe t´etele. Arra, hogy a fenti m´ odon v´egzett konstrukci´ o ´eles eredm´enyt ad csak kev´esb´e meggy˝ oz˝ o heurisztikus ´ervet tudok adni. Mindenesetre jegyezz¨ uk meg, hogy b´ar a vk sorozatokat ´es a Bk hozz´ atartoz´ o halmazokat ebben a konstrukci´ oban egy v´eletlen szorzatm´ert´ek szerint v´ alasztottuk ki, ez a v´ alaszt´ as kev´esb´e speci´ alis, mint ahogy az els˝ o pillanatban l´atszik. A f¨ uggetlens´egb˝ol csak azt haszn´ altuk ki, hogy a (vi , v˜j ) p´arok relat´ıv gyakoris´ aga el˝ o van ´ırva, ´es a tekintett µ m´ert´ek megv´ alaszt´ as´aval ezt a relat´ıv gyakoris´ agot ´ırtuk el˝ o. Ha j´ ol ´ırjuk el˝ o a kiv´alasztand´o vk vektorokban szerepl˝o jelek relat´ıv gyakoris´ ag´ at akkor ezzel a megszor´ıt´ assal nem cs¨okkentett¨ uk l´enyegesen a keresett λ megk¨ ul¨ onb¨oztethet˝o sorozatokb´ol ´ all´ o A halmaz nagys´ag´ at. Ez´ert sz´ep esetekben a v´eletlen v´ alaszt´ as j´ o eredm´enyt ad. A csatorna k´ odol´ asi t´etel bizony´ıt´ asa k´et lemm´an alapszik. Az els˝ o az eml´ekezet n´elk¨ uli csatorna kapacit´as´ar´ ol sz´ol. Lemma az eml´ ekezet n´ elk¨ uli csatorna kapacit´ as´ ar´ ol. Legyen adva adva k´et ˜ V = {v1 , v2 , . . . } ´es V = {˜ v1 , v˜2 , . . . } v´eges vagy megsz´ aml´ alhat´ oan v´egtelen sz´ amoss´ ag´ u 31
halmaz, ´es k¨ oz¨ ott¨ uk egy p(˜ vj |vi ), vi ∈ V , v˜j ∈ V˜ , a ´tmenetval´ osz´ın˝ us´egekkel defini´ alt C < ∞ csatorna kapacit´ as´ u csatorna. Adva k´et olyan η ´es η˜ val´ osz´ın˝ us´egi v´ altoz´ o, amelyek o ¨ssze vannak kapcsolva ezzel a csatorn´ aval, tekints¨ uk f¨ uggetlen, az (η, η˜) p´ arral azonos eloszl´ as´ u v´eletlen vektorok egy (η1 , η˜1 ), . . . , (ηn , η˜n ) sorozat´ at, ´es defini´ aljuk az ιk = ιηk ∧˜ηk , 1 ≤ k ≤ n, val´ osz´ın˝ us´egi v´ altoz´ okat a k¨ ovetkez˝ o k´eplet seg´ıts´eg´evel: p(˜ vj |vi ) vj ) = P (˜ η = v˜j ). Minden ε > 0 ιk = log q(˜vj ) , ha ηk = vi ´es η˜k = v˜j , ahol q(˜ sz´ amhoz megadhat´ oak olyan a csatorn´ aval o ¨sszekapcsolt η ´es η˜ val´ osz´ın˝ us´egi v´ altoz´ ok, n n P P amelyekre n1 ιk = n1 ιηk ∧˜ηk ⇒ I(η ∧ η˜), ahol ⇒ sztochasztikus konvergenci´ at jel¨ ol, k=1
k=1
´es I(η ∧ η˜) > (1 − ε)C. Ha feltessz¨ uk, hogy a tekintett csatorna olyan, hogy b´ armely e csatorn´ aval o ¨sszekapcsolt η ´es η˜ val´ osz´ın˝ us´egi v´ altoz´ o p´ arra teljes¨ ul a H(˜ η ) < ∞ rel´ aci´ o is, akkor az is igaz, hogy egy az e csatorna a ´ltal defini´ alt n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorna csatorna kapacit´ asa nC-vel egyenl˝ o. Megjegyz´es. Val´ oj´aban, e lemm´anak csak az els˝ o, k¨ onnyen bizony´ıthat´ o r´esz´ere lesz sz¨ uks´eg¨ unk. A m´ asodik r´eszben megfogalmazott eredm´eny t´argyal´ as´anak ink´ abb elvi okai vannak. Ezen eredm´eny szeml´eletes tartalma az, hogy egy eml´ekezet n´elk¨ uli csatorna kapacit´as´at, azaz k´et ezen csatorn´aval ¨ osszekapcsolt val´ osz´ın˝ us´egi v´ altoz´ o k¨ olcs¨on¨ os inform´ aci´oj´at nem lehet blokkos´ıt´ assal n¨ovelni. A legjobb, amit tenni tudunk az, hogy az egyes koordin´ at´ aknak megfelel˝ o bemeneti ´es kimeneti jeleket egym´ ast´ ol f¨ uggetlen¨ ul optim´alisan v´ alasztjuk. Ez egy´ebk´ent azt is jelenti, hogy nem lehet a k´ odol´ asi t´etel becsl´es´et trivi´ alis blokkos´ıt´ assal jav´ıtani. A csatorna k´ odol´ asi t´etel megford´ıt´ as´anak a´ltalunk megfogalmazott ´es k´es˝obb bizony´ıtand´ o alakj´ ab´ ol k¨ ovetkezik, hogy ez nem lehets´eges v´eges ´ allapotter˝ u csatorn´akban. A fent megfogalmazott lemma eredm´enye kiz´ arja az ilyen t´ıpus´ u jav´ıt´ as lehet˝ os´eg´et ´ altal´ anosabb csatorn´ak eset´eben is. A H(˜ η ) < ∞ felt´etel szerepeltet´es´enek e lemma megfogalmaz´as´aban technikai okai vannak. E felt´etel teljes¨ ul´ese vizsg´alatainkat egyszer˝ ubb´e teszi, mert ekkor elker¨ ul¨ unk bizonyos nem felt´etlen¨ ul abszolut konvergens sorok ´ atrendez´es´evel kapcsolatos k´enyelmetlen sz´amol´asokat. Bizony´ıt´ as. V´alasszunk olyan a csatorn´aval ¨ osszekapcsolt η ´es η˜ val´ osz´ın˝ us´egi v´ altoz´ okat amelyekre I(η ∧ η˜) ≥ (1 − ε)C, ahol C a csatorna kapacit´asa. Ekkor Eιk =
X
P (η = vi , η˜ = v˜j ) log
vi ,˜ vj
= I(η ∧ η˜) ≥ (1 − ε)C,
X r(vi , v˜j ) p(˜ vj |vi ) = r(vi , v˜j ) log q(˜ vj ) p(vi )q(˜ vj ) vi ,˜ vj
ahol r(vi , v˜j ) = P (η = vi , η˜ = v˜j ), p(vi ) = P (η = vi ), ´es q(˜ vj ) = P (˜ η = v˜j ). Ez´ert a n P ιk ⇒ I(η ∧ η˜), ha n → ∞, ´es I(η ∧ η˜) ≥ nagy sz´amok gyenge t¨orv´enye alapj´ an n1 k=1
(1 − ε)C. Egy n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorna kapacit´as´anak a kisz´ amol´ asa ´erdek´eben tekints¨ unk k´et ezen eml´ekezet n´elk¨ uli csatorna ´ altal ¨ osszekapcsolt η = (η1 , . . . , ηn ) 32
´es η˜ = (˜ η1 , . . . , η˜n ) v´eletlen vektort, ´es becs¨ ulj¨ uk meg az I(η ∧ η˜) k¨ olcs¨on¨ os inform´ aci´ot. n P Ennek ´erdek´eben el˝ osz¨ or megmutatom, hogy H(˜ η |η) = H(˜ ηk |ηk ). (Nem tettem fel, k=1
hogy az η illetve η˜ vektor koordin´ at´ ai f¨ uggetlenek.) Vezess¨ uk be a k¨ ovetkez˝ o jel¨ol´eseket:
p(vi1 , . . . , vin ) = P (η1 = vi1 , . . . , ηn = vin ), q(˜ vj1 , . . . , v˜jn ) = P (˜ η1 = v˜j1 , . . . , η˜n = v˜jn ), r(vi1 , . . . , vin , v˜j1 , . . . , v˜jn ) = P (η1 = vi1 , . . . , ηn = vin , η˜1 = v˜j1 , . . . , η˜n = v˜jn ). Ezekkel a jel¨ol´esekkel r(vi1 , . . . , vin , v˜j1 , . . . , v˜jn ) = p(vi1 , . . . , vin )
n Q
k=1
H(˜ η |η) =
X
r(vi1 , . . . , vin , v˜j1 , . . . , v˜jn ) log
X
r(vi1 , . . . , vin , v˜j1 , . . . , v˜jn )
=
X
k=1 (vi1 ,...,vin ),(˜ vj1 ,...,˜ vj n )
n X
k=1
(vi1 ,...,vin ),(˜ vj1 ,...,˜ vj n ) n X
n Y
p(˜ vjk |vik )
!
log p(˜ vjk |vik )
!
k=1
vj1 ,...,˜ vj n ) (vi1 ,...,vin ),(˜
=
p(˜ vjk |vik ), ´es
r(vi1 , . . . , vin , v˜j1 , . . . , v˜jn ) log p(˜ vjk |vik ).
Vezess¨ uk be a k¨ ovetkez˝ o mennyis´egeket is: rk (vik , v˜jk ) = P (ηk = vik , η˜k = v˜jk ), 1 ≤ k ≤ n. Azt ´ all´ıtom, hogy ezzel a jel¨ol´essel az utols´ o azonoss´ag jobb oldal´ an l´ev˝o kifejez´es bels˝ o o¨sszeg´et a k¨ ovetkez˝ o m´ odon ´ırhatjuk fel r¨ogz´ıtett k indexre: X
(vi1 ,...,vin ),(˜ vj1 ,...,˜ vj n )
=
X
vj k ) (vik ,˜
r(vi1 , . . . , vin , v˜j1 , . . . , v˜jn ) log p(˜ vjk |vik )
rk (vik , v˜jk ) log p(˜ vjk |vik ).
Val´ oban, r¨ogz´ıtve a tekintett ¨ osszegz´esben a vik , ´es v˜jk argumentumokat, ´es o¨sszegezve az ¨ osszes t¨obbi argumentum szerint az rk (vik , v˜jk ) log p(˜ vjk |vik ) kifejez´est kapjuk, majd ezekre az argumentumokra is ¨ osszegezve megkapjuk az el˝ obb fel´ırt azonoss´agot. Ezt az azonoss´agot ¨ osszegezve a k v´ altoz´ o szerint, ´es felhaszn´alva az el˝ oz˝ o azonoss´agot azt kapjuk, hogy H(˜ η |η) =
n X
X
k=1 (vik ,˜ vj k )
rk (vik , v˜jk ) log p(˜ vjk |vik ) =
amint azt ´ all´ıtottam. 33
n X
k=1
H(˜ ηk |ηk ),
Vegy¨ uk ´eszre, hogy felt´eteleink teljes¨ ul´ese eset´eben H(˜ η) ≤ I(η ∧ η˜) = H(˜ η ) − H(˜ η |η) ≤
n P
k=1
(H(˜ ηk ) − H(˜ ηk |ηk )) =
n P
k=1
n P
k=1
H(˜ ηk ) < ∞, ez´ert
I(ηk ∧ η˜k ). Tov´ abb´a, ha
az η = (η1 , . . . , ηn ) ´es η˜ = (˜ η1 , . . . , η˜n ) v´eletlen vektorok az eml´ekezet n´elk¨ uli csatorna szerinti o¨sszekapcsolt val´ osz´ın˝ us´egi v´ altoz´ ok, akkor ezek (ηk , η˜k ), 1 ≤ k ≤ n, koordin´ at´ ai osszekapcsolt val´ ¨ osz´ın˝ us´egi v´ altoz´ ok azon kiindul´o csatorna szerint, amelynek a seg´ıts´eg´evel az eml´ekezet n´elk¨ uli csatorn´at defini´altuk. Ez´ert I(ηk ∧ η˜k ) ≤ C, ´es a bizony´ıtott egyenl˝otlens´egb˝ol az is k¨ ovetkezik, hogy I(η ∧ η˜) ≤ nC. Mivel ez tetsz˝oleges az eml´ekezet n´elk¨ uli csatorna szerint ¨ osszekapcsolt η ´es η˜ v´eletlen vektorokra igaz, innen k¨ ovetkezik, hogy egy n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorna csatorna kapacit´asa kisebb vagy egyenl˝o, mint nC. Annak ´erdek´eben, hogy bel´ assuk, hogy az n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorna kapacit´asa val´ oj´aban egyenl˝o az nC mennyis´eggel tekints¨ unk egym´ ast´ ol f¨ uggetlen, ´es az eml´ekezet n´elk¨ uli csatorn´at meghat´ aroz´o csatorn´aval ¨ osszekapcsolt (ηk , η˜k ), 1 ≤ k ≤ n, val´ osz´ın˝ us´egi p´arokat. Ekkor az η = (η1 , . . . , ηn ) ´es η˜ = (˜ η1 , . . . , η˜n ) v´eletlen vektorok n P osszekapcsoltak az eml´ekezet n´elk¨ ¨ uli csatorna ´ altal, ´es I(η ∧ η˜) = I(ηk ∧ η˜k ). Mivel k=1
minden ε > 0 sz´amra az (ηk , η˜k ) p´arokat u ´gy is v´ alaszthatjuk, hogy az I(ηk ∧ η˜k ) ≥ C −ε rel´ aci´o teljes¨ ulj¨on, innen k¨ ovetkezik, hogy egy n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorna csatorna kapacit´asa nagyobb vagy egyenl˝o, mint nC. A lemm´at bel´ attuk.
A k¨ ovetkez˝ o lemm´aban olyan als´ o becsl´est adunk egy alkalmasan konstru´ alt λ megk¨ ul¨ onb¨oztethet˝o halmaz elemsz´am´ar´ ol, amely lehet˝ ov´e teszi, hogy az el˝ oz˝ o lemma seg´ıts´eg´evel bebizony´ıtsuk a csatorna k´ odol´ asi t´etelt. Als´ o becsl´ es alkalmasan konstru´ alt λ megk¨ ul¨ onb¨ oztethet˝ o elemeket tartalmaz´ o halmaz elemsz´ am´ ar´ ol. Legyen adva adva k´et V = {v1 , v2 , . . . } ´es V˜ = {˜ v1 , v˜2 , . . . } v´eges vagy megsz´ aml´ alhat´ o halmaz, ´es k¨ oz¨ ott¨ uk egy p(˜ vj |vi ), vi ∈ V , v˜j ∈ V˜ , a ´tmenetval´ osz´ın˝ us´egekkel defini´ alt csatorna. Legyen η ´es η˜ k´et e csatorn´ aval o ¨sszekapcsolt val´ osz´ın˝ us´egi v´ altoz´ o, ´es vezess¨ uk be a ιη∧˜η val´ osz´ın˝ us´egi v´ altoz´ ot is a k¨ ovetkez˝ o p(vi |˜ vj ) vj ) = P (˜ η = v˜j ). k´eplet seg´ıts´eg´evel: ιη∧˜η = log q(˜vj ) , ha η = vi , ´es η˜ = v˜j , ahol q(˜ V´ alasszunk k´et tetsz˝ oleges z > 0 ´es 0 < λ < 1 sz´ amot. L´etezik a bemeneti jelek V halmaz´ anak olyan λ megk¨ ul¨ onb¨ oztethet˝ o elemekb˝ ol a ´ll´ o r´eszhalmaza, amelynek N elemsz´ ama teljes´ıti az N ≥ 2z (λ − P (ιη∧˜η < z)) egyenl˝ otlens´eget. Miel˝ott le´ırn´ am a bizony´ıt´ ast ismertetem annak f˝ o gondolat´at. Egy {vi1 , . . . , viN } λ megk¨ ul¨ onb¨oztethet˝o elemekb˝ ol ´ all´ o halmazt keres¨ unk viszonylag nagy N elemsz´ammal, valamint a vik pontokhoz olyan diszjunkt Bk halmazokat akarunk t´ars´ıtani, amelyekre P ´ p(˜ vj |vik ) ≥ 1 − λ. Erdemes olyan Bk halmazokat v´ alasztani, amelyekre a P (˜ η∈ v ˜j ∈Bk P P p(˜ vj |vik ) ≥ 1−λ. (egy heurisztikus q(˜ vj ) val´ osz´ın˝ us´egek kicsik. Mivel Bk ) = v ˜j ∈Bk
v ˜j ∈Bk
34
okoskod´asban feltehetj¨ uk, hogy az utols´ o k´epletben egyenl˝os´eg van,) ez azt sugallja, q(˜ v ) hogy olyan Bk halmazokat ´erdemes defini´alni, amelyek v˜j ∈ Bk elemeire p(˜vj |vj i ) kicsi. Ez´ert a Bk halmazt Bk = V˜ \ {˜ vj :
p(˜ vj |vik ) q(˜ vj )
k
z
≤ 2 } alakban keress¨ uk, ahol a z sz´amot a ´ akarjuk a tekintett csatorna tulajdons´agait´ ol f¨ ugg˝oen alkalmasan v´ alasztjuk meg. Ugy λ megk¨ ul¨ onb¨oztethet˝o vik ∈ V pontokat v´ alasztani, hogy a vik pont a neki megfelel˝ o Bk P p(˜ vj |vik ) ≥ 1 − λ egyenl˝otlens´eget. Val´ oj´aban kiss´e halmazzal egy¨ utt teljes´ıtse a v ˜j ∈Bk
m´ ask´eppen kell elj´arni annak ´erdek´eben, hogy diszjunkt Bk halmazokat v´ alasszunk. Ha a vi1 , . . . , vik−1 pontokat ´es B1 , . . . , Bk−1 halmazokat m´ ar kiv´alasztottuk, akkor k−1 S p(˜ vj |vik ) pr´ ob´ alunk olyan vik ∈ V pontot ´es hozz´ atartoz´ o Bk = (V˜ \ Bj ) \ {˜ vj : q(˜ ≤ 2z } vj ) j=1 P p(˜ vj |vik ) ≥ 1 − λ. Ezt az elj´ar´ ast addig folytatjuk halmazt tal´ alni, amelyekre v ˜j ∈Bk
szukcesszive, am´ıg meg nem akadunk. A lemma arr´ ol sz´ol, hogy ilyen m´ odon mekkora λ megk¨ ul¨ onb¨oztethet˝o elemekb˝ ol ´ all´ o halmazt tudunk konstru´ alni. A lemma bizony´ıt´ asa. Defini´ aljuk a p(˜ vj |vi ) z ˜ <2 , W = (vi , v˜j ): (vi , v˜j ) ∈ V × V , q(˜ vj )
´es
vj : v˜j ∈ V˜ , (vi , v˜j ) ∈ W }, W vi = {˜
vi ∈ V,
halmazokat. Egy olyan vi1 ∈ V pontot v´ alasztunk, amelyre P (˜ η ∈ V˜ \ W vi1 |η = vi1 ) ≥ 1−λ, felt´eve, hogy ilyen pont l´etezik. Ebben az esetben legyen B1 = V˜ \W vi1 . Ha nincs ilyen vi1 ∈ V pont, akkor a procedur´ at befejezz¨ uk egyetlen pont kiv´alaszt´ asa n´elk¨ ul. A vi1 ∈ V , . . . , vik ∈ V pontokat szukcesszive v´ alasztjuk egym´ as ut´ an, ´es a vip ponthoz t´ars´ıtott Bp halmazt a ! p−1 \ p = 2, 3, . . . . B1 = V˜ \ W v1 , Bp = W vil \ W vip , l=1
k´eplettel defini´aljuk. Ezek a B1 , B2 , . . . halmazok diszjunktak. Ha a vi1 ∈ V , . . . , vik ∈ V pontok m´ ar ki vannak v´ alasztva, akkor a k + 1-k l´ep´esben olyan vik+1 ∈ V k T vi pontot keres¨ unk, amelyre P (˜ η ∈ W l \ W vik+1 |η = vik+1 ) ≥ 1 − λ, ugyanl=1
is ez jelenti azt, hogy P (˜ η ∈ Bk+1 |η = vik+1 ) ≥ 1 − λ. Ha ez a felt´etel teljes¨ ul, akkor v´ alasztunk egy k´ıv´ant tulajdons´ag´ u vik+1 ∈ V pontot, ha nem teljes¨ ul, akkor a vip pontok v´ alaszt´ as´at a k-ik l´ep´esben befejezz¨ uk. A lemm´aban szerepl˝o N sz´amot v´ alaszthatjuk u ´gy, mint a legnagyobb olyan k sz´amot, amelyre v´ alasztottunk vik pontot. Ugyanis az A = {vi1 , . . . , viN } halmaz pontjai a B1 , . . . , BN halmazokkal egy¨ utt λ megk¨ ul¨ onb¨oztethet˝o pontok. Azon k index nagys´ag´ ara kell teh´at j´ o als´ o becsl´est adni, amelyikre m´eg tudjuk folytatni az algoritmusunkat, ´es megfelel˝ o tulajdons´ag´ u vik ∈ V pontot tal´ alni. A k-ik 35
l´ep´es ut´ an akkor ´es csak akkor tudunk megfelel˝ o tulajdons´ag´ u vik+1 ∈ V pontot tal´ alni, k S ha inf P (˜ η ∈ V˜ (k) ∪ W vi |η = vi ) < λ, ahol V˜ (1) = V˜ , ´es V˜ (k) = (V˜ \ W vil ), k = vi ∈V
l=1
1, 2, . . . . Az al´ abbi becsl´esek seg´ıts´eg´evel meg tudjuk mutatni, hogy ez az egyenl˝otlens´eg teljes¨ ul bizonyos sz´amunkra ´erdekes esetekben. inf P (˜ η ∈ V˜ (k) ∪ W vi |η = vi ) ≤
vi ∈V
=
X
vi ∈V
X
vi ∈V
P (η = vi )P (˜ η ∈ V˜ (k) ∪ W vi |η = vi )
P (η = vi , η˜ ∈ V˜ (k) ∪ W vi ) = P ((η, η˜) ∈ (V × V˜ (k)) ∪ W )
≤ P (˜ η ∈ V˜ (k)) + P ((η, η˜) ∈ W ). M´asr´eszt P ((η, η˜) ∈ W ) = P (ιη∧˜η < z), ´es a V˜ (k) halmaz definici´ oja alapj´ an P (˜ η ∈ V˜ (k)) ≤
k X
≤
k X
l=1
l=1
P (˜ η ∈ V˜ \ W vil ) =
v ˜j :
X
p(˜ vj |vi ) l ≥2z q(˜ vj )
k X l=1
X
q(˜ vj )
p(˜ vj |vi ) l ≥2z v ˜j : q(˜ vj )
2−z p(˜ vj |vil ) ≤
k X X
l=1 v ˜j ∈V˜
2−z p(˜ vj |vil ) =
k X
2−z = k2−z .
l=1
A fenti becsl´esekb˝ol k¨ ovetkezik, hogy inf P (˜ η ∈ V˜ (k) ∪ W vi |η = vi ) ≤ P (ιη∧˜η < z) + k2−z ,
vi ∈V
ez´ert inf P (˜ η ∈ V˜ (k) ∪ W vi |η = vi ) < λ, ha k < 2z (λ − P (ιη∧˜η < z)). Ez azt vi ∈V
jelenti, hogy a k´ıv´ant tulajdons´ag´ u vik ∈ V pontok v´ alaszt´ as´at tudjuk folytatni a k¯ = [2z (λ − P (ιη∧˜η < z))] + 1 ´ert´ekig, ahol [x] az x sz´am eg´esz r´esz´et jel¨oli. Innen k¨ ovetkezik a lemma a´ll´ıt´ asa. A csatorna k´ odol´ asi t´etel bizony´ıt´ asa. V´alasszunk olyan (η ′ , η˜′ ) val´ osz´ın˝ us´egi v´ altoz´ o p´art, amelynek tagjai ¨ ossze vannak kapcsolva az eml´ekezet n´elk¨ uli csatorn´at meghat´ aroε ′ ′ z´o csatorn´aval, ´es I(η ∧ η˜ ) ≥ (1− 4 )C, ahol C ennek a csatorn´anak a kapacit´asa. Legyen (η1 , η˜1 ), (η2 , η˜2 ), . . . , (ηn , η˜n ) f¨ uggetlen, az (η ′ , η˜′ ) v´eletlen vektorral azonos eloszl´ as´ u p(˜ vj |vi ) v´eletlen vektorok sorozata, ´es a ιk val´ osz´ın˝ us´egi v´ altoz´ ot defini´alja a ιk = log q(˜vj ) , ha ηk = vi , ´es η˜k = v˜j k´eplet. Vezess¨ uk be az η = (η1 , . . . , ηn ) ´es η˜ = (˜ η1 , . . . , η˜n ) v´eletlen vektorokat, ´es defini´aljuk seg´ıts´eg¨ ukkel a ιη∧˜η val´ osz´ın˝ us´egi v´ altoz´ ot u ´gy, mint az Als´ o becsl´es alkalmasan konstru´ alt λ megk¨ ul¨ onb¨ oztethet˝ o elemeket tartalmaz´ o haln P maz elemsz´ am´ ar´ ol eredm´eny megfogalmaz´as´aban tett¨ uk. Ekkor ιη∧˜η = ιk , ez´ert az k=1
eml´ekezet n´elk¨ uli csatorna kapacit´as´ar´ ol sz´ol´ o lemma (els˝ o) eredm´enye alapj´ an l´etezik ε λ olyan n0 k¨ usz¨ obindex, amelyre igaz, hogy P (ιη∧˜η < (1 − 2 )Cn) ≤ 2 , ha n ≥ n0 . Ez´ert 36
alkalmazva az Als´ o becsl´es alkalmasan konstru´ alt λ megk¨ ul¨ onb¨ oztethet˝ o elemeket tartalmaz´ o halmaz elemsz´ am´ ar´ ol nev˝ u lemma eredm´eny´et z = (1 − 2ε )Cn v´ alaszt´ assal azt (1−ε)Cn z (1−ε/2)Cn λ , ha n ≥ n0 (ε, λ). A kapjuk, hogy N ≥ 2 (λ − P (ιη∧˜η < z)) ≥ 2 2 ≥ 2 t´etel bizony´ıt´ as´at befejezt¨ uk. Megjegyz´es. V´eges ´ allapotter˝ u csatorn´ak eset´en ´erv´enyes a csatorna k´ odol´ asi t´etel becsl´es´enek a k¨ ovetkez˝ o a csatorna k´ odol´ asi t´etel megford´ıt´ as´aban szerepl˝o becsl´eshez hasonl´o ´eles´ıt´ese. Az n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorn´anak l´etezik olyan λ megk¨ ul¨ onb¨oztethet˝o sorozatokb´ o l a ´ ll´ o halmaza, amelynek N = N (n) elemsz´am´ara teljes¨ ul √ √ λ Cn−K n/ λ az N ≥ 2 2 egyenl˝otlens´eg alkalmas K > 0 sz´ammal, ahol C a csatorna kapacit´asa. Val´ oban, ebben az esetben, mint l´atni fogjuk, l´etezik olyan (η ′ , η˜′ ) a csatorn´aval osszekapcsolt val´ ¨ osz´ın˝ us´egi v´ altoz´ o p´ar, amelyre I(η ′ ∧ η˜′ ) = C, ´es ha η = (η1 , . . . , ηn ) ´es η˜ = (˜ η1 , . . . , η˜n ), ahol (ηk , η˜k ), ≤ n ≤ k, az (η, η˜′ ) val´ osz´ın˝ us´egi v´ altoz´ o p´ar f¨ uggetlen p´eld´anyai, akkor nem neh´ez bel´ atni a Csebisev egyenl˝otlens´eg seg´ıts´eg´evel — felhaszn P n´alva az ιη∧˜η = ιηk ∧˜ηk azonoss´agot, — hogy l´etezik olyan K > 0 sz´am, amelyre k=1 n pn pn P o (ιηk ∧˜ηk − Eιηk ∧˜ηk ) ≤ −K λ ≤ λ2 . Ez´ert az Als´ P (ιη∧˜η ≤ Cn − K λ ) = P k=1
becsl´es alkalmasan konstru´ alt λ megk¨ ul¨ onb¨ oztethet˝ o elemeket tartalmaz´ o halmaz elem√ alaszt´ assal. sz´ am´ ar´ ol eredm´eny´eb˝ ol az eml´ıtett egyenl˝otlens´eget kapjuk z = Cn−K √nλ v´ A csatorna k´ odol´ asi t´etel megford´ıt´ as´anak a bizony´ıt´ asa v´eges a´llapotter˝ u csatorn´akra azon alapul, hogy ebben az esetben a csatorna kapacit´ast defini´al´ o szupr´emum felv´etetik, ´es explicit m´ odon lehet jellemezni azokat a csatorn´aval o¨sszekapcsolt val´ osz´ın˝ us´egi v´ altoz´ o p´arok eloszl´ as´at, amelyek k¨ olcs¨on¨ os inform´ aci´oja egyenl˝o a csatorna kapacit´assal. Az al´ abbi eredm´enyt fogom bebizony´ıtani. T´ etel v´ eges ´ allapotter˝ u csatorna optim´ alis bemenet´ enek a jellemz´ es´ er˝ ol. Legyen adva k´et V = {v1 , . . . , vm } ´es V˜ = {˜ v1 , . . . , v˜n } v´eges halmaz, ´es k¨ oz¨ ott¨ uk egy ˜ p(˜ vj |vi ), vi ∈ V , v˜j ∈ V , a ´tmenetval´ osz´ın˝ us´egekkel defini´ alt v´eges a ´llapotter˝ u C <∞ csatorna kapacit´ as´ u csatorna. L´etezik olyan e csatorn´ aval o ¨sszekapcsolt η, η˜ val´ osz´ın˝ us´egi v´ altoz´ o p´ ar, amelyre I(η ∧ η˜) = C. Egy e csatorn´ aval o ¨sszekapcsolt η, η˜ val´ osz´ın˝ us´egi v´ altoz´ o p´ arra akkor ´es csak akkor igaz az I(η ∧ η˜) = C egyenl˝ os´eg, ha a p(vi ) = P (η = vi ), vi ∈ V , ´es q(˜ vj ) = P (˜ η = v˜j ), v˜j ∈ V˜ , val´ osz´ın˝ us´egek teljes´ıtik a X
v ˜j ∈V˜
p(˜ vj |vi ) log
p(˜ vj |vi ) ≤C q(˜ vj )
minden vi ∈ V pontban
(3.1)
egyenl˝ otlens´egeket, ´es ha p(vi ) > 0, akkor a vi pontnak megfelel˝ o rel´ aci´ o ´eles´ıthet˝ o, ´es egyenl˝ os´eget is ´ırhatunk az egyenl˝ otlens´eg helyett. p(˜ v |v )
Megjegyz´es. A (3.1) k´eplet u ´gy ´ertend˝o, hogy p(˜ vj |vi ) log q(˜jvj )i = 0, ha p(˜ vj |vi ) = 0. A t´etel azt is ´ all´ıtja, hogy q(˜ vj ) > 0, ha p(˜ vj |vi ) > 0 valamilyen vi bemen˝ o a´llapotra (egy az I(η ∧ η˜) = C felt´etelt teljes´ıt˝ o a csatorn´aval ¨ osszekapcsolt η, η˜ p´ar a´ltal defini´alt q(˜ vj ) = 37
P (˜ η = v˜j ) val´ osz´ın˝ us´egre). Ellenkez˝ o esetben nem teljes¨ ulne a (3.1) egyenl˝otlens´eg, p(˜ v |v ) u mert annak baloldala ∞ lenne, mivel tartalmazna egy p(˜ vj |vi ) log q(˜jvj )i = ∞ alak´ osszeadand´ ¨ ot. Igaz a X
v ˜j ∈V˜
p(˜ vj |vi ) log
p(˜ vj |vi ) ≥0 q(˜ vj )
minden vi ∈ V pontban
egyenl˝otlens´eg is. Ez k¨ ovetkezik p´eld´aul a m´ asodik fejezetben bizony´ıtott Egy I-divergenciaPt´ıpus´ u lemm´ abol az aj = vj |vi ) ´es bj = q(˜ vj ) szereposzt´assal felhaszn´alva az P p(˜ q(˜ vj ) = 1 rel´ aci´okat. p(˜ vj |vi ) = 1 ´es B = A= v ˜j ∈V˜
v ˜j ∈V˜
A t´etel bizony´ıt´ asa k´et f¨ uggv´enyek konvexit´ as´aval (vagy konk´ av´ıt´ as´aval) kapcsolatos eredm´enyen alapul. Az els˝ o lemma arr´ ol sz´ol, hogy egy f¨ uggv´eny, amely a k¨ olcs¨on¨ os inform´ aci´ot defini´al´ o f¨ uggv´eny term´eszetes kiterjeszt´es´enek tekinthet˝ o a pozit´ıv ort´ ansra konk´ av. Lemma egy f¨ uggv´ eny konk´ avit´ as´ ar´ ol. Legyenek adva bizonyos p(i, j), 1 ≤ i ≤ M , 1 ≤ j ≤ N sz´ amok, amelyekre 0 ≤ p(i, j) ≤ 1 minden 1 ≤ i ≤ M ´es 1 ≤ j ≤ N indexre, N P ´es p(i, j) = 1 minden 1 ≤ i ≤ M indexre. Defini´ aljuk seg´ıts´eg¨ ukkel az j=1
F (u1 , . . . , uM ) =
N M X X
ui p(i, j) log
i=1 j=1
f¨ uggv´enyt, ahol yj = yj (u1 , . . . , uM ) =
p(i, j) , yj M P
ui ≥ 0 minden 1 ≤ i ≤ M indexre
p(i, j)ui . Az F (u1 , . . . , uM ) f¨ uggv´eny folyto-
i=1
nos ´es konk´ av az A = {(u1 , . . . , uM ): ui ≥ 0, 1 ≤ i ≤ M } halmazon. 1. megjegyz´es. Az F f¨ uggv´enyt defini´al´ o ¨ osszeg u ´gy ´ertend˝o, hogy csak azon (i, j) p´arokra o¨sszegz¨ unk, amelyekre p(i, j) > 0. Teh´ at az ui p(i, j) log p(i,j) = 0 konvenci´ ot yj fogjuk alkalmazni a p(i, j) = 0 esetben akkor is, ha yj = 0. Sz¨ uks´eges m´eg defini´alni az p(i,j) ui p(i, j) log yj kifejez´est akkor, ha az ui = 0, mert ekkor is el˝ ofordulhat, hogy yj = 0. = 0, ha ui = 0 konvenci´ ot fogjuk alkalmazni. A Ebben az esetben az ui p(i, j) log p(i,j) yj k¨ ovetkez˝ o sz´amol´ asokban az egyszer˝ ubb jel¨ol´es kedv´e´ert a log term´eszetes ´es nem 2 alap´ u logaritmust fog jel¨olni, de ennek nincs nagy jelent˝os´ege. A term´eszetes logaritmusr´ ol a 2 alap´ u logaritmusra val´ o´ att´er´es csak log2 e-vel val´ o szorz´ast jelent. ´ uk meg, mi´ert hasznos sz´amunkra a fenti lemma. C´elunk egy v´eges 2. megjegyz´es. Erts¨ allapotter˝ ´ u csatorna csatorna kapacit´as´anak a meghat´ aroz´asa. A lemm´ aban szerepl˝o F (u1 , . . . , uM ) seg´ıts´eg´evel ezt a probl´em´at term´eszetes m´ odon ´ at tudjuk fogalmazni egy felt´eteles sz´els˝ o´ert´ek feladatt´a, ahol az F (u1 , . . . , uM ) f¨ uggv´eny maximum´at keress¨ uk a M P ui = 1 felt´etel mellett.
i=1
38
Val´ oban, tekints¨ unk egy olyan csatorn´at, amelyre p(˜ vj |vi ) = p(i, j), ´es legyen η egy M P olyan val´ osz´ın˝ us´egi v´ altoz´ o, amelyre P (η = vi ) = ui , 1 ≤ i ≤ M , ( ui = 1). Ha η˜ i=1
olyan val´ osz´ın˝ us´egi v´ altoz´ o, amelyre η ´es η˜ ¨ ossze vannak kapcsolva ezzel a csatorn´aval, akkor P (˜ η = v˜j ) = yj , 1 ≤ j ≤ N , ´es F (u1 , . . . , uM ) = I(η ∧ η˜). Innen l´athat´ o, hogy a csatorna kapacit´as meghat´ aroz´asa val´ oban a fent eml´ıtett felt´eteles sz´els˝ o´ert´ek feladathoz vezet. Ilyen t´ıpus´ u feladatokat ´erdemes az u ´gynevezett Kuhn–Tucker t´etel seg´ıts´eg´evel vizsg´alni, ´es mi is ennek az eredm´enynek egy egyszer˝ u speci´ alis eset´et fogjuk alkalmazni. Ahhoz azonban, hogy ezt megtehess¨ uk, tudnunk kell, hogy a lemm´aban defini´alt F f¨ uggv´eny konk´ av.
A lemma bizony´ıt´ asa. Az F f¨ uggv´eny folytonos, ha azt a hat´aron u ´gy defini´aljuk, ahogy az els˝ o megjegyz´esben tett¨ uk. Ezen ´ all´ıt´ as egyetlen r´eszletesebb indokl´ ast ig´enyl˝o r´esze az, hogy az olyan (i, j) indexp´arokra, amelyekre p(i, j) > 0 az ui p(i, j) log p(i,j) yj f¨ uggv´eny folytonos az olyan u pontokban is, amelyek i-ik koordin´ at´ aja ui = 0. Azt kell (n) (n) 1 ellen˝ orizni, hogy ha ui → 0, akkor ui p(i, j) log p(i,j) → 0. De ekkor p(i,j) ≤ (n) , (n) (n) yj
ez´ert
(n) ui p(i, j) log p(i,j) (n) yj
≤
(n) 1 ui p(i, j) log (n) ui
yj
ui
→ 0, ´es ezt kellett bel´ atni. Ha ui > 0
f¨ uggv´eny folytonoss´aga k¨ onnyen (´es p(i, j) > 0), akkor yj > 0, ´es az ui p(i, j) log p(i,j) yj l´athat´ o. 2 F Az F f¨ uggv´eny konk´ avit´ as´anak bizony´ıt´ as´ahoz el´eg megmutatni, hogy a ∂u∂k ∂u , l 1 ≤ k, l ≤ M , m´ atrix negat´ıv szemidefinit minden (u1 , . . . , uM ), ui > 0, 1 ≤ i ≤ M pontban. (Mivel az F f¨ uggv´eny folytonos el´eg csak azokat a pontokat tekinteni, amelyek koordin´ at´ ai szigor´ uan pozit´ıvak.) Sz´ amoljuk ki e m´ atrix elemeit. Fel´ırhatjuk, hogy ∂F = ∂uk
X
X
p(k, j) log p(k, j)−
j: p(j,k)>0
j: p(j,k)>0
p(k, j) log yj −
M X
X
ui p(i, j)
i=1 j: p(j,k)>0
p(k, j) . yj
Az utols´ o kifejez´esben szerepl˝o kett˝os szumma val´ oj´aban konstans. Ugyanis M X
X
i=1 j: p(j,k)>0
p(k, j) ui p(i, j) = yj
Innen
∂F = ∂uk
X
j: p(j,k)>0
X
M X
p(k, j) yj
ui p(i, j)
i=1
p(k, j) log
j: [(j,k)>0
!
=
N X
p(k, j)
j=1
p(k, j) − 1, yj
´es mivel yj > 0 az {(u1 , . . . , uM ): ui > 0, 1 ≤ i ≤ M } halmazon
N X ∂ F p(k, j)p(l, j) ∂ p(k, j) log yj = − =− . ∂uk ∂ul ∂ul j=1 y j j=1 2
N X
39
yj = 1. yj
(3.2)
Az F f¨ uggv´eny konk´ avit´ as´anak a bizony´ıt´ as´ahoz azt kell bel´ atni, hogy tetsz˝oleges ((α(1), . . . , α(M )) vektorra M M X X ∂2F α(k)α(l) ≤ 0. ∂uk ∂ul
k=1 l=1
Viszont M M X N M X M X X X ∂2F p(k, j)p(l, j) α(k)α(l) = − α(k)α(l) ∂uk ∂ul y j j=1
k=1 l=1
k=1 l=1
N N M M X X 1 XX 1 =− p(k, j)p(l, j)α(k)α(l) = − y y j=1 j j=1 j k=1 l=1
M X
k=1
p(k, j)α(k)
!2
≤ 0.
∂F (u) parci´ alis Sz¨ uks´eg¨ unk lesz m´eg az el˝ oz˝ o lemma egy kieg´esz´ıt´es´ere is, amelyik a ∂u k deriv´alt viselked´es´et olyan u vektorokra is le´ırja, amelyeknek van 0 koordin´ at´ aja. Amikor a k-ik koordin´ ata szerinti parci´ alis deriv´altat tekintj¨ uk meg kell k¨ ul¨ onb¨oztetn¨ unk azt az esetet, amikor az u vektor uk koordin´ at´ aja az uk > 0 ´es amikor az uk = 0 rel´ aci´ot teljes´ıti. Be fogjuk l´atni, hogy az els˝ o esetben a parci´ alis deriv´alt folytonos, ´es teljes´ıti a (3.2) formul´ at. A m´ asodik esetben azt ´ all´ıtom, hogy ekkor is l´etezik (az egyoldali) parci´ alis deriv´alt, ´es az egyenl˝o a parci´ alis deriv´alt ir´anymenti hat´ar´ert´ek´evel. Ez az ir´anymenti hat´ar´er´ek azonban v´egtelen is lehet. ∂F Az, hogy a ∂u (u) f¨ uggv´enynek l´etezik ir´anymenti hat´ar´ert´eke az u = (u1 , . . . , uM ) k ∂F pontban azt jelenti, hogy l´etezik a Gk (u) = lim ∂u (u + t˜ u) esetleg v´egtelennel egyenl˝o k t→0+
hat´ar´ert´ek minden olyan u ˜ = (˜ u1 , . . . , u ˜M ) vektorra, amelynek k-ik koordin´ at´ aja u ˜k = 1, ´es u + t˜ u ∈ A el´eg kis t > 0 sz´amokra. Tov´ abb´a ez a hat´ar´ert´ek nem f¨ ugg az u ˜ vektor v´ alaszt´ as´at´ ol. A lim azt jelenti, hogy szigor´ uan pozit´ıv t > 0 sz´amokkal tekintj¨ uk ezt a t→0+
limeszt. (A most bevezetett ir´anymenti hat´ar´ert´ekhez hasonl´o fogalommal tal´ alkoztunk a komplex f¨ uggv´enytanban is, amikor egy hatv´anysor esetleges folytonoss´ag´ at vizsg´alj´ak a hatv´anysor konvergenciak¨ or´enek egy pontj´aban.) Nem neh´ez megmutatni, hogy ha a Gk (u) ir´anymenti hat´ar´ert´ek l´etezik egy olyan u = (u1 , . . . , uM ) pontban, amelyre ∂F ∂F (u), ahol ∂u (u) a megfelel˝ o f´eloldali parci´ alis deriv´altat uk = 0, akkor Gk (u) = ∂u k k jel¨oli. Kieg´ esz´ıt´ es az egy f¨ uggv´ eny konk´ avit´ as´ ar´ ol sz´ ol´ o lemm´ ahoz. A lemm´ aban te∂F kintett F f¨ uggv´eny ∂uk parci´ alis deriv´ altja folytonos f¨ uggv´eny az Ak = {(u1 , . . . , uM ): ui ≥ 0 minden 1 ≤ i ≤ M indexre, ´es uk > 0} halmazon minden 1 ≤ k ≤ M indexre, ´es teljes´ıti a (3.2) formul´ at. ∂F (u) f¨ uggv´eny Ha az u = (u1 , . . . , uM ) ∈ A pontban uk = 0, akkor is l´etezik a ∂u k ∂F Gk (u) ir´ anymenti hat´ ar´ert´eke az u pontban. Ha az ilyen u pontokban a ∂uk (u) parci´ alis 40
deriv´ altat u ´gy defini´ aljuk, mint ezen ir´ anymenti hat´ ar´ert´eket, akkor a (3.2) formula ´erv´enyes lesz minden u ∈ A pontban. Ez az ir´ anymenti hat´ ar´ert´ek akkor ´es csak akkor v´eges, ha az yj = yj (u) sz´ amra yj > 0 minden olyan j indexre, amelyre p(k, j) > 0. Bizony´ıt´ as. Mivel uk > 0 egy u = (u1 , . . . , uk ) ∈ Ak pontra, ez´ert az Ak halmaz pontjaiban yj = yj (u) ≥ uk p(k, j) > 0 minden olyan j indexre, amelyre p(k, j) > 0. Ezt felhaszn´alva kapjuk, hogy a (3.2) formula, illetve az ezen azonoss´ag bizony´ıt´ as´aban felhaszn´alt formul´ ak az u ∈ Ak pontokban is ´erv´enyesek. Ezut´ an a (3.2) formula ∂F parci´ alis deriv´alt folytonos az Ak halmaz seg´ıts´eg´evel az is k¨ onnyen l´athat´ o, hogy a ∂u k pontjaiban. Ha u = (u1 , . . . , uM ) ∈ A olyan pont, amelyre uk = 0, ´es az u ˜ = (˜ u1 , . . . , u ˜M ) pontra u ˜k = 1, ´es u + t˜ u ∈ A el´eg kis t > 0 sz´amra, akkor az u + t˜ u ∈ Ak rel´ aci´o is teljes¨ ul ∂F ∂F kis t > 0 sz´amokra. Ez´ert a ∂u (u + t˜ u ) kifejez´ e sre ´ e rv´ e nyes a (3.2) formula, ´ e s a ∂uk k deriv´alt ir´anymenti hat´ar´ert´ek´enek l´etez´es´ehez az u pontban azt kell ellen˝ orizni, hogy az e formula jobb oldal´ an szerepl˝o kifejez´esnek van az u ˜ vektort´ ol f¨ uggetlen hat´ar´ert´eke, amely egyenl˝o a (3.2) formula jobboldal´ an lev˝ o kifejez´es ´ert´ek´evel az u pontban. Ez azonban k¨ onnyen l´athat´ o felhaszn´alva, hogy lim yj (u + t˜ u) = yj (u) minden 1 ≤ j ≤ M t→0
indexre. Tov´ abb´a ez a limesz akkor ´es csak akkor v´egtelen, ha l´etezik olyan j index, amelyre p(k, j) > 0, ´es yj = 0. A m´ asik lemma, amely hasznos lesz az egy v´eges ´ allapotter˝ u csatorna optim´alis bemenet´enek a jellemz´es´eben az u ´gynevezett Kuhn–Tucker t´etelnek egy speci´ alis ´es egyszer˝ ubben bizony´ıthat´ o esete. A Kuhn–Tucker t´etel a konvex programoz´ as egyik alapvet˝ o eredm´enye. B´ar a Kuhn–Tucker t´etel ´ altal´ anos alakj´ ara nem lesz sz¨ uks´eg¨ unk, r¨oviden, bizony´ıt´ as n´elk¨ ul ismertetni fogom ezt az eredm´enyt is. A bizony´ıt´ as megtal´ alhat´ o p´eld´aul Ji˘r´ı Matou˘sek ´es Bernd G¨artner Understanding and Using Linear Programming c´ım˝ u k¨ onyv´eben (Proposition 8.7.2). Bizony´ıtani csak a k¨ ovetkez˝ o eredm´enyt fogom.
A Kuhn–Tucker t´ etel egy speci´ alis esete. Legyen adva egy folytonos ´es konk´ av F (u1 , . . . , uM ) f¨ uggv´eny az A = {(u1 , . . . , uM ): ui ≥ 0, 1 ≤ i ≤ M } halmazon, ame∂F parci´ alis deriv´ alt l´etezik ´es folytonos az Ak = {(u1 , . . . , uM ): ui ≥ 0, 1 ≤ lyre a ∂u k ∂F i ≤ M, ´es uk > 0} halmazon minden 1 ≤ k ≤ M indexre, tov´ abb´ a l´etezik a ∂u k parci´ alis deriv´ alt ir´ anymenti hat´ ar´ert´eke azon u = (u1 , . . . , uM ) ∈ A pontokban is, ame∂F lyekre uk = 0. Defini´ aljuk a ∂u parci´ alis deriv´ altat ezekben a pontokban, mint ezt az k M P ir´ anymenti deriv´ altat, ´es keress¨ uk az F (u1 , . . . , uM ) f¨ uggv´eny maximum´ at a ui = 1 i=1
felt´etel mellett, azaz az A ∩ B halmazon, ahol B = {(u1 , . . . , uM ):
M P
ui = 1}. Egy
i=1
u ¯ = (¯ u1 , . . . , u ¯M ), u ¯ ∈ A ∩ B, vektor akkor ´es csak akkor megold´ asa ennek a sz´els˝ o´ert´ek ∂F u) ≤ D minden 1 ≤ i ≤ M feladatnak, ha l´etezik olyan D < ∞ konstans, amelyre ∂ui (¯ indexre, ´es ebben a rel´ aci´ oban egyenl˝ os´eg a ´ll azon i indexekre, amelyekre u ¯i > 0. Bizony´ıt´ as. Legyen u ¯ = (¯ u1 , . . . , u ¯M ) a sz´els˝ o´ert´ek feladat megold´ asa. V´alasszuk ki e vektor k´et u ¯i ´es u ¯j koordin´ at´ at u ´gy, hogy u ¯i > 0. Jel¨olje u(i, j) azt az M -dimenzi´os 41
vektort, amelynek az i-ik koordin´ at´ aja −1, a j-ik koordin´ at´ aja 1, ´es az o¨sszes t¨obbi koordin´ at´ aja 0. Ekkor az u ¯(ϑ) = u ¯ + ϑu(i, j) vektorra u ¯(ϑ) ∈ A ∩ B, s˝ ot u ¯(ϑ) ∈ F (¯ u(ϑ))−F (¯ u) Ai ∩ Aj ∩ B, ha a ϑ > 0 sz´am el´eg kicsi. Innen azt kapjuk, hogy a g(ϑ) = ϑ f¨ uggv´eny kis ϑ > 0 param´eterrel teljes´ıti a ∂F ∂F dF (u(ϑ)) ′ ′ ′ (ϑ ) = − (¯ u+ϑu ¯(i, j)) + (¯ u+ϑu ¯(i, j)) 0 ≥ g(ϑ) = dϑ ∂ui ∂uj rel´ aci´ot alkalmas 0 < ϑ′ < ϑ sz´ammal. A ϑ → 0 hat´ar´ atmenetet alkalmazva ebben a ∂F ∂F ∂F ∂F u) ≤ ∂ui (¯ u). Legyen D = ∂u (¯ u). Ekkor ∂u (¯ u) ≤ D k´epletben azt kapjuk, hogy ∂uj (¯ i j minden 1 ≤ j ≤ M indexre. De mivel a fenti ´ervel´esben tetsz˝oleges olyan i indexet ∂F (¯ u) minden olyan i v´ alaszthatunk, amelyre u ¯i > 0 innen az is k¨ ovetkezik, hogy D = ∂u i indexre, amelyre u ¯i > 0. Megford´ıtva, legyen u ¯ = (¯ u1 , . . . , u ¯M ) ∈ A∩B olyan vektor, amelyikre l´etezik olyan ∂F u) ≤ D minden 1 ≤ i ≤ M indexre, ´es ebben a rel´ aci´oban D < ∞ sz´am, amelyre ∂ui (¯ egyenl˝os´eg van azon i indexekre, amelyekre u ¯i > 0. Ekkor, mivel F konk´ av f¨ uggv´eny F (ϑu + (1 − ϑ)¯ u) ≥ ϑF (u) + (1 − ϑ)F (¯ u) minden u ∈ A ∩ B vektorra ´es 0 ≤ ϑ ≤ 1 sz´amra, ami u ´gy is ´ırhat´ o, hogy F (¯ u + ϑ(u − u ¯)) − F (¯ u) ≥ F (u) − F (¯ u). ϑ M´asr´eszt, az F¯ (s) = F (¯ u + s(u − u ¯)), 0 ≤ s ≤ 1, f¨ uggv´eny seg´ıts´eg´evel azt ´ırhatjuk, hogy 1 F (¯ u + ϑ(u − u ¯)) − F (¯ u) = ϑ ϑ
Z
ϑ
0
dF¯ (s) 1 ds = ds ϑ
Z
Innen ϑ → 0 hat´ar´ atmenettel kapjuk felhaszn´alva tulajdons´agait az u ¯ pontban, hogy
0
M ϑX i=1
∂F ∂uk
∂F (¯ u + s(u − u ¯))(ui − u ¯i ) ds. ∂ui
parci´ alis deriv´altak folytonoss´agi
M X ∂F (¯ u)(ui − u ¯i ) ≥ F (u) − F (¯ u). ∂u i i=1
Azt a´ll´ıtom, hogy ∂F u) ∂ui (¯ M P
i=1
M P
i=1
∂F u)(ui ∂ui (¯
−u ¯i ) ≤ 0. Val´ oban, abban a speci´ alis esetben, amikor
= D minden 1 ≤ i ≤ M indexre ez a rel´ aci´o egyenl˝os´eggel is ´erv´enyes, mert M P ∂F u ¯i = ui = 1 az u ∈ B ´es u ¯ ∈ B felt´etel miatt. A ∂u (¯ u) < D szigor´ u i i=1
egyenl˝otlens´eg csak olyan i indexekre ´erv´enyes, amelyekre u ¯i = 0. Ezenk´ıv¨ ul ui ≥ 0 ∂F az u ∈ A rel´ aci´o miatt, ez´ert ebben az esetben ∂ui (¯ u)(ui − u ¯i ) ≤ D(ui − u ¯i ). InM M P ∂F P nen u)(ui − u ¯i ) ≤ D(ui − u ¯i ) = 0, amint ´ all´ıtottam. Azt kaptuk, hogy ∂ui (¯ i=1
i=1
42
F (u) − F (¯ u) ≤ 0 minden u ∈ A ∩ B vektorra, teh´at a u ¯ pont a vizsg´alt sz´els˝ o´ert´ek feladat megold´ asa. A t´etelt bel´ attuk. Megfogalmazom a Kuhn–Tucker t´etel eredeti alakj´ at. Kuhn–Tucker t´ etel. Tekints¨ uk a min f (x1 , . . . , xN ) Ax∗ = b xi ≥ 0 minden 1 ≤ i ≤ N indexre optimaliz´ aci´ os feladatot, ahol f (x1 , . . . , xN ) egy minden¨ utt differenci´ alhat´ o, konvex f¨ uggM ∗ v´eny, b = (b1 , . . . , bM ) ∈ R , A egy N ×M m´eret˝ u m´ atrix, x az x vektor transzpon´ altj´ at N ∗ jel¨ oli, ´es x = (x1 , . . . , xN ). Egy x ¯ = (¯ x1 , . . . , x ¯N ) ∈ R , xi ≥ 0, 1 ≤ i ≤ N , A¯ x = b, vektor akkor ´es csak akkor megold´ asa ennek az optimaliz´ aci´ os feladatnak, ha l´etezik olyan m = (m1 , . . . , mM ) ∈ RM vektor, amelyre ∂f (¯ x1 , . . . , x ¯N ) + (m, aj ) ∂xj
=0 ≥0
ha x ¯j > 0 ha xj = 0,
ahol aj az A m´ atix j-ik oszlop´ at, ´es (x, y) az x ´es y vektorok skal´ arszorzat´ at jel¨ oli. Az el˝ oz˝ oleg t´argyalt konk´ av f¨ uggv´eny maximaliz´aci´os probl´em´aja a´tfogalmazhat´ o ilyen konvex optimaliz´ aci´os probl´em´av´a −1-gyel val´ o szorz´as seg´ıts´eg´evel. Az optimaliz´aci´o ott kimondott felt´etele is ´ atfogalmazhat´ o az e t´etelben kimondott alakra. Ebben az esetben az 1 × N m´eret˝ u A m´ atrix szerep´et a csupa 1 sz´amot tartalmaz´ o vektor j´ atssza, ´es az 1 dimenzi´ os m vektor −D-vel egyenl˝o, a t´etelben szerel˝ o D sz´ammal. Az e jegyzetben bizony´ıtott t´etel, — ha eltekint¨ unk az F f¨ uggv´enyre tett simas´agi felt´etelekt˝ol — a Kuhn–Tucker t´etel speci´alis eset´enek tekinthet˝ o ezzel a szereposzt´assal. A Kuhn–Tucker t´etel l´enyeges u ´jdons´ aga az ´ altalunk t´argyalt eredm´enyhez k´epest az, hogy t¨obb line´aris felt´etel megk¨ ovetel´ese eset´en is jellemzi az optim´alis megold´ asokat. A bizony´ıt´ as l´enyegesen u ´j gondolatok felhaszn´al´ as´at ig´enyelte. A t´etel igazol´as´anak f˝ o neh´ezs´ege a benne szerepl˝o felt´etel sz¨ uks´egess´eg´enek, vagyis annak a t´enynek a bizony´ıt´ asa, hogy ha egy x = (x1 , . . . , xN ) vektor megold´ asa a minimum feladatnak, akkor az teljes´ıti a megadott egyenl˝os´egekb˝ ol ´es egyenl˝otlens´egekb˝ ol ´ all´ o felt´etelt. K¨ ul¨ on¨ osen fontos a felt´etelben szerepl˝o m vektor megtal´ al´ asa. Ezt meg lehet tenni a line´aris programoz´as dualit´as t´etel´enek a seg´ıts´eg´evel. Az eredeti optimaliz´ aci´os feladat megold´ asa teljes´ıt egy line´aris optimaliz´ aci´os feladatot (implicit m´ odon defini´alt egy¨ utthat´okkal), ´es az m vektor e line´aris programoz´ asi feladat du´ alj´anak a megold´ asa. Maga a Kuhn–Tucker t´etel jellege hasonl´ıt a Lagrange-f´ele multiplik´ator m´ odszerre. A l´enyeges k¨ ul¨ onbs´eg a k´et eredm´eny k¨ oz¨ ott az, hogy a Kuhn–Tucker t´etel az nemcsak sz¨ uks´eges, hanem el´egs´eges felt´etel´et is ad arra, hogy egy vektor az optim´aliz´aci´os feladat megold´ asa legyen, ´es az optimum keres´esekor a tartom´any hat´arpontjait is figyelembe veszi. Ennek viszont az az ´ ara, hogy csak viszonylag speci´alis probl´em´akat lehet ezzel a ´ m´ odszerrel vizsg´alni. Igy p´eld´aul a probl´em´aban szerepl˝o k´enyszer felt´etelek line´arisak. 43
Az el˝ oz˝ oleg igazolt eredm´enyek seg´ıtenek az al´ abbi bizony´ıt´ asban. A v´eges a ´llapotter˝ u csatorna optim´ alis bemenet´enek a jellemz´es´er˝ ol sz´ ol´ o t´etel bizony´ıt´ asa. Ha egy a a csatorn´aval ¨ osszekapcsolt η, η˜ val´ osz´ın˝ us´egi v´ altoz´ o p´ar p(vi ) = P (η = vi ) val´ osz´ın˝ us´egeit az egy f¨ uggv´eny konk´ avit´ as´ar´ ol sz´ol´ o lemm´aban szerepl˝o ui , a csatorna p(˜ vj |vi ) ´ atmenetval´ osz´ın˝ us´egeit az e lemm´aban szerepl˝o p(i, j) sz´amokkal azonos´ıtjuk, akkor q(˜ vj ) = P (˜ η = v˜j ) = yj a szint´en e lemm´aban szerepl˝o yj sz´amokkal. Tov´ abb´a, ha η ´es η˜ k´et a csatorn´aval ¨ osszekapcsolt val´ osz´ın˝ us´egi v´ altoz´ o, ´es P (η = vi ) = ui , 1 ≤ i ≤ M , akkor I(η ∧ η˜) = F (u1 , . . . , uM ) a lemm´aban defini´alt F (·) f¨ uggv´ennyel. Ez´ert egy olyan η, η˜ a csatorn´aval o¨sszekapcsolt val´ osz´ın˝ us´egi v´ altoz´ o p´ar eloszl´ as´anak a jellemz´ese, amelyre I(η ∧ η˜) = C, ahol C a csatorna kapacit´asa, ekvivalens azzal a feladattal, hogy tal´ aljuk meg a lemm´aban defini´alt (konk´ av) F (u1 , . . . , uM ), ui ≥ 0, M P 1 ≤ i ≤ M , f¨ uggv´eny maximum´at a ui = 1 k´enyszerfelt´etel mellett. E feladatban egy i=1
folytonos f¨ uggv´eny maximum´at keress¨ uk egy kompakt halmazon, teh´at ez a maximum l´etezik. A keresett maximum megtal´ al´ asa ´erdek´eben alkalmazhatjuk a A Kuhn–Tucker t´etel egy speci´ alis esete n´even megfogalmazott ´ all´ıt´ ast, mert a minket ´erdekl˝ o feladatban e ∂F parci´ alis t´etel felt´etelei teljes¨ ulnek. Tov´ abb´a a (3.2) formul´ aban kisz´ amoltuk a ∂u k deriv´altakat. E k´eplet ´es az el˝ obb eml´ıtett t´etel azt adj´ ak, hogy egy a csatorn´aval osszekapcsolt η, η˜ val´ ¨ osz´ın˝ us´egi v´ altoz´ o p´arra akkor ´es csak akkor teljes¨ ul az I(η∧ η˜) = C rel´ aci´o, ha az η˜ val´ osz´ın˝ us´egi v´ altoz´ o q(˜ vj ) = P (η = vj ), 1 ≤ j ≤ N , eloszl´ asa teljes´ıti a N X j=1
p(˜ vj |vk ) log
p(˜ vj |vk ) = D, q(˜ vj )
ha p(vk ) > 0, (3.3)
N X
p(˜ vj |vk ) p(˜ vj |vk ) log ≤ D, q(˜ v ) j j=1
ha p(vk ) = 0
rel´ aci´ot valamilyen D < ∞ sz´ammal minden 1 ≤ k ≤ M indexre. (A (3.3) formul´ aban p(˜ vj |vk ) vj |vk ) = 0.) A k-ik szerepl˝o ¨ osszegek u ´gy ´ertend˝oek, hogy p(˜ vj |vk ) log q(˜vj ) = 0, ha p(˜ egyenletet vagy egyenl˝otlens´eget megszorozva p(vk )-val egyenl˝os´eget kapunk minden k indexre. Ezeket ¨ osszeadva azt kapjuk, hogy N M X X
r(vk , v˜j ) log
k=1 j=1
p(˜ vj |vk ) = D, q(˜ vj )
ahol r(vk , v˜j ) = P (η = vk , η˜ = v˜j ), 1 ≤ k ≤ M , 1 ≤ j ≤ N . Ennek az egyenletnek a baloldala egyenl˝o az I(η ∧ η˜) = C sz´ammal. Teh´ at egy a csatorn´aval o¨sszekapcsolt η, η˜ val´ osz´ın˝ us´egi v´ altoz´ o p´arra akkor ´es csak akkor ´erv´enyes az I(η ∧ η˜) = C rel´ aci´o, ha az η˜ val´ osz´ın˝ us´egi v´ altoz´ o q(˜ vj ) = P (˜ η = v˜j ), 1 ≤ j ≤ M , eloszl´ asa teljes´ıti a (3.3) rel´ aci´ot a D = C sz´ammal. A t´etelt bel´ attuk. Megfogalmazok egy lemm´at, amely seg´ıt a csatorna k´ odol´ asi t´etel megford´ıt´ as´anak a bizony´ıt´ as´aban. 44
Fels˝ o becsl´ es egy λ megk¨ ul¨ onb¨ oztethet˝ o elemeket tartalmaz´ o halmaz elemsz´ am´ ar´ ol. Legyen adva adva k´et V = {v1 , v2 , . . . } ´es V˜ = {˜ v1 , v˜2 , . . . } v´eges vagy megsz´ aml´ alhat´ o halmaz, ´es k¨ oz¨ ott¨ uk egy p(˜ vj |vi ), vi ∈ V , v˜j ∈ V˜ , a ´tmenetval´ osz´ın˝ us´egekkel defini´ alt csatorna. Legyen η ´es η˜ k´et e csatorn´ aval o ¨sszekapcsolt val´ osz´ın˝ us´egi v´ altoz´ o. Vezess¨ uk be a q(˜ vj ) = P (˜ η = v˜j ), v˜j ∈ V˜ , val´ osz´ın˝ us´egeket ´es az p(˜ vj |vi ) ϑ ˜ ≥2 , A(vi ) = v˜j : v˜j ∈ V , q(˜ vj )
vi ∈ V,
halmazokat egy alkalmasan v´ alasztott ϑ param´eterrel. Tegy¨ uk fel, hogy teljes¨ ul a P (˜ η ∈ A(vi )|η = vi ) =
v ˜j :
X
p(˜ vj |vi )≥2ϑ q(˜ vj )
p((˜ vj |vi ) ≤ γ
(3.4)
egyenl˝ otlens´eg valamely γ < 1 sz´ ammal minden vi ∈ V pontra. Legyen γ + λ < 1 valamely λ > 0 sz´ ammal. Ekkor tetsz˝ oleges A = {vi1 , . . . , viN } ⊂ V λ megk¨ ul¨ onb¨ oztet2ϑ het˝ o pontokb´ ol a ´ll´ o halmaz N elemsz´ am´ ara N ≤ 1−λ−γ . 1. megjegyz´es. A (3.4) formul´ aban szerepl˝o felt´eteles val´ osz´ın˝ us´eget az ott fel´ırt o¨sszegk´ent defini´aljuk abban az esetben is, ha P (η = vi ) = 0. Az A(vi ) halmaz definici´ oj´aban nem egy´ertelm˝ u, hogy azok a v˜j ∈ V˜ pontok, amelyekre mind a p(˜ vj |vi ) = 0 mind a q(˜ vj ) = 0 azonoss´ag teljes¨ ul beletartoznak-e az A(vi ) halmazba. Ennek azonban nincs jelent˝os´ege, mert az ilyen v˜j pontok hozad´eka nulla a (3.4) k´epletben szerepl˝o o¨sszegben. K´enyelmi okokb´ ol azt fogom felt´etelezni, hogy az ilyen pontok nincsenek benne az A(vi ) halmazban. 2. megjegyz´es. Mind a csatorna k´ odol´ asi t´etelben tekintett¨ unk egy a csatorn´aval o¨sszekapcsolt (η, η˜) val´ osz´ın˝ us´egi v´ altoz´ o p´art. A csatorna k´ odol´ asi t´etelben olyan (vi , A(vi )), q(˜ vj ) vi ∈ V , A(vi ) ⊂ V˜ p´arokat kerest¨ unk, amelyekre A(vi ) = A(vi , ϑ) = {˜ vj : p(˜vj |v ≤ i) 2ϑ } egy kis ϑ sz´ammal, ´es a P (˜ η ∈ A(vi )|η = vi ) felt´eteles val´ osz´ın˝ us´eg nagy. ´Igy tudtunk ugyanis olyan (vi , Bi ) p´arokat tal´ alni alkalmas, (diszjunkt) Bi ⊂ A(vi ) halmazokkal, amelyekre P (˜ η ∈ Bi |η = vi ) ≥ 1 − λ, ´es a Bi halmazok kicsik abban az ´ertelemben, hogy a P (˜ η ∈ Bi ) val´ osz´ın˝ us´egek kicsik. A fenti, a csatorna k´ odol´ asi t´etelt el˝ ok´esz´ıt˝ o eredm´enyben azt ´ all´ıtjuk, hogy ha egy ellenkez˝ o ´ır´any´ u tulajdons´ag ´erv´enyes, nevezetesen, ha a P (˜ η ∈ A(vi , ϑ)|η = vi ) felt´eteles val´ osz´ın˝ us´egek kicsik minden vi ∈ V felt´etel eset´en m´eg viszonylag nagy ϑ sz´amokra is, akkor csak viszonylag kev´es λ megk¨ ul¨ onb¨oztethet˝o vi ∈ V elem l´etezik. (Ez az ´ all´ıt´ as kiss´e elt´er˝ o, de ekvivalens form´aban van megfogalmazva a fenti eredm´enyben.) Ennek oka, mint a bizony´ıt´ asb´ ol l´atsz´odni fog, az, hogy ebben az esetben minden olyan B ⊂ V˜ halmazra, amelyre P (˜ η ∈ B|η = vi ) > 1 − λ, a P (˜ η ∈ B) val´ osz´ın˝ us´eg is nagy. Bizony´ıt´ as. Adva egy A = {vi1 , . . . , viN } ⊂ V λ megk¨ ul¨ onb¨oztethet˝o pontokb´ol a´ll´ o ˜ ˜ halmaz v´ alasszunk olyan B1 ∈ V , . . . , BN ∈ V diszjunkt halmazokat, amelyekre P (˜ η∈ 45
Bk |η = vik ) ≥ 1 − λ minden 1 ≤ k ≤ N indexre. Ekkor 1 − λ − γ ≤ P (˜ η ∈ Bk \ A(vik )|η = vik ) = ≤ 2ϑ
X
vj ) v ˜j : v ˜j ∈Bk , p(˜ vj |vik )≤2ϑ q(˜
v ˜j :
X
vj ) v ˜j ∈Bk , p(˜ vj |vik )≤2ϑ q(˜
p(˜ vj |vik )
q(˜ vj ) = 2ϑ P (˜ η ∈ Bk \ A(vik )) ≤ 2ϑ P (˜ η ∈ Bk )
¨ minden 1 ≤ k ≤ N indexre. Osszegezve ezeket az egyenl˝otlens´egeket minden 1 ≤ k ≤ N indexre ´es felhaszn´alva, hogy a Bk halmazok diszjunktak azt kapjuk, hogy N (1 − λ − γ) ≤ 2ϑ . A lemm´at bel´ attuk. A csatorna k´ odol´ asi t´etel megford´ıt´ as´ anak a bizony´ıt´ asa. Legyen η ′ ´es η˜′ k´et olyan az eml´ekezet n´elk¨ uli csatorna ´ atmenetval´ osz´ın˝ us´egeit meghat´ aroz´o csatorn´aval o¨sszek¨ot¨ ott val´ osz´ın˝ us´egi v´ altoz´ o, amelyekre I(η ′ ∧ η˜′ ) = C, ahol C ennek a csatorn´anak a csatorna kapacit´asa. Legyen (η1 , η˜1 ), . . . , (ηn , η˜n ) az (η ′ , η˜′ ) v´eleten vektorral azonos eloszl´ as´ u, f¨ uggetlen v´eletlen vektorok sorozata. Vezess¨ uk be az η = (η1 , . . . , ηn ) ´es η˜ = (˜ η1 , . . . , η˜n ) jel¨ol´est. A csatorna k´ odol´ asi t´etel megford´ıt´ as´anak a bizony´ıt´ as´aban az el˝ obb bizony´ıtott fels˝ o becsl´es eredm´eny´et fogom alkalmazni egy λ megk¨ ul¨ onb¨ oztethet˝ o elemeket tartalmaz´ o √ n √ halmaz elemsz´ am´ ar´ ol az η, η˜ val´ osz´ın˝ us´egi v´ altoz´ o p´arra ϑ = Cn+K 1−λ param´eterrel, ahol K egy a csatorn´at´ ol f¨ ugg˝o el´eg nagy sz´am. Ehhez jogunk van, mert az η ´es η˜ val´ osz´ın˝ us´egi v´ altoz´ ok ¨ ossze vannak kapcsolva az eml´ekezet n´elk¨ uli csatorn´aval. Ezen becsl´es alapj´ an a csatorna k´ odol´ asi t´etel megford´ıt´ as´anak a bizony´ıt´ as´ahoz el´eg megmutatni, hogy P ((˜ η1 , . . . , η˜n ) ∈ A((vi1 , . . . , vin ))|η1 = vi1 , . . . , ηn = vin ) ≤
1−λ 2
(3.5)
minden (vi1 , . . . , vin ) ∈ V n vektorra, ahol A((vi1 , . . . , vin )) n Q p(˜ vjk |vik ) √ √ Cn+K n/ 1−λ n k=1 ˜ , ≥ 2 = (˜ vj1 , . . . , v˜jn ): (˜ vj1 , . . . , v˜jn ) ∈ V , n Q q(˜ vjk ) k=1
egy el´eg nagy K > 0 konstanssal, mely k´epletben p(˜ vj |vi ) jel¨oli az eml´ekezet n´elk¨ uli ′ csatorn´at meghat´ aroz´o csatorna ´ atmenetval´ osz´ın˝ us´egeit, ´es q(˜ vj ) = P (˜ η = v˜j ). Ugyan√ n is, ha ez az egyenl˝otlens´eg igaz, akkor az el˝ obb eml´ıtett fels˝o becsl´es ϑ = Cn + K √1−λ
´es γ = 1−λ assal a t´etelben megfogalmazott eredm´enyt szolg´ altatja. 2 szereposzt´ A bizony´ıtand´ o egyenl˝otlens´egnek megadjuk egy jobban vizsg´alhat´ o, ekvivalens atfogalmaz´ ´ as´at. Ennek ´erdek´eben r¨ogz´ıt¨ unk valamilyen vi1 ∈ V , . . . , vin ∈ V pontokat, 46
´es olyan ζ1 (vi1 ), . . . , ζn (vin ) f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ okat defini´alunk, amelyekre a ζk (vik ) val´ osz´ın˝ us´egi v´ altoz´ o eloszl´ as´at a P (ζk (vik ) = v˜j ) = p(˜ vj |vik ), v˜j ∈ V˜ , k´eplet adja meg minden 1 ≤ k ≤ n indexre. Mivel P ((ζ1 (vi1 ), . . . , ζn (vin )) = (˜ vj1 , . . . , v˜jk )) = P ((˜ η1 , . . . , η˜n ) = (˜ vj1 , . . . , v˜jn ))|η1 = vi1 , . . . , ηn = vin ) minden (˜ vj1 , . . . , v˜jn ) vektorra ezzel a jel¨ol´essel a (3.5) egyenl˝otlens´eg a k¨ ovetkez˝ ø alakban ´ırhat´ o: ! n Y √ √ 1−λ p(ζk (vik )|vik ) ≥ 2Cn+K n/ 1−λ ≤ . P q(ζ (v )) 2 k i k i=1 Az utols´ o formul´ aban a val´ osz´ın˝ us´egen bel¨ ul logaritmust v´eve azt kapjuk, hogy a √ ! n X 1−λ p(ζk (vik )|vik ) K n P ≤ log ≥ Cn + √ (3.6) q(ζ (v )) 2 1 − λ k i k i=1 egyenl˝otlens´eget kell bizony´ıtanunk minden (vi1 , . . . , vin ) ∈ V n vektorra. Vegy¨ uk ´eszre, hogy a (3.6) formula szumm´aj´aban szerepl˝o tagok v´ arhat´ o ´ert´eke n
p(˜ vj |vik ) p(ζk (vik )|vik ) X = . p(˜ vj |vik ) log E log q(ζk (vik )) q(˜ v ) j j=1 Tov´ abb´a, mivel I(η ′ ∧ η˜′ ) = C, ahol C az eml´ekezet n´elk¨ uli csatorn´at meghat´ aroz´o csatorna csatorna kapacit´asa, ezt az egyenletet ¨ osszehasonl´ıtva a lemma az eml´ekezet n´elk¨ uli csatorna kapacit´ as´ ar´ ol eredm´eny´eben szerepl˝o (3.1) k´eplettel azt kapjuk, hogy a tekintett v´ arhat´ o ´ert´ek kisebb vagy egyenl˝o, mint C, ´es a C sz´ammal egyenl˝o azon vik ∈ V pontokra, amelyekre P (η ′ = vik ) > 0. Tov´ abb´a l´etezik olyan D < ∞ konstans, amelyre
p(ζk (vik )|vik ) E log q(ζk (vik ))
2
n X
2 p(˜ vj |vik ) = ≤D p(˜ vj |vik ) log q(˜ v ) j j=1
minden vi ∈ V pontra,
mert a fenti kifejez´esben egy olyan v´eges tagsz´ am´ u¨ osszeg szerepel, amelynek mindegyik tagja v´eges. (Tudjuk, hogy ha p(˜ vj |vi ) > 0, akkor q(˜ vj ) > 0, ´es csak v´eges sok k¨ ul¨ onb¨oz˝ o osszeget kell tekinten¨ ¨ unk.) A most bizony´ıtott ¨ osszef¨ ugg´esek ´es a Csebisev egyenl˝otlens´eg a k¨ ovetkez˝ o becsl´est adj´ ak (3.6) k´epletben szerepl˝o f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ ok ¨ osszeg´enek az eloszl´ as´ara. √ ! n X K n p(ζk (vik )|vik ) ≥ Cn + √ log P q(ζ (v )) 1−λ k i k i=1 √ ! n X p(ζk (vik )|vik ) K n p(ζk (vik )|vik ) log ≤P ≥√ − E log q(ζk (vik )) q(ζk (vik )) 1−λ i=1 ≤
Dn(1 − λ) 1−λ ≤ , 2 K n 2
47
ha a K konstanst el´eg nagynak (K 2 > 2D) v´ alasztjuk. ´Igy a (3.6) formul´ at, ´es ezzel a t´etelt is bebizony´ıtottuk. ´ Erdemes lehet heurisztikus szinten ´ attekinteni, hogy milyen gondolatokra ´ep¨ ul a csatorna k´ odol´ asi t´etelnek illetve e t´etel megford´ıt´ as´anak a bizony´ıt´ asa. Legyen (η, η˜) olyan a csatorn´aval ¨ osszekapcsolt val´ osz´ın˝ us´egi v´ altoz´ o p´ar, amelyre I(η ∧ η˜) = C, ahol C a csatorna kapacit´asa, vagy ha ilyen p´ar nincs akkor az I(η ∧ η˜) sz´am nagyon k¨ ozel van ehhez a C ´ert´ekhez. Annak bizony´ıt´ asa, hogy alkalmas felt´etelek mellett mind a k´et t´etel ´erv´enyes azon ´ all´ıt´ as igazol´as´an alapul, hogy egy n hossz´ us´ ag´ u eml´ekezet n´elk¨ uli csatorn´aban az ) ( n Y p(˜ v |v ) jk i k ∼ 2Cn A(v) = v˜ = (˜ vj1 , . . . , v˜jn ) ∈ V˜n : q(˜ vjk ) k=1
halmaz teljes´ıti a P ((˜ η1 , . . . , η˜n ) ∈ A(v)|(η1 , . . . , ηn ) = v) ∼ 1 rel´ aci´ot tipikus v = n (vi1 , . . . , vin ) ∈ V pontokban, ahol (η1 , η˜1 ), . . . , (ηn , η˜n ) az (η, η˜) p´arral azonos eloszl´as´ u, f¨ uggetlen v´eletlen vektorok sorozata, ´es q(˜ vj ) = P (˜ η = v˜j ). (A csatorna Cn Cn(1+0(1)) k´ odol´ asi t´etel bizony´ıt´ as´aban a ∼ 2 kifejez´es helyett ≥ 2 -t, a csatorna Cn(1+o(1)) k´ odol´ asi t´etel megford´ıt´ as´anak a bizony´ıt´ as´aban pedig ≤ 2 -et ´erdemes ´ırni az A(v) halmaz definici´ oj´aban.) A most haszn´ alt ‘tipikus’ kifejez´es els˝ o k¨ ozel´ıt´esben n azt jelenti, hogy a rel´ aci´o igaz a v = (vi1 , . . . , vin ) ∈ V vektorok majdnem egy val´ osz´ın˝ us´egi halmaz´ ara azon val´ osz´ın˝ us´egi m´ert´ek szerint, amelyet az (η1 , . . . , ηn ) vektor eloszl´ asa hat´aroz meg. A bizony´ıt´ as r´eszletesebb vizsg´alata sor´ an a ‘tipikus’ sz´o ´ jelent´es´et pontos´ıtani kell. Erdemes megjegyezni, hogy az A(v) halmazra fel´ırt rel´ aci´o n P p(˜ ηk |vik ) u ´gy is ´ırhat´ o, hogy log q(˜ηk ) ∼ Cn majdnem val´ osz´ın˝ us´eggel ha (˜ η1 , . . . , η˜n ) k=1
n Q
eloszl´ as´at a P (˜ η1 = v˜j1 , . . . , η˜n = v˜jn ) =
k=1
p(˜ vjk |vik ) k´eplet adja meg. Tov´ abb´a
ηk |ηk ) ˜k ) = C. Ez´ert az el˝ obb fel´ırt rel´ aci´o olyan t´enyt fejez ki, hogy E log p(˜ q(˜ ηk ) = I(ηk ∧ η f¨ uggetlen val´ osz´ın˝ us´egi v´ altoz´ ok ¨ osszege k¨ ozel van az ¨ osszeg v´ arhat´ o ´ert´ek´ehez. Az A(v) halmazra megfogalmazott tulajdons´ag egyik k¨ ovetkezm´enye az, hogy egy tipikus v ∈ V n pontra
P ((˜ η1 , . . . , η˜n )) ∈ A(v)) =
X
v ˜∈A(v)
∼ 2−Cn ahol q(˜ v) =
n Q
k=1
q(˜ v) =
q(˜ vjk ), ´es p(˜ v |v) =
X
v ˜∈A(v)
X
q(˜ v)
k=1
p(˜ v |v) q(˜ v) q(˜ v ) p(˜ v |v)
X p(˜ v |v) p(˜ v |v) ∼ 2−Cn , = 2−Cn q(˜ v) v ˜∈A(v)
v ˜∈A(v) n Q
q(˜ v)
p(˜ vjk |vik ) . q(˜ vj k
Ha egy olyan B(v) ⊂ V˜ n halmazt
keres¨ unk egy v ∈ V n ponthoz, amelyre P ((˜ η1 , . . . , η˜n ) ∈ B(v)|(η1 , . . . , ηn ) = v) ≥ 1 − λ valamely kis λ > 0 sz´amra, akkor a B(v) halmaz az el˝ obb defini´alt A(v) halmaz kis m´ odos´ıt´ asa a P (·|(η1 , . . . , ηn ) = v) m´ert´ek szerint. S˝ot, n´eh´ any sz´amunkra nem l´enyeges 48
felt´etel teljes¨ ul´ese eset´en az is igaz, hogy az A(v) halmazhoz hasonl´oan a B(v) halmaz teljes´ıti a P ((˜ η1 , . . . , η˜n )) ∈ B(v)) ∼ 2−nC rel´ aci´ot. Ez´ert, ha olyan (v (1) , B (1) ), . . . , (v (N ) , B (N ) ), v (k) ∈ V n , B (k) ⊂ V˜ n , minden 1 ≤ k ≤ N indexre, p´arokat keres¨ unk, amelyekre P ((˜ η1 , . . . , η˜n ) ∈ B (k) |(η1 , . . . , ηn ) = v (k) ) > 1 − λ minden k indexre, ´es a B (k) halmazok diszjunktak, akkor legfeljebb N = 2Cn(1+o(1) ) ilyen p´art v´ alaszthatunk, ´es ezt mondja ki a csatorna k´ odol´ asi t´etel megford´ıt´ asa. A csatorna k´ odol´ asi t´etel viszont az ´ all´ıtja, hogy ennyi (v (k) , B (k) ) p´art ki is lehet v´ alasztani. Term´eszetesen, az el˝ obb v´ azolt gondolatmenetek pontos kidolgoz´ asa az ´ervel´es finom´ıt´ as´at ig´enyli t¨obb ponton. Ezek r´eszleteit azonban itt nem t´argyalom, mert a m´ ar le´ırt bizony´ıt´ as tartalmazza azokat. Csak egy figyelemre m´elt´ o r´eszletet eml´ıtek. A csatorna k´ odol´ asi t´etel megford´ıt´ as´aban az A(v) halmazokra fel´ırt aszimptotikus rel´ aci´ot n n nem elegend˝ o csak ‘tipikus’ v ∈ V pontokra bel´ atni, azokat minden v ∈ V pontra igazolni kell. Ez okozza a f˝ o neh´ezs´eget e t´etel bizony´ıt´ as´aban. E probl´ema lek¨ uzd´es´eben a v´eges a ´llapotter˝ u csatorna optim´ alis bemenet´enek a jellemz´es´er˝ ol sz´ol´ o t´etel eredm´enye seg´ıt. Ez teszi lehet˝ ov´e a vizsg´aland´o felt´eteles val´ osz´ın˝ us´eg becsl´es´et minden v ∈ V n vektorra. 4. Kis hib´ aj´ u´ es viszonylag gyors inform´ aci´ o tov´ abb´ıt´ as a forr´ as ´ es csatorna k´ odol´ asi t´ etel seg´ıts´ eg´ evel. E fejezetben a k¨ ovetkez˝ o probl´em´aval fogunk foglalkozni. Legyen adva egy inform´ aci´o forr´ as, azaz legyen adva egy ´ert´ekeit egy v´eges vagy megsz´ aml´alhat´ oan v´egtelen X = {x1 , x2 . . . } halmazon felvev˝o ξ val´ osz´ın˝ us´egi v´ altoz´ o, ´es legyen ξ1 , ξ2 , . . . f¨ uggetlen, ´es a ξ val´ osz´ın˝ us´egi v´ altoz´ oval azonos eloszl´ as´ u val´ osz´ın˝ us´egi v´ altoz´ ok sorozata, amit inform´ aci´o forr´ asnak fogunk nevezni. Legyen ezenk´ıv¨ ul adva egy eml´ekezet n´elk¨ uli csatorna, amelyet egy olyan csatorna hat´aroz meg, amely valamely V = {v1 , v2 , . . . } bemeneti jelek halmaz´ at ´ atviszi kimeneti jelek valamely V˜ = {˜ v1 , v˜2 , . . . } halmaz´ aba, ´es p(˜ vj |vi ) annak a felt´eteles val´ osz´ın˝ us´ege, hogy a csatorna v˜j kimeneti jelet k¨ ozli, felt´eve, hogy a vi bemeneti jelet adtuk le. A forr´ as jeleit akarjuk k¨ oz¨ olni a felhaszn´al´ oval u ´gy, hogy az (eml´ekezet n´elk¨ uli) csatorn´an leadjuk bemeneti jelek egy sorozat´at, aminek hat´as´ara a felhaszn´al´ o kimeneti jelek valamilyen sorozat´at kapja, ´es ennek alapj´ an pr´ ob´ alja rekonstru´ alni az inform´ aci´o forr´ as ξ1 , ξ2 , . . . ´ert´ekeit. Tegy¨ uk fel, hogy az inform´ aci´o forr´ as ξ1 , ξ2 , . . . jelei egys´egnyi sebess´eggel ´erkeznek, ´es mi is egys´egnyi sebess´eggel tudjuk tov´ abb´ıtani a vi jeleket a csatorn´an kereszt¨ ul. Olyan m´ odszert szeretn´enk kidolgozni, amely lehet˝ ov´e teszi, hogy a felhaszn´al´ o a forr´ as minden jel´et ε-n´ al kisebb hib´aval rekonstru´ alni tudja, ahol ε > 0 egy el˝ ore r¨ogz´ıtett nagyon kicsi sz´am. Emellett azt szeretn´enk, hogy a felhaszn´al´ o minden jelet annak meg´erkez´ese ut´ an v´eges id˝ on bel¨ ul megismerjen. Pontosabban megfogalmazva azt k¨ ovetelj¨ uk meg, hogy b´armilyen nagy n sz´amra a felhaszn´al´ o az n-ik id˝ opontban ismerje az ¨ osszes 1 ≤ j ≤ n − K id˝ ointervallumban leadott ξj jelet, ahol K egy r¨ogz´ıtett sz´am, amely f¨ ugghet az ε hibakorl´ att´ol, de nem f¨ ugg az n id˝ opontt´ ol. A k¨ ovetkez˝ o k´et a forr´ as ´es csatorna k´ odol´ asr´ ol sz´ol´ o eredm´enyeken alapul´o t´etelben azt mutatom meg, hogy ilyen inform´ aci´o tov´ abb´ıt´ as lehets´eges akkor, ha a csatorna kapacit´asa nagyobb, mint a forr´ as entr´ opi´aja, de nem lehets´eges akkor, ha a forr´ as entr´ opi´aja nagyobb, mint a csatorna kapacit´asa. 49
T´ etel a j´ o inform´ aci´ o tov´ abb´ıt´ as lehet˝ os´ eg´ er˝ ol, ha a csatorna kapacit´ asa nagyobb, mint a forr´ as entr´ opi´ aja. Legyen adva egy ´ert´ekeit egy v´eges vagy megsz´ aml´ alhat´ oan v´egtelen X = {x1 , x2 . . . } halmazon felvev˝ o ξ val´ osz´ın˝ us´egi v´ altoz´ o ´es e ξ val´ osz´ın˝ us´egi v´ altoz´ oval azonos eloszl´ as´ u, f¨ uggetlen ξ1 , ξ2 , . . . val´ osz´ın˝ us´egi v´ altoz´ ok egy sorozata. Legyen ezenk´ıv¨ ul adva egy eml´ekezet n´elk¨ uli csatorna, amelyet egy olyan csatorna hat´ aroz meg, amely valamely V = {v1 , v2 , . . . } bemeneti jelek halmaz´ at a ´tviszi ˜ kimeneti jelek valamely V = {˜ v1 , v˜2 , . . . } halmaz´ aba, ´es p(˜ vj |vi ) annak a felt´eteles val´ osz´ın˝ us´ege, hogy a csatorna a kimeneti oldalon a v˜j jelet k¨ ozli, felt´eve, hogy vi volt a bemeneti jel. Tegy¨ uk fel, hogy a csatorna C csatorna kapacit´ asa nagyobb, mint a ξ val´ osz´ın˝ us´egi v´ altoz´ o H(ξ) entr´ opi´ aja. Egy r¨ ogz´ıtett ε > 0 sz´ amra alkalmazzuk a k¨ ovetkez˝ o m´ odszert annak ´erdek´eben, hogy megismertess¨ uk a ξ1 , ξ2 , . . . sorozat jeleit a felhaszn´ al´ oval. Az ε > 0 sz´ amhoz v´ alasszunk el˝ osz¨ or egy n0 = n0 (ε) k¨ usz¨ obindexet, majd defini´ aljuk n0 az eml´ekezet n´elk¨ uli csatorna n0 hossz´ us´ ag´ u bemeneti jeleib˝ ol a ´ll´ o V halmaznak egy A = A(n0 ) = {v (n0 ) (l) = (v1 (l), . . . , vn0 (l)), 1 ≤ l ≤ N (n0 )} ⊂ V n0 r´eszhalmaz´ at (n0 ) valamely N = N (n0 ) elemsz´ ammal, ´es minden v (l) ∈ A(n0 ) vektorhoz adjunk meg az n0 hossz´ us´ ag´ u kimeneti jelek egy egy alkalmas Bl ⊂ V˜ n0 r´eszhalmaz´ at u ´gy, hogy ezek a Bl , 1 ≤ l ≤ N (n0 ), halmazok a V˜ n0 halmaz egy partici´ oj´ at adj´ ak. Defini´ aljunk ezenk´ıv¨ ul n0 n0 egy f : X → A(n0 ) f¨ uggv´enyt, amelyet k´ odol´ o, ´es egy g: A(n0 ) → X f¨ uggv´enyt, amelyet dek´ odol´ o f¨ uggv´enynek fogunk nevezni. Tekints¨ uk a ξ1 , ξ2 , . . . sorozat egym´ ast k¨ ovet˝ o diszjunkt n0 hossz´ us´ ag´ u ξln0 +1 , . . . , ξ(l+1)n0 blokkjait minden l = 0, 1, 2, . . . sz´ amra. Helyettes´ıts¨ uk be az l-ik blokk ´ert´ekeit az f (·) k´ odf¨ uggv´enybe, azaz tekints¨ uk a (v´eletlen) f (ξln0 +1 , . . . , ξ(l+1)n0 ) ∈ A(n0 ) sorozatot minden l = 1, 2, . . . indexre, ´es k¨ uldj¨ uk a felhaszn´ al´ onak a csatorn´ an kereszt¨ ul ezt a n0 ˝ ˜ sorozatot. O v´egezze a kapott (v´eletlen) (˜ vj1 , . . . , v˜jn0 ) ∈ V sorozat dek´ odol´ as´ at a n k¨ ovetkez˝ o m´ odon. V´ alassza ki azt a Bl ∈ V˜ 0 halmazt, amelyre (˜ vj1 , . . . , v˜jn0 ) ∈ Bl , ´es (n )
vegye a neki megfelel˝ o vl 0 = (vi1 (l), . . . , vin0 (l)) ∈ A(n0 ) sorozatot. Alkalmazza erre a sorozatra a g(·) dek´ odol´ o f¨ uggv´enyt, azaz vegye a g(vi1 (l), . . . , vin0 (l)) ∈ X n0 sorozatot, ´es v´ alassza ezt a ξln0 +1 , . . . , ξ(l+1)n0 sorozatnak. Az n0 k¨ usz¨ obindexet, az A = A(n0 ) ⊂ V n0 r´eszhalmazt, a V˜ n0 halmaznak a (n0 ) v (l) ∈ A(n0 ) vektoroknak megfelel˝ o Bl , 1 ≤ l ≤ N (n0 ), partici´ oj´ at, valamint az f : X n0 → A(n0 ) k´ odol´ o ´es a g: A(n0 ) → X n0 dek´ odol´ o f¨ uggv´enyt alkalmasan v´ alasztva el´erhetj¨ uk, hogy a felhaszn´ al´ o ezen elj´ ar´ as seg´ıts´eg´evel legal´ abb 1 − ε val´ osz´ın˝ us´eggel a forr´ as a ´ltal leadott ξln0 +1 , . . . , ξ(l+1)n0 sorozatot v´ alassza a leadott sorozat l-ik blokkj´ anak, azaz az l-ik blokkot legal´ abb 1 − ε val´ osz´ın˝ us´eggel j´ ol dek´ odolja.
A t´etel bizony´ıt´ asa. Ha a csatorna kapacit´asa nagyobb, mint a forr´ as entr´ opi´aja, akkor l´etezik olyan δ > 0 sz´am, amelyre C > H(ξ) + 2δ. V´alasszunk egy ilyen δ > 0 sz´amot. Ekkor a csatorna k´ odol´ asi t´etel alapj´ an van olyan n0 = n0 (ε, δ) k¨ usz¨ obindex, hogy minden n ≥ n0 indexre l´etezik egy 2(C−δ)n ≥ N (n) ≥ 2(H(ξ)+δ)n elemsz´am´ u n n ˜ A(n) ⊂ V halmaz, valamint a V halmaznak egy olyan B1 , . . . , BN (n) partici´oja, P p(˜ v (n) |(v (n) (l)) ≥ 1 − 2ε egyenl˝otlens´eget a amely teljes´ıti a P (Bl |v (n) (l)) = v ˜(n) ∈Bl
v (n) (l) = (vi1 (l), . . . , vin (l)) ∈ A(n) vektorra ´es a neki megfelel˝ o Bl ⊂ V˜ n halmazra 50
minden 1 ≤ l ≤ N (n0 ) indexre, ahol p(˜ v (n) |(v (n) (l)) az eml´ekezet n´elk¨ uli csatorna n Q atmenetval´ ´ osz´ın˝ us´ege, azaz p(˜ v (n) |(v (n) (l)) = vj1 , . . . , v˜jn ) ´es p(˜ vjk |vik (l)) a v˜(n) = (˜ k=1
(n)
v (l) = (vi1 (l), . . . , vin (l)) jel¨ol´essel. Tov´ abb´a, mivel N (n) ≥ 2(H(ξ)+δ)n , a m´ asodik fejezetben bizony´ıtott f¨ uggetlen, egyforma eloszl´ as´ u val´ osz´ın˝ us´egi v´ altoz´ okb´ ol a ´ll´ o forr´ as n kis hib´ aj´ u k´ odol´ as´ ar´ ol ´es dek´ odol´ as´ ar´ ol sz´ol´ o t´etel alapj´ an van olyan f : X → A(n), k´ odol´o ´es g: A(n) → X n dek´ odol´ o f¨ uggv´eny, amelyre P (g(f (ξ1 , . . . , ξn )) = (ξ1 , . . . , ξn )) ≥ usz¨ obindexszel. 1 − 2ε , ha n ≥ n0 (ε, δ) egy esetleg nagyobb n0 k¨
V´alasszunk egy olyan n0 indexet, amelyre l´etezik a k´ıv´ant tulajdons´ag´ u A(n0 ) ⊂ n0 ˜ V halmaz a V halmaz hozz´ atartoz´ o B1 , . . . , BN (n0 ) partici´oj´aval egy¨ utt, valamint l´etezik a megfelel˝ o tulajdons´ag´ u f k´ odol´ o ´es g dek´ odol´ o f¨ uggv´eny is. Ezzel a v´ alaszt´ assal a t´etelben le´ırt dek´ odol´ asi elj´ar´ as hib´aja kisebb, mint ε. Val´ oban, tekints¨ uk az inform´aci´o forr´ as ´ altal leadott ξln0 +1 , . . . , ξ(l+1)n0 sorozat f (ξln0 +1 , . . . , ξ(l+1)n0 ) = vln0 ∈ A(n0 ) k´ odj´ at. A felhaszn´al´ o legal´ abb 1− 2ε val´ osz´ın˝ us´eggel azonos´ıtani fogja ezt a jelet a csatorn´an kereszt¨ ul kapott jel seg´ıts´eg´evel. Ezut´an a g(·) dek´ odol´ o f¨ uggv´eny seg´ıts´eg´evel ε osz´ın˝ us´eggel fogja d¨ont´ese hib´aj´at n¨ovelni. v´egzett dek´ odol´ as is legfeljebb 2 val´ n0
A m´ asodik t´etelt, amely azt a´ll´ıtja, hogy ha C < H(ξ) akkor nem lehets´eges az adott m´ odon kis hib´aj´ u, gyors adat´ atvitelt bizos´ıtani csak abban az esetben bizony´ıtom, ha a tekintett csatorna v´eges ´ allapotter˝ u, mert csak ebben az esetben bizony´ıtottam a csatorna k´ odol´ asi t´etel megford´ıt´ as´at, amely fontos szerepet j´atszik ezen a´ll´ıt´ as igazol´as´aban. Olyan ´ all´ıt´ ast fogok bizony´ıtani, amely szerint a C < H(ξ) esetben minden ε > 0 sz´amhoz megadhat´ o egy olyan n0 = n0 (ε) k¨ usz¨ obindex, hogy egy n ≥ n0 hossz´ us´ ag´ u blokknak tetsz˝oleges a csatorn´an keresz¨ ul t¨ort´en˝ o tov´ abb´ıt´ as´anak a hib´aja legal´ abb 1 − ε. Azut´an egy k¨ ovetkezm´enyben megmutatom, hogy a viszonylag r¨ovid blokkoknak is b´armely a csatorn´an kereszt¨ ul t¨ort´en˝ o tov´ abb´ıt´ as´anak a hib´aja alulr´ ol becs¨ ulhet˝ o egy a forr´ ast´ ol ´es a csatorn´at´ ol f¨ ugg˝o pozit´ıv sz´ammal. A t´etel pontos megfogalmaz´asa ´erdek´eben el˝ osz¨ or azt defini´alom, hogy mit jelent egy n hossz´ us´ ag´ u sorozat tov´ abb´ıt´ asa a csatorn´an kereszt¨ ul. Az egyszer˝ ubb jel¨ol´es ´erdek´eben csak a ξ1 , . . . , ξn sorozat csatorn´an kereszt¨ ul t¨ort´en˝ o tov´ abb´ıt´ as´ar´ ol fogok besz´elni, b´ar a fogalmat hasonl´oan defini´alhatn´ank ´es a megfelel˝ o eredm´enyt hasonl´oan bizony´ıthatn´ank tetsz˝oleges ξl+1 , . . . , ξl+n , l = 0, 1, 2, . . . , sorozatra is. Az ξ1 , . . . , ξn sorozat egy a csatorn´an kereszt¨ ul t¨ort´en˝ o tov´ abb´ıt´ as´at a k¨ ovetkez˝ o n n mennyis´egek seg´ıts´eg´evel fogjuk defini´alni. Vezess¨ unk be egy f : X → V k´ odf¨ uggv´enyt, amely az n hossz´ us´ ag´ u (x1 , . . . , xn ) ∈ X n sorozatokat k´epezi a csatorna bemeneti jeleinek (v1 , . . . , vn ) ∈ V n sorozataiba. Defini´ aljuk a csatorna V˜ kimeneti jeleinek n hossz´ us´ ag´ u sorozataib´ol ´ all´ o V˜ n halmaznak egy N = N (n) elem˝ u B1 , . . . , BN partici´oj´at. Ezenk´ıv¨ ul rendelj¨ uk hozz´ a e partici´o mindegyik Bl , 1 ≤ l ≤ N , elem´ehez az X n halmaz valamely x(n) (l) = (xi1 (l), . . . , xin (l)) ∈ X n elem´et u ´gy, hogy a partici´o k¨ ul¨ onb¨oz˝ o elemeihez k¨ ul¨ onb¨oz˝ o sorozatot rendel¨ unk hozz´ a, azaz x(n) (l) 6= x(n) (l′ ), ha l 6= l′ . Alkalmazzuk a k¨ ovetkez˝ o inform´ aci´o tov´ abb´ıt´ asi ´es dek´ odol´ asi elj´ar´ ast. Ha meg´erkezik a forr´ asb´ ol a ξ1 , . . . , ξn sorozat, akkor alkalmazzuk r´a az f k´ odf¨ uggv´enyt. ´Igy n egy f (ξ1 , . . . , ξn ) = (vi1 , . . . , vin ) ∈ V sorozatot kapunk. Ezt ´ atengedj¨ uk az eml´ekezet n ˜ n´elk¨ uli csatorn´an ´es kapunk egy (˜ vj1 , . . . , v˜jn ) ∈ V sorozatot, amelyet tartalmaz a 51
B1 , . . . , BN partici´o egyik eleme. Ha (˜ vj1 , . . . , v˜jn ) ∈ Bl , 1 ≤ l ≤ N , akkor legyen a dek´ odolt sorozat a Bl halmaznak megfeleltetett x(n) (l) = (xi1 (l), . . . , xin (l)) sorozat. Jel¨olj¨ uk ezt az x(n) (l) ‘dek´odol´ o’ (v´eletlen) sorozatot (ζ1 , . . . , ζn )-nel. Akkor tekintj¨ uk az inform´ aci´o tov´ abb´ıt´ asi ´es dek´ odol´ asi elj´ar´ ast j´ onak, ha (ξ1 , . . . , ξn ) = (ζ1 , . . . , ζn ). A k¨ ovetkez˝ o t´etelt fogom bizony´ıtani. T´ etel a j´ o inform´ aci´ o tov´ abb´ıt´ as lehet˝ os´ egeinek a korl´ atair´ ol, ha a csatorna kapacit´ asa kisebb, mint a forr´ as entr´ opi´ aja. Legyen adva egy ´ert´ekeit egy v´eges vagy megsz´ aml´ alhat´ oan v´egtelen X = {x1 , x2 . . . } halmazon felvev˝ o ξ val´ osz´ın˝ us´egi v´ altoz´ o ´es e ξ val´ osz´ın˝ us´egi v´ altoz´ oval azonos eloszl´ as´ u, f¨ uggetlen ξ1 , ξ2 , . . . val´ osz´ın˝ us´egi v´ altoz´ ok egy sorozata. Legyen ezenk´ıv¨ ul adva egy eml´ekezet n´elk¨ uli csatorna, amelyet egy olyan csatorna hat´ aroz meg, amely valamely V = {v1 , v2 , . . . } bemeneti jelek v´eges halmaz´ at a ´tviszi kimeneti jelek valamely V˜ = {˜ v1 , v˜2 , . . . } v´eges halmaz´ aba, ´es p(˜ vj |vi ) annak a felt´eteles val´ osz´ın˝ us´ege, hogy a csatorna kimeneti jele a v˜j pont, felt´eve, hogy a bemeneti jele vi volt. Tegy¨ uk fel, hogy a csatorna C csatorna kapacit´ asa kisebb, mint a ξ val´ osz´ın˝ us´egi v´ altoz´ o H(ξ) entr´ opi´ aja. Ekkor minden r¨ ogz´ıtett ε > 0 sz´ amhoz l´etezik olyan n0 = n0 (ε) k¨ usz¨ obindex, amelyre igaz a k¨ ovetkez˝ oa ´ll´ıt´ as. Adva egy n ≥ n0 sz´ am, tekints¨ unk egy f : X n → V n k´ odf¨ uggv´enyt, ´es vegy¨ uk a V halmaznak egy N = N (n) elem˝ u B1 , . . . , BN partici´ oj´ at. Ezenk´ıv¨ ul rendelj¨ uk n (n) hozz´ a e partici´ o mindegyik Bl , 1 ≤ l ≤ N , elem´ehez az X halmaz egyik x (l) = (xi1 (l), . . . , xin (l)) ∈ X n elem´et u ´gy, hogy x(n) (l) 6= x(n) (l′ ), ha l 6= l′ . Alkalmazzuk az ezen f k´ odf¨ uggv´eny, B1 , . . . , BN partici´ o ´es Bl → X (n) megfeleltet´es a ´ltal meghat´ arozott az e t´etel el˝ ott le´ırt inform´ aci´ o tov´ abb´ıt´ asi ´es dek´ odol´ asi elj´ ar´ ast. Ezen inform´ aci´ o tov´ abb´ıt´ asi ´es dek´ odol´ asi elj´ ar´ as hib´ aja legal´ abb 1 − ε, ha n ≥ n0 = n0 (ε), ami azt jelenti, hogy P ((ξ1 , . . . , ξn ) = (ζ1 , . . . , ζn )) ≤ ε. ˜n
A t´etel bizony´ıt´ asa. Azt ´ all´ıtom, hogy ha H(ξ) > C, akkor minden ε > 0 sz´amhoz l´etezik olyan n0 = n0 (ε) k¨ usz¨ obindex, hogy ha az el˝ obb le´ırt elj´ar´ ast alkalmazzuk n ≥ n0 hossz´ us´ ag´ u sorozatokra, akkor b´arhogy is v´ alasztjuk az f (·) k´ odol´ o f¨ uggv´enyt, a n ˜ V halmaz B1 , . . . , BN partici´oj´at ´es b´arhogy is adjuk meg a Bl halmaz elemeinek a Bl → x(n) (l) = (xi1 (l), . . . , xin (l)) hozz´ arendel´es´et az X n halmaz valamely elem´ehez, a dek´ odol´ as legfeljebb ε val´ osz´ın˝ us´eggel ad helyes eredm´enyt, azaz P ((ξ1 , . . . , ξn ) = (ζ1 , . . . , ζn )) ≤ ε.
A bizony´ıt´ ast indirekt m´ odon v´egzem el. Felt´etelezem, hogy nagy n indexekre is l´etezik olyan f (·) k´ odf¨ uggv´eny, a V˜ n halmaz olyan B1 , . . . , BN partici´oja, illetve e partici´oknak olyan Bl → x(n) (l) = (xi1 (l), . . . , xin (l)) megfeleltet´ese, amelyre a t´etel megfogalmaz´asa el˝ ott le´ırt m´ odon konstru´ alt (ζ1 , . . . , ζn ) sorozatra P ((ξ1 , . . . , ξn ) = (ζ1 , . . . , ζn )) ≥ ε. Mivel H(ξ) > C, v´ alaszthatunk olyan δ > 0 sz´amot, amelyre H(ξ)(1− δ)4 > C. El˝osz¨ or azt mutatom meg, hogy feltev´es¨ unkb˝ol k¨ ovetkezik, hogy ha n ≥ n0 = 2 n0 (ε, δ) valamely n0 k¨ usz¨ obindexszel akkor l´etezik N1 = N1 (n) ≥ 2(1−δ) H(ξ)n darab olyan x(n) (l) = (xi1 (l), . . . , xin (l)) ∈ X n sorozat, amelyekre P ((ξ1 , . . . , ξn ) = (ζ1 , . . . , ζn )|(ξ1 , . . . , ξn ) = x(n) (l)) ≥ 52
ε 2
minden 1 ≤ l ≤ N1 indexre.
Ezt igazoland´ o, vegy¨ uk ´eszre, hogy ha defini´aljuk a B = B(n) = {(xi1 , . . . , xin ): (xi1 , . . . , xin ) ∈ X n ,
P ((ξ1 , . . . , ξn ) = (ζ1 , . . . , ζn )|(ξ1 , . . . , ξn ) = (xi1 , . . . , xin )) ≥ 2ε }
(4.1)
unk szerint halmazt, akkor P ((ξ1 , . . . , ξn ) ∈ B) ≥ 2ε . Ugyanis feltev´es¨ ε ε ≤ P ((ξ1 , . . . , ξn ) = (ζ1 , . . . , ζn )) ≤ P ((ξ1 , . . . , ξn ) ∈ B) + (1 − P ((ξ1 , . . . , ξn ) ∈ B)), 2 ahonnan k¨ ovetkezik ez az ´ all´ıt´ as. Viszont innen az is k¨ ovetkezik, hogy ha n ≥ n0 egy 2 el´eg nagy n0 sz´ammal, akkor a B(n) halmaz elemsz´ama nagyobb, mint 2(1−δ) H(ξ)n . Val´ oban, vezess¨ uk be a B1 = B1 (n) = {(xi1 , . . . , xin ): (xi1 , . . . , xin ) ∈ X n ,
P ((ξ1 , . . . , ξn ) = (xi1 , . . . , xin )) < 2−(1−δ)H(ξ)n }
halmazt. L´ attuk kor´ abban, hogy P ((ξ1 , . . . , ξn ) ∈ B1 ) ≥ 1 − 4ε . Ez´ert P (ξ1 , . . . , ξn ) ∈ ε B ∩ B1 ) ≥ 4 , ahonnan a B ∩ B1 , k¨ ovetkez´esk´eppen a B = B(n) halmaz elemsz´ama ε (1−δ)H(ξ)n (1−δ)2 H(ξ)n nagyobb, mint 4 2 ≥2 , ´es val´ oj´aban a B halmaz elemsz´am´ara ilyen als´ o becsl´est k´ıv´antunk adni. Tekints¨ uk a (4.1) formul´ aban defini´alt B(n) halmazt, ´es soroljuk fel az elemeit 2 (n) B(n) = {x (l), 1 ≤ l ≤ N (n)} alakban. L´ attuk, hogy N (n) ≥ 2(1−δ) H(ξ)n . Feleltess¨ unk meg mindegyik x(n) (l) ∈ B(n) vektornak azt a (v (n) (l), Bu(l) ) p´art, amelyre v (n) (l) = f (x(n) (l)) ∈ V n a tekintett modellben szerepl˝o f (·) k´ odf¨ uggv´ennyel, ´es (n) (n) ˜ ˜ Bu(l) ⊂ V aV halmaz B1 , . . . , BN partici´oj´anak az a Br eleme, amelyre a tekintett modellben adott megfeleltet´esben a Br → x(n) (l) rel´ aci´o teljes¨ ul. (L´etezik egy ilyen Br halmaz a P ((ζ1 , . . . , ζn ) = x(n) (l)|(ξ1 , . . . , ξn ) = x(n) (l)) > 0 tulajdons´ag miatt.) Vegy¨ uk ´eszre, hogy p(Bu(l) |v (n) (l)) =
X
v ˜(n) ∈Bu(l)
p(˜ v (n) |v (n) (l)) ≥
ε , 2
ahol p(˜ v (n) |v (n) (l)) az eml´ekezet n´elk¨ uli csatorna ´ atmenetval´ osz´ın˝ us´ege, azaz (n)
p(˜ v
|v
(n)
(l)) =
n Y
k=1
p(˜ vjk |vik (l)),
ha v˜(n) = (˜ vj1 , . . . , v˜jn ), ´es v (n) (l) = (vi1 (l), . . . , vin (l)). A fel´ırt egyenl˝otlens´eg az´ert igaz, mert annak a val´ osz´ın˝ us´eg´et tekintett¨ uk, hogy ha egy x(n) (l) ∈ B(n) sorozatot vesz¨ unk, tekintj¨ uk annak az f (·) lek´epez´es szerinti v (n) (l) = f (x(n) (l)) k´ep´et, azt atengedj¨ ´ uk a csatorn´an, majd a kapott jelet az ´ altalunk le´ırt m´ odon dek´ odoljuk, akkor a kapott (ζ1 , . . . , ζn ) sorozat teljes´ıti a (ζ1 , . . . , ζn ) = x(n) (l) azonoss´agot. Ennek val´ osz´ıε (n) (n) ′ uk ´eszre azt is, hogy b´ar lehets´eges, hogy v (l) = v (l ) n˝ us´ege pedig legal´ abb 2 . Vegy¨ 53
akkor is, ha l 6= l′ , azaz lehet k´et k¨ ul¨ onb¨oz˝ o x(n) (l) ∈ A(n) ´es x(n) (l′ ) ∈ A(n) vektor, amelyekre l 6= l′ , ´es f (x(n) (l)) = f (x(n) (l′ )), viszont b´armely v (n) ∈ V n vektorra az ul¨ onb¨oz˝ o l indexre ´ allhat fenn. Val´ oban, mivel a f (x(n) (l)) = v (n) rel´ aci´o legfeljebb 2ε k¨ Bu(l) halmazok diszjunktak k¨ ul¨ onb¨oz˝ o l indexekre, ez´ert [ X Bu(l) v (n) ≤ 1, p(Bu(l) |v (n) (l)) = p l:f (x(n) (l))=v (n) l:f (x(n) (l))=v (n)
as. ´es az ¨ osszeg mindegyik tagj´ anak az ´ert´eke legal´ abb 2ε . Ez´ert igaz ez az a´ll´ıt´ Tekints¨ uk a C = C(n) = {v (n) (l) = f (x(n) (l)): x(n) (l) ∈ B(n)} halmazt, ahol (n) ′ v (l) = v (l ) eset´en e k´et vektor k¨ oz¨ ul csak az egyiket soroljuk fel a C = C(n) halmaz definici´ oj´aban. T´ ars´ıtsuk mindegyik v (n) (l) ∈ C vektorhoz a neki megfelel˝ o Bu(l) n (n) halmazt a V˜ halmaz B1 , . . . , BN partici´oj´ab´ ol. L´ attuk, hogy p(Bu(l) |v (l)) ≥ 2ε , ami ul¨ onb¨oztethet˝o elemek. azt jelenti, hogy a C halmaz elemei a csatorn´ara n´ezve 1− 2ε megk¨ 2 M´asr´eszt azt is l´attuk, hogy a C halmaz elemsz´ama nagyobb, mint 2ε 2(1−δ) H(ξ)n ≥ 3 2(1−δ) H(ξ)n ≥ 2Cn/(1−δ) , ha n ≥ n0 . Ez viszont ellentmond a a csatorna k´ odol´ asi t´etel megford´ıt´ as´anak. Ez´ert ilyen tulajdons´ag´ u legal´ abb ε pontoss´ ag´ u inform´ aci´o tov´ abb´ıt´ as ´es dek´ odol´ as nem l´etezhet, ha n ≥ n0 (ε) egy el´eg nagy n0 sz´ammal. (n)
K¨ ovetkezm´ eny. Tekints¨ uk azt az esetet, amikor teljes¨ uljenek a j´ o inform´ aci´ o tov´ abb´ıt´ as lehet˝ os´egeinek a korl´ atair´ ol sz´ ol´ o t´etel felt´etelei, speci´ alisan H(ξ) > C. R¨ ogz´ıts¨ unk n n egy tetsz˝ oleges n ≥ 1 sz´ amot, defini´ aljunk egy f : X → V k´ odf¨ uggv´enyt, ´es vegy¨ uk n ˜ a V halmaznak egy N = N (n) elem˝ u B1 , . . . , BN partici´ oj´ at. Ezenk´ıv¨ ul rendelj¨ uk hozz´ a e partici´ o mindegyik Bl , 1 ≤ l ≤ N , elem´ehez az X n halmaz egyik x(n) (l) = (xi1 (l), . . . , xin (l)) ∈ X n elem´et u ´gy, hogy x(n) (l) 6= x(n) (l′ ), ha l 6= l′ . Alkalmazzuk azt az ezen f k´ odf¨ uggv´eny, B1 , . . . , BN partici´ o ´es Bl → X (n) megfeleltet´es a ´ltal meghat´ arozott inform´ aci´ o tov´ abb´ıt´ asi ´es dek´ odol´ asi elj´ ar´ ast, amelyet az el˝ obbi t´etel megfogalmaz´ asa el˝ ott vezettem be. L´etezik olyan a forr´ ast´ ol ´es csatorn´ at´ ol f¨ ugg˝ o, de az n sz´ amt´ ol f¨ uggetlen α > 0 sz´ am, hogy ezen inform´ aci´ o tov´ abb´ıt´ asi ´es dek´ odol´ asi elj´ ar´ as hib´ aja legal´ abb α, azaz P ((ξ1 , . . . , ξn ) = (ζ1 , . . . , ζn )) ≤ 1 − α. A k¨ ovetkezm´eny indokl´ asa. Azt kell megindokolni, hogy a H(ξ) > C esetben kis n sz´amokra sem lehet n hossz´ us´ ag´ u blokkok seg´ıts´eg´evel nagyon j´ o inform´ aci´o tov´ abb´ıt´ ast el´erni. Bel´ attuk, hogy ha H(ξ) > C, akkor minden ε > 0 sz´amhoz l´etezik olyan n0 = n0 (ε) k¨ usz¨ obindex, hogy az n ≥ n0 sz´amokra minden n hossz´ us´ ag´ u blokkokon alapul´o inform´ aci´o tov´ abb´ıt´ as ´es dek´ odol´ as hib´aja legal´ abb ε. Ezt az eredm´enyt fogjuk alaszt´ assal. Tekints¨ uk az n0 = n0 ( 21 ) k¨ usz¨ obindexet. Azt a´ll´ıtom, alkalmazni ε = 12 v´ hogy az n < n0 hossz´ us´ ag´ u blokkokon alapul´o inform´ aci´o tov´ abb´ıt´ as ´es dek´ odol´ as hib´aja 1 nagyobb vagy egyenl˝o, mint 2n0 . Innen ad´ odik a K¨ ovetkezm´eny a´ll´ıt´ asa. A bizony´ıt´ as alapgondolata az, hogy ha l´etezne olyan m´ odszer, amely 2n1 0 -n´el kisebb dek´ odol´ asi hib´at biztos´ıt, akkor ezt alkalmazva n0 egym´ as ut´ ani blokkra olyan inform´aci´o tov´ abb´ıt´ asi ´es dek´ odol´ asi elj´ar´ ast kapn´ank valamely n0 -n´ al hosszabb blokkra, 1 amelynek a hib´aja kisebb, mint 2 . Viszont tudjuk, hogy ez nem lehets´eges. 54
Val´ oban, r¨ogz´ıts¨ unk egy n < n0 sz´amot. Egy n hossz´ us´ ag´ u blokkokon alapul´o inform´ aci´o tov´ abb´ıt´ ast ´es dek´ odol´ ast egy f : X n → V n k´ odol´ o f¨ uggv´eny, a V˜ n halmaz egy B1 , . . . , BN partici´oja valamint e partici´o elemeinek egy Bl → x(n) (l), 1 ≤ l ≤ N , lek´epez´ese az X n t´erbe hat´aroz meg. Defini´ aljunk e mennyis´egeknek megfelel˝ o objektumokat az n0 n hossz´ us´ ag´ u sorozatok ter´en a k¨ ovetkez˝ o m´ odon. Defini´ aljuk az f¯ n0 n n0 n k´ odol´ asi f¨ uggv´enyt, amely az X teret a V t´erbe k´epezi az f¯(x1 , . . . , xn0 n ) = (f (xkn+1 , . . . , x(k+1)n , k = 0, . . . , n0 − 1) k´eplet seg´ıts´eg´evel, a V˜ n0 n halmaz N n0 elem˝ u partici´oj´at pedig a k¨ ovetkez˝ o m´ odon: E partici´o elemei a B(li(1) , . . . , li(n0 ) ) = Bli(1) × · · · × Bli(n0 ) halmazok, ahol 1 ≤ i(j) ≤ N minden 1 ≤ j ≤ n0 indexre. V´eg¨ ul (n) (n) n0 n e partici´o B(li(1) , . . . , li(n0 ) ) elem´enek a x (li(1) ) × · · · × x (li(n0 ) ) ∈ X vektort feleltetj¨ uk meg. Nem neh´ez bel´ atni, hogy ha az eredeti n hossz´ us´ ag´ u blokkokon alapul´o inform´ aci´o tov´ abb´ıt´ asban ´es dek´ odol´ as´aban a ξln+1 , . . . , ξ(l+1)n , 0 ≤ l < n0 , blokkok hib´as dek´ odo1 odol´ as hib´aja nem f¨ ugg az l sz´amt´ol), l´as´anak a val´ osz´ın˝ us´ege kisebb, mint 2n0 , (a dek´ akkor az n0 n hossz´ us´ ag´ u sorozatok ‘szorzatter´eben’ az u ´j objektumok a´ltal meghat´ aro1 zott inform´ aci´o tov´ abb´ıt´ as ´es dek´ odol´ as hib´aj´anak a val´ osz´ın˝ us´ege kisebb, mint n0 2n0 = 1 erben’ az u ´j dek´ odol´ as val´ oj´aban u ´gy m˝ uk¨odik, hogy az egyes 2 . Ugyanis a ‘szorzatt´ kn+1 ≤ n ¯ ≤ (k+1)n blokkokat, k = 0, . . . , n0 −1, egym´ ast´ ol f¨ uggetlen¨ ul az n hossz´ us´ agi blokkokon ´erv´enyes szab´aly szerint tov´ abb´ıtjuk a csatorn´an kereszt¨ ul, majd dek´ odoljuk oket. Ha ezen n0 blokk dek´ ˝ odol´ asa mindegyik k-ra kevesebb, mint 2n1 0 val´ osz´ın˝ us´eggel hib´as, akkor igaz az eml´ıtett becsl´es. De mivel az n0 n hossz´ u sorozatokkal v´egzett ovetkezik az n < n0 hossz´ u sorozatok hib´aj´ar´ ol dek´ odol´ asok hib´aja legal´ abb 12 , innen k¨ megfogalmazott ´ all´ıt´ as. 5. Az entr´ opia fogalm´ anak Kolmogorov-f´ ele ´ altal´ anos´ıt´ asa ´ es e fogalom alkalmaz´ asa egy probl´ ema vizsg´ alat´ aban. Ebben a fejezetben egy olyan probl´em´at fogok t´argyalni, amelynek l´atsz´olag nincs k¨ oze az inform´ aci´oelm´elethez. M´egis, meglep˝ o m´ odon, e probl´ema megold´ as´aban kulcsszerepet j´ atszik az entr´ opia, pontosabban e fogalom egy alkalmas a´ltal´ anos´ıt´ asa. A vizsg´aland´o k´erd´es megfogalmaz´as´anak ´erdek´eben el˝ osz¨ or felid´ezem a val´ osz´ın˝ us´egsz´am´ıt´ asban gyakran haszn´ alt Bernoulli rendszer definici´ oj´at. A Bernoulli rendszer definici´ oj´anak megad´asa el˝ ott ismertetem annak inform´ alis le´ır´as´at. Vesz¨ unk egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ ot, ´es azon egy v´eges sok, mondjuk az 1, 2, . . . , r ´ert´ekeket felvev˝o ξ val´ osz´ın˝ us´egi v´ altoz´ ot. Minden eg´esz l sz´amra tekintj¨ uk ennek a rendszernek egy ezzel az l sz´ammal indexelt p´eld´any´ at, ´es vessz¨ uk ezek direkt szorzat´at. Ezut´an defini´aljuk azt az eltol´ ast ezen a szorzatt´eren, amelynek hat´as´ara a ξl val´ osz´ın˝ us´egi v´ altoz´ o a ξl+1 v´ altoz´ oba megy ´ at. Al´abb egy olyan rendszert defini´alunk, ahol ilyen val´ osz´ın˝ us´egi v´ altoz´ okat ´es azok eltoltjait term´eszetes m´ odon be lehet vezetni. Bernoulli rendszer definici´ oja. Legyen adva egy r ≥ 2 eg´esz sz´ am, ´es olyan pj ≥ 0, r P 1 ≤ j ≤ r, sz´ amok, amelyekre pj = 1. Az r ≥ 2, ´es pj , 1 ≤ j ≤ r, sz´ amok j=1
a ´ltal meghat´ arozott Bernoulli rendszeren az al´ abbi (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ ot ´es az Ω halmazon defini´ alt T u ´gynevezett shift (eltol´ as) transzform´ aci´ ot ´ertj¨ uk. Az Ω halmaz 55
elemei azon ω = (. . . , x−1 , x0 , x1 , . . . ) sorozatok, amelyekre xj ∈ {1, . . . , r}, minden −∞ < j < ∞ indexre. Az A σ-algebra az al´ abbi A(k, j−k , . . . , jk ) ⊂ Ω u ´gynevezett hengerhalmazok a ´ltal gener´ alt legsz˝ ukebb σ-algebra: A(k, j−k , . . . , jk ) = {ω = (. . . , x−1 , x0 , x1 , . . . ): xs = js , −k ≤ s ≤ k}, ahol k tetsz˝ oleges pozit´ıv eg´esz sz´ am, ´es js ∈ {1, . . . , r} minden −k ≤ s ≤ k indexre. A k Q hengerhalmazok P val´ osz´ın˝ us´eg´et a P (A(k, j−k , . . . , jk ) = pjs k´eplet adja meg, ´es s=−k
a P m´ert´ek e val´ osz´ın˝ us´eg kiterjeszt´ese a A σ-algebr´ ara. V´eg¨ ul egy ω = (. . . , x−2 , x−1 , x0 , x1 , . . . ) ∈ Ω elemi esem´eny T ω shiftje (eltoltja) a T ω = (. . . , x−1 , x0 , x1 , x2 . . . ) ∈ Ω
sorozat, azaz az ω-t defini´ al´ o sorozat xs , s-ik koordin´ at´ aj´ at eggyel eltoljuk balra. Ez azt jelenti az xs sz´ am a T ω-t defini´ al´ o sorozat s − 1-ik koordin´ at´ aj´ aban jelenik meg. Megjegyz´es. A Bernoulli rendszerek definici´ oj´aban nem jelentek meg az e fogalom inform´alis ismertet´es´eben eml´ıtett ξl , l = 0, ±1, . . . , f¨ uggetlen ´es egyforma eloszl´ as´ u val´osz´ın˝ us´egi v´ altoz´ ok. De ilyen val´ osz´ın˝ us´egi v´ altoz´ okat egyszer˝ u ´es term´eszetes m´ odon defini´alhatunk egy Bernoulli rendszerben. Nevezetesen, legyen ξl (ω) = xl , l = 0, ±1, . . . , ha ω = (. . . , x−1 , x0 , x1 , . . . ). Azzal a k´erd´essel fogunk foglalkozni, hogy k´et k¨ ul¨ onb¨oz˝ o Bernoulli rendszer mikor izomorf egy al´ abb ismertetend˝ o term´eszetes izomorfia fogalom szerint, mely izomorfia ´ szeml´eletesen a k´et dinamikus rendszer hasonl´os´ag´ at fejezi ki. Erdemes ezt a k´erd´est altal´ ´ anosabban megfogalmazni. Bevezetem az (invert´ alhat´ o shift transzform´ aci´oval rendelkez˝ o) dinamikus rendszerek fogalm´at, ´es defini´alom ezek izomorfi´ aj´at. A minket ´erdekl˝ o k´erd´es arr´ ol sz´ol, hogy bizonyos speci´alis dinamikus rendszerek mikor izomorfak. (Invert´ alhat´ o) dinamikus rendszerek definici´ oja. Egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ ot, ´es egy az Ω halmazt o ¨nmag´ aba k´epez˝ o, m´erhet˝ o T lek´epez´est dinamikus rendszernek nevez¨ unk, ha T m´ert´ektart´ o transzform´ aci´ o, azaz P (T −1 (A)) = P (A) minden A ∈ A halmazra. Egy dinamikus rendszert invert´ alhat´ onak nevez¨ unk, ha a T transzform´ aci´ o automorfizmus, azaz minden ω ∈ Ω pontra pontosan egy olyan ω ˜ ∈ Ω pont van, amelyre Tω ˜ = ω. Nem neh´ez bel´ atni, hogy egy Bernoulli rendszer (az ott defini´alt) shift transzform´aci´oval invert´ alhat´ o dinamikus rendszer. A jobb ´erthet˝os´eg kedv´e´ert mutatok egy a Bernoulli rendszerhez hasonl´o nem invert´ alhat´ o dinamikus rendszert, amelyet f´eloldali Bernoulli rendszernek fogok nevezni. 56
F´ eloldali Bernoulli rendszer definici´ oja. ´es olyan pj
Legyen adva egy r ≥ 2 eg´esz sz´ am, r P ≥ 0, 1 ≤ j ≤ r, sz´ amok, amelyekre pj = 1. Az r ≥ 2, ´es pj , j=1
1 ≤ j ≤ r, sz´ amok a ´ltal meghat´ arozott f´eloldali Bernoulli rendszeren az al´ abbi (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ ot ´es az Ω halmazon defini´ alt T u ´gynevezett shift (eltol´ as) transzform´ aci´ ot ´ertj¨ uk. Az Ω halmaz elemei azon ω = (x0 , x1 , . . . ) sorozatok, amelyekre 1 ≤ xj ≤ r, ´es xj eg´esz sz´ am minden 0 ≤ j < ∞ indexre. Az A σ-algebra az Ω halmaz az al´ abbi A(k, j0 , . . . , jk ) u ´gynevezett hengerhalmazok a ´ltal gener´ alt σ-algebra: A(k, j0 , . . . , jk ) = {ω = (x0 , x1 , x2 , . . . ): xs = js , 0 ≤ s ≤ k}, k = 1, 2, . . . , 1 ≤ js ≤ r minden 0 ≤ s ≤ k indexre. A hengerhalmazok P val´ osz´ın˝ us´eg´et a P (A(k, j0 , . . . , jk ) = k Q pjs k´eplet adja meg, ´es a P m´ert´ek e val´ osz´ın˝ us´eg kiterjeszt´ese a A σ-algebr´ ara. s=0
V´eg¨ ul egy ω = (x0 , x1 , x2 , . . . ) ∈ Ω elemi esem´eny T ω shiftje a T ω = (x1 , x2 , x3 , . . . ) ∈ Ω sorozat, azaz az ω-t defini´ al´ o sorozat xs , s-ik koordin´ at´ aj´ at eggyel eltoljuk balra, ´es az x0 koordin´ ata ‘elveszik’. ˜ A, ˜ P˜ , T˜) dinamikus rendszer. Term´eszetesnek Legyen adva k´et (Ω, A, P, T ) ´es (Ω, l´atszana ezek valamely ϕ izomorfi´ aj´at u ´gy defini´alni, mint az Ω halmaznak olyan k¨ ol˜ cs¨on¨ osen egy´ertelm˝ u, m´ert´ektart´ o ϕ lek´epez´es´et az Ω halmazba, amely a T shift transz˜ form´aci´ot a T shift transzform´ aci´oba viszi, azaz ϕ(T ω) = T˜(ϕ(ω) minden ω ∈ Ω pontban. Mint a k¨ ovetkez˝ o p´elda mutatja, ´erdemes ezt a definici´ ot kiss´e finom´ıtani. Lehets´eges ugyanis, hogy valamelyik dinamikus rendszernek van egy olyan rossz null m´ert´ek˝ u r´eszhalmaza, amely kiz´ arja az ilyen ´ertelemben vett izomorfi´ at, de ha ezt a null m´ert´ek˝ u halmazt elhagyjuk akkor minden rendben lesz. Tekints¨ uk a k¨ ovetkez˝ o p´eld´at. Vegy¨ uk azt az (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ ot, amelyre Ω = {1}, A az Ω halmaz ¨ osszes r´eszhalmaza, (ez val´ oj´aban az {1} halmaz ´es az u ¨res halmaz), ´es P ({1}) = 1. Defini´ aljuk a T shift transzform´ aci´ot az Ω halmazon, mint ˜ A, ˜ P˜ ) val´ az identit´ as transzform´ aci´ot. Vezess¨ uk be az (Ω, osz´ın˝ us´egi mez˝ ot, amelyre ˜ = {0, 1}, A˜ az Ω ˜ halmaz ¨ Ω osszes r´eszhalmaza, P˜ ({1}) = 1, ´es P˜ ({0}) = 0. Defini´ aljuk ˜ ˜ a T shift transzform´ aci´ot az Ω halmazon, mint az identit´ as transzform´ aci´ot. Ekkor, ˜ A, ˜ P˜ , T˜) dinamikus rendszer egy invert´ mind (Ω, A, P, T ) mind (Ω, alhat´ o shift transz˜ form´aci´oval. A k´et rendszer nem izomorf az el˝ obb v´ azolt ´ertelemben, mert Ω egy, Ω ˜ halmazb´ol kihagyva a null m´ert´ek˝ pedig k´et elemb˝ol ´ all. Viszont a Ω u {0} halmazt m´ ar k´et izomorf dinamikus rendszert kapunk. Ez´ert ´erdemes dinamikus rendszerek izomorfi´ aj´at az al´ abb megadand´ o m´ odon defini´alni, mert az jobban kifejezi k´et dinamikus rendszer hasonl´os´ag´ at. A definici´ o szeml´eletes tartalma az, hogy k´et dinamikus rendszert akkor tekint¨ unk izomorfnak, ha egy rossz null m´ert´ek˝ u halmazt kihagyva mind a k´et dinamikus rendszerb˝ol olyan rendszereket kapunk, amelyek az el˝ obb jelzett er˝ osebb ´ertelemben is izomorfak. Dinamikus rendszerek izomorfi´ aj´ anak a definici´ oja. Legyen adva k´et (Ω, A, P, T ) ˜ ˜ ˜ ˜ ´es (Ω, A, P , T ) dinamikus rendszer. A k´et rendszer izomorf, ha l´etezik k´et olyan Ω0 ∈ A ˜ 0 ∈ A˜ halmaz ´es egy (m´erhet˝ ˜ 0 lek´epez´es, ´es Ω o) k¨ olcs¨ on¨ osen egy´ertelm˝ u ϕ: Ω0 → Ω amelyekre 57
˜ 0 ) = 1, az Ω0 , ´es Ω ˜ 0 halmazok invari´ 1.) P (Ω0 ) = 1, P˜ (Ω ansak a T illetve T˜ shift −1 −1 ˜ ˜ ˜ transzform´ aci´ ora, azaz Ω0 ⊂ T Ω0 , ´es Ω0 ⊂ T Ω0 . Ez ekvivalensen u ´gy is ˜ ˜ megfogalmazhat´ o, hogy T Ω0 ⊂ Ω0 , ´es T Ω0 ⊂ Ω0 . ˜ ˜ 0 , ´es A˜ = ϕ(A), 2.) A ϕ: Ω0 → Ω0 lek´epez´es m´ert´ektart´ o, azaz ha A ⊂ Ω0 , A˜ ⊂ Ω ˜ ´es ebben az esetben P (A) = P˜ (A). ˜ akkor A ∈ A akkor ´es csak akkor, ha A˜ ∈ A, 3.) A ϕ lek´epez´es felcser´elhet˝ o a T , T˜ shift p´ arral, azaz ϕ(T ω) = T˜ϕ(ω) tetsz˝ oleges ω ∈ Ω0 pontra. ˜ 0 p´ Ha a fenti tulajdons´ agok teljes¨ ulnek valamely Ω0 , Ω arral ´es ϕ lek´epez´essel, akkor ˜ ˜ ˜ ˜ azt mondjuk, hogy az (Ω, A, P, T ) ´es (Ω, A, P , T ) dinamikus rendszerek izomorfak az ˜ 0 , ϕ) h´ (Ω0 , Ω armason kereszt¨ ul. Megjegyz´es. Tetsz˝oleges dinamikus rendszerek izomorfi´ aj´at defini´altuk, de a f˝ o eredm´enyekben csak invert´ alhat´ o dinamikus rendszerek izomorfi´ aj´at fogjuk vizsg´alni. A minket ´erdekl˝ o Bernoulli rendszerek invert´ alhat´ o dinamikus rendszerek, ´es vizsg´ alataink bizonyos r´eszeiben ezt ki fogjuk haszn´ alni. Ha k´et rendszer izomorfi´ aj´at akarjuk vizsg´alni valamilyen izomorfia fogalom szerint, akkor term´eszetes az izomorfia invari´ ansait, azaz olyan tulajdons´agokat ´es menynyis´egeket keresni, amelyek nem v´ altoznak akkor, ha egy rendszerb˝ol egy m´ asik vele izomorf rendszerbe t´er¨ unk ´ at. Min´el t¨obb invari´ anst ismer¨ unk ann´al jobban tudjuk az izomorfi´ at vizsg´alni. Tekints¨ unk invert´ alhat´ o dinamikus rendszereket, ´es vizsg´aljuk ezek el˝ obb bevezetett izomorfi´ aj´at. El˝osz¨ or a k¨ ovetkez˝ o nem trivi´ alis az izomorfi´ ara invari´ ans tulajdons´agot tal´ alt´ ak. Adva egy (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszer, term´eszetes m´ odon ´ defini´alhatjuk a k¨ ovetkez˝ o Hilbert teret ´es rajta defini´alt unit´er oper´ atort. Alljon a Hilbert t´er az (Ω, A, P ) t´eren ´ertelmezett n´egyzetesen integr´alhat´ o Rf¨ uggv´enyekb˝ol a szok´ asos L2 norm´ aval, ´es vezess¨ uk be e t´eren az al´ abbi U oper´ atort. Ha f 2 (ω)P ( dω) < ∞, akkor defini´aljuk az f f¨ uggv´eny U f k´ep´et az U f (ω) = f (T ω) k´eplettel. Nem neh´ez bel´ atni, hogy (a T shift transzform´ aci´o m´ert´ektart´ o tulajdons´aga ´es invert´ alhat´ os´ aga miatt) az el˝ obb defini´alt U oper´ ator unit´er. Tov´ abb´a, ha k´et invert´ alhat´ o dinamikus rendszer izomorf, akkor a nekik megfelel˝ o Hilbert t´er a rajtuk defini´alt U unit´er oper´ atorral izomorf. Felmer¨ ult a k´erd´es, hogy ez a t´eny milyen inform´ aci´ot ad k´et Bernoulli rendszer izomorfi´ aj´ar´ ol. Kider¨ ult, hogy b´armely k´et Bernoulli rendszerhez tartoz´o az el˝ obbi m´ odon bevezetett Hilbert t´er a rajta defini´alt unit´er oper´ atorral egy¨ utt izomorf. Ezen eredm´eny bizony´ıt´ as´at ismertetem e fejezet kieg´esz´ıt´es´eben. Sok´ aig azt hitt´ek, hogy ez az a l´enyeges izomorfi´ ara invari´ ans tulajdon´ag, amely eld¨onti, hogy k´et Bernoulli rendszer izomorf-e. Ez´ert t¨obben azt sejtett´ek, hogy b´armely k´et Bernoulli rendszer izomorf. S˝ot, Paul Halmos bebizony´ıtotta, hogy ezen sejt´es igazol´as´ahoz elegend˝ o lenne azt bel´ atni, hogy az r = 3, p1 = p2 = p3 = 31 illetve r = 4, p1 = p2 = p3 = p4 = 41 param´eterekkel meghat´ arozott Bernoulli rendszerek izomorfak. K´es˝obb Kolmogorov bebizony´ıtotta, hogy ez a sejt´es hamis, mert l´etezik olyan tov´ abbi a dinamikus rendszerek izomorfi´ aj´ara invari´ ans mennyis´eg, amelynek l´etez´es´eb˝ ol k¨ ovetkezik p´eld´aul, hogy a fent eml´ıtett Bernoulli rendszerek nem izomorfak. 58
Kolmogorov bevezette a Shannon-f´ele entr´ opia egy term´eszetes a´ltal´anos´ıt´ as´at. Defini´ alta dinamikus rendszerek entr´ opi´aj´at, ´es megmutatta, hogy egym´ assal izomorf dinamikus rendszerek entr´ opi´aja egyenl˝o. Ezenk´ıv¨ ul olyan eredm´enyt bizony´ıtott, amely seg´ıtett az entr´ opia kisz´ amol´ as´aban bizonyos esetekben. Speci´alisan megmutatta, hogy egy r, p1 , . . . , pr , param´eterekkel meghat´ arozott Bernoulli rendszer entr´ opi´aja H = r P − pj log pj , ´es az ´ altala bevezetett entr´ opia tekinthet˝ o u ´gy, mint a Shannon-f´ele j=1
entr´ opia ´ altal´ anos´ıt´ asa. K´es˝obb David Ornstein egy m´ely eredm´enyben bebizony´ıtotta, hogy k´et Bernoulli rendszer, amelyeknek megegyezik az entr´ opi´aja, izomorf. Ebben a fejezetben Kolmogorov eredm´eny´et ´es annak bizony´ıt´ as´at ismertetem. Nem fogom t´argyalni Ornstein eredm´eny´enek a bizony´ıt´ as´at. Term´eszetesen Bernoulli rendszerek izomorfi´ aj´anak a probl´em´aja csak egy speci´alis, b´ar fontos r´esze annak a ´ k´erd´esk¨ornek, hogy k´et dinamikus rendszer mikor izomorf. Altal´ anos dinamikus rendszerek izomorfi´ aj´anak a k´erd´es´evel azonban ebben a jegyzetben nem foglalkozom. Kolmogorov eredm´enyeinek t´argyal´ asa el˝ ott ismertetek n´eh´ any a dinamikus rendszerek izomorfi´ aj´aval kapcsolatos t´enyt. ´ Eszrev´ etel. Dinamikus rendszerek izomorfi´ aja ekvivalencia rel´ aci´ o.
Bizony´ıt´ as. Nyilv´ anval´ o, hogy egy dinamikus rendszer ¨ onmag´ aval izomorf, azaz az izomorfia reflexiv. Ugyancsak k¨ onnyen l´athat´ o, hogy az izomorfia szimmetrikus tulaj˜ A, ˜ P˜ , T˜) dinamikus rendszerrel egy (Ω0 , Ω ˜ 0 , ϕ) dons´ag. Ha (Ω, A, P, T ) izomorf egy (Ω, ˜ A, ˜ P˜ , T˜) izomorf az (Ω, A, P, T ) dinamikus rendszerrel h´armason kereszt¨ ul, akkor (Ω, −1 ˜ 0 , Ω0 , ϕ ) h´armason kereszt¨ az (Ω ul. Be kell m´eg l´atni, hogy az izomorfia tranzit´ıv tulajdons´ag. ˜ A, ˜ P˜ , T˜) dinamikus Azt kell megmutatni, hogy ha (Ω, A, P, T ) izomorf egy (Ω, ˜ 0 , ϕ), ´es (Ω, ˜ A, ˜ P˜ , T˜) izomorf egy (Ω′ , A′ , P ′ , T ′ ) dinamikus rendrendszerrel egy (Ω0 , Ω ′ ˜ 1 , Ω , ψ) h´armason kereszt¨ szerrel egy (Ω ul, akkor az (Ω, A, P, T ) ´es (Ω′ , A′ , P ′ , T ′ ) di1 namikus rendszerek is izomorfak. Ennek ´erdek´eben el˝ osz¨ or megmutatom azt, hogy az ˜ ˜ 2 , Ω′ , ψ2 ) alakban alizomorfi´ akat biztos´ıt´ o h´armasok v´ alaszthat´oak (Ω2 , Ω2 , ϕ2 ) ´es (Ω 2 ˜ 2 , Ω′ , ϕ2 ´es ψ2 mennyis´egekkel. A l´enyeges pont ebben az a´ll´ıt´ kalmas Ω2 , Ω asban az, 2 ˜ hogy a k´et h´armasban ugyanaz az Ω2 halmaz szerepel. ˜2 = Ω ˜0 ∩ Ω ˜ 1 . Ha Ω2 = ϕ−1 Ω ˜ 2 , ϕ2 a ϕ f¨ Legyen Ω uggv´eny megszor´ıt´ asa az Ω2 hal˜ ˜ ˜ ˜ ˜ 2 , ϕ2 ) mazra, akkor (Ω, A, P, T ) izomorf az (Ω, A, P , T ) dinamikus rendszerrel az (Ω2 , Ω ′ ˜ uggv´eny megszor´ıt´ asa h´armason kereszt¨ ul is. Hasonl´ oan, legyen Ω2 = ψ Ω2 , ´es ψ2 a ψ f¨ ′ ′ ′ ′ ˜ ˜ ˜ ˜ ˜ az Ω2 halmazra. Ekkor (Ω, A, P , T ) izomorf az (Ω , A , P , T ) dinamikus rendszerrel ˜ 2 , Ω′ , ψ2 ) h´armason kereszt¨ ul. Ezt felhaszn´alva kapjuk, hogy az (Ω, A, P, T ) ´es az (Ω 2 ′ ′ ′ ′ ul, ahol (Ω , A , P , T ) dinamikus rendszrek izomorfak az (Ω2 , Ω′2 , ρ) h´armason kereszt¨ ρ(ω) = ψ2 (ϕ2 (ω)) minden ω ∈ Ω2 pontban. (A ρ f¨ uggv´eny definici´ oj´aban haszn´ altuk ki ˜ 2 halmaz fent eml´ıtett tulajdons´ag´ az Ω at.) Sz¨ uks´eg¨ unk van m´eg a k¨ ovetkez˝ o eredm´enyre is.
59
Lemma izomorf dinamikus rendszerek tulajdons´ agair´ ol. Legyen (Ω, A, P, T ) ´es ˜ A, ˜ P˜ , T˜) k´et izomorf dinamikus rendszer egy (Ω0 , Ω ˜ 0 , ϕ) h´ (Ω, armason kereszt¨ ul. Ekkor ϕ(T n ω) = T˜n ϕ(ω)
minden n = 1, 2, . . . sz´ amra, ´es minden ω ∈ Ω0 pontban.
(5.1)
˜ 0 , ´es A˜j ∈ A, ˜ 1 ≤ j ≤ k, ´es nj ≥ 0, Legyen adva k darab A˜j halmaz, amelyekre A˜j ⊂ Ω 1 ≤ j ≤ k, nem negat´ıv eg´esz sz´ amok egy sorozata. Ekkor P (T −n1 ϕ−1 (A˜1 ) ∩ · · · ∩ T −nk ϕ−1 (A˜k )) = P˜ (T˜−n1 A˜1 ∩ · · · ∩ T˜−nk A˜k ).
(5.2)
A fenti lemma azt mondja ki, hogy b´ar dinamikus rendszerek izomorfi´ aj´anak a definici´ oj´aban megengedt¨ uk bizonyos null m´ert´ek˝ u halmazok kihagy´ as´at, a T illetve T˜ shift oper´ atorok hatv´anyai u ´gy viselkednek, mint abban az egyszer˝ ubb esetben, amikor a null m´ert´ek˝ u halmazok ezen kihagy´ as´at nem engedj¨ uk meg, azaz, ha Ω0 = Ω, ´es ˜ 0 = Ω. ˜ Ω A lemma bizony´ıt´ asa. Az (5.1) formul´ at n szerinti teljes indukci´ oval l´athatjuk be. n = 1-re a formula igaz, ´es ha igaz n-re, akkor ϕ(T n+1 ω) = ϕ(T n (T ω)) = T˜n ϕ(T ω) = T˜n (T˜(ϕ(ω)) = T˜n+1 ϕ(ω). Az (5.2) rel´ aci´o igazol´asa ´erdek´eben el˝ osz¨ or mutassuk meg, hogy amennyiben A˜ ∈ ˜ 0 , akkor minden n ≥ 0 sz´amra T −n ϕ−1 (A) ˜ ∩ Ω0 = ϕ−1 (T˜−n (A) ˜ ∩Ω ˜ 0 ). Val´ Ω oban, ω ∈ −n −1 ˜ −n −1 ˜ ˜ T ϕ (A) ∩ Ω0 akkor ´es csak akkor, ha ω ∈ T ϕ (A) ´es ω ∈ Ω0 , azaz ϕ(T n ω) ∈ A, ´es ω ∈ Ω0 . ˜ ∩Ω ˜ 0 ) azzal ekvivalens, hogy ϕ(ω) ∈ T˜−n (A) ˜ ∩Ω ˜ 0 , azaz M´asr´eszt ω ∈ ϕ−1 (T˜−n (A) ˜ 0 . Ez viszont az (5.1) rel´ T˜n ϕ(ω) ∈ A˜ ´es ϕ(ω) ∈ Ω aci´o szerint azzal ekvivalens, hogy n ϕ(T ω) ∈ A˜ ´es ω ∈ Ω0 . A fel´ırt azonoss´ag teh´at ´erv´enyes. Alkalmazva ezt az azonoss´agot mindegyik A˜j , 1 ≤ j ≤ k, halmazra nj param´eterrel, ´es v´eve az azonoss´ag k´et oldal´ an l´ev˝o halmazok metszet´et azt kapjuk, hogy ˜ 0 ). T −n1 ϕ−1 (A˜1 ) ∩ · · · ∩ T −nk ϕ−1 (A˜k ) ∩ Ω0 = ϕ−1 (T˜−n1 A˜1 ∩ · · · ∩ T˜−nk A˜k ∩ Ω Ez´ert a fenti azonoss´ag k´et oldal´ an lev˝ o halmaz P val´ osz´ın˝ us´ege egyenl˝o. Az (5.2) azonoss´ag k¨ ovetkezik ebb˝ol az azonoss´agb´ol ´es a k¨ ovetkez˝ o k´et ´eszrev´etelb˝ ol. P (T −n1 ϕ−1 (A˜1 ) ∩ · · · ∩ T −nk ϕ−1 (A˜k ) ∩ Ω0 ) = P (T −n1 ϕ−1 (A˜1 ) ∩ · · · ∩ T −nk ϕ−1 (A˜k )), mert P (Ω0 ) = 1. M´asr´eszt ˜ 0 )) P (ϕ−1 (T˜−n1 A˜1 ∩ · · · ∩ T˜−nk A˜k ∩ Ω ˜ 0 ) = P˜ (T˜−n1 A˜1 ∩ · · · ∩ T˜−nk A˜k ) = P˜ (T˜−n1 A˜1 ∩ · · · ∩ T˜−nk A˜k ∩ Ω ˜ 0 ) = 1 rel´ a ϕ transzform´ aci´o m´ert´ektart´ o tulajdons´aga ´es a P˜ (Ω aci´o miatt. 60
Bevezetem egy invert´ alhat´ o dinamikus rendszer entr´ opi´aj´aj´anak a fogalm´ at. De ezt csak invert´ alhat´ o dinamikus rendszerek eset´eben fogom megtenni. A definici´ o bevezet´ese ´erdek´eben el˝ osz¨ or bebizony´ıtok egy egyszer˝ u lemm´at. A lemma megfogalmaz´as´aban haszn´ alni fogom a k¨ ovetkez˝ o jel¨ol´est. Legyen (Ω, A, P, T ) egy invert´ alhat´ o dinamikus rendszer. Egy e dinamikus rendszerben defini´alt ξ val´ osz´ın˝ us´egi v´ altoz´ o T n ξ eltoltj´ an n n a T ξ(ω) = ξ(T ω) val´ osz´ın˝ us´egi v´ altoz´ ot ´ertj¨ uk minden n = . . . , −1, 0, 1, . . . indexre. (Speci´ alisan T 0 ξ(ω) = ξ(ω).) Lemma az entr´ opia egy tulajdons´ ag´ ar´ ol. Legyen (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszer, ´es legyen ξ(ω) egy A m´erhet˝ o v´eges vagy megsz´ aml´ alhat´ oan v´egtelen ´ert´eket felvev˝ o val´ osz´ın˝ us´egi v´ altoz´ o. Ekkor l´etezik az lim H(ξ|T −1 ξ, . . . , T −n ξ).
(5.3)
n→∞
hat´ ar´ert´ek. Ha H(ξ) < ∞ akkor ez a hat´ ar´ert´ek v´eges, ´es 1 H(ξ, T ξ, . . . , T n−1 ξ) n→∞ n
lim H(ξ|T −1 ξ, . . . , T −n ξ) = lim
n→∞
1 H(T −n+1 ξ, . . . , T −1 ξ, ξ, T ξ, . . . , T n−1 ξ). n→∞ 2n − 1
(5.4)
= lim
Bizony´ıt´ as. Az els˝ o fejezet eredm´enyeib˝ol k¨ ovetkezik, hogy a H(ξ|T −1 ξ, . . . , T −k ξ) felt´eteles entr´ opia sorozat a k param´eter monoton cs¨okken˝ o f¨ uggv´enye. Ez´ert l´etezik a lim H(ξ|T −1 ξ, . . . , T −n ξ)
n→∞
hat´ar´ert´ek, ´es az v´eges, ha H(ξ) < ∞. Ebben az esetben fel´ırhatjuk a n−1 1X H(ξ) 1 H(ξ, T ξ, . . . , T n−1 ξ) = H(T k ξ|T k−1 ξ, . . . , T 0 ξ) + n n n k=1
=
1 n
n−1 X
H(ξ|T −1 ξ, . . . , T −k ξ) +
k=1
H(ξ) n
azonoss´agot. E formula els˝ o azonoss´ag´ aban felhaszn´altuk az entr´ opia ´es felt´eteles entr´ opia els˝ o fejezetben bizony´ıtott tulajdons´agait, a m´ asodik azonoss´agban pedig azt a t´enyt, hogy a (T k ξ, T k−1 ξ, . . . , ξ), illetve (ξ, T −1 ξ, . . . , T −k ξ) vektorok azonos eloszl´ as´ uak, k k−1 0 −1 −k ez´ert H(T ξ|T ξ, . . . , T ξ) = H(ξ|T ξ, . . . , T ξ) minden k = 0, 1, . . . indexre. Innen azt kapjuk, hogy ! n−1 X 1 1 H(ξ) lim H(ξ, T ξ, . . . , T n−1 ξ) = lim H(ξ|T −1 ξ, . . . , T −k ξ) + n→∞ n n→∞ n n k=1 −1
= lim H(ξ|T n→∞
61
ξ, . . . , T −1 ξ, . . . , T −n ξ)
azaz igaz az (5.4) formula els˝ o azonoss´aga. Mivel H(T −n+1 ξ, . . . , T −1 ξ, ξ, T ξ, . . . , T n−1 ξ) = H(ξ, T ξ, . . . , T 2n−2 ξ) igaz az (5.4) formula m´ asodik azonoss´aga is. Invert´ alhat´ o dinamikus rendszer entr´ opi´ aj´ anak a definici´ oja. Legyen adva egy (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszer, ´es tekints¨ unk ezen egy olyan A m´erhet˝ o v´eges vagy megsz´ aml´ alhat´ oan v´egtelen ´ert´eket felvev˝ o ξ val´ osz´ın˝ us´egi v´ altoz´ ot. A ξ val´ osz´ın˝ us´egi v´ altoz´ o T shift transzform´ aci´ o szerinti entr´ opi´ aja a H(T, ξ) = lim H(ξ|T −1 ξ, . . . , T −n ξ) n→∞
(5.5)
hat´ ar´ert´ek. (Az el˝ oz˝ o lemma szerint ez a hat´ ar´ert´ek l´etezik, ´es v´eges, ha H(ξ) < ∞.) A T shift transzform´ aci´ o entr´ opi´ aja a H(T ) = sup H(T, ξ)
(5.6)
ξ
kifejez´essel egyenl˝ o, ahol a szupr´emumot az o ¨sszes A m´erhet˝ o ´es v´eges sok ´ert´eket felvev˝ o ξ val´ osz´ın˝ us´egi v´ altoz´ ora vessz¨ uk. Megjegyz´es. L´ attuk, hogy a H(ξ) < ∞ esetben a H(T, ξ) mennyis´eget a 1 H(T 0 ξ, . . . , T n−1 ξ) n→∞ n
H(T, ξ) = lim k´eplet seg´ıts´eg´evel is kifejezhetj¨ uk.
Egy invert´ alhat´ o dinamikus rendszer shift transzform´ aci´oj´anak az entr´ opi´aj´at az irodalomban gyakran kiss´e m´ as, de ekvivalens m´ odon ´ırj´ak le. Ismertetem ezt a definici´ ot is. El˝otte eml´ekeztetek arra, hogy egy (v´eges vagy megsz´ aml´alhat´ o ´ert´eket felvev˝o) val´ osz´ın˝ us´egi v´ altoz´ o term´eszetes m´ odon meghat´ arozza a val´osz´ın˝ us´egi mez˝ o egy partici´oj´at. Nevezetesen, e partici´o elemei a val´ osz´ın˝ us´egi mez˝ o azon (n´ıv´o)halmazai, ahol a val´ osz´ın˝ us´egi v´ altoz´ o egy el˝ o´ırt ´ert´eket vesz fel. Tov´ abb´a a val´ osz´ın˝ us´egi v´ altoz´ o entr´ opi´aja csak ezen partici´ot´ ol f¨ ugg. M´asr´eszt egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ o minden A m´erhet˝ o halmazokb´ ol ´ all´ o partici´oj´ahoz l´etezik olyan A m´erhet˝ o ξ val´ osz´ın˝ us´egi v´ altoz´ o, amely ezt a partici´ot hat´arozza meg. Ez lehet˝ ov´e teszi, hogy egy dinamikus rendszer shift transzform´ aci´oj´anak az entr´ opi´aj´at ne val´ osz´ın˝ us´egi v´ altoz´ ok, hanem partici´ok seg´ıts´eg´evel defini´aljuk, ´es az irodalomban gyakran ezt teszik. Megadom ezt a definici´ ot is, illetve ismertetem kapcsolat´ at az el˝ obb le´ırt definici´ oval. Az egyszer˝ us´eg kedv´e´ert csak olyan ξ val´ osz´ın˝ us´egi v´ altoz´ okkal, illetve nekik megfelel˝ o B partici´okkal fogok foglalkozni, amelyekre H(ξ) < ∞. Legyen adva egy (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszer. Vegy¨ uk ´eszre, hogy amennyiben egy A m´erhet˝ o ξ val´ osz´ın˝ us´egi v´ altoz´ onak az Ω halmaz egy B partici´oja felel 62
meg, akkor a T n ξ val´ osz´ın˝ us´egi v´ altoz´ onak a B partici´onak az e partici´o Bj halmazainak a T n transzform´ aci´o szerinti T −n Bj ˝ osk´epeib˝ol ´ all´ o T −n B particici´ o felel meg. Ha adva vannak az Ω halmaz valamely C1 , . . . , Ck partici´oi, akkor jel¨olje C1 ∧ · · · ∧ Ck e partici´ok k¨ oz¨ os finom´ıt´ as´at. Ez az ¨ osszes Cj1 (1)∩· · ·∩Cjk (k) alak´ u halmazb´ol a´ll, ahol Cjs (s) ∈ Cs , 1 ≤ s ≤ k. Ha a ξ, H(ξ) < ∞, val´ osz´ın˝ us´egi v´ altoz´ o a B partici´ot hat´arozza meg, akkor ezzel a jel¨ol´essel a (T n1 ξ, . . . , T nk ξ) vektornak a T −n1 B ∧ · · · ∧ T −nk B partici´o felel meg. Ha adva van az Ω halmaz egy olyan B = {B1 , B2 , . . . } partici´oja, amelyet egy ξ val´ osz´ın˝ us´egi v´ altoz´ o hat´aroz meg, akkor term´eszetes a B partici´o T shift szerinti entr´ opi´oj´at a 1 H(T, B) = lim H(B ∧ · · · ∧ T −(n−1) B) n→∞ n ´es H(B ∧ · · · ∧ T −(n−1) B) = H(ξ, T ξ, . . . , T n−1 ξ) = −
X
j1 ,...,jn
g(P (Bj1 ∩ · · · ∩ T −(n−1) Bjn ))
k´epletek seg´ıts´eg´evel defini´alni, ahol g(x) = x log x. Ekkor a H(T ) = sup H(T, B) B
k´eplet, ahol a szupr´emumot az Ω halmaz ¨ osszes v´eges ´es A m´erhet˝ o partici´oj´ara vessz¨ uk a T shift transzform´ aci´o el˝ obb bevezetett entr´ opi´aj´at adja. Megfogalmazom az entr´ opia invari´ ans tulajdons´ag´ ar´ ol sz´ol´ o eredm´enyt. T´ etel izomorf dinamikus rendszerek entr´ opi´ aj´ anak egyenl˝ os´ eg´ er˝ ol. Legyen ˜ ˜ ˜ ˜ (Ω, A, P, T ) ´es (Ω, A, P , T ) k´et izomorf invert´ alhat´ o dinamikus rendszer. Ekkor a T ´es T˜ shift transzform´ aci´ ok entr´ opi´ aja egyenl˝ o, azaz H(T ) = H(T˜). Bizony´ıt´ as. A jobb meg´ert´es ´erdek´eben tekints¨ uk el˝ osz¨ or azt a speci´ alis esetet, amikor ˜ a k´et dinamikus rendszer az (Ω, Ω, ϕ) h´armason kereszt¨ ul izomorf, ahol ϕ az Ω halmaz ˜ egy alkalmas k¨ olcs¨on¨ osen egy´ertelm˝ u lek´epez´ese a Ω halmazba. Azaz azt az esetet ˜ 0 , ϕ) h´armasban Ω0 = Ω ´es tekintj¨ uk, amikor az izomorfia definici´ oj´at biztos´ıt´ o (Ω0 , Ω ˜0 = Ω ˜ halmazokat v´ Ω alaszthatunk. Ebben az esetben az Ω halmaz egy A m´erhet˝ o B = {B1 , . . . , Br } v´eges partici´oj´anak ˜ ˜ ˜ feleltess¨ uk meg az Ω halmaz A m´erhet˝ o B = {ϕ(B1 ), . . . , ϕ(Br )} m´erhet˝ o partici´oj´at. Az izomorfia tulajdons´agai miatt ekkor tetsz˝oleges n sz´amra ´es 1 ≤ js ≤ r, 1 ≤ s ≤ n ˜j ∩ T˜−1 B ˜j ∩ · · · ∩ T˜−n B ˜j ). indexekre P (T −0 Bj0 ∩ T −1 Bj1 ∩ · · · ∩ T −n Bjn ) = P˜ (T˜−0 B 0 1 n Innen k¨ ovetkezik, hogy tetsz˝oleges A m´erhet˝ o (v´eges sok ´ert´eket felvev˝o) ξ val´ osz´ın˝ us´egi v´ altoz´ ohoz l´etezik olyan A˜ m´erhet˝ o (v´eges sok ´ert´eket felvev˝o) η val´ osz´ın˝ us´egi v´ altoz´ o, n n ˜ ˜ ˜ amelyre H(ξ, T ξ, . . . , T ξ) = H(η, T η, . . . , T η) minden n-re, ez´ert H(T, ξ) = H(T , η). ˜ Hasonl´ o ´ all´ıt´ as ´erv´enyes akkor is, ha az Ω halmaz ´es A m´erhet˝ o partici´ok illetve a Ω halmaz ´es A˜ m´erhet˝ o partici´ok szerep´et felcser´elj¨ uk. Ez´ert H(T ) = H(T˜). Az ´ altal´ anos esetben a fenti ´ervel´est kiss´e finom´ıtani kell. Szimmetria okokb´ ol ˜ el´eg azt bel´ atni, hogy H(T ) ≤ H(T ), ´es ehhez el´eg azt bebizony´ıtani, hogy ha η egy 63
˜ halmazon defini´alt v´eges sok ´ert´eket felvev˝o A˜ m´erhet˝ az Ω o val´ osz´ın˝ us´egi v´ altoz´ o, akkor l´etezik olyan az Ω halmazon defini´alt v´eges sok ´ert´eket felvev˝ o A m´erhet˝ o ξ val´ osz´ın˝ us´egi v´ altoz´ o, amelyre H(T, ξ) = H(T˜, η). S˝ot azt is feltehetj¨ uk, hogy az η ˜ halmaznak egy olyan {B ˜1 , . . . , B ˜r , B ˜r+1 } parval´ osz´ın˝ us´egi v´ altoz´ o n´ıv´ohalmazai az Ω r S ˜j = Ω ˜ 0 , ´es B ˜r+1 = Ω ˜ \Ω ˜ 0 . Vezess¨ tici´oj´at adj´ ak, amelyre B uk be az Ω halmazj=1
˜s ), ha 1 ≤ s ≤ r, ´es nak azt a {B1 , . . . , Br , Br+1 } partici´oj´at, amelyre Bs = ϕ−1 (B Br+1 = Ω \ Ω0 . Legyen ξ egy olyan val´ osz´ın˝ us´egi v´ altoz´ o, amelynek n´ıv´ohalmazai ezek a Bs , 1 ≤ s ≤ r + 1, halmazok. Azt ´ all´ıtom, hogy H(T, ξ) = H(T˜, η). S˝ot, az is igaz, hogy tetsz˝oleges n sz´amra H(ξ, T ξ, . . . , T n ξ) = H(η, T˜η, . . . , T˜n η). Ehhez azt kell ´eszrevenni, hogy az (5.2) azonoss´ag miatt P (ϕ−1 (C˜j0 ) ∩ T −1 ϕ−1 (C˜j1 ) ∩ · · · ∩ T −n ϕ−1 (C˜jn )) = P˜ (C˜j0 ∩ T˜−1 C˜j1 ∩ · · · ∩ T˜−n C˜jn ), ha 1 ≤ js ≤ r minden 1 ≤ s ≤ n indexre, ´es a bizony´ıtand´ o azonoss´agban szerepl˝o k´et entr´ opia ezen val´ osz´ın˝ us´egek f¨ uggv´enye. (Azokat a tagokat, amelyekben a C˜r+1 vagy Cr+1 esem´enyek szerepelnek elhagyhatjuk a megfelel˝ o entr´ opi´ak kisz´ amol´ as´aban, mert ez´ altal nulla val´ osz´ın˝ us´eg˝ u esem´enyek f¨ uggv´enyeit hagyjuk ki a megfelel˝ o entr´ opi´akat kifejez˝ o o¨sszegekb˝ ol. A t´etelt bel´ attuk. Annak ´erdek´eben, hogy a fenti t´etelt alkalmazni tudjuk sz¨ uks´eg¨ unk van olyan eredm´enyre, amely lehet˝ ov´e teszi azt, hogy egy invert´ alhat´ o dinamikus rendszer shift transzform´ aci´oj´anak az entr´ opi´aj´at kisz´ amoljuk. Egy ilyen eredm´eny megfogalmaz´as´anak az ´erdek´eben bevezetem a k¨ ovetkez˝ o definici´ ot. Egy val´ osz´ın˝ us´ egi v´ altoz´ o eltoltjai ´ altal gener´ alt σ-algebra definici´ oja. Legyen (Ω, A, P, T ) egy invert´ alhat´ o dinamikus rendszer, ´es ξ egy A m´erhet˝ o val´ osz´ın˝ us´egi j v´ altoz´ o. A ξ val´ osz´ın˝ us´egi v´ altoz´ o ´es a T shift a ´ltal gener´ alt σ-algebr´ an a T ξ, −∞ < j < ∞, val´ osz´ın˝ us´egi v´ altoz´ ok a ´ltal gener´ alt σ(T, ξ) = σ(T j ξ, −∞ < j < ∞), σ-algebr´ at ´ertj¨ uk. T´ etel egy dinamikus rendszerben defini´ alt val´ osz´ın˝ us´ egi v´ altoz´ ok entr´ opi´ aj´ anak az ¨ osszehasonl´ıt´ as´ ar´ ol. Legyen (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszer, ξ ´es η pedig k´et olyan A m´erhet˝ o val´ osz´ın˝ us´egi v´ altoz´ o, amelyek k¨ oz¨ ul ξ v´eges sok, η v´eges sok vagy megsz´ aml´ alhat´ oan v´egtelen sok ´ert´eket vesz fel, H(η) < ∞, ´es ξ σ(T, η) m´erhet˝ o val´ osz´ın˝ us´egi v´ altoz´ o. Ekkor H(T, ξ) ≤ H(T, η). K¨ ovetkezm´ eny. Legyen adva egy (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszer, ´es legyen η olyan az Ω halmazon defini´ alt v´eges sok ´ert´eket felvev˝ o val´ osz´ın˝ us´egi v´ altoz´ o, amelyre σ(T, η) = A. Ekkor H(T ) = H(T, η). Speci´ alisan, ha (Ω, A, P, T ) egy r ≥ 2 r P eg´esz sz´ ammal ´es pj ≥ 0, 1 ≤ j ≤ r, pj = 1, param´eterekkel meghat´ arozott Bernoulli j=1
rendszer, akkor H(T ) = −
r P
pj log pj .
j=1
A k¨ ovetkezm´eny bizony´ıt´ asa. A t´etel felt´eteleinek teljes¨ ul´ese eset´en H(T, ξ) ≤ H(T, η) minden v´eges sok ´ert´eket felvev˝o ´es A m´erhet˝ o ξ val´ osz´ın˝ us´egi v´ altoz´ ora. Ez´ert a H(T ) 64
entr´ opi´anak az (5.6) formul´ aban megadott definici´ oja szerint H(T, η) = H(T ). Egy Bernoulli rendszer eset´eben defini´aljuk az η(ω) = x0 , ha ω = (. . . , x−1 , x0 , x1 , . . . ) k´eplettel megadott val´ osz´ın˝ us´egi v´ altoz´ ot. Ekkor σ(T, η) = A, ez´ert H(T ) = H(T, η). Tov´ abb´a a Bernoulli rendszer definici´ oja miatt a T −n η, n = 0, ±1, . . . , val´ osz´ın˝ us´egi −n 1 v´ altoz´ ok f¨ uggetlenek (´es egyforma eloszl´ as´ uak), ez´ert H(η|T η, . . . , T η) = H(η), ´es r P H(T ) = h(T, η) = H(η) = − pj log pj . j=1
A fent megfogalmazott eredm´enyekb˝ ol k¨ ovetkezik, hogy k´et r, ´es p1 , . . . , pr illetve r¯ ´es p¯1 , . . . , p¯r param´eterekkel defini´alt Bernoulli rendszer csak akkor lehet izomorf, ha az r r¯ P P entr´ opi´ajuk egyenl˝o, azaz, ha pj log pj = p¯j log p¯j . K´es˝obb be fogom bizony´ıtani j=1
j=1
a k¨ ovetkezm´eny egy olyan ´ altal´ anos´ıt´ as´at, amely lehet˝ ov´e teszi a Bernoulli rendszerek izomorfi´ aj´ar´ ol sz´ol´ o eredm´eny ´ altal´ anos´ıt´ as´at olyan dinamikus rendszerekre is, amelyeket a Bernoulli rendszerekhez hasonl´oan defini´alunk, de megengedj¨ uk azt is, hogy a benne szerepl˝o r param´eter r = ∞ legyen. Ezel˝ ott azonban a shift transzform´ aci´o a´ltal gener´ alt σ-algebr´ar´ ol sz´ol´ o t´etel bizony´ıt´ as´at ismertetem.
El˝osz¨ or ´erts¨ uk meg e t´etel szeml´eletes tartalm´ at. Az entr´ opia szeml´eletesen azt adja meg, hogy egy val´ osz´ın˝ us´egi v´ altoz´ o megismer´es´ehez mennyi inform´ aci´o sz¨ uks´eges. Els˝o r´an´ez´esre azt v´ arn´ank, hogy ha adva van egy (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszer ´es egy ξ A m´erhet˝ o val´ osz´ın˝ us´egi v´ altoz´ o, akkor a ξ val´ osz´ın˝ us´egi v´ altoz´ o megismer´es´ehez sokkal kevesebb inform´ aci´o kell, mint p´eld´aul az η = (ξ, T ξ, . . . , T 1000 ξ) v´eletlen vektor megismer´es´ehez. Ez az elk´epzel´es azonban t´eves, mert nem a H(ξ) ´es H(η), hanem a H(T, ξ) ´es H(T, η) entr´ opi´akat kell ¨ osszehasonl´ıtanunk. Az ut´ obbi 1 1 n n+1000 ξ) entr´ opi´ak pedig nagy n entr´ opi´akat k¨ ozel´ıt˝ o n H(ξ, . . . , T ξ) ´es n H(ξ, . . . , T param´eterre m´ ar nagyon k¨ ozel vannak egym´ ashoz. A bizony´ıtand´ o t´etel az e p´elda a´ltal sugallt k´epnek felel meg. Azt ´ all´ıtja, hogy ahhoz, hogy egy ξ val´ osz´ın˝ us´egi v´ altoz´ ohoz tartoz´o ξ, T ξ, . . . sorozat tagjainak megismer´es´ehez sz¨ uks´eges H(T, ξ) inform´ aci´o ne legyen t¨obb, mint egy η val´ osz´ın˝ us´egi v´ altoz´ ohoz tartoz´o η, T η, . . . sorozat tagjainak megismer´es´ehez sz¨ uks´eges H(T, η) inform´ aci´o el´egs´eges azt feltenni, hogy ξ ∈ σ(T, η), azaz szeml´eletesen azt el˝ o´ırni, hogy a . . . , T −1 η, η, T η, . . . v´eletlen sorozat ismeret´eben ismerj¨ uk a ξ val´ osz´ın˝ us´egi v´ altoz´ ot is. A bizony´ıt´ asban sz¨ uks´eg¨ unk van egy olyan eredm´enyre, amely azt biztos´ıtja, hogy a ξ ∈ σ(T, η) esetben a ξ val´ osz´ın˝ us´egi v´ altoz´ o n´ıv´ohalmazait j´ ol tudjuk approxim´ alni a σ(T, η) σ-algebra bizonyos speci´ alis ´es k´enyelmesen haszn´ alhat´ o halmazaival. Ez´ert hasznos lesz sz´amunkra a k¨ ovetkez˝ o lemma. Lemma σ-algebra elemeinek j´ o approxim´ aci´ oj´ ar´ ol. Legyen adva egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ o, ´es jel¨ olje A∆B = (A\B)∪(B \A) k´et A ∈ A ´es B ∈ A halmaz szimmetrikus differenci´ aj´ at. Vezess¨ uk be a ρ(A, B) = P (A∆B), A ∈ A, B ∈ A, f¨ uggv´enyt. Ekkor ρ(A, B) pszeudo metrika, (ρ(A, B) ≥ 0, de lehets´eges, hogy ρ(A, B) = 0, noha A 6= B). Tov´ abb´ a ρ(A1 ∪ A2 , B1 ∪ B2 ) ≤ ρ(A1 , B1 ) + ρ(A2 , B2 ). Ha B ⊂ A egy halmaz algebra, ´es C = σ(B) a B halmaz algebra a ´ltal gener´ alt σ-algebra, akkor minden ε > 0 sz´ amhoz ´es C ∈ C halmazhoz l´etezik olyan B = B(ε, C) ∈ B halmaz, amelyre ρ(B, C) ≤ ε. 65
Bizony´ıt´ as. A ρ(·) f¨ uggv´eny pszeudo metrika, mert nyilv´an ρ(A, B) ≥ 0, ρ(A, B) = ρ(B, A), ´es a ρ(A, C) ≤ ρ(A, B) + ρ(B, C) rel´ aci´o is teljes¨ ul, mert mint k¨ onny˝ u ellenorizni, P (A \ C) ≤ P (A \ B) + P (B \ C), ´es P (C \ A) ≤ P (B \ A) + P (C \ B). ˝ Hasonl´ oan, ρ(A1 ∪A2 , B1 ∪B2 ) ≤ ρ(A1 , B1 )+ρ(A2 , B2 ), mert P ((A1 ∪A2 )\(B1 ∪B2 )) ≤ P (A1 \ B1 ) + P (A2 \ B2 ), ´es P ((B1 ∪ B2 ) \ (A1 ∪ A2 )) ≤ P (B1 \ A1 ) + P (B2 \ A2 ). A lemma utols´ o´ all´ıt´ as´anak igazol´as´ahoz egy C ∈ C halmaznak egy B ∈ B halmazzal val´ o j´ o approxim´ alhat´ os´ag´ ar´ ol vezess¨ uk be az Ω halmaz r´eszhalmazainak a k¨ ovetkez˝ oD oszt´aly´ at. D = {D: D ∈ A, minden ε > 0 sz´amhoz l´etezik olyan B ∈ B halmaz, amelyre P (B∆D) ≤ ε}. Azt kell megmutatni, hogy C ⊂ D. Mivel B ⊂ D, el´eg igazolni, hogy D σ-algebra, mert ez azt jelenti, hogy tartalmazza a B ´ altal gener´ alt σ-algebr´at. Nyilv´ anval´ o, hogy D ∈ D eset´en Ω \ D ∈ D, mert ha A ∈ A a D halmaznak j´ o k¨ ozel´ıt´ese a ρ t´avols´ ag szerint, akkor a P ((Ω \ D)∆(Ω \ A)) = P (D∆A) azonoss´ag miatt az Ω \ A ∈ A halmaz j´ o k¨ ozel´ıt´ese az Ω \ D halmaznak a ρ t´avols´ ag szerint. Azt kell m´eg ∞ S Dn ∈ D. bel´ atni, hogy amennyiben Dn ∈ D, minden n = 1, 2, . . . indexre akkor D = n=1
Ennek bizony´ıt´ asa ´erdek´eben tekints¨ unk egy r¨ogz´ıtett ε > 0 sz´amra egy olyan N S Dn halmazra P (D \ D(N ) ) ≤ 2ε . Ezenk´ıv¨ N = N (ε) indexet, amelyre a D(N ) = ul n=1
v´ alasszunk minden Dn halmazhoz egy olyan Bn ∈ B halmazt, amelyre P (Dn ∆Bn ) ≤ N S ε Bn halmazra B ∈ B. Ezenk´ıv¨ ul azt ´ all´ıtom, hogy P (B∆D) ≤ ε. . Ekkor a B = n+1 2
Val´ oban,
n=1
P (B∆D) ≤ P (B∆D
(N )
) + P (D \ D
(N )
)≤
N X
n=1
P (Bn ∆Dn ) + P (D \ D(N ) ) ≤ ε.
Mivel ilyen konstrukci´ o minden ε > 0-ra elv´egezhet˝ o, innen k¨ ovetkezik, hogy D ∈ D. A lemm´at bel´ attuk. A most bizony´ıtott lemma seg´ıts´eg´evel bel´ atjuk a k¨ ovetkez˝ o eredm´enyt. T´ etel v´ eges sok ´ ert´ eket felvev˝ o val´ osz´ın˝ us´ egi v´ altoz´ o j´ o approxim´ alhat´ os´ ag´ ar´ ol. Legyen adva egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ o, egy B ⊂ A halmaz algebra, ´es az Ω halmaznak egy olyan D v´eges sok elemb˝ ol a ´ll´ o partici´ oja, amely partici´ o elemei benne vannak a B algebra a ´ltal gener´ alt C = σ(B) σ-algebr´ aban. Ekkor minden ε > 0 sz´ amhoz l´etezik az Ω halmaznak egy olyan a B algebra v´eges sok elem´eb˝ ol a ´ll´ o E partici´ oja, amely j´ ol k¨ ozelıti a D partici´ ot a k¨ ovetkez˝ o ´ertelemben. Ha ξ olyan val´ osz´ın˝ us´egi v´ altoz´ o, amelynek adott ´ert´eket felvev˝ o n´ıv´ ohalmazai a D partici´ o elemei, ζ olyan val´ osz´ın˝ us´egi v´ altoz´ o, amelynek adott ´ert´eket felvev˝ o n´ıv´ ohalmazai a E partici´ o elemei, akkor a ξ val´ osz´ın˝ us´egi v´ altoz´ onak a ζ val´ osz´ın˝ us´egi v´ altoz´ o szerinti H(ξ|ζ) felt´eteles entr´ opi´ aja teljes´ıti a H(ξ|ζ) ≤ ε egyenl˝ otlens´eget. 66
A t´etel ´ all´ıt´ as´anak jobb meg´ert´ese ´erdek´eben tekints¨ uk a k¨ ovetkez˝ o p´eld´at. Legyen az (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ o a [0, 1) intervallum, rajta a Borel σ-algebr´aval ´es a Lebesgue m´ert´ekkel, mint val´ osz´ın˝ us´egi m´ert´ekkel. Tekints¨ uk ezen a t´eren azt a B algebr´ at, amelynek elemei olyan halmazok, amelyek v´eges sok balr´ol z´art, jobbr´ol ny´ılt, racion´alis v´egpont´ u√ intervallum uni´ ojak´ent ´ all´ıthat´ oak el˝ o. Vegy¨ uk ezenk´ıv¨ ul [0, 1) in√ 2 2 ol ´ all´ o D partici´oj´at. Ezen partervallum D1 = [0, 2 ), D2 = [ 2 , 1) intervallumokb´ tici´o elemei nincsenek benne a B algebr´aban, csak az ´ altala gener´ alt C σ-algebr´aban. Ez´ert egy olyan ξ val´ osz´ın˝ us´egi v´ altoz´ o, amelynek n´ıv´ohalmazai a D1 ´es D2 halmaz nem tekinthet˝ o u ´gy, mint egy olyan val´ osz´ın˝ us´egi v´ altoz´ o, amelynek n´ıv´ohalmazai a B algebr´aban vannak. De az j´ ol megk¨ ozel´ıthet˝ o egy ilyen val´ osz´ın˝ us´egi v´ altoz´ oval a k¨ ovetkez˝ o ´ertelemben. Minden ε > 0 sz´amhoz l´etezik az Ω halmaznak olyan B-beli halmazokb´ ol ´ all´ o v´eges (ak´ ar k´et elem˝ u) partici´oja u ´gy, hogy egy olyan ζ val´ osz´ın˝ us´egi v´ altoz´ ora, amelynek a n´ıv´ohalmazai ezen partici´o elemei H(ξ|ζ) < ε. A t´etel azt a´ll´ıtja, hogy hasonl´o eredm´eny ´erv´enyes ´ altal´ anosabb esetben is. ´ A t´etel bizony´ıt´ asa. Alljon a D partici´o valamely D1 , . . . , Dr elemekb˝ ol. Feltehetj¨ uk, hogy P (Di ) > 0 minden 1 ≤ i ≤ r indexre. El˝osz¨ or azt bizony´ıtom be, hogy minden (az ε > 0, r ´es P (Di ) > 0, 1 ≤ i ≤ r, sz´amokt´ ol f¨ ugg˝oen) el´eg kicsi δ > 0 sz´amra igaz a k¨ ovetkez˝ o ´ all´ıt´ as. Ha E1 , . . . , Er az Ω halmaz egy olyan partici´oja, amelyre P (Di ∆Ei ) ≤ δ minden 1 ≤ i ≤ r sz´amra, akkor egy olyan ξ, ζ val´ osz´ın˝ us´egi v´ altoz´ o p´arra, amelyek k¨ oz¨ ul a ξ val´ osz´ın˝ us´egi v´ altoz´ o n´ıv´ohalmazai a Di , a ζ val´ osz´ın˝ us´egi v´ altoz´o n´ıv´ohalmazai pedig az Ei halmazok, 1 ≤ i ≤ r, teljes¨ ul a H(ξ|ζ) < ε egyenl˝otlens´eg. Ezen ´ all´ıt´ as igazol´asa ´erdek´eben vezess¨ uk be a g(x) = x log x, ha x > 0, g(0) = 0, f¨ uggv´enyt. Mivel g(0) = g(1) = 0, g(x) folytonos f¨ uggv´eny, g(x) ≤ 0, ha 0 ≤ x ≤ 1, ε ez´ert l´etezik olyan δ0 > 0 sz´am, amelyre − r < g(x) ≤ 0, ha 0 ≤ x ≤ δ0 vagy 1 − δ0 ≤ x ≤ 1. A bizony´ıtand´ o ´ all´ıt´ as indokl´ asa azon az ´eszrev´etelen fog alapulni, hogy ha a P (Di ∆Ei ) val´ osz´ın˝ us´egek nagyon kicsik minden i indexre, akkor a P (Di |Ei ) felt´eteles val´ osz´ın˝ us´egek majdnem eggyel, ´es a P (Di |Ej ), i 6= j, felt´eteles val´ osz´ın˝ us´egek majdnem null´ aval egyenl˝oek. Ez´ert a g(P (Di |Ej )) mennyis´egek nagyon kicsik minden (i, j) p´arra. Mivel a minket ´erdekl˝ o felt´eteles entr´ opia fel´ırhat´ o ilyen kifejez´esek v´eges sok tagb´ ol a´ll´ o line´aris kombin´aci´ojak´ent, innen k¨ onnyen levezethet˝ o a k´ıv´ant egyenl˝otlens´eg. A r´eszletes bizony´ıt´ asban tekints¨ uk az Ω halmaz egy olyan E1 , . . . , Er partici´oj´at, δ0 amelyre P (Di ∆Ei ) ≤ δ a δ = 2 min P (Di ) sz´ammal minden 1 ≤ i ≤ r indexre. Ekkor, 0≤i≤r
i) ert P (Di ) ≤ 12 P (Ei ) mivel P (Di ) ≤ P (Ei )+P (Di ∆Ei ) ≤ P (Ei )+δ ≤ P (Ei )+ P (D 2 , ez´ minden 1 ≤ i ≤ r indexre. Innen P (Ei ) − P (Di ∩ Ei ) ≤ P (Di ∆Ei ) ≤ δ ≤ δ0 P (Ei ), teh´at P (Di |Ei ) ≥ 1 − δ0 minden 1 ≤ i ≤ r indexre, ´es P (Dj |Ei ) ≤ 1 − P (Di |Ei ) ≤ δ0 , ha i 6= j. Ez´ert − rε ≤ g(Di |Ej ) ≤ 0 minden 1 ≤ i, j ≤ r indexre, ´es k´et olyan ξ ´es ζ val´ osz´ın˝ us´egi v´ altoz´ ora, amelyeknek a Di illetve Ei , 1 ≤ i ≤ r, halmazok a n´ıv´ohalmazai
H(ξ|ζ) = −
r r X X i=1 j=1
P (Ej )g(P (Di |Ej ) ≤ −
r r X X
ε P (Ej ) = ε. r i=1 j=1
Ez´ert el´eg bel´ atni, hogy az Ω halmaznak l´etezik olyan E1 , . . . , Er a B algebra elemeib˝ol ´ all´ o partici´oja, amelyre P (Di ∆Ei ) ≤ δ minden 1 ≤ i ≤ r indexre. Ezt igazoland´ o 67
¯i ∈ B, 1 ≤ i ≤ r, halmazokat, amelyekre P (Di ∆E ¯i ) ≤ λ v´ alasszunk el˝ osz¨ or olyan E minden 1 ≤ i ≤ r indexre egy k´es˝obb megv´ alasztand´o el´eSg kis λ > 0 sz´ammal. Ez ¯i ∩ E ¯j ) halmazt, ´es lehets´eges az el˝ oz˝ o lemma szerint. Defini´ aljuk az N = (E 1≤i,j≤r, i6=j ¯i \ N , ha 1 ≤ i ≤ r − 1, ´es Er = Ω \ ( S Ei ). Ekkor E1 , . . . , Er az Ω legyen Ei = E 1≤i≤r−1
¯i ∩ E ¯ j ) ≤ P (E ¯i ∆Di ) + halmaz egy partici´oja a B algebra elemeivel. Tov´ abb´a, mivel P (E ¯j ∆Dj )) ≤ 2λ, P (N ) ≤ r(r − 1)λ, ez´ert P (Ei ∆E ¯i ) ≤ P (N ) ≤ r(r − 1)λ minden P (E ¯ ¯i ∆Di ) ≤ r(r − 1)λ + λ, ha 1 ≤ i ≤ r − 1 indexre, ahonnan P (Ei ∆Di ) ≤ P (Ei ∆Ei ) + P (E r P 1 ≤ i ≤ r − 1, ´es P (Er ∆Dr ) = P ((Ω \ Er )∆(Ω \ Dr )) ≤ P (Ei ∆Di ) ≤ r[r(r − 1) + 1]λ. i=1
Innen k¨ ovetkezik, hogy ha a λ > 0 sz´amot el´eg kicsinek v´ alasztjuk, akkor E1 , . . . , Er az Ω halmaz k´ıv´ant tulajdons´ag´ u partici´oj´at adja. A t´etelt bel´ attuk.
K¨ ovetkezm´ eny. Legyen adva egy (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszer, azon k´et ξ ´es η val´ osz´ın˝ us´egi v´ altoz´ o, amelyek k¨ oz¨ ul ξ v´eges sok η pedig vagy v´eges sok vagy megsz´ aml´ alhat´ oan v´egtelen sok ´ert´eket vesz fel. Legyen ezenk´ıv¨ ul a ξ val´ osz´ın˝ us´egi v´ altoz´ o m´erhet˝ o az η val´ osz´ın˝ us´egi v´ altoz´ o ´es T shift oper´ ator a ´ltal gener´ alt σ(T, η) σalgebr´ ara n´ezve. Ekkor minden ε > 0 sz´ amhoz l´etezik olyan M = M (ε, ξ, η) pozit´ıv eg´esz −M 0 sz´ am, amelyre H(ξ|T η, . . . , T η, . . . , T M η) ≤ ε. Bizony´ıt´ as. A bizony´ıt´ asban az el˝ oz˝ o t´etelt alkalmazzuk u ´gy, hogy az Ω halmaz D partici´oj´anak a ξ val´ osz´ın˝ us´egi v´ altoz´ o {ω: ξ(ω) = xj } alak´ u n´ıv´ohalmazait v´ alasztjuk, ´es az al´ abb defini´alt B halmaz algebr´aval dolgozunk. Jel¨olje Y az η val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ekk´eszlet´et, ´es adva k´et m ≥ 1 ´es n ≥ 1 sz´am defini´aljuk az Y (m,n) = {(yj−m , . . . , yjn ): yjs ∈ Y, −m ≤ s ≤ n} halmazt. Adva egy U ⊂ Y (m,n) halmaz, defini´aljuk az U halmaznak az η(ω) val´ osz´ın˝ us´egi v´ altoz´ o ´es a T shift oper´ ator hatv´anyai ´ altal meghat´ arozott ˝ osk´ep´et a Tm,n U = {ω: (T −m η(ω), . . . , T n η(ω)) ∈ U }
(m,n) k´eplet seg´ }. A B halmazrendszert a Sıts´eg´evel, ´es legyen Um,n = {Tm,n U : U ⊂ Y B= Um,n k´eplettel defini´aljuk. Nem neh´ez bel´ atni, hogy B halmaz algebra, ´es 1≤m,n<∞
az a´ltala gener´ alt σ(B) σ-algebra megegyezik a σ(T, η) σ-algebr´aval. Mivel felt´eteleink szerint ξ σ(T, η) m´erhet˝ o, ez´ert az el˝ oz˝ o t´etel alapj´ an minden ε > 0 sz´amra l´etezik az Ω halmaznak olyan a B algebra elemeib˝ ol ´ all´ o E v´eges partici´oja, amelyre igaz, hogy egy olyan ζ val´ osz´ın˝ us´egi v´ altoz´ ora, amelynek a a n´ıv´ohalmazai az E partici´o elemei H(ξ|ζ) ≤ ε. Mivel ζ v´eges sok ´ert´eket vesz fel, ´es minden ´ert´ek´et egy olyan halmazon veszi fel, amely eleme a Um,n halmazoszt´ alynak, ha m ≥ m0 ´es n ≥ n0 alkalmas m0 ´es n0 sz´amokkal, ez´ert l´etezik olyan M sz´am, ´es olyan g(u−M , . . . , u0 , . . . , uM ) f¨ uggv´eny, amelyekre ζ = g(T −M η, . . . , T 0 η, . . . , T M η). Ez´ert, illetve a felt´eteles entr´ opia tulajdons´agai alapj´ an ε ≥ H(ξ|ζ) ≥ H(ξ|ζ, T −M η, . . . , T 0 η, . . . , T M η) = H(ξ|T −M η, . . . , T 0 η, . . . , T M η). 68
Mivel ilyen konstrukci´ ot minden ε > 0 sz´amra tudunk csin´alni a k¨ ovetkezm´enyt bel´ attuk. A most igazolt k¨ ovetkezm´eny seg´ıt az al´ abbi bizony´ıt´ asban. Az egy dinamikus rendszerben defini´ alt val´ osz´ın˝ us´egi v´ altoz´ ok entr´ opi´ aj´ anak o ¨sszehasonl´ıt´ as´ ar´ ol sz´ ol´ o t´etel bizony´ıt´ asa. R¨ ogz´ıts¨ unk egy ε > 0 sz´amot, ´es v´ alasszunk egy olyan M > 0 eg´esz sz´amot, amelyre H(ξ|T −M η, . . . , T 0 η, . . . , T M η) ≤ ε. Az el˝ obb megfogalmazott K¨ ovetkezm´eny eredm´enye szerint ilyen M sz´am l´etezik. Ilyen v´ alaszt´assal ´erv´enyesek a k¨ ovetkez˝ o becsl´esek. H(T 0 ξ, . . . , T n−1 ξ) ≤ H(T 0 ξ, . . . , T n−1 ξ, T −M η, . . . , T n−1+M η) = H(T 0 ξ, . . . , T n−1 ξ|T −M η, . . . , T n−1+M η) + H(T −M η, . . . , T n−1+M η), ´es 0
H(T ξ, . . . , T
=
n−1 X j=0
n−1
ξ|T
−M
η, . . . , T
n−1+M
η) ≤
n−1 X
H(T j ξ|T −M η, . . . , T n−1+M η)
j=0
H(ξ|T −M −j η, . . . , T n−1+M −j η) ≤ nH(ξ|T −M η, . . . , T M η) ≤ nε.
Innen
1 1 H(T 0 ξ, . . . , T n−1 ξ) ≤ H(T −M η, . . . , T n−1+M η) + ε n n minden n ≥ 0 sz´amra, ahonnan n → ∞ hat´ar´ atmenettel kapjuk, hogy H(T, ξ) ≤ H(T, η) + ε. Mivel ez az egyenl˝otlens´eg minden ε > 0 sz´amra igaz, innen k¨ ovetkezik a t´etel ´ all´ıt´ asa. Bebizony´ıtottuk egy dinamikus rendszerben defini´alt val´ osz´ın˝ us´egi v´ altoz´ ok entr´opi´aj´anak ¨ osszehasonl´ıt´ as´ar´ ol sz´ol´ o t´etel egy k¨ ovetkezm´eny´et, amely lehet˝ ov´e tette bizonyos dinamikus rendszerek entr´ opi´aj´anak a kisz´ amol´ as´at. Ismertetem ennek az eredm´enynek egy enyhe ´ altal´ anos´ıt´ as´at, amely hasonl´o eredm´enyt fogalmaz meg nem felt´etlen¨ ul v´eges sok ´ert´eket felvev˝o val´ osz´ın˝ us´egi v´ altoz´ ok eset´eben. A bizony´ıt´ asban sz¨ uks´eg¨ unk van az al´ abbi lemm´ara, amely egy dinamikus rendszer entr´ opi´aj´anak egy az eredeti definici´ ot´ ol kiss´e elt´er˝ o jellemz´es´et adja. Lemma az entr´ opia jellemz´ es´ er˝ ol. Egy (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszer T shift transzform´ aci´ oj´ anak az entr´ opi´ aj´ at ki lehet fejezni az (5.6) kifejez´eshez hasonl´ o m´ odon, u ´gy mint H(T ) = sup H(T, ξ), ξ
ahol a szupr´emumot az o ¨sszes olyan A m´erhet˝ o ´es v´eges sok vagy megsz´ aml´ alhat´ oan v´egtelen sok ´ert´eket felvev˝ o ξ val´ osz´ın˝ us´egi v´ altoz´ ora vessz¨ uk, amelyekre H(ξ) < ∞. Bizony´ıt´ as. Legyen ξ olyan v´eges vagy megsz´ aml´alhat´ oan v´egtelen sok ´ert´eket felvev˝o A m´erhet˝ o val´ osz´ın˝ us´egi v´ altoz´ o, amelyre H(ξ) < ∞. A lemma bizony´ıt´ as´ahoz elegend˝ o 69
bel´ atni, hogy minden ε > 0 sz´amhoz l´etezik olyan v´eges sok ´ert´eket felvev˝o η = η(ε) val´ osz´ın˝ us´egi v´ altoz´ o, amelyre H(T, ξ) ≤ H(T, η) + ε. Azt mutatom meg, hogy l´etezik olyan v´eges sok ´ert´eket felvev˝o A m´erhet˝ o η val´ osz´ın˝ us´egi v´ altoz´ o, amelyre H(ξ|T ξ, . . . , T n ξ) ≤ H(η|T η, . . . , T n η) + ε minden n sz´amra, mert innen n → ∞ hat´ar´ atmenettel megkapjuk a k´ıv´ant egyenl˝otlens´eget. Ezen ´ all´ıt´ as igazol´asa ´erdek´eben jegyezz¨ uk meg, hogy mint az els˝ o fejezetben l´attuk l´etezik olyan v´eges sok ´ert´eket felvev˝o g(x) f¨ uggv´eny, amelyre az η = g(ξ) val´ osz´ın˝ us´egi v´ altoz´ o teljes´ıti a H(ξ) ≤ H(η) + ε egyenl˝otlens´eget. Ebb˝ ol az egyenl˝otlens´egb˝ol az is k¨ ovetkezik, hogy H(ξ|η) = H(ξ, η) − H(η) = H(ξ) − H(η) ≤ ε, ´es H(ξ|T ξ, . . . , T n ξ) = H(ξ, η|T ξ, . . . , T n ξ) = H(ξ|η, T ξ, . . . , T n ξ) + H(η|T ξ, . . . , T n ξ) ≤ H(ξ|η) + H(η|T η, . . . , T n η) ≤ H(η|T η, . . . , T n η) + ε, ´es ezt kellett bel´ atnunk. E sz´amol´ asban kihaszn´altuk, hogy mivel a (T η, . . . , T n η) = n (g(T ξ), . . . , g(T ξ)) v´eletlen vektor f¨ uggv´enye a (T ξ, . . . , T n ξ) v´eletlen vektornak, ez´ert H(η|T ξ, . . . , T n ξ) ≤ H(η|T η, . . . , T n η). Hasonl´ oan H(ξ|η, T ξ, . . . , T n ξ) ≤ H(ξ|η). A lemm´at bel´ attuk. Megfogalmazom az egy dinamikus rendszerben defini´alt val´ osz´ın˝ us´egi v´ altoz´ ok entr´opi´aj´anak ¨ osszehasonl´ıt´ as´ar´ ol sz´ol´ o t´etel k¨ ovetkezm´eny´enek az al´ abbi, az eredetin´el kiss´e ´elesebb v´ altozat´ at. T´ etel az entr´ opia egy tulajdons´ ag´ ar´ ol Legyen ξ egy olyan v´eges vagy megsz´ aml´ alhat´ oan v´egtelen sok ´ert´eket felvev˝ o val´ osz´ın˝ us´egi v´ altoz´ o egy (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszerben, amelyre H(ξ) < ∞, ´es σ(T, ξ) = A. Ekkor H(T ) = H(T, ξ). Bizony´ıt´ as. Az el˝ oz˝ o lemma alapj´ an H(T, ξ) ≤ H(T ). M´asr´eszt azt is l´attuk, hogy mivel σ(T, ξ) = A, ez´ert H(T, η) ≤ H(T, ξ) tetsz˝oleges v´eges sok ´ert´eket felvev˝o η val´ osz´ın˝ us´egi v´ altoz´ ora. Ez´ert H(T, ξ) = H(T ). Megjegyz´es. Az el˝ oz˝ o t´etelben megengedt¨ uk azt, hogy ξ v´egtelen sok ´ert´eket vegyen fel, de megk¨ ovetelt¨ uk a H(ξ) < ∞ rel´ aci´o teljes¨ ul´es´et. E n´elk¨ ul a felt´etel n´elk¨ ul az a´ll´ıt´ as nem igaz, amint a k¨ ovetkez˝ o egyszer˝ u p´elda mutatja. Legyen X egy megsz´ aml´alhat´ o halmaz, jel¨olje X az X halmaz r´eszhalmazaib´ ol ´ all´ o σ-algebr´at, ´es vezess¨ unk be az (X, X ) t´eren egy olyan P val´ osz´ın˝ us´egi m´ert´eket, amelyre a ξ(x) = x, x ∈ X, val´ osz´ın˝ us´egi v´ altoz´ o entr´ opi´aja H(ξ) = ∞. Ekkor tekinthetj¨ uk az (X, X , P, T ) invert´ alhat´ o dinamikus rendszert, ahol T az identit´ as oper´ ator. Nem neh´ez bel´ atni, hogy ebben a dinamikus rendszerben H(T, ξ) = ∞, m´ıg H(T ) = 0. A fenti vizsg´alatokban csak invert´ alhat´ o dinamikus rendszerekkel foglalkoztunk. Nem neh´ez a most bizony´ıtott t´etelhez hasonl´o eredm´enyt bizony´ıtani a´ltal´ anos, nem felt´etlen¨ ul invert´ alhat´ o dinamikus rendszerekre is, de ezek jelent˝os´ege kisebb. 70
´ Altal´ anos esetben az Egy dinamikus rendszerben defini´ alt val´ osz´ın˝ us´egi v´ altoz´ ok entr´ opi´ aj´ anak o ¨sszehasonl´ıt´ as´ ar´ ol sz´ol´ o t´etelnek azt a felt´etel´et, amely szerint a ξ val´ osz´ın˝ us´egi v´ altoz´ o σ(T, η) m´erhet˝ ou ´jra kell ´ertelmezni. Az ´ altal´ anos esetben a σ(T, η) σ-algebr´at u ´gy defini´aljuk, mint a T n ξ, n = 0, 1, 2 . . . , val´ osz´ın˝ us´egi v´ altoz´ ok a´ltal −n gener´ alt σ-algebr´at, hiszen a T , n = 1, 2, . . . oper´ atorokat nem mindig tudjuk definialni. Ez er˝ ´ osebb megszor´ıt´ ast jelent, mint az invert´ alhat´ o dinamikus rendszerek eset´eben megfogalmazott felt´etel. M´asr´eszt minden dinamikus rendszernek l´etezik u ´gynevezett term´eszetes kiterjeszt´ese, amely invert´ alhat´ o dinamikus rendszer. Az, hogy k´et kiterjesztett dinamikus rendszer term´eszetes kiterjeszt´ese izomorf legyen egym´ assal az eredeti dinamikus rendszerek izomorfi´ aj´anak sz¨ uks´eges, de nem el´egs´eges felt´etele. ´Igy p´eld´aul, ha vesz¨ unk k´et f´eloldali Bernoulli rendszert, akkor ezek term´eszetes kiterjeszt´ese k´et Bernoulli rendszer ugyanazokkal a param´eterekkel. A f´eloldali Bernoulli rendszerek izomorfi´ aj´ab´ ol azonnal k¨ ovetkezik azok term´eszetes kiterjeszt´es´enek az izomorfi´ aja, de ennek az a´ll´ıt´ asnak a megford´ıt´ asa nem igaz. Kieg´ esz´ıt´ es. Bernoulli rendszerek vizsg´ alat´ aban felmer¨ ult unit´er oper´ atorok izomorfi´ aj´ anak a vizsg´ alata. Invert´ alhat´ o dinamikus rendszerek izomorfi´ aj´anak vizsg´alat´aban felmer¨ ult a k¨ ovetkez˝ o gondolat. Ha adva van egy (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszer, akkor term´eszetes m´ odon defini´alhatjuk az (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ on defini´alt n´egyzetesen integr´alhat´ o f¨ uggv´enyek ´ altal meghat´ arozott L2 (Ω, A, P ) Hilbert t´eren a k¨ ovetkez˝ oU unit´er oper´ atort: U f (x) = f (T x) minden f ∈ L2 (Ω, A, P ) f¨ uggv´enyre. Nem neh´ez bel´ atni, hogy mivel T m´ert´ektart´ o ´es invert´ alhat´ o, ez´ert U val´ oban unit´er oper´ ator. Tov´ abb´a, ha k´et dinamikus rendszer izomorf, akkor az ´ altaluk meghat´ arozott U unit´er oper´ atorok is izomorfak, azaz ha (Ω1 , A1 , P1 , T1 ) ´es (Ω2 , A2 , P2 , T2 ) k´et izomorf invert´ alhat´ o dinamikus rendszer, ´es U1 ´es U2 a nekik megfelel˝ o unit´er oper´ ator, akkor az L2 (Ω1 , A1 , P1 ) ´es L2 (Ω2 , A2 , P2 ) Hilbert tereknek l´etezik egy olyan G izomorfi´ aja, amelyre G(U1 (f )) = U2 (G(f )) minden f ∈ L2 (Ω1 , A1 , P1 ) f¨ uggv´enyre.
Be lehet bizony´ıtani ezen eredm´eny seg´ıts´eg´evel, hogy bizonyos dinamikus rendszerek nem izomorfak. Felmer¨ ult az a k´erd´es, hogy ez az eredm´eny seg´ıts´eget ny´ ujt-e Bernoulli rendszerek izomorfi´ aj´anak a vizsg´alat´aban. Kider¨ ult, hogy a v´ alasz nemleges, mert b´armely k´et Bernoulli rendszerre az ´ altaluk a fenti m´ odon defini´alt U unit´er oper´ atorok izomorfak egym´ assal. Ismertetem ennek az ´ all´ıt´ asnak a bizony´ıt´ as´at. Az a´ll´ıt´ as pontos megfogalmaz´asa ´erdek´eben bevezetem a k¨ ovetkez˝ o jel¨ol´eseket. R¨ ogz´ıts¨ unk egy pozit´ıv eg´esz r sz´amot ´es r darab olyan pj > 0, 1 ≤ j ≤ r, sz´amot, r P ¯ A, P¯ ) val´ amelyekre pj = 1. Defini´ aljuk seg´ıts´eg¨ ukkel azt az (X, osz´ın˝ us´egi mez˝ ot, j=1
¯ = {1, . . . , r}, A az X ¯ halmaz ¨ amelyre X osszes r´eszhalmaz´ ab´ ol a´ll, ´es P¯ ({j}) = pj , ¯ 1 ≤ j ≤ r. Tekints¨ uk ennek a val´ osz´ın˝ us´egi mez˝ onek (Xl , Al , P¯l ) p´eld´anyait minden l = 0, ±1, ±2, . . . eg´esz sz´amra, ´es vegy¨ uk ezek (X, A, P ) direkt szorzat´at. Azaz a´lljon az X halmaz az ¨ osszes x = (. . . , i−1 , i0 , i1 , . . . ), ij ∈ {1, . . . , r} minden −∞ < j < ∞ indexre, sorozatb´ ol, legyen A a Al σ-algebr´ak, P a P¯l m´ert´ekek direkt szorzata az X 71
t´eren, l = . . . , −1, 0, 1, . . . . Speci´alisan minden m ≥ 0, n ≥ 0 sz´amp´ arra P (x: {x = n Q (. . . , i−1 , i0 , i1 , . . . ): il = jl , ha − m ≤ l ≤ n}) = p(jl ), ha 1 ≤ jl ≤ r minl=−m
den −m ≤ l ≤ n indexre. Defini´ aljuk tov´ abb´a egy x = (. . . , i−1 , i0 , i1 , i2 , . . . ) ∈ X pont T x eltoltj´ at a T x = (. . . , i−2 , i−1 , i0 , i1 , . . . ) k´eplettel, ´es adva egy f (x) (m´erhet˝ o) f¨ uggv´eny az (X, A, P ) t´eren legyen U f (x) = f (T x). Nem neh´ez bel´ atni, hogy ha az U transzform´ aci´o ´ertelmez´esi tartom´any´ at megszor´ıtjuk az (X, A, P ) t´eren n´egyzetesen integr´alhat´ o f¨ uggv´enyekre, akkor U egy unit´er transzform´ aci´o az L2 (X, A, P ) Hilbert t´erben. Igaz tov´ abb´a az al´ abbi t´etel.
T´ etel unit´ er oper´ atorok izomorfi´ aj´ ar´ ol. Tekints¨ uk minden r = 1, 2, . . . sz´ amra ´es r P pj > 0, pj = 1, 1 ≤ j ≤ r, vektorra az el˝ obb bevezetett L2 (X, A, P ) Hilbert teret ´es a j=1
rajta defini´ alt U unit´er oper´ atort. Ezek az oper´ atorok izomorfak az r ´es pj , 1 ≤ j ≤ r, sz´ amok tetsz˝ oleges v´ alaszt´ asa eset´en.
A bizony´ıt´ as l´enyeges r´esze az L2 (X, A, P ) Hilbert t´er egy olyan ortonorm´alt b´azis´ anak a megad´asa, amelyben az U oper´ ator hat´asa j´ ol l´athat´ o. Ennek ´erdek´eben ¯ A, P¯ ) teret, tekints¨ uk az (X, A, P ) val´ osz´ın˝ us´egi mez˝ o definici´ oja sor´ an bevezetett (X, illetve az ezen t´eren ´ertelmezett f¨ uggv´enyek r-dimenzi´os K(r) Euklideszi ter´et a (ϕ, ψ) = r P pj xj yj , ha ϕ = (x1 , . . . , xr ) ∈ K(r), ψ = (y1 , . . . , yr ) ∈ K(r) skal´ ar szorzatttal. j=1
V´alasszunk a K(r) Euklideszi t´erben egy olyan (ϕ1 , . . . , ϕr ) ortonorm´alt b´azist, amelynek els˝ o eleme ϕ1 = (1, . . . , 1), az {1, . . . , r} halmazon defini´alt azonosan 1 f¨ uggv´eny. Jel¨olje V az ¨ osszes olyan v = (vl , −∞ < l < ∞) sorozat ter´et, amelyre vl ∈ {1, . . . , r} minden −∞ < l < ∞ indexre, ´es a v sorozat elemei csak v´eges sok 1-t˝ ol k¨ ul¨ onb¨oz˝ o koordin´ at´ at tartalmaznak. Bevezetem a k¨ ovetkez˝ o uv a v ∈ V sorozatokkal indexelt ∞ Q az (X, A, P ) t´eren defini´alt f¨ uggv´enyeket: uv (. . . , i−1 , i0 , i1 , . . . ) = ϕvl (il ). Ezek l=−∞
a szorzatok j´ ol defini´altak, mert csak v´eges sok t´enyez˝ ob˝ ol ´ allnak. Ugyanis ϕvl (il ) = ϕ1 (il ) = 1 v´eges sok l index kiv´etel´evel. A k¨ ovetkez˝ o lemm´at fogom bebizony´ıtani.
Lemma ortonorm´ alt b´ azisok l´ etez´ es´ er˝ ol. Az el˝ obb defini´ alt uv (·), v ∈ V , f¨ uggv´enyek egy¨ uttese teljes ortonorm´ alt rendszert alkot az L2 (X, A, P ) t´erben. A lemma bizony´ıt´ asa. K¨ onnyen l´athat´ o, hogy az uv (·), v ∈ V , f¨ uggv´enyek ortonorm´ altak. Ugyanis v´eve k´et v = (. . . , v−1 , v0 , v1 , . . . ) ∈ V ´es v¯ = (. . . , v¯−1 , v¯0 , v¯1 , . . . ) ∈ ∞ Q V vektort ´es egy x ∈ X pontot, fel´ırhatjuk az uv (x)uv¯ (x) = ϕvl (x(l))ϕv¯l (x(l)) l=−∞
azonoss´agot, ahol x(l) = il , ha x = (. . . , −i1 , i0 , i0 , . . . ). Teh´ at az uv (x)uv¯ (x) kifejez´es faktoriz´ al´ odik. S˝ot ez a szorzat csak v´eges sok tagb´ ol ´ all, mert ϕvl (x) = ϕ1 (x) ≡ 1, ´es ϕv¯l (x) = ϕ1 (x) ≡ 1 v´eges sok l index kiv´etel´evel. A P val´ osz´ın˝ us´egi m´ert´ek szint´en faktoriz´ al´ odik, ´es innen azt kapjuk, hogy Z ∞ Z Y (uv , uv¯ ) = uv (x)uv¯ (x)P ( dx) = ϕvl (x(l))ϕv¯l (x(l))P¯l ( dx(l)) l=−∞
72
=
∞ Y
l=−∞
r X
pi ϕvl (i)ϕv¯l (i)
i=1
!
=
∞ Y
δ(vl , v¯l ) = δ(v, v¯),
l=−∞
ahol δ(i, j) = 0, ha i 6= j, δ(i, j) = 1, ha i = j, ´es hasonl´oan δ(v, v¯) = 0, ha v 6= v¯, ´es δ(v, v¯) = 1, ha v = v¯. Adva k´et m > 0 ´es n > 0 eg´esz sz´am jel¨olje Qm,n az L2 (X, A, P ) Hilbert t´er azon alter´et, amely az olyan u(x), x ∈ X, f¨ uggv´enyekb˝ ol ´ all, amelyek az x = (. . . , i1 , i0 , i1 , . . . ) argumentumnak csak az ij , −m ≤ j ≤ n, koordin´ at´ ait´ ol f¨ uggnek, ´es jel¨olje Vm,n ⊂ V azon v = (vl , −∞ < l < ∞) ∈ V sorozatok halmaz´ at, amelyekre vl = 1, ha l < −m vagy l > n. Ekkor az uv (·), v ∈ Vm,n f¨ uggv´enyek (rn+m+1 elemb˝ol a´ll´ o) rendszere n+m+1 egy teljes ortonorm´alt rendszert alkot a Qm,n (r dimenzi´ os) Euklideszi t´erben. Ez´ert annak bizony´ıt´ as´ahoz,hogy az uv (·), v ∈ V , f¨ uggv´enyek teljes ortonorm´alt rendszert Salkotnak az L2 (X, A, P ) Hilbert t´erben el´eg azt megmutatni, hogy a Qm,n alterek Qm,n uni´oja minden¨ utt s˝ ur˝ u halmaz az L2 (X, A, P ) Hilbert t´erben. S˝ot, ezt 0<m,n<∞ S arra az ´ all´ıt´ asra lehet reduk´ alni, hogy a B = Am,n halmaz, ahol Am,n a Qm,n 0<m,n<∞
alt´er f¨ uggv´enyeinek n´ıv´ohalmazai ´ altal gener´ alt σ-algebra, s˝ ur˝ u az A σ-algebr´aban. Ez azt jelenti, hogy minden ε > 0 sz´amhoz ´es A ∈ A halmazhoz l´etezik olyan B ∈ B halmaz, amelyre P (A∆B) < ε. (Itt A∆B az A ´es B halmaz szimmetrikus differenci´aj´at jel¨oli.) Ugyanis innen k¨ ovetkezik, hogy v´eges uggv´eny´enek a S sok Ai ∈ A halmaz indik´ator f¨ Qm,n f¨ uggv´enyhalmaznak (az L2 norma szeline´aris kombin´aci´oja benne van a 0<m,n<∞
rinti) lez´ artj´ aban. De akkor az ilyen alak´ u f¨ uggv´enyek lez´artja, ami egyenl˝o L2 (X, A, P ) Hilbert t´errel, szint´en benne van ebben a f¨ uggv´enyoszt´alyban.
Viszont az, hogy a B halmazoszt´ aly s˝ ur˝ u a A σ-algebr´aban k¨ ovetkezik a Lemma σ-algebra elemeinek j´ o approxim´ aci´ oj´ ar´ ol eredm´eny´eb˝ ol. Ugyanis B halmaz algebra, ´es A az ´ altala gener´ alt σ-algebra. A lemm´at bel´ attuk. Bel´ atjuk a t´etelt ezen lemma seg´ıts´eg´evel. ´ Az unit´er oper´ atorok izomorfi´ aj´ ar´ ol sz´ ol´ o t´etel bizony´ıt´ asa. Alljon a V0 ⊂ V halmaz azon v = (vl , −∞ < l < ∞) ∈ V sorozatokb´ol, amelyekre vl = 1, ha l < 0, ´es v0 6= 1. A V0 halmaz megsz´ aml´alhat´ o, ez´ert megadhat´ o V0 = {v (1) , v (2) , . . . } alakban. Defini´ aljuk az un = uv(n) ∈ L2 (X, A, P ), n = 1, 2, . . . , f¨ uggv´enyeket, ´es ezenk´ıv¨ ul az u0 = uv(0) f¨ uggv´enyt, ahol v (0) = (vl = 1, −∞ < l < ∞) ∈ V , azaz a csupa 1 koordin´ at´ ab´ ol a´ll´ o (o) k v ∈ V sorozat. Defini´ aljuk a T v (shift) transzform´ aci´ot minden v ∈ V sorozatra ´es −∞ < k < ∞ sz´amra a T k v = (vl−k , −∞ < l < ∞), ha v = (vl , −∞ < l < ∞) k´eplet seg´ıts´eg´evel. Tov´ abb´a vezess¨ uk be a k¨ ovetkez˝ o jel¨ol´eseket. Defini´ aljuk az un,k = uT k v(n) f¨ uggv´enyeket minden n = 1, 2, . . . ´es −∞ < k < ∞ sz´amp´ arra. (Teh´ at speci´ alisan ∞ S un = un,0 ). Ekkor nem neh´ez bel´ atni, hogy mivel V \ {v (0) } = {T k v, v ∈ V0 }, ´es k=−∞
(0)
ebben az uni´oban minden v ∈ V \{v } vektor pontosan egyszer van felsorolva. Ez´ert az u0 , un,k , 1 ≤ n < ∞, −∞ < k < ∞, f¨ uggv´enyrendszer megegyezik az el˝ oz˝ o lemm´aban tekintett uv (·), v ∈ V , f¨ uggv´enyek rendszer´evel, ´es teljes ortonorm´alt rendszert alkot. 73
Tov´abb´a U u0 = u0 , ´es U un,k = un,k+1 minden 1 ≤ n < ∞ ´es −∞ < k < ∞ indexekre. Az U transzform´ aci´o ezen jellemz´es´enek seg´ıts´eg´evel k¨ onnyen be tudjuk l´atni a t´etelt. Tekints¨ unk egy H szepar´ abilis Hilbert teret valamely ortonorm´alt b´azissal, amelynek elemeit indexelj¨ uk az el˝ oz˝ oleg vizsg´alt esethez hasonl´oan u ´gy, hogy g0 , gn,k , 1 ≤ ¯ oper´ n < ∞, −∞ < k < ∞. Defini´ aljuk a H Hilbert t´eren a k¨ ovetkez˝ o U atort: ¯ g0 = g 0 , U ¯ gn,k = gn,k+1 , ha 1 ≤ n < ∞, −∞ < k < ∞. Nem neh´ez bel´ U atni, hogy ¯ unit´er oper´ ¯ −1 gn,k = gn,k−1 , ´es U ¯ −1 g0 = g0 .) Tov´ U ator. (U abb´a a G: un,k → gn,k , 1 ≤ n < ∞, −∞ < k < ∞ ´es G: u0 → g0 lek´epez´es az L2 (X, A, P ) t´ernek ´es a H ¯ unit´er oper´ Hilbert t´ernek egy olyan izomorfi´ aj´at defini´alja, amely az U ´es U atorok ¯ izomorfi´ aj´at is biztos´ıtja. Mivel az ebben az izomorfi´ aban szerepl˝o H Hilbert t´er ´es U oper´ ator megv´ alaszt´ asa nem f¨ ugg¨ott az (X, A, P, T ) Bernoulli rendszer definici´ oj´aban szerepl˝o r ´es pj , 1 ≤ j ≤ r, param´eterekt˝ ol, innen k¨ ovetkezik a t´etel a´ll´ıt´ asa. Megjegyz´es. Kidolgozt´ ak a Hilbert t´eren defini´alt unit´er (vagy o¨nadjung´ alt, vagy a´ltal´ anosabban u ´gynevezett norm´ alis) oper´ atorok spektr´ al elm´elet´et, amely j´ ol le´ırja az ´ uk meg, hogyan ´ırja le ezen elm´elet az egy Bernoulli ilyen oper´ atorok szerkezet´et. Erts¨ rendszerben el˝ obb defini´alt ´es vizsg´alt U unit´er oper´ atort. Annak ´erdek´eben, hogy jobban meg´erts¨ uk egy Hilbert t´eren defini´alt oper´ ator viselked´es´et, ´erdemes a Hilbert teret felbontani az oper´ ator invari´ ans altereinek direkt ¨ osszeg´ere. Az el˝ oz˝ o t´etelben tulajdonk´eppen egy ilyen felbont´ast konstru´ altunk. Az L2 (X, A, P ) teret felbontottuk K0 , K1 , . . . ortogon´ alis U -invari´ ans alterek o¨sszeg´ere a k¨ ovetkez˝ o m´ odon. K0 az u0 vektor ´ altal gener´ alt (1 dimenzi´ os) alt´er, Kn pedig az un,k , k = 0, ±1, ±2, . . . , vektorok ´ altal gener´ alt alt´er minden n = 1, 2, . . . sz´amra. Az U oper´ ator megszor´ıt´ as´at a Kn alt´erre az U un,k = un,k+1 , k = 0, ±1, ±2 . . . , k´eplet ´ defini´alja. Erdemes megjegyezni, hogy az U oper´ ator megszor´ıt´ asa valamelyik Kn ¯ alt´erre izomorf a k¨ ovetkez˝ o U oper´ atorral. Tekints¨ uk a G = L2 ([0, 1), B, λ) Hilbert teret, ahol B a Borel σ-algebra, λ pedig a Lebesgue m´ert´ek a [0, 1) intervallumon. Defini´ aljuk i2πx ¯ az U oper´ atort, mint az f (x) = e f¨ uggv´ennyel val´ o szorz´ast a G Hilbert t´erben, ¯ g(x) = ei2πx g(x), ha g(x) ∈ L2 ([0, 1), B, λ). Ekkor felhaszn´alva, hogy a azaz legyen U gk (x) = ei2πkx , k = 0, ±1, . . . , f¨ uggv´enyek egy teljes ortonorm´alt rendszert alkotnak az ¯ gk = gk+1 minden k = 0, ±1, ±2, . . . indexre, meg tudjuk L2 ([0, 1), B, λ) t´erben, ´es U mutatni, hogy az un,k → gk , k = 0, ±1, ±2, . . . , lek´epez´es izomorfi´ at l´etes´ıt az Kn ´es ¯ G Hilbert terek ´es a rajtuk defini´alt U ´es U unit´er oper´ atorok k¨ oz¨ ott. Ezt a t´enyt felhaszn´alva a k¨ ovetkez˝ o az L2 (X, A, P ) Hilbert t´errel ´es U unit´er oper´ atorral izomorf + rendszert tudjuk defini´alni. Vegy¨ uk az L2 ([0, ∞), B, λ ) Hilbert teret, ahol B a Borel σ-algebra [0, ∞) f´elegyenesen, λ+ a Lebesgue m´ert´ek a [0, ∞) f´elegyenesen plusz a {0} pontba koncentr´ alt egys´eg m´ert´ek. Akkor az f (x) = ei2πx f¨ uggv´ennyel val´ o szorz´as az + L2 ([0, ∞), B, λ ) t´erben izomorf az U oper´ atorral. Ez az ´ all´ıt´ as tekinthet˝ ou ´gy is, mint az U oper´ ator implicit m´ odon megadott spektr´ al el˝ o´all´ıt´ asa.
74
6. A Shannon–McMillan–Breiman t´ etel. Ebben a fejezetben a Shannon–McMillan–Breiman t´etelt, az inform´ aci´oelm´elet egyik klasszikus eredm´eny´et ismertetem. Ez az eredm´eny nagy n sz´amokra hasznos jellemz´est ad egy v´eges vagy megsz´ aml´alhat´ o sok ´ert´eket felvev˝o, diszkr´et idej˝ u stacion´arius sztochasztikus folyamat n hossz´ us´ ag´ u szeleteinek tipikus ´ert´ekeire. A t´etel megfogalmaz´asa ´erdek´eben felid´ezek el˝ obb n´eh´ any fontos fogalmat ´es eredm´enyt. Diszkr´ et idej˝ u stacion´ arius sztochasztikus folyamat definici´ oja. Legyen adva ξn , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ ok egy sorozata egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ on. Azt mondjuk, hogy ez a sorozat diszkr´et idej˝ u stacion´ arius sztochasztikus folyamat, ha minden −∞ < n1 < n2 < · · · < nk < ∞ ´es m ≥ 1 eg´esz sz´ amokra a (ξn1 , ξn2 , . . . , ξnk ) ´es (ξn1 +m , ξn2 , . . . , ξnk +m ) v´eletlen vektorok eloszl´ asa megegyezik. A diszkr´et idej˝ u stacion´arius sztochasztikus folyamatok ´es az invert´ alhat´ o dinamikus rendszerek szoros kapcsolatban ´ allnak egym´ assal. Ha vesz¨ unk egy dinamikus rendszerben egy ξ(ω) val´ osz´ın˝ us´egi v´ altoz´ ot ´es annak ¨ osszes ξn (ω) = T n ξ(ω) = ξ(T n (ω), n = 0, ±1, ±2, . . . , eltoltj´ at, akkor ezen eltoltak sorozata egy diszkr´et idej˝ u stacion´arius sztochasztikus folyamat. Ennek igazol´as´ahoz azt kell meg´erteni, hogy {ω: (ξ(T n1 +m (ω), . . . , T nk +m (ω)) ∈ A} = T −m {ω: (ξ(T n1 (ω), . . . , T nk (ω)) ∈ A}, ´es T m´ert´ektart´ o lek´epez´es. Az´ert, hogy az el˝ oz˝ o´ all´ıt´ as megford´ıt´ as´at is megfogalmazzam, defini´alni fogok u ´gynevezett speci´alis dinamikus rendszereket, amelyek invert´ alhat´ o dinamikus rendszerek, ´es defini´alni fogok minden speci´alis dinamikus rendszerre ξ¯n , osz´ın˝ us´egi v´ altoz´ oknak egy sorozat´at, amelyet e rendξ¯n = T n ξ¯0 , −∞ < n < ∞, val´ szer ´ altal induk´ alt sorozatnak fogok nevezni. A fenti k´epletben T n a tekintett speci´ alis dinamikus rendszer shift transzform´ aci´oj´anak az n-ik hatv´anya. Meg fogom mutatni, hogy minden ξn , −∞ < n < ∞, diszkr´et idej˝ u stacion´arius sztochasztikus folyamathoz tudunk egy olyan speci´ alis dinamikus rendszert konstru´ alni, amelyre az a´ltala induk´ alt n¯ ¯ ¯ osz´ın˝ us´egi v´ altoz´ ok sorozat´anak ´es az eredeti ξn , −∞ < n < ∞, ξn , ξn = T ξ0 , val´ val´ osz´ın˝ us´egi v´ altoz´ o sorozatnak az eloszl´ asa megegyezik. Az ´ all´ıt´ as pontos megfogalmaz´ as´anak az ´erdek´eben bevezetem a k¨ ovetkez˝ o definici´ ot. Speci´ alis dinamikus rendszerek ´ es ´ altaluk induk´ alt val´ osz´ın˝ us´ egi v´ altoz´ ok ±∞ sorozat´ anak a definici´ oja. Jel¨ olje R az R sz´ amegyenes (pozit´ıv vagy negat´ıv) eg´esz sz´ amokkal indexelt p´eld´ anyainak a direkt szorzat´ at, azaz az x = (. . . , x−1 , x0 , x1 , . . . ) k´et ir´ anyban v´egtelen, val´ os sz´ amokb´ ol a ´ll´ o sorozatok halmaz´ at, ´es jel¨ olje B±∞ a Borel σ±∞ algebr´ at az R halmazon. Vezess¨ uk be a (baloldali eltol´ ast jelent˝ o) T x = T (. . . , x−1 , x0 , x1 , . . . ) = (. . . , x−2 , x−1 , x0 , . . . ),
x ∈ R±∞
shift transzform´ aci´ ot az R±∞ t´eren. Egy P¯ val´ osz´ın˝ us´egi m´ert´eket az (R±∞ , B±∞ ) −1 t´eren T invari´ ansnak nevez¨ unk, ha P¯ (T (A)) = P¯ (A) minden A ∈ B±∞ halmazra. Egy (R±∞ , B±∞ , P¯ , T ) rendszert a fent defini´ alt R±∞ , B±∞ , P¯ ´es T menyis´egekkel, ahol P¯ T invari´ ans val´ osz´ın˝ us´egi m´ert´ek az (R±∞ , B±∞ ) t´eren speci´ alis dinamikus 75
rendszernek nevez¨ unk. Adva egy (R±∞ , B±∞ , P¯ , T ) speci´ alis dinamikus rendszer, a ξ¯n (x) = xn , −∞ < n < ∞, x = (. . . , x−1 , x0 , x1 , . . . ), val´ osz´ın˝ us´egi v´ altoz´ ok sorozat´ at a rendszer a ´ltal induk´ alt val´ osz´ın˝ us´egi v´ altoz´ ok sorozat´ anak fogjuk nevezni. (Nyilv´ an ξ¯n (x) = ξ¯0 (T n x)) minden x ∈ R±∞ pontra ´es n = 0, ±1, . . . sz´ amra.) Nem neh´ez l´atni, hogy egy speci´alis dinamikus rendszer invert´ alhat´ o dinamikus rendszer. Tov´ abb´a igaz a k¨ ovetkez˝ o lemma. Lemma diszkr´ et idej˝ u stacion´ arius sztochasztikus folyamatok ´ es invert´ alhat´ o dinamikus rendszerek kapcsolat´ ar´ ol. Legyen (Ω, A, P, T ) invert´ alhat´ o dinamikus rendszer, ´es ξ egy az (Ω, A, P ) mez˝ on ´ertelmezett val´ osz´ın˝ us´egi v´ altoz´ o. Ekkor a ξn = T n ξ, n = . . . , −1, 0, 1, . . . , val´ osz´ın˝ us´egi v´ altoz´ ok sorozata egy diszkr´et idej˝ u stacion´ arius sztochasztikus folyamat. Megford´ıtva, minden ξn , −∞ < n < ∞, diszkr´et idej˝ u stacion´ arius sztochasztikus ±∞ ±∞ ¯ folyamathoz l´etezik olyan (R , B , P , T ) speci´ alis dinamikus rendszer, amelyre a speci´ alis dinamikus rendszer a ´ltal induk´ alt ξ¯n , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ ok sorozat´ anak ´es a ξn , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ o sorozatnak az eloszl´ asa megegyezik. Bizony´ıt´ as. A lemma els˝ o fele nyilv´anval´ o. A lemma m´ asodik fel´enek a bizony´ıt´ as´aban ±∞ ±∞ ¯ defini´alni kell a lemma felt´eteleit kiel´eg´ıt˝ o (R , B , P , T ) speci´ alis dinamikus rendszert. Ebben a definici´ oban a P¯ val´ osz´ın˝ us´egi m´ert´eket kell alkalmas m´ odon megadni. Ennek ´erdek´eben tekints¨ uk azt az (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ ot, ahol a ξn (ω) val´ osz´ın˝ us´egi v´ altoz´ ok vannak defini´alva, ´es defini´aljuk a k¨ ovetkez˝ o U : Ω → R±∞ (m´erhet˝ o) ¯ lek´epez´est: U (ω) = (. . . , ξ−1 (ω), ξ0 (ω), ξ1 (ω), . . . ). Legyen P a P m´ert´ek ezen U transzform´aci´o szerinti ˝ osk´epe az (R±∞ , B±∞ ) t´eren, azaz legyen P¯ (A) = P ({ω: U (ω) ∈ A}) ±∞ minden A ∈ B halmazra. Meg fogjuk mutatni, hogy a ξn , −∞ < n < ∞, sorozat stacionarit´ as´ab´ ol k¨ ovetkezik, hogy a P¯ m´ert´ek T invari´ ans, azaz (R±∞ , B±∞ , P¯ , T ) ezzel a P¯ m´ert´ekkel val´ oban speci´ais dinamikus rendszer. Tov´ abb´a a P¯ m´ert´ek definici´ oj´ab´ ol ¯ az is k¨ ovetkezik, hogy a ξn , −∞ < n < ∞, ´es a ξn , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ ok sorozatainak az egy¨ uttes eloszl´ asai megegyeznek. Be kell m´eg l´atni, hogy a P¯ m´ert´ek val´ oban T invari´ ans, azaz defini´alva a Q(A) = −1 P¯ (T A), A ∈ B±∞ , m´ert´eket P¯ (A) = Q(A) minden A ∈ B±∞ halmazra. Ez az azonoss´ag igaz a ξn , n = . . . , −1, 0, 1, . . . , val´ osz´ın˝ us´egi v´ altoz´ o sorozat stacionarit´ asa ±∞ miatt a k¨ ovetkez˝ o speci´ alis alak´ uA∈B (henger)halmazokra. A = A(n1 , . . . , nk , B) = {x = (. . . , x1 , x0 , x1 , . . . ): (xn1 , . . . , xnk ) ∈ B},
ahol n1 , . . . , nk tetsz˝oleges eg´esz sz´amok, ´es B tetsz˝oleges Borel m´erhet˝ o halmaz az Rk k-dimenzi´os Euklideszi t´erben. Ugyanis P¯ (A) = P ((ξn1 , . . . , ξnk ) ∈ B), ´es Q(A) = P ((ξn1 +1 , . . . , ξnk +1 ) ∈ B) ebben az esetben. Viszont az ilyen alak´ u halmazok egy olyan halmaz algebr´at alkotnak, amely gener´ alja a B±∞ σ-algebr´at. Mivel egy m´ert´ek kiterjeszt´ese egy halmaz algebr´ar´ ol az ´ altala gener´ alt σ-algebr´ara egy´ertelm˝ u, innen k¨ ovetkezik, hogy P¯ (A) = Q(A) minden A ∈ B±∞ halmazra, amint azt a´ll´ıtottuk. A fenti lemma lehet˝ ov´e teszi, hogy a dinamikus rendszerek elm´elet´enek az eredm´enyeit alkalmazzuk diszkr´et idej˝ u stacion´arius sztochasztikus folyamatok vizsg´alat´aban. 76
A dinamikus rendszerek elm´elet´enek egyik legfontosabb eredm´enye az ergod t´etel. Ezt k´ıv´anom megfogalmazni. Ez el˝ ott be kell vezetni n´eh´ any definici´ ot. Dinamikus rendszer invari´ ans halmazainak a definici´ oja. Egy (Ω, A, P, T ) dinamikus rendszer valamely A ∈ A halmaz´ at e rendszer invari´ ans halmaz´ anak nevez¨ unk, ha T −1 (A) = A. Ezt az azonoss´ agot u ´gy ´ertj¨ uk, hogy a benne szerepl˝ o k´et halmaz szimmetrikus differenci´ aj´ anak nulla a P m´ert´ek szerinti val´ osz´ın˝ us´ege. Sz¨ uks´eg¨ unk lesz a k¨ ovetkez˝ o egyszer˝ u lemm´ara. Lemma az invari´ ans halmazok viselked´ es´ er˝ ol. Egy dinamikus rendszer invari´ ans halmazai σ-algebr´ at alkotnak, azaz, ha A invari´ ans halmaz akkor annak komplementere, ∞ ∞ T S An halmazok An ´es Ω \ A is az, ´es ha A1 , A2 , . . . invari´ ans halmazok, akkor a n=1
is invari´ ansak.
n=1
Bizony´ıt´ as. Az ´ all´ıt´ as egyszer˝ u k¨ ovetkezm´enye a T −1 inverz transzform´ aci´o tulajdons´againak. Adva egy (Ω, A, P, T ) dinamikus rendszer jel¨olje I ⊂ A az invari´ ans halmazok σ-algebr´aj´at, ´es vezess¨ uk be a k¨ ovetkez˝ o definici´ ot. Ergodikus dinamikus rendszerek definici´ oja. Egy (Ω, A, P, T ) dinamikus rendszert ergodikusnak nevez¨ unk, ha e rendszer invari´ ans halmazainak I σ-algebr´ aja trivi´ alis a k¨ ovetkez˝ o ´ertelemben. Minden A ∈ I halmazra P (A) = 0 vagy P (A) = 1. Ergod t´ etel. Legyen (Ω,RA, P, T ) egy dinamikus rendszer, U (ω) egy A m´erhet˝ o val´ os ´ert´ek˝ u f¨ uggv´eny, amelyre Ω |U (ω)|P ( dω) < ∞. Ekkor n−1 1X lim U (T j ω) = E(U |I)(ω) n→∞ n j=0
a P m´ert´ek szerint majdnem minden ω ∈ Ω pontra,
ahol I az invari´ ans halmazok σ-algebr´ aja, ´es E(·|I) az I σ-algebra szerinti felt´eteles v´ arhat´ o ´ert´eket jel¨ oli. Ha az (Ω, A, P, T ) dinamikus rendszer R ergodikus, akkor a k´eplet egyszer˝ us¨ odik, mert ebben az esetben E(U |I)(ω) = EU = U (ω)P ( dω). A fentiekben dinamikus rendszerek ergodicit´ as´at defini´altuk. De diszkr´et idej˝ u stacion´ arius sztochasztikus folyamatok ergodicit´ as´at is term´eszetes m´ odon lehet defini´alni. Annak ´erdek´eben, hogy megadjuk azt, hogy egy ξn , −∞ < n < ∞, diszkr´et idej˝ u sta±∞ ±∞ ¯ cion´ arius sztochasztikus folyamat mikor ergodikus tekints¨ uk azt az (R , B ,P,T) speci´alis dinamikus rendszert, amelyre a speci´alis dinamikus rendszer a´ltal induk´ alt ξ¯n , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ ok sorozat´anak ´es a ξn , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ o sorozatnak az eloszl´ asa megegyezik. (L´attuk, hogy ilyen speci´alis dinamikus rendszer l´etezik.) Akkor mondjuk, hogy a ξn , −∞ < n < ∞, diszkr´et idej˝ u stacion´arius ±∞ ±∞ ¯ sztochasztikus folyamat ergodikus, ha a fenti tulajdons´ag´ u (R , B , P , T ) speci´ alis dinamikus rendszer ergodikus. Mivel a ξn , −∞ < n < ∞, ´es a ξ¯n , −∞ < n < ∞, sorozatok eloszl´ asa megegyezik, ez a k´et sorozat ugyanolyan val´ osz´ın˝ us´egsz´am´ıt´ asi t¨orv´enyeket 77
teljes´ıt. Ez lehet˝ ov´e teszi, hogy diszkr´et idej˝ u stacion´arius sztochasztikus folyamatok vizsg´alat´at visszavezess¨ uk invert´ alhat´ o dinamikus rendszerek vizsg´alat´ara, ahol alkalmazhatjuk az ergod t´etelt is. Tekints¨ unk egy olyan diszkr´et idej˝ u ξn , −∞ < n < ∞, stacion´arius sztochasztikus folyamatot, amelyben a ξn val´ osz´ın˝ us´egi v´ altoz´ ok ´ert´ekeit egy v´eges vagy megsz´ aml´alhat´oan v´egtelen X halmazban veszik fel, ´es defini´aljuk ennek entr´ opi´aj´at. Az egyszer˝ ubb jel¨ol´es ´erdek´eben feltehetj¨ uk, hogy X a val´ os sz´amok egy r´eszhalmaza. Olyan definici´ ot fogunk adni, amely ¨ osszhangban van a dinamikus rendszerek eset´eben defini´alt H(T, ξ) entr´ opia definici´ oval valamint a diszkr´et idej˝ u stacion´arius sztochasztikus folyamatok ´es az invert´ alhat´ o dinamikus rendszerek k¨ oz¨ otti kapcsolattal. Legyen H(ξn , −∞ < n < ∞) = lim H(ξ0 |ξ−1 , . . . , ξ−n ), n→∞
(6.1)
ahol H(ξ0 |ξ−1 , . . . , ξ−n ) az els˝ o fejezetben bevezetett felt´eteles entr´ opia. Az, hogy a (6.1) formul´ aban szerepl˝o limeszek val´ oban l´eteznek hasonl´oan mutathat´ o meg, mint ahogy a H(T, ξ) entr´ opia definici´ oj´anak a jogoss´ag´ at indokoltuk az 5. fejezetben. Tov´ abb´a nem neh´ez bel´ atni, hogy H(ξn , −∞ < n < ∞) = lim n1 H(ξ0 , ξ−1 , . . . , ξ−n+1 ), ha n→∞
H(ξ1 ) < ∞. (Azt is ´ all´ıtjuk, hogy a H(ξ1 ) < ∞ esetben ez a v´eges hat´ar´ert´ek l´etezik.) Egy´ebk´ent szoros kapcsolat van a diszkr´et idej˝ u stacion´arius sztochasztikus folyamatok ´es invert´ alhat´ o dinamikus rendszerek entr´ opi´aja k¨ oz¨ ott. Legyen ξn , −∞ < n < ∞, olyan diszkr´et idej˝ u stacion´arius sztochasztikus folyamat, amelyben a ξn val´ osz´ın˝ us´egi v´ altoz´ ok ´ert´ekeiket egy v´eges vagy megsz´ aml´alhat´ oan v´egtelen X halmazban ±∞ ±∞ ¯ veszik fel. Tekints¨ uk azt a (R , B , P , T ) speci´alis dinamikus rendszert, amelyre a speci´alis dinamikus rendszer ´ altal induk´ alt ξ¯n , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ ok sorozat´anak ´es a ξn , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ o sorozatnak az eloszl´ asa megegyezik. Ekkor H(ξn , −∞ < n < ∞) = H(T, ξ¯0 ). Pontosabban egy apr´o technikai kellemetlens´eg elker¨ ul´ese v´egett ´erdemes a ξ¯n val´ osz´ın˝ us´egi v´ altoz´ ok definici´ oj´at kiss´e ¯ m´ odos´ıtani. A ξn val´ osz´ın˝ us´egi v´ altoz´ ok ugyanis, — legal´ abbis form´alisan, — nem v´eges vagy megsz´ aml´alhat´ oan sok ´ert´eket vesznek fel. E val´ osz´ın˝ us´egi v´ altoz´ ok ´ert´ekk´eszlete az R sz´amegyenes. De mivel P (ξn ∈ X) = 1, ett˝ol a kellemetlens´egt˝ol egyszer˝ uen meg tudunk szabadulni. Arra az (R±∞ , B±∞ , P¯ , T ) speci´alis dinamikus rendszerre, amelyet most tekintett¨ unk P¯ (X ±∞ ) = 1, ahol X ±∞ = {(. . . , xj−1 , xj0 , xj1 , . . . ): xjn ∈ X, −∞ < n < ∞}. Ez´ert a tekintett (R±∞ , B±∞ , P¯ , T ) speci´ alis dinamikus rendszert helyettes´ıthetj¨ uk az (X ±∞ , B±∞ , P¯ , T ) (invert´ alhat´ o) dinamikus rendszerrel, ahol B±∞ a kor´ abban defini´alt B±∞ (Borel) σ-algebra, ´es P¯ a kor´ abban defini´alt P¯ m´ert´ek ±∞ megszor´ıt´ asa az X halmazra. Az e rendszer ´ altal induk´ alt ξ¯n = T n ξ¯0 val´ osz´ın˝ us´egi v´ altoz´ okat a kor´ abbi esethez hasonl´oan defini´aljuk. Ezzel a m´ odos´ıt´ assal k¨ ozvetlen¨ ul l´athat´ o, hogy H(ξn , −∞ < n < ∞) = H(T, ξ¯0 ). A Shannon–McMillan–Breiman t´etel megfogalmaz´asa el˝ ott teszek egy r¨ovid kit´er˝ ot. Gyakran val´ osz´ın˝ us´egi v´ altoz´ oknak olyan ξn , n ≥ 0 sorozataival kell foglalkoznunk, amelyek hasonl´oan viselkednek a diszkr´et idej˝ u stacion´arius sztochasztikus folyamatokhoz, de csak nem negat´ıv n indexekre vannak defini´alva. Az ilyen sorozatokat f´eloldali diszkr´et idej˝ u stacion´arius sztochasztikus folyamatoknak fogom nevezni. Megfogalmazom, hogy ez pontosan mit jelent, ´es megmutatom, hogy az ilyan sorozatok vizsg´alata 78
visszavezethet˝ o a hagyom´anyos diszkr´et idej˝ u stacion´arius sztochasztikus folyamatok vizsg´alat´ahoz. El˝osz¨ or bevezetem a k¨ ovetkez˝ o fogalmat. F´ eloldali diszkr´ et idej˝ u stacion´ arius sztochasztikus folyamat definici´ oja. Legyen adva ξn , n = 0, 1, 2, . . . , val´ osz´ın˝ us´egi v´ altoz´ ok egy sorozata egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ on. Azt mondjuk, hogy ez a sorozat f´eloldali diszkr´et idej˝ u stacion´ arius sztochasztikus folyamat, ha minden 0 ≤ n1 < n2 < · · · < nk < ∞ ´es m ≥ 1 eg´esz sz´ amokra a (ξn1 , ξn2 , . . . , ξnk ) ´es (ξn1 +m , ξn2 , . . . , ξnk +m ) v´eletlen vektorok eloszl´ asa megegyezik. A k¨ ovetkez˝ o lemma kapcsolatot teremt f´eloldali diszkr´et idej˝ u ´es diszkr´et idej˝ u stacion´arius sztochasztikus folyamatok k¨ oz¨ ott. Lemma f´ eloldali diszkr´ et idej˝ u´ es diszkr´ et idej˝ u stacion´ arius sztochasztikus folyamatok kapcsolat´ ar´ ol. Legyen ξn , n = 0, 1, 2, . . . , egy f´eloldali diszkr´et idej˝ u stacion´ arius sztochasztikus folyamat egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ on. L´etezik olyan diszkr´et idej˝ u ξ¯n , −∞ < n < ∞, stacion´ arius sztochasztikus folyamat egy alkalmas ¯ A, ¯ P¯ ) val´ (Ω, osz´ın˝ us´egi mez˝ on, amelyre a ξn , n = 0, 1, 2, . . . , ´es ξ¯n , n = 0, 1, 2, . . . , sorozatok eloszl´ asa megegyezik. ¯ A, ¯ P¯ ) = (R±∞ , B±∞ , P¯ ) a kor´ A lemma bizony´ıt´ asa. Legyen (Ω, abban defini´alt R±∞ halmazzal ´es B±∞ σ-algebr´aval ´es egy alkalmasan defini´alt P¯ val´ osz´ın˝ us´egi m´ert´ekkel. Legyen tov´ abb´a ξ¯n (x) = xn , −∞ < n < ∞, ha x = (. . . , x−1 , x0 , x1 , . . . ) ∈ R±∞ . A P¯ m´ert´ek defini´al´ asa ´erdek´eben vegy¨ uk ´eszre, hogy P (ξn1 ∈ B1 , . . . , ξnk ∈ Bk ) = P (ξn1 +p ∈ B1 , . . . , ξnk +p ∈ Bk ) nem negat´ıv eg´esz sz´amok minden monoton n¨ovekv˝o 0 ≤ n1 < · · · < nk v´eges sorozat´ara, tetsz˝oleges p ≥ −n1 eg´esz sz´amra ´es a sz´amegyenesen Borel m´erhet˝ o B1 , . . . , Bk halmazokra. Defini´ aljuk a P¯ m´ert´eket el˝ osz¨ or bizonyos speci´ alis halmazokra a P¯ ((. . . , x1 , x0 , x1 , . . . ): xn1 ∈ B1 , . . . , xnk ∈ Bk ) = P (ξ0 ∈ B1 , . . . , xnk −n1 ∈ Bk )
= P (ξn1 +p ∈ B1 , . . . , ξnk +p ∈ Bk ) (6.2) k´eplet seg´ıts´eg´evel. E k´epletben −∞ < n1 < n2 < · · · < nk < ∞ eg´esz sz´amok, p ≥ −n1 , ´es B1 , . . . , Bk Borel m´erhet˝ o halmazok a sz´amegyenesen. (Megengedj¨ uk, hogy nj < 0 legyen bizonyos j indexekre.) Ha a fenti k´epletekben az xj koordin´ at´ akat val´ osz´ın˝ us´egi v´ altoz´ oknak tekintj¨ uk, akkor (6.2) k´epletben ezek v´eges dimenzi´ os eloszl´ asait konzisztens m´ odon defini´altuk. Ez´ert Kolmogorov t´etele alapj´ an l´etezik (egyetlen) olyan P¯ ±∞ ±∞ m´ert´ek az (R , B ) t´eren, amely teljes´ıti a (6.2) formul´ at tetsz˝oleges −∞ < n1 < n2 < · · · < nk < ∞, p > −n1 eg´esz sz´amokra ´es B1 , . . . , Bk Borel m´erhet˝ o halmazokra a sz´amegyenesen. (A val´ osz´ın˝ us´egsz´am´ıt´ as alapt´etel´enek egy lehets´eges megfogalmaz´as´at alkalmaztuk.) Nem neh´ez bel´ atni, hogy az ´ıgy konstru´ alt (R±∞ , B±∞ , P¯ ) val´ osz´ın˝ us´egi ¯ mez˝ o ´es ξn , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ ok teljes´ıtik a lemma a´ll´ıt´ as´at. R´ at´erek a Shannon–McMillan–Breiman t´etel ismertet´es´ere. Ezen eredm´eny k´et ekvivalens verzi´oj´at fogom megfogalmazni. Az els˝ o verzi´o invert´ alhat´ o dinamikus rendszerek, a m´ asodik verzi´o diszkr´et idej˝ u stacion´arius sztochasztikus folyamatok viselked´es´er˝ ol fog sz´olni. 79
A Shannon–McMillan–Breiman t´ etel invert´ alhat´ o dinamikus rendszerekre. Legyen (Ω, A, P, T ) egy ergodikus invert´ alhat´ o dinamikus rendszer, ´es legyen azon adva egy olyan ξ val´ osz´ın˝ us´egi v´ altoz´ o, amely ´ert´ekeit egy v´eges vagy megsz´ aml´ alhat´ o X = {x1 , x2 , . . . } halmazon veszi fel, ´es H(ξ) < ∞. Vezess¨ uk be a ξn = T n ξ, −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ okat, ´es defini´ aljuk minden n = 1, 2, . . . sz´ amra a pn (xj0 , . . . , xjn−1 ) = P (ξ0 = xj0 , . . . , ξn−1 = xjn−1 ) f¨ uggv´enyt, ahol xjs ∈ X minden 1 ≤ s ≤ n − 1 indexre. Ekkor lim −
n→∞
1 log pn (ξ0 , . . . , ξn−1 ) = H(T, ξ) n
1 val´ osz´ın˝ us´eggel,
(6.3)
ahol a H(T, ξ) entr´ opi´ at az (5.5) k´epletben defini´ altuk. A Shannon–McMillan–Breiman t´ etel diszkr´ et idej˝ u stacion´ arius sztochasztikus folyamatokra. Legyen ξn , −∞ < n < ∞, egy olyan diszkr´et idej˝ u, ergodikus stacion´ arius sztochasztikus folyamat, amelyre a ξn val´ osz´ın˝ us´egi v´ altoz´ ok ´ert´ekeiket egy v´eges vagy megsz´ aml´ alhat´ o X = {x1 , x2 , . . . } halmazon veszik fel, ´es H(ξn ) < ∞. Vezess¨ uk be minden n = 1, 2, . . . sz´ amra a pn (xj0 , . . . , xjn−1 ) = P (ξ0 = xj0 , . . . , ξn−1 = xjn−1 ) f¨ uggv´enyt, ahol xjs ∈ X minden 1 ≤ s ≤ n − 1 indexre. Ekkor lim −
n→∞
1 log pn (ξ0 , . . . , ξn−1 ) = H(ξn , −∞ < n < ∞) n
1 val´ osz´ın˝ us´eggel,
ahol a H(ξ, −∞ < n < ∞) entr´ opi´ at az (6.1) k´epletben defini´ altuk. Megjegyz´es. A ξn sorozat stacionarit´ asa miatt a pn (·) f¨ uggv´enyek definici´ oj´at pn (xj0 , . . . , xjn−2 , xjn−1 ) = P (ξ−n−1 = xj0 , . . . , ξ−1 = xjn−2 , ξ0 = xjn−1 ) alakban is ´ırhattuk volna. Az, hogy egy ξn , −∞ < n < ∞, ´ert´ekeiket egy v´eges vagy megsz´ aml´alhat´ o X halmazon felvev˝o val´ osz´ın˝ us´egi v´ altoz´ okb´ ol ´ all´ o sztochasztikus folyamat teljes´ıti a Shannon–McMillan–Breiman t´etelt heurisztikusan u ´gy interpret´alhat´ o, hogy meg lehet adni a sztochasztikus folyamat ´ert´ekeinek egy olyan ‘tipikus sorozatokb´ol a´ll´ o’ 1 va±∞ ±∞ l´osz´ın˝ us´eg˝ u X0 ⊂X r´eszhalmaz´ at u ´gy, hogy nagy n sz´amokra j´ o aszimptotikus formula adhat´o annak val´ osz´ın˝ us´eg´ere, hogy a sztochasztikus folyamat megszor´ıt´ asa a 0 ´es n − 1 index˝ u koordin´ at´ ak k¨ oz´e megegyezik egy el˝ o´ırt tipikus sorozat megszor´ıt´ as´aval a 0 ´es n − 1 koordin´ at´ ak k¨ oz´e. Ez a val´ osz´ın˝ us´eg minden tipikus x ∈ X0±∞ sorozatra k¨ ozel´ıt˝ oleg egyenl˝o; exponenci´alisan kicsi, ´es logaritmus´ anak a − n1 -szerese k¨ or¨ ulbel¨ ul a sztochasztikus folyamat entr´ opi´aj´aval egyenl˝o. A diszkr´et idej˝ u stacion´arius sztochasztikus folyamatokra megfogalmazott Shannon–McMillan–Breiman t´etel egyszer˝ uen k¨ ovetkezik az invert´ alhat´ o dinamikus rendszerekr˝ ol sz´ol´ o Shannon–McMillan–Breiman t´etelb˝ ol. Val´ oban, adva egy olyan ξn , −∞ < n < ∞, diszkr´et idej˝ u, ergodikus stacion´arius sztochasztikus folyamat, amelyre 80
a ξn val´ osz´ın˝ us´egi v´ altoz´ ok ´ert´ekeiket egy v´eges vagy megsz´ aml´alhat´ o X = {x1 , x2 , . . . } halmazon veszik fel, ´es H(ξn , −∞ < n < ∞) < ∞, tekints¨ uk azt az (R±∞ , B±∞ , P¯ , T ) speci´alis dinamikus rendszert, amelyre a speci´alis dinamikus rendszer a´ltal induk´ alt ξ¯n , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ ok sorozat´anak ´es a ξn , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ o sorozatnak az eloszl´ asa megegyezik. Pontosabban, ezt a speci´ alis dinamikus rendszert kiss´e m´ odos´ıtjuk, felhaszn´alva, hogy olyan val´ osz´ın˝ us´egi v´ altoz´ okat tekint¨ unk, ±∞ ±∞ ¯ amelyek ´ert´ekeiket az X halmzaban veszik fel. Ez´ert az (X ,B , P , T ) dinamikus ¯ rendszert vessz¨ uk, ´es ebben a ξn , −∞ < n < ∞, sorozatra alkalmazzuk a Shannon– McMillan–Breiman t´etelt. Ezt fel´ırhatjuk P ((. . . , ξ¯−1 (ω), ξ¯0 (ω), ξ¯1 (ω), . . . ) ∈ D) = 1 alakban, ahol D = {(. . . , xj−1 , xj0 , xj1 , . . . ) ∈ X ±∞ : lim − n→∞
1 log pn (xj0 , . . . , xjn−1 ) = H(T, ξ¯0 )}. n
Mivel a ξ¯n , −∞ < n < ∞ ´es ξn , −∞ < n < ∞, v´eletlen sorozatok eloszl´ asa megegyezik, ¯ = 1, ahol ´es H(T, ξ¯0 ) = H(ξn , −∞ < n < ∞) P ((. . . , ξ−1 (ω), ξ0 (ω), ξ1 (ω), . . . ) ∈ D) ¯ ¯ a D halmazt hasonl´oan defini´aljuk a D halmazhoz, csak a H(T, ξ0 ) mennyis´eget a H(ξn , −∞ < n < ∞) mennyis´eggel helyettes´ıtj¨ uk benne. Ez viszont azt jelenti, hogy a Shannon–McMillan–Breiman t´etel diszkr´et idej˝ u, ergodikus stacion´arius sztochasztikus folyamatokra is ´erv´enyes. A Shannon–McMillan–Breiman t´etelt invert´ alhat´ o dinamikus rendszerekre fogjuk bizony´ıtani. Annak ´erdek´eben, hogy a bizony´ıt´ ast jobban meg´erts¨ uk tekints¨ uk el˝ osz¨ or azt a k´et speci´ alis esetet, amikor a ξn = T n ξ, −∞ < n < ∞, sorozat vagy a) f¨ uggetlen, egyforma eloszl´ as´ u val´ osz´ın˝ us´egi v´ altoz´ ok sorozata vagy b) egy stacion´arius Markov n−1 Q p(xjs ), ahol p(xjs ) = P (ξ = xjs ). Ez´ert l´anc. Az a) esetben pn (xj0 , . . . , xjn−1 ) = s=0
− n1 log pn (ξ0 , . . . , ξn−1 ) = − n1
n−1 P
log p(ξs ). A nagy sz´amok er˝ os t¨orv´enye szerint ez P az a´tlag 1 val´ osz´ın˝ us´eggel konverg´al a −E log p(ξ) = − P (ξ = xj ) log P (ξ = xj ) = H(ξ) = H(T, ξ) ¨ osszeghez, ha n → ∞, ´es az a) esetben ezt kellett bel´ atni. A b) esetben hasonl´o az indokl´ as, csak ekkor az ergod t´etelt kell alkalmazni a nagy sz´amok t¨orv´enye helyett. Egy olyan ξn , −∞ < n < ∞, Markov l´ancot tekint¨ unk, ±∞ ±∞ amely az (X ,B , P, T ) t´eren van defini´alva alkalmas P val´ osz´ın˝ us´egi m´ert´ekkel, a szok´ asos T (. . . , xj−1 , xj0 , xj1 , . . . ) = (. . . , xj0 , xj1 , xj2 , . . . ) shift transzform´ aci´oval, ´es ξn (x) = xjn , −∞ < n < ∞, ha x = (. . . , xj−1 , xj0 , xj1 , . . . ). Jel¨olje q(x) = P (ξn = x), x ∈ X, a stacion´arius Markov l´anc egy dimenzi´ os eloszl´ asait, ´es r(¯ x|x) = P (ξn+1 = x ¯|ξn = x), x, x ¯ ∈ X, a Markov l´anc ´ atmenet val´ osz´ın˝ us´egeit. Ekkor s=0
pn (xj0 , . . . , xjn−1 ) = q(xj0 )
n−2 Y s=0
r(xjs+1 |xjs ),
ahonnan n−2 1 1 1X log r(T s ξ1 |T s ξ0 ). − log pn (ξ0 , . . . , ξn−1 ) = − log q(ξ0 ) − n n n s=0
81
Ez´ert az ergod t´etelb˝ ol az U (x) = − log r(xj1 |xj0 ), ha x = (. . . , xj−1 , xj0 , xj1 , . . . ) f¨ uggv´eny v´ alaszt´ assal azt kapjuk, hogy lim − n1 log pn (ξ0 , . . . , ξn−1 ) = −E log r(ξ1 |ξ0 ) n→∞
1 val´ osz´ın˝ us´eggel. A bizony´ıt´ as befejez´es´ehez az −E log r(ξ1 |ξ0 ) = H(T, ξ0 ) azonoss´agot kell m´eg igazolni. Viszont H(ξn |ξn−1 , . . . , ξ0 ) X =− P (ξ0 = xj0 , . . . ξn = xjn ) log P (ξn = xjn |ξn−1 = xjn−1 , . . . , ξ0 = xj0 ) xj0 ,...,xjn
=−
X
xj0 ,...,xjn
P (ξ0 = xj0 , . . . ξn = xjn ) log P (ξn = xjn |ξn−1 = xjn−1 )
= −E log r(ξn |ξn−1 ) = −E log r(ξ1 |ξ0 ) minden n ≥ 1 sz´amra a Markov tulajdons´ag ´es a stacionarit´ as miatt. Innen H(T, ξ0 ) = lim H(ξn |ξn−1 , . . . , ξ0 ) = −E log r(ξ1 |ξ0 ). n→∞
Markov l´ancok eset´eben a Shannon–McMillan–Breiman bizony´ıt´ asa azon alapult, hogy a − n1 log pn (ξ0 , . . . , ξn−1 ) kifejez´est felbontottuk egy olyan o¨sszegre, amelyre alkalmazni lehetett az ergod t´etelt. Az ´ altal´ anos eset bonyolultabb. Ekkor a vizsg´alt kifejez´est egy hasonl´o ¨ osszegre plusz egy elhanyagolhat´ oan kis hibatagra lehet felbontani. De ahhoz, hogy ezt a hibatagot j´ ol meg tudjuk becs¨ ulni sz¨ uks´eg¨ unk van a marting´alok elm´elet´enek n´eh´ any fontos eredm´eny´ere. A k´ıv´ant felbont´as megtal´ al´ as´anak az ´erdek´eben vezess¨ uk be a tekintett ξn (x), −∞ < n < ∞ val´ osz´ın˝ us´egi v´ altoz´ o sorozat k¨ ovetkez˝ o f¨ uggv´enyeit. pk+1 (ξ−k (ω), . . . , ξ0 (ω)) , pk (ξ−k (ω), . . . , ξ−1 (ω)) g0 (ω) = − log p1 (ξ0 (ω)).
gk (ω) = − log
k ≥ 1,
(6.4)
Az egy´ertelm˝ u definici´ o ´erdek´eben defini´aljuk a gk (ω) f¨ uggv´enyt, mint gk (ω) = 0, ha pk (ξ−k (ω), . . . , ξ−1 (ω)) = 0, ´es ez´ert pk+1 (ξ−k (ω), . . . , ξ−1 (ω), ξ0 (ω)) = 0. Mivel ennek az esem´enynek nulla a val´ osz´ın˝ us´ege, nincs k¨ ul¨ on¨ osebb jelent˝os´ege annak, hogy ebben az esetben hogyan defini´aljuk a gk (ω) f¨ uggv´enyt. Hasonl´ o megjegyz´est lehet tenni a k´es˝obb defini´aland´o fkj (ω) f¨ uggv´enyr˝ol is. Ezzel a jel¨ol´essel −
1 log pn (ξ0 (ω), . . . , ξn−1 (ω)) n n−1 n−1 1 1X 1X pk+1 (ξ0 (ω), . . . , ξk (ω)) = − log p1 (ξ0 (ω)) − = log gk (T k ω). n n pk (ξ0 (ω), . . . , ξk−1 (ω)) n k=1
k=0
82
Be fogjuk l´atni a marting´ alelm´elet seg´ıts´eg´evel, hogy lim gk (ω) = g∞ (ω) 1 val´ osz´ın˝ uk→∞
s´eggel egy alkalmas g∞ (ω) f¨ uggv´ennyel, emelyre Eg∞ (ω) = H(T, ξ). Ez azt sugallja, hogy −
n−1 1 1X g∞ (T k ω) + elhanyagolhat´ oan kicsi hiba. (6.5) log pn (ξ0 (ω), . . . , ξn−1 (ω)) = n n k=0
Nem trivi´ alis ´ervek seg´ıts´eg´evel be lehet l´atni, hogy ez val´ oban ´ıgy van. Az utols´ o formul´ ab´ ol ´es az ergod t´etel k¨ ovetkezik a Shannon–McMillan–Breiman t´etel. A pontos bizony´ıt´ as kidolgoz´ as´anak az ´erdek´eben el˝ osz¨ or felid´ezem a marting´ al elm´elet sz´amunkra legfontosabb eredm´enyeit. Marting´ al, szubmarting´ al ´ es szupermarting´ al definici´ oja. Legyen adva σ-algebr´ ak F1 ⊂ F2 ⊂ F3 ⊂ · · · n¨ ovekv˝ o sorozata egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ on, amelyre teljes¨ ul az Fn ⊂ A tulajdons´ ag minden n = 1, 2, . . . sz´ amra. Legyen adva ezen k´ıv¨ ul Fn m´erhet˝ o ξn (ω), E|ξn (ω)| < ∞, val´ osz´ın˝ us´egi v´ altoz´ ok sorozata. Azt mondjuk, hogy a (ξn (ω), Fn ), n = 1, 2, . . . , p´ arok sorozata marting´ alt alkot, ha teljes¨ ul az E(ξn+1 (ω)|Fn ) = ξn (ω)
1 val´ osz´ın˝ us´eggel minden n = 1, 2, . . . sz´ amra
azonoss´ ag. A fent defini´ alt sorozat szubmarting´ al, ha E(ξn+1 (ω)|Fn ) ≥ ξn (ω)
1 val´ osz´ın˝ us´eggel minden n = 1, 2, . . . sz´ amra,
´es szupermarting´ al, ha E(ξn+1 (ω)|Fn ) ≤ ξn (ω)
1 val´ osz´ın˝ us´eggel minden n = 1, 2, . . . sz´ amra.
Ha adva van ξn (ω), E|ξn (ω)| < ∞, n = 1, 2, . . . , val´ osz´ın˝ us´egi v´ altoz´ ok sorozata egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ on, de nincsenek defini´ alva a Fn σ-algebr´ ak, akkor e sorozatot marting´ alnak, szubmarting´ alnak illetve szupermarting´ alnak nevezz¨ uk, ha a (ξn , Fn ) sorozat az Fn = σ(ξk , 1 ≤ k ≤ n) σ-algebra sorozat v´ alaszt´ assal marting´ al, szubmarting´ al illetve szupermarting´ al. 1. megjegyz´es. A fenti definici´ oban az E|ξn (ω)| < ∞ felt´etelt az´ert tett¨ uk, hogy besz´elhess¨ unk a tekintett felt´eteles v´ arhat´ o ´ert´ekekr˝ ol. Ezt a felt´etelt lehet gyeng´ıteni, el´eg p´eld´aul azt megk¨ ovetelni, hogy EXn− < ∞, n = 1, 2, . . . , ahol x− = − min(x, 0). 2. megjegyz´es. Ha a (ξn , Fn ) sorozat marting´ al, szubmarting´al, illetve szupermarting´al, akkor a ξn sorozat marting´ al, szubmarting´al illetve szupermarting´al a fent megadott ´ertelemben is, azaz akkor, ha az Fn σ-algebr´akat a Gn = σ(ξk , 1 ≤ k ≤ n) ⊂ Fn σ-algebr´akkal helyettes´ıtj¨ uk. Ez egyszer˝ uen l´athat´ o a felt´eteles v´ arhat´ o ´ert´ek alapvet˝ o tulajdons´againak a seg´ıts´eg´evel. 3. megjegyz´es. A szubmarting´al ´es szupermarting´al elnevez´es h´atter´eben a marting´ alok kapcsolata van a harmonikus f¨ uggv´enyekkel. A marting´ alok a harmonikus f¨ uggv´enyek 83
term´eszetes megfelel˝ oi. Egy f¨ uggv´eny akkor harmonikus, ha ´ert´eke egyenl˝o e f¨ uggv´eny k¨ orintegr´alj´aval tetsz˝oleges a g¨orb´et k¨ ozrefog´o z´art g¨orb´en. Ha egyenl˝otlens´eg helyett nagyobb vagy egyenl˝o ´ all, akkor szuperharmonikus f¨ uggv´enyr˝ol besz´el¨ unk, ´es ez felel meg a szupermarting´alnak. Hasonl´ oan, ha egyenl˝os´eg helyett kisebb vagy egyenl˝ o a´ll, akkor szubharmonikus f¨ uggv´enyr˝ol besz´el¨ unk, ´es ennek a szubmarting´al felel meg. Bizonyos 1 val´ osz´ın˝ us´eg˝ u marting´ al konvergencia t´etelekre ´es marting´ al egyenl˝otlens´egekre lesz sz¨ uks´eg¨ unk, illetve olyan eredm´enyekre, amelyek arr´ol sz´olnak, hogy hogyan lehet marting´ alokb´ ol vagy szubmarting´alokb´ ol konvex f¨ uggv´enyek seg´ıts´eg´evel szubmarting´alokat konstru´ alni. A k¨ ovetkez˝ o konvergencia t´etelt fogjuk haszn´ alni. T´ etel marting´ alok ´ es szubmarting´ alok 1 val´ osz´ın˝ us´ egi konvergenci´ aj´ ar´ ol. Legyen (ξn (ω), Fn ), n = 1, 2, . . . , marting´ al egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ on. Ekkor az E|ξn (ω)|, n = 1, 2, . . . , sorozat monoton n¨ ovekszik. Ha ez a sorozat korl´ atos, azaz l´etezik olyan K < ∞ sz´ am, amelyre E|ξn (ω)| ≤ K minden n = 1, 2, . . . sz´ amra, akkor 1 val´ osz´ın˝ us´eggel l´etezik a ξ∞ (ω) = lim ξn (ω) hat´ ar´ert´ek. Ezenk´ıv¨ ul ´erv´enyes n→∞
az E|ξ∞ (ω)| ≤ K egyenl˝ otlens´eg is ugyanazzal a K < ∞ konstanssal. Ha (ξn (ω), Fn ), n = 1, 2, . . . , olyan szubmarting´ al egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ on, amelyre sup E|ξn (ω)| ≤ K alkalmas K < ∞ konstanssal, akkor 1 val´ osz´ın˝ us´eggel n
l´etezik a ξ∞ (ω) = lim ξn (ω) hat´ ar´ert´ek, ´es ez a hat´ ar´ert´ek teljes´ıti az E|ξ∞ (ω)| ≤ K n→∞ egyenl˝ otlens´eget. Szubmarting´ alok szupr´emuma teljes´ıti a k¨ ovetkez˝ o momentum egyenl˝otlens´eget. T´ etel szubmarting´ alok szupr´ emum´ anak a momentumair´ ol. Legyen (ξn , Fn ), P (ξn ≥ 0) = 1, n ≥ 1, nem negat´ıv szubmarting´ al. Ekkor r r r sup Eξnr minden r > 1 val´ os sz´ amra, E sup ξn ≤ r − 1 n≥1 n≥1 ´es
E sup ξn n≥1
≤
e e + sup Eξn log+ ξn e − 1 e − 1 n≥1
az r = 1 esetben, ahol log+ x = max(log x, 0). Igaz a Jensen egyenl˝otlens´eg k¨ ovetkez˝ o, felt´eteles v´ arhat´ o ´ert´ekekr˝ ol sz´ol´ o alakja. A Jensen egyenl˝ otlens´ eg felt´ eteles v´ arhat´ o ´ ert´ ekekr˝ ol. Legyen adva egy ξ(ω) val´ osz´ın˝ us´egi v´ altoz´ o ´es egy Φ(x), −∞ < x < ∞, konvex f¨ uggv´eny, amelyekre teljes¨ ulnek az E|ξ(ω)| < ∞ ´es E|Φ(ξ(ω)| < ∞ felt´etelek egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ on, valamint egy F ⊂ A σ-algebra. Ekkor E(Φ(ξ(ω)|F)) ≥ Φ (E(ξ(ω)|F))
1 val´ osz´ın˝ us´eggel.
Ez az egyenl˝ otlens´eg akkor is ´erv´enyes, ha a Φ(·) konvex f¨ uggv´eny egy a ≤ x ≤ b intervallumban van defini´ alva, ´es P (a ≤ ξ ≤ b) = 1, ahol −∞ ≤ a < b ≤ ∞ tetsz˝ oleges val´ os sz´ amok. 84
A felt´eteles v´ arhat´ o ´ert´ekekr˝ ol sz´ol´ o Jensen egyenl˝otlens´eg ´erv´enyess´ege azon m´ ulik, hogy a v´ arhat´ o ´ert´ekhez hasonl´oan a felt´eteles v´ arhat´ o ´ert´ek is kisz´ amolhat´o alkalmas val´ osz´ın˝ us´egi m´ert´ek szerinti integr´al seg´ıts´eg´evel, csak ebben az esetben egy u ´gynevezett regul´ aris felt´eteles eloszl´ asf¨ uggv´eny szerint kell integr´alni. Sz´ amunkra ez az eredm´eny az al´ abbi k¨ ovetkezm´enye miatt lesz ´erdekes. Lemma marting´ alok, szubmarting´ alok ´ es szupermarting´ alok konvex f¨ uggv´ enyeir˝ ol. a) Ha (ξn , Fn ), n = 1, 2, . . . , marting´ al, Φ(x) konvex f¨ uggv´eny, ´es E|Φ(ξn )| < ∞ minden n = 1, 2, . . . sz´ amra, akkor (Φ(ξn ), Fn ), n = 1, 2, . . . , szubmarting´ al. b) Ha (ξn , Fn ), n = 1, 2, . . . , szubmarting´ al, Φ(x), monoton n¨ ovekv˝ o konvex f¨ uggv´eny, ´es E|Φ(ξn )| < ∞ minden n = 1, 2, . . . sz´ amra, akkor (Φ(ξn ), Fn ), n = 1, 2, . . . , szubmarting´ al. c) Ha (ξn , Fn ), n = 1, 2, . . . , szupermarting´ al, Φ(x) monoton cs¨ okken˝ o konvex f¨ uggv´eny, ´es E|Φ(ξn )| < ∞ minden n = 1, 2, . . . sz´ amra, akkor (Φ(ξn ), Fn ), n = 1 ,2, . . . , szubmarting´ al. A fenti a ´ll´ıt´ asok akkor is ´erv´enyesek, ha a Φ(·) f¨ uggv´eny egy a ≤ x ≤ b intervallumban van defini´ alva, ´es P (a ≤ ξn ≤ b) = 1 minden n = 1, 2, . . . sz´ amra, ahol a −∞ ≤ a < b ≤ ∞ sz´ amok tetsz˝ olegesek. Bizony´ıt´ as. Az a) esetben E(Φ(ξn+1 )|Fn ) ≥ Φ(E(ξn+1 |Fn )) = Φ(ξn ) 1 val´ osz´ın˝ us´eggel a Jensen egyenl˝otlens´eg ´es a marting´ al tulajdons´ag miatt. A b) esetben E(Φ(ξn+1 )|Fn ) ≥ Φ(E(ξn+1 |Fn )) 1 val´ osz´ın˝ us´eggel, ´es mivel E(ξn+1 |Fn ) ≥ ξn , ´es Φ(·) monoton n˝ovekv˝o f¨ uggv´eny, ez´ert Φ(E(ξn+1 |Fn )) ≥ Φ(ξn ) 1 val´ osz´ın˝ us´eggel. Ezekb˝ol az egyenl˝otlens´egekb˝ol k¨ ovetkezik a b) r´esz ´ all´ıt´ asa. A c) r´esz bizony´ıt´ asa hasonl´o. Felid´ezek m´eg egy eredm´enyt arr´ ol, hogy hogyan lehet kisz´ amolni egy val´ osz´ın˝ us´egi v´ altoz´ o f¨ uggv´eny´enek a v´ arhat´ o ´ert´ek´et. Az´ert id´ezem fel ezt az eredm´enyt, mert k´es˝obb sz¨ uks´eg¨ unk lesz r´a. Az ismertetend˝ o formula val´ oj´aban a Stieltjes integr´alokra vonatkoz´ o parci´ alis integr´al´ as egy alkalmaz´asa. Egy a v´ arhat´ o´ ert´ ek kisz´ amol´ as´ ar´ ol sz´ ol´ o formula. Legyen ξ olyan val´ osz´ın˝ us´egi v´ altoz´ o, amelyre P (ξ ≥ 0) = 1. Jel¨ olje F (x) = P (ξ < x), 0 ≤ x < ∞, a ξ val´ osz´ın˝ us´egi v´ altoz´ o elosz´ asf¨ uggv´eny´et, ´es legyen G(x) = 1 − F (x) = P (ξ ≥ x). Tekints¨ unk egy monoton, folytonos H(x) f¨ uggv´enyt az x ≥ 0 f´elegyenesen, amelyre H(0) = 0. Ekkor EH(ξ) =
Z
0
∞
H(x)F ( dx) = −
Z
∞
0
H(x)G( dx) =
Z
∞
G(x)H( dx).
0
R´ at´erek a Shannon–McMillan–Breiman t´etel bizony´ıt´ as´ara. El˝osz¨ or annak a k¨ ovetkez˝ o gyeng´ebb form´aj´at bizony´ıtom. A Shannon–McMillan–Breiman t´ etel egy gyeng´ ebb alakja. Igaz az invert´ alhat´ o dinamikus rendszerekre kor´ abban megfogalmazott Shannon–McMillan–Breiman t´etel 85
abban a speci´ alis esetben, ha a t´etelben tekintett ξ val´ osz´ın˝ us´egi v´ altoz´ o ´ert´ekeit egy v´eges X = {x1 , x2 , . . . , xr } halmazon veszi fel. R´eszletesebben megfogalmazva ebben az esetben a (6.4) formul´ aban a ξk (ω) sorozat seg´ıts´eg´evel defini´ alt gk (ω), k = 0, 1, 2, . . . , val´ osz´ın˝ us´egi v´ altoz´ ok teljes´ıtik a k¨ ovetkez˝ o k´et rel´ aci´ ot. a) Majdnem minden ω ∈ Ω pontban teljes¨ ul a lim gk (ω) = g∞ (ω) rel´ aci´ o egy alkalmas k→∞
g∞ (ω) val´ osz´ın˝ us´egi v´ altoz´ oval. b) E sup gk (ω) < ∞. k≥1
Tov´ abb´ a, ha adva van egy (Ω, A, P, T ) ergodikus invert´ alhat´ o dinamikus rendszer ´es azon egy olyan ξ val´ osz´ın˝ us´egi v´ altoz´ o, amely ´ert´ekeit egy v´eges vagy megsz´ aml´ alhat´ oan v´egtelen X = {x1 , x2 , . . . } halmazon veszi fel akkor vezess¨ uk be a ξk = T k ξ, −∞ < k < ∞, val´ osz´ın˝ us´egi v´ altoz´ okat. Ha az ezen ξk val´ osz´ın˝ us´egi v´ altoz´ ok a ´ltal a (6.4) formul´ aban defini´ alt gk (ω), k = 0, 1, 2, . . . , val´ osz´ın˝ us´egi v´ altoz´ ok teljes´ıtik a fent megfogalmazott a) ´es b) rel´ aci´ okat akkor a ξn , −∞ < n < ∞, sorozat teljes´ıti a (6.3) formul´ at. Feladat. Bizony´ıtsuk be, hogy az a) ´es b) rel´ aci´ok teljes¨ ul´ese eset´en a (6.3) formul´ anak az a v´ altozata is igaz, amelyben az 1 val´ osz´ın˝ us´egi konvergencia helyett L1 norm´ aban val´ o konvergenci´ at k¨ ovetel¨ unk meg. Az el˝ oz¨ oleg megfogalmazott t´etel l´enyeg´eben a Shannon–McMillan–Breiman t´etel ˝ eredetileg csak v´eges sok ´ert´eket felvev˝o eredeti, Breiman ´ altal bizony´ıtott alakja. O val´ osz´ın˝ us´egi v´ altoz´ ok sorozat´ara bizony´ıtotta be az ´ all´ıt´ ast, mert csak ebben az esetben tudta igazolni az a) ´es b) rel´ aci´ot. (A f˝ o neh´ezs´eget a b) rel´ aci´o igazol´asa jelenti.) El˝osz¨ or Kai Lai Chung publik´ alt eredm´enyt arr´ ol, hogy ez a b) tulajdons´ag, ´es ´ıgy a Shannon–McMillan–Breiman t´etel az ´ altal´ anos esetben is ´erv´enyes (A note on the ergodic theorem of information theory. Ann. Math. Statist. 32, 612–614 (1961)), de az o˝ bizony´ıt´ asa hib´as. Mi ehelyett Andrew R. Barron The strong ergodic theorem for densities: Generalized Shannon–McMillan–Breiman theorem, (The Annals of Probability (1985) Vol. 13 No.4 1292–1303) cikk´enek a seg´ıts´eg´evel fogjuk bizony´ıtani, hogy az a) ´es b) rel´ aci´ok ´es ´ıgy a Shannon–McMillan–Breiman t´etel ´erv´enyes az a´ltal´ anos esetben is. Barron eredm´eny´enek m´ as ´erdekes k¨ ovetkezm´enye is van. A Shannon–McMillan–Breiman t´etel gyeng´ebb alakj´ anak a bizony´ıt´ asa. El˝osz¨ or az a) ´es b) rel´ aci´ot bizony´ıtjuk be abban az esetben, ha a ξ val´ osz´ın˝ us´egi v´ altoz´ o X ´ert´ekk´eszlete v´eges halmaz. Ennek ´erdek´eben bevezetj¨ uk a k¨ ovetkez˝ o mennyis´egeket. pk+1 (ξ−k (ω), . . . , ξ−1 (ω), xj ) pk (ξ−k (ω), . . . , ξ−1 (ω)) = − log P (ξ0 = xj |ξ−k (ω), . . . , ξ−1 (ω)),
fkj (ω) = − log
k ≥ 1, xj ∈ X.
R¨ ogz´ıts¨ unk egy j, 1 ≤ j ≤ r, sz´amot (az r sz´am az X = {x1 , . . . , xr } halmaz definici´ oj´aban jelent meg), ´es vezess¨ uk be az ηk = ηkj = P (ξ0 = xj |ξ−k (ω), . . . , ξ−1 (ω)), k = 1, 2, . . . , val´ osz´ın˝ us´egi v´ altoz´ okat ´es Fk = σ(ξ−1 , . . . , ξ−k ) σ-algebr´akat. Az (ηk , Fk ), 86
k = 1, 2, . . . rendszer marting´ al. Ismertetem e t´eny elemi bizony´ıt´ as´at, de el˝ otte egy megjegyz´esben le´ırom, hogy hogyan k¨ ovetkezik ez a t´eny ´ altal´ anosabb, j´ ol ismert ´es egyszer˝ uen igazolhat´o eredm´enyekb˝ ol. Megjegyz´es. Legyen F1 ⊂ F2 ⊂ · · · n˝ovekv˝o σ-algebr´aknak egy sorozata, ´es ξ, E|ξ| < ∞, egy val´ osz´ın˝ us´egi v´ altoz´ o egy (Ω, A, P ) val´ osz´ın˝ us´egi mez˝ on. Ekkor az (E(ξ|Fn ), Fn ), n = 1, 2, . . . , rendszer marting´ al. Speci´alisan, ha ξ egy A ⊂ A halmaz indik´atorf¨ uggv´enye (A = {ω: ξ0 = xj } v´ alaszt´ assal), akkor ez az eredm´eny speci´ alis esetk´ent tartalmazza az el˝ obb megfogalmazott ´ all´ıt´ ast. Ha nem k´ıv´anunk hivatkozni a fenti eredm´enyre, akkor az el˝ obb defini´alt rendszer marting´ al tulajdons´ag´ at megkapjuk az al´ abbi sz´amol´ asok seg´ıts´eg´evel. Az {ω: ξ−k (ω) = xjk , . . . , ξ−1 (ω) = xj1 } halmazon X E(ηk+1 |ξ−k = xjk , . . . , ξ−1 = xj1 ) = P (ξ−k−1 = x|ξ−k = xjk , . . . , ξ−1 = xj1 ) x∈X
P (ξ0 = xj |ξ−k−1 = x, ξ−k = xjk . . . , ξ−1 = xj1 ) P (ξ0 = xj , ξ−k = xjk , . . . , ξ−1 = xj1 ) = ηk . = P (ξ−k = xjk , . . . , ξ−1 = xj1 )
Tov´ abb´a Eηk = E|ηk | ≤ 1. Ez´ert a marting´ al konvergenciat´etel alapj´ an 1 val´ osz´ın˝ uj s´eggel l´etezik az η∞ (ω) = lim ηk (ω), ´es ´ıgy a logaritmus f¨ uggv´eny folytonoss´aga miatt az
j f∞ (ω)
= lim
k→∞
fkj (ω)
k→∞
hat´ar´ert´ek, b´ar nem tudjuk kiz´ arni annak a lehet˝ os´eg´et, hogy
j az f∞ (ω) hat´ar´ert´ek v´egtelen. Mivel fkj (ω) = gk (ω) az {ω: ξ0 (ω) = xj } halmazon, innen k¨ ovetkezik, hogy az esetleg v´egtelen g∞ (ω) = lim gk (ω) hat´ar´ert´ek is l´etezik k→∞
1 val´ osz´ın˝ us´eggel. Annak ´erdek´eben, hogy bel´ assuk a b) rel´ aci´ot, j´ o becsl´est adunk a P (sup gk (ω) > λ) k≥1
val´ osz´ın˝ us´egre minden λ ≥ 0 sz´amra. ´Irjuk fel a X r j P sup gk (ω) > λ = P ω: sup fk (ω) > λ ∩ {ω: ξ0 (ω) = xj } k≥1
=
j=1 ∞ r X X
j=1 k=1
azonoss´agot, ahol Fj,k =
k≥1
P (Fj,k ∩ {ω: ξ0 (ω) = xj })
ω: max
=
Z
1≤p
fpj (ω)
≤ λ,
fkj (ω)
>λ
R¨ ogz´ıtett j sz´amra az Fj,k halmazok, k = 1, 2, . . . , diszjunktak, ´es mivel Fj,k ∈ Fk = σ(ξ−1 (ω), . . . , ξ−k (ω)) Z P (ξ0 (ω) = xj |ξ−1 (ω), . . . , ξ−k (ω))P ( dω) P (Fj,k ∩ {ω: ξ0 (ω) = xj }) = Fj,k
Fj,k
e
−fkj (ω)
P ( dω) ≤
87
Z
Fj,k
e−λ P ( dω) = e−λ P (Fj,k ).
Innen X ∞ r X P sup gk (ω) > λ = P (Fj,k ∩ {ω: ξ0 (ω) = xj }) k≥1
j=1 k=1
≤ e−λ
∞ r X X j=1
P (Fj,k )
k=1
!
≤ re−λ
minden λ > 0 sz´amra. Ebb˝ ol az egyenl˝otlens´egb˝ol k¨ ovetkezik a b) rel´ aci´o. R´ at´erek a Shannon–McMillan–Breiman t´etel bizony´ıt´ as´ara az a) ´es b) rel´ aci´o seg´ıts´eg´evel. Mivel lim gk (ω) = g∞ (ω) 1 val´ osz´ın˝ us´eggel, a b) rel´ aci´o ´es a domin´alt k→∞
konvergencia t´etel (Lebesgue t´etel) alapj´ an azt kapjuk, hogy Eg∞ (ω) = lim Egk (ω) = k→∞
lim H(ξ0 |ξ−1 , . . . , ξ−k ) = H(T, ξ). Ez speci´alisan azt is jelenti, hogy g∞ (ω) 1 val´ osz´ı-
k→∞
n˝ us´eggel v´eges. A (6.5) formul´ at pontosan megfogalmazva azt ´ırhatjuk, hogy
n−1 n−1 1 1X 1X k − log pn (ξ0 (ω), . . . , ξn−1 (ω)) = g∞ (T ω) + (gk (T k ω) − g∞ (T k (ω)). n n n k=0
k=0
Tov´ abb´a az ergod t´etel alapj´ an n−1 1X g∞ (T k ω) = Eg∞ (ω) = H(T, ξ) n→∞ n
lim
1 val´ osz´ın˝ us´eggel.
k=0
Ez´ert a t´etel bizony´ıt´ as´anak befejez´es´ehez el´eg megmutatni, hogy n−1 1X lim (gk (T k ω) − g∞ (T k (ω)) = 0 1 val´ osz´ın˝ us´eggel. n→∞ n k=0
Ennek ´erdek´eben vezess¨ uk be a GN (ω) = sup |gk (ω) − g∞ (ω)|, N = 1, 2, . . . , val´ osz´ın˝ uk≥N
s´egi v´ altoz´ okat, ´es bizony´ıtsuk be, hogy lim EGN (ω) = 0. Val´ oban, lim GN (ω) = 0 N →∞
N →∞
1 val´ osz´ın˝ us´eggel, GN (ω) ≤ sup gk (ω)+g∞ (ω) minden N indexre, ´es mivel E[sup gk (ω)+ k≥1
k≥1
g∞ (ω)] < ∞ a domin´alt konvergencia t´etelb˝ ol k¨ ovetkezik a k´ıv´ant a´ll´ıt´ as. Ez´ert az ergod t´etel seg´ıts´eg´evel a k¨ ovetkez˝ o becsl´est tudjuk tenni. Vegy¨ unk egy tetsz˝oleges N ≥ 1 eg´esz sz´amot. Ekkor n−1 n−1 1 X 1X k k (gk (T ω) − g∞ (T (ω)) ≤ lim sup |gk (T k ω) − g∞ (T k (ω))| lim sup n n→∞ n→∞ n k=0
k=0
≤ lim sup n→∞
88
1 n
n−1 X k=0
GN (T k ω) = EGN (ω)
1 val´ osz´ın˝ us´eggel. Mivel lim EGN (ω) = 0, innen N →∞
n−1 1 X k k lim (gk (T ω) − g∞ (T (ω)) = 0 1 val´ osz´ın˝ us´eggel, n→∞ n k=0
´es ezt kellett bel´ atnunk.
R´ at´erek a Shannon–McMillan–Breiman t´etel ´ altal´ anos alakj´ anak a bizony´ıt´ as´ara. El´eg azt megmutatni, hogy a t´etel gyeng´ebb alakj´ anak megfogalmaz´as´aban szerepl˝o a) ´es b) rel´ aci´o az ´ altal´ anos esetben is ´erv´enyes, ´es nemcsak akkor, ha ξ v´eges sok ´ert´eket vesz fel. Ezt a k¨ ovetkez˝ o eredm´eny seg´ıts´eg´evel fogom bizony´ıtani. Becsl´ es Radon–Nikodym deriv´ altak n¨ ovekv˝ o σ-algebr´ akra vonatkoz´ o viselked´ es´ er˝ ol. Legyen adva egy (X, A) m´erhet˝ o t´er ´es azon n¨ ovekv˝ o σ-algebr´ ak F1 ⊂ F2 ⊂ · · · ⊂ A sorozata. Jel¨ olje F∞ a Fn , n = 1, 2, . . . , σ-algebr´ ak uni´ oja a ´ltal gener´ alt σalgebr´ at. Legyen P ´es Q k´et olyan val´ osz´ın˝ us´egi m´ert´ek az (X, F∞ ) t´eren, amelyeknek az Fn σ-algebr´ akra vett Pn ´es Qn megszor´ıt´ asaira Pn abszolut folytonos a Qn m´ert´ekre dPn a Pn m´ert´ek Qn m´ert´ek szerinti n´ezve minden n = 1, 2, . . . indexre, ´es jel¨ olje ρn = dQ n Radon–Nikodym deriv´ altj´ at. (Nem tessz¨ uk fel, hogy P abszolut folytonos a Q m´ert´ekre n´ezve az F∞ σ-algebr´ an is.) Ekkor l´etezik a ρ∞ (ω) = lim ρn (ω) hat´ ar´ert´ek P majdnem n→∞ minden ω ∈ X pontban. Az E log ρn f¨ uggv´eny az n index monoton n¨ ovekv˝ o f¨ uggv´enye. Ha lim E log ρn < ∞, akkor lim E log ρn = E log ρ∞ , ´es n→∞
n→∞
E sup | log ρn | ≤ eE log ρ∞ + e + 2 = e lim E log ρn + e + 2. n→∞
n
(6.6)
A most megfogalmazott eredm´enyben tekintett v´ arhat´ o ´ert´ekeket a P m´ert´ek szerint vett¨ uk. El˝osz¨ or megmutatom, hogyan bizony´ıthat´ o ezen eredm´eny seg´ıts´eg´evel a Shannon– McMillan–Breiman t´etel az ´ altal´ anos esetben. A Shannon–McMillan–Breiman t´etel bizony´ıt´ asa az el˝ oz˝ o Radon–Nikodym deriv´ altakr´ ol ±∞ ±∞ ¯ sz´ ol´ o becsl´es seg´ıts´eg´evel. Feltehetj¨ uk, hogy az (X , A , T, P ) invert´ alhat´ o dinamikus rendszerben dolgozunk, ahol X ±∞ az ¨ osszes ω = (. . . , xj−1 , xj0 , xj1 , . . . ), xjn ∈ X minden −∞ < n < ∞ indexre, k´et ir´anyban v´egtelen X halmazbeli elemekb˝ ol a´ll´ o sorozat, A±∞ a Borel σ-algebra ezen a halmazon, a T shift transzform´ aci´o a baloldali eltol´ as az X ±∞ t´eren, azaz egy ω = (. . . , xj−1 , xj0 , xj1 , . . . ) ∈ X ±∞ pontra T ω = (. . . , xj0 , xj1 , xj2 , . . . ), P¯ egy alkalmas ergodikus val´ osz´ın˝ us´egi m´ert´ek ezen a t´eren. A (6.3) rel´ aci´ot a k¨ ovetkez˝ o k´eplettel defini´alt ξn , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ okra akarjuk bizony´ıtani: ξn (ω) = xjn , −∞ < n < ∞, az ω = (. . . , xj−1 , xj0 , xj1 , . . . ) pontban. Ezzel a jel¨ol´essel ξ(ω) = ξ0 (ω) a t´etel megfogalmaz´as´aban. Val´ oban, tekintve a t´etelben eredetileg vizsg´alt (X, A, T, P ) dinamikus rendszert ´es a rajta defini´alt ξn = T n ξ, −∞ < n < ∞, val´ osz´in˝ us´egi v´ altoz´ okat vezess¨ uk be −1 0 1 ±∞ az Ω t´er U (ω) = (. . . , T ξ(ω), T ξ(ω), T ξ(ω), . . . ) lek´epez´es´et az X t´erbe. Ezut´ an 89
defini´aljuk a P¯ val´ osz´ın˝ us´egi m´ert´eket, mint a P m´ert´eknek az U transzform´ aci´o szerinti osk´ep´et, azaz legyen P¯ (A) = P ({ω: U (ω) ∈ A}) minden A ∈ A±∞ halmazra. Be lehet ˝ l´atni, hogy ily m´ odon egy invert´ alhat´ o (X ±∞ , A±∞ , T, P ) dinamikus rendszert kapunk, amely ergodikus, ha az eredeti (Ω, A, T, P ) rendszer az volt, ´es az ebben a rendszerben defini´alt ξn = T n ξ0 , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ ok egy¨ uttes eloszl´ asa megegyezik az eredeti ξn , −∞ < n < ∞, val´ osz´ın˝ us´egi v´ altoz´ ok egy¨ uttes eloszl´ as´aval. Ez´ert el´eg a bizony´ıtand´ o (6.3) formul´ at ebben az u ´j rendszerben bel´ atni. El´eg azt megmutatni, hogy a (6.4) formul´ aban a most bevezetett ξn val´ osz´ın˝ us´egi v´ altoz´ ok seg´ıts´eg´evel defini´alt gk (ω) f¨ uggv´enyek teljes´ıtik a Shannon–McMillan–Breiman t´etel gyeng´ebb alakj´ anak megfogalmaz´as´aban szerepl˝o a) ´es b) rel´ aci´okat. Ezt a Becsl´es Radon–Nikodym deriv´ altak n¨ ovekv˝ o σ-algebr´ akra vonatkoz´ o viselked´es´er˝ ol eredm´enye seg´ıts´eg´evel fogom igazolni a k¨ ovetkez˝ o szereposzt´assal. ±∞ ±∞ Az (X , A ) m´erhet˝ o t´erben fogunk dolgozni, ´es a Fn σ-algebr´akat u ´gy fogjuk defini´alni, mint az olyan (m´erhet˝ o) halmazokb´ ol ´ all´ o σ-algebr´akat, amelyek az ω = (. . . , xj−1 , xj0 , xj1 , . . . ) pontoknak csak az xj−n , xj−n+1 , . . . , xj0 koordin´ at´ ait´ ol f¨ uggnek. R´eszletesebben fogaln mazva vezess¨ uk be az X = {(xj0 , . . . , xjn ) . . . xjs ∈ X, minden 0 ≤ s ≤ n indexre} halmazt, ´es defini´aljuk minden x ¯ = (¯ xj0 , . . . , x ¯jn ) ∈ X n pontra az A(¯ x) = {ω = (. . . , xj−1 , xj0 , xj1 , . . . ): xj−s = x ¯jn−s , 0 ≤ s ≤ n} ∈ A±∞ halmazt. Az Fn σ-algebra megegyezik az ilyen A(¯ x) halmazok a´ltal gener´ alt σ-algebr´aval. Az Fn , n = 1, 2, . . . , σ-algebr´ak ´ altal gener´ alt F∞ σ-algebra az olyan A ∈ A±∞ halmazokb´ ol ´ all, amelyekre az ω ∈ A rel´ aci´o teljes¨ ul´ese vagy nem teljes¨ ul´ese egy ω = (. . . , xj−1 , xj0 , xj1 , . . . ) pontra csak az ω pont xjs , s ≤ 0, koordin´ at´ ait´ ol f¨ ugg. A P m´ert´eket u ´gy defini´alom a F∞ σ-algebr´an, mint a P¯ m´ert´ek megszor´ıt´ as´at erre a σ-algebr´ara, teh´at a P ({ω = (. . . , xj−1 , xj0 , xj1 , . . . ): xj−n = x ¯jn , . . . , xj−1 = x ¯j1 , xj0 = x ¯j0 }) ¯ = P (ξ−n = x ¯jn , . . . , ξ−1 = x ¯j1 , ξ0 = x ¯ j0 ) k´eplet ´erv´enyes minden n = 1, 2, . . . sz´amra, ´es minden x ¯js ∈ X, 0 ≤ s ≤ n, pontokb´ol all´ ´ o n hossz´ us´ ag´ u sorozatra. Ez a k´eplet egy´ertelm˝ uen defini´alja a P m´ert´eket a F∞ σ-algebr´an. A Q m´ert´eket a F∞ σ-algebr´an Q({ω = (. . . , xj−1 , xj0 , xj1 , . . . ): xj−n = x ¯jn , . . . , xj−1 = x ¯j1 , xj0 = x ¯j0 }) = P¯ (ξ−n = x ¯jn , . . . , ξ−1 = x ¯j1 )P (ξ0 = x ¯ j0 ) k´eplet defini´alja, amely ´erv´enyes minden n = 1, 2, . . . sz´amra, ´es minden x ¯js ∈ X, 0 ≤ s ≤ n, pontokb´ol ´ all´ o sorozatra. 90
A Pn m´ert´ek, azaz a P m´ert´ek megszor´ıt´ asa az Fn σ-algebr´ara abszolut folytonos a Qn m´ert´ekre, a Q m´ert´ek megszor´ıt´ as´ara az Fn σ-algebr´ara, ´es fel tudjuk ´ırni a Radon– Nikodym deriv´altj´ at. Nevezetesen ρn (ω) =
P (ξ−n = xj−n , . . . , ξ−1 = xj−1 , ξ0 = xj0 ) Pn ( dω) = Qn ( dω) P (ξ−n = xj−n , . . . , ξ−1 = xj−1 )P (ξ0 = xj0 ) pn+1 (ξ−n (ω), . . . , ξ−1 (ω), ξ0 (ω)) = , pn (ξ−n (ω), . . . , ξ−1 (ω))p1 (ξ0 (ω))
ha ω = (. . . , xj−1 , xj0 , xj1 , . . . ). Innen pn+1 (ξ−n (ω), . . . , ξ−1 (ω), ξ0 (ω)) − E log p1 (ξ0 (ω)) pn (ξ−n (ω), . . . , ξ−1 (ω)) = −H(ξ0 |ξ−1 , . . . , ξ−n ) + H(ξ0 ),
E log ρn = E log
´es ennek a kifejez´esnek van egy az n indext˝ ol nem f¨ ugg˝o fels˝o korl´ atja, ha H(ξ0 ) < ∞. Ez´ert ebben az esetben ´erv´enyes a (6.6) becsl´es. Tov´ abb´a, mivel gk (ω) = − log ρk (ω) − log p1 (ξ0 (ω)) minden k = 1, 2, . . . indexre, E sup gk (ω) ≤ E sup | log ρk (ω)| + H(ξ0 ), ´es k≥1
k≥1
a (6.6) formul´ ab´ ol k¨ ovetkezik a b) rel´ aci´o a H(ξ) < ∞ esetben. Tov´ abb´a, lim gk (ω) = k→∞
− lim log ρk (ω) − log p1 (ξ0 (ω)) = − log ρ∞ (ω) − log p1 (ξ0 (ω)) 1 val´ osz´ın˝ us´eggel, azaz az k→∞
a) rel´ aci´o is teljes¨ ul. A Shannon–McMillan–Breiman t´etelt a Becsl´es Radon–Nikodym deriv´ altak n¨ ovekv˝ o σ-algebr´ akra vonatkoz´ o viselked´es´er˝ ol eredm´enye seg´ıts´eg´evel bel´ attuk. A Becsl´es Radon–Nikodym deriv´ altak n¨ ovekv˝ o σ-algebr´ akra vonatkoz´ o viselked´es´er˝ ol eredm´eny´enek a bizony´ıt´ as´aban a f˝ o neh´ezs´eg az E sup | log ρn (ω)| v´ arhat´ o ´ert´ek n
becsl´ese. Vezess¨ uk be a log− x = − min(log x, 0) ´es log+ x = max(log x, 0) f¨ uggv´enyeket. Fel´ırhatjuk az E sup | log ρn (ω)| ≤ E sup log+ ρn (ω) + E sup log− ρn (ω) n
n
n
1 1 = E sup log− + E sup log+ ρn (ω) ρn (ω) n n egyenl˝otlens´eget. Az ezen egyenl˝otlens´eg jobboldal´ an lev˝ o k´et tagot fogom megbecs¨ ulni. E k´et tag becsl´ese m´ as m´ odszereket ig´enyel. Az els˝ o tag becsl´es´eben hasznos a k¨ ovetkez˝ o lemma. Egy marting´ al tipus´ u egyenl˝ otlens´ eg val´ osz´ın˝ us´ egi v´ altoz´ ok szupr´ emum´ anak a v´ arhat´ o´ ert´ ek´ er˝ ol. Legyen Zn , Zn ≥ 0, n = 1, 2, . . . , nem negat´ıv szupermarting´ al. Ekkor E sup log− Zn ≤ e + e sup E log− Zn . n
n
91
Bizony´ıt´ as. R¨ ogz´ıts¨ nk egy r > 1 sz´amot, ´es vezess¨ uk be az Yn = φ(Zn ), n = 1, 2, . . . , val´ osz´ın˝ us´egi v´ altoz´ ok sorozat´at, ahol φ(x) = φr (x) = max(1, (log− x)1/r ). Azt a´ll´ıtom, hogy az Yn , n = 1, 2, . . . , sorozat szubmarting´al. Mivel φ(x), x ≥ 1, monoton cs¨okken˝ o f¨ uggv´eny, a Lemma marting´ alok, szubmarting´ alok ´es szupermarting´ alok konvex f¨ uggv´enyeir˝ ol eredm´enye alapj´ an ennek igazol´as´ahoz el´eg megmutatni, hogy a φ(x) f¨ uggv´eny konvex. A φ(x) f¨ uggv´eny speci´ alis alakja miatt d2 φ(x) 1 ehhez elegend˝ o azt ellen˝ orizni, hogy dx2 ≥ 0 a 0 < x < e intervallumon. Viszont 2
φ(x) 1 = − rx (− log x)(1−r)/r , ´es d dx = ezen az intervallumon φ(x) = (− log x)1/r , dφ(x) 2 dx r−1 1 (1−2r)/r as utols´ o l´ep´es´eben felhaszn´altuk, [− log x − r ] ≥ 0. (E sz´amol´ rx2 (− log x) r−1 1 hogy − log x ≥ 1 > r , ha 0 < x < e .)
Mivel log− Zn ≤ φ(Zn )r ≤ 1 + log− Zn minden n = 1, 2, . . . sz´amra, ez´ert a T´etel szubmarting´ alok szupr´emum´ anak a momentumair´ ol eredm´enye alapj´ an r r − r sup Eφ(Zn )r E sup log Zn ≤ E sup φ(Zn ) ≤ r−1 n n n r r ≤ sup(1 + E log− Zn ). r−1 n
Innen r → ∞ hat´ar´ atmenettel megkapjuk a lemma ´ all´ıt´ as´at. A Radon–Nikodym deriv´ altak n¨ ovekv˝ o σ-algebr´ akra vonatkoz´ o viselked´es´er˝ ol sz´ ol´ o becsl´es 1 bizony´ıt´ asa. El˝osz¨ or azt mutatom meg, hogy az ( ρn , Fn ), n = 1, 2, . . . , rendszer szuperosz´ın˝ us´egi v´ altoz´ ok 1 val´ osz´ın˝ us´eggel defini´alva vannak, mert marting´ al. (Az ρn1(ω) val´ P ({ω: ρn (ω) = 0}) = 0.) Ennek ´erdek´eben vegy¨ uk ´eszre, hogy a (ρn , Fn ), n = 1, . . . , rendszer marting´ Az igazoland´ o marting´ al tulajdons´ag azt jelenti R R al a Q m´ert´ek szerint. ugyanis, hogy A ρn (ω)Q( dω) = A ρn+1 (ω)Q( dω) minden A ∈ Fn halmazra. Ez az azonoss´ag viszont igaz, mert annak mind a k´et oldala P (A)-val egyenl˝o. (Felhaszn´altuk, hogy A ∈ Fn eset´en A ∈ Fn+1 .) Vezess¨ uk be a k¨ ovetkez˝ o g(x) f¨ uggv´enyt: g(x) = 1, ha x > 0, ´es g(0) = 0. A g(·) f¨ uggv´eny konk´ av a [0, ∞) f´elegyenesen, ρn (ω) ≥ 0 minden ω ∈ X pontban, ´es n = 1, 2, . . . indexre. Tov´ abb´a g(ρn (ω)) = I({ρn (ω) > 0}), ahol I(A), A ∈ A, az A halmaz indik´atorf¨ uggv´eny´et jel¨oli. A fenti tulajdons´agokb´ ol k¨ ovetkezik, hogy az (I({ρn (ω) > 0}), Fn ), n = 1, 2, . . . , sorozat szupermarting´al a Q m´ert´ek szerint. Azt a´ll´ıtom, hogy abb´ol, hogy az (I({ρn (ω) > 0}), Fn ), n = 1, 2, . . . , sorozat szupermarting´ al a Q m´ert´ek szerint, k¨ ovetkezik,hogy az ( ρn1(ω) , Fn ), n = 1, 2, . . . , rendszer szupermarting´al (a P m´ all´ıt´ as ekvivalens.) Ehhez elegend˝ o R oj´aban a k´et ´ R ert´ek szerint). (Val´ ¯ minden A ∈ Fn megmutatni, hogy A ρn1(ω) P ( dω) = A I({ρn (ω) > 0}Q( dω) = Q(A) R 1 ¯ ˜ P ( dω) = Q(A) halmazra, ahol Q(A) = Q(A ∩ {ω: ρn (ω) > 0}), ´es hasonl´oan A ρn+1 (ω)
˜ minden A ∈ Fn halmazra, ahol Q(A) = Q(A ∩ {ω: ρn+1 (ω) > 0}). Ugyanis az, 1 hogy az ( ρn (ω) , Fn ), n = 1, 2, . . . , rendszer szupermarting´al u ´gy is megfogalmazhat´ o, R R 1 1 hogy A ρn (ω) P ( dω) ≥ A ρn+1 (ω) P ( dω) minden A ∈ Fn halmazra, m´ıg az, hogy az 92
(I({ρn (ω) > 0}), Fn ),R n = 1, 2, . . . , sorozat szupermarting´ al a Q m´ert´ek szerint azt R ˜ ¯ jelenti, hogy Q(A) = A I({ρn (ω) > 0})Q( dω) ≥ A I({ρn+1 (ω) > 0})Q( dω) = Q(A) minden A ∈ Fn halmazra. R ¯ Viszont tudjuk, hogy R P (A) = A ρnR(ω)Q( dω) minden A ∈ Fn halmazra. Innen ¯ dω) minden Fn m´erhet˝ az is k¨ ovetkezik, hogy u(ω)P ( dω) = u(ω)ρn (ω)Q( o, nem I(A)(ω) uggv´enyre negat´ıv u(·) f¨ uggv´enyre. Alkalmazzuk ezt a formul´ at az u(ω) = ρn (ω) f¨ R 1 ¯ valamely A ∈ Fn halmazzal. Azt kapjuk, hogy A ρn (ω) P ( dω) = Q(A), ´es ez volt az els˝ o bizony´ıtand´ o ´ all´ıt´ as. A m´ asodik bizony´ıtand´ o ´ all´ıt´ ast egyszer˝ uen megkapjuk az els˝ ob˝ ol, ha azt az n + 1 indexre alkalmazzuk az n index helyett, ´es felhaszn´aljuk azt, hogy A ∈ Fn+1 , ha A ∈ Fn . A fenti rel´ aci´okb´ ol az is k¨ ovetkezik, hogy E| ρ1n | = E ρ1n = Q(ω: ρn (ω) > 0) ≤ 1. Ez´ert a marting´ al konvergenciat´etelt alkalmazhatjuk a (− ρ1n , Fn ) szubmarting´alra, ´es osz´ın˝ us´eggel konverg´al. Innen az is k¨ ovetkezik, azt kapjuk, hogy az ρn1(ω) sorozat 1 val´ hogy a ρn (ω) sorozat 1 val´ osz´ın˝ us´eggel konverg´al, de hat´ar´ert´eke lehet v´egtelen is. M´asr´eszt alkalmazhatjuk az Egy marting´ al tipus´ u egyenl˝ otlens´eg val´ osz´ın˝ us´egi v´ altoz´ ok szupr´emum´ anak a v´ arhat´ o ´ert´ek´er˝ ol eredm´eny´et az ( ρ1n , Fn ) szupermarting´alra, ´es az a E sup log− n
1 1 ≤ e + e sup E log− = e + e sup E log+ ρn (ω) ρn (ω) ρn (ω) n n
egyenl˝otlens´eget adja. Tov´ abb´a E log+ ρn (ω) = E log ρn (ω) + E log− ρn (ω) = E log ρn (ω) + EQ ρn (ω) log− ρn (ω), ahol EQ a Q m´ert´ek szerinti v´ arhat´ o ´ert´eket jel¨oli. (A 0 log 0 = 0 konvenci´ ot alkalmazzuk.) Mivel x log x ≥ − 1e , minden x ≥ 0 sz´amra ρn (ω) log− ρn (ω) ≤ 1e , ´es emiatt E log+ ρn (ω) ≤ E log ρn (ω) + 1e . Ez´ert az el˝ obb bizony´ıtott szupr´emum egyenl˝otlens´egnek igaz az al´ abbi k¨ ovetkezm´enye. E sup log− n
1 ≤ e + 1 + e sup E log ρn (ω). ρn (ω) n
(6.7)
(A (6.7) k´eplet el˝ ott v´egzett sz´amol´ asok c´elja az volt, hogy olyan egyenl˝otlens´eget bizony´ıtsunk, amelyben az E log ρn (ω) ´es nem az E log+ ρn (ω) mennyis´egek seg´ıts´eg´evel adunk fels˝o becsl´est.) Azt ´ all´ıtom, hogy igaz az E sup log+ n
1 ≤1 ρn (ω)
(6.8)
egyenl˝otlens´eg is. Ezt az al´ abbi Ionescu Tulce´ at´ ol sz´armaz´o ´ervel´es seg´ıts´eg´evel bizony´ıtom be. A (6.8) formula igazol´asa ´erdek´eben vezess¨ uk be a G(t) = P (sup log+ ρn1(ω) > t) n R∞ f¨ uggv´enyt, t ≥ 0, ´es ´ırjuk fel az E sup log+ ρn1(ω) = 0 G(t) dt azonoss´agot. (Az egy n
93
a v´ arhat´ o ´ert´ek kisz´ amol´ as´ ar´ ol sz´ ol´ o formula eredm´eny´et alkalmazzuk a H(x) = x f¨ uggv´eny v´ alaszt´ as´aval.) Defini´ aljuk ezenk´ıv¨ ul az An,t = {ω: log ρn1(ω) > t, max ρk1(ω) ≤ k
t} halmazokat minden t > 0 sz´amra ´es n = 1, 2, . . . indexre. R¨ ogz´ıtett t ≥ 0 sz´amra + 1 az An,t halmazok diszjunktak, uni´ojuk az {ω: sup log ρn (ω) > t} halmaz, ez´ert G(t) = ∞ P
n
R Ezenk´ıv¨ ul An,t ∈ Fn , ahonnan P (An,t ) = An,t ρn (ω)Q( dω). Mivel n=1 R ρn (ω) < e−t az ω ∈ An,t pontokban, innen P (An,t ) ≤ An,t e−t Q( dω) = e−t Qn (An,t ), ∞ ∞ P P Q(An,t ) ≤ e−t minden t > 0 sz´amra. Ez´ert P (An,t ) ≤ e−t ´es G(t) = P (An,t ).
n=1
n=1
1 E sup log ≤ ρn (ω) n +
amint ´ all´ıtottuk. A (6.7) ´es (6.8) formul´ ak alapj´ an E sup |ρn (ω)| = E sup log n
n
Z
∞
e−t dt = 1,
0
1 ≤ e sup E log ρn (ω) + e + 2. ρn (ω) n
(6.9)
Abb´ol, hogy az ( ρn1(ω) , Fn ), n = 1, 2, . . . , rendszer szupermarting´al, ´es − log x monoton cs¨okken˝ o konvex f¨ uggv´eny k¨ ovetkezik, hogy a (log ρn (ω), Fn ), n = 1, 2, . . . , rendszer szubmarting´al. Speci´alisan az E log ρn (ω), n = 1, 2, . . . , sorozat monoton n˝o. Ha lim E log ρn (ω) < ∞, akkor a (6.9) formul´ ab´ ol ´es a domin´alt konvergencia t´etelb˝ ol n→∞
k¨ ovetkezik, hogy lim E log ρn (ω) = E log ρ∞ (ω), ahol ρ∞ (ω) = lim ρn (ω). (Ez a n→∞
n→∞
ρ∞ (ω) hat´ar´ert´ek 1 val´ osz´ın˝ us´eggel l´etezik.) Innen ´es a (6.9) rel´ aci´ob´ ol k¨ ovetkezik a (6.6) formula. A t´etelt bel´ attuk.
A Shannon–McMillan–Breiman t´etel j´ o becs´est ad annak val´ osz´ın˝ us´eg´ere, hogy egy v´eges vagy megsz´ aml´alhat´ o sok ´ert´eket felvev˝o val´ osz´ın˝ us´egi v´ altoz´ okb´ ol a´ll´ o ergodikus, diszkr´et idej˝ u stacion´arius sztochasztikus folyamat egy hossz´ u szelete egy el˝ o´ırt tipikus ´ert´eket vesz fel. Hasonl´ o eredm´enyeket v´ arhatunk akkor is, ha olyan ergodikus, diszkr´et idej˝ u stacion´arius sztochasztikus folyamatokat tekint¨ unk, amelyek olyan val´ osz´ın˝ us´egi v´ altoz´ okb´ ol ´ allnak, amelyek ´ert´ekeiket egy ´ altal´ anos t´erben veszik fel. Term´eszetes azt v´ arni, hogy nagyon ´ altal´ anos felt´etelek mellett az ilyen diszkr´et idej˝ u sztochasztikus folyamatok t¨obbv´ altoz´ os s˝ ur˝ us´egf¨ uggv´enyei hasonl´o viselked´est mutatnak, mint az el˝ obb tekintett speci´ alis diszkr´et idej˝ u stacion´arius sztochasztikus folyamatok szeleteinak az eloszl´ asa. Annak ´erdek´eben, hogy pontosabban ´erts¨ uk, hogy mit jelent ez az a´ll´ıt´ as, megfogalmazok egy ilyen jelleg˝ u t´enyt kifejez˝ o eredm´enyt. Legyen (X, A, µ) egy val´ osz´ın˝ us´egi mez˝ o, ahol X egy teljes szepar´ abilis metrikus t´er, ´es A a Borel σ-algebra ezen a t´eren. Vegy¨ uk e val´ osz´ın˝ us´egi mez˝ onek az n = . . . , −1, 0, 1, . . . eg´esz sz´amokkal indexelt (Xn , An , µn ) p´eld´anyait, ´es defini´aljuk ezek (X ±∞ , A±∞ , µ∞ ) direkt szorzat´at. Vezess¨ uk be ezenk´ıv¨ ul azon Fn ⊂ A±∞ , n = ±∞ ±∞ ∞ 1, 2, . . . , σ-algebr´akat az (X , A , µ ) val´ osz´ın˝ us´egi mez˝ on, amelyek az x = (. . . , x−1 , x0 , x1 , . . . ) ∈ X ±∞ 94
pontok x−n+1 , . . . , x−1 , x0 koordin´ at´ ait´ ol f¨ ugg˝o hengerhalmazokb´ ol a´llnak. Azaz Fn az {x = (. . . , x−1 , x0 , x1 , . . . ) ∈ X ±∞ : (x−n+1 , . . . , x0 ) ∈ B} alak´ u halmazokb´ ol a´ll egy n n n n B ∈ A halmazzal. E k´epletben A az (X, A) t´er (X , A ) n-ik hatv´any´ aban szerepl˝o An σ-algebra. jel¨olje µn a µ∞ m´ert´ek megszor´ıt´ as´at a Fn σ-algebr´ara. Legyen adva egy ξn (x) = ξn (xn ), ha x = (. . . , x−1 , x0 , x1 , . . . ), −∞ < n < ∞, ergodikus, diszkr´et idej˝ u stacion´arius sorozat az (X ±∞ , A±∞ , µ∞ ) val´ osz´ın˝ us´egi mez˝ on. A k¨ ovetkez˝ o t´etelben a (ξ1 , . . . , ξn ) vektor s˝ ur˝ us´egf¨ uggv´eny´enek az aszimptotik´ aj´ara adunk j´ o becsl´est nagy n sz´amokra alkalmas felt´etelek teljes¨ ul´ese eset´en. Diszkr´ et idej˝ u stacion´ arius sztochasztikus folyamat v´ eges dimenzi´ os s˝ ur˝ us´ egf¨ uggv´ enyeinek egy Shannon–McMillan–Breiman t´ etel tipus´ u becsl´ ese. Te±∞ ±∞ ∞ kints¨ unk egy (X , A , µ ) val´ osz´ın˝ us´egi mez˝ ot ´es azon egy az el˝ obb bevezetett alak´ u ξn (x) = ξn (xn ), x ∈ X ±∞ , ∞ < n < ∞, ergodikus, diszkr´et idej˝ u stacion´ arius sztochasztikus folyamatot. Jel¨ olje P ezen (ξn (x), −∞ < n < ∞) sztochasztikus folyamat eloszl´ as´ at az (X ±∞ , A±∞ ) t´eren, ´es legyen Pn az Fn m´erhet˝ o (ξ−n+1 , . . . , ξ0 ) vektor ±∞ eloszl´ asa az (X , Fn ) t´eren. Tegy¨ uk fel, hogy minden n = 1, 2, . . . indexre a Pn n m´ert´ek abszolut folytonos a µ m´ert´ekre n´ezve, ´es jel¨ olje pn (x) = pn (x−n+1 , . . . , x0 ) = Pn ( dx) ert´eknek a µn m´ert´ek szerinti Radon–Nikodym µn ( dx) , x = (. . . , x−1 , x0 , x1 , . . . ), a Pn m´ R deriv´ altj´ at. Tegy¨ uk fel azt is, hogy a H = − log p1 (x)µ( dx) < ∞ rel´ aci´ o teljes¨ ul. Ekkor l´etezik a Z pn (x1 , . . . , xn ) lim − log µn ( dx1 , . . . , dxn ) = H(P, µ) n→∞ pn−1 (x1 , . . . , xn−1 ) hat´ ar´ert´ek, ´es 0 ≤ H(P, µ) ≤ H. Tov´ abb´ a lim −
n→∞
1 log pn (ξ1 (x), . . . , ξn (x)) = H(P, µ) n
P majdnem minden x ∈ X ±∞ pontban.
E t´etel bizony´ıt´ as´at, amely nagyon hasonl´ıt az eredeti Shannon–McMillan–Breiman t´etel bizony´ıt´ as´ahoz, elhagyom. Csak annyit jegyzek meg, hogy a bizony´ıt´ asban fontos szerepet j´ atszik a Becsl´es Radon–Nikodym deriv´ altak n¨ ovekv˝ o σ-algebr´ akra vonatkoz´ o viselked´es´er˝ ol eredm´enye, ´es egy olyan (P, Q) val´ osz´ın˝ us´egi m´ert´ekp´ art kell v´ alasztani, amellyel ´erdemes ezt az eredm´enyt alkalmazni. Egy´ebk´ent a Shannon–McMillan–Breiman t´etel bizony´ıt´ as´aban alkalmazott m´ert´ekp´ arhoz hasonl´o (P, Q) m´ert´ekp´ art ´erdemes v´ alasztani. Andrew R. Barron az ezen jegyzetben is eml´ıtett The strong ergodic theorem for densities: Generalized Shannon–McMillan–Breiman theorem Probability (1985) Vol. 13 No.4 1292–1303) cikk´eben az el˝ obb megfogalmazott eredm´eny lehets´eges a´ltal´ ano∞ s´ıt´ asaival foglalkozik. Azt a k´erd´est vizsg´alja, hogy milyen ´ altal´ anosabb µ domin´al´ o m´ert´ekek eset´eben marad ´erv´enyben a t´etel f˝ o´ all´ıt´ asa.
95