A
TEORIE PRO PRAXI
O bayesovském uèení Èlánek podává základní informace o bayesovském pøístupu k identifikaci systémù, o tzv. bayesovském uèení. Výklad je demonstrován na jednoduchém pøíkladu, kterým je hod potenciálnì pokozenou mincí. Jsou zde vyzdvieny pøednosti bayesovského uèení ve srovnání s obvyklým uèením metodami klasické statistiky. Tyto pøednosti spoèívají pøedevím v monosti zahrnout apriorní informace do procesu odhadování a monosti dát smysl i odhadùm z velmi malého mnoství dat. Klíèová slova: Model systému, apriorní hustota pravdìpodobnosti, aposteriorní hustota pravdìpodobnosti, vìrohodnostní funkce, bodové odhady parametrù, pøedpovìï budoucích dat.
1. Úvod Statistika slouí pro poznávání a pøedvídání jevù v reálných podmínkách neurèitosti. Její popisné i analytické nástroje jsou mimoøádnì bohaté ([1], [2], [3]) a jen specialisté jsou schopni je úèinnì vyuít. I ti jsou vak èasto nuceni zkouet, která z dostupných a potenciálnì slibných metod je vhodná v uvaovaném konkrétním pøípadì. Bayesovská statistika je mnohdy chápána jako jedna varianta ze zmínìného arzenálu statistiky. Tento pøíspìvek, který je úvodem k dalím dvìma èlánkùm zamìøeným na praxi, se pokouí ukázat bayesovskou statistiku jako zpùsob mylení, který: - umoòuje nerozpornì vyuít teoretickou, experimentální a expertní znalost, - poskytuje nejen odhady neznámých velièin, ale i informaci o jejich pøesnostech, a to i v koneèných èasech pozorování, - soustøeïuje pozornost uivatele na modelování jeho specifického problému a nikoliv na výbìr statistické metody. Význam pro praxi zvlátì posledního rysu nelze pøecenit; pøípadné neúspìchy ve zpracování nejsou subjektivní chybou zpùsobenou patným výbìrem metody, ale buï jsou dány objektivnì, nebo mohou být zlepeny lepím modelováním. V tomto èlánku budeme zmínìné vlastnosti ilustrovat na kolním pøíkladu odhadování vlastností hodù s pokozenou mincí. Tím uvedeme specialisty z jiných oblastí do mylenkové struktury bayesovského zpracování informací, ani bychom text pøetíili technickými detaily. Pøíspìvek slouí jako úvod ke zmiòovaným èlánkùm a mùe být vyui i jako úvod systematiètìjího studia, pro které je moné doporuèit [4], [5].
56
Ivan Nagy, Petr Nedoma, Miroslav Kárný, Lenka Pavelková, Pavel Ettler
2. Parametrický model pozorovaných dat Házíme opakovanì mincí a sledujeme, zda padne rub, oznaèený èíslem 0, èi líc, oznaèený èíslem 1.
T
ν0;T =
lze model celé soustavy zapsat ve tvaru
]
T
(1)
=
∏Θ
yt
(1 − Θ)1− y
=Θ
t
ν1; T
(1 − Θ)ν
0; T
(4)
t =1
kde yt oznaèuje výsledek t-tého pokusu. Pozn.: V souvislosti se zavedeným znaèením posloupnosti dat pouíváme toto znaèení: y(t) = [y(t 1); yt]. To je tøeba chápat v souladu s konvencí jazyka Matlab, kdy [a 1; [a2; a3]] = [a1; a2; a3]. Modelovaný proces je náhodný, nebo nejsme schopni zajistit trvale stejné podmínky házení. Jsme tedy schopni nejvýe stanovit stupeò oèekávání rùzných moných výsledkù, stanovit pravdìpodobnosti f(y(T)) vech moných konkrétních výsledkù y(T). Jako pøíklad jedné takové posloupnosti výsledkù uveïme
y(10) = [1; 0; 1; 1; 1; 0; 1; 0; 1; 1]
(2)
2.2 Teoretický model Pro zpracování a vyuití výsledkù pokusu je tøeba tyto pravdìpodobnosti f(y(T)) popsat, je tøeba vytvoøit model procesu házení. Proto uvaujeme moné chování procesu, vytváøíme jeho teoretický model. Zde napø. pøedpokládáme, e výsledek t-tého hodu není ovlivnìn ani výsledky hodù minulých ani budoucích. Dále pøedpokládáme, e pravdìpodobnost líce Θ se nemìní s èíslem hodu, tj. s èasem t. Protoe nevíme, zda mince je pokozená èi nikoliv, je teoreticky motivovaný parametrizovaný model procesu v jednom èasovém okamiku t 1− y t
yt ∈{0; 1}
(3)
Θ ∈ 0; 1
2.3 Vìrohodnostní funkce Tento model je znám a na neznámý èasovì nepromìnný parametr Θ. Oznaèíme-li ν 1;T poèet, kolikrát se v posloupnosti y(T) vyskytl líc, a ν0;T kolikrát rub, tj. T
t
t =1
(2002) èíslo 7
V první rovnosti jsme vyuili podmínku nezávislosti hodù. Pravdìpodobnost pozorovaných dat s konkrétnì dosazeným pozorováním a nahlíená jako funkce neznámého parametru se nazývá vìrohodnostní funkce. Pro zdùraznìní této závislosti je oznaèována LT(Θ) = f(y(T) = mìøená dataΘ) V naem pøípadì
LT (Θ ) = Θ 1; T (1 − Θ ) 0 ; T s pevnými hodnotami ν1;T a ν0;T. Pro vzorek (2) je L10 = Θ7(1 Θ)3. ν
ν
Pozn.: Zde pouité pøedpoklady nejsou univerzální. Napøíklad výsledek t-tého pokusu mùe dynamicky záviset na nìkolika èi vech pøedchozích pokusech. Pak by bylo nutné zvolit jinou parametrizaci a vìrohodnostní funkce by mohla dostat obecnìjí tvar
(
T
) ∏ f (y y(t − 1), Θ )
f y(T )Θ =
t
t =1
Ani uvaovaná data nejsou jednoznaènì dána. Napøíklad bychom jako vstup ut do procesu házení mohli uvaovat, zda pøed t-tým hodem poloíme na dlaò minci navrch lícem (ut = 1) èi rubem (ut = 0). Pak by potøebný parametrizovaný model dosáhl svého (témìø) nejobecnìjího tvaru
(
)
f y (T ), u(T )Θ = T
=
f yt Θ = Θ yt (1 − Θ )
∑y
t
t =1
v ní yt ∈ {0; 1}
ν1; T =
T
) ∏ f (y Θ) =
f y(T )Θ =
Pozorovaná data tvoøí posloupnost
( )
t
t =1
(
2.1 Pozorovaná data y (T ) = [y1; y2 ... yT
∑ (1 − y )
∏ f (y y(t − 1), u(t ), Θ) t
(
t =1
f ut y(t − 1), u(t − 1), Θ
)
modelující obecný dynamický øízený proces. Slovo témìø znamená, e máme jetì monost pøipustit zmìny neznámého parametru Θ a modelovat mìnící se vlastnosti mince, která mùe napø. padat do bláta a mìnit s kadým hodem své fyzikální vlastnosti. Tyto monosti zde dále nerozvíjíme. Uvádíme je vak proto, abychom zdùraznili, e volba spoleènì zpracovávaných dat a parametrizovaného modelu je hlavním nástrojem pøi øeení konkrétních problémù.
AUTOMA
A
TEORIE PRO PRAXI
3. Problémy uèení
Na uvaovaném pøíkladu ukáeme, jak bayesovskou metodikou øeit problémy uèení, tj. odhadování parametru modelu a pøedpovídání budoucích hodnot dat. Lze ukázat, e výsledky uèení jsou základními prvky potøebnými pro øeení rozhodovacích úloh, jako je testování hypotéz o alternativních modelech, návrh systému sázení na budoucí hody, návrhy diagnostických systémù, zpìtnovazebního øízení èi poradních systémù pro operátory ([5], [6], [7]). Zde se omezíme na odhadování, tj. na kvantitativní výroky o neznámém parametru zaloené na pozorovaných datech, a na pøedpovídání, tj. na kvantitativní výroky o budoucích datech zaloené na datech pozorovaných.
4. Obvyklé uèení Pro pochopení moností bayesovského uèení naèrtneme standardní (klasický, fisherovský) pøístup k problémùm uèení. Vìrohodnostní funkce LT(Θ) øíká, jak je pravdìpodobný pozorovaný datový vzorek pro rùzné hodnoty parametru. Lze tedy oèekávat, e nejlepí odhadΘ^ T parametru Θ maximalizuje vìrohodnostní funkci. Tento maximálnì vìrohodný odhad se vskutku hojnì pouívá. Odhad, jako funkce náhodných dat, je náhodný a je moné studovat jeho rozloení i asymptotické vlastnosti, tj. chování pro T → ∞. Odvodit rozloení maximálnì vìrohodného odhadu je obecnì obtíné. Byla vak dokázána øada obecných dobrých, asymptoticky zaruèených vlastností ([1], [2]). Pro házení mincí je maximálnì vìrohodný odhad dán vztahem ΘT =
ν1;T ν = 1;T T ν1;T + ν 0 ;T
(5)
ν1;T je relativní èetnost padlých lícù kde T v celém vzorku. Pro konkrétní výbìr (2) je Θ^ 10 = 0,7. Odpovídající pøedpovìï dalí hodnoty dat y^ je moné zkonstruovat na základì parametrizovaného modelu (3) f(yT+1| Θ^ ), pøièem neznámá hodnota parametru Θ se nahradí jeho odhadem Θ^ T. Budoucím hodnotám yT+1 pøiøazujeme pravdìpodobnosti f(yT+1|Θ^ T). Pro konkrétní výbìr (2) oèekáváme, e v jedenáctém hodu padne líc s pravdìpodobností Θ^ 10 = 0,7 a rub s pravdìpodobností 1 Θ^ 10 = 0,3. Protoe klasické postupy vycházejí pouze z namìøeného datového vzorku, výsledky mohou být pro velmi krátké èasové horizonty nerozumné. Ze stejného dùvodu nelze do procesu odhadování zavést expertní znalost. Napøíklad není formální prostor pro znalost vycházející z hodnocení vzhledu a stupnì pokození mince.
AUTOMA
4.1 Pøíklad krátkého horizontu pøi klasickém uèení Nerozumnost odhadu s krátkým horizontem budeme demonstrovat pro jediný pozorovaný hod s T = 1. Podle (5) je odhadem Θ^ 1 parametru Θ relativní èetnost padlých lícù pøi jednom hodu, tj. Θ^ 1 = 1, jestlie padl líc, a Θ^ 1 = 0 v pøípadì, e padnul rub. Tudí nae pøedpovìï je f(y2|Θ^ 1) = Θ^ 1, e s jistotou v následujícím hodu padne to, co padlo právì teï.
5. Bayesovské uèení 5.1 Bayesùv vzorec Parametry odhadujeme podle Bayesova vzorce. V nìm vystupují hustoty pravdìpodobnosti (zkratkou hp) dvou typù objektù. Jsou to data y(T), nesoucí informaci o neznámých parametrech, a tyto parametry Θ. Bayesùv vzorec s tìmito objekty má tvar
(
)
f Θ y (T ) = =
(
)
f y (T )Θ f (Θ ) f (y (T ))
(
)
∝ f y (T )Θ f (Θ )
(6)
kde jsou f(Θ) = f(Θ|y(0)) apriorní hp, vyjadøující oèekávání rùzných hodnot Θ pøiøazených expertem jetì pøed zaèátkem odhadování, f(y(T)|Θ^ ) vìrohodnostní funkce (4), f(Θ|y(T)) aposteriorní hp, která vyjadøuje expertní stupeò oèekávání rùzných hodnot Θ, korigovaný pozorovanými daty y(T), Θ ∈ 0; 1 . Pozn.: Aposteriorní hustota pravdìpodobnosti f(Θ|y(T)) je funkcí Θ a data y(T) zde vystupují jako konstanty. Faktor 1/f(y(T)) je proto jen pouhá normalizaèní konstanta, kterou jsme vypustili a nahradili znaménkem úmìrnosti ∝ . Normalizaèní konstantu lze kdykoliv dopoèítat tak, aby integrál z hp byl jednotkový. Dosadíme-li za vìrohodnostní funkci podle (4), dostaneme odhad parametru Θ ve tvaru f Θ y (T ) ∝
(
=Θ
T
) ∏ f (y Θ ) f (Θ y (0)) =
ν1; T
t
t =1
(1 − Θ )
ν0;T
(
)
f Θ y (0 )
(7)
Pozn.: Apriorní hp nese výchozí informaci o parametru Θ (napø. pohledem na minci zjistíme, e není tak pøíli pokozená, a e jako výchozí lze uvaovat hodnotu 0,5). Tato informace mùe být buï expertní, tj. zadaná na základì zkuenosti, nebo mùe být získána na základì tzv. apriorních dat, tj. dat zmìøených do zaèátku odhadování.
(2002) èíslo 7
Kombinací expertní znalosti s apriorními daty je metoda tzv. fiktivních dat, kdy expert sestavuje fiktivní pokus tak, aby data z nìho odpovídala jeho apriorním pøedstavám. Pomocí nich je potom vytvoøena apriorní hp f(Θ|y(0)). V Bayesovì vztahu vystupuje vìrohodnostní funkce a apriorní hp v souèinu. Z výpoèetních dùvodù je vhodné, aby obì hp mìly strukturálnì shodný tvar.
5.2 Apriorní hustota pravdìpodobnosti pro hod mincí Apriorní hp zavedeme v obdobném tvaru, jako má vìrohodnostní funkce
(
)
f Θ y(0) ∝ Θ
n1; 0 −1
(1 − Θ )
n0 ; 0 −1
(8)
kde n1;0 a n0;0 jsou apriorní statistiky, blíe popsané v kap. 5.4, a 1 v exponentu je vyèlenìna z formálnì výpoèetních dùvodù.
5.3 Aposteriorní hustota pravdìpodobnosti pro hod mincí Uvedenou volbou apriorní hp zajistíme stejný tvar aposteriorní hp, tj.
(
)
f Θ y(T ) ∝ Θ
n1; T −1
(1 − Θ )
n0 ; T −1
(9)
5.4 Pøepoèet statistik pro hod mincí Rekursi pro statistiky dostaneme dosazením (8) a (9) do Bayesova vztahu (7) a porovnáním exponentù. Tak dostaneme n1;T = n1; 0 + ν1; T n0 ;T = n0 ; 0 + ν 0 ; T
kde
(10)
T
ν0; T =
∑(1 − y ) τ
τ =1
je poèet padlých rubù a T
ν1; T =
∑y
τ
τ =1
je poèet padlých lícù v T hodech. Pro odhad tedy staèí kromì apriorních statistik n1;0 a n0;0 pamatovat si jen dvì èísla ν1;T a ν0;T, ve kterých je uloena informace získaná z dat. Odtud je také vidìt význam promìnných n1;0 a n0;0. Lze je chápat jako poèty dat ve fiktivním experimentu.
5.5 Výsledky pro hod mincí Bayesovským odhadem je obecnì aposteriorní hp, která udává rozdìlení pravdìpodobnosti pro vechny moné hodnoty neznámého parametru. Bodovým odhadem Θ, minimalizujícím kvadratickou vzdálenost odhadu od skuteèné
57
→ f(Θ|y(T))
→ f(Θ|y(T))
A
TEORIE PRO PRAXI
4 2
0 1
20 10 0 0
2
3 50
4 →
→
5
T
T
6 7
100
80
8
100 80
60
9 10
20 0
100
60
40 y →
150
20 0
40 y →
Obr. 1. Odhadování s rùznou délkou datového vzorku a nulovou apriorní informací hodnoty parametru po T mìøeních, je podmínìná støední hodnota aposteriorní hp ΘT = E Θ y (T ) =
[
]
∫ (
)
1
= Θ f Θ y (T ) dΘ = 0
n1; T n1; T + n0 ; T
(11)
Je vidìt, e tento výraz je formálnì shodný s výsledkem (5), který jsme obdreli metodou maximální vìrohodnosti. Statistiky n1;T a n0;T jsou ale souètem èetnosti pøísluné strany ν1;T a ν0;T a apriorních statistik n1;0 a n0;0. Apriorní informace jej tak mùe výraznì ovlivnit. Lze ukázat, e rozptyl D odhadu Θ, vyjadøující neurèitost odhadu Θ^ T , je
(
1 D Θ y (T ) ≈ Θ T 1 − Θ T T
(
)
)
(12)
odkud je vidìt, e odhad parametru se prùbìnì zpøesòuje v tom smyslu, e neurèitost aposteriorní hp je T-krát mení ne apriorní hp. Pøedpovìï budoucí hodnoty dat yT+1 je udána prediktivní hp
(
)
f yT +1 y (T ) = 1
=
∫ f (y
T +1 Θ
) f (Θ y (T )) dΘ
(13)
0
y T +1
T +1
) y (T )) = 1 − Θ
T
(14)
Pro bodový odhad y^T+1 tedy platí formálnì stejný vztah jako pøi klasickém uèení. Jeho význam je vak ponìkud jiný, zvlátì v pøípadì krátkého horizontu. Uvedené skuteènosti budeme ilustrovat v následujících pøíkladech.
58
Budeme sledovat pøíklad (4.1) krátkého horizontu z kapitoly 4.1 o klasickém uèení a ukáeme jeho bayesovské øeení. Budeme opìt uvaovat odhad parametrù a predikci budoucího hodu y2 pøi jediném pozorovaném hodu v T = 1. Pøitom chceme zajistit stejné podmínky experimentu, tj. v pøípadì bayesovského uèení chceme uvaovat co nejslabí apriorní informaci. Tu vyjádøíme pomocí rovnomìrného rozdìlení apriorní hp. Podle (8) takovou hp dostaneme v pøípadì volby n1;0 = n0;0 = 1. Statistiky v èase T = 1 budou podle (10) n1;1 = 1 + y1
n0 ;1 = 1 + (1 − y1 )
Odtud plyne n1;1 Θ1 = n1;1 + n0 ;1 y1 = 1 ⇒ Θ1 = 2 3 y1 = 0 ⇒ Θ1 = 1 3 Pøedpovìï výsledku budoucího hodu (napø. pøedpovìï líce) je f(y2 = 1|y1) = ^Θ1 rovna 2/3 pro pøípad, e v prvního hodu padl líc, a 1/3 pro pøípad, e v prvním hodu padl rub. Pøedpovìï budoucího výstupu není jednoznaèná 1 nebo 0, ale pøipoutí vdy s pravdìpodobností 1/3 i druhou alternativu.
5.7 Pøíklad bodových odhadù pøi uèení
yT +1 = 1 ⇒ f yT +1 y (T ) = Θ T
( = 0 ⇒ f (y
5.6 Pøíklad krátkého horizontu pøi bayesovském uèení
Uvaujeme pøíklad hodu pokozenou mincí, kdy z deseti hodù padl sedmkrát líc (viz datový soubor (2)). Ukáeme výpoèet odhadu parametru Θ pomocí obvyklého a bayesovského uèení. 5.7.1 Obvyklé uèení Poèet lícù je 7, poèet hodù 10. Odhad parametru Θ je 7 Θ10 = = 0 ,7 10
(2002) èíslo 7
5.7.2 Bayesovské uèení se slabí apriorní informací Pøedpokládejme, e pokození mince je zanedbatelné, a tedy obì pravdìpodobnosti by mìly být stejné a rovny 0,5. Touto skuteèností si ale nejsme pøíli jisti. Zvolíme proto apriorní statistiky n1;0 = 1 a n0;0 = 1, které odpovídají dvìma apriorním datùm. Apriorní hp potom odpovídá odhadu 1/(1+1) = 0,5, koneèné statistiky jsou n1;10 = 1 + 7 = 8 a n0;10 = 1 + 3 = 4 a koneèný odhad je 8 Θ10 = = 0 ,6 12 5.7.3 Bayesovské uèení se silnìjí apriorní informací Uvaujeme stejnou situaci jako v pøedchozím pøípadì, ale ji jsme se z døívìjích pokusù pøesvìdèili, e tak malé pokození, jaké je u naí mince, nemá témìø ádný vliv. Statistiky proto volíme n1;0 = 100 a n0;0 = 100, odpovídající dvìma stùm apriorních dat. Apriorní odhad je stejný: 100/(100+100) = 0,5, koneèné statistiky jsou n1;10 = 100 + 7 = 107 a n0;10 = 100 + 3 = 103. Koneèný odhad je 107 Θ10 = = 0 ,51 210 Vidíme, e obì apriorní informace pøitáhly výsledek k a priori pøedpokládané hodnotì 0,5, avak vìtí hodnoty statistik mají proti informaci z dat vìtí vliv. Je to pochopitelné. První apriorní informace odpovídá jednou a priori zmìøenému líci a jednomu rubu. Druhá odpovídá 100 lícùm a 100 rubùm. Proti nim vdy stojí deset zmìøených dat a odhad je optimálním kompromisem mezi apriorní informací a informací získanou z dat. Úplným popisem parametru Θ je ale aposteriorní hp. Na dalím pøíkladu ukáeme její vývoj bìhem rekursivního odhadu a její výsledný tvar pro rùznou apriorní informaci. 5.7.4 Pøíklad aposteriorní hustoty pravdìpodobnosti pøi bayesovském uèení Uvaujeme stejný hod mincí jako v pøedchozím pøíkladu, ale budeme sledovat celou
AUTOMA
A
TEORIE PRO PRAXI
aposteriorní hp neznámého parametru Θ , a to pro rùzný poèet mìøených dat a rùznou apriorní informaci. Data budeme získávat na simulovaném experimentu, kde volíme skuteènou, tj. simulovanou, hodnotu parametru Θ = 0,4. Pro ilustraci budeme v jednotlivých pøípadech uvádìt trojrozmìrný graf, ve kterém budou za sebou øazeny hp parametrù tak, jak se mìnily s pøibývajícím poètem zpracovaných dat. Nejstarí prùbìhy hp jsou v grafu vzadu, smìrem dopøedu postupují novìjí. Zdrojový kód simulace v jazyce Matlab je uveden v tab. 1 a lze si jej stáhnout z adresy http://www.automa.cz/download/0588.txt
5.7.6 Vliv slabé apriorní informace Tento experiment (obr. 2) odpovídá pøedchozímu se 150 daty, na zaèátku je ale aplikována apriorní informace. Tváøíme se, jako bychom neznali skuteènou hodnotu parametru Θ, a zadáme apriorní informaci odpovídající nepokozené minci. Nejdøíve pouijeme slabou informaci s hodnotami apriorních statistik n1;0 = n0;0 = 10. Levý obrázek
→ f(Θ|y(T))
^
→ QT
5.7.5 Srovnání krátkého a dlouhého datového vzorku Se zvìtujícím se poètem zpracovaných dat se zpøesòuje odhad. To se projeví sniováním rozptylu aposteriorní hp. Na obr. 1 jsou dva experimenty s parametrem Θ = 0,4. Levý je s deseti daty, pravý se 150 daty.
Z levé èásti obr. 1 je patrné, e aposteriorní hp z malého datového vzorku je dosti neurèitá (má velký rozptyl íøku). Pravá èást obr. 1 ukazuje, jak se s pøibývajícím poètem zpracovaných dat aposteriorní hp postupnì zpøesòuje (rozptyl klesá). Koneèný prùbìh (nejvíce vpøedu) je ji dosti pøesný. Zaèátky na obou èástech obr. 1 (tj. prùbìhy úplnì vzadu) jsou velmi nejisté a roztìkané. Je to dáno tím, e oba starty jsou bez jakékoliv apriorní informace a snaí se pøesnì respektovat vekerou informaci, kterou jednotlivá data pøináejí.
ukazuje vývoj aposteriorní hp, pravý vývoj bodového odhadu. Z obr. 2 je patrné, e poèáteèní vývoj aposteriorní hp se hezky uklidnil. Navíc hodnota koeficientu byla urèena správnì, protoe na konci experimentu byla ne zcela správná apriorní informace pøebita mìøenými daty a hodnota parametru Θ se odhadla ^ správnì: ΘT = 0,4. 5.7.7 Vliv silné apriorní informace Jde o stejný experiment, jako je pøedchozí, ale s apriorními statistikami n1;0 = n0;0 = 100. Výsledek ukáeme na obdobných obrázcích, jako jsou pøedchozí. Z obr. 3 je vidìt, e pouitá apriorní informace byla pøíli silná nedovolila, aby se prosadila správná hodnota parametru, která je 0,4.
6. Závìr Èlánek je úvodem do problematiky bayesovského uèení. Po nìm budou následovat dalí
1,0 0,9
20
0,8
10
0,7
0 0
0,6 0,5 0,4
50 →
0,3 T
100 80
0,2
100
0,1
60 150
20 0
40 y →
0,0
0
20
40
60
80
100
120
140 →T
0
20
40
60
80
100
120
140 →T
→ f(Θ|y(T))
^
→ QT
Obr. 2. Odhadování se slabou apriorní informací
1,0 0,9
20
0,8
10
0,7
0 0
0,6 0,5 0,4
50 →
0,3 T
0,2
100 80 60 150
20 0
40 y →
100 0,1 0,0
Obr. 3. Odhadování se silnou apriorní informací
AUTOMA
(2002) èíslo 7
59
A
dva èlánky, zabývající se teorií a aplikací bayesovského pøístupu k odhadování smìsí v praxi. Ty se pouívají k modelování sloitých systémù pro podporu operátorù. Metody bayesovského uèení jsou pøedkládány v jednoduché podobì na nejjednoduím statistickém pøíkladu, kterým je hod potenciálnì pokozenou mincí. Na tomto pøíkladu jsou ilustrovány základní principy bayesovského uèení, jsou vyzdvieny jejich pøednosti a provedeno srovnání s obvyklým uèením metodami klasické statistiky. V závìru pøíspìvku jsou uvedeny výsledky experimentù pro simulovaný pokus hodu mincí a demonstrován vliv apriorní informace pøi bayesovském uèení. Pøíklad je simulován v jazyce Matlab a jeho zdrojový kód je pro pøípadné zájemce rovnì uveden nebo si jej lze stáhnout na adrese www.automa.cz/download/0588.txt. Vem, kdo si s ním zkusí pohrát, pøejeme pøíjemnou zábavu. Tento výzkum byl èásteènì podporován grantem EU IST-1999-12058 a grantem GA ÈR è. 102/99/1564. Literatura: [1] HÁTLE, J. LIKE, J.: Základy poètu pravdìpodobnosti a matematické statistiky. Praha, SNTL 1974. [2] ANDÌL, J.: Matematická statistika. Praha, SNTL1978. [3] RAO, R. C.: Lineární metody statistické indukce a jejich aplikace. Praha, Academia 1978. [4] PETERKA, V.: Bayesian approach to system identification. In Trends and Progress in System Identification. P. Eykhoff (Ed.). Oxford, Pergamon Press 1981. Pp. 239-304. [5] BEREC, L.: Algorithm for Determination of Model Structure of Predicted and/or Controlled Process. Tech. Rep., 1842, Praha, ÚTIA AV ÈR 1995. [6] KÁRNÝ, M. NAGY, I. NOVOVIÈOVÁ J.: Quasi-bayes approach to multi-model fault detection and isolation. In: Adaptive Control and Signal Processing. John Willey and Sons, vol. 16, 2002, no. 1, pp. 61-83.
TEORIE PRO PRAXI Tab. 1 Výpis programu % Vývoj aposteriorní hp pri hodu mincí s % s apriorní hp zadanou pomocí statistik clc, clear all, clf, rand(seed,125) % Zadání vstupních údaju h=.01; % krok diskretizace T=150; % pocet kroku simulace Ths=.4; % n1=20; n0=20; % Thv=h:h:1; yt=fix(rand(1,T)+Ths); Thm=[]; Thh=[];
P(líc)=Ths n1 a n0
simulovaná pravdepodobnost lícu pocátecní hodnoty statistik
% diskretizace hodnot parametru % simulace mince
% Cyklus pro cas (zpracování dat) for t=1:length(yt) n1=n1+yt(t); n0=n0+1-yt(t); % Tht=[]; for Th=Thv fTh=Th^(n1)*(1-Th)^(n0); % Tht=[Tht fTh]; end Tht=Tht/sum(Tht)/h; Thm=[Tht; Thm]; % The=n1/(n1+n0); Thh=[Thh The]; % end
prepocet statistik konstrukce aposteriorní hp normování hp bodové odhady
% Kreslení výsledku figure(1) subplot(211),waterfall(Thm), grid on, view(-20,75) subplot(212),plot(Thh,x,markersize,3),grid on,axis([1,T,0,1]) [7] KÁRNÝ, M. BÖHM, J. GUY, T. V. JIRSA, L. KANOURAS, A. NAGY, I. NEDOMA, P. QUINN, A. TESAØ, L. PARRY, D. TICHÝ, M.: Prodactool background theory, algorithms and software. Tech. Rep., 2001 (draft of the report).
Ivan Nagy, Fakulta dopravní ÈVUT a Ústav teorie informace a automatizace AV ÈR (
[email protected]),
Petr Nedoma, Miroslav Kárný, Lenka Pavelková, Ústav teorie informace a automatizace AV ÈR ({nedoma, school, pavelkov}@utia.cas.cz), Pavel Ettler, Compureg Plzeò (
[email protected]) Lektoroval: Prof. Ing. Vladimír Maøík, DrSc., katedra kybernetiky FEL ÈVUT Praha (
[email protected])
Thomas Bayes geniální outsider Z èetných matematikù a vestranných vìdcù, kteøí v 18. a 19. století vytvoøili základní práce v oblasti teorie pravdìpodobnosti a statistiky, jsou nejèastìji uvádìni bratøi Bernoulliové, Euler, Laplace, de Moivre, Gauss a dalí. Èlenem této vybrané spoleènosti svìtem uznávaných vìdcù se stal i anglický duchovní, geniální outsider Thomas Bayes. Pocházel z rodiny duchovního, který patøil ke skupinì prvních esti veøejnì vysvìcených nonkonformistických duchovních v Anglii. (Pozn. red.: Nonkonformisté se v sedmnáctém století odtìpili od státní anglikánské církve. Poadovali nezávislost anglikánské církve na státu, mj. to, aby jmenování duchovních nepodléhalo souhlasu státních orgánù a aby anglický panovník nestál automaticky v èele církve. Odmítali i nìkteré církevní ceremoniály.) Stejnì jako otec, byl
60
i Thomas vysvìcen nonkonformistickým duchovním a zpoèátku pùsobil jako otcùv pomocník ve starovstvu presbyteriánské církve v Holbornu. V roce 1720 se stal duchovním v presbyteriánské kapli v Tunbridge Wells, 60 kilometrù jinì od Londýna. Tuto funkci vykonával a do roku 1752, kdy odeel do penze, ale ve svém dosavadním pùsobiti il nadále. Stal se zámoným starým mládencem, a pøestoe il v provinciálních podmínkách, udroval kontakty s mnoha vzdìlanými pøáteli. Bayes byl roku 1742 zvolen èlenem Royal Society, navzdory tomu, e v oblasti matematiky publikoval za svého ivota pouze jednu práci, a to navíc anonymnì. lo o Introduction to the Doctrine of Fluxions (1736 Úvod do nauky o infinitesimálním poètu; na vysvìtlenou uveïme, e termínem fluxional calculus
(2002) èíslo 7
I. Newton oznaèoval infinitesimální poèet). Bayes touto svou prací ostøe nesouhlasnì reagoval na spis The Analyst (1736), ve kterém irský teolog a filozof, biskup George Berkeley (1685 1753), napadl logické základy Newtonova infinitesimálního poètu. Druhým Bayesovým spisem, jen vyel za jeho ivota, byl Divine Benevolence (1731 Boská dobrotivost). Bayesova teorie pravdìpodobnosti byla uvedena v jeho práci Essay towards solving a problem in the doctrine of chances (Esej smìrovaná k øeení problému ve vìdì o náhodì), publikované ve Philosophical Transactions of the Royal Society of London (Filozofická pojednání londýnské Královské spoleènosti) v roce 1746 tedy ji po Bayesovì smrti. Bayesovu práci zaslal do Royal Society jeho pøítel Richard Price, který ji nael v písemnostech pozùstalosti.
AUTOMA
A
Bayes se touto svou prací stal jedním ze zakladatelù induktivní statistiky (statistická analýza opírající se o vzorky tvoøící malé podíly základního statistického souboru). V dobì, kdy poèet pravdìpodobnosti byl víceménì ve svých poèátcích, Bayes se ji zabýval problémem, jak by bylo moné uvádìt pozdìjí zkuenosti do souladu s apriorními pøedpoklady, resp. jak takové zkuenosti zmìní následné
TEORIE PRO PRAXI hodnocení situace proti apriorním pøedpokladùm. lo tedy do jisté míry o dynamické ovìøování hypotéz, vèetnì korektury tìchto hypotéz. Klasická matematická statistika Bayesovu teorii Bayesova vìta øíká, jak zmìnit apriorní pravdìpodobnost dodateènou informací odmítá. Bezpochyby k tomu pøispìl i zmatek v tom, co Bayes skuteènì øekl, co myslel a co bylo pozdìjím výkladem do jeho úvah vloeno.
Pøestoe klasická matematická statistika uvrhla Bayesovu vìtu do klatby, objevili se její dùslední obhájci. Patøí mezi nì napø. i jeden z nejvýznamnìjích statistikù moderní doby Leonard Savage. Bayesova teorie tak právì v posledních letech proívá své znovuzrození. (Josef Heømann)
Leonard J. Savage znovuobjevitel bayesovského uèení Leonard Jimmie Savage se narodil 20. listopadu 1917 v Detroitu (USA). Vystudoval matematiku na Michiganské univerzitì. Habilitoval prací na téma metrika a diferenciální geometrie. Léta 19411942 strávil v Princetonu v Institute for Advanced Study. Zde se setkal s významným matematikem von Neumannem a pod jeho vlivem se v roce 1944 stal èlenem Statistical Research Group na Kolumbijské univerzitì (USA).
AUTOMA
V roce 1954 vydal knihu The Foundations of Statistic (Základy statistiky). To je jeho zøejmì nejvýznamnìjí dílo. V knize jsou popsány principy subjektivní statistiky a úèelových funkcí. Speciální pøípady tìchto funkcí byly objeveny von Neumannem a Morgensternem v jejich pracích o teorii her. Dalí Savegeho prací je How to gamble if you must: Inequalities for stochastic processes (1965), napsaná spoleènì s L. Dubinsem.
(2002) èíslo 7
Dalí Savageho publikace a èlánky se týkají statistické dedukce. Uvedl v nich mj. testy baysovských hypotéz a postup pro bayesovské odhady. Jeho bayesovský pøístup je v rozporu s klasickou statistikou, reprezentovanou v moderní dobì pøedevím matematikem Fisherem. Ne nevýznamné jsou i Savageho práce o filozofických základech statistiky. (Bk)
61