Analýza dat 2004, Lázně Bohdaneč
BAYESOVSKÉ ODHADY V NĚKTERÝCH MODELECH
Michal Friesl Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni •Slunce •Řidiči •IQ •Regrese •Přežití 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Obvyklý model Pozorování X = (X1 , . . . , Xn ) s hustotou f (x) = f (x; θ) • známe tvar f až na několik parametrů — θ, • např. výběr z N(µ, σ 2 ), θ = (µ, σ 2 ) neznáme Chceme učinit závěry týkající se θ • bodový odhad, • intervalový odhad, • testy hypotéz, . . . Klasicky • θ neznámá, ale pevná konstanta • k závěrům použijeme tvar hustoty f (x; θ) a pozorování X » odhad metodou maximální věrohodnosti, momentový, . . . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Bayesovský přístup Bayesovsky • θ je náhodná veličina se známým, apriorním rozdělením • f (x; θ) chápeme jako podmíněnou hustotu f (x | θ) • k závěrům použijeme tvar hustoty f (x; θ), pozorování X, a navíc π(θ), hustotu parametru θ Smysl π(θ) • vyjadřuje apriorní informaci o možných hodnotách θ » získanou před pokusem, tedy nezávisle na pozorováních X • mnohdy zvolena objektivně, z minulé zkušenosti • možno též subjektivně, nebo aby „to šlo spočítatÿ
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Bayesova věta f (x | y)f (y) • pro dvojici veličin (X, Y ) je f (y | x) = f (x) » kde f (x) a f (y) jsou marginální hustoty • v našem označení π(θ | x) ∝ f (x | θ)π(θ) Aposteriorní rozdělení π(θ | x) • aktualizovaná představa o hodnotách θ • kombinuje π(θ) a věrohodnostní funkci L(θ) = f (x; θ) = f (x|θ) R • používá se i nevlastní apriorní hustota, π(θ) = ∞ Závěry z aposteriorního rozdělení • odhad max. věrohodného typu: π(θ | x) = maxθ∈R • odhad střední hodnotou θb = E(θ | X = x), mediánem » podle ztrátové funkce, zde kvadratická, resp. absolutní hodnota • bayesovská konfidenční oblast, pravděpodobnosti hypotéz 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Pravděpodobnosti úspěchů Určit pravděpodobnost p výskytu jevu v pokusu • provedeme n pozorování • pozorujeme k výskytů » problém východu slunce (Bayes/Laplace, 1763/1774) Věrohodnostní funkce 1.5 1 • počet výskytů S ∼ Bi(n, p) n k n−k 0.5 • L(p) = P(S = k | p) = k p (1 − p) Žádná apriorní informace o p • neurčitá hustota π(p) = 1, p ∈ (0, 1) • ne pro poměr šancí γ = p/(1 − p), kde pak π(γ) = (1 + γ)−2 , γ > 0
0
0.5
1
0.5
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
0
1
0
1
2
3
4
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Aposteriorně • π(p | S = k) ∝ pk (1 − p)n−k · 1 • tj. beta rozdělení B(k + 1, n − k + 1) k+1 • odhad střední hodnotou pb = E(p | S = k) = n+2 4
3.5
n = 10
k = 10
3
k=7 2.5
2
1.5
1
0.5
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
0.9
1
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Východ slunce • v n pozorováních n-krát vyšlo n+1 • pravděpodobnost, že i příště pb = n+2 • klasicky ML pb = n/n = 1 Obecněji apriorně π(p) ∝ pa−1 (1 − p)b−1 2, 5 • p ∼ B(a, b) • (p | S = k) ∼ B(a + k, b + n − k) a+k 1, 1 • odhad pb = a+b+n Co když a, b neznáme • hyperparametry — další apriorní rozdělení pro a, b • odhadnout — empirické bayesovské metody 3.5
3
.5, .3
2.5
1.5, .7
2
1.5
1
0.5
0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
•Prev •Next •Full Screen •Quit
1
Analýza dat 2004, Lázně Bohdaneč
Řidiči Počty nehodových‘ roků za n = 10 let u N = 20 řidičů. ’ • pozorování 0 0 2 0 0 2 2 0 6 4 3 1 1 1 0 0 5 1 1 0 • u j-tého řidiče počet Sj ∼ Bi(n, pj ) » nejsou všechna pj stejná • individuální odhady pbj = Sj /n vs. kolektivní S/n Zkombinujeme • rozložení parametru p mezi řidiči pj ∼ B(a, b) • aposteriorně (pj | Sj = k) ∼ B(a + k, b + n − k), tedy a+b a n a+k k = + a+b+n a + b + n a + b a + b +n n | {z } | {z } • a, b odhadneme z dat všech řidičů p0 n0 pbbay = j
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Odhad apriorních parametrů Využijeme 1 1 a E S = E E(S | p) = E p = = p0 n n a+b E var(S | p) E(p(1 − p)) n = = a + b = n0 var E(S | p) var(p) a odhadneme n X E S ≈ S, E var(S | p) ≈ N −1 ( pbj (1 − pbj )) n−1 var E(S | p) ≈ n2 (s2pbj − N −1 . . . ) Pro naše data n0 ≈ 3,8643, p0 ≈ 0,1450 pbbay = 0,154 · 0,145 + 0,846 · pbj j 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
9
a = 0,5603 b = 3,3039
8
pbj 0 0,1 0,2 0,8
k=0 7 6
k=1
pbbay j 0,0404 0,1125 0,1847 0,6174
5
k=2
4
k=4
k=6
3
k=8
2 1 0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
0.8
0.9
1
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Normální IQ Hledáme IQ u dítěte • skutečnou hodnotu θ neznáme • známe X výsledek testu, X ∼ N(θ, 102 ) při daném θ Apriorní informace • z dlouhodobých výzkumů • rozložení IQ u dětí θ ∼ N(100, 225) Hustoty (x − θ)2 1 • f (x | θ) = √ exp − 2 · 102 2π · 102 (θ − 100)2 1 exp − • π(θ) = √ 2 · 225 2π · 225 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Počítáme (x − θ )2 ( θ − 100)2 • π(θ | x) ∝ f (x | θ)π(θ) ∝ exp − − 2 · 102 2 · 225 1 1 x 100 2 ∝ exp −θ + + 2θ + 102 225 102 225 x · 225 + 100 · 102 225 · 102 ∼N , 225 + 102 225 + 102 9 4 900 =N x + 100, 13 13 13 Odhadujeme . 9 4 • bodově θb = E(θ | X) = 13 X + 13 100 = 0,69X + 0,31 · 100 p . • interval θb ± u1−α/2 900/13 = θb ± 8,32 · u1−α/2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
0.06
pro X = 120
0.04
0.02
0 50
60
70
80
90
100
110
120
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
130
140
150
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Více pozorování Více pozorování • X1 , . . . , Xn náhodný výběr z N(µ, σ 2 ) • odhadnout µ, rozptyl σ 2 známe Oblíbený model • apriornímu µ ∼ N(a, b2 ) • odpovídá (µ | X1 , . . . , Xn ) ∼ N(wX + (1 − w)a, wσ 2 /n) | {z } kde w = nb2 /(nb2 + σ 2 ). µ b Bayesovský intervalový odhad √ • µ b ± u1−α/2 w √σn • oproti klasickému kratší (w < 1)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Porovnání MSE Střední čtvercová chyba při daném µ • MSE X = E(X − µ)2 = var X = σ 2 /n • MSE µ b = E(b µ − µ)2 = var µ b + (E µ b − µ)2 2 = w var X + (w E X + (1 − w)a − µ)2 Kdy je µ b lepší než X 2 2 2 • w σ /n + (1 − w)p (a − µ)2 < σ 2 /n • tj. když |a − µ| < 2b2 + σ 2 /n Prakticky • hodnoty µ omezené • zvolíme b2 velké • ... a µ b je lepší než X 2.5
b2 malé
2
1.5
1
velké
0.5
0 −3
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
−2
−1
0
1
2
•Prev •Next •Full Screen •Quit
3
Analýza dat 2004, Lázně Bohdaneč
Regrese Standardní model n pozorování, k parametrů P • po složkách yi = j xij βj + ei , i = 1, . . . , n • maticově y = Xβ + e Klasický odhad metodou nejmenších čtverců • b = (X 0 X)−1 X 0 y Normální chyby • y ∼ N(Xβ, σ 2 I) 0 2 • f (y; β, σ 2 ) = (2πσ 2 )−n/2 e−(y−Xβ) (y−Xβ)/2σ Neurčitostní apriorní hustota (nevlastní) • parametry β a σ −2 • π(β, σ −2 ) ∝ 1 · (σ −2 )−1 = (σ −2 )−1 , β ∈ R, σ −2 > 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Aposteriorní • π(β, σ −2 | y) = f (y | β, σ −2 ) · π(β, σ −2 ) ∝ (σ −2 )n/2 exp (y − Xβ)0 (y − Xβ)σ −2 /2 · (σ −2 )−1 = (σ −2 )k/2 exp (β − b)0 X 0 X(β − b)σ −2 /2 × (σ −2 )(n−k)/2−1 exp (y − Xb)0 (y − Xb)σ −2 /2 | {z } . . . normální-gama rozdělení Sb Při daném y • (β | σ −2 , y) ∼ N( b , σ 2 (X 0 X)−1 ) (σ −2 | y) ∼ G(Sb /2, (n − k)/2) • a odhad βb = E(β | y) = b = (X 0 X)−1 X 0 y (= MNČ)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Marginálně aposteriorně • π(β | y) ∝ ((β − b)0 X 0 X(β − b) + Sb )−n/2 • až na lineární transformaci k-rozměrné tn−k • složky po znormování tn−k (1-rozm.) Bayesovské konfidenční oblasti q • pro βi . . . bi ± t1−α/2 (n − k) (X 0 X)−1 ii Sb /(n − k) n o (β−b)0 X 0 X(β−b)/k • pro β. . . β; 5 F1−α (k, n − k) Sb /(n−k) (jako klasické intervaly spolehlivosti)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Obecněji Apriorní normální-gama • (β | σ −2 ) ∼ N(a0 , σ 2 M0−1 ) • σ −2 ∼ G(S0 , n0 ) Aposteriorní normální-gama s parametry a1 = M1−1 (M0 a0 + X 0 Xb) = βb , M1 = M0 + X 0 X n1 = n0 + n, S1 = S0 + Sb + (b − a0 )0 (M0−1 + (X 0 X)−1 )−1 (b − a0 ) Předchozí bylo formálně s • M0 = 0 (resp. M0−1 = ∞), S0 = 0, n0 = −k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Jamesův-Steinův odhad Regresní model, k > 2 • pro jednoduchost σ 2 známé, odhadujeme β • apriorně β ∼ N(0, τ 2 (X 0 X)−1 ) σ2 • bayesovský odhad βb = E(β | y) = 1 − b σ2 + τ 2 Využijeme • marginálně z = (X 0 X)−1/2 X 0 y ∼ N(0, (σ 2 + τ 2 )Ik ) • tedy E(σ 2 + τ 2 )/(z 0 z) = E(1/χ2k ) = 1/(k − 2) 1 k−2 • odhadneme σ2 +τ 2 ≈ z0 z Dosadíme . . . (k − 2)σ 2 • odhad βbJS = 1 − 0 0 b b X Xb • pro každé β je MSE βbJS < MSE b, kde MSE s vahou X 0 X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Neparametrické bayesovské odhady Pozorování X1 , . . . , Xn • parametr celá distribuční funkce F (x), x ∈ R • neparametrický odhad Fe (x) = #{i; Xi 5 x}/n Bayesovsky • hodnoty F jsou náhodné • apriorní rozdělení pro nekonečněrozměrný parametr F Dirichletův proces F ∼ D(n0 F0 ) • pro každé −∞ = t0 < · · · < tk = ∞ Q P (U1 , . . . , Uk ) ∼ D(a1 , . . . , ak ) ∝ uai i −1 , ui = 1, kde Ui = F (ti ) − F (ti−1 ), ai = n0 F (ti ) − n0 F (ti−1 ) • složky Ui ∼ B(ai , n0 − ai ), E F (t) = F0 (t) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Aposteriorně • (F | X1 , . . . , Xn ) ∼ D(n0 F0 + nFe ) n0 F0 (t) + nFe (t) • bayesovský odhad Fb(t) = n0 + n Analýza dat o přežití • některá Xi cenzorována • pozorujeme Zi = min(Xi , Yi ) a δi = I[Xi 5Yi ] • odhad n0 S0 (t) + Nt Y n0 S0 (s−) + Ns− − u(s) , 1 − Fb(t) = n0 + n n0 S0 (s−) + Ns s kde součin je přes {s, ∃i Zi 5 t, δi = 0}, Ns = #{i; Zi 5 s} je počet pozorování nepřekračujících s, u(s) = počet necenzorovaných pozorování v okamžiku s 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
Příklad • Miniaturní data (Kaplan a Meier): necenzorovaná 0,8, 3,1, 5,4, 9,2, cenzorovaná 1,0, 2,7, 7,0 12,1. • apriorní představa 1 − F0 (x) = e−0,12x , n0 = 4, 8, 16 1
0.8
0.6
0.4
0.2
0
0
2
4
6
8
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
12
14
•Prev •Next •Full Screen •Quit
Analýza dat 2004, Lázně Bohdaneč
BAYESOVSKÉ ODHADY V NĚKTERÝCH MODELECH
Michal Friesl Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni •http://home.zcu.cz/˜friesl/Archiv/Bohd04.html 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
•Prev •Next •Full Screen •Quit