Matematická statistika
1/12
M:num2
Náhodná velièina pøiøazuje ka¾dému mo¾nému jevu (z urèité mno¾iny jevù)
pravdìpodobnost (hustotu pravdìpodobnosti) diskrétní, napø. hod kostkou: pi = 1/6 pro i ∈ { , , , , , } spojitá, napø. èas rozpadu jádra: p(t) = ke−kt Spojitou náhodnou velièinu v 1D (tj. x ∈ R) popisuje distribuèní funkce (hustota pravdìpodobnosti, rozdìlení/rozlo¾ení pravdìpodobnosti) p(x): p(x)dx je pravdìpodobnost, ¾e nastane jev x ∈ [x, x + dx) Ve dvou dimenzích de nujeme hustotu pravdìpodobnosti p(x, y) tak, ¾e jev x ∈ [x + dx) a zároveò y ∈ [y + dy) nastane s pravdìpodobností p(x, y)dxdy. Normalizace: Z∞ X pi = 1 nebo p(x)dx = 1 −∞
i
Kumulativní (integrální) distribuèní funkce = pravdìpodobnost, ¾e padne náhodná hodnota x 6 x: Zx
P(x) = −∞
p(x 0)dx 0
Rozdìlení pravdìpodobnosti
2/12
M:num2
Varování. Ve fyzice a technice nepøesnì a volnì zamìòujeme symbol x pro
náhodnou velièinu a x pro její hodnotu (napø. pøi integraci). Støední hodnota (té¾ expectation value, oèekávaná hodnota; slovo prùmìr budeme rezervovat pro aritmetický prùmìr, tj. støední hodnotu výbìru) E (xx) ≡ hxxi ≡ hxix
Z
= hxi = xp(x)dx
volnì
nebo
X
xipi
i
Pøíklad. Kdy¾ hodíte na kostce , vyhrajete 5 Kè; pokud padne nìco jiného, Ano { støední výhra je 0
prohrajete 1 Kè. Je tato hra spravedlivá?
Variance (té¾: rozptyl, uktuace, disperze, støední kvadratická odchylka, kvadrát smìrodatné odchylky)
Var (xx) volnì = Var x = h(x − hxi)2i = h∆x2i = hx2i − hxi2 kde
∆x = x − hxi
Pøíklad. Mìjme rovnomìrné rozdìlení u v intervalu [0, 1); na poèítaèi napø. Vypoètìte støední hodnotu a varianci.
hu ui = 1/2,
Var (uu) = 1/12
rnd(0).
Funkce náhodné velièiny
3/12
M:num2
Mìjme reálnou náhodnou velièinu x s rozdìlením p(x) a reálnou funkci f(x). Velièina (té¾ pozorovatelná) f(xx) má rozdìlení (sèítá se pøes v¹echny koøeny): X
pf(y) =
x:f(x)=y
p(x) |f 0(x)|
Pøíklad. Mìjme rovnomìrné rozdìlení u v intervalu Jaké rozdìlení má
t = − ln u?
exp(−t): napø. èas rozpadu 1 atomu s
[0, 1).
k=1
Pokud chceme støední hodnotu velièiny f, staèí nám ov¹em hfi =
X
fi p i ,
Z
hfi = f(x)p(x)dx,
i
Støední hodnota vypoètená z Z
Z
hfi = f(x)p(x)dx
pf(x) subst.
hfi = f(x, y)p(x, y)dxdy
je samozøejmì stejná: y=f(x)
=
Z
Z yp(x) dy = ypf(y)dy f 0(x)
kde v 2. integrálu x = øe¹ení rovnice f(x) = y, které zde pro jednoduchost uva¾ujeme jen jedno a také pøedpokládáme, ¾e funkce f je rostoucí.
Nezávislé náhodné velièiny Náhodné velièiny
x
(s rozdìlením
4/12
M:num2
p1(x))
a
y
(s rozdìlením
p2(y)):
p(x, y) = p1(x)p2(y)
V diskrétním pøípadì (napø. dva hody kostkou,
pij = 1/36):
pij = p1,ip2,j
Kovariance x a y u dvojrozmìrného rozdìlení p(x, y) Cov (xx, y ) = h∆x∆yi =
Z
∆x∆yp(x, y)dxdy
Kovariance nezávislých náhodných velièin je nula: Z
Z
a
g(x)
Cov (xx, y ) = h∆x∆yix +y = dx dy ∆xp1(x)∆yp2(y) = h∆xix h∆yiy = 0 Kovariance dvou velièin ného rozdìlení):
f(x)
(obdobnì u diskrétného èi vícerozmìr-
Cov (f, g) = h∆f∆gi =
Z
∆f∆g p(x)dx
Souèet nezávislých náhodných velièin
5/12
M:num2
Vygenerujeme dvì náhodné velièiny (napø. hodíme 2× kostkou). Jaké rozdìlení má souèet obou velièin? Je dáno konvolucí: Z
px +y (z) = p1(y)p2(z − y)dy ≡ (p1 ∗ p2)(z)
Dùsledek. Støední hodnota i variance souètu nezávislých náhodných velièin jsou aditivní.
E (xx + y ) = x:=z−y
=
Z
Z
Z
zpx +x 2 (z)dz = zp1(y)p2(z − y)dydz
(x + y)p1(y)p2(x)dxdy = hxi1 + hxi2 = E (x x) + E (y y)
Var (xx + y ) = h(∆x + ∆y)2ix +y = h(∆x)2ix +y + 2h∆x∆yix +y + h(∆y)2ix +y = Var x + Var y
Centrální limitní vìta
[plot/randomwalk.sh]
6/12
M:num2
Souèet n stejných nezávislých rozdìlení s koneènou støední hodnotou a koneènou variancí je pro velké n rovno Gaussovì rozdìlení se støední hodnotou nhxi a variancí nVar x. Pøíklad. Uva¾ujme diskrétní rozdìlení b : p(−1/2) = p(1/2) = 1/2. Aproximujte souèet n takových rozdìlení. n=1
p(−1/2) = 1/2, p(1/2) = 1/2,
Var b = 1/4 p(−1) = 1/4, p(0) = 1/2, p(1) = 1/4, Var b 2 = 2/4 p(±3/2) = 1/8, p(±1/2) = 3/8, Var b 3 = 3/4
n=2
n=3
Pro jednoduchost uva¾ujme jen sudé n. Pak pro p(k) =
n n/2 + k
1 2−n ≈ √
2πσ
exp
k2 − 2 2σ
!
,
k = −n/2. .n/2: σ2 = Var (b bn) =
n
4
+
Ovìøení centrální limitní vìty
7/12
M:num2
n n! n! n n 2 n + 1 = ( n − 1)!( n + 1)! = ( n )!/( n ) · ( n )!( n + 1) = n × n + 1 2 2 2 2 2 2 2 2 2
Dal¹í èlen a obecnì
n 2 ln p( , 1) = ln p( , 0) + ln n 2 ≈ ln p( , 0) − +1 2 2 2 n 2 n
n
n
n
n
n−1 2 n+2 ≈
ln p( , 2) = ln p( , 1) + ln 2 2 2
ln p(n, k) ≈ ln p(n, 0) − 2
k X 2k − 1 j=1
n
,
Zk k X (2k − 1) ≈ (2k − 1)dk = k(k − 1) ≈ k2 0
j=1
Obdobnì pro záporná k. V limitì velkých
k
a
p(n, k) ≈ p(n, 0) exp −
Po normalizaci dostaneme ký¾ené
n 6 ln p( , 1) − 2 n
n
tedy 2
k n/2
!
Odhady
8/12
M:num2
K dispozici máme zpravidla vzorek (sample ) náhodné velièiny (výbìr, trajektorii v simulacích), napø. 100× hodíme kostkou. Odhad støední hodnoty n 1X 1X hxi ≈ xn ≡
n
xi ≡
i=1
Spoèítejme varianci náhodné velièiny Var (xn) = h(xn − hxi)
2
xn: *P
i=
xi
n
i
i ∆xi
n
kde σ2 je variance x . Pou¾ili jsme nezávislost, tj. Nyní odhadnìme σ2: *
X i
xi −
1X n
2 + xj
=n
2+
σ2 = n
h∆xi∆xji = 0
pro
i 6= j
2# 1 1 1 − x1 − x2 + · · · = (n − 1)σ2 n n
"
j
A proto odhady jsou (1 = poèet stupòù volnosti): P 2
σ ≈
P
P
2 1 2 2 i xi − n ( i xi ) i ∆xi = , n−1 n−1
σ2 Var(xn) ≈ , n
P 1
σ(xn) ≈
n
2 i xi −
P 1 n
n−1
i xi
2
Váhy Vá¾ený prùmìr (váhy
9/12
M:num2
wi
nemusí být normalizované) P xw x = Pi i i i wi
Známe xi (nezávislé) s chybami Odvodíme pro 2 velièiny:
σi.
Jaké máme volit váhy?
x = wx1 + (1 − w)x2 2 2 σ2(x) = h(x − hxi)2i = h(w∆x1 + (1 − w)∆x2)2i = w2σ2 + ( 1 − w) σ2 1
Minimum nastane pro 1/σ21 1/σ22 , 1 − w = w2 = w= 2 2 1/σ1 + 1/σ2 1/σ21 + 1/σ22 Tedy (a platí obecnì): 1 wi =
σ2 i
Ale problém mù¾e být, pokud neznáme
σi
pøesnì.
Metoda nejmen¹ích ètvercù
10/12
M:num2
~xi = nezávisle promìnné (i = 1. .n) yi = závisle promìnné 1/σ2i = váhy a ~ = parametry (p hodnot, p 6 n, nejlépe p n)
Hledáme funkci fa~ (~x) závislou na p parametrech vystihující data (~xi, y). Parametry a~ budeme hledat z podmínky minima souètu kvadrátù odchylek: min S2, a ~
X f (~x ) − y 2 i a ~ i S2 = σi
Vìta (Gauss{Markov): pro funkci
i
lineárnì závisející na a~ je toto nejlep¹í (= dává nejmen¹í rozptyl odhadnutých parametrù a~ ) nestranný (h~ai je správnì) lineární odhad (Best Linear Unbiased Estimate, BLUE ). Pøíklad. Pro fa(x) = a (konstanta) a σi = 1 najdìte odhad a fa ~
a=y
Výsledkem tování (korelace, regrese, prokládání) jsou odhady a~ spolu odhady chyb a rovnì¾ korelacemi mezi parametry.
Lineární èi linearizované parametry fa x) = f0(~x) + ~ (~
p X
ajfj(~x),
11/12
M:num2
fj(~x) =
j=1
∂f(~x) ∂aj
A pøedpokládejme stejné váhy. Data s chybami mù¾eme zapsat jako: yi = f0(~xi)+
p X
ajfj(~x), +δyi,
hδyii = 0, hδyiδyji = σ2δij
j=1
kde δij = 1 pro i = j a δij = 0 pro i 6= j (Kroneckerovo delta). Polo¾íme bez újmy na obecnosti f0(~xi) = 0. 2
S2 =
p X X
i
ajfj(~xi) − yi
j=1
Hledáme minimum, tedy spoèítáme derivaci a polo¾íme = 0: 2
p X 1 ∂S2 X = fk(~xi) ajfj(~xi) − yi 2 ∂ak i j=1
kde
A = F · FT, ~b = F · ~y, Fki = fk(xi)
(matice
! = (A · a ~ − ~b)k = 0
p × n)
a
·=
maticové násobení.
Lineární èi linearizované parametry { pokraèování
12/12
M:num2
A·a ~ = ~b, ~b = A−1 · a ~
Zbývá spoèítat chyby odhadù a korelace (kovariance) mezi parametry; pravidlo: sèítáme v¾dy pøes dvojice stejných indexù: Cov (ai, aj) = h∆ai∆aji
X
1 −1 F δy A− F δy A αk k iα jβ βl l X 1 −1 F σ2 δ = A− F A αk kl iα jβ βl X 1 −1 σ2 = A− A A αβ iα jβ X 1 −1 σ2 A− A A = iα αβ jβ
=
1 2 = A− ij σ
Pokud neznáme σ, odhadneme ho takto (analogie s prùmìrem, kdy S2 σ = n−p 2
p = 1):