Sztochasztikus modellezés Raisz Péter, Fegyverneki Sándor Miskolci Egyetem,2011
Tartalomjegyzék 1. Valószínűség-számítási alapok 1.1. Eseménytér, műveletek eseményekkel . . . 1.2. A valószínűség fogalma . . . . . . . . . . . 1.3. Klasszikus valószínűségi mező . . . . . . . 1.4. Geometriai valószínűségi mező . . . . . . . 1.5. Feltételes valószínűség, függetlenség . . . . 1.6. A relatív gyakoriság . . . . . . . . . . . . . 1.7. Valószínűségi változó . . . . . . . . . . . . 1.8. Várható érték, transzformáció . . . . . . . 1.9. Medián, kvantilis . . . . . . . . . . . . . . 1.10. Néhány diszkrét eloszlás és jellemzői . . . 1.11. Néhány folytonos eloszlás és jellemzői . . . 1.12. Generátor-, karakterisztikus függvény . . . 1.13. A kétdimenziós véletlen vektor . . . . . . . 1.14. Néhány többdimenziós folytonos eloszlás és 1.15. Az n-dimenziós véletlen vektor . . . . . . . 1.16. Valószínűségi változók összege . . . . . . . 1.17. Egyenlőtlenségek . . . . . . . . . . . . . . 1.18. Nagy számok gyenge törvényei . . . . . . . 1.19. Polinomiális eloszlás . . . . . . . . . . . . 1.20. Transzformáció n-dimenzióban . . . . . . . 1.21. Centrális határeloszlás-tétel . . . . . . . . 1.22. Vegyes valószínűség-számítási feladatok . . 1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . jellemzői . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
5 5 6 7 9 10 13 14 17 20 21 23 31 34 38 39 40 42 46 47 48 49 50
2. Matematikai statisztikai alapok 2.1. Minta, mintavétel . . . . . . . . . . . . . . . . . . . . . 2.2. A statisztikai minta jellemzői . . . . . . . . . . . . . . 2.3. Rendezett minták . . . . . . . . . . . . . . . . . . . . . 2.3.1. Minimumok és maximumok eloszlása . . . . . . 2.3.2. Rendezett mintaelemek eloszlása . . . . . . . . 2.4. Becsléselmélet . . . . . . . . . . . . . . . . . . . . . . . 2.4.1. Pontbecslés . . . . . . . . . . . . . . . . . . . . 2.4.2. Maximum likelihood becslés . . . . . . . . . . . 2.4.3. A momentumok módszere . . . . . . . . . . . . 2.4.4. Intervallumbecslések . . . . . . . . . . . . . . . 2.5. Hipotézisvizsgálat . . . . . . . . . . . . . . . . . . . . . 2.5.1. A likelihood hányados próba . . . . . . . . . . . 2.5.2. Néhány általánosított likelihood hányados próba 2.5.3. A Pearson-féle χ2 statisztika és alkalmazásai . . 2.6. Rendezett mintás próbák . . . . . . . . . . . . . . . . . 2.6.1. Az előjelpróba . . . . . . . . . . . . . . . . . . 2.6.2. A Wilcoxon próba . . . . . . . . . . . . . . . . 2.6.3. A Kolmogorov-Szmirnov kétmintás próba . . . . 2.6.4. A Kolmogorov-próba . . . . . . . . . . . . . . . 2.6.5. Az ω 2 -próba . . . . . . . . . . . . . . . . . . . . 2.7. Minta példák . . . . . . . . . . . . . . . . . . . . . . . 2.8. Vegyes matematikai statisztikai feladatok . . . . . . . . 3. Többdimenziós normális eloszlás 3.1. Többváltozós normális eloszlás fogalma . . 3.1.1. Többváltozós elemzések . . . . . . 3.1.2. Elemi tulajdonságok . . . . . . . . 3.1.3. Jellemzők . . . . . . . . . . . . . . 3.2. A paraméterek becslése . . . . . . . . . . . 3.3. Hipotézis vizsgálat, konfidencia intervallum 3.4. Normalitás vizsgálat . . . . . . . . . . . . 2
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
55 55 57 58 59 60 64 65 67 70 70 74 76 79 83 86 88 90 91 92 93 95 100
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
103 . 103 . 104 . 105 . 106 . 107 . 110 . 112
3.4.1. Perem normalitás vizsgálat . . . . . . . . . . 3.4.2. Egydimenziós vizsgálaton alapuló módszerek 3.4.3. Együttes normalitás vizsgálat . . . . . . . . 3.5. Példák . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1. Kétváltozós normális eloszlás . . . . . . . . 3.5.2. T 2 próba . . . . . . . . . . . . . . . . . . . . 3.5.3. Konfidencia intervallum meghatározása . . . 4. Feltételes várható érték, folyamatok 4.1. Bevezetés . . . . . . . . . . . . . . . . 4.2. Feltételes várható érték . . . . . . . . . 4.3. A feltételes várható érték tulajdonságai 4.4. Martingál . . . . . . . . . . . . . . . . 4.5. Sztochasztikus folyamatok . . . . . . . 4.6. Stacionárius folyamatok . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . . .
113 113 114 115 115 116 117
. . . . . .
119 . 119 . 122 . 124 . 126 . 131 . 132
5. Markov-láncok, folyamatok 138 5.1. Markov-láncok . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5.2. Állapotok osztályozása . . . . . . . . . . . . . . . . . . . . . . 146 6. Sorbanálláselmélet 6.1. Poisson folyamat . . . . . . . . . . . . . 6.2. Születési-halálozási folyamatok . . . . . . 6.3. A sorbanállási elmélet elemei . . . . . . . 6.4. M/M/1 sorbanállási-kiszolgálási rendszer 6.4.1. A várakozási idők paradoxona . . 6.5. Az M/M/1/K rendszer . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
7. Készletgazdálkodási modellek, véletlen ütemezés 7.1. Bevezetés . . . . . . . . . . . . . . . . . . . . . . 7.2. Determinisztikus készletgazdálkodási modellek . . 7.2.1. Az optimális tételnagyság modellje . . . . 7.3. Sztochasztikus készletgazdálkodási modellek . . . 3
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
155 . 155 . 160 . 164 . 167 . 171 . 172
. . . .
175 . 175 . 176 . 176 . 178
7.3.1. Megbízhatósági típusú sztochasztikus készletmodell . . 178 7.3.2. Véletlen ütemezésű rész-szállítmányok esete . . . . . . 179 8. A szimuláció alapjai 8.1. Monte Carlo módszerek . . . . . . . 8.2. Pszeudovéletlen számok . . . . . . . 8.2.1. Inverzfüggvény módszer . . . 8.2.2. Az elfogadás-elvetés módszere 8.2.3. Normális eloszlás generálása . 8.3. A Brown-mozgás . . . . . . . . . . . 8.4. A közelítő integrálás hibája . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
182 . 182 . 183 . 184 . 184 . 186 . 187 . 188
9. Alkalmazások 193 9.1. Geometriai Brown-mozgás . . . . . . . . . . . . . . . . . . . . 193 9.2. Cox-regresszió . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 Irodalomjegyzék
208
4
1. fejezet Valószínűség-számítási alapok 1.1. Eseménytér, műveletek eseményekkel 1.1. Definíció. Egy véletlen kísérlet lehetséges eredményeinek összességét eseménytérnek (mintatér) nevezzük. Jele: Ω. Az Ω elemeit elemi eseményeknek nevezzük. 1.2. Definíció. Az Ω részhalmazainak egy F rendszerét σ-algebrának nevezzük, ha (1) Ω ∈ F, (2) A ∈ F, akkor A ∈ F, (3) A, B ∈ F, akkor A ∪ B ∈ F, (4) A1 , A2 , · · · ∈ F, akkor A1 ∪ A2 ∪ · · · ∈ F. Az F elemeit pedig eseményeknek nevezzük. 1.3. Megjegyzés. Ha csak (1), (2), (3) teljesül, akkor az F halmazrendszert algebrának nevezzük. Ha A, B ∈ F, akkor A ∩ B ∈ F. 1.4. Definíció. Az Ω halmazt szokás biztos eseménynek, az ∅ halmazt pedig lehetetlen eseménynek nevezni. Továbbá, az A esemény bekövetkezik, ha a kísérlet eredménye eleme az A halmaznak. 1.5. Megjegyzés. Az A ∪ B esemény bekövetkezik, ha legalább az egyik közülük bekövetkezik, míg az A ∩ B esemény akkor következik be, ha mind a kettő bekövetkezik. 5
1.2. A valószínűség fogalma 1.6. Definíció. A P : F → R nemnegatív leképezést valószínűségnek nevezzük, ha (1) P (Ω) = 1, (2) A ∩ B = ∅, akkor P (A ∪ B) = P (A) + P (B), (3) A1 , A2 , . . . egymást kölcsönösen kizáró események (azaz Ai ∩ Aj = ∅, ha i < j és i, j = 1, 2, . . . ), akkor ! ∞ ∞ [ X P Ai = P (Ai ). (1.1) i=1
i=1
1.7. Megjegyzés. Az (1)-(3) tulajdonságokat szokás a valószínűség axiómáinak nevezni. 1.8. Következmény. (1) P (A) = 1 − P (A). (2) P (∅) = 0. (3) P (B\A) = P (B) − P (A ∩ B). (4) P (A ∪ B) = P (A) + P (B) − P (A ∩ B). (5) Ha A ⊂ B, akkor P (A) ≤ P (B). ∞ \ (6) Ha Bn+1 ⊂ Bn és Bn = ∅, akkor lim P (Bn ) = 0. n→∞
i=1
1.9. Megjegyzés. Az (5) következményt szokás a valószínűség monotonitásának is nevezni. Ennek fontos következménye, hogy ha A ∈ F, akkor 0 ≤ P (A) ≤ 1, mert ∅ ⊂ A ⊂ Ω. Hasonlóan a (6) következmény a valószínűség folytonossága. 1.10. Definíció. Az (Ω, F, P ) hármast valószínűségi mezőnek nevezzük. 1.11. TÉTEL. (Poincaré) Az A1 , A2 , . . . , An eseményekre ! ! n n k [ X X \ k−1 P Ai = (−1) P Aij , i=1
i1
k=1
(1.2)
j=1
ahol az összegzést az összes lehetséges {i1 , i2 , . . . , ik } ⊂ {1, 2, . . . , n} esetre tekintjük. 1.12. Megjegyzés. A formula a (4) következmény általánosítása. Teljes indukcióval könnyen bizonyítható. 6
1.3. Klasszikus valószínűségi mező 1.13. Definíció. Ha az elemi események száma véges és valószínűségük megegyezik, akkor a valószínűségi mezőt klasszikusnak nevezzük. 1.14. Megjegyzés. A definíció nagyon rövidnek tűnik, ha arra gondolunk, hogy egy speciális helyzetben megadja a teljes matematikai modellt (a valószínűségi mezőt). Felmerül a kérdés, hogy a modell minden része szerepel-e benne. A válasz igen. Ha az elemi eseményeknek van valószínűsége, azt úgy kell értelmezni, hogy az alaphalmaz minden egy elemű részhalmaza esemény. Ekkor viszont F = 2Ω , azaz F a hatványhalmaz. Legyen |Ω| = n és jelölje az elemi eseményeket ωi (i = 1, 2, . . . , n). Ekkor ! n n [ X 1 = P (Ω) = P {ωi } = P ({ωi }) = nP ({ωi }). i=1
i=1
1 (i = 1, 2, . . . , n). n Legyen A ⊂ Ω tetszőleges, ekkor felírható
Tehát P ({ωi }) =
A = {ωi1 , ωi2 , . . . , ωik } alakban. Ekkor P (A) = P
k [
! {ωij }
=
j=1
k X
P ({ωij }) = kP ({ωi }) =
j=1
|A| . |Ω|
Ezzel minden részhalmaznak meghatároztuk a valószínűségét. Tehát az ún. klasszikus képlet: valószínűség =
kedvező esetek száma .u t összes esetek száma
(1.3)
VISSZATEVÉSES MINTAVÉTEL: Adott N darab különböző objektum, amelyek közül s darab rendelkezik egy bizonyos tulajdonsággal, például selejt. Visszatevéssel kiveszünk n darabot. Legyen a kivett selejtek száma ξ. 7
Mennyi a valószínűsége, hogy ξ = k, ahol 0 ≤ k ≤ n. n k s (N − s)n−k k pk = P (ξ = k) = . Nn s Legyen p = , akkor N n k P (ξ = k) = p (1 − p)n−k . k
(1.4)
(1.5)
Tehát csak a selejtaránytól függ a valószínűség. u t VISSZATEVÉS NÉLKÜLI MINTAVÉTEL: Adott N darab különböző objektum, amelyek közül s darab rendelkezik egy bizonyos tulajdonsággal, például selejt. Visszatevés nélkül kiveszünk n darabot. Legyen a kivett selejtek száma ξ. Mennyi a valószínűsége, hogy ξ = k, ahol 0 ≤ k ≤ min{n, s}. s N −s N k n−k . (1.6) pk = P (ξ = k) = n 1.15. Megjegyzés. Az n elemű sokaságból nk számú visszatevéses és n(n − 1) . . . (n − k + 1) =
n! (n − k)!
visszatevés nélküli k elemű minta vehető. A pk valószínűségek definíciójából következik, hogy p0 + p1 + · · · + pn = 1, amelyből n X n k s (N − s)n−k = N n , k k=1
illetve s N −s s N −s s N −s N + + ··· + = .u t 0 n 1 n−1 n 0 n 8
1.4. Geometriai valószínűségi mező A geometriai valószínűségi mező bevezetése, a valószínűség definíciója a klaszszikus valószínűségi mező analógiájára történik. Bevezetése, alkalmazása során kiderül, hogy a szükséges elméleti alapokat majd csak a valószínűségi változóknál illetve a véletlen vektoroknál definiáljuk. A következő definíciót fogadjuk el a szemlélet alapján a klasszikus valószínűségi mező mintájára. 1.16. Definíció. Legyen Ω ⊂ Rn , amelynek létezik és véges a nagysága (jelölje m(Ω)). Továbbá legyen Ω minden eleme (pontja) azonos "esélyű" és A ⊂ Ω, amelynek szintén létezik az m(A) nagysága. A P (A) =
m(A) m(Ω)
(1.7)
mennyiséget az A valószínűségének nevezzük. 1.17. Megjegyzés. P (A) =
m(kedvező esetek) . m(összes eset)
(1.8)
1.18. Megjegyzés. Egy halmaz nagyságán a hosszát, területét, térfogatát(mértékét) értjük. Legyen Ω = [0, 1] és m pedig a hosszúság, ekkor minden Q ∈ [0, 1] pontra csak az m({Q}) = 0 lehetséges. Ebből rögtön következik, hogy minden legfeljebb megszámlálhatóan végtelen halmaz nagysága (hossza) 0. 1.19. Megjegyzés. Létezik halmaz, amelynek nincs Lebesgue-mértéke. Nem mérhető halmaz konstrukciója: Legyen Ω = [0, 1] és m pedig a hosszúság. Az a, b ∈ Ω relációban van, ha a − b ∈ Q, azaz racionális. Ez a reláció reflexív, szimmetrikus, tranzitív. Tehát ekvivalenciareláció, amely osztályozást hoz létre. Definiáljuk az E halmazt oly módon, hogy minden osztályból kiveszünk egy elemet. Ez lehetséges a halmazelmélet kiválasztási axiómája szerint. Legyen Ω ∩ Q = {r1 , r2 , . . . }, En := {x + rn − [x + rn ]|x ∈ E}, 9
ekkor az En halmazok páronént diszjunktak és
∞ [
En = Ω. Ha E mérhető,
n=1
akkor En is és nagyságuk megegyezik. Továbbá ∞ X
m(En ) = 1,
n=1
ami lehetetlen, mert a sor tagjai mind egyenlőek. Ez azt jelenti, hogy E nem mérhető. 1.20. Megjegyzés. Létezik kontinuum számosságú halmaz, amelynek 0 a Lebesgue-mértéke. A Cantor-féle triadikus Legyen E1 a középső része a [0, 1] interval halmaz: 1 2 lumnak, azaz E1 = , . Tehát x ∈ [0, 1]\E1 akkor és csak akkor, ha 3 3 hármas számrendszerben az első jegy (a 0 után) a 0 vagy a 2. Legyen E2a 1 2 7 8 középső részek uniója a [0, 1]\E1 halmazból, azaz E1 = , ∪ , . 9 9 9 9 Tehát x ∈ [0, 1]\(E1 ∪ E2 ) akkor és csak akkor, ha hármas számrendszerben az első két jegy (a 0 után) a 0 vagy a 2. Folytassuk a konstrukciót: legyen En a középső részek uniója a [0, 1]\(E1 ∪ E2 ∪ · · · ∪ En−1 ) halmazból. Cantor-féle triadikus halmaznak nevezzük a C = [0, 1]\
∞ [
En
n=1
halmazt. Tehát x ∈ C akkor és csak akkor, ha hármas számrendszerben a számjegyei csupán a 0 vagy a 2. A C halmaz nemmegszámlálható. A konstrukció alapján n−1 ∞ n−1 X 1 2 1 2 m(En ) = , m(C) = 1 − = 0. u t 3 3 3 3 n=1
1.5. Feltételes valószínűség, függetlenség 1.21. Definíció. Az A esemény B feltétel melletti feltételes valószínűségének nevezzük a P (A ∩ B) P (A|B) = (1.9) P (B) 10
mennyiséget, ha P (B) > 0. 1.22. Megjegyzés. A P (·|B) : F → R leképezés tényleg valószínűség, azaz teljesíti a valószínűség axiómáit, ha rögzítjük a B eseményt 1.23. TÉTEL. (szorzási szabály) Ha P (A) > 0, P (B) > 0, akkor P (A ∩ B) = P (A)P (B|A) = P (B)P (A|B).
(1.10)
1.24. TÉTEL. (szorzási szabály általánosítása) Ha az A1 , A2 , . . . , An n−1 \ eseményrendszerre P ( Ai ) > 0, akkor i=1
P(
n \
Ai ) = P (A1 )P (A2 |A1 ) · · · P (An |A1 ∩ A2 ∩ · · · ∩ An−1 ).
(1.11)
i=1
1.25. Definíció. Az A1 , A2 , . . . eseményrendszert teljes eseményrendszer∞ [ nek nevezzük, ha Ai ∩ Aj = ∅, ha i < j és i, j = 1, 2, . . . , és Ai = Ω. i=1
1.26. TÉTEL. (teljes valószínűség) Ha A1 , A2 , . . . teljes eseményrendszer és P (Ai ) > 0, ha i = 1, 2, . . . , akkor tetszőleges B esemény esetén P (B) =
∞ X
P (B|Ai )P (Ai ).
(1.12)
i=1
Bizonyítás. P (B) =P (B ∩ Ω) = P (B ∩
∞ [
Ai ) = P (
i=1
=
∞ X i=1
P (B ∩ Ai ) =
∞ X
∞ [
(B ∩ Ai )) =
(1.13)
i=1
P (Ai )P (B|Ai ).
(1.14)
i=1
Felhasználva a teljes eseményrendszer tulajdonságait, a valószínűség 3. axiómáját és a szorzási szabályt. 1.27. Megjegyzés. A és A teljes eseményrendszert alkot. A ∩ B, A ∩ B, A ∩ B,és A ∩ B teljes eseményrendszert alkot. 11
1.28. TÉTEL. (Bayes) Ha A1 , A2 , . . . teljes eseményrendszer és P (Ai ) > 0, ha i = 1, 2, . . . , akkor tetszőleges pozitív valószínűségű B esemény esetén P (Ak |B) =
P (B|Ak )P (Ak ) . ∞ X P (B|Ai )P (Ai )
(1.15)
i=1
Bizonyítás. P (Ak |B) =
P (Ak ∩ B) P (B|Ak )P (Ak ) = ∞ X P (B) P (B|Ai )P (Ai )
(1.16)
i=1
Felhasználva a teljes valószínűség tételét és a szorzási szabályt.
1.29. Megjegyzés. A Bayes-tételhez kapcsolódóan bevezethetjük a következő elnevezéseket: P (Ai ) az ún. a-priori valószínűség és P (Ai |A) az ún. a-posteriori valószínűség. 1.30. Definíció. Az A és B eseményt sztochasztikusan függetlennek nevezzük, ha P (A ∩ B) = P (A)P (B). (1.17) 1.31. Megjegyzés. Ha az A és B események függetlenek, akkor A és B, A és B és A és B is függetlenek. Ha 0 < P (A) < 1, akkor A és A nem függetlenek. 1.32. TÉTEL. Ha A∩B = ∅, és P (A)P (B) > 0, akkor az A és a B esemény nem lehetnek függetlenek. Bizonyítás. P (A ∩ B) = 0,
P (A)P (B) > 0.
Tehát nem lehetnek egyenlőek.
1.33. Definíció. Az A1 , A2 , . . . , An eseményeket páronként sztochasztikusan függetlennek nevezzük, ha P (Ai ∩ Aj ) = P (Ai )P (Aj ) 12
(1 ≤ i < j ≤ n).
(1.18)
1.34. Definíció. Az A1 , A2 , . . . , An eseményeket teljesen sztochasztikusan függetlennek nevezzük, ha P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) · · · P (Aik ), ahol 1 ≤ i1 < · · · < ik ≤ n,
(1.19)
2 ≤ k ≤ n.
1.35. Megjegyzés. Ha megvizsgáljuk a feltételrendszert, akkor látható, hogy a teljes függetlenség feltételeinek a száma n n n n n n + + ··· + =2 − − = 2n − 1 − n, 2 3 n 0 1 amely nagyon gyorsan nő. Már n = 3 esetén megadható példa, amely azt mutatja, hog egyik feltétel sem elhagyható. 1.36. Definíció. Az {A1 , A2 , . . . , An , . . . } és {B1 , B2 , . . . , Bm , . . . } eseményrendszereket sztochasztikusan függetlennek nevezzük, ha ∀i, j esetén P (Ai ∩ Bj ) = P (Ai )P (Bj )
(1 ≤ i ≤ n,
1 ≤ j ≤ m).
(1.20)
1.37. Megjegyzés. Ha az A és B események függetlenek, akkor A és B, A és B és A és B is függetlenek, azaz az {A, A} és {B, B} eseményrendszerek is függetlenek. Két σ−algebra független, ha mint eseményrendszerek függetlenek. 1.38. TÉTEL. Ha A1 , A1 , . . . , An független események és P (Ai ) < 1,
(i = 1, 2, . . . , n),
akkor P(
n [
Ai ) < 1.
(1.21)
(1.22)
i=1
1.6. A relatív gyakoriság 1.39. Definíció. Bernoulli kísérletsorozatnak nevezzük azt, ha adott A ∈ F és egymástól függetlenül, azonos körülmények között elvégezzük ugyanazt a kísérletet, s "csak" azt figyeljük, hogy az A esemény bekövetkezett-e vagy sem. 13
1.40. Megjegyzés. A visszatevéses mintavétel egy ilyen kísérletsorozatot valósít meg. 1.41. Definíció. Adott egy valószínűségi mező. Vizsgáljuk az A esemény bekövetkezését. Végezzünk el egy Bernoulli-kísérletsorozatot, amelynek a hossza n. Jelölje az A esemény bekövetkezéseinek a számát kA . Ezt az A esemény gyakoriságának nevezzük. Míg az rA =
kA n
(1.23)
mennyiséget pedig relatív gyakoriságnak nevezzük. 1.42. Megjegyzés. Mivel 0 ≤ kA ≤ n, ezért 0 ≤ rA ≤ 1. kΩ = n, tehát rΩ = 1. Ha A ∩ B = ∅, akkor kA∪B = kA + kB , ezért rA∪B = rA + rB . Jól látható, hogy a relatív gyakoriság tulajdonságai megegyeznek a valószínűségével és mégsem igazán jó mérőszám, hiszen minden újabb kísérlettel változhat.
1.7. Valószínűségi változó 1.43. Definíció. A X : Ω → R leképezést valószínűségi változónak nevezzük, ha {X < x} = {ω|ω ∈ Ω,
X(ω) < x} ∈ F
∀x ∈ R.
(1.24)
1.44. Definíció. Legyen σ(X) = {A ∈ F|A = X −1 (B), ∀B ∈ B(R)}.
(1.25)
Ezt a halmazt a valószínűségi változó által generált σ−algebrának nevezzük. 1.45. Definíció. Az F (x) = P (X < x)
(1.26)
formulával meghatározott valós függvényt az X valószínűségi változó eloszlásfüggvényének nevezzük. 14
1.46. TÉTEL. Az F valós függvény akkor és csak akkor lehet eloszlásfüggvény, ha 1. lim F (x) = 0, x→−∞
2. lim F (x) = 1, x→∞
3. F (a) ≤ F (b), ha (a < b), azaz monoton növekvő, 4. lim F (x) = F (x0 ), ∀x0 ∈ R, azaz balról folytonos. x→x0 −0
1.47. Megjegyzés. Az F teljesíti az előző tételben szereplő tulajdonságokat. Ha ezenkívül szigorúan nő és folytonos, akkor létezik F −1 . Legyen Ω = [0, 1], F = a nyílt intervallumok által generált σ−algebra és P pedig egy halmaz hossza. Legyen minden ω ∈ Ω esetén X(ω) = F −1 (ω),
(1.27)
ami folytonos és szigorúan monoton növekvő. P (X < x) = m({ω|F −1 (ω) < x}) = m({ω|ω < F (x)}) = F (x). 1.48. TÉTEL. Legyen F az X valószínűségi változó eloszlásfüggvénye és a, b ∈ R, ekkor 1. P (a ≤ X < b) = F (b) − F (a), 2. P (X = a) = F (a + 0) − F (a). 1.49. Definíció. Az X valószínűségi változót diszkrétnek nevezzük, ha a lehetséges értékek X(Ω) halmazának számossága legfeljebb megszámlálhatóan végtelen. 1.50. Megjegyzés. Diszkrét valószínűségi változó esetén a lehetséges értékek felírhatók egy sorozatként. 1.51. Definíció. Legyen az X valószínűségi változó lehetséges értékeinek sorozata x1 , x2 , . . . . A pi = P (X = xi ),
(i = 1, 2, . . . )
valószínűségek sorozatát eloszlásnak nevezzük.
15
(1.28)
1.52. TÉTEL. Ha p1 , p2 , . . . eloszlás, akkor pi ≥ 0
(i = 1, 2, . . . ) és
∞ X
pi = 1.
(1.29)
i=1
1.53. Definíció. Ha létezik f nemnegatív valós függvény, melyre Zx F (x) =
∀x ∈ R,
f (t)dt,
(1.30)
−∞
akkor f az F eloszlásfüggvényhez tartozó sűrűségfüggvény. 1.54. Megjegyzés. A sűrűségfüggvény nem egyértelmű. A sűrűségfüggvény létezése azt jelenti, hogy az F eloszlásfüggvény abszolút folytonos. 1.55. TÉTEL. Az f valós függvény akkor és csak akkor lehet sűrűségfüggvény, ha nemnegatív és Z+∞ f (t)dt = 1. (1.31) −∞
1.56. Definíció. A valószínűségi változót folytonosnak nevezzük, ha létezik a sűrűségfüggvénye. 1.57. TÉTEL. Legyen az X folytonos valószínűségi változó f sűrűségfüggvénnyel és a, b ∈ R, ekkor P (X = a) = 0 és
(1.32)
Zb P (a ≤ X < b) =
f (x)dx.
(1.33)
a
1.58. Megjegyzés. Tetszőleges eloszlásfüggvény előállítható p 1 F 1 + p2 F 2 + p 3 F 3
(1.34)
alakban, ahol p1 +p2 +p3 = 1, p1 ≥ 0, p2 ≥ 0, p3 ≥ 0, F1 diszkrét, F2 abszolút folytonos és F3 folytonos és szinguláris eloszlásfüggvény a Lebesgue-mértékre nézve. 16
A P és a P ∗ valószínűségek szingulárisak egymásra, ha ∃A ∈ F úgy, hogy P (A) = 0 és P ∗ (A) = 0. Általában egy diszkrét és egy abszolút folytonos szinguláris egymásra nézve. Folytonos és szinguláris eloszlásfüggvény a Lebesgue-mértékre nézve az ún. Cantor-függvény: A Cantor-féle triadikus halmaz elkészítésekor (l. 1.20 megjegyzés) az n-edik lépésben éppen 2n − 1 intervallumot vettünk ki a [0, 1] intervallumból. Jelölje ezeket sorban A1 , A2 , . . . , A2n −1 . Ekkor legyen 0, ha x = 0, k Fn (x) = , ha x ∈ Ak , k = 1, 2, . . . , 2n − 1, n 2 1, ha x = 1. Az F (x) = lim Fn (x), n→∞
x∈R
függvényt Cantor-függvénynek nevezzük. F monoton növekvő, F 0 = 0 majdnem mindenütt és nem abszolút folytonos.
1.8. Várható érték, transzformáció 1.59. Definíció. 1. Ha az X diszkrét valószínűségi változó lehetséges értékeinek a száma véges, azaz a lehetséges értékek x1 , x2 , . . . , xn akkor a
és pi = P (X = xi ) (i = 1, 2, . . . , n), n X
xi p i
(1.35)
i=1
mennyiséget várható értéknek nevezzük. 2. Ha az X diszkrét valószínűségi változó lehetséges értékeinek számossága megszámlálhatóan végtelen, azaz a lehetséges értékek x1 , x2 , . . . , akkor a
és pi = P (X = xi ) (i = 1, 2, . . . ), ∞ X
x i pi
i=1
17
(1.36)
mennyiséget várható értéknek nevezzük, ha
∞ X
|xi | pi < +∞.
i=1
3. Ha X folytonos valószínűségi változó f sűrűségfüggvénnyel, akkor a Z+∞ xf (x)dx
(1.37)
−∞
mennyiséget várható értéknek nevezzük, ha Z+∞ |x| f (x)dx < +∞.
(1.38)
−∞
Az X valószínűségi változó várható értékének a jelölése: E(X). 1.60. TÉTEL. 1. E(aX + b) = aE(X) + b, ∀a, b ∈ R. 2. Ha m ≤ X ≤ M, akkor m ≤ E(X) ≤ M. 1.61. Definíció. Legyen X valószínűségi változó és g valós függvény. Ha az Y = g(X) függvény valószínűségi változó, akkor az X transzformáltjának nevezzük. 1.62. Megjegyzés. A transzformált eloszlásfüggvénye FY (y) = P ({ω|g(X(ω)) < y}). 1.63. TÉTEL. Ha g differenciálható és g 0 (x) 6= 0, akkor X folytonos valószínűségi változó esetén Y = g(X) folytonos valószínűségi változó, melynek sűrűségfüggvénye f (g −1 (y)) d g −1 (y) , ha a < y < b, X dy (1.39) fY (y) = 0, egyébként, ahol a = min( lim g(x), lim g(x)), x→−∞
x→+∞
b = max( lim g(x), lim g(x)). (1.40) x→−∞
18
x→+∞
1.64. TÉTEL. Ha Y = g(X) az X valószínűségi változó transzformáltja és létezik E(Y ), akkor ∞ X g(xi )P (X = xi ), ha X diszkrét, i=1 (1.41) E(Y ) = +∞ R ha X és Y folytonos. g(x)fX (x)dx, −∞
1.65. Definíció. Az E((X − E(X))2 )
(1.42)
mennyiséget az X valószínűségi változó szórásnégyzetének nevezzük. Jele: D2 (X). p 1.66. Definíció. A E((X − E(X))2 ) mennyiséget az X valószínűségi változó szórásának nevezzük. Jele: D(X). 1.67. Definíció. Az E(X k ) mennyiséget az X valószínűségi változó k-adik momentumának nevezzük. 1.68. Definíció. Az E((X − E(X))k ) mennyiséget az X valószínűségi változó k-adik centrális momentumának nevezzük. 1.69. Definíció. Az
X − E(X) D(X) transzformáltat az X valószínűségi változó standardizáltjának nevezzük. 1.70. Definíció. Az E
X − E(X) D(X)
3 !
mennyiséget az X valószínűségi változó ferdeségének nevezzük. 1.71. Definíció. Az E
X − E(X) D(X)
4 ! −3
mennyiséget az X valószínűségi változó lapultságának nevezzük. 19
1.72. TÉTEL. 1. D(aX + b) = |a| D(X), ∀a, b ∈ R. 2. D2 (X) = E(X 2 ) − E 2 (X). 3. D2 (X) = E((X − a)2 ) + (a − E(X))2 . 4. min E((X − a)2 ) = D2 (X), és ekkor a = E(X). a∈R
1.73. Megjegyzés. Az utóbbi két állítás hasonló (sőt formailag azonos) a tehetetlenségi nyomatékra vonatkozó közismert Steiner-tétellel, amely azt mondja ki, hogy egy egyenesen lévő tömegeloszlás tehetetlenségi nyomatéka valamely az egyenesre merőleges forgástengelyre vonatkozólag egyenlő a súlyponton áthaladó tengelyre vonatkozó tehetetlenségi nyomatéknak és a tengely súlyponttól mért távolsága négyzetösszegével, ha az össztömeg egységnyi; következésképpen a tehetetlenségi nyomaték akkor minimális, ha a forgástengely a súlyponton megy át.
1.9. Medián, kvantilis 1.74. Definíció. Az m valós számot az X valószínűségi változó mediánjának nevezzük, ha 1 (1.43) P (X < m) = P (X ≥ m) = , 2 azaz 1 FX (m) = . (1.44) 2 1.75. Megjegyzés. A medián általában nem egyértelmű. Viszont ha létezik a sűrűségfüggvény, illetve létezik az eloszlásfüggvény deriváltja, akkor min E(|X − a|) a∈R
(1.45)
pontosan az a = m esetén adódik. Ez a tulajdonság hasonlít a várható érték és szórásnégyzet kapcsolatához. Az E(|X − m|) értéket a mediántól való várható eltérésnek nevezzük.
20
Bizonyítás. Z+∞ I= |x − m| f (x)dx =
(1.46)
−∞
Zm =−
Z+∞ (x − m)f (x)dx + (x − m)f (x)dx.
−∞
(1.47)
m
Alkalmazzuk a következő Leibniz formulát: d dy
Zq(y) Zq(y) ∂ f (x, y)dx+f (q(y), y)q 0 (y)−f (p(y), y)p0 (y), (1.48) f (x, y)dx = ∂y p(y)
p(y)
akkor azt kapjuk, hogy Z∞
Zm
dI = dm
f (x)dx − −∞
f (x)dx.
(1.49)
m
Tehát akkor kapunk minimumot, ha ez nulla, azaz Zm F (m) =
1 f (x)dx = . 2
(1.50)
−∞
Ez pedig éppen az eloszlás mediánjával egyezik meg.
1.76. Definíció. Az xp valós számot az X valószínűségi változó p-kvantilisének nevezzük, ha FX (xp ) = p. (1.51) 1.77. Megjegyzés. Tehát például a medián az
1 -kvantilis. 2
1.10. Néhány diszkrét eloszlás és jellemzői 1. BINOMIÁLIS ELOSZLÁS 21
Legyen n ∈ N, A ∈ F, és végezzünk el egy n hosszúságú Bernoulli-kísérletsorozatot. Továbbá, legyen X az A esemény bekövetkezéseinek a száma. Ekkor X eloszlása n k n−k P (X = k) = p q , (k = 0, 1, . . . , n), (1.52) k ahol P (A) = p és q = 1 − p, és az X valószínűségi változót binomiális eloszlásúnak nevezzük. Jelölés: X ∼ B(n, p). 1.78. TÉTEL. E(X) = np, D2 (X) = npq. 1.79. Megjegyzés. A visszatevéses mintavétel binomiális eloszláshoz vezet. Továbbá a gyakoriság is binomiális eloszlású. 2. POISSON-ELOSZLÁS Legyen λ > 0 rögzített konstans és λ = npn , ekkor n k λk ahol k = 0, 1, . . . . lim pn (1 − pn )n−k = e−λ , n→∞,λ=npn k k!
(1.53)
A X valószínűségi változót Poisson-eloszlásúnak nevezzük λ > 0 paraméterrel, ha eloszlása P (X = k) = e−λ
λk , k!
ahol k = 0, 1, . . . .
(1.54)
Jelölés: X ∼ P oisson(λ). 1.80. TÉTEL. E(X) = λ, D2 (X) = λ. 3. GEOMETRIAI ELOSZLÁS A binomiális eloszlás bevezetésekor használt jelölések mellett az X valószínűségi változó jelentse az A esemény első bekövetkezéséhez szükséges kísérletek számát. az X eloszlása P (X = k) = pq k−1 ,
ahol k = 1, 2, . . . .
1 q 1.81. TÉTEL. E(X) = , D2 (X) = 2 . p p 22
(1.55)
1.82. Megjegyzés. Az Y = X − 1 valószínűségi változót is szokás geometriai eloszlásúnak nevezni. Az Y eloszlása P (Y = k) = pq k ,
ahol k = 0, 1, 2, . . . .
q q 1.83. TÉTEL. E(Y ) = , D2 (Y ) = 2 . p p 1.84. Megjegyzés. P (Y = k + m|Y ≥ m) =
P ({Y = k + m} ∩ {Y ≥ m}) . P (Y ≥ m)
Viszont {Y = k + m} ∩ {Y ≥ m} = {Y = k + m} és
pq m = qm. P (Y ≥ m) = pq m 1 + q + q 2 + . . . = 1−q
Tehát
pq m+k = pq k = P (Y = k). (1.56) qm Ezzel beláttuk a geometriai eloszlás emlékezet nélküli tulajdonságát. P (Y = k + m|Y ≥ m) =
1.11. Néhány folytonos eloszlás és jellemzői 1. EGYENLETES ELOSZLÁS Legyen a, b ∈ R és a < b. Az X egyenletes eloszlású az (a, b) intervallumon, ha a sűrűségfüggvénye 1 , ha a < x < b, (1.57) f (x) = b − a 0, egyébként. Jelölés: X ∼ U (a, b). Az eloszlásfüggvény 0, ha x ≤ a, x − a , ha a < x ≤ b, F (x) = b−a 1, ha x > b. 23
(1.58)
1.85. TÉTEL. E(X) =
a+b (b − a)2 , D2 (X) = . 2 12
1.86. Megjegyzés. Az egyenletes eloszlás adja a geometriai valószínűségi mező elméleti alapját. 1.87. TÉTEL. Ha F szigorúan monoton növő eloszlásfüggvény és X F eloszlású, akkor Y = F (X) egyenletes eloszlású a [0, 1] intervallumon. Fordítva, ha X ∼ U (0, 1), akkor Y = F −1 (X) éppen F eloszlású. 2. EXPONENCIÁLIS ELOSZLÁS Az X exponenciális eloszlású λ > 0 paraméterrel, ha a sűrűségfüggvénye ( λe−λx , ha x ≥ 0, f (x) = (1.59) 0, egyébként. Jelölés: X ∼ Exp(λ). Az eloszlásfüggvény ( 0, ha x ≤ 0, F (x) = −λx 1 − e , ha x > 0. 1.88. TÉTEL. E(X) =
(1.60)
1 1 , D2 (X) = 2 . λ λ
1.89. Megjegyzés. Örökifjú tulajdonság: P (X ≥ a + b|X ≥ a) = P (X ≥ b),
(1.61)
ahol a > 0, b > 0. 3. NORMÁLIS ELOSZLÁS Legyen m ∈ R, σ > 0. Az Y normális eloszlású, ha a sűrűségfüggvénye 1 (x − m)2 f (x) = √ exp − , x ∈ R. (1.62) 2σ 2 σ 2π Jelölés: Y ∼ N (m, σ 2 ). Ha m = 0 és σ = 1, akkor a valószínűségi változót standard normális eloszlásúnak nevezzük. Jelölje a sűrűségfüggvényét ϕ és az eloszlásfüggvényét Φ. Ha X standard normális eloszlású, akkor az Y = σX + m 24
(1.63)
valószínűségi változó F eloszlásfüggvényére jellemző, hogy x−m F (x) = Φ . σ
(1.64)
1.90. TÉTEL. E(X) = m, D2 (X) = σ 2 . 1.91. Megjegyzés. A ϕ függvény írja le a Gauss-görbét (haranggörbét). 1.92. Megjegyzés. Φ(0) = 0.5 és Φ(−x) = 1−Φ(x). Ezzel meghatározható táblázatból az eloszlásfüggvény értéke, hiszen általában a Φ függvény értékeit csak a [0, 4) intervallumon szokás megadni. Néhány standard normális eloszlás érték xp 1 1.96 2 3 4 6
Φ(xp ) = p 0.8413447460 0.9750021049 0.9772498680 0.9986501020 0.9999683288 0.9999999990
P (m − xp σ < Y < m + xp σ) 0.682689492 0.950004210 0.954499736 0.997300204 0.999936658 0.999999998
.
1.93. Megjegyzés. A normális eloszláshoz kapcsolódik a hibafüggvény 2 erf(x) = √ π
Zx
2
e−u du
0
erfc(x) =1 − erf(x), azaz
1 x Φ(x) = 1 + erf √ . 2 2 ∞ 2 X (−1)n x2n+1 erf(x) = √ π n=0 (2n + 1)n! 2 x3 x5 x7 x9 =√ x− + − + − ··· . 3 10 42 216 π
25
(1.65)
(1.66)
(1.67)
" # 2 ∞ X 2n! e−x erfc(x) = √ 1 + (−1)n n!(2x)2n x π n=1 2 e−x 1 3 15 105 = √ 1− 2 + 4 − 6 + − ··· . 2x 4x 8x 16x8 x π
(1.68)
1.1. ábra.
Az eloszlásfüggvény közelítésére egy 10−7 pontosságú polinomiális közelítést alkalmazhatunk. A közelítő polinom: p(x) = c0 + c1 x + c2 x2 + · · · + c8 x8 .
26
(1.69)
A közelítő polinom együtthatói intervallum c0 c1 c2 c3 c4 c5 c6 c7 c8
[0, 1.5] 0.4999999853197 0.3989437251038 -0.0000232473822 -0.0663495262607 -0.0004071645564 0.0105643510048 -0.0003504976933 -0.0012947802876 0.0002619054865
(1.5, 3] 0.5300774546729 0.2799241265723 0.2005701987176 -0.2504062323459 0.0949343858651 -0.0131657278224 -0.0009270280158 0.0004671302299 -0.0000383458376
(3, 6] -0.1621966195471 1.8137844596010 -1.2430841874817 0.4883401215203 -0.1201986229749 0.0189705569006 -0.0018738388405 0.0001058586660 -0.0000026175074
Az eloszlásfüggvény inverzének a közelítésére egy 10−14 pontosságú racionális törtfüggvény közelítést alkalmazhatunk. Standard normális eloszlás inverze (Pascal részlet) function Invphi(var x:extended):extended; var szi,ni,ui:extended; begin ui:=x; if (ui<0) or (ui>1) then Halt; if ui>=0.5 then ui:=1-ui; if ui<(2*1e-15) then ui:=2*1e-15; ui:=sqrt(-2*ln(ui))-sqrt(ln(4)); if 0.01
else begin szi:=0.1389671822546715525e-4; szi:=szi*ui+0.9933095513250211212e-3; szi:=szi*ui+0.2132223881469308687e-1; szi:=szi*ui+0.1971184884114817024e0; szi:=szi*ui+0.9208235553699620741e0; szi:=szi*ui+0.2302486886454418763e1; szi:=szi*ui+0.2934913383940946604e1; szi:=szi*ui+0.1475663066897793476e1; szi:=szi*ui+0.2236640681757362082e-6; ni:=0.1389640654034188922e-4; ni:=ni*ui+0.9770522217813339426e-3; ni:=ni*ui+0.2025571989491669521e-1; ni:=ni*ui+0.1775558927085441912e0; ni:=ni*ui+0.7785719242838022205e0; ni:=ni*ui+0.1819506588454068626e1; ni:=ni*ui+0.2152916059924272000e1; ni:=ni*ui+1.0;end; if x<0.5 then szi:=-szi; Invphi:=szi/ni; end; 1.94. TÉTEL. (Moivre-Laplace) Legyen az X valószínűségi változó binomiális eloszlású n és p paraméterrel és 0 ≤ a < b ≤ n egész, akkor b X n k n−k P (a ≤ X ≤ b) = p q ≈ (1.70) k k=a 1 1 a − np − b − np + 2 2 − Φ (1.71) ≈ Φ √ √ . npq npq Szemléltetésül tekintsük az 1.1 és az 1.2 ábrát. 4. CAUCHY ELOSZLÁS Legyen c ∈ R, s > 0. Az Y Cauchy eloszlású, ha a sűrűségfüggvénye f (x) =
1 2 # , x−c πs 1 + s "
28
x ∈ R.
(1.72)
1.2. ábra.
1.95. Megjegyzés. Nem létezik a várható érték és ebből adódóan nem létezik az E(X α ) momentum, ha α ≥ 1. Az eloszlásfüggvény 1 1 F (x) = + arctan 2 π
x−c s
.
(1.73)
1.96. Megjegyzés. Szokás a c = 0, s = 1 esetet (standard) Cauchy-eloszlásnak nevezni. 5. WEIBULL ELOSZLÁS A Weibull-eloszlás paramétereire többféle elterjedt jelölésrendszer van. Az eltérő jelölések használatát egyértelműen magyarázza, hogy a Weibull-eloszlás 29
1.3. ábra.
igen széles körben, a legkülönfélébb tudományterületeken alkalmazták, valamint a paramétereknek sokféle meghatározási módja is ismeretes és az egyes megoldásoknál a változók átírása jelentős egyszerűsítéseket eredményez. Mi a következőkben az ( 1 − exp(−xc ), ha x ≥ 0, Fc (x) = (1.74) 0, ha x < 0, jelölést alkalmazzuk a standard Weibull-eloszlás jelölésére. Ebből a lineáris transzformáltak eloszlása x−a Fc ( ). (1.75) b Tehát ez az eloszláscsalád háromparaméteres, amelyből a c az ún. alakparaméter (típusparaméter). Viszont lényeges, hogy aszimmetrikus eloszlás. 30
1.4. ábra.
1.97. Megjegyzés. Az eloszlás c = 1 esetén az exponenciális eloszlást, c = 2 a Rayleigh eloszlás adja, míg c = 3.57 közelében az eloszlás közel szimmetrikussá válik és jól közelíti a normális eloszlást. Megfelelő paraméter választással az is elérhető, hogy a Weibull-eloszlás jól közelítse a lognormális és Γ-eloszlásokat. Tekintsük az 1.3, 1.4, 1.5, 1.6 ábrákat.
1.12. Generátor-, karakterisztikus függvény 1.98. Definíció. Legyen X egy nemnegatív egész értékű valószínűségi változó és legyen pj = P (X = j), (j = 0, 1, 2, . . . ). A GX (z) =
∞ X
pj z j = E(z X )
j=0
31
(1.76)
1.5. ábra.
függvényt az X generátorfüggvényének nevezzük. 1.99. TÉTEL. Legyen X és Y nemnegatív egész értékű valószínűségi változó, ekkor (a) GX (z) konvergens, ha |z| ≤ 1. (b) X és Y eloszlása akkor és csak akkor egyezik meg, ha GX (z) = GY (z). 1 dn GX (z) (c) pn = , n = 0, 1, 2 . . . . n! dz n z=0 (d) E(X) = G0X (1) és D2 (X) = G00X (1) + G0X (1) − (G0X (1))2 . 1.100. Definíció. Legyen X valószínűségi változó a ϕX (t) = E(eitX ),
t∈R
függvényt az X karakterisztikus függvényének nevezzük. 32
(1.77)
1.6. ábra.
1.101. TÉTEL. Legyen X és Y valószínűségi változó, ekkor (a) FX = FY akkor és csak akkor, ha ϕX = ϕY . (b) |ϕX (t)| ≤ ϕX (0) = 1, ∀t ∈ R. (k)
(c) ϕX = ik E(X k ), ha E(X k ) létezik. 1.102. TÉTEL. Ha a ϕ karakterisztikus függvény abszolút integrálható, akkor az X valószínűségi változónak létezik a sűrűségfüggvénye, és 1 fX (x) = 2π
Z∞
e−iux ϕX (u)du.
−∞
33
(1.78)
1.13. A kétdimenziós véletlen vektor 1.103. Definíció. A (X, Y ) : Ω → R2 leképezést (kétdimenziós) véletlen vektornak nevezzük, ha {X < x, Y < y} = {ω|ω ∈ Ω,
X(ω) < x, Y (ω) < y} ∈ F
∀x, y ∈ R. (1.79)
1.104. Definíció. Az F (x, y) = P (X < x, Y < y) formulával meghatározott valós értékű függvényt a (X, Y ) véletlen vektor együttes eloszlásfüggvényének nevezzük. Az FX (x) = lim F (x, y),
FY (y) = lim F (x, y)
y→+∞
x→+∞
(1.80)
függvényeket peremeloszlásfüggvénynek nevezzük. 1.105. TÉTEL. Az F függvény akkor és csak akkor lehet együttes eloszlásfüggvény, ha 1. lim F (x, y) = 0, lim F (x, y) = 0, x→−∞
y→−∞
2. x→∞ lim F (x, y) = 1, y→∞
3. F mindkét változójában balról folytonos, 4. F (b, d) − F (b, c) − F (a, d) + F (a, c) ≥ 0, ∀a < b, c < d esetén, azaz teljesül az ún. "téglalap" tulajdonság. 1.106. Megjegyzés. A téglalap tulajdonságból következik, hogy mindkét változójában monoton növekvő. 1.107. Definíció. A (X, Y ) véletlen vektort diszkrétnek nevezzük, ha a lehetséges értékek számossága legfeljebb megszámlálhatóan végtelen. 1.108. Definíció. Legyen az X, illetve Y valószínűségi változó lehetséges értekeinek sorozata x1 , x2 , . . . , illetve y1 , y2 , . . . . A P (X = xi , Y = yj ) = pij (i, j = 1, 2, . . . ) valószínűségek sorozatát együttes eloszlásnak nevezzük. A qi =
∞ X
pij ,
(i = 1, 2, . . . ),
j=1
34
(1.81)
rj =
∞ X
pij ,
(j = 1, 2, . . . )
(1.82)
i=1
valószínűség sorozatokat peremeloszlásnak nevezzük. Minden rj > 0 esetén az X feltételes eloszlása adott Y = yj mellett pij . (1.83) P (X = xi |Y = yj ) = rj Az E(X|Y = yj ) =
∞ X
xi
i=1
pij rj
(1.84)
mennyiséget feltételes várható értéknek nevezzük. Az E(X|Y = yj ) = m2 (yj )
(1.85)
függvényt az X-nek az Y -ra vonatkozó regressziós függvényének nevezzük. 1.109. TÉTEL. Ha pij (i, j = 1, 2, . . . ) együttes eloszlás, akkor pij ≥ 0
(i, j = 1, 2, . . . ) és
∞ X ∞ X
pij = 1.
(1.86)
i=1 j=1
1.110. Definíció. Ha létezik f nemnegatív valós értékű függvény, melyre Zx Zy f (u, v)dvdu,
F (x, y) =
∀x, y ∈ R,
(1.87)
−∞ −∞
akkor f az F eloszlásfüggvényhez tartozó együttes sűrűségfüggvény. Az Z+∞ fX (x) = f (x, y)dy, −∞
Z+∞ fY (y) = f (x, y)dx
(1.88)
−∞
függvényeket peremsűrűségfüggvénynek nevezzük. 1.111. TÉTEL. Az f függvény akkor és csak akkor lehet együttes sűrűségfüggvény, ha nemnegatív és Z+∞ Z+∞ f (x, y)dydx = 1. −∞ −∞
35
(1.89)
1.112. Definíció. Az (X, Y ) véletlen vektort folytonosnak nevezzük, ha létezik az együttes sűrűségfüggvénye. 1.113. Definíció. Az X és Y ) valószínűségi változót függetlennek nevezzük, ha F (x, y) = FX (x)FY (y), ∀x, y ∈ R. (1.90) 1.114. Megjegyzés. A függetlenség megfelelői diszkrét illetve folytonos esetben: pij = qi rj , (i, j = 1, 2, . . . ), (1.91) f (x, y) = fX (x)fY (y) ∀x, y ∈ R.
(1.92)
1.115. Definíció. Legyen (X, Y ) véletlen vektor. Az F (x|y) az feltételes eloszlásfüggvénye az X-nek Y = y esetén, ha F (x|y) = P (X < x|Y = y) = lim P (X < x|y ≤ Y < y + h). h→0+0
(1.93)
1.116. Megjegyzés. Ha léteznek a feltételes valószínűségek. 1.117. Definíció. Ha létezik fX|Y nemnegatív valós értékű függvény, melyre Zx F (x|y) =
fX|Y (u|y)du,
∀x, y ∈ R,
(1.94)
−∞
akkor fX|Y az X-nek az Y -ra vonatkozó feltételes sűrűségfüggvénye. 1.118. Megjegyzés. fX|Y (x|y) =
f (x, y) . fY (y)
(1.95)
1.119. Definíció. A feltételes sűrűségfüggvény segítségével meghatározott feltételes várható értéket regressziós függvénynek nevezzük, azaz az Z+∞ xfX|Y (x|y)dx = m2 (y) −∞
36
(1.96)
függvényt az X-nek az Y -ra vonatkozó regressziós függvényének nevezzük, illetve az Z+∞ yfY |X (y|x)dy = m1 (x) (1.97) −∞
függvényt az Y -nak az X-re vonatkozó regressziós függvényének nevezzük. 1.120. Megjegyzés. A ming E((X − g(Y ))2 ) értékét, akkor kapjuk, ha g megegyezik a regressziós függvénnyel. 1.121. TÉTEL. Ha (X, Y ) véletlen vektor és g : R2 → R olyan függvény, hogy g(X, Y ) valószínűségi változó, akkor X g(xi , yj )pij , ha (X,Y) diszkrét, i,j E(g(X, Y )) = Z+∞ Z+∞ (1.98) g(x, y)f (x, y)dydx, ha (X,Y) folytonos. −∞ −∞
1.122. Definíció. A cov(X, Y ) = E((X − E(X))(Y − E(Y )))
(1.99)
mennyiséget kovarianciának nevezzük. Az r(X, Y ) =
cov(X, Y ) D(X)D(Y )
(1.100)
mennyiséget pedig korrelációs együtthatónak nevezzük. 1.123. Megjegyzés. A korrelációs együttható az összefüggést próbálja meg mérni. Ha X és Y független, akkor r(X, Y ) = 0, fordítva nem igaz. Pl. ha X ∼ N (0, 1), Y = X 2 , akkor r(X, Y ) = 0. 1.124. Definíció. Legyen g valós függvény. Az s D2 (Y − g(X)) I(X, Y ) = 1 − D2 (Y ) mennyiséget korrelációs indexnek nevezzük. 37
(1.101)
1.125. TÉTEL. 1. E(X + Y )) = E(X) + E(Y ). 2. D2 (X + Y )) = D2 (X) + D2 (Y ) + 2cov(X, Y ). 3. E(E(X|Y = y)) = E(X). 4. |cov(X, Y )| ≤ D(X)D(Y ), azaz |r(X, Y )| ≤ 1. 5. 0 ≤ I(X, Y ) ≤ 1.
1.14. Néhány többdimenziós folytonos eloszlás és jellemzői 1. EGYENLETES ELOSZLÁS Az (X, Y ) véletlen vektor egyenletes eloszlású az A ⊂ R2 tartományon, ha 1 , ha (x, y) ∈ A, f (x, y) = |A| (1.102) 0, egyébként. 2. NORMÁLIS ELOSZLÁS Az (X, Y ) véletlen vektor normális eloszlású, ha f (x, y) =
1 p exp[−Q], 2πσ1 σ2 1 − ρ2
(1.103)
1 x − m1 2 x − m1 y − m2 y − m2 2 Q= ( ) − 2ρ( )( )+( ) , (1.104) 2(1 − ρ2 ) σ1 σ1 σ2 σ2 ahol σ1 > 0, σ2 > 0, −1 < ρ < 1. 2 σ1 (y − m2 )2 1 x − m − ρ (y − m ) + . Q= 1 2 2σ1 2 (1 − ρ2 ) σ2 2σ2 2
38
(1.105)
Z+∞ 1 (y − m2 )2 fY (y) = f (x, y)dx = √ exp − × 2σ2 2 2πσ2 −∞
Z+∞
" 2 # 1 σ1 1 p x − m1 − ρ (y − m2 ) dx = exp − √ 2σ1 2 (1 − ρ2 ) σ2 2πσ1 1 − ρ2 −∞ (y − m2 )2 1 =√ , (1.106) exp − 2σ2 2 2πσ2 mert az integrál értéke 1, hiszen egy olyan valószínűségi változó sűrűségfüggvénye, amely eloszlása σ1 2 2 N m1 + ρ (y − m2 ), σ1 (1 − ρ ) . (1.107) σ2 1.126. Megjegyzés. Rögtön látható, hogy a két perem eloszlása N (m1 , σ1 2 ) és N (m2 , σ2 2 ), valamint σ2 (x − m1 ), σ1 σ1 m2 (y) =m1 + ρ (y − m2 ). σ2
m1 (x) =m2 + ρ
(1.108) Tehát a regressziós függvények egyenesek. 1.127. Megjegyzés. Hasonló integrálással adódik, hogy éppen ρ a korrelációs együttható.
1.15. Az n-dimenziós véletlen vektor A véletlen vektor és a hozzákapcsolódó fogalmak definícióját csak kétdimenziós esetben adtuk meg, de nagyon egyszerűen kiterjeszthetőek véges sok valószínűségi változó esetére. Például, az X1 , X2 , . . . , Xn valószínűségi változókat függetlennek nevezzük, ha F (x1 , x2 , . . . , xn ) = FX1 (x1 )FX2 (x2 ) · · · FXn (xn ) ∀x1 , x2 , . . . , xn ∈ R. (1.109) 39
1.128. TÉTEL. Az F (x1 , x2 , . . . , xn ) függvény akkor és csak akkor együttes eloszlásfüggvény, ha minden változójában balról folytonos, és lim F (x1 , x2 , . . . , xn ) = 0,
xi →−∞
lim
xi →+∞(i=1,2,...,n)
X
(i = 1, 2, . . . , n),
F (x1 , x2 , . . . , xn ) = 1,
(1.110)
(1.111)
(−1)K F (e1 a1 + (1 − e1 )b1 , . . . , en an + (1 − en )bn ) ≥ 0 (1.112)
K=e1 +e2 +···+en
∀ai ≤ bi (i = 1, 2, . . . , n) és az összegzést ∀K esetében vesszük, ahol az e1 , e2 , . . . , en értéke 0 és 1 lehet. 1.129. TÉTEL. Legyenek X1 , X2 , . . . , Xn független valószínűségi változók, melyeknek rendre FX1 , FX2 , . . . , FXn az eloszlásfüggvénye. Ekkor (a) az Y (ω) = max{X1 (ω), . . . , Xn (ω)} (∀ω ∈ Ω) valószínűségi változó eloszlásfüggvénye (1.113) FY (y) = FX1 (y)FX2 (y) · · · FXn (y). (b) az Y (ω) = min{X1 (ω), . . . , Xn (ω)} (∀ω ∈ Ω) valószínűségi változó eloszlásfüggvénye FY (z) = 1 − (1 − FX1 (z))(1 − FX2 (z)) · · · (1 − FXn (z)).
(1.114)
1.16. Valószínűségi változók összege 1.130. TÉTEL. (konvolúció) Legyen (X, Y ) véletlen vektor és Z = X + Y, ekkor teljesülnek a következő állítások: (a) Ha X és Y független diszkrét valószínűségi változók, amelyek mindegyikének lehetséges értékei 0, 1, 2, . . . , akkor Z értékei k = i+j (i, j = 0, 1, 2, 3, . . . ) és P (Z = k) =
X
P (X = i)P (Y = j) =
k X i=0
i+j=k
40
P (X = i)P (Y = k−i). (1.115)
(b) Ha X és Y független valószínűségi változók, akkor Z+∞ Zz P (Z < z) = fX (x)FY (z − x)dx = fZ (x)dx, −∞
(1.116)
−∞
ahol Z sűrűségfüggvénye Z+∞ Z+∞ fZ (z) = fX (x)fY (z − x)dx = fX (z − y)fY (y)dy. −∞
(1.117)
−∞
1.131. TÉTEL. Ha X és Y független nemnegatív egész értékű valószínűségi változó, akkor GX+Y (z) = GX (z)GY (z), (1.118) ahol G a generátorfüggvényt jelöli. 1.132. TÉTEL. Ha X és Y független valószínűségi változó, ekkor ϕX+Y (t) = ϕX (t)ϕY (t),
∀t ∈ R,
(1.119)
ahol ϕ a karakterisztikus függvényt jelöli. 1. χ2n –ELOSZLÁS 1.133. Definíció. Legyen X1 , X2 , . . . , Xn ∼ N (0, 1), amelyek teljesen függetlenek, akkor X = X12 + X22 + · · · + Xn2 (1.120) valószínűségi változót n szabadságfokú χ2n -eloszlásúnak nevezzük. Jelölés: X ∼ χ2n . 1.134. TÉTEL. E(X) = n,
D2 (X) = 2n.
1.135. Megjegyzés. Ha n = 2, akkor X exponenciális eloszlású, azaz X ∼ Exp(0.5). 2. Γ-ELOSZLÁS Legyen α > 0, λ > 0. Az X Γ-eloszlású, ha a sűrűségfüggvénye 1 λα xα−1 e−λx , ha x > 0, f (x) = Γ(α) 0, ha x ≤ 0. Jelölés: X ∼ Γ(λ, α). 41
(1.121)
1.7. ábra.
α α , D2 (X) = 2 . λ λ 1.137. Megjegyzés. Ha α = 1, akkor éppen az exponenciális eloszlást kapjuk. 1.136. TÉTEL. E(X) =
1.138. Megjegyzés. Független exponenciális eloszlású valószínűségi változók összege Γ-eloszlás. 1.139. Megjegyzés. Ha az X χ2n -eloszlású valószínűségi változó akkor α = n 1 , λ = paraméterű Γ-eloszlású, azaz 2 2 1 n X ∼ Γ( , ). (1.122) 2 2
1.17. Egyenlőtlenségek 1.140. TÉTEL. (Markov-egyenlőtlenség) Legyen az Y nemnegatív valószínűségi változó, melynek létezik a várható értéke, ekkor ∀c > 0 esetén P (Y ≥ c) ≤ 42
E(Y ) . c
(1.123)
1.8. ábra.
Bizonyítás. Folytonos eset: Z∞
Z∞ xf (x)dx ≥
E(Y ) = 0
Z∞ xf (x)dx ≥
c
cf (x)dx = cP (Y ≥ c).
(1.124)
c
Diszkrét eset: E(Y ) =
∞ X i=1
≥
X xi ≥c
xi P (Y = xi ) ≥
X
xi P (Y = xi ) ≥
xi ≥c
cP (Y = xi ) ≥ c
X
P (Y = xi ) = cP (Y ≥ c).
(1.125)
xi ≥c
43
1.9. ábra.
1.141. Megjegyzés. P (Y ≤ c) ≥ 1 −
E(Y ) . c
(1.126)
1.142. TÉTEL. (Csebisev-egyenlőtlenség) Ha az X valószínűségi változónak létezik a szórásnégyzete, akkor ∀ε > 0 esetén P (|X − E(X)| ≥ ε) ≤
D2 (X) . ε2
(1.127)
Bizonyítás. Legyen Y = (X − E(X))2 , ekkor Y ≥ 0, E(Y ) = D2 (X). Alkalmazzuk Y -ra a Markov-egyenlőtlenséget, ha c = ε2 . 1.143. Megjegyzés. D2 (X) P (|X − E(X)| ≤ ε) ≥ 1 − . ε2 44
(1.128)
1.144. TÉTEL. (Jensen) Ha f konvex függvény és X olyan valószínűségi változó, amelyre létezik E(f (X)) és f (E(X)), akkor E(f (X)) ≥ f (E(X)).
(1.129)
Bizonyítás. Legyen L a támasztóegyenes az f függvényhez az (E(X), f (E(X))) pontban, akkor E(f (X)) ≥ E(L(X)) = L(E(X)) = f (E(X)).
(1.130)
1.145. Megjegyzés. E(X 2 ) ≥ E 2 (X). 1.146. Megjegyzés. Ha k ≥ 1, akkor E(|X|k ) ≥ E k (|X|).
(1.131)
1.147. TÉTEL. (Cauchy-Bunyakovszkij-Schwarz) Ha létezik E(X 2 ) és E(Y 2 ), és E(X) = E(Y ) = 0, akkor p (1.132) |E(XY )| ≤ E(X 2 )E(Y 2 ). Bizonyítás. Legyen t ∈ R tetszőleges, ekkor 0 ≤ E((tX + Y )2 ) = t2 E(X 2 ) + 2E(XY ) + E(Y 2 ).
(1.133)
Ez utóbbi a t változónak egy másodfokú kifejezése, amely sohasem negatív. Tehát, mint másodfokú egyenletnek nincs két különböző valós gyöke. Tehát a diszkrimináns nem pozitív, azaz D = 4E 2 (XY ) − 4E(X 2 )E(Y 2 ) ≤ 0.
(1.134)
Átrendezve kapjuk az állítást.
1.148. Megjegyzés. A bizonyításból rögtön adódik, hogy egyenlőség akkor és csak akkor, ha 1-valószínűséggel teljesül, hogy tX + Y = 0. 45
1.149. Megjegyzés. Ha létezik E(X), E(Y ), E(X 2 ) és E(Y 2 ), akkor E(X − E(X)) = 0, D2 (X) = E((X − E(X))2 ), E(Y − E(Y )) = 0, D2 (Y ) = E((Y − E(Y ))2 ), cov(X, Y ) = E((X − E(X))(Y − E(Y ))).
(1.135)
Tehát |cov(X, Y )| ≤ D(X)D(Y ),
(1.136)
|r(X, Y )| ≤ 1.
(1.137)
azaz Egyenlőség akkor és csak akkor, ha Y = aX + b (a, b ∈ R) 1-valószínűséggel.
1.18. Nagy számok gyenge törvényei 1.150. TÉTEL. (nagy számok gyenge törvénye) Legyen X1 , X2 , . . . független, azonos eloszlású valószínűségi változók sorozata. Létezik a szórásnégyzet. Ekkor tetszőleges ε > 0 esetén X 1 + · · · + Xn lim P | − E(X1 )| ≥ ε = 0. (1.138) n→+∞ n Bizonyítás. E
X1 + · · · + Xn n
= E(X1 ),
D2 (X1 ) X1 + · · · + Xn = . D n n Ekkor alkalmazzuk a Csebisev-egyenlőtlenséget X1 + · · · + X n D2 (X1 ) P | → 0, − E(X1 )| ≥ ε ≤ n nε2 2
(1.139)
ha n → ∞.
(1.140)
(1.141)
1.151. Megjegyzés. Legyen A esemény, P (A) = p, és Sn az A esemény gyakorisága az első n kísérletből egy Bernoulli kísérletsorozatnál. Ekkor tetszőleges ε > 0 esetén Sn lim P | − p| ≥ ε = 0. (1.142) n→+∞ n 46
Sn ∼ B(n, p), így p(1 − p) Sn 1 P | − P (A)| ≥ ε ≤ ≤ . 2 n nε 4nε2
(1.143)
1.19. Polinomiális eloszlás Egy urnában n különböző fajtájú golyó van. Legyenek ezek a típusok a1 , a2 , . . . , an .
(1.144)
Az ai típus kihúzása jelentse az Ai eseményt és tudjuk, hogy (1 ≤ i ≤ n).
P (Ai ) = pi ,
(1.145)
Húzzunk az urnából visszatevéssel K-szor. Ekkor Ω = {ω|ω = (ai1 , . . . , aiK },
azaz |Ω| = nK .
(1.146)
Legyen ki az Ai esemény bekövetkezéseinek a száma egy adott ω ∈ Ω elemi esemény (mintarealizáció) esetén. Míg Xi jelentse az Ai esemény bekövetkezéseinek a számát. Ekkor P (ω) = pk11 pk22 · · · · · pknn . K! pk1 pk2 · · · · · pknn . P (X1 = k1 , . . . , Xn = kn ) = k1 ! · · · kn ! 1 2
(1.147)
Ez utóbbi a (X1 . . . , Xn ) együttes eloszlása és polinomiális (multinomiális) eloszlásnak nevezzük. 1.152. Megjegyzés. A polinomiális eloszlás egydimenziós peremeloszlásai binomiális eloszlások. 1.153. Megjegyzés. Az eloszlás P (X1 =k1 , . . . , Xn = kn ) = K − k1 K − k1 − k2 kn k1 k2 kn K =p1 p2 · · · · · pn ··· (1.148) k1 k2 k3 kn felírható ilyen alakban is. 47
1.20. Transzformáció n-dimenzióban 1.154. Definíció. Az együttes eloszlásfüggvénye az (Y1 , . . . , Yn ) véletlen vektornak, amely az (X1 , . . . , Xn ) véletlen vektorból áll elő úgy, hogy Yk = gk (X1 , . . . , Xn ) k = 1, 2, . . . , n
(1.149)
FY1 ,...,Yn (y1 , . . . , yn ) = P ({ω|gk (X1 (ω), . . . , Xn (ω)) < yk ,
k = 1, 2, . . . , n}). (1.150)
a következő
Most tekintsük azt az esetet, amikor gk (k = 1, 2, . . . , n) függvényeknek folytonos az első parciális deriváltjuk minden (x1 , . . . , xn ) pontban úgy, hogy ∂g1 ∂g1 ∂g1 ∂x1 ∂x2 . . . ∂xn ∂g2 ∂g2 ∂g2 ... 6= 0. ∂x ∂x ∂x (1.151) J(x1 , . . . , xn ) = 1 2 n . . . . .. .. .. .. ∂gn ∂gn ∂gn ... ∂x1 ∂x2 ∂xn Ha a (X1 , . . . , Xn ) véletlen vektornak létezik az fX1 ,...,Xn együttes sűrűségfüggvénye és a yk = gk (x1 , x2 , . . . , xn ),
k = 1, 2, . . . , n,
(1.152)
egyenletrendszernek minden (x1 , . . . , xn ) pontban pontosan egy megoldása van, akkor a (Y1 , . . . , Yn ) véletlen vektornak az együttes sűrűségfüggvénye fY1 ,...,Yn (y1 , y2 , . . . , yn ) = fX1 ,...,Xn (x1 , x2 , . . . , xn )|J(x1 , x2 , . . . , xn )|−1 . (1.153) 1. STUDENT–ELOSZLÁS 1.155. Definíció. Legyen X0 , X1 , X2 , . . . , Xn ∼ N (0, 1), amelyek teljesen függetlenek, akkor X0 X=r (1.154) X12 + X22 + · · · + Xn2 n valószínűségi változót n szabadságfokú Student-eloszlásúnak nevezzük. Jelölés: X ∼ tn . 48
1.156. TÉTEL. E(X α ) csak akkor létezik, ha α < n. A sűrűségfüggvénye n+1 − n + 1 Γ x2 2 2 n 1 + . (1.155) fn (x) = √ n πnΓ 2 1.157. Megjegyzés. Szokás t-eloszlásnak is nevezni. 1.158. Megjegyzés. Ha n = 1, akkor éppen a Cauchy-eloszlást kapjuk. 1.159. Megjegyzés. Ha n → ∞, akkor a standard normális eloszlást kapjuk. 2. Fn,m –ELOSZLÁS 1.160. Definíció. Legyen X ∼ χ2n , Y ∼ χ2m és teljesen függetlenek, ekkor ζ=
mX nY
(1.156)
valószínűségi változót n, m szabadságfokú Fn,m -eloszlásúnak nevezzük. Jelölés: ζ ∼ Fn,m .
1.21. Centrális határeloszlás-tétel 1.161. TÉTEL. (centrális határeloszlás-tétel) Legyen X1 , X2 , . . . független, azonos eloszlású valószínűségi változók sorozata és létezik az E(Xi ) = n X 2 2 µ és D (Xi ) = σ > 0. Ha Sn = Xk , akkor k=1
lim P
n→+∞
Sn − nµ √ < x = Φ(x), σ n
x ∈ R,
ahol Φ a standard normális eloszlásfüggvény. 1.162. Megjegyzés. Speciális esete a Moivre-Laplace tétel.
49
(1.157)
1.22. Vegyes valószínűség-számítási feladatok 1. A gépjárművezetői vizsgán a vizsga időtartama (percben mérve) ( 0, ha x < 0 f (x) = −0.18x 0.18e , egyébként sűrűségfüggvényű valószínűségi változó. Az előttünk lévő már 34 perce vezet. Mi a valószínűsége, hogy 7 percen belül nem fejezi be a vizsgát? 2. Az A esemény bekövetkezésének a valószínűsége 0.38. Mennyi a valószínűsége, hogy tíz kísérletből legalább háromszor bekövetkezik? 3. Egy henger milliméterben mért átmérője a X valószínűségi változó, hossza milliméterben mérve az Y valószínűségi változó. A (X, Y ) kétdimenziós valószínűségi változó sűrűségfüggvénye f (x, y) = x2 + Ay 2 , a 0 < x < 1, 0 < y < 2.40 tartományon és 0 egyébként. Számítsa ki az alábbi valószínűséget: P (X > 0.5, Y > 2.16) . 4. Egy gép élettartama X exponenciális eloszlású valószínűségi változó 10 év átlagos élettartammal. Adja meg azt a legnagyobb K számot, amelyre még igaz, hogy egy gép legalább 0.89 valószínűséggel működőképes lesz K évig. 5. Ketten megbeszélik, hogy délután 5 óra és délután 5 óra 49 perc között találkoznak. Mekkora valószínűséggel találkoznak, ha egymástól függetlenül érkeznek és mindketten 6 perc várakozás után elmennek, ha a másik addig nem érkezett meg? 6. Tudjuk, hogy P (A) = 0.49, P (A|B) = 0.55 és P (B|A) = 0.91. Mennyi a valószínűsége, hogy az A és B legalább egyike bekövetkezik? 7. Az A és B játékos felváltva dob kosárra (A kezd). Az A játékos 0.51, míg B 0.37 valószínűséggel talál a kosárba. A játék maximum 4 dobásig tart, de azonnal befejeződik, ha valamelyik játékos beletalált a kosárba. Számítsa ki a játékbeli dobások számának várható értékét! 8. Legyen P (A) = 0.38, P (A|B) = 0.38 és P (B|A) = 0.41. Határozza meg P (A|B) értékét! 50
9. Legyen E (X) = 4.8, D (X) = 0.44 Adjon alsó becslést a P (3.172 < X < 6.428) valószínűségre. 10. Egy munkadarab hossza közelítőleg normális eloszlású valószínűségi változó, melynek várható értéke 83 és szórása 1.3. Mennyi a valószínűsége, hogy a munkadarab hossza kisebb, mint 84.76? 11. Egy terméket három üzemben készítenek. A három üzemben a selejtszázalék rendre 0.08, 0.23 és 0.39, míg a három üzemben az összterméknek rendre 25, 56 és 19 százalékát állítják elő. Az össztermékből kivesznek egy darabot, és az hibás. Mi a valószínűsége, hogy az első üzemben gyártották? 12. Hányféleképpen osztható szét 7 ezer forint jutalom 4 dolgozó között, ha mindegyik dolgozó ezerrel osztható összegű jutalmat kaphat, de a 0 Ft jutalom is megengedett. 13. Az X valószínűségi változó sűrűségfüggvénye egy megfelelő B konstanssal ( B · (2x + 1), ha 2.4 < x < 4.0, f (x) = 0, egyébként. Számítsa ki az X várható értékét! 14. Egy csomagológép 1 kilogrammos zacskókat tölt. A zacskóba töltött cukor mennyisége normális eloszlású valószínűségi változó 1 kg várható értékkel és 0.021 kg szórással. A zacskó súlyra nézve első osztályú, ha a súlya 0.95 kg és 1.05 kg közé esik. Mi a valószínűsége, hogy két véletlenül kiválasztott zacskó közül legfeljebb az egyik első osztályú? 15. Legyen (X, Y ) sűrűségfüggvénye ( x + y), A( 4.0 f (x, y) = 0, Határozza meg E(X) értékét!
51
ha 0 < x < 4.0, 0 < y < 1, egyébként.
16. Az A, B és C független események, amelyre P (A) = 0.490, P (B) = 0.420 és P (C) = 0.590. Határozza meg annak a valószínűségét, hogy pontosan kettő következik be közülük! 17. Egy X valószínűségi változó exponenciális eloszlású 0.72 szórással. Határozza meg E(8X 2 − 19X + 7) értékét! 18. Legalább hányszor kell feldobni két szabályos dobókockát ahhoz, hogy legfeljebb 0.41 valószínűséggel egyszer se kapjunk dupla hatost? 19. Egy dobozban 13 alkatrész van, amelyek közül 10 selejtes. 8 elemű mintát veszünk visszatevés nélkül. Mi a valószínűsége, hogy a mintában 6 selejtes alkatrész van? 20. Egy dobozban 13 alkatrész van, amelyek közül 9 selejtes. 7 elemű mintát veszünk visszatevéssel. Mi a valószínűsége, hogy a mintában legfeljebb 1 selejtes alkatrész van? 21. Egy párt népszerűségét kívánjuk közvélemény-kutatással meghatározni. (Igen - nem választ kell adni a megkérdezetteknek.) Legalább hány embert kell megkérdezni, ha a százalékban mért népszerűséget ± 7 százalék pontossággal és 0.85 megbízhatósággal akarjuk becsülni? (A könnyebb számolás végett visszatevéses mintavételt tételezzünk fel!) 22. Hány nyolcjegyű szám készíthető 1 darab nulla, 4 darab kettes és 3 darab hármas számjegyből ? 23. Az A és B játékos felváltva dob kosárra (A kezd). Az A játékos 0.65, míg B 0.66 valószínűséggel talál a kosárba. A játékot addig folytatják, amíg valamelyik játékos beletalál a kosárba. Mi annak a valószínűsége, hogy pont az ötödik dobás után ér véget a játék? 24. Az X exponenciális eloszlású valószínűségi változó várható értéke 3.50. Számítsa ki azt a m értéket, amelytől jobbra és balra megegyezik az Y = X 2 valószínűségi változó sűrűségfüggvénye alatti terület! 25. Egy dobozban 12 alkatrész van, amelyek közül 9 selejtes. 7 elemű mintát veszünk visszatevéssel. Mi a valószínűsége, hogy a mintában legfeljebb 4 selejtes alkatrész van?
52
26. Az (X, Y ) valószínűségi változóról tudjuk, hogy P (X = 10, Y = 15) = 0.16, P (X = 10, Y = 26) = 0.26 és P (X = 21, Y = 15) = 0.25. Ismert, hogy X csak a 10 és 21 , míg Y csak a 15 és 26 értékeket veheti fel. Számítsa ki D(X + Y ) értékét! 27. 27 doboz mindegyikében 47 golyó van, amelyek közül rendre 21, 22, 23, . . . , 47 fehér. Találomra választunk egy dobozt, majd abból véletlenül kihúzunk egy golyót. Mi a valószínűsége, hogy fehér golyót húzunk? 28. Két út vezet az A városból a B városba és szintén két út B-ből C városba. (Az A városból a C városba csak a B városon át lehet eljutni.) Mind a négy út egymástól függetlenül, 0.26 valószínűséggel járhatatlan a hó miatt. Feltéve, hogy A-ból C-be nincs végig járható útvonal, mi a valószínűsége, hogy A-ból B-be van járható út? 29. Hány 10 jegyű szám készíthető 6 darab kettes, 2 darab hetes és 2 darab hatos számjegyből ? 30. Egy szelet kalácsban a mazsolák száma Poisson-eloszlást követ, és egy szeletben átlag 8 szem mazsola van. Mi a valószínűsége, hogy egy szeletben legalább 6, de legfeljebb 11 szem mazsola van? NUMERIKUS VÁLASZOK: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
0.2837 0.7983 0.0971 1.1653 0.2299 0.8548 1.9500 0.6200 0.9270 0.9122 0.0897 120 3.2577 0.0341 53
15. 2.3333 16. 0.3784 17. 1.6144 18. 32.0000 19. 0.4895 20. 0.0044 21. 340 22. 245 23. 0.0092 24. 5.8855 25. 0.2436 26. 7.4695 27. 0.7234 28. 0.4825 29. 1260 30. 0.6968
54
2. fejezet Matematikai statisztikai alapok A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen fogalmazhatjuk meg: "Következtetés tapasztalati adatokból események ismeretlen valószínűségeire vagy valószínűségi változók ismeretlen eloszlásfüggvényeire és ezek paramétereire." [26]. Továbbá a matematikai statisztika feladata olyan módszerek kidolgozása, amelyek segítségével tapasztalati adatokból a keresett elméleti értékekre a lehető legtöbb információt nyerhetjük. De feladata maguknak a kísérleteknek a tervezése és számuk optimalizálása is. A statisztikai következtetés: a bekövetkezés esetlegessége. Csak a valószínűség ismert (átlagosság, az esetek 100p százaléka, relatív gyakoriság). Nem tudjuk megmondani, hogy bekövetkezik vagy nem. A matematikai statisztika főbb fejezetei: becsléselmélet (pont, intervallum), hipotézisvizsgálat, a mintavétel elmélete.
2.1. Minta, mintavétel Minthogy mind a hipotézisvizsgálat mind a becsléselmélet következtetései tapasztalati megfigyelések alapján történik, ezért a mintavétel elmélete a matematikai statisztika alapvető és egyben bevezető fejezetének tekinthető, amelynek egyes részei csak az elmélet különböző részei során tárgyalhatók. Pl. egy kísérlet tervezése már attól függ, hogy a kísérlet kimenetele alapján milyen becslési vagy hipotézisvizsgálati módszert alkalmazunk.
55
2.1. Definíció. Az (Ω, F, P) hármast statisztikai mezőnek nevezzük, ahol P = {Pϑ |ϑ ∈ Θ ⊂ Rk }. 2.2. Megjegyzés. Feladat az igazi ϑ paraméterre való következtetés. Egy X valószínűségi változó kerül megfigyelésre, amelynek lehetséges értékei az X mintateret alkotják és ennek bizonyos részhalmazai a B σ-algebrát. A statisztikai mező generálja hozzá a valószínűségeket. Legyenek ezek P ∗ , ahol ha B ∈ B, akkor {ω|X(ω) ∈ B} ∈ F,
Pϑ∗ (B) = Pϑ ({ω|X(ω) ∈ B}).
Tekinthetjük ezt is statisztikai mezőnek. Valójában a következtetés X-ről történik ϑ-ra. 2.3. Definíció. A X1 , X2 , . . . , Xn valószínűségi változók összességét mintának nevezzük, ha azonos eloszlásúak. 2.4. Megjegyzés. Ha a valószínűségi változók függetlenek, azonos eloszlásúak, akkor független mintának nevezzük (a legfontosabb esetekben a minta ilyen lesz). 2.5. Megjegyzés. Gyakorlati követelmény: jellemezze az összeséget, ahonnan származik, továbbá minél több információ az ismeretlen eloszlásra. Hogyan biztosítható, hogy teljesüljön az azonos eloszlás, függetlenség, véletlenszerűség. 2.6. Megjegyzés. Megkövetelt nagyságrendek: (a) "nagy" minta (százas nagyságrend): elméleti érték becslése, (b) "kis" minta (4-30): statisztikai hipotézis ellenőrzése (a kísérlet költséges, sokszor kell elvégezni). 2.7. Megjegyzés. A mintavétel módszerei: (a) egyszerű véletlen; (b) kétfokozatú, többfokozatú, szekvenciális (részsokaságok monotonitása, csomagolás, költség); (c) rétegezett, csoportos (egylépéses, kétlépéses). 2.8. Definíció. Az x1 , x2 , . . . , xn tényleges mérési adatok összességét mintarealizációnak nevezzük. 56
2.2. A statisztikai minta jellemzői 2.9. Definíció. Legyen X = (X1 , X2 , . . . , Xn ) ∈ X , ekkor t(X) statisztika, ha t mérhető függvény. 2.10. Megjegyzés. Statisztika a mintaelemek mérhető függvénye. A következőkben megadunk néhány használatos statisztikát: Átlag (mintaközép): X 1 + X2 + · · · + Xn X= n A minta elemeit sorba rendezzük. X1∗ jelölje a legkisebbet. A rendezett minta: X1∗ ≤ X2∗ ≤ · · · ≤ Xn∗ . 2.11. Megjegyzés. Ne felejtsük el, hogy függvények esetében pontonként kell alkalmaznunk a rendezést. 2.12. Definíció. Adott az F eloszlásfüggvény és a p valószínűség. Az xp p-kvantilis, ha p = F (xp ). Ha p = 0.5 mediánnak, míg 0.25 és 0.75 esetén alsó illetve felső kvartilisnek nevezzük. 2.13. Megjegyzés. Jelölje Xp a p-kvantilis tapasztalati megfelelőjét, azaz ∗ Xp = X[np]+1 , ekkor aszimptotikusan Xp ∼ N
1 p(1 − p) xp , 2 f (xp ) n
,
ahol f az F -hez tartozó sűrűségfüggvény. A medián tapasztalati megfelelője X1 , X2 , . . . , Xn esetén. ∗ Xm+1 , ha n = 2m + 1, ∗ ∗ med{Xi } = Xm + Xm+1 , ha n = 2m. 2 Medián abszolút eltérés: M AD{Xi } = med{|Xi − med{Xi }|}. 57
Xn∗ − X1∗ .
Mintaterjedelem:
n X
Xik
i=1
. n Tapasztalati szórásnégyzet és korrigáltja: Tapasztalati momentumok:
n X
sn 2 =
(Xi − X)
n X (Xi − X)2
2
i=1
n
s∗n 2 =
,
i=1
n−1
.
sn
(szórás nagysága az értékekhez képest, X > 0). X Tapasztalati eloszlásfüggvény: 0, ha x ≤ X1∗ , k ∗ Fn∗ (x) = (2.1) , ha Xk∗ < x ≤ Xk+1 (k = 1, 2, . . . , n − 1), n 1, ha Xn∗ < x. Szórási együttható:
2.14. TÉTEL. (Glivenko – a matematikai statisztika alaptétele) Ha a X1 , X2 , . . . , Xn független minta, akkor ∗ P lim sup |Fn (x) − F (x)| = 0 = 1. n→∞ −∞<x<+∞
2.15. Megjegyzés. Még sokféle statisztika használatos. Ezek közül ki kell emelni a hisztogrammokat, amelyekkel majd a hipotézisvizsgálatoknál foglalkozunk.
2.3. Rendezett minták Sokszor van szükségünk valószínűségi változók véges sorozata minimumának illetve maximumának a meghatározására. Folyók éves maximális vízállásainak maximuma ad információt arra, hogy milyen magasra építsék a gátakat, minimumok a víztározók szükségességéről adnak információt. Például sorbakötött alkatrészekből álló rendszer élettartama a minimális élettartammal egyenlő, míg párhuzamosan kapcsolt alkatrészekből álló rendszer élettartama 58
a maximális élettartammal egyezik meg. A feladat nagy gyakorlati fontossága, valamint a rendezett minták elméletéhez való hasonlósága miatt itt egy külön részben foglalkozunk valószínűségi változó minimumának és maximumának vizsgálatával.
2.3.1. Minimumok és maximumok eloszlása Tekintsük a független azonos (abszolút folytonos) eloszlású valószínűségi változók egy X1 , X2 , . . . Xn sorozatát. A függetlenség miatt 1 P (Xi < Xj ) = P (Xj < Xi ) = , 2
i 6= j,
és az abszolút folytonosság miatt P (Xi = Xj ) = 0, így minden egyes realizáció esetén 1 valószínűséggel n különböző valós számot kapunk. Az, hogy hányadik változónak lesz a legkisebb (a második, stb.) az értéke az realizációnként változik, és mind az n! lehetséges sorrend egyformán valószínű. Jelölje X1∗ < X2∗ < . . . < Xn∗ a nagyság szerint rendezett valószínűségi változókat. Ezek maguk is valószínűségi változók, de már sem nem azonos eloszlásúak , sem nem függetlenek, hiszen például P (X1∗ < X2∗ ) = 1. 2.16. ÁLLÍTÁS. Legyenek X1 , X2 , . . . Xn független, azonos eloszlású valószínűségi változók F (x) = P (X < x) eloszlásfüggvénnyel, akkor P max Xi < x = F n (x) , 1≤i≤n
és
P
min Xi < x = 1 − (1 − F (x))n .
1≤i≤n
Bizonyítás. A { max Xi < x} esemény ekvivalens az 1≤i≤n
{X1 < x, X2 < x, . . . , Xn < x} 59
eseménnyel, így P max Xi < x = P (X1 < x, X2 < x, . . . , Xn < x) = 1≤i≤n
felhasználva a mintaelemek függetlenségét = P (X1 < x) · P (X2 < x) · . . . · P (Xn < x) = = F1 (x) · F2 (x) · . . . · Fn (x) = F n (x) , mivel azonos az eloszlásfüggvényük. Másrészt P min Xi < x = 1 − P min Xi ≥ x = 1≤i≤n
1≤i≤n
= 1 − P (X1 ≥ x, X2 ≥ x, . . . , Xn1 ≥ x) = a függetlenség miatt = 1 − P (X1 ≥ x) · P (X2 ≥ x) · . . . · P (Xn ≥ x) = = 1 − [1 − P (X1 < x)] · [1 − P (X2 < x)] · . . . · [1 − P (Xn < x)] = és a közös eloszlásfüggvény miatt = 1 − [1 − F (x)]n . A fenti levezetésben a függetlenség alapvető jelentőségű. Példaként meg kell említeni az indiai Bhopal városában történt, több tízezer áldozatot követelő vegyipari katasztrófát, ahol a karbantartó személyzet trehánysága ("még ráérünk kijavítani a hibát, még van tartalék biztonság!") miatt a világ legbiztonságosabb vegyipari üzeme robbant fel. Hasonló mentalitás miatt válnak néha fékezhetelenné a közúti járművek is (kétkörös fékrendszer, kézifék)!
2.3.2. Rendezett mintaelemek eloszlása A továbbiakban legyen X1 , X2 , . . . Xn egy az F (x) eloszlásfüggvényű X valószínűségi változóra vett n elemű reprezentatív minta. 2.17. Definíció. A minta nagyság szerint rendezett elemeit rendezett mintának nevezzük, és a rendezett minta i-edik elemét Xi∗ -gal jelöljük. 60
Így ha X folytonos eloszlású, tehát minden értéket nulla valószínűséggel vesz fel, akkor 1 valószínűséggel X1∗ < X2∗ < . . . < Xn∗ . 2.18. Megjegyzés. Mivel a valószínűségi változó az eseménytéren értelmezett valós értékű függvény, így a véletlentől függ, hogy melyik mintaelem lesz a rendezett minta i-edik eleme. Határozzuk meg az n elemű rendezett minta k-adik elemének az Fnk (x) eloszlásfüggvényét, Fnk (x) = P (Xk∗ < x) . 2.19. TÉTEL. Az F (x) eloszlásfüggvényű X valószínűségi változóra vett n elemű reprezentatív minta k-adik elemének az eloszlásfüggvénye Fnk (x) = P
(Xk∗
n X n < x) = F i (x) [1 − F (x)]n−i . i i=k
Bizonyítás. Az az A esemény, hogy Xk∗ < x felírható a következő diszjunkt Ai i = k, k + 1, . . . , n események összegeként: Ai ={pontosan i darab mintaelem kisebb, mint x}, azaz {i darab mintaelem kisebb, mint x és a többi n − i mintaelem nagyobb, mint x}, tehát Fnk (x) =
n X
P (Ai ) =
i=k
n és az az i darab mintaelem, amelyik kisebb, mint x az -féleképpen vái lasztható ki az n mintaelemből, így n X n = F i (x) [1 − F (x)]n−i . i i=k
2.20. Példa. Példaként ellenőrizzük, hogy a legkisebb mintaelem X1∗ Fn1 (x) eloszlásfüggvénye megegyezik a minimum fent meghatározott eloszlásfüggvé-
61
nyével: n X n Fn1 (x) = F i (x) [1 − F (x)]n−i = i i=1 n X n = F i (x) [1 − F (x)]n−i − [1 − F (x)]n−0 = i i=0
= [F (x) + [1 − F (x)]]n − [1 − F (x)]n = = 1n − [1 − F (x)]n = 1 − [1 − F (x)]n . Hasonlóan a legnagyobb mintaelem Xn∗ Fnn (x) eloszlásfüggvénye megegyezik a maximum fent meghatározott eloszlásfüggvényével: n X n Fnn (x) = F i (x) [1 − F (x)]n−i = i i=n n = F n (x) [1 − F (x)]n−n = F n (x) . n Az n elemű rendezett minta k-adik elemének az Fnk (x) eloszlásfüggvényét meghatározhatjuk úgy is, hogy először a rendezett minta k-adik elemének az fnk (x) sűrűségfüggvényét számítjuk ki: 2.21. TÉTEL. Az F (x) eloszlásfüggvényű X valószínűségi változóra vett n elemű rendezett minta k-adik elemének a sűrűségfüggvénye n−1 fnk (x) = n F k−1 (x) [1 − F (x)]n−k f (x) . k−1 Bizonyítás. Használjuk fel, hogy P (x ≤ Xk∗ < x + ∆x) ≈ fnk (x) ∆x. Ha ∆x elég kicsi, akkor csak egy mintaelem esik ebbe az intervallumba, ez most bármelyik mintaelem lehet, tehát n-féleképpen lehet kiválasztani. A maradék n − 1 mintaelem közül bármelyik k − 1 lehet x-nél kisebb, tehát n−1 -féleképpen lehet ezeket kiválasztani. Bármelyik választásnál k − 1 mink−1 taelem mindegyike F (x) valószínűséggel kisebb, mint x, az n − k mintaelem mindegyike [1 − F (x)] valószínűséggel nagyobb, mint x, tehát n−1 fnk (x) ∆x = n F k−1 (x) [1 − F (x)]n−k f (x) ∆x. k−1 62
A fenti állításból kapjuk, hogy Z x n−1 Fnk (x) = n F k−1 (t) [1 − F (t)]n−k f (t) dt. k − 1 −∞ 2.22. Példa. Ellenőrizzük, hogy ebből az állításból is visszakapjuk a minimumok , illetve maximumok eloszlására megismert formulákat: Z x n−1 Fn1 (x) = n F 1−1 (t) [1 − F (t)]n−1 f (t) dt = 1−1 Z−∞ x = n [1 − F (t)]n−1 f (t) dt. = − [1 − F (t)]n ]xt=−∞ = −∞
= − [1 − F (x)]n + 1. Hasonlóan x
n−1 n F n−1 (t) [1 − F (t)]n−n f (t) dt = Fnn (x) = n − 1 Z−∞ x = nF n−1 (t) f (t) dt = F n (t) ]xt=−∞ = F n (x) . Z
−∞
Az együttes sűrűségfüggvény értelmezését kihasználva meghatározhatjuk a rendezett mintaelemek párjainak, hármasainak, stb. együttes sűrűségfüggvényét, majd eloszlásfüggvényét is. Például 2.23. ÁLLÍTÁS. Egy n-elemű minta nagyság szerint i-edik és j-edik (i < j) mintaelemének együttes sűrűségfüggvénye n! i−1 (i − 1)! (j − i − 1)! (n − j)! F (x) × f (x, y) = ×[F (y) − F (x)]j−i−1 [1 − F (y)]n−j f (x) f (y) , ha x < y, 0, egyébként. (2.2) Bizonyítás. Mivel a mintaelemek függetlenek, így annak a valószínűsége, hogy egy mintaelem az x kis ∆x környezetébe kerüljön, és egy másik mintaelem az y pici ∆y környezetébe essen f (x) f (y) ∆x∆y. Az első mintaelem akkor lesz nagyságban az i-edik és a másik mintaelem akkor lesz a j-edik rendezett mintaelem, ha az elsőnél i − 1 mintaelem kisebb, n − j nagyobb a 63
másodiknál és j − i − 1 mintaelem a kettő közé esik. Ennek valószínűsége a mintaelemek függetlensége miatt F i−1 (x) [F (y) − F (x)]j−i−1 [1 − F (y)]n−j , ha x < y, egyébként 0. Az n mintaelem közül az i-ediket és j-ediket, valamint a fenti n! -féleképpen i − 1, j − i − 1 és n − j mintaelemet (i − 1)! (j − i − 1)! (n − j)! lehet kiválasztani, így x < y esetén f (x, y) ∆x∆y ≈
n! × (i − 1)! (j − i − 1)! (n − j)!
×F i−1 (x) [F (y) − F (x)]j−i−1 [1 − F (y)]n−j f (x) f (y) ∆x∆y.
2.4. Becsléselmélet A becsléselméletben gyakran feltesszük, hogy a megfigyelt mennyiségek független valószínűségi változók, közös Fϑ0 eloszlással, amely egy meghatározott {Fϑ |ϑ ∈ Θ} eloszláshalmazba tartozik. A paramétertér Θ általában az Rk egy részhalmaza. Megpróbáljuk ϑ0 értékét a megfigyelések alapján megbecsülni, azaz keressük azt a leképezést, amely az összes megfigyelések halmazát Θ-ba képezi le és ϑ0 -hoz közeli értéket vesz fel nagy valószínűséggel, ha Fϑ0 a valódi eloszlás. 2.24. Definíció. Legyen adott az X1 , X2 , . . . , Xn
(2.3)
minta, melynek sűrűségfüggvénye f (vagy diszkrét eloszlása p), és ez a ϑ paramétertől függ. Tehát adott az {f (.; ϑ)|ϑ ∈ Θ ⊂ Rk }.
(2.4)
Pontbecslésnek nevezzük a mintaelemek mérhető függvényét (statisztika), ahol a becslés és a paraméter koordinátáinak a száma megegyezik, azaz ϑˆn (X1 , X2 , . . . , Xn ) ∈ Θ. (2.5) Intervallumbecslésnek nevezzük a Γ tartományt 1−α megbízhatósági szinttel, ha Γ ⊂ ϑ és P (ϑ ∈ Γ) = 1 − α. (2.6) 64
2.25. Megjegyzés. Az absztraktabb elmélet szerint legyen adott az ϑ ∈ Θ ⊂ Rk
(X , F, Pϑ ),
(2.7)
statisztikai tér, a Pϑ eloszlássereg dominált a µ mértékkel, azaz léteznek a sűrűségfüggvények, s ekkor nem kell megkülönböztetni a diszkrét és folytonos esetek jelöléseit. 2.26. Megjegyzés. Probléma: Hogyan készítsünk becsléseket? Hogyan válasszunk a becslések közül? Mikor elfogadható a kiválasztott becslés? 2.27. Megjegyzés. Sok esetben nem a paramétert becsüljük, hanem valamilyen függvényét.
2.4.1. Pontbecslés 2.28. Definíció. Legyen adott az X1 , X2 , . . . , Xn minta f (x1 , x2 , . . . , xn ; ϑ) sűrűségfüggvénnyel. A ϑˆn (X1 , X2 , . . . , Xn ) (röviden ϑˆn ) a ϑ paraméter torzítatlan becslése, ha E(ϑˆn ) = ϑ. (2.8) ϑˆn a ϑ paraméter aszimptotikusan torzítatlan becslése, ha lim E(ϑˆn ) = ϑ.
n→∞
(2.9)
2.29. Megjegyzés. Az átlag a várható érték torzítatlan becslése. 2.30. Megjegyzés. A tapasztalati szórásnégyzet nem torzítatlan becslése a szórásnégyzetnek, viszont aszimptotikusan torzítatlan. A korrigált tapasztalati szórásnégyzet torzítatlan becslése a szórásnégyzetnek. 2.31. Megjegyzés. Ha ϑˆn és ϑ˜n torzítatlan, akkor aϑˆn + (1 − a)ϑ˜n szintén torzítatlan. 2.32. Definíció. Adott a ϑˆn és a ϑ˜n torzítatlan becslés. A ϑˆn hatásosabb, ha D2 (ϑˆn ) ≤ D2 (ϑ˜n ). (2.10)
65
2.33. Definíció. Az a1 X 1 + a2 X 2 + · · · + an X n ,
(2.11)
statisztikát, ahol (ai ∈ R, i = 1, 2, . . . , n), és a1 + · · · + an = 1, a várható érték lineáris becslésének nevezzük. 2.34. Megjegyzés. Az átlag a leghatásosabb lineáris becslés. 2.35. Definíció. Legyen adott a X1 , X2 , . . . , Xn minta f (x1 , x2 , . . . , xn ; ϑ) sűrűségfüggvénnyel. A minta likelihood függvénye: L(ϑ; X1 , X2 , . . . , Xn ) = f (X1 , X2 , . . . , Xn ; ϑ).
(2.12)
A minta loglikelihood függvénye: l(ϑ; X1 , X2 , . . . , Xn ) = − ln(L(ϑ; X1 , X2 , . . . , Xn )).
(2.13)
2.36. Definíció. A ϑˆn (X1 , X2 , . . . , Xn ) elégséges statisztika, ha L(ϑ; X1 , X2 , . . . , Xn ) = g(ϑˆn (X1 , X2 , . . . , Xn ); ϑ)h(X1 , X2 , . . . , Xn ), (2.14) ahol g és h megfelelő függvény. 2.37. Megjegyzés. A szokásos definíció a ϑˆn (X1 , X2 , . . . , Xn ) elégséges statisztika, ha a ∀A ∈ B esetén a Pϑ (A|ϑˆn = x) feltételes valószínűségek megadhatók úgy, hogy ne függjenek ϑ-tól. Jelentése lényegében az, hogy ϑˆn a paraméterösszességre vonatkozó minden információt tartalmaz. Az általunk megadott definíciót a Neyman faktorizációs tétel alapján kapjuk. 2.38. Megjegyzés. Legyen p(x; ϑ) = ϑx (1 − ϑ)1−x , x = 0, 1 és 0 < ϑ < 1. Adott az X1 , X2 , . . . , Xn független minta ezzel az eloszlással. Legyen ϑˆn = X1 + X2 + · · · + Xn . L(ϑ; X1 , X2 , . . . , Xn ) =p(X1 ; ϑ) . . . p(Xn ; ϑ) = n 1 ˆ ˆ = ˆ ϑϑn (1 − ϑ)n−ϑn . n ϑn ˆ ϑn Tehát ϑˆn elégséges becslés ϑ-ra. 66
2.39. Definíció. A ϑˆn (X1 , X2 , . . . , Xn ) sorozat konzisztens becsléssorozat a ϑ paraméterre, ha ˆ (2.15) lim P ( ϑn − ϑ > ε) = 0, n→∞
minden ε > 0 esetén. A ϑˆn (X1 , X2 , . . . , Xn ) sorozat erősen konzisztens becsléssorozat a ϑ paraméterre, ha ∀n esetén E(ϑˆn ) = ϑ,
és
lim D2 (ϑˆn ) = 0.
n→∞
(2.16)
2.40. Megjegyzés. Az erősen konzisztens becsléssorozat konzisztens. 2.41. Megjegyzés. Az átlagok sorozata erősen konzisztens becsléssorozat a várható értékre.
2.4.2. Maximum likelihood becslés Számos tulajdonság, távolság, eltérés alapján készíthetünk becsléseket. Pl. minimum χ2 módszer, maximum entrópia módszer. 2.42. Definíció. Legyen adott az X1 , X2 , . . . , Xn minta f sűrűségfüggvénynyel. A ϑˆn maximum likelihood becslés a ϑ paraméterre, ha max L(ϑ; X1 , X2 , . . . , Xn ) = L(ϑˆn ; X1 , X2 , . . . , Xn ). ϑ
(2.17)
2.43. Megjegyzés. Ezzel ekvivalens, hogy min l(ϑ; X1 , X2 , . . . , Xn ) = l(ϑˆn ; X1 , X2 , . . . , Xn ). ϑ
(2.18)
2.44. Megjegyzés. Ha a minta független, akkor L(ϑ; X1 , X2 , . . . , Xn ) = f (X1 , X2 , . . . , Xn ; ϑ) = f (X1 ; ϑ) · · · f (Xn ; ϑ), (2.19) max ϑ
min − ϑ
n X
n Y
f (Xi ; ϑ) =
i=1
n Y
f (Xi ; ϑˆn ),
(2.20)
i=1
ln(f (Xi ; ϑ)) = −
i=1
n X i=1
67
ln(f (Xi ; ϑˆn )).
(2.21)
2.45. Megjegyzés. Általában a maximum likelihood becslés nem egyezik meg a legvalószínűbb esettel. 2.46. Példa. p(x; ϑ) = ϑx (1 − ϑ)1−x , x = 0, 1 és 0 < ϑ < 1. L(ϑ; X1 , X2 , . . . , Xn ) = ϑX1 +X2 +···+Xn (1 − ϑ)n−(X1 +X2 +···+Xn ) ,
(2.22)
l = −(X1 + X2 + · · · + Xn ) ln ϑ − (n − (X1 + X2 + · · · + Xn )) ln(1 − ϑ), (2.23) X1 + X2 + · · · + Xn n − (X1 + X2 + · · · + Xn ) dl =− + , dϑ ϑ 1−ϑ X1 + X 2 + · · · + Xn ϑˆn = .u t n
(2.24) (2.25)
2.47. Példa. Adott a X1 , X2 , . . . , Xn független minta és Xi ∼ N (µ, σ 2 ). Határozzuk meg a ϑ = (µ, σ 2 ) maximum likelihood becslését! Bizonyítás. Tudjuk, hogy (x − µ)2 1 fXi (x; ϑ) = √ exp − . 2σ 2 σ 2π L(ϑ; X1 , X2 , . . . , Xn ) =
n Y i=1
n X
1 (Xi − µ)2 √ exp − , 2σ 2 σ 2π
(Xi − µ)2 1 √ exp − l=− ln = 2σ 2 σ 2π i=1 n n 1 X n = ln(2π) + ln(σ 2 ) + 2 (Xi − µ)2 . 2 2 2σ i=1
(2.26)
(2.27)
(2.28)
n ∂l 1 X (Xi − µ) = 0, =− 2 ∂µ σ i=1 n ∂l n 1 X = 2− 4 (Xi − µ)2 = 0, 2 ∂(σ ) 2σ 2σ i=1
68
(2.29)
amely egyenletrendszerből a megoldás ϑˆn = (ˆ µ, σˆ2 ),
(2.30)
ahol n X
µ ˆ=X=
X1 + X2 + · · · + Xn ˆ2 , σ = sn 2 = n
(Xi − X)2
i=1
n
.
(2.31)
2.48. Definíció. Jelölje I(ϑ) = Eϑ
∂ ln f (X; ϑ) ∂ϑ
2 ! .
(2.32)
a Fisher-féle információmennyiséget. 2.49. TÉTEL. (Cramer-Rao) A ϑˆn torzítatlan becslés ϑ paraméterre az X1 , X2 , . . . , Xn független minta alapján, akkor D2 (ϑˆn ) ≥
1 . nI(ϑ)
(2.33)
2.50. Megjegyzés. Ha van elégséges statisztika, akkor a maximum likelihood módszer ennek valamely függvényéhez vezet. 2.51. Megjegyzés. Ha van minimális szórású becslés (Cramer-Rao egyenlőtlenségben egyenlőség van), akkor a maximum likelihood becslés ilyen. 2.52. Megjegyzés. Számos esetben megoldási és torzítási problémák vannak. Kis mintás esetben szükséges a becslések korrigálása. 2.53. Megjegyzés. Előfordul, hogy a maximum likelihood becslés nem egyértelmű, de kiválasztható konzisztens becsléssorozat, amely aszimptotikusan minimális szórású és normális, azaz lim D2 (ϑˆn )nI(ϑ) = 1,
(2.34)
n→∞
p lim P ( nI(ϑ) ϑˆn < x) = Φ(x),
n→∞
69
∀x ∈ R. u t
(2.35)
2.4.3. A momentumok módszere Ha egy valószínűségi változónak létezik a várható értéke, akkor a nagy számok törvénye alapján ha X1 , X2 , . . . független, vele azonos eloszlású valószínűségi változók sorozata, akkor a részletösszegek átlaga tart a várható értékhez. Továbbá tudjuk, hogy ha általában nem is, de elég gyenge feltételek mellett a momentumok meghatározzák az eloszlást. Ez adta az ötletet, hogy becsüljük meg az elméleti momentumokat a tapasztalati momentumokkal, azaz legyen µk = E(X k )
és
mk =
X1k + X2k + · · · + Xnk , n
µk ≈ mk .
(2.36) (2.37)
2.54. Megjegyzés. Nyilván a megoldáshoz szükséges, hogy az egyenletek száma megegyezzen a paraméterek számával. A felhasznált momentumok k rendje legyen kicsi, mert ha k ≥ 1, akkor E(|X|k ) ≥ E k (|X|),
(2.38)
és a közelítés hibája szintén a momentumokkal mérhető. 2.55. Megjegyzés. Egyszerűen és gyorsan felírhatóak az egyenletek, teljesül a torzítatlanság. Viszont már egyszerű esetekben is gond van a momentumok létezésével. Pl. Cauchy -eloszlás, X ∼ χ21 reciproka. További gondot okozhat az egyenletrendszer megoldása. Pl. Weibull-eloszlás.
2.4.4. Intervallumbecslések Az eddigiek során arra törekedtünk, hogy megfigyeléseink alapján egyetlen értékkel becsüljük az ismeretlen paramétert. Ebben a szakaszban a feladat megadni egy Γ ⊂ ϑ tartományt, amelyre P (ϑ ∈ Γ) = 1 − α. 2.56. Definíció. Legyen a ϑ ∈ R, a X1 , X2 , . . . , Xn minta. A ϑˆn (X1 , X2 , . . . , Xn ) ≤ ϑ ≤ ϑ˜n (X1 , X2 , . . . , Xn )
(2.39)
1 − α megbízhatóságú konfidenciaintervallum ϑ paraméterre, ha Pϑ (ϑˆn ≤ ϑ ≤ ϑ˜n ) = 1 − α. 70
(2.40)
2.57. Megjegyzés. Véletlen egy intervallum, ha legalább az egyik végpontja valószínűségi változó. 2.58. Megjegyzés. A konfidenciaintervallum annál jobb minnél rövidebb. Ennek mérése például várható értékkel. 2.59. Megjegyzés. Alkalmazások: kontrollkártyák (átlag-szórás, mediánMAD, medián-mintaterjedelem). 2.60. Példa. 1 < X < 2
⇐⇒
2 < 2X és X < 2, s így
P (1 < X < 2) = P (X < 2 < 2X).
(2.41)
2.61. Példa. X ∼ χ216 . Mennyi a valószínűsége, hogy 26.3 ∈ [X, 3.3X]? P (X < 26.3 < 3.3X) = P (7.97 < X < 26.3) ≈ 0.90.
(2.42)
Az intervallum hossza: 2.3X. Várható értéke: E(2.3X) = 2.3 · 16 = 36.8. 2.62. Példa. Konfidenciaintervallum készítése a Csebisev-egyenlőtlenség felhasználásával. Fontos, mert ha viszonylag keveset tudunk az eloszlásról, azaz nem ismerjük "csak" azt, hogy létezik a E(X) = µ és a D(X) = σ, ekkor 1 (2.43) P (|X − µ| ≤ kσ) ≥ 1 − 2 . k Továbbá σ E(X) = µ, D(X) = √ . (2.44) n Tehát
1 σ σ P (X − k √ ≤ µ ≤ X + k √ ) ≥ 1 − 2 . k n n
(2.45)
2.63. Megjegyzés. A Csebisev-egyenlőtlenség alapján nem tudjuk biztosítani az egyenlőséget, de ha α kicsi, azaz kisebb, mint 0.05, akkor már megfelelő lehet az információ tartalom. 2.64. Megjegyzés. A k = 3, k = 4 adja a minőségellenőrzésben szokásos 6σ, 8σ szabályt.
71
2.65. Példa. Legyen X1 , X2 , . . . , Xn ∼ N (µ, σ02 ),
(2.46)
független minta. Készítsünk P (xa < µ < xb ) = 1 − α konfidenciaintervallumot a várható értékre, ha a σ0 szórás ismert! Tudjuk, hogy X − µ√ n ∼ N (0, 1). (2.47) σ0 Legyen 0 < a < b, ekkor Φ(a + x) − Φ(a) > Φ(b + x) − Φ(b),
x > 0,
(2.48)
azaz Φ(b) − Φ(a) > Φ(b + x) − Φ(a + x).
(2.49)
Ez alapján (standard esetben) a legrövidebb intervallum, akkor adódik, ha a 0-ra szimmetrikus. σ0 σ0 = 1 − α, (2.50) P X − u α2 √ ≤ µ ≤ X + u α2 √ n n ahol a σ0 ismert és Φ(u α2 ) = 1 −
α . 2
2.66. Megjegyzés. A centrális határeloszlás-tétel szerint független mintára X − µ√ lim P n < x = Φ(x), ∀x ∈ R. (2.51) n→∞ σ0 Tehát ha a mintaelemszám elég nagy, akkor általában alkalmazható a normális eloszlás. 2.67. Példa. Legyen X1 , X2 , . . . , Xn ∼ N (µ, σ 2 ),
(2.52)
független minta. Készítsünk P (xa < µ < xb ) = 1 − α konfidenciaintervallumot a várható értékre, ha a σ szórás nem ismert! Tudjuk, hogy X − µ√ n ∼ tn−1 . (2.53) s?n 72
Hasonlóan az előzőhöz s?n s?n = 1 − α, P X − t α2 √ ≤ µ ≤ X + t α2 √ n n ahol az Fn−1 (t α2 ) = 1 −
(2.54)
α . 2
2.68. Példa. Legyen X1 , X2 , . . . , Xn ∼ N (µ, σ 2 ),
(2.55)
független minta. Készítsünk P (xa < σ 2 < xb ) = 1 − α konfidenciaintervallumot a szórásnégyzetre! Tudjuk, hogy ns2n ∼ χ2n−1 . (2.56) σ2 Ez alapján meghatározunk egy intervallumot, de ez általában nem a legrövidebb, hiszen a χ2 -eloszlások nem szimmetrikusak (a legrövidebb nehéz feladat). 2 nsn ns2n 2 P ≤σ ≤ = 1 − α, (2.57) b a α α és χ2n−1 (b) = 1 − . ahol a χ2n−1 (a) = 2 2 2.69. Példa. Legyen X1 , X2 , . . . , Xn ∼ Exp(λ),
(2.58)
független minta. Készítsünk P (xa < λ < xb ) = 1 − α konfidenciaintervallumot a paraméterére! Független exponenciális eloszlású valószínűségi változók összege Gamma-eloszlású, azaz a b nXλ ∼ Γ(n, 1), P ≤λ≤ = 1 − α, (2.59) nX nX ahol a Γ(n, 1)(a) =
α 2
és Γ(n, 1)(b) = 1 −
73
α . 2
2.70. Megjegyzés. Az exponenciális eloszlású valószínűségi változó esetén elkészített konfidenciaintervallum alapján adható egy általános módszer intervallumbecslés meghatározására. Legyen X1 , X2 , . . . , Xn ∼ Fϑ ,
(2.60)
független minta (Fϑ abszolút folytonos), ekkor Fϑ (X1 ), Fϑ (X2 ), . . . , Fϑ (Xn ) ∼ U (0, 1),
(2.61)
független minta. Továbbá − ln(Fϑ (X1 )), − ln(Fϑ (X2 )), . . . , − ln(Fϑ (Xn )) ∼ Exp(1). Tehát −
n X
ln Fϑ (Xi ) ∼ Γ(n, 1),
(2.62)
(2.63)
i=1
P (xa < −
n X
ln Fϑ (Xi ) < xb ) = 1 − α.
(2.64)
i=1
A megfelelő egyenletek megoldása általában nem könnyű. u t
2.5. Hipotézisvizsgálat Tekintsünk egy véletlen jelenséget, amelyet jellemez az F (.; ϑ) eloszlásfüggvény, ahol ϑ (skalár vagy vektor) a paramétertérhez tartozik. A hipotézis egy egyszerű álllítás, hogy F (., ϑ) jellemzi-e a véletlen jelenséget. Az állításnak a következő kétféle típusa van: 1. Ismert az F (., ϑ) alakja a ϑ kivételével. 2. Az F alakja ismeretlen. 2.71. Definíció. Az F (., ϑ) egy eloszlásösszesség a mintatéren, ahol a ϑ ∈ Θ paraméter. A H0 : ϑ ∈ Θ0 , H1 : ϑ ∈ Θ1 ,
alaphipotézis, ellenhipotézis (alternatív).
ahol Θ0 ∪ Θ1 = Θ. 74
(2.65)
2.72. Megjegyzés. A hipotézis aszerint egyszerű vagy összetett, hogy Θi (i = 1, 2) egy vagy több elemű. 2.73. Definíció. Legyen X ∈ X , ahol X a mintatér és C ⊂ X . A C halmazt kritikus tartománynak nevezzük, ha teljesül rá, hogy 1. Ha X ∈ C, akkor elvetjük a H0 alaphipotézist és elfogadjuk a H1 ellenhipotézis. 2. Ha X 6∈ C, akkor elfogadjuk a H0 alaphipotézist. 2.74. Definíció. Ha adott C kritikus tartomány esetén elfogadjuk vagy elvetjük a hipotézist a paraméterre vagy az F alakjára azt statisztikai próbának nevezzük. 2.75. Definíció. Egy próbát α-szintűnek (szignifikancia szint) nevezünk, ha P (X ∈ C|H0 ) ≤ α.
(2.66)
A P (X ∈ C|H0 ) valószínűséget elsőfajú hibának nevezzük, a P (X 6∈ C|H1 ) valószínűséget pedig másodfajú hibának. Paraméteres esetben sup P (X ∈ C|ϑ) = α
(2.67)
ϑ∈Θ0
a próba szintje. 2.76. Definíció. A W (ϑ) = P (X ∈ C|ϑ)
(2.68)
fügvényt a C kritikus tartományhoz tartozó erőfüggvénynek nevezzük. 2.77. Megjegyzés. 1 − W (ϑ) = P (X 6∈ C|ϑ), ahol ϑ ∈ Θ1 , és α = sup W (ϑ).
(2.69)
ϑ∈Θ0
2.78. Definíció. A próba konzisztens, ha az erőfüggvény egyhez tart (ha a mintaelemszám tart a végtelenhez) minden ϑ ∈ Θ1 esetén (az ellenhipotézis esetén).
75
2.79. Definíció. Egy próbát torzítatlannak nevezünk α-szinten, ha P (X ∈ C|ϑ) ≤ α, P (X ∈ C|ϑ) ≥ α,
ha ϑ ∈ Θ0 , ha ϑ ∈ Θ1 .
(2.70)
2.80. Definíció. Az α-szintű C1 és C2 kritikus tartománnyal definiált próbák közül C1 -et jobbnak (erősebbnek) nevezzük a C2 -nél, ha P (X ∈ C1 |ϑ) ≥ P (X ∈ C2 |ϑ),
ha ϑ ∈ Θ1 .
(2.71)
A C kritikus tartománnyal definiált α-szintű próba egyenletesen legjobb (legerősebb), ha jobb minden α-szintű próbánál.
2.5.1. A likelihood hányados próba 2.81. Definíció. A
( 1, ha x ∈ C, φC (x) = 0, ha x 6∈ C
(2.72)
függvényt determinisztikus próbafüggvénynek nevezzük. 2.82. Definíció. Legyen 0 ≤ φ ≤ 1 mérhető függvény. Ha adott x ∈ X esetén φ(x) valószínűséggel utasítjuk el a H0 alaphipotézist és 1 − φ(x) valószínűséggel fogadjuk el, akkor véletlenített próbafüggvénynek nevezzük. A vele végzett próbát pedig véletlenített próbának. 2.83. Megjegyzés. A T statisztika segítségével hozunk létre próbát, ha pl. ( 1, ha T (x) ≥ a, φ( x) = (2.73) 0, ha T (x) < a. 2.84. Megjegyzés. Ha T nem folytonos, akkor α-terjedelmű próba konstruálásánál előfordulhat, hogy (1) P (T (x) > a|H0 ) < α (2) P (T (x) ≥ a|H0 ) > α.
76
(2.74)
Ekkor pontosan α-szintű próbát nem tudunk determinisztikusan meghatározni. Ha azonban a próbafüggvényt a következő alakban definiáljuk: 1, ha T (x) > a, φ(x) = p, ha T (x) = a, (2.75) 0, ha T (x) < a, akkor p és a egyértelműen megválasztható úgy, hogy a próba terjedelme α legyen. (1) és (2) alapján megválasztjuk a értékét. Ha valamelyikben egyenlőség áll fenn, akkor p = 0. Ellenkező esetben ∃ 0 < p < 1, hogy P (T (x) ≥ a|H0 ) + pP (T (x) = a|H0 ) = α.
(2.76)
Ekkor a póba terjedelme E(φ(X)|H0 ). 2.85. TÉTEL. (Neyman-Pearson) Legyen adott egy X (X = R) megfigyelés, amely f0 vagy f1 sűrűségfüggvényű eloszlásból származhat. H0 :f = f0 H1 :f = f1
alaphipotézis, ellenhipotézis.
(2.77)
Ekkor létezik egy pontosan α-szintű legerősebb próba, amelynek próbafüggvénye f1 > a, 1, ha f0 f1 = a, (2.78) φ(x) = p, ha f0 f 0, ha 1 < a, f0 ahol p és a úgy választhatók, hogy a próba terjedelme α legyen. 2.86. Megjegyzés. Tegyük fel, hogy a sűrűségfüggvények folytonosak és ugyanazon a tartományon pozitívak. Ekkor a bizonyítás sokkal egyszerűbb. Legyen f1 (x) C = {x| > a}, (2.79) f0 (x) ahol a értékét az határozza meg, hogy Z α = P (X ∈ C|H0 ) =
f0 (x)dx. C
77
(2.80)
Legyen D tetszőleges kritikus tartomány, amelyre P (X ∈ D|H0 ) ≤ α.
(2.81)
Megjegyezzük, hogy 0 ≤ (φC (x) − φD (x)) (f1 (x) − af0 (x)) ,
∀x ∈ X .
(2.82)
Z 0≤
(φC (x) − φD (x)) (f1 (x) − af0 (x)) dx = X
=P (X ∈ C|H1 ) − P (X ∈ D|H1 ) − a (P (X ∈ C|H0 ) − P (X ∈ D|H0 )) = =P (X ∈ C|H1 ) − P (X ∈ D|H1 ) − a (α − P (X ∈ D|H0 )) ≤ ≤P (X ∈ C|H1 ) − P (X ∈ D|H1 ). (2.83) Tehát P (X 6∈ C|H1 ) ≤ P (X 6∈ D|H1 ). 2.87. Definíció. Legyen LX (H) = sup L(ϑ; X1 , X2 , . . . , Xn ).
(2.84)
ϑ∈Θ
A H0 , H1 hipotézisek alapján definiáljuk a likelihood hányadost LX (H0 , H1 ) =
LX (H1 ) . LX (H0 )
(2.85)
2.88. Megjegyzés. Ha T elégséges statisztika a ϑ paraméterre, akkor a faktorizáció szerint LX (H0 , H1 ) egyszerűen a T függvénye. 2.89. Definíció. Egy próbát, amelynek a kritikus tartománya C = {x|LX (H0 , H1 ) > a}
(2.86)
alakú, valamely a konstansra, likelihood hányados próbának nevezzük. 2.90. Megjegyzés. Az a értékét úgy határozzuk meg, hogy rögzítjük a próba α-szintjét és α = P (X ∈ C|H0 ). 2.91. Megjegyzés. A likelihood hányados próba optimális egyszerű hipotézisek esetén. A legtöbb szokásos próba likelihood hányados próba, habár más statisztikából is felépíthető. 78
2.92. Megjegyzés. Az általánosított likelihood hányados próba. Eddig diszjunkt hipotézis paramétertartományokat tekintettünk. Most legyen H0 : ϑ ∈ Θ0 , H1 : ϑ ∈ Θ,
alaphipotézis, ellenhipotézis.
(2.87)
Tegyük fel, hogy Θ1 alapján k darab szabad paraméter van, míg Θ0 alapján k − m darab szabad paraméter van, Jelölés: |Θ1 | = k, |Θ0 | = k − m. 2.93. TÉTEL. Tegyük fel, hogy Θ0 ⊂ Θ1 és |Θ1 |−|Θ0 | = m. Ekkor megfelelő feltételek esetén, a X = (X1 , X2 , . . . , Xn ) független mintára lim 2 ln LX (H0 , H1 ) ∼ χ2m ,
n→∞
(2.88)
ha H0 igaz. Ha H0 nem igaz, akkor 2 ln LX egyre nagyobb. Elutasítjuk H0 -t, ha 2 ln LX > a, ahol α = P (χ2m > a) egy közel α-szintű próbát ad. 2.94. Megjegyzés. A 2 ln LX aszimptotikusan χ2m -eloszlású.
2.5.2. Néhány általánosított likelihood hányados próba 2.95. TÉTEL. Ha az X1 , X2 , . . . , Xn ,
Xi ∼ N (µ, σ 2 ),
(2.89)
független minta, akkor n Pn (Xi − X)2 i=1 2 exp − max L(µ, σ ; X1 , X2 , . . . , Xn ) = 2πσ , µ 2σ 2 Pn n n 2 − 2 2 i=1 (Xi − µ) max L(µ, σ ; X1 , X2 , . . . , Xn ) = 2π exp − , σ2 n 2 n Pn n 2 − 2 2 i=1 (Xi − X) max L(µ, σ ; X 2π exp − . 1 , X2 , . . . , Xn ) = µ,σ 2 n 2 (2.90) 2
2
79
−
Egymintás u-próba. Adott az X1 , X2 , . . . , Xn , (Xi ∼ N (µ, σ 2 )), független minta és σ 2 ismert. H0 : µ = µ0 , H1 : µ 6= µ0 . LX (H0 , H1 ) = exp
1 2 n(X − µ0 ) , 2σ 2
(2.91)
(2.92)
azaz elutasítjuk H0 -t, ha (X − µ0 )2 nagy. Ez nem meglepetés, hiszen X − µ0 √ n ∼ N (0, 1). (2.93) σ A kritikus tartomány ugyanúgy készíthető, mint a konfidenciaintervallum. u=
2.96. Megjegyzés. 2 ln LX (H0 , H1 ) = u2 ∼ χ21 . Kétmintás u-próba. Adott az (Xi ∼ N (µ1 , σ 2 )),
X1 , X2 , . . . , Xm , és az
(Yi ∼ N (µ2 , σ 2 )),
Y1 , Y2 , . . . , Yn , független minta és σ 2 ismert.
H0 : µ1 = µ2 , H1 : µ1 6= µ2 . LX (H0 , H1 ) = exp
1 mn 2 (X − Y ) , 2σ 2 m + n
(2.94)
(2.95)
azaz elutasítjuk H0 -t, ha (X − Y )2 nagy. Ezt felhasználva kapjuk, hogy r X −Y mn u= ∼ N (0, 1). (2.96) σ m+n A kritikus tartomány ugyanúgy készíthető, mint az egymintás esetben. 2.97. Megjegyzés. 2 ln LX (H0 , H1 ) = u2 ∼ χ21 . 80
Egymintás t-próba. Adott az X1 , X2 , . . . , Xn , (Xi ∼ N (µ, σ 2 )), független minta és σ 2 ismeretlen. H0 : µ = µ0 , H1 : µ 6= µ0 .
2
LX (H0 , H1 ) = ahol t=
(2.97)
1+
t n−1
n 2
,
X − µ0 √ n, s∗n
(2.98)
(2.99)
azaz elutasítjuk H0 -t, ha t2 nagy. Ekkor t=
X − µ0 √ n ∼ tn−1 . s∗n
(2.100)
A kritikus tartomány ugyanúgy készíthető, mint a konfidenciaintervallum. Kétmintás t-próba. Adott az (Xi ∼ N (µ1 , σ 2 )),
X1 , X2 , . . . , Xm , és az Y1 , Y2 , . . . , Yn ,
(Yi ∼ N (µ2 , σ 2 )),
független minta és σ 2 ismeretlen. H0 : µ1 = µ2 , H1 : µ1 6= µ2 .
t= r
r
X −Y (m − 1)s∗m 2 + (n − 1)s∗n 2 m+n−2
mn ∼ tm+n−2 . m+n
(2.101)
(2.102)
A kritikus tartomány ugyanúgy készíthető, mint az egymintás esetben. 81
2.98. Megjegyzés. Ha σ1 6= σ2 , de m = n, akkor alkalmazható az egyesített t-próba, hiszen Xi − Yi ∼ N (µ1 − µ2 , σ1 2 + σ2 2 ). (2.103) 2.99. Megjegyzés. (Scheffé) Ha σ1 6= σ2 , de m 6= n. Tegyük fel, hogy m < n, és r m m 1 X Yi + √ Yj − Y , (2.104) Zi = Xi − n mn j=1 ekkor E(Zi ) = µ1 − µ2 ,
D2 (Zi ) = σ1 2 +
m 2 σ2 , n
cov(Zi , Zj ) = 0(i 6= j), (2.105)
így H0 : µ1 − µ2 = 0, H1 : µ1 − µ2 6= 0
(2.106)
esetre készíthetünk egymintás t-próbát. χ2 -próba. Adott a X1 , X2 , . . . , Xn , (Xi ∼ N (µ, σ 2 )), független minta és σ 2 ismeretlen. H0 : σ = σ0 , H1 : σ 6= σ0 . − n Y Y −n 2 LX (H0 , H1 ) = exp , n 2 ahol Y =
ns2n ∼ χ2n−1 . 2 σ0
(2.107)
(2.108)
(2.109)
A kritikus tartomány ugyanúgy készíthető, mint a konfidenciaintervallum.
82
F -próba. Adott az (Xi ∼ N (µ1 , σ 2 )),
X1 , X2 , . . . , Xm , és az
(Yi ∼ N (µ2 , σ 2 )),
Y1 , Y2 , . . . , Yn , független minta (egymástól is).
H0 : σ1 = σ2 , H1 : σ1 6= σ2 . (m+n)/2 m−1 1+ F mm/2 nn/2 n−1 , LX (H0 , H1 ) = m/2 (m + n)(m+n)/2 m−1 F n−1 ahol F =
s∗m 2 ∼ Fm−1,n−1 , s∗n 2
(2.110)
(2.111)
(2.112)
azaz elutasítjuk H0 -t, ha F nagyon kicsi vagy nagyon nagy. Ekkor a kritikus tartomány készítése Z∞
Zxa fF (x)dx + 0
fF (x)dx = α.
(2.113)
1 ∼ Fn,m . F
(2.114)
xb
2.100. Megjegyzés. Ha F ∼ Fm,n , akkor
2.5.3. A Pearson-féle χ2 statisztika és alkalmazásai Legyen az A1 , A2 , . . . , Ak teljes eseményrendszer. Végezzünk el n Bernoullikísérletet a megfigyelésükre és jelölje Xi az Ai gyakoriságát, ekkor az (X1 , X2 , . . . , Xk ) 83
vektor polinomiális eloszlású. Írjuk fel a következő hipotéziseket. H0 H1
ϑ ∈ Θ0 ,
: pi = pi (ϑ), ha : pi tetszőleges.
(2.115)
Ekkor 2 ln L(H0 , H1 ) = 2
k X
Yi ln pˆi − 2
i=1
k X
ˆ =2 Yi ln pi (ϑ)
i=1
k X
Yi ln
i=1
pˆi ˆ pi (ϑ)
! ,
(2.116) Yi és ϑˆ a ϑ maximum likelihood becslése a H0 teljesülése esetén. ahol pˆi = n Vezessük be a következő jelöléseket: o i = Yi ,
ˆ ei = npi (ϑ),
δi = oi − ei .
(2.117)
Ekkor ! pˆi 2 ln L(H0 , H1 ) =2 Yi ln ˆ pi (ϑ) i=1 k X oi =2 oi ln ei i=1 k X δi =2 (δi + ei ) ln 1 + ei i=1 k X
=2 ≈
k X
(δi + ei )
i=1 k X δ2 i i=1
ei
∞ X
(−1)m+1
m=1
=
k X i=1
(oi − ei )2 ei
δim mem i (2.118)
Ez utóbbit szokás Pearson-féle χ2 statisztikának nevezni, mert ha H0 esetén ϑ ∈ Rm és becsüljük, akkor 2 ln L(H0 , H1 ) ∼ χ2k−m−1 aszimptotikusan. 84
(2.119)
2.101. Példa. Egy dobókocka dobálása során a következő gyakoriságokat kaptuk: 1 – 7db 2 – 6db 3 – 10db 4 – 6db 5 – 8db 6 – 3 db Ekkor (2.120) X = 3.275, χ2 = 4.1 < 11.071 ≈ χ25,0.05 . 2.102. Megjegyzés. A Pearson-féle χ2 -próba alkalmazható tetszőleges eloszlás vizsgálatára, azaz illeszkedésvizsgálatra. Adott az F eloszlásfüggvény. Osszuk fel a (−∞, +∞) intervallumot. Legyen −∞ = x0 < x1 < · · · < xk = +∞, pi = F (xi+1 ) − F (xi ),
(i = 1, 2, . . . , k).
(2.121) (2.122)
A felosztás módjára nincs általános szabály. 2.103. Megjegyzés. A szokásos alkalmazások: illeszkedésvizsgálat, függetlenség- és homogenitásvizsgálat. 2.104. Megjegyzés. A hisztogram az alapstatisztikák közé tartozik, de csak most jutottunk el odáig, hogy a Pearson-féle χ2 -próba kívánalmai szerint készítsük el. Az [a, b] intervallum tartalmazza az adatokat. a = d0 < d1 < · · · < dk = b.
(2.123)
A felosztáskor figyeljük a darabszámot, kiugró értékeket és általában legyenek egyenlő hosszúak az intervallumok (kivéve a széleken). Adjuk meg a [di−1 , di ) intervallumba eső adatok számát (oi ) minden i-re. Az oi gyakorisággal arányos oszlopot rajzolunk a [di−1 , di ) intervallumra. Gyakorisághisztogram: k X i=1
oi (di − di−1 ) = n. di − di−1
(2.124)
oi n (di − di−1 ) = 1. di − di−1
(2.125)
Sűrűséghisztogram: k X i=1
85
2.6. Rendezett mintás próbák Legyenek X és Y valószínűségi változó eloszlásfüggvénye a folytonos F illetve G függvény. A vizsgálandó nullhipotézis H0 : G ≡ F,
(2.126)
H1 : G 6≡ F.
(2.127)
az alternatíva A rendezett mintás próbastatisztikák meghatározásának alapjául szolgáló néhány mennyiséget ismertetünk. Tekintsük a X valószínűségi változóra vett X1 , X2 , . . . , Xn és az Y valószínűségi változóra vett Y1 , Y2 , . . . , Ym mintát. Az egyik legfontosabb statisztika: a mintaelemek rangszámai. 2.105. Definíció. Rendezzük egyetlen nagyság szerinti sorba a két minta elemeit, és számozzuk meg azokat 1-től (n + m)-ig. Keressük meg a legkisebb Xi -nek, vagyis X1∗ -nek a sorszámát az egyesített mintában. Legyen ez r1 ; ezt nevezzük X1∗ rangszámának. A következő X2∗ sorszámát jelöljük r2 -vel stb. Ilyen módon megkapjuk Xi mintaelemek mindegyikének rangját, az r1 , r2 , . . . , rn sorozatot. 2.106. Megjegyzés. Az egyesített mintában megmaradó Yj elemek rangszámait jelölje s1 , s2 , . . . , sm . A két sorozat nyilván kiadja az egész számokat 1-től (n + m)-ig. Könnyen látható, hogy r1 < r2 < · · · < rn sorozat. Az egyesített mintában megmaradó Yj -k rangszámait jelölje s1 , s2 , . . . , sm . Könnyen látható, hogy r1 < r2 < · · · < rn , továbbá rj ≥ i; hasonlóan az sj -kre s1 < s2 < · · · < sm és sj ≥ j. Itt az ri rangszámok és az sj rangszámok valószínűségi változók. Ha valóban igaz a nullhipotézis, akkor a két minta egyesített és nagyság szerint rendezett sorozatában a két minta elemeinek egymáshoz képest minden lehetséges sorrendje azonos valószínűségű. n+m Az összesen n + m helyre az n számú Xi elemet -féleképpen helyezn 1 . hetjük el, tehát egy meghatározott sorrendben valószínűsége n+m m Tehát annak a valószínűsége, hogy az ri sorozat az első (n+m) egész számból
86
előre megadott a1 < a2 < · · · < an legyen, ugyancsak ennyi: 1 . P (r1 = a1 , r2 = a2 , . . . , rn = an |H0 ) = n+m m
(2.128)
A rendezett mintaelemekkel kapcsolatos néhány statisztika: Tekintsük ismét a két minta nagyság szerint rendezett, egyesített sorozatát, és jelöljük ennek elemeit a következőképpen: ∗ X1∗ < X2∗ < . . . Xn+m .
Itt tehát minden Xk∗ elem vagy egy Xi -vel, vagy egy Yj -vel egyezik meg. Vezessük be a következő valószínűségi változókat: ( 1, ha Xk∗ = Xi , (2.129) ϑk = −1, ha Xk∗ = Yj , valamely i-re illetve j-re. Az előzőek szerint a ϑ1 , ϑ2 , . . . , ϑn+m sorozatban ϑr1 az első olyan ϑi , amely 1-gyel egyenlő, ϑr2 a második stb. A közbülső elemek értéke −1, ezek az Yj∗ elemeknek felelnek meg. Legyen továbbá S0 =0, Si =ϑ1 + ϑ2 + · · · + ϑi , Sn+m =n − m.
(i = 1, 2, . . . , n + m − 1),
(2.130) (2.131) (2.132)
Egyszerű összefüggés adódik a Kolmogorov-Szmirnov kétmintás statisztika és a fenti részletösszegek között. (leírás lásd később) Ugyanis ha a két minta elemszáma megegyezik, vagyis m = n akkor egyszerűen látható, hogy + Dn,n =
1 n
és
max Si
0≤i≤2n
1 max |Si|. n 0≤i≤2n Ily módon a nullhipotézis esetén az ri és sj változók bizonyos függvényeinek valószínűségeloszlását kombinatorikus módszerekkel határozhatjuk meg. Dn,n =
87
Ez a meghatározás némely, viszonylag egyszerűen konstruált statisztika esetében is komoly numerikus nehézségekhez vezet. Vannak próbák, amelyek kritikus értékeit csak kis mintaelemszámra adják meg táblázatban nagyobb mintadarabszámra már a határeloszlást (vagy más közelítést) alkalmaznak. Ezután néhány gyakran alkalmazott próbát ismertetünk. Megjegyezzük, hogy a próbák mindegyike hasonló, azaz a nullhipotézis mindig összetett (tetszőleges két folytonos, egymással megegyező eloszlásfüggvény párja), de az elsőfajú hiba annak minden elemére, vagyis minden G ≡ F -re ugyanaz.
2.6.1. Az előjelpróba Az előjelpróbát a következő hipotézisek vizsgálatára szokkás alkalmazni: Az X valószínűségi változó mediánja-e az m érték, vagyis igaz-e, hogy P (X < m) = P (X ≥ m),
(2.133)
azaz a P (X < x) = F (x) eloszlásfüggvénnyel kifejezve fennáll-e, hogy F (m − 0) ≤
1 ≤ F (m + 0). 2
(2.134)
Amikor egy gyártmány valamely méretét tekintve el akarjuk érni, hogy azoknak a daraboknak a gyakorisága, melyeknek ez a mérete az adott m értéknél nagyobb, megegyezzék az ennél kisebbre sikerültek gyakoriságával, akkor ezt előjelpróbával ellenőrizzük. Ha valamilyen műszaki indok vagy előző tapasztalat arra utal, hogy a nagyobbra sikerültek gyakorisága pl. meghaladja azokét, amelyekre ez a méret kisebb m-nél, egyoldali ellenhipotézissel alkalmazzuk a próbát: P (X > m) > P (X < m).
(2.135)
Tehát ezt és a hasonló jellegű kérdéseket egyoldali próbával vizsgáljuk. E példában a mérési eredményeket: (0)
(1)
(Xi , Xi ) i = 1, 2, . . . , n, (1)
alakban kapjuk és ebből az Xi = Xi a próbát végezzük.
(0)
(2.136)
− Xi , i = 1, 2, . . . , n mintát, amivel
88
Jelöljön tehát X valószínűségi változót, m adott számot; vizsgálnunk kell a következő nullhipotézist: H0 : P (X > m) = P (X < m).
(2.137)
Tekintsük a X-re vonatkozó X1 , X2 , . . . , Xn mintát, és jelöljük X -el a Xi − m értékek közül a pozitívok számát, ez a próbastatisztika. Ha a H0 fennáll, ak1 kor a valószínűségi változó (n, p = ) paraméterű binomiális eloszlást követ. 2 Az egyoldali H1+ : P (X > m) > P (X < m) (2.138) ellenhipotézishez tartozó 1-ε szintű kritikus tartomány Xk+ = {X ≥ kε },
(2.139)
ahol kε értékét a következő reláció határozza meg: n 1 X n ≈ ε. i 2n i = kε
(2.140)
H1 : P (X > m) 6= P (X < m)
(2.141)
A kétoldali ellenhipotézis esetén a kritikus tartomány Xk = {X ≤ kε0 ahol kε = n − kε és
vagy X ≥ kε00 },
kε00 − 1 n 1 X ≈ 1 − ε. n 2 0 i kε + 1
(2.142)
(2.143)
Néha az előjelpróbát annak vizsgálatára is használjuk, hogy az X valószínűségi változó eloszlása szimmetrikus-e az érték körül, vagyis fennáll-e minden pozitív x mellett a sűrűségfüggvényre, hogy f (m − x) = f (m + x),
(2.144)
vagy az eloszlásfüggvénnyel kifejezve igaz-e, hogy F (m − x) = 1 − F (m + x). 89
(2.145)
Ez utóbbi esetben azonban a próba nem egészen megfelelő, csak első tájékozódásra alkalmas. Ugyanis ha az előjelpróba nullhipotézisét elvetjük, a szimmetria sem állhat fenn, ha azonban elfogadjuk, még nem győződhettünk meg a szimmetriáról.
2.6.2. A Wilcoxon próba Egyszerűségénél fogva igen elterjedt kétmintás próba, amely a H0 : G ≡ F
(2.146)
nullhipotézissel szemben nem minden lehetséges ellenhipotézisre aszimptotikusan konzinsztens. Így kevésbé érzékeny olyan valószínűségi változópárokra, amelyek mediánja megegyezik. Alkalmas viszont az eltolással szembeni vizsgálatra, amire eléggé hatásos. Leginkább a H0 : P (X < Y ) = P (X > Y ) =
1 2
(2.147)
nullhipotézis ellenőrzésére használják. Az egyoldalú változat a H1+ : P (X < Y ) >
1 2
(2.148)
1 ellenhipotézissel szemben alkalmas. Ha P (X < Y ) < akkor az X és Y 2 szerepét felcseréljük. Míg a kétoldalú próba a H1 : P (X < Y ) 6= P (X > Y )
(2.149)
ellenhipotézis vizsgálatára alkalmazható. A próbastatisztika az U = Un,m =
n X
(ri − i) =
i=1
n X i=1
ri −
n(n + 1) 2
(2.150)
valószínűségi változó, vagyis egy additív állandótól eltekintve az Xi mintaelemek rangszámainak az összege. U értéke 0 és nm között változhat. Várható értéke és szórásnégyzete a nullhipotézis fennállása esetén E(U ) =
nm 2
és D2 (U ) = 90
nm(n + m + 1) . 12
(2.151)
A határeloszlás normális, vagyis érvényes a következő reláció: lim
n,m→+∞
P
Un,m − E(Un,m ) < x|H0 D(Un,m )
1 =√ 2π
Z
x
−t2 e 2 dt.
(2.152)
−∞
Az U -statisztika pontos eloszlására zárt formula nem ismeretes. Kis mintára a táblázatokat a következő − könnyen igazolható − rekurziós formula alapján számítják: P (Un,m = k) =
m n P (Un−1,m = k) + P (Un,m−1 = k). (2.153) (m + n) (m + n)
A kritikus tartomány a H1+ ellenhipotézis esetén 1 − ε szinten Xk+ = {U ≤ Uε },
(2.154)
P (U > Uε |H0 ) = 1 − ε
(2.155)
ahol Uε értéke a összefüggésből adódik. A H1 ellenhipotézissel 1−ε szinten kritikus tartomány 0 Xk = {U ≤ Uε/2
00 vagy U ≥ Uε/2 },
ahol érvényes a 0 00 ) = P (U ≥ Uε/2 )= P (U ≤ Uε/2
ε 2
(2.156) (2.157)
reláció.
2.6.3. A Kolmogorov-Szmirnov kétmintás próba Ezzel a próbával azt vizsgáljuk, hogy az X és Y valószínűségi változók azonos eloszlásúak-e. Ha az eloszlásfüggvények P (X < x) = F
és P (Y < x) = G,
(2.158)
akkor a nullhipotézis H0 : F ≡ G.
(2.159)
Legyen az X-re vonatkozó n-elemű minta X1 , X2 , . . . , Xn , az Y -ra vonatkozó m-elemű minta Y1 ,Y2 ,. . . ,Ym . Konstruáljuk meg az ezekhez tartozó Fn és Gm empirikus eloszlásfüggvényeket. 91
Ha feladatunk a H0 -al szemben az egyoldali H1+ : F > G
(2.160)
ellenhipotézis vizsgálata, akkor a próbastatisztika + = max(Fn − Gm ), Dn,m
(2.161)
(xR)
a kritikus tartomány 1-ε szinten x Xk+ = {Dn,m ≥ Dε },
(2.162)
+ P (Dn,m < Dε |H0 ) = 1 − ε
(2.163)
ahol a kritikus értéket a
összefüggés adja. Ha csupán azt a kérdést akarjuk vizsgálni, hogy az X valószínűségi változó eloszlása azonos-e az Y változó eloszlásával, vagyis ha kétoldali az ellenhipotézis: H1 : G 6≡ F, (2.164) akkor a Dn,m = max |Fn − Gm |
(2.165)
(xR)
statisztikával konstruáljuk a következő 1 − ε szintű kritikus tartományt:
ahol Dε0 -re
Xk = {Dn,m ≥ Dε0 },
(2.166)
P (Dn,m < Dε0 |H0 ) = 1 − ε.
(2.167)
2.6.4. A Kolmogorov-próba A Kolmogrov-próba a következő hipotézis ellenőrzésére szolgál: H0 : P (X < x) = F,
(2.168)
ha X folytonos eloszlású valószínűségi változó. Ha az F eloszlásfüggvény egyértelműen -a mintától függetlenül- adott, akkor tiszta illeszkedésvizsgálat 92
esete áll fenn, ha a függvény ismeretlen paramétert tartalmaz, melynek helyére a mintából becsült értéket írjuk, akkor az illeszkedésvizsgálat becsléses. A próbastatisztika, ha a X1 , X2 , . . . , Xn minta empirikus eloszlásfüggvénye Fn , a következő: Dn+ = max (Fn − F ) (2.169) (x∈R)
illetve Dn = max |Fn − F | .
(2.170)
(x∈R)
Ha G-vel jelöljük a tényleges eloszlásfüggvényt, akkor az egyoldali esetben, vagyis a H1 + : F > G (2.171) ellenhipotézishez az Xk+ = {Dn+ ≥ Dε }
(2.172)
kritikus tartomány tartzozik, ahol a Dε kritikus érték az alábbi relációból adódik: P (Dn+ < Dε |H0 ) = 1 − ε; (2.173) a kétoldali esetben, vagyis a H1 : G 6≡ F
(2.174)
Xk = {Dn ≥ Dε }
(2.175)
ellenhipotézis esetén adja a kritikus tartományt. A Dε0 kritikus értéke a P (Dn < Dε0 |H0 ) = 1 − ε
(2.176)
összefüggésből adódik.
2.6.5. Az ω 2 -próba Legyen X, Y két független valószínűségi változó, amelyek eloszlásfüggvénye F és G. Ekkor Z P (X < Y ) = F dG. (2.177)
93
Ha mind az X mind az Y valószínűségi változó vizsgálatára adott lenne egy minta, akkor a Z δ1 = F dG − 0.5 = |P (X < Y ) − 0.5| = 0 (2.178) feltevés nem más, mint a Wilcoxon-próba nullhipotézise. Tehát a δ1 = 0 teljesülése azt fejezi ki, hogy a G eloszlásfüggvényű mintaelemekhez meghatározunk az F eloszlástípusból egy olyan hely- és skálaparaméterrel rendelkezőt, hogy a Wilcoxon-próba nullhipotézise teljesüljön. Sajnos a δ1 , nem viselkedik távolságként, hiszen a |P (X < Y ) − 0.5| = 0
(2.179)
nem csak akkor teljesül, ha F = G. Viszont észrevehetjük, hogy a δ1 kapcsolódik az ún. Cramer-Mises Z +∞ d(F, G) = (F (x) − G(x))2 dG(x) (2.180) −∞
eltéréshez. Ehhez az eltéréshez kapcsolódik az ω 2 -illeszkedésvizsgálat, amelynek a χ2 -próbával szemben óriási előnye, hogy nincs szükség az értékek csoportosítására, viszont a mintát növekvő sorrendbe kell rendezni. Annak ellenőrzésére, hogy az eloszlástípust jól választottuk-e meg a CramerMises eltérésen alapuló ω 2 -próbát is szokás használni. Az Fn ? (x)-nek a feltételezett F (x)-től vett eltérése mértékéül az Z +∞ 2 (F (x) − Fn ? (x))2 dF (x) (2.181) ωn = n −∞
mennyiséget használják a következő Mises-Szmirnov tétel alapján. 2.107. TÉTEL. Tetszőleges F folytonos eloszlásfüggvényű X valószínűségi változóra, minden x > 0 esetén igaz, hogy lim P (ωn 2 < x) = a1 (x),
n→∞
ahol az a1 (x) függvény nem függ X-től.
94
(2.182)
2.108. Megjegyzés. Az ωn 2 statisztikát a következőképpen lehet meghatározni az F eloszlásfüggvény és a minta segítségével: ωn
2
2 n X k − 0.5 1 ? + F (Xk ) − . = 12n k=1 n
(2.183)
2.109. Megjegyzés. Az a1 (x) eloszlásfüggvénynek csak a karakterisztikus függvénye adható meg közvetlenül használható formában, ezért a próba alkalmazásához szükséges a következő táblázat: x a1 (x)
0 0
0.12 0.50
0.24 0.80
0.35 0.90
0.46 0.95
0.74 0.99
0.87 1.17 1.49 0.995 0.999 0.9998
2.110. Megjegyzés. Az ω 2 -próba végrahajtása: Rögzítünk egy p megbízhatósági szintet és az a1 (xp ) = p (2.184) egyenletből kiszámítjuk a megfelelő xp kvantilis értékét illetve a táblázat segítségével ellenőrizzük, hogy a feltételezett F eloszlásfüggvény és az Fn? empirikus eloszlásfüggvényből kiszámított ωn2 milyen xp -hez viszonyítva. Ha ωn2 > xp , akkor a feltevésünk nem fogadható el. Természetesen feltesszük, hogy az n érték elég nagy, ami a szakirodalom szerint azt jelenti, hogy n > 50.
2.7. Minta példák 2.111. Példa. Egy normális eloszlású valószínűségi változóra generáltunk egy 100 elemű X mintát m = 4 és σ = 1.5 névleges értékkel. A kapott adatok: 3,51 3,55 4,71 3,52 5,03 4,20 3,51
2,89 2,44 5,06 3,53 4,34 3,11 5,89 2,67 4,77 4,71 5,37 5,1 -0,36 5,38 2,12 2,26 6,01 5,00 6,18 7,14 5,58 5,34 2,57 4,66 3,53 4,77 4,57 2,79 6,30 2,95 3,90 4,33 3,63 2,12 4,45 5,63 6,32 5,27 4,42 2,93 4,95 5,98 3,92 4,20 4,77 0,72 5,31 4,18 2,41 3,26 5,44 4,57 6,04 4,50 3,24 2,66 2,36 5,08 3,20 2,85 5,04 4,48 2,48 5,78 0,45 4,51 6,29 4,00 3,58 3,51 5,55 3,70 7,20 3,71 4,51 3,17 7,57 5,43 5,22 4,01 4,58 5,39 3,04 4,37 2,04 4,17 2,11.
95
4,88 5,85 4,69 2,46 1,56 2,82
2.1. ábra. A hisztogram
A STATISTICA 9.0 programmal végeztünk eloszlásvizsgálatot. Az eloszlás vizsgálatára először elkészítettük a sűrűséghisztogramot, berajzolva az átlag=3,952 és tapasztalati szórás=1,5448 értékkel a közelítő normális eloszlás sűrűségfüggvényét. A közelítés szemre elég jó. A grafikus normalitásvizsgálat (Gauss-papír) eredménye: Elég jól illeszkednek a pontok az egyenesre, amely alátámasztja a normalitást. A leíró statatisztikák értékei (azok, amelyek a normális eloszláshoz kapcsolódnak):
96
2.2. ábra. A Gauss-papír
Átlag 3,952 Medián 3,883 Minimum -0,493 Maximum 9,507 Alsó kvartilis 3,075 Felső kvartilis 4,899 Minta terjedelem 10,00 95%-os konfidencia intervallum a várható értékre 3,6463 4,259 Interkvartilis terjedelem 1,825 Tapasztalati szórásnégyzet 2,386 Tapasztalati szórás 1,545 95%-os konfidencia intervallum szórásra 1,3568 1,794 Ferdeség 0,310 Lapultság 1,352 97
Az eloszlásillesztés (χ2 -próba) χ2 statisztikára 8,930 értéket kaptunk 7 szabadsági fok mellett, ami még p = 0, 2577 szignifikancia szint mellett is elfogadható. 2.112. Példa. Egy exponenciális eloszlású valószínűségi változóra generáltunk egy 100 elemű Y mintát λ = 0, 2 névleges értékkel. A kapott adatok: 11,34 4,53 1,32 2,28 12,04 2,6 4,41 4,39 1,5 0,9 1,09 2,92 2,75 0,71 1,28 1,15 1,09 2,9 1,7 2,55 7,29 0,1 0,62 0,56 8,15 2,29 7,63 12,89 0,31 3,79 2,94 4,66 11,8 6,35 3,23 4,55 7,43 3,45 13,22 2,85 4,81 4,11 7,91 3,81 5,03 7,92 2,48 14,35 7,36 0,04 6,55 4,08 3,59 12,93 8,42 13,72 4,21 2,02 0,09 0,4 6,4 14,57 2,92 0,68 5,1 2,8 3,8 1,07 0,11 4,92 2,66 4,46 0,06 1,4 1,07 7,59 13,98 0,95 13,61 0,25 6,85 4,06 7,48 9,22 2,5 3,29 1 0,17 2,22 2,74 23,55 0,37 0,49 1,69 8,91 13,48 0,38 9,85 8,61 0,04. 2.3. ábra. A hisztogram
98
1 = 0, 2098 paraméter átlag értékkel a közelítő exponenciális eloszlás sűrűségfüggvényét (2.3 ábra). A grafikus eloszlásvizsgálat eredménye: A sűrűséghisztogram, berajzolva a becsült λ ≈
2.4. ábra. Az exponenciális papír
Néhány leíró statisztika érték: Átlag 4,766900 Medián 3,370000 Minimum 0,040000 Maximum 23,55000 Minta terjedelem 23,51000 Interkvartilis terjedelem 6,180000 Tapasztalati szórásnégyzet 20,14971 Tapasztalati szórás 4,488843. 99
Az eloszlásillesztés eredménye: χ2 statisztikára 3,322 értéket kaptunk 5 szabadsági fok mellett, ami még p = 0, 650 szignifikancia szint mellett is elfogadható.
2.8. Vegyes matematikai statisztikai feladatok 1. minta: 6.10, 4.76, 5.19, 6.92, 2.76,
0.01, 2.02, 1.62, 1.71, 5.83,
6.97, 1.55, 3.39, 3.50, 3.49,
6.03, 4.11, 4.59, 1.22, 4.01,
3.85, 6.64, 1.34, 0.32, 0.80,
1.11, 4.55, 2.96, 3.33, 5.36,
4.03, 4.82, 3.20, 6.07, 0.53
1.60, 4.24, 3.95, 6.34, 2.36, -1.27,
2.26, 8.35, 13.32, -3.95, 2.73, -1.49,
7.60, 6.13, 1.48, 3.55, 9.14, 2.82
1.94, 4.21, 6.60, 7.59, -3.06,
6.90, -1.73, 4.80, -3.15, 9.98,
4.66, 3.08, 9.48, 0.16, 2.87,
0.10, 0.38, 0.40, 1.24, 2.48, 0.31,
2.25, 0.11, 2.29, 0.12, 0.73, 0.24
0.35, 4.02, 0.33, 0.97, 0.49,
0.69, 0.32, 0.62, 0.45, 0.43,
0.26, 0.72, 0.99, 2.31, 0.96,
0.13, 0.57, 1.74, 2.11, 0.33,
2. minta: 1.63, 3.64, 4.44, -0.78, 3.14, 1.70, 3. minta: 1.74, 0.19, 1.28, 5.25, 1.26, 0.04,
1. Az 1. minta esetén határozza meg a mediánt! 2. Az 1. minta esetén határozza meg a medián abszolút eltérést! 3. A 2. minta esetén határozza meg az átlagot! 4. A 2. minta esetén határozza meg a tapasztalati szórásnégyzetet! 100
5. Készítsen 0.95 valószínűségű (kétoldali) konfidenciaintervallumot a várható értékre a 2. minta esetén. Adja meg az intervallum jobboldali végpontját! 6. Készítsen 0.95 valószínűségű (kétoldali) konfidenciaintervallumot a szórásnégyzetre a 2. minta esetén. Adja meg az intervallum jobboldali végpontját! 7. Készítsen a p = 0.56 valószínűséghez kvantilis becslést a 3. minta alapján! 8. Ha az 1. minta a (0, ϑ) intervallumon egyenletes eloszlású, akkor becsülje meg a ϑ paramétert! 9. Igazolja, hogy az 1. minta a (0, ϑ) intervallumon egyenletes eloszlású! Adja meg a χ2 statisztika értékét, ha az osztályok száma öt! 10. Az előző χ2 statisztika értékhez adja meg a χ2 -eloszlás kritikus értékét 0.95-ös szinten! Írja le a döntést is! 11. A 3. minta esetén határozza meg a korrigált tapasztalati szórást! 12. A 3. minta esetén adja meg a szórási együtthatót! 13. Ha a 3. minta exponenciális eloszlású, akkor becsülje meg a λ paramétert! 14. Igazolja, hogy a 3. minta exponenciális eloszlású! Adja meg a χ2 statisztika értékét, ha az osztályok száma négy! 15. Az előző χ2 statisztika értékhez adja meg a χ2 -eloszlás kritikus értékét 0.99-es szinten! Írja le a döntést is! 16. Igazolja, hogy a 2. minta normális eloszlású! Adja meg a χ2 statisztika értékét, ha az osztályok száma öt! 17. Az előző χ2 statisztika értékhez adja meg a χ2 -eloszlás kritikus értékét 0.95-ös szinten! Írja le a döntést is! 18. Megegyezik-e a 2. és a 3. minta szórása? Adja meg az F statisztika értékét! Írja le a döntést is, ha a próba szintje 0.95!
101
19. Adott a következő hét pont: (-0.35, 2.79), ( 1.42, 5.47), ( 3.11, 6.93), ( 4.06, 9.59), ( 4.89,11.37), ( 4.73,12.60), ( 6.49,14.51) Becsülje meg a regressziós egyenes meredekségét! 20. Az előző feladatban kapott egyenesnek adja meg az ún. y-tengelymetszetét! NUMERIKUS VÁLASZOK: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
3.5000 1.7900 3.5195 14.6944 4.7775 24.2125 0.6984 7.1691 2.0000 9.4877 1.1284 1.0794 0.9694 1.9161 11.3450 1.5881 7.8147 11.8433 1.7687 2.8847
102
3. fejezet Többdimenziós normális eloszlás 3.1. Többváltozós normális eloszlás fogalma A történelem során megszerzett eredményekre, tapasztalatokra építve a többváltozós normális eloszlás definícióját Hilary Seal fejtette ki. A legkorábbi próbálkozások Bravais és Schols nevéhez fűződnek. Francis Galton kétváltozós adatokon végzett korreláció analízissel tett megállapításokat egy kétváltozós normális sűrűségfüggvény szerkezetéről. Abból a feltételezésből kiindulva, hogy az azonos sűrűségek szintvonalai koncentrikus ellipszisek, a sűrűségfüggvény egy olyan formáját fejlesztette ki (J.D.H. Dickson segítségével), melyet napjainkban is használunk. Edgeworth kisérelte meg a normális eloszlás 4 és magasabb dimenziókba való kiterjesztését. Mégis Karl Pearson volt az, aki először bemutatta a többváltozós normális sűrűségfüggvény modern formáját. A mai elemzők a többváltozós normális eloszlást több nézőpontból is megvizsgálják. A mai napig nincs olyan egységes definíció, amely alkalmazható lenne a különböző nézetekre. Egyváltozós esetben a Z véletlen változó amelynek várható értéke 0 (E(Z) = 0) és szórásnégyzete 1 (D2 (Z) = 1) sűrűségfüggvénye (2π)−1/2 exp(−z 2 /2), ahol −∞ < z < ∞. A többdimenziós kiterjesztés a Z1 , . . . , Zp független változókból (N (0, 1)) áll, amelyek együttes sűrűségfüggvénye az alábbi módon írható fel (2π)−p/2 exp(−zT z/2),
z ∈ Rp .
(3.1)
Jelölésére a Z ∼ Np (0, I) kifejezést használjuk. Ennek általánosítására szolgál a következő definíció. 103
3.1. Definíció. Az X p-dimenziós véletlen vektor nemszinguláris p-dimenziós normális eloszlású, ha x elemeinek az együttes sűrűségfügvénye a következő: f (x1 , . . . , xp ) = (2π)−p/2 |Σ|−1/2 × exp{−(x − µ)T Σ−1 (x − µ)/2},
(3.2)
ahol x ∈ Rp . Jelölés: X ∼ Np (µ, Σ). Itt µ a várható érték vektor, Σ a variancia-kovariancia mátrix. |Σ| a determinánsa Σ mátrixnak. Ha Σ rangja kisebb mint p, akkor az X vektornak szinguláris normális eloszlása van. X áttranszformálható az Y = AX + b vektorba, ahol A r × p mátrix és a rangja r. Ekkor Y nemszinguláris többváltozós normális eloszlású r-dimenzióban. Mindezek a következő definícióhoz vezetnek. 3.2. Definíció. (Srivastava és Khatri) Az X p-dimenziós véletlen vektornak többváltozós normális eloszlása van (Np (µ, Σ)), ha X eloszlása ugyanolyan, mint az Y = µ + DZ vektornak, ahol D p × r mátrix és a rangja r, Σ = DDT és Z ∼ Nr (0, I). 3.3. Megjegyzés. Ebben az esetben r az X eloszlásának rangját jelenti. Következésképpen Σ rangja p kell legyen. Az eloszlást tehát az egyik fő jellemző tulajdonsága alapján definiáltuk.
3.1.1. Többváltozós elemzések A normális eloszlás sűrűségfüggvénye - az ismert haranggörbe (Gauss-görbe) - több dimenzióra történő általánosítása alapvető szerepet játszik a többváltozós elemzésben. Számos többváltozós technika feltételezi, hogy az adatok többváltozós normális eloszlásból származnak. Bár a valós adatok sosem követik pontosan a többváltozós normális eloszlást, a normális sűrűség gyakran egy hasznos közelítést ad a "valódi" sokasági eloszlásra. Tehát a normális eloszlás sokszor megfelelő populáció modellként szolgál. Számos többváltozós statisztika mintavételi eloszlása közelítőleg normális, tekintet nélkül a szülő populációra, a centrális határeloszlás tétel miatt. A p-dimenziós normális eloszlás sűrűségfüggvényének szintvonalai ellipszisek, amelyek egyenlete az x függvényében a következő (x − µ)T Σ−1 (x − µ) = c2 . 104
(3.3)
√ Az ellipszisek középppontja µ, tengelyeik ±c λi ei , ahol Σei = λi ei , i = 1, 2, . . . , p. λi , ei a Σ−hoz tartozó sajátérték(normalizált)-sajátvektor pár. A következők igazak a többváltozós normális eloszlású X véletlen vektorra. 1. X elemeinek lineáris kombinációi normális eloszlásúak. 2. X elemeinek minden részhalmaza (többváltozós) normális eloszlású. 3. A nulla kovariancia arra utal, hogy a megfelelő összetevők független eloszlásúak. 4. A többváltozós összetevők feltételes eloszlásfüggvényei (többváltozós) normálisak. Ezen tulajdonságok teszik a normális eloszlást könnyen kezelhetővé.
3.1.2. Elemi tulajdonságok A legtöbb alapvető tulajdonság a momentumgeneráló (karakterisztikus) függvényből könnyen levezethető: exp[tT µ + tT Σt/2].
(3.4)
A továbbiakban E(X) = µ, D2 (X) = Σ. Ha Σ pozitív definit, akkor létezik egy nemszinguláris transzformáció, amely standardizálja X vektort Np (0, I)be. A momentumgeneráló függvényből láthatjuk, hogy minden harmadik momentum µ körül nulla. A negyedik momentum E{(Xi − µi )(Xj − µj )(Xk − µk )(Xl − µl )} = σij σkl + σik σjl + σil σjk , (3.5) ahol σij a kovariancia Xi és Xj között. További tulajdonságok: 1. Ha Y = AX + b, A(r × p), b(r × 1) konstans, akkor Y ∼ Nr (Aµ + b, AΣAT ). 2. Ha X-et felosztjuk az X1 (q × 1), X2 [(p − q) × 1] vektorokra, a részeket µ és Σ szerint definiálva, akkor észrevehetjük, hogy X1 peremeloszlása Nq (µ1 , Σ11 ), X2 peremeloszlása pedig Nq (µ2 , Σ22 ). Ebből következik, hogy X minden elemének egyváltozós normális eloszlása van. 105
Jegyezzük meg, hogy X elemeinek perem normalitása nem biztosítja az együttes normalitást. Ezt szemléltetve, ha példul p = 2, 1 f (x1 , x2 ) = [ϕ1 (x1 , x2 )] + ϕ2 (x1 , x2 ), 2
(3.6)
ahol ϕi standard kétváltozós normális sűrűségfüggvény, amelynek korrelációs együtthatója %i , akkor minden peremnek egyváltozós normális eloszlása van, de f (x1 , x2 ) nem kétváltozós normális sűrűségfüggvény. 3. Az X1 , X2 véletlen vektorok akkor és csak akkor függetlenek, ha a Σ1,2 kovariancia mátrix nulla. 4. Ha az Yi -k függetlenek, Np (µi , Σi ) eloszlással i = 1, 2 esetén, akkor X1 + X2 eloszlása Np (µ1 + µ2 , Σ1 + Σ2 ). 5. Az első definícióban szereplő (X − µ)T Σ−1 (X − µ) kitevőnek χ2 eloszlása van p szabadságfokkal.
3.1.3. Jellemzők A többváltozós normális eloszlás bizonyos tulajdonságai az egyváltozós eset jellemzőinek analógiájára épülnek. Tekintsünk meg néhány fontosabb eredményt: 1. A többváltozós normális eloszlás az X mintaátlag és az S szórásmátrix függetlenségével jellemzhető. 2. Legyen X1 , X2 független p-dimenziós vektor. Az összegük többváltozós normális eloszlású akkor és csak akkor, ha mindkét vektor többváltozós normális eloszlású. 3. Ghurye és Olkin általánosította a Darmois-Skitovich tételt: Legyen X1 , . . . , Xn , n darab független p-dimenziós véletlen vektor, és legyenek A1 , . . . , An , B1 , . . . , Bn p × p dimenziójú nemszinguláris mátrixok. Ha n n X X W1 = A i Xi , W2 = Bi Xi függetlenek, akkor Xi normális eloszi=1
i=1
lású. Vegyük észre, hogy ha Ai (vagy Bi ) nulla, akkor Xi tetszőleges is lehet. Másrészt viszont, ha Ai szinguláris, akkor a hozzá tartozó Xi vektor csak részben normális. 106
4. A legfontosabb tulajdonság, hogy X akkor és csak akkor többváltozós normális eloszlású, ha az elemeinek bármely lineáris kombinációja egyváltozós normális eloszlású. Egyes szerzők ezt a tulajdonságot használják fel a többváltozós normális eloszlás definiálásához.
3.2. A paraméterek becslése Legyen X1 , X2 , . . . , XN egy N méretű, Np (µ, Σ) eloszlásból vett véletlen minta, ahol N > p. Ekkor a µ és a Σ maximum likelihood becslése a következő: N 1 X ˆ = 1 A, X= (3.7) Xi , Σ N i=1 N ahol A=
N X
Xi − X
Xi − X
T
.
(3.8)
i=1
A Σ becslésének korrigálásával könnyen megkapható az S = A/n torzítatlan becslés, ahol n = N − p. A sűrűségfüggvény konstans tagja következmények nélkül elhagyható, így a likelihood függvény: T −1 1 1 −1 −N/2 L (µ, Σ) = |Σ| exp tr − Σ A exp − N X − µ Σ X−µ . 2 2 (3.9) Tehát 1 −1 −N/2 L (µ, Σ) ≤ |Σ| exp tr − Σ A , (3.10) 2 ahol az egyenlőség akkor és csak akkor teljesül, ha µ = X, amelynél felhasználtuk azt tényt, hogy T X − µ Σ−1 X − µ = 0 (3.11) akkor és csak akkor ha µ = X, ugyanis Σ−1 pozitív definit. Ebből az következik, hogy X a maximum likelihood becslése µ-nek, bármely Σ esetén. Ezután már csak a 1 −1 −N/2 L X, Σ = |Σ| exp tr − Σ A (3.12) 2 107
függvényt kell maximalizálni (Σ-ra), vagy ami ezzel ekvivalens, maximalizálni kell g-t: 1 1 g(Σ) = l ln L X, Σ = − N ln |Σ| − tr Σ−1 A 2 2 −1 1 1 1 = N ln Σ A − tr Σ−1 A − N ln |A| 2 2 2 1/2 −1 1/2 1 1 1 = N ln A Σ A − tr A1/2 Σ−1 A1/2 − − N ln |A| 2 2 2 p 1X 1 = (N ln λi − λi ) − N ln |A| (3.13) 2 i=1 2 ahol λi , . . . , λp a A1/2 Σ−1 A1/2 , azaz Σ−1 A karakterisztikus gyökei. Mivel az f (λ) = N ln x − x
(3.14)
függvénynek egyetlen maximuma van, mégpedig az x = N helyen, azaz a maximum N ln N − N , amiből az következik, hogy 1 1 1 g(Σ) ≤ N p ln N − pN − N ln |A| , 2 2 2
(3.15)
L (µ, Σ) ≤ N pN/2 e−pN/2 |A|−N/2 ,
(3.16)
vagy amelynél az egyenlőség akkor és csak akkor áll fenn, ha λi = N, (i = 1, . . . , p).
(3.17)
Ez utóbbi feltétel ekvivalens az A1/2 Σ−1 A1/2 = N Ip
(3.18)
egyenlőséggel, ezért Σ = (1/N )A. Összefoglalva, L (µ, Σ) ≤ N pN/2 e−pN/2 |A|−N/2
(3.19)
kifejezésben az egyenlőség akkor és csak akkor áll fenn, ha µ = X és Σ = (1/N )A. Ezzel az állítást igazoltuk. Habár ezek a becslések könnyen meghatározhatók, valamint jól megállapított tulajdonságokkal rendelkeznek, döntéselméleti szempontból mégsem optimálisak, ugyanis nem megengedhetőek. A négyzetes veszteségfüggvény összegéből kiindulva L (µ, µ, ˆ Σ) = (µ − µ) ˆ T Σ−1 (µ − µ) ˆ , (3.20) 108
James és Stein [15] megmutatta, hogy a becslésnek T −1 µ ˆ = 1 − c/X S X X ahol
(3.21)
(p − 2) [N − (p − 2)]
c=
(3.22)
kisebb a várható vesztesége, mint az X-nek, p ≥ 3, ezért X nem megengedhető a p ≥ 3 esetben. Sajátos becslési problémák merülnek fel, amikor a vizsgálandó többváltozós normális eloszlású adatok között hiányzó értékek is vannak. Nézzünk egy kétváltozós esetet, ahol legyen a hiányos minta (x1 , x2 , . . . , xn , xn+1 , . . . , xN ) és (y1 , y2 , . . . , yn ), a várható érték vektor (µ1 , µ2 ), a közös szórásnégyzet σ 2 , valamint a korrelációs együttható %. A maximum likelihood becslés megkapható, ha a likelihood függvényt felírjuk az x likelihoodjának és az y, x melletti feltételes likelihood függvényének szorzataként. A becslést tehát a következő négy egyenlet megoldásai adják: µ ˆ 1 = x∗ ,
µ ˆ2 = y − %ˆ (x − x∗ ) ,
(3.23)
S12 , − (S1∗2 − S12 ) %S12 S12 + S22 − 2ˆ 2 ∗2 2 σ ˆ = S1 − S1 + (N + n)−1 , 1 − %ˆ2 %ˆ =
ahol x∗ =
N X xi i=1
S12 =
n X
N
,
Nσ ˆ2
x=
n X xi i=1
(xi − x)2 ,
n
,
S22 =
i=1
y=
n X yi
(3.25)
,
(3.26)
(yi − y)2 ,
(3.27)
i=1 n X
(3.24)
n
i=1
S1∗2
=
N X
(xi − x∗ )2 ,
(3.28)
(xi − x) (yi − y) .
(3.29)
i=1
S12 =
n X i=1
109
A [−1, 1] intervallumon pontosan egy gyöknek egyezik meg az előjele az S12 ével, ami a harmadfokú egyenlet megoldása f (ˆ %) = n S1∗2 − S12 %ˆ3 − (N − n) S12 %ˆ2 + + N S12 + S22 − n S1∗2 − S2∗2 %ˆ − (N + n) S12 = 0. Ez a valós gyök az egyetlen maximum likelihood becslése (MLE) %-nak.
3.3. Hipotézis vizsgálat, konfidencia intervallum Az alábbi állításokat (tulajdonságokat) felhasználjuk a többváltozós normális eloszláshoz kapcsolodó statisztikák minta eloszlásainak származtatásához. 1. Legyen Z eloszlása Np (0, Σ), ekkor a ZT Σ−1 Z kvadratikus alakja χ2p eloszlású. 2. Ha A egy p × p dimenziójú pozitív definit mátrix és felírható a m X
Zα ZTα
(3.30)
α=1
alakban, ahol Z1 , . . . , Z(m) függetlenek és Np (0, Σ) eloszlásúak, akkor az A elemei Wishart eloszlásúak, m szabadságfokkal és Σ kovarianca mátrixal. Ennek a jelölésére az A ∼ Wp (m, Σ) kifejezést használják, ahol az index az A dimenzióját mutatja. 3. Legyen Z ∼ Np (0, Σ) és A ∼ Wp (m, Σ), ahol Z és A független eloszlásúak, akkor a ZT (A/m)−1 Z (3.31) eloszlására azt mondjuk, hogy Hotelling-féle Tm2 eloszlású, m szabadságfokkal. Az egyváltozós normális esetbeli mintaátlag és szórásnégyzet függetlenségének analógiájára alapozva, az X és S itt is független eloszlású, ahol X ∼ Np (µ, Σ/N ) és S ∼ Wp (n, Σ/n) . (3.32)
110
A Σ kovariancia mátrix felhasználhatjuk az 1. tulajdonságot, √ ismeretében hogy megmutassuk N X − µ eloszlása Np (0, Σ); így tehát T N X − µ Σ−1 X − µ ∼ χ2p . (3.33) Ennek következményeként, hipotézisvizsgálatokat és konfidencia intervallumokat készíthetünk µ paraméterhez. A H0 : µ = µ0 vizsgálatára az T (3.34) N X − µ0 Σ−1 X − µ0 ≥ χ2p,α elfogadási tartományt használjuk, ahol χ2p,α a p szabadságfokú χ2 eloszlás felső 1 − α pontját jelöli. X-ből kiindulva, a µ (1 − α) konfidencia intervalluma N µ−X
T
Σ−1 µ − X ≤ χ2p,α ,
ami egy X középpontú ellipszoid felülete és belseje. A 3. tulajdonságot felhasználva, következésképpen kapjuk, hogy T N X − µ S−1 X − µ ∼ Tn2 .
(3.35)
(3.36)
Ennek eredményeként, ha Σ ismeretlen akkor is állíthatunk fel µ-re vonatkozó próbákat a következő egyenlőtlenséget felhasználva T 2 . (3.37) N X − µ S−1 X − µ ≥ Tn,α A µ-re vonatkozó (1 − α) konfidencia intervallum pedig T 2 N µ − X S−1 µ − X ≤ Tn,α .
(3.38)
A következő összefüggés (n − p + 1) T2 ∼ Fp,n−p+1 (np)
(3.39)
leegyszerűsíti ezeket a számításokat, ugyanis az F -eloszlás percentilisei azonnal elérhetők. A szóban forgó eredmények kiterjeszthetők két sokaság várható érték vektorát vizsgáló próbákra és konfidencia intervallumokra is. Egyéb hipotézis vizsgálatok (pl.: diszkriminancia analízis, k várható érték vektorok egyenlőségének vizsgálata, MANOVA, kovariancia mátrixok egyenlősége, kanonikus korreláció) különböző Wishart eloszlásokból származtatott karakterisztikus gyökök együttes eloszlásfüggvényén alapulnak. 111
3.4. Normalitás vizsgálat Módszer annak vizsgálatára, hogy egy populáció normális eloszlású-e vagy sem. Meglehetősen sokféleképpen térhet el a vizsgált eloszlás a normálistól, és ezek meghatározására irányuló különböző eljárások egyesítése nem lenne hatékony. Mivel nincs egyetlen átfogó, minden esetben jól alkalmazható módszer sem, így a megfelelő kiválasztása történhet a legvalószínűbbnek vélt eltérés alapján, vagy amelyikkel a leghasználhatóbb eredmények kaphatók. A vizsgálat előtt érdemes az adatokat ábrázolni és a nagyon kiugró pontokat elhagyni, mert ezek miatt hamis eredményeket is kaphatunk a nem normalitásra vonatkozólag. Amikor egy tesztet sok változón kell végrehajtani, akkor előfordulhat, hogy a legjelentősebb nem normalitást okozó tényezők hatását elrejti a többi változó ún. "hígító" hatása. Ilyen esetben csak azokat kell kiválasztani, amelyek a vizsgálat tárgyát képezik. Feltéve, hogy diszjunkt részhalmazokat választottunk, amelyek hozzávetőleg függetlenek, és nem okoz gondot a szignifikancia szint meghatározása a teljes tesztet átfogóan, a következő vizsgálatok közül választhatunk: 1. Perem normalitás vizsgálat. 2. Egydimenziós vizsgálat részleges vagy együttes normalitást illetően. 3. Többváltozós módszerek az együttes normalitás vizsgálatára. Legyen x1 , x2 , . . . , xn egy X véletlen vektorból vett n hosszúságú megfigyelés sorozat, és legyen az X p darab komponense X1 , X2 , . . . , Xp . Legyen X és S a mintabeli átlag és a szórásmátrix, valamint µ és Σ a megfelelő sokasági paraméterek. A nullhipotézis az, hogy X többváltozós normális. Az xi Mahalanobis távolsága X-től a következőképp definiálható ri2 = (xi − X)T S−1 (xi − X).
(3.40)
Az xi − X és xj − X közti Mahalanobis szög rij = (xi − X)T S−1 (xj − X).
(3.41)
A skálázott reziduálisok yi = S−1/2 (xi − X). 112
(3.42)
3.4.1. Perem normalitás vizsgálat Emlékezzünk rá, hogy a határ normalitásból nem következik az együttes normalitás, fordítva viszont igen. A legegyszerűbb lehetőség az, ha megvizsgáljuk a határeloszlások egyváltozós normalitását és megbecsüljük a teljes szignifikancia szintet. Legyen v1 és v2 két p × 1 dimenziójú vektor, melyek a ferdeség és a lapultság értékeit tartalmazzák. Johnson SU transzformációjának alkalmazásával, kapunk belőlük egy w1 és w2 vektort, melyek megközelítőleg standard normális eloszlásúak. Jelölje w1 és w2 kovariancia mátrixait U1 és U2 , melyek főátlóiban egyesek állnak. A nem főátlóbeli elemek aszimptotikusan %3ij és %4ij , ahol %ij a corr(Xi , Xj ), mely a mintabeli korrelációk által lett becsül−1 T ve. A Q1 = w1T U−1 1 w1 és Q2 = w2 U2 w2 próbastatisztikák megközelítőleg függetlenek, és null-eloszlásúak, hozzávetőlegesen χ2p . Mivel megmutatják, hogy egy önmagában álló határeloszlásban fellelhető-e a normálistól való eltérés, ezért az ilyen tesztek elvégzése mindig javasolt.
3.4.2. Egydimenziós vizsgálaton alapuló módszerek Egy egyszerű, de jól alkalmazható módszer a többváltozós normalitás meghatározására, az, hogy ábrázoljuk a rendezett Mahalanobis távolságokat a nekik megfelelő null eloszlások várható statisztikáinak függvényében. A p = 2 és a n ≥ 25 esetben ez az eloszlás a χ22 -tel közelíthető. A p > 2 esetben a χ2p eloszlással való közelítás már nem alkalmas, ilyenkor a Beta-eloszlás statisztikáinak becslése sokkal célravezetőbb. Mivel az ri2 null eloszlása ismert, így egy mennyiségi teszt végezhető azáltal, hogy normál pontokká alakítjuk őket és egyváltozós normalitás vizsgálatot végzünk. A módszerek egy másik fajtája az, hogy a többváltozós normális eloszlás jellemzőit a váltózok összes lineáris kombinációján végzett egyváltozós normalitástesztek alapján vizsgálják. A harmadik módszer két dimenziós adathalmazokon végzendő, de itt a próbastatisztikát a változók egyenkénti lineáris kombinációjával kapott függvény maximuma adja.
113
3.4.3. Együttes normalitás vizsgálat Egy lehetséges geometriai megközelítés, hogy az yi skálázott reziduálisokat polár koordinátákká alakítjuk, amivel kapunk p darab ri2 = yiT yi koordinátát, valamint (p − 1) független szöget. Az egyik szög egyenletes eloszlású lesz a [0, 2π) intervallumon, így ez könnyen ábrázolható. p > 2 esetén a fennmaradó szögek eloszlásának sűrűsége sinj−1 ϑ
(0 ≤ ϑ ≤ π, j = 2, . . . , p − 1).
(3.43)
Mardia statisztikái a ferdeség és a lapultság mérésére: b1,p
n n n 1 XX 3 1X 4 r és b2,p = r . = 2 n i=1 j=1 ij n i=1 i
(3.44)
Aszimptotikusan, nb1,p 6
(3.45)
eloszlása χ2 ,
szabadsági fokkal, és b2,p
p(p + 1)(p + 2) 6 eloszlása pedig N (p(p + 2),
8p(p + 2) . n
(3.46)
(3.47)
Andrews és mások a Box-Cox-féle egyváltozós normalitásba transzformáló módszert kiterjesztették a többváltozós esetre is, amellyel egy likelihood hányados próba végezhető el a többváltozós normalitás megállapítására.
114
3.5. Példák 3.5.1. Kétváltozós normális eloszlás Az X és Y valószínűségi változó kétváltozós normális eloszlású, ha az együttes sűrűségfüggvényük a következő: f (x, y) = "
1 exp − 2(1 − %2 )
=
x − µ1 σ1
2
2%(x − µ1 )(y − µ2 ) − + σ1 σ2 p 2πσ1 σ2 1 − %2
y − µ2 σ2
2 !#
ahol −∞ < x < ∞, −∞ < y < ∞, σ1 > 0, σ2 > 0 és −1 < % < 1. Az alábbi MAPLE program megrajzolja a sűrűségfüggvényt. Az ábrán két független standard normális valószínűségi változó együttessűrűségfüggvénye látható. restart: with(plots,display,textplot3d): f:=(x,y,mu1,mu2,sigma1,sigma2,rho)->exp((-1/(2*(1-rho^2)))* (((x-mu1)/sigma1)^2-2*rho*(x-mu1)*(y-mu2)/(sigma1*sigma2)+ ((y-mu2)/sigma2)^2))/(2*Pi*sigma1*sigma2*sqrt(1-rho^2)); plot3d(f(x,y,0,0,1,1,0),x=-3..3,y=-3..3,axes=frame); Az ábrán két független standard normális valószínűségi változó együttessűrűségfüggvénye látható.
115
Az ellipszis alakú szintvonalak ábrázolása: with(plots):contourplot(f(x,y,0.9,0,1,1,0.5),x=-4..4,y=-4..4, grid=[40,40]);
3.5.2. T 2 próba Vizsgáljuk meg H0 : µ = (9, 5)T hipotézist az alábbi adatokon: 6 9 X = 10 6 . 8 3 Ebből megkapjuk, hogy X = (8, 6)T és 4 −3 S= . −3 9 Tehát
S −1
1 3 = 1 9 116
1 9 4 27
és
X −µ=
8 6
−
9 5
=
−1 1
Ezek után
T2 =
3(3 − 2) (2)(2)
1 −1 1 31 9
1 7 −1 9 = . 4 1 36 27
A 2 és 1 szabadsági fok és 5%-os szignifikancia szint mellett még bőven beleesik a megbízhatósági intervallumba, így elfogadhatjuk a H0 hipotézist.
3.5.3. Konfidencia intervallum meghatározása A konfidencia intervallumot alapvetően a H0 hipotézis által elfogadott összes paramaméter érték határozza meg. Például egy egymintás, két oldalú t-próba esetén x−µ −t ≤ √ ≤ t, s/ n ahol t az eloszlás megfelelő értéke, µ pedig a H0 hipotézis feltevése. Alkalmazzuk ugyanezt a gondolatmenetet a T 2 próbára is: határozzuk meg azokat a µ = (µ1 , µ2 )T értékeket, melyekre igaz, hogy T 2 ≤ F . Térjünk vissza az előző példához. Legyen d1 = x1 − µ1 = 8 − µ1 , d2 = x2 − µ2 = 6 − µ2 , ekkor 1 1 3 1 d1 2 3 9 d1 d2 1 4 T = = (9d21 + 6d1 d2 + 4d22 ). d2 4 36 9 27 Ahhoz, hogy beleessen a 90%-os konfidencia intervallumba, teljesülnie kell annak, hogy T 2 ≤ 49, 5. Mivel µ1 = 10, µ2 = 20, d1 = 8 − 10 = −2, d2 = 6 − 20 = −14. Tehát T 2 = 27, 44 < 49, 5, ezért belesik. Továbbá, µ1 = 20, µ2 = 15, d1 = 8 − 20 = −12, d2 = 6 − 15 = −9. Tehát T 2 = 63 > 49, 5, azaz kívűlre esik.
117
118
4. fejezet Feltételes várható érték, folyamatok 4.1. Bevezetés 4.1. Példa. Dobjunk fel egy dobókockát és az eredmény pontszám legyen Y. Továbbá, legyen az X = 1, ha az Y páros és X = 0, ha az Y páratlan. Tudjuk, hogy E(Y ) = 3.5. De mennyi az Y várható értéke, ha az eredmény páros, azaz X = 1. Az utóbbi információból következik, hogy az Y 2, 4, 6 1 lehet valószínűséggel. Tehát az Y várható értéke az X = 1 feltétel esetén 3 E(Y |X = 1) =
2+4+6 = 4. 3
E(Y |X = 0) =
1+3+5 = 3. 3
Hasonlóképpen
Összefoglalva E(Y |X) = 3 + X.
(4.1)
4.2. Megjegyzés. Ebben a példában az Y = y feltételes valószínűsége X =
119
x esetén P (Y = y és X = x) = P (X = x) P ({y} ∩ {2, 4, 6}) P ({y}) = = P ({2, 4, 6}) P ({2, 4, 6}) 1 = ha x = 1 és y ∈ {2, 4, 6} 3 P (∅) P ({y} ∩ {2, 4, 6}) = = P ({2, 4, 6}) P ({2, 4, 6}) =0 ha x = 1 és y 6∈ {2, 4, 6} P ({y} ∩ {1, 3, 5}) P ({y}) = = P ({1, 3, 5}) P ({1, 3, 5}) 1 ha x = 0 és y ∈ {1, 3, 5} = 3 P ({y} ∩ {1, 3, 5}) P (∅) = = P ({1, 3, 5}) P ({1, 3, 5}) =0 ha x = 0 és y 6∈ {1, 3, 5},
P (Y = y|X = x) =
=
=
=
=
így 6 X
yP (Y = y|X = x) = 3 + x.
y=1
Tehát abban az esetben, amikor az Y és az X valószínűségi változó is diszkrét az E(Y |X) feltételes várható érték a következőképpen definiálható X E(Y |X) = yp(y|X), (4.2) y
ahol p(y|x) = P (Y = y|X = x) amikor P (X = x) > 0. 4.3. Példa. Vezessük be a következő jelölést: ( 1, ha x ∈ A, I(A) = 0, ha x 6∈ A.
120
Legyen X ∼ U (0, 1). Ha X = x, akkor legyen Y ∼ U (0, x), ekkor FY (y) =P (Y < y) = P (Y < y és X < y) + P (Y < y és X ≥ y) = =P (X < y) + P (Y < y és X ≥ y) = =y + P (Y < y és X ≥ y) = =y + E(I(Y < y)I(X ≥ y)) = Z1 Zx 1 =y + I(z < y) dz I(x ≥ y)dx = x 0 0 Z1 min{x,y} Z 1 dz dx = =y + x y
Z1 =y +
0
y dx = y(1 − ln y), x
y
amikor 0 < y < 1. Tehát az Y sűrűségfüggvénye ( − ln y, ha y ∈ (0, 1), fy (y) = 0, ha y 6∈ (0, 1). Ebből a várható érték Z1 E(Y ) =
1 y(− ln y)dy = . 4
0
De mennyi az Y várható értéke, ha X = x. Az utóbbi információ alapján most Y ∼ (0, x). Tehát a várható érték E(Y |X = x) = Általánosítva E(Y |X) =
121
x . 2
X . 2
4.4. Megjegyzés. Ebben a példában a két valószínűségi változó folytonos, azaz léteznek a sűrűségfüggvények. Ekkor Z+∞ E(Y |X = x) = yf (y|x)dy = g(x). −∞
Tehát általánosítva Z+∞ E(Y |X) = yf (y|X)dy = g(X).
(4.3)
−∞
A példák két alapvető tulajdonságát mutatják a feltételes várható értéknek. Egyrészt, E(Y |X) az X függvénye, amely a következőképpen fordítható le: Legyen Y és X két olyan valószínűségi vátozó, amelyek ugyanazon az {Ω, F, P } valószínűségi mezőn értelmezettek, és legyen FX = σ(X), azaz az X által generált σ-algebra. Ekkor Z = E(Y |X)
mérhető FX -re nézve.
(4.4)
Másrészt, E((Y − E(Y |X))I(X ∈ B)) = 0 ∀B ∈ B(R) esetén.
(4.5)
4.2. Feltételes várható érték Legyen X valószínűségi vátozó az {Ω, F, P } valószínűségi mezőn, ekkor Z Z E(X) = XdP = xdFX (x), Ω
R
ahol FX az eloszlásfüggvény. 4.5. Definíció. Jelölje PC a C feltétel melletti feltételes valószínűséget. Az Z XdPC (4.6) Ω
integrált, ha létezik az X C feltétel melletti feltételes várható értékének nevezzük. 122
Jele: E(X|C). 4.6. Megjegyzés. Z PC (A) =
I(A) 1 dP = P (C) P (C)
A
Z I(A ∩ C)dP =
P (A ∩ C) , P (C)
A
azaz PC abszolút folytonos P -re nézve. Ez alapján dPC I(A) = dP P (C) az ún. Radon-Nikodym derivált. Tulajdonságok: 1. Ha E(X|C) létezik, akkor 1 E(X|C) = P (C)
Z XdP. C
Ui. Z E(X|C) =
Z XdPC =
Ω
I(C) 1 X dP = P (C) P (C)
Ω
Z XdP. C
2. Ha E(X) véges, akkor E(X|C) is véges. 3. Ha E(X) véges és független a C eseménytől, akkor E(X|C) = E(X). 4.7. TÉTEL. (teljes várható érték) Ha A1 , A2 , . . . teljes eseményrendszer és minden i-re P (Ai ) > 0. Ha E(X) véges, akkor X E(X) = P (Ai )E(X|Ai ). (4.7) i
Ezután meghatározhatjuk a feltételes várható érték általános fogalmát.
123
4.8. Definíció. Adott az X valószínűségi változó az {Ω, F, P } valószínűségi mezőn, E(X) véges és A ⊂ F σ-algebra. Az Y valószínűségi változó az X valószínűségi változó A feltétel melletti feltételes várható értéke, ha 1. Y mérhető A-re nézve, azaz σ(Y ) ⊂ A, 2. bármely A ∈ A esetén E(Y |A) = E(X|A), azaz Z
Z
XdP.
Y dP = A
A
4.9. TÉTEL. Ha A ⊂ F és az X valószínűségi változó, amelyre E(X) véges, akkor a P valószínűség szerint 1 valószínűséggel egyértelműen létezik az 1-2. tulajdonságoknak eleget tevő Y valószínűségi változó. Jelölés: Y = E(X|A) = E(X|A)(ω). 4.10. Megjegyzés. Ha Z valószínűségi változó, akkor σ(Z) ⊂ F. Tekinthetjük a σ(Z)-re vonatkozó feltételes várható értéket, amelyet az E(X|σ(Z)) helyett röviden E(X|Z)-vel jelölünk. Tehát 1. E(X|σ(Z)) mérhető σ(Z)-re nézve és 2. bármely A ∈ A esetén Z
Z E(X|σ(Z))dP =
A
XdP. A
4.3. A feltételes várható érték tulajdonságai 4.11. TÉTEL. E(E(X|A) = E(X). 4.12. TÉTEL. Ha P (X ≤ Y, akkor P (E(X|A)) ≤ P (E(Y |A)). 4.13. TÉTEL. Ha E(|X|) < ∞ és E(|Y |) < ∞ akkor P (E(αX + βY |A) = αE(X|A) + βE(Y |A)) = 1. 4.14. TÉTEL. Legyen E(|X|) < ∞. Ha X F-mérhető, akkor P (E(X|A) = X) = 1. 124
4.15. TÉTEL. Legyen E(|X|) < ∞. Ha X F-mérhető, akkor P (E(X|{∅, Ω}) = E(X)) = 1. 4.16. TÉTEL. Legyen E(|X|) < ∞ és U = X − E(X|A), akkor P (E(U |A) = 0) = 1. 4.17. TÉTEL. (torony tulajdonság) Legyen E(|X|) < ∞ és A0 ⊂ A1 ⊂ A σ-algebrák, akkor P (E(E(X|A1 )|A0 ) = E(X|A0 )) = 1. 4.18. TÉTEL. (monoton konvergencia) Legyen az Xn nem-negatív valószínűségi változók sorozata az {Ω, F, P } valószínűségi mezőn úgy, hogy P (Xn ≤ Xn+1 ) = 1 és E(sup Xn ) < ∞, n≥1
ekkor P
lim E(Xn |A) = E( lim Xn |A) = 1.
n→∞
n→∞
4.19. TÉTEL. Legyen X A-mérhető, E(|X|) < ∞ és E(|XY |) < ∞, akkor P (E(XY |A) = XE(Y |A)) = 1. 4.20. TÉTEL. Legyen X és Y valószínűségi változók az {Ω, F, P } valószínűségi mezőn és E(|Y |) < ∞, ekkor létezik g Borel-mérhető függvény úgy, hogy P (E(Y |X) = g(X)) = 1. 4.21. TÉTEL. Legyen X és Y független valószínűségi változók. Ha E(|Y |) < ∞, akkor P (E(Y |X) = E(Y )) = 1. 4.22. TÉTEL. Ha E(Y 2 ) < ∞, akkor ψ(X) = E(Y |X) esetén E((Y − ψ(X))2 ) minimális. 125
4.23. Megjegyzés. Ez a tétel az alapja a regresszióanalízisnek. 4.24. Példa. Legyenek X1 , X2 , . . . , Xn független, azonos eloszlású és Xi ∼ U (0, 1). Legyen Y1 , Y2 , . . . , Yn a rendezett minta, ekkor y E(Y1 |Yn = y) = , n k E(Yk |Yl = x) = x, l k E(Yk ) = , n+1 Yk k E( )= . Yk+1 k+1
Bizonyítás. Z1 E(Yk ) = E(E(Yk |Yn )) =
k k xnxn−1 dx = . n n+1
0
E(
Yk 1 1 k k t= . |Yk+1 = t) = E(Yk |Yk+1 = t) = Yk+1 t tk+1 k+1
4.4. Martingál 4.25. Definíció. Legyen az {Ω, F, P } valószínűségi mező. Az A1 ⊂ A2 ⊂ · · · ⊂ F σ-algebra sorozatot szűrésnek nevezzük. 126
(4.8)
4.26. Megjegyzés. An jelenti a "tudást" az n-edik időpontban. An tartalmazza az összes olyan A eseményt az n-edik időpontban, amelyről eldönthető, hogy bekövetkezett vagy nem. Ha n növekszik, akkor ezen A események halmaza is bővül. Ha hosszabb ideig élsz bölcsebbé válsz! 4.27. Definíció. Az X1 , X2 , . . . valószínűségi változó sorozat adaptált az A1 ⊂ A2 ⊂ . . . szűrésre nézve, ha Xn An -mérhető bármely n ∈ N esetén. 4.28. Megjegyzés. Az An = σ(X1 , X2 , . . . , Xn ) a legszűkebb szűrés, amelyre az X1 , X2 , . . . valószínűségi változó sorozat adaptált. 4.29. Definíció. Az X1 , X2 , . . . valószínűségi változó sorozat martingál az A1 ⊂ A2 ⊂ . . . szűrésre nézve, ha bármely n ∈ N esetén 1. E(Xn ) véges, azaz integrálható, 2. Xn An -mérhető, azaz σ(Xn ) ⊂ An , 3. P (E(Xn+1 |An ) = Xn ) = 1. Jelölés:(Xn , An ). 4.30. Megjegyzés. A harmadikat szokás martingál tulajdonságnak nevezni. 4.31. Példa. Legyen az Y1 , Y2 , . . . független valószínűségi változó sorozat, ahol E(Yn ) = 0 minden n esetén. Legyen Xn = Y1 + Y2 + · · · + Yn és An = σ(Y1 , Y2 , . . . , Yn ), ekkor E(Xn ) = 0 és Xn An -mérhető. Ezenkívül E(Xn+1 |An ) = E(Yn+1 |An ) + E(Xn |An ) = E(Yn+1 ) + Xn = Xn . Tehát (Xn , An ) martingál. 4.32. Példa. Az Y valószínűségi változó, amelyre E(Y ) véges és legyen A1 ⊂ A2 ⊂ · · · ⊂ F egy szűrés. Továbbá, legyen Xn = E(Y |An ). Ekkor Xn An -mérhető és |Xn | = |E(Y |An )| ≤ E(|Y | |An ),
127
amelyből E(|Xn |) ≤ E(E(|Y | |An )) = E(|Y |) < ∞. A feltételes várható érték torony tulajdonsága alapján pedig E(Xn+1 |An ) = E(E(Y |An+1 )|An ) = E(Y |An ) = Xn . Tehát (Xn , An ) martingál. 4.33. ÁLLÍTÁS. Ha (Xn , An ) martingál, akkor E(X1 ) = E(X2 ) = . . . . 4.34. ÁLLÍTÁS. Ha (Xn , An ) martingál, akkor (Xn , σ(X1 , X2 , . . . , Xn )) is martingál. 4.35. Példa. Legyen Xn a szimmetrikus bolyongás, azaz Xn = Y1 + Y2 + · · · + Yn , ahol az Y1 , Y2 , . . . független, azonos eloszlású valószínűségi változók sorozata úgy, hogy 1 P (Yn = −1) = P (Yn = 1) = , 2 2 ekkor (Xn − n, σ(Y1 , Y2 , . . . , Yn )) martingál. Bizonyítás. Az Xn2 − n = (Y1 + Y2 + · · · + Yn )2 − n egy függvénye az Y1 , Y2 , . . . , Yn valószínűségi változóknak, így mérhető σ(Y1 , Y2 , . . . , Yn )-re nézve. Továbbá |Xn | ≤ |Y1 | + |Y2 | + · · · + |Yn | = n. Tehát adódik, hogy E( Xn2 − n ) ≤ E(Xn2 ) + n ≤ n2 + n < ∞. Legyen An = σ(Y1 , Y2 , . . . , Yn ), ekkor 2 2 E(Xn+1 |An ) =E(Yn+1 + 2Yn+1 Xn + Xn2 |An ) = 2 =E(Yn+1 |An ) + 2E(Yn+1 Xn |An ) + E(Xn2 |An ) = 2 =E(Yn+1 ) + 2Xn E(Yn+1 ) + Xn2 = =1 + Xn2 . 2 Tehát E(Xn+1 − 1 − n|An ) = Xn2 − n.
128
4.36. Definíció. Az X1 , X2 , . . . valószínűségi változó sorozat szupermartingál (szubmartingál) az A1 ⊂ A2 ⊂ . . . szűrésre nézve, ha bármely n ∈ N esetén 1. E(Xn ) véges, azaz integrálható, 2. Xn An -mérhető, azaz σ(Xn ) ⊂ An , 3. P (E(Xn+1 |An ) ≤ Xn ) = 1 (P (E(Xn+1 |An ) ≥ Xn ) = 1) . 4.37. Megjegyzés. Ha (Xn , An ) martingál, akkor (Xn2 , An ) szubmartingál. 4.38. Példa. Legyen az Y1 , Y2 , . . . valószínűségi változó sorozat véges várható értékkel és A1 ⊂ A2 ⊂ · · · ⊂ F egy szűrés. Legyen Xn =
n X
(E(Yi |Ai ) − E(Yi |Ai−1 )) és A0 = {F, ∅},
i=1
ekkor (Xn , An ) martingál. Speciális esete, amikor a valószínűségi változók függetlenek és An = σ(Y1 , Y2 , . . . , Yn ), ekkor Xn =
n X
(Yi − E(Yi )) .
i=1
Tehát független nulla várható értékű valószínűségi változók összege martingál. 4.39. Példa. Legyen az Y1 , Y2 , . . . független valószínűségi változó sorozat véges, nemnulla várható értékkel, ekkor ! n Y Yi Xn = , σ(Y1 , Y2 , . . . , Yn ) E(Yi ) i=1 martingál. 4.40. Példa. (Kvíz) Egy játék során egy kérdésre a válasz p valószínűséggel jó és s összeg nyerhető. Rossz válasz esetén mindent elveszítünk. Tegyük fel, hogy a kérdésekre egymástól függetlenül adjuk meg a választ. Vezessük be a következő jelöléseket: Xn a nyeremény az n-edik kérdésig bezárólag. ( 1, ha jó a válasz az i-edik kérdésre, Yi = 0, ha rossz a válasz az i-edik kérdésre, 129
és An = σ(Y1 , Y2 , . . . , Yn ), ekkor Xn = ns
n Y
Yi .
i=1
Az átlagos nyeremény: E(Xn+1 |An ) =(n + 1)sE
n+1 Y
! Yi |An
=
i=1
=(n + 1)s =(n + 1)s
n Y i=1 n Y
Yi E(Yn+1 ) = Yi p =
i=1
(n + 1)s p. =Xn ns p p ≥ n, szupermartingál, ha ≤ n. E(Xn ) 1−p 1−p egy ideig növekszik, majd csökken.
(Xn , An ) submartingál, ha
4.41. Példa. (Fogadás) Legyen X0 a kezdő tőke. Az a1 , a2 , . . . , (0 ≤ ai ≤ 1) a stratégia és Xn jelölje a játékos pillanatnyi tőkéjét az n-edik játék (lépés) után. A játék menete: Az (n + 1)-edik játszmában a játékos kockáztatja a pillanatnyi tőkéjének az an+1 -ed részét a bank azonos tőkéjével szemben. Tegyük fel, hogy a játszmák függetlenek és a játékos mindegyikben p valószínűséggel nyer, azaz ( 1, ha nyer, Yi = −1, ha veszít, és An = σ(Y1 , Y2 , . . . , Yn ), ekkor Xn+1 = Xn + Yn+1 an+1 Xn = Xn (1 + Yn+1 an+1 ) = X0
n+1 Y
(1 + aj Yj ),
j=1
azaz az átlagos nyeremény: E(Xn+1 |An ) = E(Xn (1+Yn+1 an+1 |An ) = Xn E(1+an+1 Yn+1 ) = Xn (1+an+1 (2p−1)). 130
Tehát (Xn , An )
−
szubmartingál, martingál, szupermartingál,
ha p > 0.5, ha p = 0.5, ha p < 0.5.
4.5. Sztochasztikus folyamatok 4.42. Definíció. Legyen adva egy (Ω, A, P ) valószínűségi mező és egy tetszőleges T (index)halmaz. Valószínűségi változóknak az (Ω, A, P ) valószínűségi mezőn definiált és a T halmaz elemeivel indexelt {Xt , t ∈ T } rendszerét sztochasztikus folyamatnak nevezzük. 4.43. Definíció. Adott a T halmaz és legyen a T halmaz minden {t1 , . . . , tn } ⊂ T részhalmazához egy ezen halmaz elemeivel indexelt Ft1 ,...,tn (xt1 , . . . , xtn ) eloszlásfüggvény hozzárendelve. A véges dimenziós eloszlások ezen rendszerét kompatibilisnek nevezzük, ha tetszőleges véges {t1 , . . . , tn } ⊂ T halmazra Ft1 ,...,tn (xt1 , . . . , xtn ) = Ft1 ,...,tn ,tn+1 ,...,tn+m (xt1 , . . . , xtn , ∞, , . . . , ∞), ahol (4.9) Ft1 ,...,tn ,tn+1 ,...,tn+m (xt1 , . . . , xtn , ∞, , . . . , ∞) = lim · · · lim Ft1 ,...,tn (xt1 , . . . , xtn , xtn+1 , . . . , xtn+m ), xtn+1 →∞
xtn+m →∞
és tetszőleges {t1 , . . . , tn } ⊂ T halmazra és annak tetszőleges {tπ(1) , . . . , tπ(n) } permutációjára Ft1 ,...,tn (xt1 , . . . , xtn ) = Ftπ(1) ,...,tπ(n) (xtπ(1) , . . . , xtπ(n) ). 4.44. TÉTEL. (Kolmogorov) Adott egy T halmaz, valamint Ft1 ,...,tn (xt1 , . . . , xtn ) véges dimenziós eloszlásfüggvényeknek egy a T halmaz {t1 , . . . , tn } ⊂ T véges részhalamazaival indexelt kompatibilis rendszere, ekkor létezik egy {Xt , t ∈ T } sztochasztikus folyamat úgy, hogy minden {t1 , . . . , tn } ⊂ T véges halmazra az (Xt1 , . . . , Xtn ) véletlen vektor eloszlásfüggvénye az Ft1 ,...,tn (xt1 , . . . , xtn ) eloszlásfüggvény. 131
4.45. Definíció. ω ∈ Ω esetén az X(·, ω) függvényt trajektóriának (realizációnak) nevezzük. A következőkben néhány speciális folyamat fogalmát adjuk meg. 4.46. Definíció. Egy folyamat Gauss-folyamat, ha minden véges dimenziós eloszlás Gauss, azaz normális. 4.47. Definíció. Az {Xt , t ∈ T } Markov-folyamat, ha P (Xtn+1 < xn+1 |Xtn ) = xn ) = P (Xtn+1 < xn+1 |Xt1 = x1 , . . . , Xtn = xn ), (4.10) ahol t1 < t2 < · · · < tn < tn+1 tetszőleges (ti ∈ T ). 4.48. Megjegyzés. Ilyen folyamat például a Poisson-folyamat, a Wienerfolyamat (Brown-mozgás) stb. 4.49. Definíció. Az {X(t), t ≥ 0} számláló folyamat, ha 1. N (0) = 0. 2. N (t) csak nem-negatív egész értékeket vesz fel. 3. Ha s < t, akkor N (s) ≤ N (t). 4. N (t) − N (s) az (s, t] intervallumban bekövetkező események száma.
4.6. Stacionárius folyamatok Legyen {X(t), t ∈ T } sztochasztikus folyamat, amelyet stacionáriusnak nevezünk, ha (X(t1 + h), X(t2 + h), . . . , X(tn + h)),
n ∈ N,
t1 < t2 < · · · < tn , (4.11)
n-dimenziós eloszlása független h-tól. Szokás szigorúan stacionáriusnak is nevezni. Egy folyamatot gyengén stacionáriusnak nevezünk, ha E(X(t)) = m,
m ∈ R,
C(s, s + t) = R(t) = cov(X(s + t), X(s)),
(4.12) (4.13)
azaz a várható érték konstans és a kovariancia függvény csak az eltolástól (késéstől) függ. 132
4.50. Megjegyzés. Négyzetesen integrálható stacionárius folyamat gyengén stacionárius is. 4.51. Definíció. Az {Xt , t ≥ 0} folyamatot Ornstein-Uhlenbeck folyamatnak nevezzük, ha Gauss-folyamat és C(s, t) = e−γ|t−s| ,
E(X(t)) = 0, ahol γ > 0 és X0 ∼ N (0, 1).
4.1. ábra. Ornstein-Uhlenbeck folyamat trajektóriái
A kovarianciafüggvény reprezentálható, mint Fourier transzformált Z+∞ R(t) = eixt dF (x), −∞
133
(4.14)
ahol az F függvényt spektrál eloszlásfüggvénynek nevezzük. Jellemző tulajdonságai: 1. Szimmetria: dF (x) = dF (−x). 2. Monotonitás: ha x < y, akkor F (x) ≤ F (y). 3. Korlátosság: F (+∞) − F (−∞) = R(0) < ∞. 4.52. Megjegyzés. F egy additív konstanstól eltekintve meghatározott, ezért gyakran F (−∞) = 0. Ha F abszolút folytonos, akkor Zx F (x) =
f (s)ds,
(4.15)
−∞
és ekkor a spektrumot abszolút folytonosnak nevezzük és f a spektrál sűrűségfüggvény. A Z+∞ λk = xk dF (x) (4.16) −∞
mennyiséget k-adik spektrál momentumnak nevezzük. 4.53. Megjegyzés. Az F szimmetriája miatt minden páratlan momentum 0, míg a párosak lehetnek végesek vagy végtelenek. A spektrál momentumok végessége összekapcsolható a folyamat simaságával. Mivel E((X(s + t) − X(s))2 ) = 2(R(0) − R(t)),
(4.17)
ezért a folytonosság kifejezhető a kovariancia függvénnyel. Rögtön adódik, hogy X(t + h) → X(t) négyzetes középben, amint h → 0, ha R folytonos a nullánál. A X(t) stacionárius sztochasztikus folyamat realizációi folytonosak, ha |t| R(t) = R(0) − O , t → 0, q > 3. (4.18) |ln |t||q 4.54. TÉTEL. Legyen 0 = t0 < t1 < · · · < tn = T egy felosztása a [0, T ] intervallumnak, ekkor X lim [X(tk ) − X(tk−1 )]2 = σw2 T (1 valószínűséggel). (4.19) max(tk −tk−1 )→0
134
Bármely stacionárius kovariancia függvény esetén létezik egy konstans szórásnégyzet, amelyre R(t) = σ 2 %(t), (4.20) ahol %(t) a korreláció függvény, amely általánosan cov(X(s + t), X(s)) . %(s, s + t) = p cov(X(s), X(s))cov(X(s + t), X(s + t))
(4.21)
4.2. ábra. Izotróp felület
4.55. Definíció. A stacionárius véletlen folyamat izotróp, ha a kovariancia függvény csak a távolságtól függ, azaz R(t, s) = C(τ ), ahol τ = d(t, s). 135
(4.22)
4.3. ábra. Anizotróp felület
4.56. Megjegyzés. d(t, s) a metrika a folyamat indexhalmazán. Pl. euklideszi norma. Izotróp mezőket akkor alkalmazunk, ha forgatás és tükrözés invariáns esettel állunk szemben. Előnye, hogy elegendő egy profilogram a teljes leíráshoz. 4.57. Definíció. A stacionárius véletlen folyamat anizotróp, ha a korreláció függvény csak a távolságtól függ, azaz
ahol τ = ||t − s||K
%(t, s) = %(τ ), (4.23) √ és ||t||K = tT Kt egy K pozitív szemidefinit mátrixszal.
4.58. TÉTEL. Az anizotróp korrelációs függvény %(||t − s||K ) pozitív definit Rn -ben, ha %(τ ) pozitív definit izotróp Rn -ben és K egy szimmetrikus, pozitív szemidefinit n × n-mátrix. 136
4.59. Megjegyzés. A ||t − s||K norma a folyamat indexhalmazán, amely ellipszoid szimmetriát biztosít. Ha K egységmátrix visszakapjuk az izotróp esetet. Anizotróp esetben becsülnünk kell a K elemeit is. Az ilyen típusú leírás megkönnyíti az abrazív befejező megmunkálások esetén az egységes leírást és a szimulációt. Megmutatja, hogy anizotróp felületek esetén miért szükséges a több különböző irányú profilogram.
137
5. fejezet Markov-láncok, folyamatok 5.1. Markov-láncok 5.1. Definíció. A véges vagy megszámlálhatóan végtelen állapotterű Markov-folyamatot Markov-láncnak nevezzük. A Markov-lánc jellemzése (leírása) azt jelenti, hogy megadjuk, mely időpontokban milyen valószínűséggel melyik állapotban van. Legyenek a Markovlánc állapotai az E1 , E2 , . . . , Ek , ekkor Xtn = i jelöli azt, hogy a Markov-lánc a tn időpontban az Ei állapotban van. Az egyszerűség kedvéért az Ei állapotot röviden az i állapotnak fogjuk hívni. Így a definíciónk ekvivalens a következővel. 5.2. ÁLLÍTÁS. Legyen Xn Markov-lánc, ekkor tetszőleges t1 < t2 < . . . < tn < tn+1 és i1 , i2 , . . . , in , in+1 esetén P Xtn+1 = in+1 Xt1 = i1 , Xt2 = i2 , . . . , Xtn−1 = in−1 , Xtn = in = = P Xtn+1 = in+1 |Xtn = in . Ha a diszkrét tk időpontokban a Markov-lánc állapotát Xtk helyett röviden Xk jelöli, akkor a fenti állítás (a Markov tulajdonság) a következő egyszerűbb alakban írható le: P (Xn+1 = in+1 |X1 = i1 , X2 = i2 , . . . , Xn−1 = in−1 , Xn = in ) = = P (Xn+1 = in+1 |Xn = in ) . 138
Az állítás azt hangsúlyozza, hogy a Markov-lánc jövőbeli viselkedésére vonatkozó összes információnk az utolsó megfigyelt állapotban van. A diszkrét idejű Markov-láncot úgy tekintjük, hogy mindegyik lehetséges időpontban (lépésben) állapotot változtat (megengedve azt is, hogy ugyanabban az állapotban marad, amelyikben volt). Az n-edik időpontban az i-edik állapotból az n + 1-edik időpontban a j-edik állapotba való átmenet (feltételes) valószínűsége (n,n+1) Pij = P (Xn+1 = j |Xn = i ) . Az ezen valószínűségekből képzett mátrixot nevezzük (egylépéses) átmeneti valószínűség mátrixnak P (n,n+1) . 5.3. Definíció. A P (n,n+m) = [P (Xn+m = j |Xn = i )] mátrixot m-lépéses átmeneti valószínűség mátrixnak nevezzük. Az egylépéses átmeneti valószínűség mátrixok ismeretében meghatározhatjuk az m-lépéses átmeneti valószínűség mátrixot is. 5.4. ÁLLÍTÁS. (Chapman-Kolmogorov-tétel) Az m-lépéses átmeneti valószínűség mátrix tetszőleges r, (1 ≤ r < m) esetén előállítható az r és az (m − r)-lépéses átmeneti valószínűség mátrixok segítségével (n,n+m)
Pij
=
∞ X
(n,n+r)
Pik
(n,n+m−r)
Pkj
.
(5.1)
k=0
Bizonyítás. Az i állapotból indulva r lépés múlva egy és csak egy állapotban lesz a folyamat, így alkalmazhatjuk a teljes valószínűség tételét. h i (n,n+1) (n,n+1) 5.5. ÁLLÍTÁS. Legyen P = Pij egy Markov-lánc átmeneti valószínűség mátrixa, akkor X (n,n+1) Pij = 1. j
139
Bizonyítás. Mivel a Markov-lánc minden egyes tn időpillanatban átmegy egy (nem feltétlenül különböző) j állapotba, így az Xn+1 = j események teljes eseményrendszert alkotnak az Xn = i feltétel mellett, tehát X X (n,n+1) P (Xn+1 = j |Xn = i) = Pij = 1. j
j
5.6. Definíció. Ha az átmeneti valószínűség mátrix független az időtől (az átmeneti valószínűségek stacionáriusak), akkor a Markov-láncot homogén Markov-láncnak nevezzük Pij = P (Xn+1 = j |Xn = i ) . Mivel homogén Markov-láncok esetében az egylépéses átmeneti valószínűség (n,n+1) helyett az egyszerűbb Pij jemátrix nem függ az időponttól, így a Pij lölést használjuk, valamint az egylépéses átmeneti valószínűség mátrixot is P (n,n+1) helyett röviden P -vel jelöljük. 5.7. ÁLLÍTÁS. Homogén Markov-láncok esetében a Chapman-Kolmogorovtétel szerint az m-lépéses átmeneti valószínűség mátrix előáll, mint az egylépéses átmeneti valószínűség mátrix m-edik hatványa i h (n,n+m) = P m. Pij Bizonyítás. Az r = 1 esetben a Chapman-Kolmogorov-tétel azt állítja, hogy az m-lépéses átmeneti valószínűség mátrix előáll, mint az egylépéses átmeneti valószínűség mátrix és az (m − 1)-lépéses átmeneti valószínűség mátrix szorzata. Innen teljes indukcióval kapjuk az állításunkat. 5.8. Példa. (Keresd a bűnözőt!) Bevezető példánk legyen egy rendőrségi probléma. Keresnek egy bűnözőt, aki a három barátnője valamelyikénél bujkál. Naponta maximum egy alkalommal változtatja a helyét a (5.2) formula szerint. Jelölje Xn = i azt az eseményt, hogy az n-edik napon az i-edik barátnőjénél van. P (Xn+1 = j |Xn = i ) = Pij ,
3 X j=1
140
Pij = 1.
(5.2)
Xn nyilvánvalóan Markov folyamat, és mivel három lehetséges állapota van, tehát Markov-lánc. Mivel T = 1, 2, 3, . . . , így diszkrét idejű Markov-lánc. Ha sem a bűnöző nem unja meg a barátnőit, sem azok őt, tehát a preferenciák változatlanok, akkor P (Xn+1 = in+1 |X1 = i1 , X2 = i2 , . . . , Xn−1 = in−1 , Xn = in ) = = P (Xn+1 = in+1 |Xn = in ) , tehát a Markov-lánc homogén, vagyis időben stacionárius P (Xn+1 = j |Xn = i ) = Pij ,
3 X
Pij = 1.
j=1
5.9. Példa. (Független valószínűségi változók) Legyen a Markov-lánc n = 1, 2, 3, . . . időpontban felvett Xn értéke független, azonos X eloszlású diszkrét valószínűségi változó P (X = i) = pi
(i = 0, 1, 2, 3, . . .) ,
∞ X
pi = 1.
i=0
Ekkor az átmeneti valószínűség mátrix p0 p1 p2 . . . p0 p1 p2 . . . . P = .. , p0 p1 p2 . . . .. . azaz az átmeneti valószínűség mátrix minden sora megegyezik. (És ha az átmeneti valószínűség mátrix minden sora megegyezik, akkor a j-edik állapotba való átmenet (feltételes) valószínűsége független a Markov-lánc jelenlegi állapotától.) 5.10. Példa. (Diszkrét kiszolgálási rendszerek) Egy kiszolgálási egység (pl. egy borbély, egy online rendszer szervere) egy időegység alatt egy igényt (vendéget, kérést) szolgál ki. Minden időegység alatt ugyanolyan eloszlás szerint
141
érkeznek igények (vendégek, kérések). Legyen az időegység alatt beérkező igények száma egy (az előzményektől független) Y valószínűségi változó P (Y = k) = pk pk ≥ 0,
(k = 0, 1, 2, 3, . . .) ∞ X pk = 1. k=0
Ha nincs igény, akkor a kiszolgáló egység vár, ha a kiszolgáló egység foglalt, akkor az igények várnak, beállnak a sorba. Jelölje az Xn az n-edik időegység alatt a sorban tartózkodók számát. Egy időegység alatt a sorban állók száma csökken eggyel (ha volt kiszolgálni való igény) és nő a beérkezők számával, így az átmeneti valószínűség mátrix p0 p1 p 2 p3 p4 . . . p0 p 1 p 2 p3 p4 . . . 0 p 0 p1 p2 p3 . . . P = 0 0 p p p ... 0 1 2 0 0 0 p0 p1 . . . .. . 5.11. Példa. (Véletlen bolyongás) Nagyon sok fizikai, műszaki, gazdasági jelenséget jól lehet modellezni véletlen bolyongás segítségével. Az egydimenziós véletlen bolyongásnál egy pont mozog a számegyenes origójából kiindulva. Minden tn időpontban p (0 < p < 1) valószínűséggel egy egységgel jobbra, q = 1 − p valószínűséggel balra mozdul el a pont. (A szemléletesség kedvéért ezt szokták a részeg tengerész problémájának nevezni). Jelölje Xn az n-edik időpontban a pont helyzetét (koordinátáját). Nyilvánvaló, hogy Xn diszkrét idejű homogén Markov-lánc, mivel a pont n + 1-edik időpontbeli helyzete csak a közvetlenül megelőző állapottól függ (és persze a p értékétől). Az állapottér most az egész számok halmaza (i = . . . , −2, −1, 0, 1, 2, . . .) . Mivel p, ha j = i + 1, q, ha j = i − 1, P (Xn+1 = j |Xn = i ) = 0, egyébként,
142
így az átmeneti valószínűség mátrixa P = ···
0 q 0 0 0
p 0 q 0 0
.. . 0 p 0 q 0 .. .
0 0 p 0 q
0 0 0 ··· p 0
.
Pontosan ezzel a modellel írható le például egy korlátlan hitellel rendelkező játékos vagyoni helyzete n játék után, ha egy végtelen tőkéjű ellenfél ellen játszik, és minden játékban p valószínűséggel egy egységet nyer és q = 1 − p valószínűséggel egy egységet veszít. 5.12. Példa. Egy véges tőkéjű játékos egy végtelen tőkéjű ellenféllel játszik és minden játékban p valószínűséggel egy egységet nyer és q = 1 − p valószínűséggel egy egységet veszít, és nincs hitel. Jelölje Xn az n-edik időpontban a játékosunk vagyonát. Xn ismét diszkrét idejű homogén Markov-lánc, mivel a játék múltja csak a jelen állapoton keresztül befolyásolja a következő állapotot. Az állapottér ekkor a nem-negatív egész számok halmaza (i = 0, 1, 2, . . .) és P (Xn+1 = j |Xn = i ) = p,
ha j = i + 1 és i > 0,
P (Xn+1 = j |Xn = i ) = q,
ha j = i − 1 és i > 0,
P (Xn+1 = 0 |Xn = 0) = 1,
ha i = 0,
P (Xn+1 = j |Xn = i ) = 0,
egyébként.
Az átmeneti valószínűség mátrix 1 0 0 P = 0 0 .. .
tehát 0 q 0 0 0
0 0 q 0 0
143
0 p 0 q 0
0 0 p ··· 0 q
.
Ezt a Markov-láncot tekinthetjük egy úgynevezett balról elnyelő falú véletlen bolyongásnak, azaz a Markov-lánc állapotai a számegyenesen a nem-negatív egész számok, és p valószínűséggel egyet lép jobbra, q = 1 − p valószínűséggel egyet lép balra, kivéve ha a nullában van, mert akkor ott marad. Ennek általánosítása az alkalmazások szempontjából fontos elnyelő falú véletlen bolyongás: 5.13. Példa. Az elnyelő falú véletlen bolyongás esetében a Markov-lánc állapotai a 0 ≤ n ≤ b egész számok a számegyenesen, és p valószínűséggel egyet lép jobbra, q = 1 − p valószínűséggel egyet lép balra, kivéve ha a két végpont valamelyikében van, mert akkor ott marad. Az átmeneti valószínűség mátrix 1 0 0 0 0 ··· 0 0 0 0 0 0 q 0 p 0 0 0 0 0 0 0 0 q 0 p 0 0 0 0 0 0 0 0 q 0 0 0 0 0 0 0 0 0 0 q ··· 0 0 0 0 0 .. . . .. . . P = . . 0 0 0 0 0 0 p 0 0 0 0 0 0 0 0 q 0 p 0 0 0 0 0 0 0 0 q 0 p 0 0 0 0 0 0 0 0 q 0 p 0 0 0 0 0 0 0 0 0 1 5.14. Példa. (Sikersorozatok) Végezzünk el egymás után és egymástól függetlenül egy Bernoulli-kísérletsorozatot. A kísérlet két lehetséges kimenetele legyen p valószínűséggel S siker és q = 1 − p valószínűséggel B balsiker. Azt mondjuk, hogy n hosszúságú sikersorozatunk van, ha a B esemény bekövetkezése után n alkalommal az S siker következett be. Legyen Xn az n-edik időpontban a sikersorozat hossza. (Például a BBSBSSB kísérletsorozat esetén X1 = 0, X2 = 0, X3 = 1, X4 = 0, X5 = 1, X6 = 2, X7 = 0.) A sikersorozat hossza vagy p valószínűséggel eggyel nő , vagy q = 1−p valószínűséggel 0 lesz (marad), tehát homogén Markov-lánc és az átmeneti valószínűség mátrix q p 0 0 ··· q 0 p 0 P = q 0 0 p . q 0 0 0 .. .. . . 144
Jelölje egy Markov-lánc kezdeti valószínűség-eloszlását, azaz annak a valószínűségét, hogy a kiinduló időpillanatban a Markov-lánc a k-adik állapotban van: Π(0) = (P (X0 = 1) , P (X0 = 2) , P (X0 = 3) , . . .) . Hasonlóan jelölje a k-adik lépés után a folyamat eloszlását Π(k) = (P (Xk = 1) , P (Xk = 2) , P (Xk = 3) , . . .) . A kezdeti valószínűség-eloszlás és az átmeneti valószínűség mátrix segítségével meg tudjuk határozni a Markov-lánc valószínűség-eloszlását az első lépés után. 5.15. ÁLLÍTÁS. Legyen P egy Markov-lánc átmeneti valószínűség mátrixa és Π(0) a kezdeti valószínűség-eloszlás, akkor a Markov-lánc Π(1) valószínűségeloszlása az első lépés után Π(1) = Π(0) P. Bizonyítás. Ha a Markov-lánc lehetséges állapotai a 0, 1, 2, 3, . . . , akkor az X0 = 0, X0 = 1, X0 = 2, X0 = 3, . . . események teljes eseményrendszert alkotnak, így a teljes valószínűség tétele értelmében P (X1 = j) =
∞ X
P (X0 = k) P (X1 = j| X0 = k).
k=0
5.16. Példa. (Keresd a bűnözőt! - folytatás) Ha tudjuk, hogy a bűnöző a kezdeti napon milyen Π(0) valószínűség-eloszlás szerint választja az i-edik barátnője lakását búvóhelynek, akkor az átmeneti valószínűség mátrix segíségével meghatározhatjuk annak a Π(1) valószínűség-eloszlását, hogy hol lesz a következő napon. Legyen például az átmeneti valószínűség mátrix 1 1 2 0 2 1 1 1 P = 3 3 3 1 1 1 4 2 4 145
és a kezdeti eloszlás Π
(0)
=
1 4
1 2
1 4
,
Akkor az első "váltás" utáni valószínűség eloszlás 17 14 17 (1) (0) Π =Π ·P = = (0.3542 0.2917 0.3542) . 48 48 48 A második nap végén Π(2) = Π(1) · P = Π(0) · P 2 = (0.3628 0.2743 0.3628) . A negyedik nap után a valószínűség eloszlás Π(4) = Π(0) · P 4 = (0.3636 0.2727 0.3636) , míg például a tizedik nap után Π(10) = Π(0) · P 10 = (0.3636 0.2727 0.3636) . Azaz már (4 tizedes pontosságig) ugyanazt az eredményt kaptuk. Úgy néz ki, hogy egy időtől független ún. stacionárius eloszlást kapunk. Most annak a feltételeit szeretnénk vizsgálni, hogy mikor garantált az ilyen stacionárius eloszlás.
5.2. Állapotok osztályozása Azt mondjuk, hogy a j állapot elérhető az i állapotból, ha véges számú lépésben pozitív az i állapotból a j állapotba kerülés valószínűsége, azaz ha van olyan n, hogy a Pjin n-lépéses átmeneti valószínűség pozitív. 5.17. Definíció. Ha minden állapot elérhető minden állapotból, akkor a Markov-láncot irreducibilisnek nevezzük. Például a 5.9 példa Markov-lánca irreducibilis, ha minden pi pozitív, hiszen ekkor Pji1 = pi > 0. Ha az i és j állapotok kölcsönösen elérhetőek, azaz az i állapotból elérhető a j állapot és a j állapotból is elérhető az i állapot, akkor a két állapotot kapcsolódónak nevezzük és a következő jelölést használjuk: i ←→ j. 146
5.18. ÁLLÍTÁS. A kapcsolódás reláció ekvivalencia reláció, azaz teljesül a következő három tulajdonság: a) (reflexív) i ←→ i, b) (szimmetrikus) ha i ←→ j, akkor j ←→ i, c) (tranzitív) ha i ←→ j, és j ←→ k,akkor i ←→ k. Bizonyítás. a) Mivel definíció szerint Pii0 = 1 , így minden állapot saját magával azonos osztályban van. b) Nyilvánvaló, hogy ha i ←→ j, azaz az i állapotból elérhető a j állapot és a j állapotból is elérhető az i állapot, akkor j ←→ i is fennáll. c) Ha i ←→ j, akkor van olyan n, hogy Pijn > 0, és j ←→ k miatt van olyan m m, hogy Pjk > 0 . A 5.4 tétel szerint Pikn+m
=
∞ X
m Piln Plkm ≥ Pijn Pjk > 0.
l=0
Az ekvivalencia reláció egy osztálybasorolást indukál, azonos osztályban vannak a kapcsolódó elemek. Egy irreducibilis Markov-lánc elemei egyetlen osztályt alkotnak. A nem irreducibilis Markov-láncok tehát két vagy több osztályra bomlanak szét. A 5.12 példában a nulla állapot alkot egy osztályt, míg az összes többi állapot egy másik osztályt. A 5.13 példában három osztály van: a 0, b és {n : 0 < n < b}. Mindkét példában látható, hogy lehetséges az egyik osztályból a másikba jutni, de vissza már nem lehet kerülni. A 0.5 0.5 0 0 0.5 0.5 0 0 P = 0 0 0.3 0.7 0 0 0.7 0.3 átmeneti valószínűség mátrixú Markov-lánc esetén viszont a két osztály ({1, 2} és {3, 4}) között már egyirányú átjárás sem lehetséges. Igen érdekes annak a vizsgálata, hogy a Markov-lánc visszatér-e egy adott állapotába, és ha igen, akkor hány lépésen belül. A következő jelölés igen hasznos lesz ennek a kérdésnek a tárgyalásában. 147
5.19. Definíció. A Markov-lánc tetszőleges i állapota és n > 0 egész szám (n) esetén jelölje fi annak a valószínűségét, hogy pontosan n lépésben kerül először vissza a Markov-lánc az i állapotból az i állapotba. Egy rögzített i állapot esetén jelölje Bk (k = 1, 2, . . . , n) azt az eseményt, hogy a Markov-lánc pontosan a k-adik lépésben kerül először vissza az i állapotba és utána n − k lépésben megint visszatér (mindegy hányszor) az (0) i állapotba. Használjuk azt a megállapodást, hogy Pii = 1. Ekkor az az esemény, hogy a Markov-lánc az n-edik lépésben visszatér az i állapotba felbontható a diszjunkt Bk (k = 1, 2, . . . , n) események összegére, így a Bk események definíciója miatt (k)
(n−k)
P (Bk ) = fi Pii
,
(k = 1, 2, . . . , n),
így (n) Pii
=
n−1 X
(k)
(n−k)
fi Pii
(n)
+ fi , ha n > 1,
k=1
és értelemszerűen (1)
(1)
Pii = fi , ha n = 1. (n)
Így rekurzíve ki tudjuk számítani minden n-re annak az fi valószínűségét, hogy a Markov-lánc pontosan az n-edik lépésben kerül először vissza az i állapotba. Annak az fi valószínűsége, hogy mindegy hány lépésben, de visszatér a Markov-lánc az i állapotba a teljes valószínűség tétele miatt fi =
∞ X
(k)
fi .
k=1
5.20. Definíció. Ha fi = 1, azaz 1 valószínűséggel véges sok lépésben visszatér a Markov-lánc az i állapotba, akkor az i állapotot visszatérő állapotnak nevezzük. Ha egy állapot nem visszatérő, akkor azt átmenetinek nevezzük. Bizonyítás nélkül közöljük a következő tételt, amelyik a visszatérőség és az n-lépéses átmeneti valószínűség mátrix (átlója) elemei közti összefüggést adja meg.
148
5.21. TÉTEL. Egy i állapot akkor és csak akkor visszatérő, ha ∞ X
(n)
Pii = ∞.
n=1 (n)
Az előző egyenletben Pii annak a valószínűsége, hogy n lépésben a Markovlánc visszatér az i állapotba. Azonban lehet, hogy többször is visszatér, így a (5.21) tételben pontosan a visszatérések számának a várható értéke szerepel. Tehát a tételt úgy is átfogalmazhatjuk, hogy egy i állapot akkor és csak akkor visszatérő, ha a visszatérések számának a várható értéke végtelen. Mivel j állapotból a j állapotba nem csak úgy lehet visszatérni, hogy n lépésben először átmegyünk az i állapotba, majd valahány lépésben visszatérünk az i állapotba és végül m lépésben átmegyünk az j állapotba, ezért (n+m+r) Pjj
≥
∞ X
(n) (r) (m) Pji Pii Pji
=
(n) (m) Pji Pji
∞ X
(r)
Pii .
r=1
r=1
P∞ (n) sor divergenciája maga után Innen viszont következik, hogy a n=1 Pii P∞ (n) vonja a n=1 Pjj sor divergenciáját is ( és felcserélve az indexeket fordítva is következik). Tehát beláttuk az előző tétel következményét: 5.22. Következmény. Ha az i és a j állapotok kapcsolódóak, azaz i ←→ j, akkor vagy mindkettő visszatérő, vagy mindkettő átmeneti, tehát a visszatérőség osztálytulajdonság. Ha az i állapot visszatérő állapot, azaz a Markov-lánc 1 valószínűséggel véges számú lépésben visszatér az i állapotba, akkor van értelme az átlagos visszatérési időről beszélni: 5.23. Definíció. Az i visszatérő állapot átlagos visszatérési ideje a visszatérések számának a várható értéke mi =
∞ X
(n)
nfi .
n=1
5.24. Definíció. Egy i visszatérő állapotot visszatérő nulla állapotnak nevezünk, ha az átlagos visszatérés ideje végtelen. Ha az átlagos visszatérés ideje véges, akkor az állapotot pozitív visszatérő állapotnak nevezzük. 149
Tehát a visszatérő nulla állapot esetén fi = 1 és mi =∞. 5.25. Példa. Tekintsük a 5.11 példában vizsgált bolyongást. Minden állapotból pozitív valószínűséggel elérhető bármely állapot, ezért az összes állapot egyetlen ekvivalenciaosztályt alkot. Mivel a visszatérőség osztálytulajdonság, így elegendő egy állapotról (például a 0 állapotról) eldönteni, hogy viszatérő-e vagy sem. Nyilvánvalóan (2n+1)
P00
= 0, (n = 1, 2, 3, . . .) , 2n n n = p q , (n = 1, 2, 3, . . .) . n
(2n)
P00 Az
n! ≈ n
n+
(2n)
Stirling-formulát felhasználva P00 (2n) P00
1 √ 2 e−n 2π
közelítő értéke
(pq)n 22n (4pq)n ≈ √ = √ . πn πn
(5.3)
Ismert, hogy pq = p (1 − p) ≤ így a
∞ X m=1
1 4
(m)
P00 =
és ∞ X
p (1 − p) =
(2n)
P00
n=1
≈
1 1 ⇔p=q= , 4 2
∞ X (4pq)n √ πn n=1
1 (ezt az esetet hívjuk 2 egydimenziós szimmetrikus véletlen bolyongásnak). Tehát az egydimenziós szimmetrikus véletlen bolyongás esetén minden állapot visszatérő. végtelen sor akkor és csak akkor divergens, ha p = q =
Kétdimenziós szimmetrikus véletlen bolyongásról beszélünk, ha a sík egész 1 koordinátájú pontjain mozgó folyamat azonos valószínűséggel mozdul el 4 jobbra, balra, előre vagy hátra, míg háromdimenziós szimmetrikus véletlen bolyongás esetén a tér egész koordinátájú pontjain mozgó folyamat azonos 1 valószínűséggel mozdul el jobbra, balra, előre, hátra, lefele vagy felfelé. A 6 150
fentihez hasonló gondolatmenettel látható be, hogy a kétdimenziós szimmetrikus véletlen bolyongás esetén minden pont visszatérő állapot, ezzel szemben a háromdimenziós szimmetrikus véletlen bolyongás esetén minden pont átmeneti állapot, tehát pozitív annak a valószínűsége, hogy nem tér vissza a jelenlegi állapotába. (n)
5.26. Definíció. Egy i állapotot d periódusú állapotnak hívunk, ha a Pii > 0 feltételt kielégítő n számok legnagyobb közös osztója d. Ha d = 1, akkor az i állapotot aperiódikus állapotnak hívjuk. 5.27. ÁLLÍTÁS. Ha az i és a j állapotok kapcsolódóak, azaz i ←→ j, akkor mindkettő periódusa megegyezik, tehát a periódikusság is osztálytulajdonság. Bizonyítás nélkül közöljük az irreducibilis Markov-láncokra vonatkozó következő fontos tételt: 5.28. TÉTEL. Ha egy Markov-lánc irreducibilis, akkor a következő három tulajdonság közül pontosan egy teljesül a Markov-lánc állapotaira: a) mindegyik állapot pozitív visszatérő állapot; b) mindegyik állapot visszatérő nulla állapot; c) mindegyik állapot átmeneti állapot. 5.29. Definíció. Egy diszkrét Markov-lánc ergodikus, ha irreducibilis, aperiodikus és minden állapota pozitív visszatérő. A (5.16) példában már láttuk, hogy a Markov-lánc n-edik lépés utáni Π(n) eloszlása "stabilizálódik". 5.30. Definíció. P∞Egy diszkrét Markov-láncnak a Π = (Π1 , Π2 , Π3 , . . .) eloszlás (Πi ≥ 0 és i=1 Πi = 1) stacionárius eloszlása, ha teljesül a Π = ΠP
(5.4)
mátrix egyenlet. A (5.4) mátrix egyenlet egyenletrendszer formájában felírva a következő: Πi =
∞ X
Πj Pji
(i = 1, 2, 3, . . .) .
j=1
151
5.31. Definíció. Egy Markov-láncnak a Π = (Π1 , Π2 , Π3 , . . .) eloszlás a határeloszlása, ha léteznek a (n)
lim Πi
n→∞
= lim P (Xn = i) = Πi n→∞
(i = 1, 2, 3, . . .)
határértékek. A sorbanálláselmélet szempontjából fontosak az alábbi tételek, amelyek biztosítják a határeloszlás létezését, illetve a Markov-lánc lényeges tulajdonságainak teljesülését. 5.32. TÉTEL. Ha az Xn homogén irreducibilis és aperiodikus Markov-lánc, akkor a kezdeti valószínűség eloszlástól függetlenül létezik a (n)
Πi = lim Πi
(i = 1, 2, 3, . . .)
n→∞
határeloszlás. Ha a Markov-lánc állapotainak mindegyike pozitív visszatérő állapot, akkor a Markov-lánc ergodikus és Πi > 0 minden i esetén. Fennáll Πi =
1 mi
(i = 1, 2, 3, . . .) ,
(mi az i állapot visszatérési idejének a várható értéke), és Π = (Π1 , Π2 , Π3 , . . .) stacionárius eloszlás, ahol Πi a ∞ X
Πi = 1,
(5.5)
i=1
Πi =
∞ X
Πj Pji
(i = 1, 2, 3, . . .)
j=1
egyenletrendszer egyértelmű megoldása. Ha a Markov-lánc állapotainak nem mindegyike pozitív visszatérő állapot (azaz vagy mindegyik visszatérő nulla vagy átmeneti állapot), akkor Πi = 0 minden i esetén, és nem létezik stacionárius eloszlás. A tétel első feléből következik, hogy ergodikus Markov-láncok esetén a határeloszlások és a stacionárius eloszlások egybeesnek, ezeket az eloszlásokat egyensúlyi eloszlásoknak nevezzük. Amikor a sorbanállási feladatoknál a Markov-láncokat alkalmazzuk, akkor éppen ezek az eloszlások a legfontosabbak. Ezért lényegesek az alábbi tételek, amelyek feltételeket adnak az ergodikusságra nézve, azaz mikor lesz egyensúlyi eloszlás. 152
5.33. TÉTEL. Ha egy véges sok állapotú Markov-lánc irreducibilis és aperiodikus, akkor ergodikus is. 5.34. TÉTEL. Egy pozitív, irreducibilis, aperiodikus Markov-lánc visszatérő és így ergodikus is, ha a ∞ X Pji xj ≤ xi − 1 j=1
egyenlőtlenségrendszernek van olyan nemnegatív megoldása, melyre teljesül a ∞ X P0j xj < ∞ j=1
egyenlőtlenség. 5.35. TÉTEL. Egy pozitív, irreducibilis, aperiodikus Markov-lánc akkor és csak akkor visszatérő és így ergodikus is, ha a ∞ X
xj Pji = xi
j=1
egyenletrendszernek létezik olyan nemnulla megoldása, amelyre teljesül a ∞ X
|xj | < ∞
j=1
egyenlőtlenség. 5.36. Példa. 5.16 (Keresd a bűnözőt! neti valószínűség mátrix 1 2 1 P = 3 1 4
- folytatás) Emlékeztetőül az átme-
0 1 3 1 2
1 2 1 3 1 4
.
A Markov-lánc nyilvánvalóan irreducibilis és aperiodikus (meg persze véges sok állapotú), így a 5.33 tétel alapján ergodikus és létezik a határeloszlása, 153
amely egyúttal stacionárius eloszlás is. A (5.5) egyenletrendszer most Π1 + Π2 + Π3 = 1, 1 1 1 Π1 = Π1 + Π2 + Π3 , 2 3 4 1 1 Π2 = 0Π1 + Π2 + Π3 , 3 2 1 1 1 Π3 = · Π1 + Π2 + Π3 , 2 3 4 ahonnan
4 3 4 ; ; ). 11 11 11 Ez azt jelenti, hogy ha a rendőrök nem ismerik a kezdeti eloszlást, akkor is pár nap múlva már igen jó közelítéssel ismerik az aznapi eloszlást. Említésre 4 3 4 méltó, hogy a Π = ( ; ; ) stacionárius megoldás, hiszen 11 11 11 1 1 2 0 2 4 3 4 1 1 1 = ( 4 ; 3 ; 4 ), ( ; ; )· 11 11 11 11 11 11 31 31 31 4 2 4 Π = (Π1 ; Π2 ; Π3 ) = (
és ennek megfelelően (n)
lim Π
n→∞
=
4 11 4 11 4 11
154
3 11 3 11 3 11
4 11 4 11 4 11
.
6. fejezet Sorbanálláselmélet 6.1. Poisson folyamat A független növekményű stacionárius folyamatok közül különösen hasznosak lesznek számunkra azok a folyamatok, amelyeknél annak a valószínűsége, hogy egy adott időintervallumban pontosan egy esemény következik be, egyenesen arányos az időintervallum hosszával, és egy nagyon rövid időintervallumban nem valószínű, hogy egynél több esemény következzen be. A pontos definícióhoz szükségünk van a következő fogalomra is: 6.1. Definíció. Egy f függvény o (h) ["kis-ordó h"] nagyságrendű, ha f (h) = 0. h→0 h lim
(6.1)
6.2. Példa. a) Az f (x) = x2 o (x) nagyságrendű, mivel x2 = lim x = 0, x→0 x x→0 lim
b) Az f (x) = x nem o (x) nagyságrendű, mivel x lim = lim 1 6= 0. x→0 x x→0 6.3. ÁLLÍTÁS. Ha egy f függvény o (h) nagyságrendű, akkor tetszőleges c konstans esetén a cf függvény is o (h) nagyságrendű, mivel cf (h) f (h) = c lim = 0. h→0 h→0 h h lim
155
6.4. ÁLLÍTÁS. Ha egy f és g függvény is o (h) nagyságrendű, akkor az f + g függvény is o (h) nagyságrendű, mivel g (h) f (h) + g (h) f (h) + lim = lim = 0. h→0 h h→0 h→0 h h 6.5. Következmény. Ha az f1 , f2 , . . . , fn függvények mindegyike o (h) nagyságrendű, és c1 , c2 , . . . , cn konstansok, akkor a c1 f1 +c2 f2 +. . .+cn fn függvény is o (h) nagyságrendű, tehát tetszőleges lineáris kombinációjuk is o (h) nagyságrendű. lim
A következő definíciót könnyű megjegyezni, ha arra az alkalmazásra gondolunk, amit majd tiszta születési folyamatnak fogunk hívni: Egy sokaságban N egyed van és időnként érkezik (születik) egy új tag. A születések pillanataiban bekövetkezik egy esemény. Az alábbi feltételekkel meg tudjuk határozni a sokaság N (t) létszámát a t időpontban. 6.6. Definíció. Egy N (t) számláló folyamat λ rátájú Poisson folyamat, ha a) Független növekményű, azaz a diszjunkt időintervallumokban bekövetkező események függetlenek egymástól. b) Stacionárius növekményű a folyamat, azaz egy időintervallumban bekövetkező események száma csak az időintervallum hosszától függ, és nem függ annak kezdeti időpontjától. c) Annak valószínűsége, hogy pontosan egy esemény következik be egy rövid időintervallumban egyenesen arányos az intervallum hosszával P [N (h) = 1] = λh + o (h) . d) Lehetetlen, hogy egy rövid időintervallumban egynél több esemény következzen be P [N (h) > 1] = o (h) . A c) és d) feltételek következménye, hogy P [N (h) = 0] = 1 − λh + o (h) , mivel P [N (h) = 0] = 1 − P [N (h) > 0] = = 1 − P [N (h) = 1] − P [N (h) > 1] = = 1 − [λh + o (h)] − o (h) = = 1 − λh − o (h) − o (h) = 1 − λh + o (h) . 156
(6.2)
A Poisson folyamat definíciója meghatározza, hogy egy tetszőleges t hosszúságú intervallumban bekövetkező események száma λt paraméterű Poissoneloszlású valószínűségi változó: 6.7. TÉTEL. Legyen {N (t) , t ≥ 0} egy λ rátájú Poisson folyamat, akkor egy tetszőleges t > 0 hosszúságú intervallumban bekövetkező események X száma λ paraméterű Poisson-eloszlású valószínűségi változó P (X = k) =
(λt)k −λt e , k!
k = 0, 1, 2, . . . .
Bizonyítás. Jelölje Pk (t) annak a valószínűségét, hogy a t időpillanatban a folyamat a k értéket veszi fel, azaz Pk (t) = P (X = k) ,
k = 0, 1, 2, . . . .
Először határozzuk meg P0 (t) értékét. Mivel a folyamat stacionárius növekményű, így feltételezhetjük, hogy az időintervallum nullánál kezdődik. Vizsgáljuk P0 (t + h) értékét, azaz annak a valószínűségét, hogy X a t + h időpillanatban 0. Ez csak úgy következhet be, hogy az X a t időpillanatban is 0 és a (t, t + h) intervallumban nem változik az értéke, ezért P0 (t + h) = P ({N (t) = 0} · {N (t + h) − N (t) = 0}) , de a {N (t) = 0} és {N (t + h) − N (t) = 0} események függetlenek, így P0 (t + h) = P (N (t) = 0) · P (N (t + h) − N (t) = 0) . Az N (t + h) − N (t) = 0 esemény csak úgy következhet be, ha N (h) = 0, tehát P0 (t + h) = P0 (t) · P (N (h) = 0) . A (6.2) tulajdonság miatt P0 (t + h) = P0 (t) · (1 − λh + o (h)) , innen átrendezéssel, és felhasználva o (h) tulajdonságait o (h) P0 (t + h) − P0 (t) = −λP0 (t) + , h h
157
ahonnan a lim határértéket véve kapjuk a h→0
dP0 (t) = −λP0 (t) dt differenciálegyenletet. Ennek általános megoldása Ce−λt és kihasználva a P0 (t) = 0 kezdeti feltételt a partikuláris megoldás P0 (t) = e−λt . Most vizsgáljuk Pn (t) értékét, ha n > 0. A megfelelő módosítással használjuk az előző gondolatmenetet. Az az esemény, hogy N (t + h) = n az csak a következő három módon történhet: a) N (t) = n és N (t + h) = n b) N (t) = n − 1 és N (t + h) = n c) N (t) = n − k és N (t + h) = n, k ≥ 2. Ez a három esemény páronként diszjunkt, így Pn (t + h) értékét ezen három esemény valószínűségének összegeként kapjuk.: Pn (t + h) = Pn (t) (1 − λh + o (h)) + λhPn−1 (t) + o (h) . Átrendezéssel o (h) Pn (t + h) − Pn (t) = −λPn (t) + λPn−1 (t) + , h h és a lim határértéket véve adódik a h→0
dPn (t) = −λPn (t) + λPn−1 (t) dt differencia-differenciálegyenlet. Mivel P0 (t) = e−λt , így dP1 (t) = −λP1 (t) + λe−λt , dt ahonnan P1 (t) = λte−λt , és teljes indukcióval kapjuk a tétel állítását Pn (t) =
(λt)n −λt e , n!
n = 0, 1, 2, . . . .
158
Az X valószínűségi változó tehát λt paraméterű Poisson-eloszlású valószínűségi változó, így várható értéke és szórásnégyzete egyaránt λt. Ez rávilágít arra, hogy miért nevezzük a λ paramétert a Poisson-folyamat esetében a folyamat rátájának, hiszen az átlagos bekövetkezések száma (rátája) λt E (N (t)) = . t t Bizonyítás nélkül közöljük a következő tételt, amelyik leírja a szoros kapcsolatot az exponenciális és a Poisson-eloszlás között. 6.8. TÉTEL. Legyen adott egy N (t) számláló folyamat és legyenek az egymás utáni bekövetkezések időpontjai t1 < t2 < · · · < tn , míg a köztük eltelt idő rendre τ1 = t1 ,
τ2 = t2 − t1 , . . . , τn = tn − tn−1 .
Ha a számláló folyamat λ rátájú Poisson-folyamat, akkor a τi valószínűségi változók egymástól független λ paraméterű exponenciális eloszlású valószínűségi változók, és ha a τi valószínűségi változók (a bekövetkezések között eltelt időtartamok) egymástól független λ paraméterű exponenciális eloszlású valószínűségi változók, akkor az N (t) folyamat λ rátájú Poisson-folyamat. Az (a, b) intervallumban egyenletes eloszlást úgy definiáltuk, hogy egy részintervallumban való bekövetkezés valószínűsége egyenesen arányos a részintervallum hosszával. Ha egyenletes eloszlás szerint választunk egy pontot, akkor azt mondjuk, hogy véletlenül választottuk a pontot. A következő tétel rávilágít arra, hogy miért "véletlen", valamint hol és miért lehet olyan sokszor jól modellezni a valóságot Poisson-folyamattal. 6.9. TÉTEL. Legyen N (t) egy λ rátájú Poisson-folyamat, és tudjuk, hogy N (t) = 1, azaz a (0, t) intervallumban egy esemény következett be. Legyen az Y valószínűségi változó az esemény bekövetkezéséig eltelt idő. Ekkor Y egyenletes eloszlású a (0, t) intervallumban. 6.10. Megjegyzés. Nincs ellentmondás az előző tétellel, hiszen itt nem két egymás utáni bekövetkezés között eltelt időről van szó. 159
Bizonyítás. Az előző tétel jelölésével legyen τ1 az első bekövetkezésig eltelt idő P (Y < x) = P (τ1 < x |N (t) = 1) = P ({τ1 < x} {N (t) = 1}) = = P (N (t) = 1) P ({N (x) = 1} {N (t) − N (x) = 0}) = = P (N (t) = 1) a független növekményűséget felhasználva P ({N (t) − N (x) = 0}) P ({N (x) = 1}) P (N (t) = 1) P ({N (t − x) = 0}) P ({N (x) = 1}) = = P (N (t) = 1) =
és a 6.7 tételt felhasználva =
λxe−λx e−λ(t−x) x = . −λt λte t
Ez éppen a (0, t) intervallumban egyenletes eloszlás definíciója.
6.2. Születési-halálozási folyamatok Általánosítsuk a Poisson-folyamatot, amikor nemcsak érkeznek (születnek), hanem távoznak is (meghalnak) egyedek. Bizonyos esetekben ésszerű feltételezni, hogy a születési és a halálozási ráta függ a népesség számától. Sorbanállási feladatoknál a születés az egy új egyed érkezése a sorba, míg egy egyed kiszolgálásával az az igény kikerül a sorból (meghal). 6.11. Definíció. Egy N (t) számláló folyamatot születési-halálozási folyamatnak nevezünk, ha teljesülnek az alábbi feltételek: a) homogén Markov-lánc b) P (pontosan 1 születés |N (t) = k ) = λk h + o (h) , λk ≥ 0 c) P (pontosan 1 halál |N (t) = k ) = µk h + o (h) , µk ≥ 0 d) P (pontosan 0 születés |N (t) = k ) = 1 − λk h + o (h) e) P (pontosan 0 halál |N (t) = k ) = 1 − µk h + o (h) . 160
Mivel a fenti négy valószínűség összege 1 + o (h), így annak a valószínűsége, hogy egy rövid időtartamban egynél több esemény történjen az lehetetlen (o (h) nagyságrendű). N (t) számláló folyamat, tehát negatív nem lehet, így µ0 = 0. A λk és a µk a születési illetve halálozási ráták. A születési-halálozási folyamatot is a differencia-differenciálegyenletével írjuk le. Hasonló módon állítjuk fel az egyenleteket, mint a 6.7 tétel bizonyításában. Először tekintsük az n = 0 esetet. Az N (t + h) = 0 esemény csak kétféle módon történhet meg: 1) A folyamat a t időpillanatban 0 és a (t, t + h) intervallumban nem változik az értéke, azaz nincs születés, ennek valószínűsége P0 (t) · (1 − λ0 h + o (h)) , 2) A folyamat a t időpillanatban 1 és a (t, t + h) intervallumban 1 halál következik be, ennek valószínűsége P1 (t) · (µ1 h + o (h)) , innen P0 (t + h) = P0 (t) − P0 (t) λ0 h + P1 (t) µ1 h + o (h) , és átrendezés után o (h) P0 (t + h) − P0 (t) = P1 (t) µ1 − P0 (t) λ0 + , h h és a lim határértéket véve adódik a h→0
dP0 (t) = P1 (t) µ1 − P0 (t) λ0 dt
(6.3)
differenciálegyenlet. Az n > 0 esetben az N (t + h) = n csak háromféle diszjunkt módon történhet meg: 1) A folyamat a t időpillanatban n és a (t, t + h) intervallumban nem változik az értéke, azaz nincs születés, nincs halál, ennek valószínűsége Pn (t) · (1 − λn h + o (h)) · (1 − µn h + o (h)) . 161
2) A folyamat a t időpillanatban n + 1 és a (t, t + h) intervallumban 1 halál következik be, ennek valószínűsége Pn+1 (t) · (µn+1 h + o (h)) . 3) A folyamat a t időpillanatban n − 1 és a (t, t + h) intervallumban 1 születés következik be, ennek valószínűsége Pn−1 (t) · (λn−1 h + o (h)) . Mivel másképpen nem jöhet létre az N (t + h) = n esemény, így Pn (t + h) = Pn (t) · (1 − λn h + o (h)) · (1 − µn h + o (h)) + + Pn+1 (t) · (µn+1 h + o (h)) + Pn−1 (t) · (λn−1 h + o (h)) , azaz Pn (t + h) = Pn (t)·(1 − λn h − µn h)+Pn+1 (t)·µn+1 h+Pn−1 (t)·λn−1 h+o (h) és átrendezés után o (h) Pn (t + h) − Pn (t) = − (λn + µn ) Pn (t)+µn+1 Pn+1 (t)+λn−1 Pn−1 (t)+ . h h és véve a lim határértéket kapjuk a h→0
dPn (t) = − (λn + µn ) · Pn (t) + µn+1 · Pn+1 (t) + λn−1 · Pn−1 (t) dt
(6.4)
differencia-differenciálegyenletet. Ha a kiinduló állapot az i volt, azaz i számú egyed volt a sokaságban, akkor a kezdeti feltételek Pi (0) = 1 és Pj (0) = 0 minden j 6= i esetén.
(6.5)
Az (6.4) és (6.3) egyenletek, valamint az (6.5) kezdeti feltételek egy végtelen sok egyenletből álló differencia-differenciálegyenlet rendszert adnak, melynek a megoldása analitikus úton általában nagyon nehéz, de néhány fontos esetben lehetséges. Ilyen eset például a 6.7 tételben vizsgált Poisson-folyamat, ahol λn = λ minden n esetén, míg µn = 0. Általában, ha λn = 0, akkor 162
tiszta halálozási folyamatról beszélünk, míg ha µn = 0 , akkor tiszta születési folyamatról. Tehát a Poisson-folyamat egy speciális tiszta születési folyamat. A speciális esetek vizsgálata helyett (amelyek persze adott esetben nagyon fontosak lehetnek) foglalkozzunk azzal a gyakorlatban fontos esettel, amikor az idő múlásával egyensúlyi helyzet áll be. Egyensúlyi helyzet alatt azt értjük, hogy a Pn (t) valószínűségek nem függnek az időtől, azaz Pn (t) = pn és ennek következtében
dPn (t) = 0. dt Vegyük a lim határértéket a (6.4) és (6.3) egyenletek mindkét oldalán, így t→∞ a 0 = − (λn + µn ) · pn + µn+1 · pn+1 + λn−1 · pn−1 , n > 0 0 = µ1 · p1 − λ0 · p 0 ,
n=0
(6.6)
egyenletrendszert kapjuk az egyensúlyi állapotra, feltéve persze, hogy az létezik. A második egyenletből p1 = p0
λ0 , µ1
míg az első egyenletből µn+1 · pn+1 − λn · pn = µn · pn − λn−1 · pn−1 , azaz ha létezik az egyensúlyi helyzet, akkor a µn · pn − λn−1 · pn−1 kifejezés n-től független konstans, és a (6.6) egyenletből 0 = p1 µ1 − p0 λ0 , így µn · pn − λn−1 · pn−1 = 0, tehát pn = pn−1 163
λn−1 . µn
(6.7)
Ebből a rekurzív formulából és (6.7)-ből kapjuk, hogy p1 = p0
λ0 , µ1
p2 = p1
λ1 λ0 λ1 = p0 , µ2 µ1 µ2
p3 = p2
λ2 λ0 λ1 λ2 = p0 ,..., µ3 µ1 µ2 µ3
általában
λ0 λ1 λ2 · · · λn−1 . µ1 µ2 µ3 · · · µn Itt még p0 függvényében kaptuk meg a pn valószínűséget, de mivel a pn = p0
(6.8)
p0 , p1 , p2 , . . . , pn , . . . valószínűségek valószínűségeloszlást alkotnak, így ∞ X λ0 λ1 λ2 · · · λn−1 λ0 λ1 λ0 λ1 pi = p0 1 + + + + ··· + + · · · = 1. µ µ µ µ µ µ µ · · · µ 1 2 1 2 1 2 3 n i=0 Innen nullától különböző valószínűséget csak akkor kapunk, ha az S =1+
λ0 λ1 λ0 λ1 λ0 λ1 λ2 · · · λn−1 + + + ··· + + ··· µ1 µ2 µ1 µ2 µ1 µ2 µ3 · · · µn
(6.9)
végtelen sor konvergens. Ekkor van egyensúlyi állapot.
6.3. A sorbanállási elmélet elemei Mindennapi életünk elkerülhetetlen része a sorbanállás, sorakozunk a postán, a pénztárnál. Információkérésünk sorbanáll az interneten, a repülőjegy rendelésünk sorbanáll, amíg feldolgozza a központi szerver. A kamionok sorbanállnak a bepakolás és a kirakodás előtt. A műszaki, gazdasági, katonai feladatok széles skáláját lehet sorbanállási feladatként modellezni, és persze más és más lehet az a szempont, ami szerint optimálisnak tekintjük a sorbanállási rendszert. Van olyan áruházlánc, ahol hangsúlyt fektetnek arra, hogy ne kelljen sokáig sorakozni a pénztárnál, van, ahol direkt kevés pénztárost alkalmaznak, hogy ezzel is olcsóbbá tegyék az árakat. Nézzünk egy általános sorbanállási- kiszolgálási rendszert. Van egy sokaság, amelyikből valamilyen rendszer szerint időnként néhányan a kiszolgáló rendszerhez fordulnak. Lényeges, hogy ez a sokaság milyen nagy (a kiszolgáló kapacitáshoz viszonyítva). Eszerint célszerű véges, vagy végtelen sokaságot 164
feltételezni. Érdemes megemlíteni, hogy a modell kezelhetősége szempontjából egyszerűbb a végtelen sokaság feltételezése. Nyilvánvalóan érdekes, hogyan, milyen sűrűn érkeznek a kiszolgálandók (az igények). Sokkal nehezebb egy jó kiszolgáló rendszert kiépíteni, ha az igények csoportosan érkeznek, mintha egyenként. A modellek többségében feltételezzük, hogy milyen eloszlás szerint érkeznek az igények. Ha a kiszolgáló szabad, azonnal megkezdi a kiszolgálást, ha nem, akkor kell (kellene) beállni a sorba. Újból különböző modellt kapunk, ha figyelembe vesszük, hogy milyen az igények várakozási hajlandósága. Van olyan igény, amelyik elvész, ha nem szolgálják ki azonnal. Például szívinfartktus esetén 2 óra múlva már felesleges mentőt küldeni, de egy fájó foggal néha napokat is várunk, amíg orvoshoz megyünk. Ha várakozunk a kiszolgálóra (sorban állunk), akkor érdekes, hogy milyen elv szerint kerülünk be kiszolgálásra. Az angol terminológia alapján a leggyakrabban használt (és a gyakorlatot jól leíró) elvek: -FIFO (First In First Out) mindig a legkorábban érkezettet szolgálják ki. -LIFO (Last In First Out) mindig a legutolsónak érkezettet szolgálják ki. -SIRO (Service In Random Order) véletlenszerű a kiválasztás a kiszolgálásra. -PRI (Priority Service) bizonyos igényeknek elsőbbségük van (pl. mentőknél a közvetlen életveszély) Különbözik a sorbanállási-kiszolgálási rendszer, ha különbözik a kiszolgálók száma, ezért a kiszolgálók száma szerint is megkülönböztetjük a modelleket. Ha már bekerülünk a kiszolgálóhoz, akkor általában más-más ideig tart a kiszolgálás. A modellek többségében feltételezik, hogy a kiszolgálás ideje a véletlentől függ, és feltételezik a kiszolgálás idejének az eloszlását (exponenciális, Erlang, stb.). Azért, hogy könnyű legyen áttekinteni milyen rendszerrel foglalkozunk, használni fogjuk a Kendall-féle jelölést. Eszerint egy sorbanállási-kiszolgálási modell átalános alakja A/B/c/K/m/Z, ahol A az egymást követő beérkezések között eltelt idő; 165
B a kiszolgálási idő eloszlásának típusa; c a kiszolgáló egységek száma; K a kiszolgáló rendszer kapacitása (a sorbanállók száma plusz a kiszolgálás alatt lévők száma); m a sokaság létszáma (ahonnan az igények érkeznek); Z a sorból a kiszolgálásra való kerülés elve. A modell megfelelősége és bonyoultsága szempontjából a legmeghatározóbb az A és B "paraméter", azaz a beérkezések és a kiszolgálási idő eloszlásának a típusa. Hagyományosan a következő jelöléseket szokták használni: GI általános független beérkezések közötti idők; G általános kiszolgálási idő; E k Erlang -k eloszlású beérkezések közötti vagy kiszolgálási idő; M exponenciális eloszlású beérkezések közötti vagy kiszolgálási idő; D determinisztikus beérkezések közötti vagy kiszolgálási idő; A továbbiakban mi csak két modellt tárgyalunk: az M/M/1 rendszert, ahol a beérkezések közötti és a kiszolgálási idő is exponenciális eloszlású és 1 kiszolgáló van és az M/M/1/K rendszert, ahol a fenti feltevések mellett a rendszer kapacitása K (1 kiszolgálás alatt K-1 a sorban). Mindkét esetben a Kendall-féle jelölés rövidített változatát használtuk, azaz, ha valamelyik komponens korlátlan, akkor azt nem kell kiírni, és ha nincs megszorítás a kiszolgálás elvére, akkor azt sem írjuk ki. Egy-egy ilyen sorbanállási-kiszolgálási modellnek az a célja, hogy az adott feltételek között vizsgáljuk az átlagos kiszolgálási és a rendszeren töltött időt, a sorok hosszának eloszlását, a sorbanállók átlagos számát, a kiszolgáló átlagos foglaltsági idejét, a tétlenségi (nincs kiszolgálandó igény) idő eloszlását, a kiszolgálás alatt állók átlagos számát. Egy kiszolgálási rendszer tervezésekor a fenti paraméterek kiszámításával, majd a különböző kapacitások megfelelő megválasztásával lehet optimalizálni, illetve javítani a rendszer teljesítményét. Az optimalizálás szó természetesen túlzás, hiszen a figyelembe vehető változtatható paraméterek száma túl nagy ahhoz, hogy ezt szigorúan matematikai értelemben optimalizálásnak tekintsük, de az adott gazdasági, műszaki, politikai körülmények között viszonylag egyértelműen megadhatjuk azt az elvet, aminek a függvényében optimalizálni szeretnénk a rendszert.
166
Egy rakétaelhárító rendszer tervezésekor nyivánvalóan az a cél, hogy minden támadó rakétát "kiszolgáljunk", a támadónak pedig egy ilyen rendszerhez olyan beérkezési időpontokat kell rendelnie, hogy legyen olyan rakétája, amelyik elkerüli a "kiszolgálást".
6.4. M/M/1 sorbanállási-kiszolgálási rendszer Az előbbiek szerint tehát a beérkezések közötti és a kiszolgálási idő is exponenciális eloszlású és 1 kiszolgáló van. A sokaság, ahonnan az igények érkeznek végtelen nagy és nem tudunk semmit arról, hogy a sorbanállók közül milyen elv alapján választják ki a következőt, akit kiszolgálnak. A 6.8 tétel alapján ez azt jelenti, hogy ha a beérkezések közötti idő λ paraméterű exponenciális eloszlás, akkor az időegység alatt beérkező igények száma ugyanolyan λ paraméterű Poisson-eloszlás. A klasszikus kiszolgálási modell elnevezés is szokásos, mivel ez volt az első sorbanállási modell, amivel részletesen foglalkoztak. Feltételezzük, hogy a beérkezések száma és kiszolgáltak száma független egymástól. Belátjuk, hogy a rendszerben tartózkodó igények számát egy születési-halálozási folyamat írja le. Legyen a beérkezések közötti idő λ paraméterű exponenciális eloszlás, így az időegység alatt beérkező igények száma λ paraméterű Poisson-eloszlás, azaz a várható értéke λ. Ezért indokolt λ-t a beérkezések intenzitásának nevezni. Az exponenciális eloszlás örökifjú tulajdonsága miatt annak valószínűsége, hogy a h intervallumban egy beérkezés legyen, ha nincs senki a rendszerben ugyanannyi, mintha n igény lenne a rendszerben. Tetszőleges h > 0 esetén jelölje X egy h hosszúságú intervallumban beérkező jelekszámát. Annak valószínűsége, hogy egy beérkezés legyen a h intervallumban a Poisson-eloszlás miatt (λh)1 −λh e = P (X = 1) = 1! = e−λh λh =
(λh)1 (λh)2 + − +··· 1− 1! 2!
! λh =
= λh + o (h) . Másrészt számítsuk ki annak a valószínűségét, hogy nem érkezik be igény egy h hosszúságú intervallumban. Most az exponenciális eloszlás definícióját 167
használjuk. Az örökifjú tulajdonság azt jelenti, hogy lényegtelen, mennyi ideje nem érkezett igény, de ha a most következő h hosszúságú intervallumban nem jön igény, akkor X = 0, azaz P (X = 0) = 1 − 1 − e−λh = e−λh = (λh)1 (λh)2 + − +··· = 1! 2! = 1 − λh + o (h) . =1−
Így annak valószínűsége, hogy egynél több beérkezés legyen a h intervallumban P (X > 1) = 1 − P (X ≤ 1) = = 1 − P (X = 0) − P (X = 1) = o (h) . Tehát a születési-halálozási folyamat születésre vonatkozó feltételei teljesülnek és λn = λ. Hasonlóképpen, legyen a kiszolgálási idő µ paraméterű exponenciális eloszlás, azaz annak a valószínűsége, hogy egy kiszolgálás h időn belül befejeződik (ez az igény meghal) 1 − e−µh = µh + o (h) , valamint a nulla kiszolgálás valószínűsége 1 − µh + o (h) . Tehát a születési-halálozási folyamatról van szó, és az örökifjú tulajdonság miatt µn = µ. Az M/M/1 rendszer állapotátmeneti diagramja a (6.1) ábrán látható. Mivel λn = λ és µn = µ, így a (6.8) egyenletben pn = p0
λn . µn
Vezessük be a születési és halálozási ráta arányára a ρ=
λ µ
168
6.1. ábra. M/M/1 rendszer állapotátmeneti diagramja
jelölést, így az (6.9) egyenletben S = 1 + ρ + ρ2 + ρ3 + · · · =
1 . 1−ρ
Ez a formula is aláhúzza azt a magától értetődő tényt, hogy ha a kiszolgálási ráta kisebb, mint a születési ráta, akkor a sor hossza tart a végtelenhez. Tehát feltételezzük, hogy 0 < ρ < 1. Mivel
∞ X
pi = 1,
és p0 =
i=0
1 , S
így pn = ρn (1 − ρ) ,
n = 0, 1, 2, 3, . . . .
Speciálisan az n = 0 esetben p0 = (1 − ρ) , 169
(6.10)
így kiszámítható az egyik legfontosabb jellemző: Annak valószínűsége, hogy a rendszer foglalt P (a rendszer foglalt) = 1 − P (a rendszer üres) = = 1 − P (N = 0) = = 1 − (1 − ρ) = ρ. Mivel (6.10) geometriai eloszlás, így a rendszerben tartózkodók számának a várható értéke és szórásnégyzete L = E (N ) = illetve D2 (N ) =
ρ , 1−ρ
(6.11)
ρ , (1 − ρ)2
ahol az irodalomban szokásos jelöléseket használtuk: N : a rendszerben tartózkodó igények száma, L: az átlagos igényszám (a rendszerben). Az általunk felhasznált további szokásos jelölések: w: A várakozási idő (a rendszerben), mint valószínűségi változó, s: A várakozási idő a sorban, mint valószínűségi változó, q: A kiszolgálási idő, mint valószínűségi változó, W : Átlagos várakozási idő (a rendszerben), Wq : Átlagos várakozási idő a sorban, Ws : Átlagos kiszolgálási idő, Lq : az átlagos sorhossz. Elég általános feltételek mellett igazak a Little- formula néven ismert, ránézésre nyilvánvalónak tűnő összefüggések: L = λW és Lq = λWq . Ezeket a Little- formulákat és az M/M/1 rendszerre kapott (6.11) formulát felhasználva kapjuk az M/M/1 rendszert jellemző összefüggéseket: 170
Az átlagos várakozási idő (a rendszerben): W = E (w) =
L E (s) = . λ 1−ρ
Az átlagos várakozási idő a sorban: Wq = E (q) = W − E (s) = E (s)
ρ . 1−ρ
Az átlagos sorhossz: Lq = E (Nq ) = λWq =
ρ2 . 1−ρ
Az M/M/1 rendszer esetében abban a szerencsés helyzetben vagyunk, hogy meg lehet határozni a sorban eltöltött idő (q) eloszlását is: t P (q ≤ t) = 1 − ρe W . −
A teljes várakozási idő (w) eloszlása t P (w ≤ t) = 1 − e W . −
6.4.1. A várakozási idők paradoxona A buszmegállóban várakozva sokszor úgy érezzük, hogy a közlekedési vállalat becsap minket a kifüggesztett menetrenddel. Ha a kiírás szerint a buszok átlagos követési ideje pl. 10 perc, akkor arra számítunk, hogy nekünk a buszmegállóban átlag 5 percet kellene várnunk. Ezzel szemben a tapasztalatban az átlagos várakozási időnk közel van a 10 perchez. Becsaptak a kiírással? Nem feltétlenül! Ha a buszok svéd vasúti pontossággal közlekednének, akkor valóban 5 percnek kellene lennie az átlagos várakozási időnek. Azonban a városi forgalomban ha az egyik megállóban sokan vannak, akkor a busz késik, míg a mögötte jövőnek kevesebb utasa lesz, ezért az felgyorsul. Dugók, balesetek előfordulnak, így ténylegesen hol sűrűn jönnek a buszok, hol nagyon ritkán, de átlag 171
10 percenként. Ha mi véletlenszerűen érkezünk a megállóba, akkor sokkal nagyobb esélyünk van olyan időintervallumban érkezni, amikor nagy lesz a követési idő, mint a rövid követési idő intervallumában. Takács Lajos Introduction to the Theory of Queues c. könyvében megmutatta, hogy ha Wt a várakozási időnk a következő busz érkezéséig, és τ a két busz érkezése között eltelt idő, akkor D2 (τ ) 1 E (τ ) + . E (Wt ) = 2 E (τ ) Ez valóban alátámasztja az intuíciónkat. Ha svéd pontossággal tartanák a menetrendet, akkor D2 (τ ) = 0 lenne, és így 5 perc lenne az átlagos várakozási időnk is. Azonban, ha exponenciális eloszlású a követési idő, akkor 1 1 E (τ ) = , D (τ ) = , λ λ tehát az átlagos várakozási időnk 2 1 1 1 λ 1 = , E (Wt ) = + 1 2 λ λ λ azaz éppen 10 perc.
6.5. Az M/M/1/K rendszer Az M/M/1/K sorbanállási-kiszolgálási rendszer egy véges befogadóképességű rendszer, egyszerre K igény lehet a rendszerben, a sorbanállók és a kiszolgálás alatt lévők összesen. Telekomunnikációs rendszerekben, illetve bizonyos számítógép rendszerekben csak egy adott K korlátú tárolókapacitással rendelkeznek, az ezen felül érkező igényeket elutasítják. Csak azok az igények léphetnek be a rendszerbe, amelyek érkezésekor a rendszerben lévő igények száma kisebb, mint K. Az M/M/1/K rendszer állapotátmeneti diagramja az (6.2) ábrán látható. A születési-halálozási folyamat modellbe a következőképpen illeszthetjük be az M/M/1/K rendszert. Legyen ( λ, ha n = 0, 1, 2, . . . , K − 1, λn = 0, ha n ≥ K, 172
6.2. ábra. Az M/M/1/K rendszer állapotátmeneti diagramja
illetve
( µ, µn = 0,
ha n = 1, 2, . . . , K, ha n > K.
Ezzel a választással pn = p0
K−1 Y i=0
λ µ
K λ = p0 , µ
ha n ≤ K,
és pn = 0,
ha n > K.
A p0 , p1 , p2 , · · · , pK , · · · számok most is valószínűség-eloszlást alkotnak, így p0 + p1 + p2 + · · · + pK = 1, ezért
2 K λ λ λ p0 + p0 + p0 + · · · + p0 = 1. µ µ µ 173
Innen p0 =
1 2 K . λ λ λ 1+ + + ··· + µ µ µ
(6.12)
A véges geometriai sor összegét kiszámítva K ! −1 λ λ λ 1− 1− µ µ µ = p0 = . K+1 1 + λ λ 1− 1− µ µ Ezt felhasználva
λ i 1− λ µ , K+1 µ λ pi = 1− µ 0,
ha 0 ≤ i ≤ K,
egyébként.
Most - az M/M/1 rendszerrel ellentétben - a rendszer mindig eléri az egyensúlyi állapotot, függetlenül a λ és µ viszonyától, hiszen λ > µ esetén is feltöltődik a sor (hiszen a K kapacitás véges), és utána tovább nem tud nőni a sorbanállók száma. A λ = µ speciális esetben a (6.12) formulából p0 = és
1 , pi = 1 + K 0,
1 , 1+K ha 0 ≤ i ≤ K, egyébként.
174
7. fejezet Készletgazdálkodási modellek, véletlen ütemezés 7.1. Bevezetés Hol fogyasztás van, van raktározás is. A modern társadalomban jelentős mértékben a költségek határozzák meg a készletgazdálkodás módját. Tekintsük át először, milyen költségek merülnek fel a raktározással kapcsolatban. a) Beszerzési, előállítási költségek: Ezek egy része konstans költség (gyártósor beindítása), más része arányos a megrendelt mennyiséggel (szállítási költségek), de függhetnek a rendelés mennyiségétől egy diszkont áron keresztül és függhetnek a szállítási határidőtől is b) Raktározási költségek: Kamatköltség, raktárbérleti díj vagy a raktár amortizációs költsége, kezelési költség, biztosítás, veszteség, stb. c) Hiányköltségek: Minden olyan veszteség, ami az anyaghiány miatti termelés kimaradásából származik, elmaradt haszon illetve kötbér. Egy anyag, alkatrész iránti igény lehet folyamatos vagy diszkrét, és lehet determinisztikus vagy sztochasztikus (pl. tartalékalkatrészek iránti igény). Az utánrendelésnél figyelembe kell vennünk, hogy a rendelés feladásától a kért tétel beérkezéséig idő telik el, ezt hívjuk szállítási időnek. A készlet alakulását az idő függvényében vizsgáljuk, ezt meghatározza az utánrendelési politika, a szállítás milyensége, valamint a felhasználás jellege. Egy készletgazdálkodási modell feladata a rendelési politika kialkítása bizonyos haszonfüggvény(ek) optimalizálása céljából. Ezek a modellek különböznek attól függően, hogy 175
az igényeket (azok mennyiségét és időpontját) ill. a beszállításokat (azok mennyiségét és időpontját) determinisztikusnak vagy véletlenszerűnek tekintjük, milyen költségeket veszünk figyelembe, illetve mely haszonfüggvényeket szeretnénk optimalizálni. A továbbiakban három különböző készletgazdálkodási modellt vizsgálunk, hogy bepillantást adjunk a lehetőségek széles tárházába.
7.2. Determinisztikus készletgazdálkodási modellek 7.2.1. Az optimális tételnagyság modellje Az első klasszikus és sok helyütt még ma is alkalmazott modell. A következő feltételezéseket tesszük: 1. Az igény állandó és folytonos. 2. A rendelési és a tárolási költségek időben állandóak. 3. A tételnagyság nem feltétlenül egész szám. 4. Az egész megrendelt tételt egyszerre szállítják le. 5. Nem engedünk meg hiányt. A következő jelöléseket vezetjük be: h = egységenkénti és időegységenkénti tárolási költség, A = a beszerzési költség, d= az időegység alatti igény Q= a rendelt tételngyság C= az időegységre jutó költségek. Mivel nem engedjük meg a készlethiányt és nincs szükségünk biztonsági tartalékra sem, így minden tételt pontosan akkor kell leszállítani, amikor az előző tételt éppen felhasználták. A raktárkészlet időtől való függése ezért az 7.1 ábra szerint fog alakulni.
176
7.1. ábra. Készletszint determinisztikus esetben
A tárolási és a rendelési költségek tehát a tételnagysággal változnak. Mivel Q d az átlagos készletszint , az időegységre jutó átlagos rendelés , így a teljes 2 Q költség Q d C = h + A. 2 Q Ennek a költségfüggvénynek minimuma ott lehet, ahol h d − 2 A = 0, 2 Q ahonnan
r Q=
2Ad h
az optimális tételnagyság.
177
dC = 0, azaz dQ
7.3. Sztochasztikus készletgazdálkodási modellek A determinisztikus modell több szempontból idealizált modell, mivel a kereslet mennyisége, a szállítási időpontok, a szállított mennyiségek, valamint a költségek is véletlen tényezőktől függnek. Ezért a valóságot jobban leíró modellt kapunk, ha bizonyos tényezőknél figyelembe vesszük a véletlent is, azaz sztochasztikus modellel dolgozunk. Még egy abszolút determinisztikusnak tűnő rendszer tervezése esetén is szükség lehet sztochasztikus modell vizsgálatára. Egy nagyforgalmú repülőtér leszálló pályájára 50 másodpercenként szállnak le a nagy utasszállító repülőgépek. Látszatra ez egy abszolút determinisztikus rendszer. Azonban a menetrendet úgy tervezik meg, hogy a rengeteg, előre ki nem számítható, de a tapasztalat szerint bizonyos statisztikai törvényszerűségek szerint előforduló zavaró tényezőket (ellenszél, sztrájk, műszaki hiba, stb.) úgy kalkulálják be, hogy az érkezési időpontokat egy Poisson-folyamattal írják le. A menetrendet úgy kell megszerkeszteni, hogy a repülőtér vonzáskörzetében ne legyen több gép, mint amennyit a légiirányítók még biztonsággal kezelni tudnak. A különböző véletlen tényezők eloszlásának a meghatározása a matematikai statisztika módszereivel történik.
7.3.1. Megbízhatósági típusú sztochasztikus készletmodell Most nem veszünk figyelembe költségtényezőket, csak az érdekel, hogy egy olyan indulókészletet tudjunk meghatározni, amelynek birtokában e rendelés beérkezésekor a raktárkészlet még előírt 1 − ε biztonsággal fedezi a felhasználás igényét. Legyen d = az időegység alatti igény, 1 − ε = a megbízhatósági szint, M0 = az indulókészlet, T = az időszak hossza,amire a T d szükségletet megrendelik, X = a (véletlentől függő) szállítási időpont. Feltételezzük, hogy a megrendelt mennyiséget a [0, T ] időszakon belül, valamilyan F (t) eloszlásfüggvényű eloszlás szerint egyszerre szállítják le. Az 178
előbbi feltétel úgy is fogalmazható, hogy F (T ) = 1. Ebben az esetben az F eloszlásfüggvény meghatározása után a feladatunk nem más, mint az M0 F =1−ε d egyenlet megoldása. 7.1. Példa. Egy folyamatos üzem részére 30 napra kell 99%-os biztonsággal fedezni a raktárkészletet. A napi igény az illető anyagból 100 egység. Az eddigi tapasztalatok szerint a szállítás időpontja egyenletes eloszlású a [0, 30] intervallumban. Határozzuk meg az M0 indulókészletet! Megoldás. Miután az M0 M0 = d 100 érték a feltételek szerint a [0, 30] intervallumba esik, így az eloszlásfüggvény X≤
F (t) =
t , 30
így F azaz
M0 d
M0 = d = 1 − ε, 30
M0 = 0, 99 , 3000
tehát M0 = 0.99 · 3000 = 2970 egységet kell megrendelnünk az adott biztonság eléréséhez.
7.3.2. Véletlen ütemezésű rész-szállítmányok esete Ilyen modelleket először Prékopa András és Ziermann Margit dolgozott ki. Azt feltételezzük, hogy a megrendelt mennyiség véletlen időpontokban és véletlen mennyiségekben érkezik be az adott [0, T ] intervallumban, de a T 179
időpontig az egész megrendelt mennyiség beérkezik. A modell sokkal általánosabb és sokkal szélesebb területen alkalmazható, mint első látásra gondolnánk, hiszen a víztározók kapacitásának a problémája is ugyanilyen feladat. Most tegyük fel, hogy a rész-szálítmányok egyenlő nagyságúak. Legyenek a beérkezési időpontok t1 , t2 , . . . tn . Tegyük fel, hogy ezek teljesen véletlenszerűen helyezkednek el a [0, T ] intervallumban, azaz egyenletes eloszlást követnek a [0, T ] intervallumban, és ezekben az időpontokban a megrendelt mennyyiség n-edrésze érkezik be. Feladatunk annak az M0 indulókészletnek a meghatározása, amely adott 1 − ε megbízhatósági szinten biztosítja a folyamatos működést, azaz a raktárkészlet nem-negativitását. Használjuk ismét a következő jelöléseket: d = az időegység alatti igény, M0 (n, ε) = az indulókészlet (most ez függvénye a rész-szállítások számának is). A [0, T ] időszak igénye T d, ezt kell megfelelő idővel korábban megrendelnünk. Keressük azt az M0 (n, ε) az indulókészletet, amely 1 − ε biztonsággal biztosítja a termelés anyag-igényét. Az anyagfelhasználást a [0, t] intervallumban a zt = t · d lineáris függvény írja le, míg a t időpontig a raktárba összesen beérkezett anyagmennyiséget (az Td leszállított mennyiindulókészlet és a t1 , t2 , . . . tn időpontokban beérkező n ségek összege) az M, ha t < t1 , 0 Td yt = M0 + k , ha tk < t < tk+1 , n M0 + T d, ha t > tn lépcsős függvény írja le. Ha az yt ≥ zt egyenlőtlenség minden t ∈ [0, T ] esetén teljesül, akkor tökéletes az anyagellátás. A mi feladatunk a P sup (yt ≥ zt ) = 1 − ε 0≤t≤T
180
feltétel teljesítése. A Szmirnov-tétel felhasználásával igazolható a következő tétel: 7.2. TÉTEL. Ha n > 20, akkor a [0, T ] intervallumban az időegységre jutó d felhasználást 1 − ε megbízhatósági szinten garantáló indulókészlet r 1 1 ln . M0 (n, ε) = dT 2n ε
181
8. fejezet A szimuláció alapjai 8.1. Monte Carlo módszerek 8.1. Definíció. Monte Carlo módszereknek nevezzük matematikai feladatok megoldásának véletlen mennyiségek modellezését felhasználó numerikus módszereit. A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka, szerencsejátékok), amelyek segítenek a tapasztalatszerzésben a valószínűségről és annak törvényszerűségeiről. Ne felejtsük el, hogy a valószínűség-számítás fogalmai, tételei feltételezik, hogy az elemzés tömegjelenségre vonatkozik. A véletlen számok legfontosabb alkalmazása a szimuláció, amely lehetővé teszi a tapasztalatszerzést a véletlenről, drága kísérletek modellezését, más módszerrel nehezen kiszámítható értékek meghatározását stb. Kezdetben ehhez vagy egyszerű kísérleteket (kockadobás) végeztek vagy előregyártott táblázatokat alkalmaztak. De az összetettebb jelenségek lefutásának vizsgálatához 200 . . . 500 kockadobás is szükséges. További problémákat vet fel az egyenletesség és a különböző típusú "kockák" elkészítése. Ma már legtöbbször számítógépes algoritmusokat használunk. A szimuláció alapvető problémái: egy determinisztikus számítógépen közelítjük a véletlent. Diszkréttel közelítünk folytonosat vagy fordítva. Végtelen feladat korlátos modell, véges szimuláció.
182
8.2. Pszeudovéletlen számok Azokat az x1 , x2 , . . . , xn számokat, amelyeket egy adott algoritmus alapján számítottunk ki, és a véletlen számok helyett használhatók, pszeudovéletlen számoknak nevezzük. A generálásuknak és ellenőrzésüknek (egyenletesség, véletlenszerűség) külön elmélete alakult ki. Ezzel itt nem foglalkozunk. A legtöbb magasszintű számítógépi programozási nyelv elég jó generátort tartalmaz beépített eljárásként. Azért ajánlatos az ellenőrzés. Itt most két egyszerű pszeudovéletlenszám generátort adunk meg. 8.2. Példa. x1 = 1,
xn+1 ≡ 125xn
(mod 8192).
(8.1)
8.3. Példa. x1 = 1,
xn+1 ≡ 16807xn
(mod 2147483647).
(8.2)
Napjainkban majdnem minden számítógép (programozási nyelv, programcsomag) az előző példákhoz hasonló beépített kongruenciális generátort használ. Az x1 , x2 , . . . , xk számok generálására ilyen a lineáris kongruencia vagy hatványmaradék módszer, ekkor a következő rekurzív kapcsolat adott: xi+1 = αxi + c
(mod m),
(8.3)
ahol α konstans szorzó, c a növekmény és m a modulus. Az x0 kezdő érték az ún. "seed". Ha megoldjuk a 8.3 egyenletet, akkor azt kapjuk, hogy αn − 1 n (mod m). (8.4) xn = α x0 + c α−1 Nyilván a paraméterek határozzák meg a generátor "jóságát". A szokásos követelmények egy véletlenszámgenerátorral szemben: 1. Jó statisztikai tulajdonságok. Tehát legyenek függetlenek (korrelálatlanok) és aznos eloszlásúak. 2. Az ismétlődési periódus legyen hosszú, hogy sok és változatos problémánál legyen alkalmazható. 3. Ismételhető legyen. Tehát ugyanazokra a paraméterekre ugyanazt a sorozatot adja. 183
4. A szimulációk többsége sok véletlen számot igényel, ezért legyen gyors és könnyen számolható. 5. Legyen könnyű a szeparált sorozatok készítése. A paraméterek választására javasoljuk a [9] irodalmat. 8.4. Megjegyzés. Diszkrét egyenletes (klasszikus valószínűségi mező) eloszlást közelítenek a megadott rekurzív algoritmusok. Az 8.1 példa még számítógép nélkül is jól használható. A számítógépi algoritmusok legtöbbször (valójában mindig diszkrétet, hiszen véges a számábrázolásuk) a [0, 1] intervallumon egyenletes eloszlást próbálják közelíteni, mert ebből különböző módszerek segítségével – a tanult eloszlások tulajdonságainak felhasználásával – más eloszlású véletlen számokat tudunk előállítani.
8.2.1. Inverzfüggvény módszer Ha F szigorúan monoton növő eloszlásfüggvény és X F eloszlású, akkor Y = F (X) egyenletes eloszlású a [0, 1] intervallumon. Fordítva, ha X ∼ U (0, 1), akkor Y = F −1 (X) éppen F eloszlású. 8.5. Következmény. 1. Ha X ∼ U (0, 1), akkor Y = (b−a)X +a ∼ U (a, b). 1 2. Ha X ∼ U (0, 1), akkor Y = − ln(X) ∼ Exp(λ). λ 3. Ha X ∼ U (0, 1), akkor Y = tg(π(X − 0.5)) standard Cauchy eloszlású. 4. Ha X ∼ U (0, 1), akkor Y = Φ−1 (X) standard normális eloszlású.
8.2.2. Az elfogadás-elvetés módszere Legyen az X valószínűségi változó sűrűségfüggvénye f, amelyhez létezik egy olyan g sűrűségfüggvény, hogy f (x) ≤ cg(x) (minden x-re és c egy véges konstans) és a g könnyen generálható eloszlású. Legyen az Y valószínűségi változó g sűrűségfüggvényű és U ∼ U (0, 1), amely független Y -tól, ekkor (Y | ha cU g(Y ) < f (Y )) ∼ X,
(8.5)
azaz a feltételes valószínűségi változó éppen megfelel az X eloszlásának. 184
Bizonyítás. Valójában Z c=
Z cg(y)dy ≥
f (y)dy > 0
és f (y) = 0,
ha
g(y) = 0.
Tehát f (x) g(x)dxP U < cg(x) = P (Y ∈ [x, x + dx]|cU g(Y ) < f (Y )) = f (Y ) P U< cg(Y ) f (x) g(x) dx cg(x) = = R f (y) g(y)dy cg(y) =f (x)dx = P (X ∈ [x, x + dx]). (8.6) 8.6. Megjegyzés. Ez a módszer akkor praktikus, ha Y könnyen generálható és c nem nagyon nagy (tehát az elutasítás nem gyakori). Ha lehetséges, akkor az optimális választás a c konstansra c = sup x
f (x) . g(x)
Y ∼ Γ(λ, a). Továbbá, ha X ∼ λ Γ(λ, a) és Z ∼ Γ(λ, b), akkor X + Z ∼ Γ(λ, a + b). Tehát elegendő csak olyan Y ∼ Γ(1, a) eloszlású véletlen számokat generálni, ahol a ∈ (0, 1], ekkor a sűrűségfüggvény a+e fY ≤ g, aeΓ(a) ahol eg1 (x) + ag2 (x) g(x) = , a+e amikor is g1 (x) = axa−1 , ha 0 < x < 1, 8.7. Példa. Ha Y ∼ Γ(1, a), akkor X =
185
míg g2 (x) = e−x+1 , ha 1 < x < +∞. Ekkor g1 és g2 is sűrűségfüggvény és mind a kettő szimulálható az inverzfüggvény módszerrel. g pedig a kettő keveréke, ahol a súlyok a e és . a+e a+e Generálunk egy egyenletest a (0, 1) intervallumon ez eldönti, hogy melyik függvénnyel folytatjuk felhasználva az inverzfüggvény módszert és utána az elfogadás-elvetés módszerével kapjuk az Y értékét. Tehát három U (0, 1) típusú véletlen számot használunk fel.
8.2.3. Normális eloszlás generálása A normális eloszlás eloszlásfüggvénye nehezen kezelhető, ezért számos generátort találtak ki a tulajdonságai alapján. Néhány példa. 8.8. Példa. Ha Xi ∼ U (0, 1)(i = 1, . . . , 12), akkor Y =
12 X
Xi − 6
i=1
közelítőleg standard normális eloszlású. Ez a centrális határeloszlás-tétel egy véges alkalmazása. Nem hatékony, mert sok véletlen számot használ. A 8.1 ábrán látható, ha csak három összegét tekintjük. 8.9. Példa. A legtöbb statisztikai programcsomag a következő ún. BoxMüller módszert használja. Legyen Ui ∼ U (0, 1)(i = 1, 2), ekkor X1 =
p −2 ln U1 cos(2πU2 ),
X2 =
közelítőleg statndard normális eloszlásúak.
186
p −2 ln U1 sin(2πU2 )
8.1. ábra.
8.3. A Brown-mozgás 8.10. Definíció. A Brown-mozgás olyan {W (t), t ∈ [0, ∞)}
(8.7)
véletlen folyamat, ahol 1. W (0) = 0. 2. W (t) folytonos. 3. A W folyamat független növekményű. 4. W (t + s) − W (s) ∼ N (0, σ 2 t). W (t) megfigyelt a [0, T ] intervallumon és σ 2 = 1. Tudjuk, hogy a kovariancia függvény R(s, t) = min(s, t). (8.8) A sajátfüggvényekre Z
T
R(s, t)ϕ(t)dt = λϕ(t), 0
187
(8.9)
8.2. ábra.
azaz −ϕ(s) = λϕ00 (s),
ϕ(0) = 0,
ϕ0 (0) = 0.
(8.10)
Tehát megadható a Karhunen-Loeve sorfejtés [3], [16]: ∞ 2 X sin(jt) t √ √ W (t) = ξ0 + ξj , j π π j=1
(8.11)
ahol t ∈ [0, π], j ∈ N, ξj ∼ N (0, 1), azaz standard Gauss-eloszlású. Ez alapján készült szimulációkat láthatunk a 8.4, 8.5, 8.6 ábrán.
8.4. A közelítő integrálás hibája Az egyszerű Monte-Carlo módszer esetén a hibabecslés jellemzésére általában a szórást használjuk. 188
8.3. ábra.
Legyen h egy tetszőleges valós függvény, amely esetén az Z ∞ h2 (x)dF (x)
(8.12)
−∞
létezik. Ez szükséges és elégséges feltétele, hogy az Y = h(X) valószínűségi változó, ahol X F eloszlásfüggvényű, szórásnégyzete létezzen. Továbbá legyen E(h(X)) = µ, és D2 (h(X)) = σ 2 , (8.13) akkor az X1 , X2 , . . . , Xn minta esetén (Xi F eloszlású) a hibabecslés szórásnégyzete 1 2 σ2 D (h(X ) + h(X ) + · · · + h(X )) = . (8.14) 1 2 n n2 n Ebből leolvashatjuk a Monte-Carlo módszer egy igen lényeges tulajdonságát: ha a mintaelemek számát növeljük a hiba illetve a jellemzését adó szórás D2 (ε) =
189
8.4. ábra. Brown-mozgás a [0, 2π] intervallumon
8.5. ábra. Brown-mozgás a [0, 2π] intervallumon
190
8.6. ábra. Brown-mozgás a [0, 2π] intervallumon
√ csak n arányában csökken. Látszólag ez azt jelenti, hogy azok a jó becslések, amelyeknek kicsi a szórása. De azzal, hogy a robusztus tulajdonságok nem változnak meg egy konstans tényező hatására az következik, hogy más szempontból kell összehasonlítani az integrálási tulajdonságokat, illetve érzékenységeket. Ezeket a további vizsgálatokat célszerű úgy elvégezni, hogy a szórások legyenek egyenlőek a becsléseknél. Legyen ez a közös érték 1, s az ilyen egyenletet nevezzük kanonikus egyenletnek. 8.11. Példa. Hány darab véletlen számot kell generálni ahhoz, hogy az π Z2 sin xdx
I=
(8.15)
0
integrált megbecsüljük úgy, hogy a becslés abszolút hibája legfeljebb I 0.1% legyen legalább 0.99 valószínűséggel?
191
Bizonyítás. Tudjuk, hogy
2 2 I= π π
π Z2
π Z2 sin xdx =
0
2 sin x dx = E(sin X), π
(8.16)
0
π . Tehát I egy közelítő értéke ahol X ∼ U 0, 2 n
In =
π X sin Xn , 2n i=1
(8.17)
π ahol Xn pszeudovéletlenszám a 0, intervallumból. Felhasználva, hogy 2
In − I ∼ N (0, 1), D(In ) ahol D2 (In ) =
π2 2 π2 − 8 D (sin X) = 4n 8n
kapjuk, hogy n ≈ 1550579.
(8.18)
(8.19)
192
9. fejezet Alkalmazások 9.1. Geometriai Brown-mozgás ˜ Legyen {X(t) : t ≥ 0} Brown-mozgás. A sodródó Brown-mozgás olyan sztochasztikus folyamat, melynek eloszlása megegyezik ˜ + µt, X(t) = X(t)
t≥0
(9.1)
eloszlásával, ahol µ állandó (sodrási paraméter). A folyamatot definiálhatnánk a következő módon is. 9.1. Definíció. A {X(t) : t ≥ 0} sodródó Brown-mozgás, ha (1) X(t + s) − X(s) ∼ N (µt, σ 2 t), 0 < s, t. µ és σ rögzített konstans. (2) t1 < t2 < t3 < · · · < tn−1 < tn , akkor a X(t2 ) − X(t1 ), X(t2 ) − X(t1 ), . . . , X(tn ) − X(tn−1 ) valószínűségi változók függetlenek. (3) X(0) = 0, és X(t) folytonos a 0 pontban. 9.2. Megjegyzés. P (X(t) < x|X(t0 ) = x0 ) = P (X(t) − X(t0 ) < x − x0 ) = x−x Z 0
= ∞
(y − µ(t − t0 ))2 p exp − dy = 2(t − t0 )σ 2 2π(t − t0 )σ 1
193
(9.2)
t − t0 Z σ
x−x0 −µ
p(t − t0 , y)dy,
(9.3)
2 1 x p(t, x) = √ . exp − 2t 2πt
(9.4)
= −∞
ahol
9.3. Megjegyzés. Ha µ 6= 0, akkor a folyamat nem szimmetrikus, és a tükrözési elv nem használható a folyamat maximuma eloszlásának kiszámolására. Legyen {X(t) : t ≥ 0} olyan Brown-mozgás, amelynek sodrási paramétere µ, és diffúziós együtthatója pedig σ 2 . Az Y (t) = eX(t) ,
t≥0
(9.5)
egyenlőséggel definiált folyamatot geometriai Brown mozgásnak nevezzük. Mivel Y (t) = Y (0)eX(t)−X(0) , ezért a normális eloszlás karakterisztikus függvénye alapján E(Y (t)|Y (0) = y) = yE eX(t)−X(0) = 1 2 = y exp t(µ + σ ) , 2
(9.6)
E(Y (t)2 |Y (0) = y) = y 2 E e2(X(t)−X(0)) = 1 2 = y exp t(2µ + 4σ ) , 2 1 2 2 2 D (Y (t)|Y (0) = y) = y exp 2t(µ + σ ) [exp(tσ 2 ) − 1]. 2 2
(9.7) (9.8)
9.4. Példa. Egy tökéletes piacon árusított részvény árváltozásainak modellezése: – nem-negatív árak; – oszcilláló viselkedés (hosszú távon exponenciális csökkenésekkel tarkított exponenciális növekedés); 194
– ha t0 < t1 < t2 < · · · < tn , akkor Y (t1 ) Y (t2 ) Y (tn ) , ,..., Y (t0 ) Y (t1 ) Y (tn−1 )
(9.9)
független valószínűségi változók. Alkalmas modell: Ha a jövőbeli ár és a pillanatnyi ár arányáról előre meg lehetne mondani, hogy milyen akkor a résztvevők vétellel illetve eladással korrigálnának. Egyensúlyi helyzetet akkor kapunk, ha az arányról nem lehet előre megjósolni, hogy vajon kedvező lesz-e vagy kedvezőtlen (függetlenség). Érdemes-e örökös biztosítékot adni a tőzsdén? Biztosíték: elővételi jog, hogy valaki előre rögzített számú részvényt vásárolhasson valamilyen előre megállapított áron, egy előírt időperiódus bármely időpontjában. Az elővételi joggal rendelkező profitja az, amennyivel a tőzsdei ár meghaladja az opciós árat. Feltevés: az opciót fenntartó a megállapított áron vásárolhat és újra eladhat a tőzsdén (profit realizálás). Örök idejű biztosítékot tekintünk – az opciónak nincs lejárati ideje. "Ésszerű" stratégia: az első olyan időpont alkalmával gyakoroljuk az elővételi jogot, amikor a részvény ára valamilyen meghatározott a szintet ér el. Legyen egységnyi a biztosítékban meghatározott ár, ekkor a potenciális profit a − 1 (a > 1). Egy ilyen opció birtokosa, legalábbis részben, lemond a részvény közvetlen 1 birtoklásáról, amelynek értéke (várhatóan) időegységenként α = µ + σ 2 2 arányban növekszik, mivel 1 2 (9.10) E(Y (t)|Y (0) = y) = y exp t(µ + σ ) . 2 Az opciótól ϑ > α hozamot követelünk meg (leszámítolás, jelenérték). Legyen T (a) az első időpont, amelyre Y (T (a)) = a. Ekkor a leszámítolt potenciális profit e−ϑT (a) [Y (T (a)) − 1] = e−ϑT (a) (a − 1).
(9.11)
A várható leszámítolt profit nagyságát akarjuk kiszámítani, és azután maximalizálni a várható profitot. A T (a) az első olyan időpont, amikor X(t) − ln Y (t) eléri az ln(a) szintet. 195
9.5. TÉTEL. Legyen X(t) Brown-mozgás, µ ≥ 0. Legyenek z > X(0) = x adott értékek, és legyen Tz az első olyan érték, amelyre X(Tz ) = z. A X(0) = x feltétel mellett Tz sűrűségfüggvénye z−x (z − x − µt)2 f (t; x, z) = √ exp − , t > 0. (9.12) 2σ 2 t σ 2πt3 9.6. Megjegyzés. µ ≥ 0 esetén T biztosan kisebb, mint végtelen, és a Laplace transzformáltja: i h z p −ϑT 2 2 (9.13) E(e ) = exp − 2 ( µ + 2σ ϑ − µ) . σ Legyen z = ln a és x = ln y, akkor a Laplace transzformált alapján y % , E(e−ϑT |Y (0) = y) = a ahol
(9.14)
r
µ2 2ϑ µ + 2 − 2. 4 σ σ σ A leszámítolt profit várható értéke %=
g(y, a) = (a − 1)E(e−ϑT |Y (0) = y) = (a − 1)
(9.15)
y % a
.
(9.16)
Profit maximalizálás: y %+1 1 y % dg = −%(a − 1) + = 0. da a y a
(9.17)
Az egyenletet megoldva kapjuk, hogy a? =
% . %−1
(9.18)
1 Ha ϑ > µ + σ 2 , akkor 0 < a? < ∞. Adott y pllanatnyi részvényár esetén a 2 biztosíték értéke % 1 y(% − 1) ? g(y, a ) = . (9.19) %−1 %
196
9.2. Cox-regresszió A mérnöki, a közgazdasági és az orvosi gyakorlatban is nagyon sokszor fordul elő, hogy egy gép (egység, ember) élettartamát vizsgáljuk. Az élettartam értelemszerűen egy X ≥ 0 nemnegatív valószínűségi változó. Legyen az X valószínűségi változó eloszlásfüggvénye F (x) és sűrűségfüggvénye f (x). Élettartam-vizsgálatoknál használatos az S (x) túlélési függvény S (x) = P (X > x) és abszolút folytonos eloszlást feltételezve S (x) = 1 − F (x) . A továbbiakban a meghibásodik, meghal ill. tönkremegy igéket szinonímáknak tekintjük. Hasonlóképpen nem teszünk különbséget a túléli, jó marad stb. kifejezések között. 9.7. Definíció. Az X valószínűségi változó túlélési függvénye annak valószínűsége, hogy az egyed az x időpontnál később hibásodik meg S (x) = P (X > x) = 1 − F (x) . Egy kísérletnél sokszor nem az érdekel, hogy az eredeti populációval mi történik, hanem csak azok érdekelnek, amelyek (akik) nem mentek tönkre (életben vannak). Ilyenkor igen hasznos segédeszköz a meghibásodási (kockázati) ráta. Vizsgáljuk annak a feltételes valószínűségét, hogy egy egyed az (x, x + ∆x) intervallumban hal meg, feltéve, hogy az intervallum elején, az x időpontban még életben volt P (x ≤ X < x + ∆x, X > x) = P (X > x) f (x) ∆x P (x ≤ X < x + ∆x) ≈ . = P (X > x) S (x)
P (x ≤ X < x + ∆x |X > x ) =
9.8. Definíció. A kockázati (meghibásodási) ráta annak az időegységre vett valószínűsége, hogy egy olyan egyed, amelyik az intervallum elején még életben volt meghibásodik ebben az intervallumban λ (x) =
f (x) . S (x)
197
Innen kapjuk, hogy λ (x) =
f (x) , 1 − F (x)
kihasználva, hogy F 0 (x) = f (x), majd az analízisbeli láncszabályt λ (x) = −
S 0 (x) d [ln S (x)] =− . S (x) dx
A kockázati (ráta) függvények különböző alakúak lehetnek még akkor is, ha a megfelelő sűrűségfüggvények igen hasonló alakúak, és így jelentős mértékben segítenek jellemezni a különböző típusú kockázatokat. A műszaki gyakorlatban a meghibásodásokat alapvetően három fajta meghibásodási rátával jellemzik. - Növekedő kockázati függvény jellemzi azokat az egyedeket, melyek az idő múlásával egyre jobban elöregednek. - A leggyakrabban használt kockázati függvény az U-típusú kockázati függvény, azaz amikor egy kezdeti periódus után, amikor csak a "veleszületett" hibák miatt halnak meg egyedek, egy olyan periódus jön, amikor csak véletlen hibák okoznak meghibásodást, és végül az egyedek elöregednek. -Még csökkenő kockázati függvények is elfordulnak a gyakorlatban Élettartam (túlélési) vizsgálatoknál tipikus jelenség, hogy bizonyos egyedekről tudjuk, hogy egy adott kort elértek, de nem tudjuk pontosan meddig éltek. Műszaki kísérleteknél általában valamikor abbahagyjuk az élettartam vizsgálatot. Tipikusan kétféle módon szokták terminálni a kísérletet: vagy egy adott időpontig folytatjuk a vizsgálatot, vagy pedig addig folyik a kísérlet, amíg a kísérletben résztvevő alkatrészek adott százaléka tönkre megy. Mindkét esetben a tönkre nem ment alkatrészek élettartamáról csak azt tudjuk, hogy nagyobb vagy egyenlő a kísérlet befejezésének az időpontjánál, de a pontos érték ismeretlen. Orvosi kísérleteknél, kezeléseknél is tipikus jelenség, hogy a kezelt betegek búcsú nélkül elköltöznek, meggyógyulnak (és akkor már minek menjek az orvoshoz!), vagy külön értesítés nélkül meghalnak. Műszaki vizsgálatoknál az is előfordulhat, hogy a kísérlet megkezdése után nagyon hamar romlanak el egységek, és ezekről csak azt tudjuk, hogy az adott minimális megfigyelési idő előtt elromlottak, de a pontos élettartamuk nem ismert. Ezekben az esetekben cenzorált megfigyelésekről beszélünk. Az első
198
két esetben felülről (jobbról) cenzoráltak, az utóbbi esetben aluról (balról) cenzoráltak az adatok. A szokásos szatisztikai módszerekkel azért kell vigyázni, mert a cenzorált értékek nyilvánvalóan nem azonos eloszlásúak a teljes sokasággal. Elhagyni sem szabad ezeket a cenzorált adatokat, mert jelentős információt hordoznak. Az életbiztosítással kapcsoltos számításokhoz készült a Kaplan-Meier becslés, amely cenzorált adatok tapasztalati eloszlásfüggvényének, pontosabban a túlélési függvényének a becslésére készült. 9.9. Definíció. Az X élettartamra megfigyelt adatok legyenek (ti , δi ), ahol ti (i = 1, 2, . . . n) az időpontok, míg δi = 1, ha a ti időpont ténylegesen megfigyelt érték, δi = 0, ha a ti időpont cenzorált érték. Jelölje t∗i a ti (i = 1, 2, . . . n) minta rendezett elemeit, azaz t∗1 < t∗2 < · · · < t∗n , akkor az S (t) megbízhatósági függvény Sˆ (t) Kaplan-Meier becslése Y n − i δi , ha t ≤ t∗n , ∗ n − i + 1 Sˆ (t) = i:ti ≤t 0, ha δn = 1, és t > t∗n , definiálatlan, ha δn = 0 és t > t∗n . Ha az értékek között egyenlőek is vannak, akkor szokásos megállapodás, hogy a tényleges meghibásodások (δi = 1) megelőzik a cenzorált értékeket (δi = 0). 9.10. Megjegyzés. Az irodalomban és a számítógépes programokban nincs egyértelmű megállapodás, hogy a δ = 1 vagy a δi = 0 jelenti-e a cenzorálást. Felhasználás előtt mindig ellenőrizzék a program dokumentációjában! 1972-ben D. R. Cox bevezetett egy regressziós modellt annak a vizsgálatára, hogy erősen cenzorált adatok esetén miként lehet elemezni, hogy függ-e a túlélés bizonyos magyarázó változóktól, és ha igen, akkor miként függ. Mivel most a minket leginkább érdeklő változó az idő, ezért a továbbiakban T vel jelöljük a folytonos eloszlású valószínűségi változót, a túlélési időt. A T változót vizsgáljuk az x = (x1 , x2 , . . . , xp )0 magyarázó változók (független változók) függvényében. 199
9.11. Definíció. A kockázati ráta arányos kockázati ráta, ha a kockázati ráta a következő alakú 0
λ (t; x) = λ0 (t) eβ x = λ0 (t) eβ1 x1 +β2 x2 +···+βp xp ,
(9.20)
ahol λ0 (t) az úgynevezett alap kockázat, az a kockázati ráta érték, amelyik a magyarázó változók (0, 0, . . . , 0) értékéhez tartozik. λ0 (t) tehát egy olyan egyed kockázati rátáját adja meg, amelyiknek minden független változója 0. Nincs semmi különleges feltételezésünk a λ0 (t) alakjáról és β egy (p × 1) dimenziós paraméter-vektor. Az arányos kockázati ráta tehát azt jelenti, hogy ha két egyednek azonosak a magyarázó változói, akkor az egész idő alatt azonos a kockázati rátájuk is. A Cox-féle arányos kockázati ráta modellben a független változók függvényében vizsgáljuk a túlélési függvényt. Mérnöki feladatokban, például egy fárasztásos vizsgálatnál a független változók lehetnek az átmérő, a keménység, a gyártás módszere, míg orvosi vizsgálatok esetében ezek lehetnek a páciens kora, neme, az alkalmazott gyógyszer és a kezelés típusa, stb. A (9.20) feltevést átírhatjuk λ (t; x) = β1 x1 + β2 x2 + · · · + βp xp . (9.21) log λ0 (t) alakba is. Mivel az arányos kockázati rátán kívül nincs egyéb feltételezés a T valószínűségi változó eloszlására nézve, így ezt a regressziós modellt tekinthetjük egy nemparaméteres modellnek is. A β paraméter meghatározására Cox a parciális likelihood eljárást javasolta, amely a következő érvelésen alapul: Tekintünk egy kísérletet, ahol az egyedek száma nem konstans az időben. Ha meghibásodás következik be, akkor az egyedet eltávolítjuk a halmazból, de új egyed érkezhet és egyedek elmehetnek más okok miatt, mint a meghibásodás. Jelölje R (t) az egyedek azon részhalmazát, amelyek közvetlenül a t időpont előtt résztvesznek a kísérletben.Először csak a β paramétert akarjuk meghatározni. A következőkben csak a felülről cenzorált esettel foglalkozunk, ami az élettartam vizsgálatokban a leggyakoribb eset. Feltételezzük, hogy a meghibásodás és a cenzorálás függetlenek egymástól. Jelölje x1 , x2 , . . . , xn az n egyedhez tartozó független magyarázó változókat, míg t(1) < t(2) < . . . < t(k) az i1 , i2 , . . . , ik egyedekhez tartozó rendezett nem cenzorált meghibásodási időpontokat. Ha az időtengelyt igen pici (t, t + δt) intervallumokra bontjuk, akkor ha tudjuk, hogy egy 200
egyed halt meg a t(i) időpontban és adott a t(i) időpontban az R t(i) halmaz, akkor annak a feltételes valószínűsége, hogy egy ij egyed meghalt 0
eβ xij P
i∈R(t(i) )
eβ 0 xi
.
(9.22)
Összeszorozva ezeket a tényezőket kapjuk a parciális likelihood függvényt 0
k Y
eβ xij P
j=1
i∈R(t(i) )
eβ 0 xi
.
(9.23)
A parciális likelihood egyenletet igen hatékonyan lehet megoldani a NelderMead algoritmus segítségével. A λ0 (t) alap kockázati rátát egy λ0 (t) = λi ,
t ∈ (ai−1 , ai )
i = 1, 2, . . . r
lépcsős függvény alakjában becsülhetjük. Legyen a0 = 0 < a1 < a2 < · · · < ar = ∞ az időtengely egy felosztása. Jelölje Dij az ij egyed által az (ai−1 , ai ) időintervallumban töltött időt, míg di a nemcenzorált halálesetek száma ebben az intervallumban. Az adott β = βˆ parciális likelihood becsléssel a λi maximum likelihood becslése !−1 n X 0 ˆ i = di , i = 1, . . . , r. λ eβ xj Dij j=1
Cox alapgondolata az volt, hogy a (9.23) parciális likelihoodot mint közönséges likelihood függvényt kezeljük. Ennek megfelelően a parciális likelihood logaritmusának aszimptotikus normalitását kihasználva az együtthatókra konfidenciaintervallumot szerkeszthetünk és hipotézisvizsgálatot is végezhetünk. Ha a Cox-modell feltételei teljesülnek, akkor csak a numerikus megoldás pontossága kérdéses, de ha nem vagyunk meggyőződve a feltételek teljesüléséről, akkor különösen ajánlatos a modell megfelelőségét és a megoldás pontosságát szimulációval ellenőrizni. A túlélési idők szimulációja nem olyan egyszerű, mint a hagyományos regressziós módszereknél, mivel az F (t) eloszlásfüggvényt a kockázati rátával kifejezve Z t F (t) = 1 − S (t) = 1 + exp λ (u) du 0
201
adja meg általánosságban, és az arányos kockázati ráta modellben 0
λ (u) = λ0 (u) eβ x . Vezessük be az alap kockázati függvényt a Z t Λ0 (t) = λ0 (u) du 0
integrállal. Így az eloszlásfüggvény 0 F (t; x) = 1 − exp −Λ0 (t) eβ x . Ha tudunk a (0, 1) intervallumban egyenletes eloszlású véletlen számokat generálni (és ezt már egy zsebszámológép is megteszi), akkor ezek segítségével bizonyos eloszlású véletlen számok már könnyen előállíthatóak. Az 1.87 tételt felhasználva, ha T túlélési idő, akkor 0 U = exp −Λ0 (t) eβ x ∼ U (0, 1) , azaz a (0, 1) intervallumban egyenletes eloszlású valószínűségi változó. Itt felhasználltuk még azt az állítást is, hogy ha u ∼ U (0, 1) , akkor 1 − u ∼ U (0, 1) . Ha λ0 (t) > 0 minden t esetén, akkor Λ0 (t) invertálható és a T túlélési idő kifejezhető h i −β 0 x T = Λ−1 (t) − log (u) · e 0
(9.24)
alakban, ahol u ∼ U (0, 1). Legegyszerűbb az exponenciális eloszlású túlélési idő esete, hiszen ekkor t > 0 esetén a λ paraméterű exponenciális eloszlás esetén a kockázati ráta a λ konstans, és az alap kockázati függvény inverze Λ−1 0 (t) =
t . λ
Ezt (9.24)-ba behelyettesítve T =
i 1h 0 − log (u) · e−β x , λ 202
9.1. ábra. A Kaplan-Meier becslés
míg a megfelelő kockázati ráta függvény 0
λ (t; x) = λ · eβ x . Mivel a Cox-regresszió az aszimptotikus normalitás miatt nagymintás módszer, a következő példa kizárólag azt a célt szolgálja, hogy az adatokat, eredményeket könnyen át lehessen tekinteni. 9.12. Példa. Egy exponenciális eloszlású Y valószínűségi változónak egy X magyarázó változótól való függését vizsgáljuk. Mindössze 11 adat áll rendelkezésünkre, és ezek közül is 3 cenzorált. Az adatok:
203
esetszám 1 2 3 4 5 6 7 8 9 10 11
Y megfigyelt értéke (óra) 1.46 71.1 149.7 6.5 16.7 33.3 169.7 32.6 56.4 262.7 41.6
X megfigyelt értéke (0 C) 1.01 0.48 2.38 0.93 1.58 0.49 1.80 0.78 1.96 2.06 2.24
cenzorálás 0 0 1 0 0 1 0 1 0 0 0
Határozzuk meg a λ (t; X) = λ · ebX kockázati rátában a b együttható értékét! A fenti adatokból a megbízhatósági függvény Kaplan-Meier becslése a (9.1) ábrán látható. Az arányos kockázati ráta modellt feltételezve, azaz a λ (t; x) = λ0 (t) ebX feltételezéssel kerestük a Cox-regresszió megoldását. A MATLAB coxphfit programjával számolva a következő eredményeket kaptuk: Az együttható: b = −0.5237 A szignifikancia szint: p = 0.3467. A MATLAB program azt a maximális szignifikancia szintet számítja ki, amelyik mellett a H0 : b = 0 hipotézis még elfogadható (tehát a mostani példánkban a b = −0.5237 értéket nem kell túl komolyan venni!). A (parciális) loglikelihood függvény minimuma: LOGL = −11.9486.
204
9.2. ábra. A Weibull-eloszlás
9.13. Példa. Egy Weibull-eloszlású Y valószínűségi változónak két magyarázó változótól, az X = (x1, x2) vektorváltozótól való függését vizsgáljuk. Jelölje a Weibull-eloszlás helyparaméterét λ míg alakparaméterét ν. Ekkor a Weibull-eloszlás sűrűségfüggvénye ( 0, f (x) = λνtν−1 exp (−λtν ) ,
ha t ≤ 0, ha t > 0.
Túlélési függvénye ( 0, S (x) = exp (−λtν ) ,
ha t ≤ 0 ha t > 0.
A kockázati függvény inverze 1 t ν Λ−1 , 0 (t) = λ 205
(t > 0)
és (9.24) képletbe behelyettesítve T =
1 − log (u) ν . λ · exp (β 0 x)
9.3. ábra. A túlélési függvény
Az 1000 megfigyelést szimulációval készítettük el. A két x1 ill. x2 változóra a (0, 3) ill. a (0, 0.5) intervallumban egyenletes eloszlásnak megfelelő értékeket szimuláltunk, ezután minden u (u a (0, 1) intervallumban egyenletes eloszlású véletlen szám) értékhez a T =
1 − log (u) ν 5 · exp ((−2) ∗ x1 + 0.5 ∗ x2) 206
formulával számítottuk a függő változó értékét. Tehát a függő változó értékei λ = 5 hely- és ν = 2 skála paraméterű Weibull-eloszlást követnek. A λ = 5 és ν = 2 paraméterű Weibull-eloszlás sűrűségfüggvényének és eloszlásfüggvényének képe a (9.2) ábrán látható. A Cox modellben az együtthatók b1 = −2 b2 = 0.5 . A kapott értékek 30%-át választottuk cenzorált értéknek. A becsült értékek b1 = −2.1221 b2 = 0.4857 a hozzájuk tartozó p értékek gyakorlatilag nullák: 9.16 · 10−155 illetve 0.067, azt mutatják, hogy az együtthatók szignifikánsan különböznek nullától. Az alap túlélési függvényt a (9.3) ábrán láthatjuk (a kék görbe a Coxregresszió eredménye, a piros a Weibull-eloszlás alapján számított függvény).
207
Irodalomjegyzék [1] R. Adler, J. Taylor: Random Fields and Geometry, Springer Monographs in Mathematics, Springer, New York, 2007. [2] A. C. Allen: Probability Statistics and Queueing Theory, Academic Press, New York, 1978. [3] M. Arató: Linear stochastic systems with constant coefficients. SpringerVerlag, Berlin, 1982. [4] S. Axsäter: Inventory Control, Springer, New York, 2006. [5] Bender, Augustin, Blettner: Generating Survival Times to Simulate Cox Proportional Hazards Modell, http://epub.ub.uni-muenchen.de [6] H. J. Bierens: Introduction to the Mathematical and Statistical Foundations of Econometrics, Cambridge University Press, Cambridge, 2005. [7] Bognár J-né, Mogyoródi J., Prékopa A., Rényi A., Szász D.: Valószínűségszámítás feladatgyűjtemény, Tankönyvkiadó, Budapest, 1971. [8] S. Cyganowski, P. Kloeden, J. Ombach: From elementary Probablity to Stochastic Differential Equations with MAPLE, Springer, Berlin, 2002. [9] Deák I.: Véletlenszámgenerátorok és alkalmazásaik, Akadémiai Kiadó, Budapest, 1986. [10] R. M. Dudley: CA, 1989.
Real Analysis and Probability, Wadsworth, Belmont,
[11] W. Feller: Bevezetés a valószínűségszámításba és alkalmazásaiba, Műszaki Könyvkiadó, Budapest, 1978. 208
[12] P. Hall, R. Roy: On the relationship between fractal dimension and fractal index for stationary stochastic processes, Ann. Appl. Probab., 4 1994. pp. 241-253. [13] S. Karlin, H. M. Taylor: A second course in stochastic processes, Academic Press, New York, 1981. [14] L. Kleinrock: Sorbanállás - kiszolgálás, Műszaki Könyvkiadó, Budapest, 1979. [15] S. Kotz, N.L. Johnson. Encyclopedia of Statistical Sciences, WileyInterscience, 2006. [16] V. Krishnan: Probability and random processes, Wiley, Hoboken (New Jersey), 2006. [17] G. Lindgren: Lectures on stationary stochastic processes, Centrum Scientarium Mathematicarum, Lund University, 2006. [18] Lukács O.: 1987.
Matematikai statisztika, Műszaki Könyvkiadó, Budapest,
[19] R. J. Muirhead: Aspects of Multivariate Statistical Theory, WileyInterscience, 2005. [20] Rényi A.: Valószínűségszámítás, Tankönyvkiadó, Budapest, 1954. [21] Solt Gy.: Valószínűségszámítás, Műszaki Könyvkiadó, Budapest, 1973. [22] Székely J. G.: Paradoxonok a véletlen matematikájában, Műszaki Könyvkiadó, Budapest, 1982. [23] Sztrik J.: Raktározási és kiszolgálási problémák matematikai modellezése, Debreceni Egyetem Informatikai Kar, elektronikus jegyzet, 2004. [24] I.M. Szobol: A Monte-Carlo módszerek alapjai, Műszaki Könyvkiadó, Budapest, 1981. [25] Takács L.: Introduction to the Theory of Queues, Oxford U. P., London, 1962. [26] Vincze I.: Matematikai statisztika, Tankönyvkiadó, Budapest, 1980.
209