Cvičení 10 Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze © Rudolf Blažek 2011
Pravděpodobnost a statistika BI-PST, LS 2010/11
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnos@
Cvičení
Testování Hypotéz
Rudolf Blažek, Ph.D. (FIT ČVUT)
Network Security
MI-SIB, ZS 2011/12, Lecture 9
2
Cvičení
Testování hypotézy: je mince vyvážená? Otestujte, zda mince je vyvážená: P(H )=1/2
• • •
Hodíme si mincí opakovaně ... n krát Spočítáme, kolikrát padla panna (Head) Odhadneme P(H) jako proporci panen pn = #Heads / n
Pokud pn je blízko 1/2, uvěříme, že mince je vyvážená
Rudolf Blažek, Ph.D. (FIT ČVUT)
Network Security
MI-SIB, ZS 2011/12, Lecture 9
3
Cvičení
Co to znamená?
Pokud pn je blízko 1/2, uvěříme, že mince je vyvážená ? Jak blízko? Jak jsme si jisti? Rudolf Blažek, Ph.D. (FIT ČVUT)
Network Security
MI-SIB, ZS 2011/12, Lecture 9
4
Statistical Aspects of Intrusion Detection
Review of Hypothesis Testing
Silný zákon velkých čísel pro minci Definujme X jako indikátor panny (Head)
• •
Xi = 0 pokud i-tý hod je orel T Xi = 1 pokud i-tý hod je panna H
Střední hodnota je konečná
•
µ = E(Xi) = 1 P(H) + 0 P(T) = P(H)
SLLN: Proporce panen v n hodech bude konvergovat 1 ¯ n = (X1 + X2 + · · · + Xn ) ! µ = P (H) X n pro n ! 1
•
Silný zákon ≣ funguje pro každý experiment (s pravděp. 1)
Rudolf Blažek, Ph.D. (FIT ČVUT)
Statistics for Informatics
MI-SPI, ZS 2010/11
5
Cvičení
Silný zákon velkých čísel pro minci
0.75
0.25
0
Rudolf Blažek, Ph.D. (FIT ČVUT)
20
40
Network Security
60
80
100
MI-SIB, ZS 2011/12, Lecture 9
6
Cvičení
Testování hypotézy: je mince vyvážená? pn = proporce panen v n hodech Pokud pn je blízko 1/2, uvěříme, že mince je vyvážená Jak blízko?
• •
SLLN: pn se časem přiblíží P(H) (pro každý experiment) Takže blízkost k 1/2 opravdu naznačuje vyváženost mince
Jak jisti jsme si, že mince není falešná?
• •
Daleko od 1/2 = nezvykle daleko od 1/2 Proto potřebujeme informace od rozdělení pn
Rudolf Blažek, Ph.D. (FIT ČVUT)
Network Security
MI-SIB, ZS 2011/12, Lecture 9
7
Cvičení
Centrální limitní věta Uvažujme náhodné veličiny X1, X2, X3, ..., které
• •
jsou nezávislé a stejně rozdělené (i.i.d.) mají konečnou střední hodnotu µ = E Xi a konečný rozptyl σ2 = Var Xi
Pak výběrové průměry mají přibližně normální (Gaussovo) rozdělení: 2 1 X n = (X1 + X2 + · · · + Xn ) ⇠ N(µ, ) n n přibližně pro dostatečně velké n. Podobně Pn approx. * * * * * * i=1 * X* i *⇠ * N(n * µ * , n* 2* ) pro velké n. Rudolf Blažek, Ph.D. (ČVUT)
Pravděpodobnost a statistika
BI-PST, LS2010/11
8
Cvičení
Vyvážená mince: n=2 0.5 0.4 0.3 0.2 0.1
90% 0.2
Rudolf Blažek, Ph.D. (FIT ČVUT)
0.4
0.6
Network Security
0.8
1.0
MI-SIB, ZS 2011/12, Lecture 9
9
Cvičení
Vyvážená mince: n=5 0.30 0.25 0.20 0.15 0.10 0.05
90% 0.2
Rudolf Blažek, Ph.D. (FIT ČVUT)
0.4
Network Security
0.6
0.8
1.0
MI-SIB, ZS 2011/12, Lecture 9
10
Cvičení
Vyvážená mince: n=10 0.25 0.20
Nezvykle daleko
0.15 0.10 0.05
90% 0.2
Rudolf Blažek, Ph.D. (FIT ČVUT)
0.4
Network Security
0.6
0.8
1.0
MI-SIB, ZS 2011/12, Lecture 9
11
Cvičení
Vyvážená mince: n=20
0.15
Nezvykle daleko
Nezvykle daleko
0.10
0.05
90% 0.2
Rudolf Blažek, Ph.D. (FIT ČVUT)
0.4
Network Security
0.6
0.8
1.0
MI-SIB, ZS 2011/12, Lecture 9
12
Cvičení
Vyvážená mince: n=30 0.14 0.12 0.10
Nezvykle daleko
Nezvykle daleko
0.08 0.06 0.04 0.02
90% 0.2
Rudolf Blažek, Ph.D. (FIT ČVUT)
0.4
Network Security
0.6
0.8
1.0
MI-SIB, ZS 2011/12, Lecture 9
13
Cvičení
Vyvážená mince: n=1000 0.025 0.020
Nezvykle daleko
Nezvykle daleko
0.015 0.010 0.005
90% 0.2
Rudolf Blažek, Ph.D. (FIT ČVUT)
0.4
Network Security
0.6
0.8
1.0
MI-SIB, ZS 2011/12, Lecture 9
14
Cvičení
Testování hypotézy: je mince vyvážená? Hypotéza: *P(H ) = 1/2 Alternativa: * P(H ) ≠ 1/2 Test:
• •
Spočteme výběrový průměr pn (u mince proporce panen) Zamítneme hypotézu P(H ) = 1/2 pokud pn je mimo 90% oblast ve středu příslušné Normalní hustoty
• •
Pravděpodobnost chyby ≤ 10% (časté volby: 5% či 1%)
Jinak P(H ) = 1/2 nemůžeme zamítnout
•
Pravděpodobnost chyby je neznámá!! (Ale nejmenší možná − Neyman-Pearson Lemma)
Rudolf Blažek, Ph.D. (FIT ČVUT)
Network Security
MI-SIB, ZS 2011/12, Lecture 9
15
Cvičení
Rozdělení výběrového průměru Přibližné rozdělení je známo pomocí CLV Z =
Xn
µ
p ⇠ N(0, 1) / n
1–α α/2
-z-2 α/2 Rudolf Blažek, Ph.D. (ČVUT)
α/2
0 Pravděpodobnost a statistika
zα/2 2 BI-PST, LS2010/11
16
Cvičení
Vzorce pro test Hypotéza: *µ = µ0 (1/2 pro vyváženou minci:) 2
1 ¯ p = X (X1 + X2 + · · · + Xn ) ⇠ N (µ0 , ) CLT: n n = • n n přibližně pro velké n
Alternativa: * µ ≠ µ0 (1-α)100% oblast pro X¯¯n (nebo pn): µ0 ± z↵/2 p
n
• 99.73%:*zα/2 = 3* (tzv. six-sigma v průmyslu) • 99%: * zα/2 = 2.58 • 95%: * zα/2 = 1.96 Rudolf Blažek, Ph.D. (FIT ČVUT)
Network Security
MI-SIB, ZS 2011/12, Lecture 9
17
Cvičení
Testování hypotéz Bezpecˇ nostn´ı senzor pravidelneˇ monitoruje pocˇ ´ıtacˇ ovou ucˇ eb´ nu. Pokud se v ucˇ ebneˇ nikdo nepohybuje, senzor vrac´ı signal X = W, ´ eˇ rozdelen ˇ a´ velicˇ ina se strˇedn´ı hodnotou 0 kde W je normaln 2 ´ a rozptylem = 2.3. V pˇr´ıpadeˇ pohybu zaˇr´ızen´ı vrac´ı signal X = W + ✓, ´ a´ konstanta. kde ✓ > 0 je neznam Rudolf Blažek, Ph.D. (ČVUT)
Pravděpodobnost a statistika
BI-PST, LS2010/11
18
Cvičení
Testování hypotéz ´ ´ ´ ı jsme spocˇ etli konNa zaklad eˇ n = 35 nezavisl´ ych pozorovan´ fidencˇ n´ı intervaly pro µ = EX takto: 90% interval A: (0.405456, 5.394544) 95% interval B: ( 0.07243255, 5.87243255) ´ 1. Otestujte hypotezu H0 : µ = 0 proti alternativeˇ HA : µ > 0 ˇ ˇ pomoc´ı techto intervalu, chyby ˚ tak aby pravdepodobnost prvn´ıho druhu (tedy chybne´ zam´ıtnut´ı H0 ) byla 5%. 2. Pouˇzili jste intervalu A nebo B. Procˇ ? Rada: Jedna´ se o jednostrannou alternativu. Rudolf Blažek, Ph.D. (ČVUT)
Pravděpodobnost a statistika
BI-PST, LS2010/11
19
Cvičení
Testování hypotéz Prˇed bouˇrkou se obvykle zv´ysˇ ´ı rozptyl nameˇ ˇren´ych hodnot s´ıly 2 ˇ ˇ vetru. Pokud se bl´ızˇ ´ı bourka, rozptyl pˇrekrocˇ ´ı 4.5 m/s. ´ ´ ´ Na zaklad eˇ n = 200 nezavisl´ ych meˇ ˇren´ı jsme spocˇ etli nasle2 duj´ıc´ı konfidencˇ n´ı intervaly pro = Var X : 99% interval A: (2.64, 4.43) 98% interval B: (2.7, 4.31) ´ 1. Bl´ızˇ ´ı se bouˇrka? Otestujte hypotezu 2 2 H0 : 4.5 versus alternativa HA : > 4.5 ˇ tak, aby pravdepodobnost chyby prvn´ıho druhu 1%. 2. Pouˇzili jste intervalu A nebo B. Procˇ ? Rudolf Blažek, Ph.D. (ČVUT)
Pravděpodobnost a statistika
BI-PST, LS2010/11
20