Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc

Cvičení 10 Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze © Rudolf Blažek 2011

Pravděpodobnost a statistika BI-PST, LS 2010/11

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnos@

Cvičení

Testování Hypotéz

Rudolf Blažek, Ph.D. (FIT ČVUT)

Network Security

MI-SIB, ZS 2011/12, Lecture 9

2

Cvičení

Testování hypotézy: je mince vyvážená? Otestujte, zda mince je vyvážená: P(H )=1/2

• • •

Hodíme si mincí opakovaně ... n krát Spočítáme, kolikrát padla panna (Head) Odhadneme P(H) jako proporci panen pn = #Heads / n

Pokud pn je blízko 1/2, uvěříme, že mince je vyvážená


Network Security


3

Cvičení

Co to znamená?

Pokud pn je blízko 1/2, uvěříme, že mince je vyvážená ? Jak blízko? Jak jsme si jisti? Rudolf Blažek, Ph.D. (FIT ČVUT)

Network Security


4

Statistical Aspects of Intrusion Detection

Review of Hypothesis Testing

Silný zákon velkých čísel pro minci Definujme X jako indikátor panny (Head)

• •

Xi = 0 pokud i-tý hod je orel T Xi = 1 pokud i-tý hod je panna H

Střední hodnota je konečná

•

µ = E(Xi) = 1 P(H) + 0 P(T) = P(H)

SLLN: Proporce panen v n hodech bude konvergovat 1 ¯ n = (X1 + X2 + · · · + Xn ) ! µ = P (H) X n pro n ! 1

•

Silný zákon ≣ funguje pro každý experiment (s pravděp. 1)


Statistics for Informatics

MI-SPI, ZS 2010/11

5

Cvičení

Silný zákon velkých čísel pro minci

0.75

0.25

0


20

40

Network Security

60

80

100


6

Cvičení

Testování hypotézy: je mince vyvážená? pn = proporce panen v n hodech Pokud pn je blízko 1/2, uvěříme, že mince je vyvážená Jak blízko?

• •

SLLN: pn se časem přiblíží P(H) (pro každý experiment) Takže blízkost k 1/2 opravdu naznačuje vyváženost mince

Jak jisti jsme si, že mince není falešná?

• •

Daleko od 1/2 = nezvykle daleko od 1/2 Proto potřebujeme informace od rozdělení pn


Network Security


7

Cvičení

Centrální limitní věta Uvažujme náhodné veličiny X1, X2, X3, ..., které

• •

jsou nezávislé a stejně rozdělené (i.i.d.) mají konečnou střední hodnotu µ = E Xi a konečný rozptyl σ2 = Var Xi

Pak výběrové průměry mají přibližně normální (Gaussovo) rozdělení: 2 1 X n = (X1 + X2 + · · · + Xn ) ⇠ N(µ, ) n n přibližně pro dostatečně velké n. Podobně Pn approx. * * * * * * i=1 * X* i *⇠ * N(n * µ * , n* 2* ) pro velké n. Rudolf Blažek, Ph.D. (ČVUT)

Pravděpodobnost a statistika

BI-PST, LS2010/11

8

Cvičení

Vyvážená mince: n=2 0.5 0.4 0.3 0.2 0.1

90% 0.2


0.4

0.6

Network Security

0.8

1.0


9

Cvičení

Vyvážená mince: n=5 0.30 0.25 0.20 0.15 0.10 0.05

90% 0.2


0.4

Network Security

0.6

0.8

1.0


10

Cvičení

Vyvážená mince: n=10 0.25 0.20

Nezvykle daleko

0.15 0.10 0.05

90% 0.2


0.4

Network Security

0.6

0.8

1.0


11

Cvičení

Vyvážená mince: n=20

0.15

Nezvykle daleko

Nezvykle daleko

0.10

0.05

90% 0.2


0.4

Network Security

0.6

0.8

1.0


12

Cvičení

Vyvážená mince: n=30 0.14 0.12 0.10

Nezvykle daleko

Nezvykle daleko

0.08 0.06 0.04 0.02

90% 0.2


0.4

Network Security

0.6

0.8

1.0


13

Cvičení

Vyvážená mince: n=1000 0.025 0.020

Nezvykle daleko

Nezvykle daleko

0.015 0.010 0.005

90% 0.2


0.4

Network Security

0.6

0.8

1.0


14

Cvičení

Testování hypotézy: je mince vyvážená? Hypotéza: *P(H ) = 1/2 Alternativa: * P(H ) ≠ 1/2 Test:

• •

Spočteme výběrový průměr pn (u mince proporce panen) Zamítneme hypotézu P(H ) = 1/2 pokud pn je mimo 90% oblast ve středu příslušné Normalní hustoty

• •

Pravděpodobnost chyby ≤ 10% (časté volby: 5% či 1%)

Jinak P(H ) = 1/2 nemůžeme zamítnout

•

Pravděpodobnost chyby je neznámá!! (Ale nejmenší možná − Neyman-Pearson Lemma)


Network Security


15

Cvičení

Rozdělení výběrového průměru Přibližné rozdělení je známo pomocí CLV Z =

Xn

µ

p ⇠ N(0, 1) / n

1–α α/2

-z-2 α/2 Rudolf Blažek, Ph.D. (ČVUT)

α/2

0 Pravděpodobnost a statistika

zα/2 2 BI-PST, LS2010/11

16

Cvičení

Vzorce pro test Hypotéza: *µ = µ0 (1/2 pro vyváženou minci:) 2

1 ¯ p = X (X1 + X2 + · · · + Xn ) ⇠ N (µ0 , ) CLT: n n = • n n přibližně pro velké n

Alternativa: * µ ≠ µ0 (1-α)100% oblast pro X¯¯n (nebo pn): µ0 ± z↵/2 p

n

• 99.73%:*zα/2 = 3* (tzv. six-sigma v průmyslu) • 99%: * zα/2 = 2.58 • 95%: * zα/2 = 1.96 Rudolf Blažek, Ph.D. (FIT ČVUT)

Network Security


17

Cvičení

Testování hypotéz Bezpecˇ nostn´ı senzor pravidelneˇ monitoruje pocˇ ´ıtacˇ ovou ucˇ eb´ nu. Pokud se v ucˇ ebneˇ nikdo nepohybuje, senzor vrac´ı signal X = W, ´ eˇ rozdelen ˇ a´ velicˇ ina se strˇedn´ı hodnotou 0 kde W je normaln 2 ´ a rozptylem = 2.3. V pˇr´ıpadeˇ pohybu zaˇr´ızen´ı vrac´ı signal X = W + ✓, ´ a´ konstanta. kde ✓ > 0 je neznam Rudolf Blažek, Ph.D. (ČVUT)


BI-PST, LS2010/11

18

Cvičení

Testování hypotéz ´ ´ ´ ı jsme spocˇ etli konNa zaklad eˇ n = 35 nezavisl´ ych pozorovan´ fidencˇ n´ı intervaly pro µ = EX takto: 90% interval A: (0.405456, 5.394544) 95% interval B: ( 0.07243255, 5.87243255) ´ 1. Otestujte hypotezu H0 : µ = 0 proti alternativeˇ HA : µ > 0 ˇ ˇ pomoc´ı techto intervalu, chyby ˚ tak aby pravdepodobnost prvn´ıho druhu (tedy chybne´ zam´ıtnut´ı H0 ) byla 5%. 2. Pouˇzili jste intervalu A nebo B. Procˇ ? Rada: Jedna´ se o jednostrannou alternativu. Rudolf Blažek, Ph.D. (ČVUT)


BI-PST, LS2010/11

19

Cvičení

Testování hypotéz Prˇed bouˇrkou se obvykle zv´ysˇ ´ı rozptyl nameˇ ˇren´ych hodnot s´ıly 2 ˇ ˇ vetru. Pokud se bl´ızˇ ´ı bourka, rozptyl pˇrekrocˇ ´ı 4.5 m/s. ´ ´ ´ Na zaklad eˇ n = 200 nezavisl´ ych meˇ ˇren´ı jsme spocˇ etli nasle2 duj´ıc´ı konfidencˇ n´ı intervaly pro = Var X : 99% interval A: (2.64, 4.43) 98% interval B: (2.7, 4.31) ´ 1. Bl´ızˇ ´ı se bouˇrka? Otestujte hypotezu 2 2 H0 :  4.5 versus alternativa HA : > 4.5 ˇ tak, aby pravdepodobnost chyby prvn´ıho druhu 1%. 2. Pouˇzili jste intervalu A nebo B. Procˇ ? Rudolf Blažek, Ph.D. (ČVUT)


BI-PST, LS2010/11

20

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc

Recommend Documents