2012. 03. 30.
Mintavételezés Informatikai Tudományok Doktori Iskola
2012. 03. 30.
1
Statisztikai sokaság, populáció A halmaz egészének kevés adattal történı tömör jellemzése, és a populáció egyedeinek leírására bevezetett változók közötti kapcsolatok leírása a célunk. Arra nincs lehetıség (erıforrás), hogy a populáció minden egyes elemérıl adatokat szerezzünk be, azaz mintát kell vételeznünk a sokaságból.
2012. 03. 30.
2
Statisztikai minta realizáltja A populáció egy kis elemszámú részhalmazára vonatkozó megfigyelések adatai alkotják a statisztikai minta egy realizációját. A minta úgy kell, hogy tükrözze a populáció tulajdonságait, ahogy a cseppben látjuk a tengert. Azaz a minta reprezentatív kell, hogy legyen. Nem reprezentatív mintából levont következtetések értékelhetetlenek, torzak. Az alkalmazott statisztikai módszerek, becslési hibák akkor lesznek érvényesek, ha a minta, amivel számolunk reprezentatív! "A kutató számára … csak a reprezentatív mintavétel az egyetlen helyes mintavételi mód arra, hogy a kiválasztott egyedi objektumok generalizálás (általánosítás) alapjául szolgálhassanak, és ezért rendszerint az egyetlen elfogadható alap arra, hogy megállapítsuk, mi az igazság." (Andrew A. Marino) 2012. 03. 30.
3
1
2012. 03. 30.
Kaplan mintavételezési paradoxona Egyrészrıl, a minta használhatatlan, ha nem reprezentatív. Másrészrıl, ahhoz, hogy ellenırizhessük a minta reprezentativitását, tudnunk kell a populáció összes jellemzıjét, amit pedig ha ismerünk, már mintára sincs szükségünk, hisz azt azért vennénk, hogy ezeket a jellemzıket feltárjuk…
Edward L. Kaplan, M.D. 2012. 03. 30.
4
Elvárások a mintáról A populáció minden egyes elemének ugyanakkora esélyt kell biztosítani a mintába kerüléshez. A minta elemszámának elég nagynak kell lennie ahhoz, hogy a következtetéseink átvihetık lehessenek a populációra is. Ugyanakkor a szükségesnél ne kelljen nagyobb mintát feldolgozni, mert az költségesebb.
2012. 03. 30.
5
Alapkérdések Vegyünk-e egyáltalán mintát? Ha igen, milyen eljárással? Milyen típusú mintát vegyünk Mekkora legyen a minta nagysága? Egyéb kérdések: Pl. Mit tegyünk a nem válaszolási hibákkal? A válaszmegtagadókkal?
2012. 03. 30.
6
2
2012. 03. 30.
Fogalmak Cenzus: A sokaság elemeinek teljes számbavétele (pl. népszámlálás) Cenzust alkalmazunk, ha • • • •
Kicsi a sokaság Figyelni kell az egyedi esetekre Sok idı, sok pénz áll rendelkezésre Nagyon szóródik a megfigyelt jellemzı a sokaságban
Minta: A sokaság elemeinek egy csoportja. A mintajellemzıkbıl, más néven statisztikákból tudunk valamilyen következtetést levonni a teljes sokaságra.
2012. 03. 30.
7
A mintavételi eljárás
A mintavételi eljárás 5 lépésbıl áll:
A célsokaság meghatározása A mintavételi keret meghatározása A mintavételi technika meghatározása A mintanagyság meghatározása A mintavétel kivitelezése
2012. 03. 30.
8
Alapfogalmak Célsokaság: azoknak az elemeknek az összessége amelyek rendelkeznek a kutató által keresett paraméterrel. Sokasági elem: az a vizsgálati egység amelyik rendelkezik a kutató által keresett információval. Mintavételi egység: A sokasági elem, vagy az az alapegység, amelyik magában foglalja a sokaság elmeit (pl. háztartásokban elı 18 év feletti nık). Mintavételi keret: a mintavételi egységekrıl készült felsorolás mely segítségével azonosíthatóak az elemek. Egylépcsıs mintavételnél a keret a (vizsgálati) populáció listája. 2012. 03. 30.
9
3
2012. 03. 30.
A mintavételi keret Sok esetben, mint például amikor a legyártott tételt minıségi szempontból teszteljük, lehetséges, hogy azonosítsuk és megmérjük a populációt kitevı teljes tétel miden egyes elemét, és hogy mindegyik szerepeljen a mintánkban. Azonban sokkal gyakoribb, hogy ez nem lehetséges. Nem lehetséges azonosítani például valamennyi patkányt, valamint abban az esetben, ha a szavazás nem kötelezı, nincs mód arra, hogy azonosítsuk azokat ez egyéneket, akik valóban szavazni fognak az elkövetkezı választásokon. Az ilyen, bizonytalanul körülhatárolható populációk nem alkalmasak a mintavételezésre. Eszközként a mintavételi keretet keressük meg, amely alkalmas arra, hogy a populáció minden egyes elemét azonosítsuk és bevonjuk bármely mintánkba.
2012. 03. 30.
10
A mintavételi keret A sokaság elemeinek megjelenítése
Telefonkönyv Szövetségek taglistái Számlakönyvek Egyéb listák A legfontosabb kérdés itt az, hogy a célsokaság és a mintavételi keret egybeesik-e
(Pl. telefonkönyvben mindenki benne van-e, aki rendelkezik a keresett paraméterekkel?)
2012. 03. 30.
11
A mintavételi technikák Visszatevéses mintavétel Egy adott elem elvileg többször is a mintába kerülhet Visszatevés nélküli mintavétel Egy elem csak egyszer kerülhet a mintába Bayes-technika Kiválasztási módszer, ahol az elemeket egymást követıen választják ki. Minden egyes kiválasztást követıen kiszámítják a mintajellemzıket és meghatározzák a költségeket Már a mintavétel elıtt ismerni kell a sokaság bizonyos jellemzıit (paraméterek) Nem véletlen mintavételi technikák Véletlen mintavételi technikák
2012. 03. 30.
12
4
2012. 03. 30.
Nem véletlen mintavételi technikák Önkényes mintavétel: a minta elemeit általában kérdezıbiztos választja ki
pl. üdülıhelyi megkérdezések vendégkör-megkérdezések Nincs mintavételi keret amibıl választani lehetne Elınyei Olcsó A mintavételi egységek könnyen elérhetık Könnyő együttmőködı egységeket választani Hátrányai Semmilyen meghatározható sokaságot nem reprezentálnak Elméletileg semmiféle általánosításra nem ad módot Torzítás óriási Mire jó? Mire nem jó? Leíró kutatásokhoz Feltáró kutatáshoz Hipotézisek felállításához Kérdıívek teszteléséhez Ok-okozati kutatásokhoz
2012. 03. 30.
13
Nem véletlen mintavételi technikák – elbírálásos mintavétel
Elbírálásos mintavétel: a kutató a saját tapasztalatai alapján választ a sokaság elemei közül, és eldönti, hogy bekerüljenek-e a mintába vagy sem. Teszthelyszínek kiválasztása (melyik szállodát, céget, utazási irodát kérdezzük meg. Szakértık kiválasztása Körzetek kiválasztása (kérdıívezés helyszíneinek kiválasztása), stb.
2012. 03. 30.
14
Nem véletlen mintavételi technikák – Kvótás mintavétel Két lépéses eljárás
A kutató felállítja a sokaság kontroll kategóriáit, azaz a kvótákat Végig kell gondolni a sokaság jellemzıit és e jellemzık sokaságon belüli eloszlását Nem Kor Nemzetiség, stb. 1.A mintaelemeket önkényesen vagy elbírálással választja ki. Elınye az alacsony költség és a kényelmes kezelhetıség Nem reprezentatív, amennyiben a sokaság egy fontos jellemezıje
elkerüli a figyelmünket
A több kontrolljellemzı növelheti a reprezentativitást, ám a sok jellemzıt
nehézkes kezelni
A reprezentativitás javítható, ha a kérdezıbiztosok részletes
utasítást kapnak, hogy kiket kell megkérdezni 2012. 03. 30.
15
5
2012. 03. 30.
Nem véletlen mintavételi technikák – Hólabda mintavétel Speciális jellemzıvel bíró sokaságot keresünk
(pl. hackerek)
Egyvalakit, vagy egy kis csoportot megkeresünk A kezdeti csoport tagjait arra kérjük, hogy ajánljanak
másokat akik szintén a célsokasághoz tartoznak
Ezzel a módszerrel egyre több válaszadót érünk el
2012. 03. 30.
16
Véletlen kiválasztási technikák I. A véletlen mintavétel során az elérendı cél, az, hogy
a minta jellemzıi teljes egészében megegyezzenek a célsokaság jellemzıivel, azaz ne legyen torzítás
Ha mégis van eltérés, akkor a különbség statisztikailag
mérhetı (megbízhatósági szintekkel)
A véletlen technikákkal vett minták jellemzıi
kivetíthetık az egész sokaságra
2012. 03. 30.
17
Véletlen kiválasztási technikák II. A gyakorlatban alkalmazott technikák Egyszerő véletlen mintavétel Szisztematikus mintavétel Rétegzett mintavétel Csoportos mintavétel Egyéb véletlen mintavételi technikák Mindemellett a nem véletlen mintavételi technikák esetében sem teljesül minden esetben a reprezentativitás
2012. 03. 30.
18
6
2012. 03. 30.
Egyszerő véletlen mintavétel A sokaság minden eleme ismert és azonos
valószínőséggel kerülhet be a mintába. Minden elemet egymástól függetlenül, a mintát a mintavételi keretbıl véletlen eljárással választjuk ki Technikai megoldások:
sorsolás véletlenszám generálása
2012. 03. 30.
19
Szisztematikus mintavétel A mintavételi keretben véletlenszerően kijelölnek
egy kezdıpontot
Ezt követıen kiválasztják a mintavételi keret
minden i-dik elemét
A mintavételi intervallumot úgy kapják meg, hogy a
mintavételi keret elemszámát (N) elosztják a minta elvárt nagyságával (n), az így kapott N/n hányadost a legközelebbi egész számra kerekítik, ez lesz az i Akkor használható, jól, ha a mintavételi keretben nincsenek sorba állítva az elemek a vizsgált jellemzıvel összefüggésben
2012. 03. 30.
20
Szisztematikus mintavétel Tegyük fel, hogy a populáció elemszáma N=100 A kívánt minta elemszám n=20 N/n=5 Véletlenszerően kiválasztunk egy számot 1-5 között: pl. 4. A 4. esettıl kezdve minden 5.-ket választjuk a mintába
2012. 03. 30.
21
7
2012. 03. 30.
Rétegzett mintavétel A sokaságot elıször csoportokra bontják valamilyen
ismert rétegképzı ismérv segítségével.
Az egyes rétegekbıl egyszerő véletlen mintavétellel
választanak
Fontos, hogy a rétegképzı ismérv szoros kapcsolatban
álljon a vizsgált jellemzıvel
Legáltalánosabb rétegképzı ismérvek a demográfiai jellemzık kor nem jövedelem régió
2012. 03. 30.
22
Arányos és nem arányos rétegezés Arányos rétegezés: minden rétegbıl kiválasztott minta nagysága
arányos az adott rétegnek a teljes sokasághoz viszonyított nagyságával
Nem arányos rétegezés: a rétegekbıl választott minta nagysága
arányos a réteg relatív nagyságával és a vizsgált jellemzı eloszlásának rétegen belüli szórásával Nagyobb rétegbıl több elemet kell vennünk Több elemet kell venni azokból a rétegekbıl ahol nagyobb a szórás és kevesebbet azokból ahol kisebb (ehhez azonban ismerni kell a szórást is) A rétegezett mintavétel akkor alkalmazható jól, ha a vizsgált jellemzı eloszlása a sokaságban nem egyenletes, így biztosított, hogy minden részsokaság képviseltesse magát a mintában (pl. jövedelem)
2012. 03. 30.
23
Csoportos mintavétel A célsokaságot egymást kölcsönösen kizáró csoportokra bontják, amelyek együttesen lefedik az egész sokaságot (statisztikai populációt). Az így képzett csoportokból egyszerő véletlen mintát
vesznek (csoportokat választanak ki).
A kiválasztott csoportokból azután vagy mindenkit
beválasztanak a mintába, vagy újra EVM-eznek.
Gyakori formája a területi mintavétel, ebben az
esetben a csoportok területi egységek
A mintavétel akkor megfelelı, ha a csoportok mérete
ugyanakkora,
Ha nagyság alapján nagy az eltérés, akkor a nagysággal
arányos véletlen mintavétel alkalmazható
2012. 03. 30.
24
8
2012. 03. 30.
Nagysággal arányos csoportos véletlen mintavétel A csoportokat a nagyságukkal arányos
valószínőéggel választjuk ki A nagyobb elemszámú csoportok nagyobb valószínőséggel kerülnek kiválasztásra mint a kisebbek A kisebb elemszámú csoportok kisebb valószínőséggel kerülnek kiválasztásra Eredmény: minden elem azonos valószínőséggel kerül kiválasztásra
2012. 03. 30.
25
Véletlen kiválasztási technikák
2012. 03. 30.
26
Egyéb véletlen mintavételi technikák Többlépcsıs mintavételezés:
Nagyobb egységeket részekre bontunk, és a részek között véletlenszerően választunk egyet. A kiválasztott részt újabb részekre bontunk, és véletlenszerően megint választunk… Szekvenciális mintavétel (Wald Ábrahám): a sokaság elemeibıl egymást követıen veszünk mintát, majd minden mintavételt követıen elvégezzük az elemzést, és ez alapján döntünk, hogy szükséges-e újabb elemet beválasztani (döntési szabály elıírása a továbblépéshez) Kettıs mintavétel: a sokaság elemeibıl kétszer veszünk mintát 2012. 03. 30.
27
9
2012. 03. 30.
Többlépcsıs mintavételezés
2012. 03. 30.
28
Választás a véletlen és a nem véletlen mintavételi technikák között Nem véletlen mintavételi technikát alkalmazzuk, ha Feltáró kutatást akarunk folytatni Nagyok az ún. nem mintavételi hibák A sokaság homogén (szórása alacsony) Statisztikai módszerekkel nem kívánjuk elemezni a mintát Egyszerőbb, operatívabb megoldásra törekszünk Véletlen mintavételi technikát alkalmazunk, ha Leíró kutatást akarunk folytatni A mintavételi hibák nagyok A sokaság heterogén (szórása magas) Statisztikai módszerekkel kívánjuk elemezni a mintát Az operatív megoldás kevésbé szempont
2012. 03. 30.
29
A mintavétel kivitelezése Elıfordulási arány: a kutatásra alkalmas emberek
elıfordulási vagy százalékos arányára utal. Megmutatja, hogy hány kontaktust kell létrehozni egy adott mintanagyság elıállítás érdekében. Megvalósulási arány: a szőrıfeltételeknek megfelelı személyek közül hány emberrel sikerül elkészíteni az interjút/kérdıívet (akik válaszolnak a megkérdezésre) Az elıfordulási és a megvalósulási arányok következtében a kiinduló mintanagyságnak esetenként többszörösen nagyobbnak kell lennie a szükséges mintanagyságnál
2012. 03. 30.
30
10
2012. 03. 30.
A mintanagyság meghatározása Minél pontosabb információra van szükség, annál nagyobb mintát
kell venni.
Ám minél jobban nı a minta, annál kisebb a javulás a mintanagyság
egységnyi növekedésével.
Vezérfonal:
Tanulmány típusa Mintanagyság a.) Problémafeltáró kutatás (vendégkörvizsgálat) 500 fı b.) Problémamegoldó kutatás (pl. árazás) 200 fı c.) Termékteszt (marketingkutatás) 200 fı d.) Tesztpiaci tanulmányok 200 fı e.) Tesztpiac vizsgálata 10 utazási iroda f.) Fókuszcsoport
2012. 03. 30.
31
A mintanagyság meghatározása
2012. 03. 30.
32
A mintanagyság meghatározása
2012. 03. 30.
33
11
2012. 03. 30.
A mintanagyság meghatározása
SE = s/√n 2012. 03. 30.
34
Mintanagyság meghatározása A mintanagyság más tudományos módszerekkel is
meghatározható (ld. késıbb…)
Ha a sokaság, illetve a minta nagyobb mint harminc fı,
akkor a vizsgált ismérv vélhetıleg normális eloszlást követ, így alkalmazhatók a valószínőségszámítási elvek a mintavételi hiba (konfidencia-intervallumok meghatározásához) A számítási módszereket statisztikából tanultuk A statisztikai módszerek csak akkor mőködnek, ha a minta reprezentatív
2012. 03. 30.
35
Mintanagyság meghatározása t-próbához A centrális határeloszlás tételébıl levezethetı, hogy ha egy normális eloszlású változó várható értékére vonatkozó nullhipotézist vizsgálunk az egymintás t próbával, akkor ahhoz, hogy meghatározott (1-α) valószínőséggel kimutassunk egy legalább 2d u ⋅σ nagyságú különbséget, a mintának n ≥ ααd számú elemet kell tartalmazni. A képletben uα/2 a standard normális eloszlás α/2 valószínőséghez tartozó értéke, σ az elméleti szórás (vagy annak becslése), d pedig az (1-α) valószínőséghez tartozó konfidenciaintervallum szélességének a fele. 2
2
/2
2
Azon mintaelemszámok táblázata, amelyek két populáció nagyságszintjének átlagokon alapuló, összetartozó kétmintás t-próbával történı összehasonlítására minimálisan szükségesek ahhoz, hogy egy feltételezett ∆ létezı különbségbıl adódó β második fajta hiba mellett ezt a ∆ különbséget (1-α) valószínőséggel kimutathassuk. (Beyer (1968) nyomán).
2012. 03. 30.
36
12
2012. 03. 30.
Beyer táblázata Egyoldalú próba Kétoldalú próba β (a második fajta hiba valószínősége) η −η0 ∆= σ 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 1.10 1.20 1.30 1.40 1.50 2.00 3.00 4.00
α=0.005 α=0.01 0.01 0.05 0.1 0.5
100 83 71 61 53 47 41 37 34 31 28 24 21 18 16 15 10 7 6
115 92 75 63 53 46 40 36 32 29 26 24 22 19 16 15 13 12 8 6
125 97 77 63 53 45 39 34 30 27 24 22 20 19 16 14 13 12 11 8 6
A t-próba szintje α=0.01 α=0.025 α=0.02 α=0.05 0.01 0.05 0.1 0.5 0.01 0.05 0.1 0.5
110 78 58 45 37 30 26 22 20 17 16 14 13 12 11 10 9 8 8 7 7 5
110 90 75 63 55 47 42 37 33 29 27 25 21 18 16 14 13 9 6
101 81 66 55 47 41 35 31 28 25 23 21 19 16 14 13 11 10 7 5
109 85 68 55 46 39 34 30 27 24 21 19 18 16 14 12 11 10 9 7 5
139 90 63 47 37 30 25 21 18 16 14 13 12 11 10 9 9 8 7 6 6 6
117 93 76 63 53 46 40 35 31 28 25 23 21 18 15 14 12 11 7 5
84 67 54 45 38 33 29 26 22 21 19 17 16 13 12 10 9 8 6
119 88 68 54 44 37 32 27 24 21 19 17 16 14 13 11 10 9 8 7 5
99 64 45 34 26 21 18 15 13 12 10 9 9 8 7 7 6 6 5
α=0.05 α=0.1 0.01 0.05 0.1 0.5
101 80 65 54 46 39 34 30 27 24 21 19 18 15 13 11 10 9 6
122 90 70 55 45 38 32 28 24 21 19 17 15 14 13 11 10 8 8 7
139 97 72 55 44 36 30 26 22 19 17 15 14 13 11 11 9 8 7 7 6
2012. 03. 30.
122 70 45 32 24 19 15 13 11 9 8 8 7 6 6 5 5 5
37
A minimálisan szükséges mintaelemszám meghatározása Mekkora n minta elemszám garantálja azt, hogy az x n mintaátlag a minta m várhatóértékétıl legfeljebb ε távolságra essék legalább 1-µ µ valószínőséggel? (Vagyis milyen n-ekre teljesül a P( x n − m ≤ ε ) ≥ 1 − µ
reláció? A képletben az egyes paraméterek jelentése:
m – a minta várható értéke.
A kérdésre több válasz is adható, attól függıen, mit tételezhetünk fel a minta eloszlásáról.
ε – a mérési pontosság. 1-µ – a bizonytalanság mértéke (azaz a megbízhatóság mértéke).
2012. 03. 30.
38
Kapcsolat a minta elemszám, az eltérés és a megbízhatóság között Ha az n minta elemszám, az ε eltérés és a µ megbízhatóság közül bármely kettıt ismerjük, akkor alsóbecslést tudunk adni a harmadik paraméterre:
n ≥ f (ε , µ ) ε ≥ g (n, µ ) µ ≥ h(n, ε )
2012. 03. 30.
39
13
2012. 03. 30.
Paraméteres módszerek A minta elemszám meghatározása normális eloszlású, ismert σ szórású minta esetén: 2
zµ ⋅σ P x n − m ≤ 2 = 1− µ n
zµ ⋅σ 2 n ≥ 2 2
⇒
ε
µ Φ z µ = 1 − 2 2
ahol
2012. 03. 30.
40
σ=1 ε
\µ 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,1 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,2 0,3 0,4
0,05 38414 9604 4268 2401 1537 1067 784 600 474 384 317 267 227 196 171 150 133 119 106 96 43 24
σ=2 0,1 27055 6764 3006 1691 1082 752 552 423 334 271 224 188 160 138 120 106 94 84 75 68 30 17
0,15 20722 5181 2302 1295 829 576 423 324 256 207 171 144 123 106 92 81 72 64 57 52 23 13
ε
\µ
0,05 153658 38414 17073 9604 6146 4268 3136 2401 1897 1537 1270 1067 909 784 683 600 532 474 426 384 171 96
0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,1 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,2 0,3 0,4
0,1 108222 27055 12025 6764 4329 3006 2209 1691 1336 1082 894 752 640 552 481 423 374 334 300 271 120 68
0,15 82890 20722 9210 5181 3316 2302 1692 1295 1023 829 685 576 490 423 368 324 287 256 230 207 92 52
2012. 03. 30.
41
Paraméteres módszerek A minta elemszám meghatározása normális eloszlású, nem ismert szórású minta esetén: t µ ⋅ sn P x n − m ≤ 2 = 1− µ n
⇒
ε
µ Fn −1 t µ = 1 − 2 2
ahol
Fn −1
s 2012. 03. 30.
2
t µ ⋅ sn 2 n≥ 2 2
2 n
az n-1 szabadságfokú Student-eloszlásfüggvény. a minta varianciája, 42
14
2012. 03. 30.
Nemparaméteres módszerek
A centrális határeloszlás-tétel alapján: 2
zµ ⋅σ P x n − m ≤ 2 ≈ 1− µ n
⇒
zµ ⋅σ 2 n ≥ 2 2
ε
2012. 03. 30.
43
Nemparaméteres módszerek
A minta elemszám megbecslése a Hoeffding-egyenlıtlenség segítségével:
amennyiben az méréseink garantáltan az (a , b) intervallumba esnek,
1 n − 2 nε 2 P ∑ X i − m > ε ≤ 2 exp 2 n i = 1 (b − a ) 2
µ (b − a ) ln ⋅ 2 2 n≥ −
⇒
ε2
2012. 03. 30.
44
Az eltérés és bizonytalanság becslése, ha ismert az n Adott n minta elemszám és ε maximális eltérés esetén a µ maximális bizonytalanság megbecslése:
− 2n ε 2 ≤ µ 2 exp 2 δ Adott n minta elemszám és µ maximális bizonytalanság esetén az ε maximális eltérés megbecslése:
− δ 2 ln 2n 2012. 03. 30.
µ 2 ≤ε
45
15
2012. 03. 30.
Nemparaméteres módszerek A minta elemszám becslése a Bernstein-egyenlıtlenség alapján: amennyiben az méréseink garantáltan az (a,b) intervallumba esnek, és ismert a σ szórás
1 n − nε 2 P ∑ X i − m > ε ≤ 2 exp ( ) 2 ε b − a 2σ 2 + n i =1 3
⇒
n≥−
b−a µ ln ⋅ 2σ 2 + 2ε 3 2
ε2
2012. 03. 30.
46
Az eltérés és bizonytalanság becslése, ha ismert az n Adott n minta elemszám és ε maximális eltérés esetén a µ maximális bizonytalanság megbecslése:
− nε 2 µ ≥ 2 exp 2σ 2 + 2ε (b − a ) 3 Adott n minta elemszám és µ maximális bizonytalanság esetén az ε maximális eltérés megbecslése:
2
ε≥
(b − a ) ln 2 + 3
µ
2
(b − a ) 2 µ 2 ln + 8nσ 2 ln 3 2 µ 2n
2012. 03. 30.
47
Csernov-egyenlıtlenség A Csernov-egyenlıtlenség binomiális eloszlású változó farokeloszlására vonatkozik, tehát paraméteres becslési módszert tesz lehetıvé. Ez azzal kecsegtet, hogy a szükséges minta elemszámra kisebb értékeket lehet vele igazolni, mint a nemparaméteres Hoeffding- illetve Bernstein- egyenlıtlenség esetén. Jelölje X az n minta elemszámú méréssorozatban a megfigyelt A esemény gyakoriságát. Az A esemény p=P(A) valószínőségére akarunk legfeljebb 2ε szélességő, 1-µ megbízhatóságú konfidencia-intervallumot szerkeszteni.
2012. 03. 30.
48
16
2012. 03. 30.
Csernov-egyenlıtlenség Az X n,p-paraméterő binomiális eloszlást követ: Az X értékkészlete három diszjunkt részre bontható, alsó (a), középsı (k) és felsı (f) részre:
n P ( X = k ) = p k (1 − p ) n − k , k = 0,1,..., n k H a = {0,..., [n( p − ε )]}
H
Ha Hk 67 8 6447 448 647f 48 [____ |____________ | ________]
H k = {[n( p − ε )] + 1,..., [n( p + ε ]} H f = {[n( p + ε )] + 1,...n}
2012. 03. 30.
49
Csernov-egyenlıtlenség P ( X ∈ H a ) = P ( X < n( p − ε ) ) ≤ p−ε 1 − p + ε + (1 − p + ε ) ln ≤ exp − n ( p − ε ) ln p 1 − p illetve
P( X ∈ H f ) = P( X > n( p + ε ) ) ≤ p+ε 1 − p − ε + (1 − p − ε ) ln ≤ exp − n ( p + ε ) ln p 1 − p 2012. 03. 30.
50
Csernov-egyenlıtlenség X P − p < ε ≥ 1 − µ n
P(n( p − ε ) < X < n( p + ε )) ≥ 1 − µ P (n( p − ε ) < X < n( p + ε ) ) = P ( X ∈ H k ) ≥ 1 − µ Ez pontosan akkor áll fenn, ha
(
)
P( X ∈ H a ) + P X ∈ H f ≤ µ ami természetesen teljesül, ha
P ( X ∈ H a ) ≤ µ1 , 2012. 03. 30.
P( X ∈ H f ) ≤ µ 2 ,
µ1 + µ 2 = µ 51
17
2012. 03. 30.
Csernov-egyenlıtlenség A minta elemszám minimumának becslése a Csernov-egyenlıtlenség alapján: 1 1 ln ln µ1 µ2 n ≥ max , ( p + ε ) ln p + ε + (1 − p − ε ) ln 1 − p − ε ( p − ε ) ln p − ε + (1 − p + ε ) ln 1 − p + ε p 1− p p 1 − p
µ1 µ2
az alsó tartományhoz tartozás valószínősége a felsı tartományhoz tartozás valószínősége
p
a becsült valószínőség nagysága
ε
az elıírt pontosság
2012. 03. 30.
52
A minta elemszámok becslései Moivre Laplace
p=0,01,ε=0,01,µ=0,1
Csernov
Bernstein
Hoeffding
268
588
793
14979
1071
2737
2772
59915
p=0,01,ε=0,02,µ=0,1
67
175
248
3745
p=0,01,ε=0,02,µ=0,05
95
228
306
4611
p=0,01,ε=0,01,µ=0,05
380
765
976
18444
p=0,01,ε=0,005,µ=0,1
A Moivre-Laplace tétellel kapjuk a legjobb becslést, de bizonyított, hogy p ≈ 0 vagy 1 esetén a konvergencia lassú, azaz a módszer ilyenkor nem alkalmazható. 2012. 03. 30.
53
Csernov-egyenlıtlenség µ függése p -tıl és n -tıl 1,2
1
n=100, ε=0.1 0,8
µ
n=500, ε=0.1 0,6
n=50, ε=0.1 0,4
0,2
987
958
929
900
871
842
813
784
755
726
697
668
639
610
581
552
523
494
465
436
407
378
349
320
291
262
233
204
175
88
59
146
117
1
30
0
p
2012. 03. 30.
54
18
2012. 03. 30.
Csernov-egyenlıtlenség 1,2
µ függése p - tıl és ε -tól 1
n =100, ε =0.1 n =100, ε =0.3 0,8
n =100, ε =0.5 0,6
n =100, ε =0.9 0,4
0,2
0 1
38
75
112 149 186 223 260 297 334 371 408 445 482 519 556 593 630 667 704 741 778 815 852 889 926 963 1000
2012. 03. 30.
55
Szekvenciális próba a hibavalószínőség ellenırzésére H 0 : P ( S ) = p0
ε1 =
H 1 : P ( S ) = p1
ε2 =
A=
ε2
B=
1 − ε1
1− ε2
ε1
P (H 0 − t elutasítottuk, holott igaz ) P (H 0 − t elfogadtuk, holott nem igaz ) n
V1 = X 1 ,V2 = X 1 + X 2 , L ,Vn = ∑ X i , L i =1
Addig folytatjuk a mintavételezést, amíg: An < Vn < Bn 1 − p0 1 − p1 p1 (1 − p0 ) ln p0 (1 − p1 )
ln A + n ln An =
1 − p0 1 − p1 p1 (1 − p0 ) ln p0 (1 − p1 )
ln B + n ln Bn =
2012. 03. 30.
56
Szekvenciális próba a hibavalószínőség ellenırzésére A döntéshez szükséges átlagos minta elemszámra bebizonyítható, hogy:
n=
(1 − ε 1 )ln A + ε 1 ln B p 1 − p1 p0 ln 1 + (1 − p0 ) ln p0
n=
ha igaz a nullhipotézis;
1 − p0
ε ln A + (1 − ε 2 ) ln B 2
p1 ln
2012. 03. 30.
p1 1 − p1 + (1 − p1 ) ln p0 1 − p0
ha nem igaz a nullhipotézis
57
19
2012. 03. 30.
Adott mintaelemszám és maximális ε eltérés esetén a maximális µ bizonytalanság megbecslése − 2nε 2 2 exp 2 δ
Hoeffding:
≤µ
− nε 2 2σ 2 + 2ε (b − a ) 3
Bernstein:
µ ≥ 2 exp
Csernov: p +ε 1− p −ε + n(1 − p − ε ) ln µ ≥ exp − n( p + ε )ln p 1− p
p −ε ε + exp − n( p − ε )ln + nε ln p 1 − p
2012. 03. 30.
58
Adott mintaelemszám és maximális ε eltérés esetén a maximális µ bizonytalanság megbecslése 50 100 150 200 250 300 350 400 500 600 700 800 900 1000 2000 3000 5000 10000
20 1,990 1,981 1,971 1,962 1,953 1,943 1,934 1,925 1,906 1,888 1,870 1,852 1,835 1,817 1,651 1,500 1,239 0,767
25 1,985 1,970 1,956 1,941 1,927 1,912 1,898 1,884 1,856 1,828 1,801 1,774 1,748 1,722 1,483 1,277 0,946 0,448
30 1,979 1,957 1,936 1,916 1,895 1,875 1,855 1,835 1,796 1,757 1,720 1,683 1,647 1,612 1,300 1,048 0,681 0,232
35 1,971 1,942 1,914 1,886 1,859 1,832 1,805 1,779 1,727 1,677 1,629 1,582 1,536 1,492 1,112 0,830 0,461 0,106
40 1,962 1,925 1,888 1,852 1,817 1,783 1,749 1,716 1,651 1,589 1,530 1,472 1,417 1,363 0,929 0,634 0,294 0,043
45 1,952 1,905 1,860 1,815 1,772 1,729 1,688 1,647 1,569 1,495 1,424 1,357 1,293 1,232 0,758 0,467 0,177 0,016
50 1,941 1,884 1,828 1,774 1,722 1,671 1,622 1,574 1,483 1,396 1,315 1,239 1,167 1,099 0,604 0,332 0,100 0,005
a= b=
55 1,929 1,860 1,794 1,730 1,669 1,609 1,552 1,497 1,392 1,295 1,205 1,120 1,042 0,969 0,470 0,228 0,053 0,001
60 1,916 1,835 1,757 1,683 1,612 1,544 1,479 1,417 1,300 1,192 1,094 1,004 0,921 0,845 0,357 0,151 0,027 0,000
65 1,901 1,808 1,718 1,634 1,553 1,476 1,404 1,334 1,206 1,090 0,985 0,890 0,805 0,727 0,264 0,096 0,013 0,000
70 1,886 1,779 1,677 1,582 1,492 1,407 1,326 1,251 1,112 0,989 0,880 0,782 0,696 0,619 0,191 0,059 0,006 0,000
80 1,852 1,716 1,589 1,472 1,363 1,263 1,170 1,083 0,929 0,797 0,684 0,587 0,504 0,432 0,093 0,020 0,001 0,000
110 3000
2012. 03. 30.
59
Adott n mintaelemszám és maximális µ bizonytalanság esetén az ε maximális eltérés megbecslése
− δ 2 ln
Hoeffding:
Bernstein:
2012. 03. 30.
2n
2
ε≥
(b − a ) ln 2 + 3
µ
µ 2 ≤ε
2
(b − a ) 2 µ 2 ln + 8nσ 2 ln 3 2 µ 2n
60
20
2012. 03. 30.
Adott n mintaelemszám és maximális µ bizonytalanság esetén az ε maximális eltérés megbecslése 50 100 150 200 250 300 350 400 500 600 700 800 900 1000 2000 3000 5000 10000 2012. 03. 30.
0,2 438,5364 310,0921 253,1891 219,2682 196,1195 179,0318 165,7512 155,046 138,6774 126,5946 117,2038 109,6341 103,364 98,05973 69,3387 56,61481 43,85364 31,00921
0,15 465,1255 328,8934 268,5403 232,5627 208,0104 189,8867 175,8009 164,4467 147,0856 134,2702 124,31 116,2814 109,6311 104,0052 73,54279 60,04744 46,51255 32,88934
0,1 500,2065 353,6994 288,7944 250,1033 223,6992 204,2085 189,0603 176,8497 158,1792 144,3972 133,6858 125,0516 117,8998 111,8496 79,08959 64,57638 50,02065 35,36994
0,05 555,0666 392,4913 320,4678 277,5333 248,2333 226,605 209,7954 196,2457 175,5275 160,2339 148,3478 138,7666 130,8304 124,1167 87,76373 71,65879 55,50666 39,24913
0,02 620,1842 438,5364 358,0635 310,0921 277,3548 253,1891 234,4076 219,2682 196,1195 179,0318 165,7512 155,046 146,1788 138,6774 98,05973 80,06543 62,01842 43,85364
0,01 665,2223 470,3832 384,0663 332,6112 297,4965 271,5759 251,4304 235,1916 210,3618 192,0331 177,7881 166,3056 156,7944 148,7482 105,1809 85,87984 66,52223 47,03832 61
21