Matematikai statisztika
2008. május 28.
ii
Tartalomjegyzék 1. A statisztika alapfogalmai 1.1. Alapstatisztikák . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Feladatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 2 6
2. Véletlen a statisztikában 2.1. Véletlen mennyiségek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Nevezetes eloszlások . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Feladatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11 11 13 16
3. Becslés 3.1. Pontbecslés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Intervallum becslés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Feladatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 21 26 30
4. Hipotézis vizsgálat 4.1. Arány illetve valószín½uség próbája, (n;c) terv . . . 4.2. Átlag és szórás próbái normális eloszlás esetén . . 4.3. Nem paraméteres próbák . . . . . . . . . . . . . . 4.3.1. Illeszkedés vizsgálat . . . . . . . . . . . . . 4.3.2. Függetlenség vizsgálat 2 próbával . . . . 4.3.3. Homogenitás vizsgálat Wilcoxon próbával 4.4. Feladatok . . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
35 36 39 43 43 45 46 47
5. Regresszió analízis 5.1. Többváltozós lineáris regresszió . . . . . . . . . . . . . . . . . . . . . . .
55 56
6. Szórásanalízis 6.1. Egyszer½u osztályozás . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59 60
A. Táblázatok
63
B. Képletek
73
iii
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
iv
TARTALOMJEGYZÉK
1. fejezet A statisztika alapfogalmai Statisztikai feladatnak azt nevezzük, amikor egy alapsokaság (véges vagy végtelen halmaz) valamely jellemz½ojére kívánunk következtetni egy minta (az alapsokaság egy véges részhalmaza) elemeib½ol. Az ilyen feladatokban megfogalmazható kérdések, és az alkalmazható módszerek alapvet½oen függenek az alapsokaság, és így a minta eleminek mibenlétét½ol, meg…gyelhet½o adattípusától. Ezek az adattípusok a meg…gyelés egy adott szempontja, ismérve szerint a következ½ok lehetnek: 1. Nominális Amikor két elemr½ol csupán azonosságuk illetve különböz½oségük dönthet½o el. 2. Ordinális Amikor két elemr½ol nemcsak különböz½oségük, de a köztük lév½o sorrend is eldönthet½o, de a különböz½oségek mértéke nem összehasonlítható. 3. Intervallum Amikor a különböz½o elemek sorrendiségén kív½ul a különböz½oségük mértéke, mint az adatok különbsége megadható, de arányuk nem értelmezhet½o. 4. Arány típus (mennyiségi adattípus) Amikor egy elem meg…gyelésének eredménye egy mennyiségi adat, tehát egy valós szám. Természetesen az egyes adattípusok a fenti sorrendben azt megel½oz½o típusként is használhatók. Egy elemmel kapcsolatos meg…gyelés eredménye a fenti típusok tetsz½oleges együttese is lehet, és így egy minta kapcsán adataink egy olyan táblázatba rendszerezhet½ok, melynek sorai az esetek, egy minta elemmmel kapcsolatos meg…gyelt ismérvek adatai, oszlopai pedig a váltzók, az ismérvek adatai az egyes esetekben. Következtetéseinket egy ilyen adathalmazból nyerhet½o, általában mennyiségi típusú eredmény, úgynevezett statisztika segítségével hozzuk meg.
1
2
1. FEJEZET. A STATISZTIKA ALAPFOGALMAI
1.1. Alapstatisztikák Statisztikai feladatokban sokszor az alapsokaság valamely mennyiségi jellemz½ojére kell következtetnünk, aminek ésszer½u módja, ha a minta hasonló jellemz½ojével, tehát egy statisztika értékének kiszámításával válaszolunk. Természetesen, ha másik mintát választunk, következtetésünk is más lesz, ezért ezt az eljárást, a bizonytalanságot is kifejez½o becslés kifejezéssel nevezzük meg. Az alábbiakban felsorolunk néhány gyakran használt jellemz½ot és a megfelel½o becslését, feltüntetve a szükséges adattípust. Az alapsokaság illetve a minta elemeinek egy adott ismérv szerinti értékeit jelölje a továbbiakban X1 ; X2 ;
; XN
illetve x1 ; x2 ;
; xn .
Oridális adattípus esetén az értékeket növekv½o sorrenbe rendezve kapjuk: X1
XN
X2
illetve x1
xn .
x2
1. Arány (nominális adattípus) Ha az N elem½u alapsokaság elemei között M számú rendelkezik egy adott tulajdonsággal, akkor a p = M arány becslése egy n elem½u mintából pb = nk ; ha a minta N elemei közül k számú rendelkezik az adott tulajdonsággal. Jelölése: p=
M N
pb =
2. Középértékek
k . n
(a) Módusz (nominális adattípus) Ha az alapsokaság elemei közül a legtöbb az MO (nominális) értékkel rendelkezik, és a mintában ez az érték mo , akkor az MO
mo
becslést használjuk. Természetesen az is el½ofordulhat, hogy több ugyanilyen gyakori érték van akár az alapsokaságban, akár a mintában, ilyenkor többes módusz ról beszélünk. (b) Medián (ordinális adattípus) Páratlan elemszámú alapsokaság illetve minta esetén a rangsorban középs½o elem jellemz½ojének ME = X N +1 2
illetve me = x n+1 2
értéke. Páros elemszám esetén a két középs½o jellemz½ojének értéke közötti érték, ami mennyiségi adattípus esetén a ME =
X N + X N +1 2
2
2
illetve me =
számtani közép. Tehát ME
me
x n + x n +1 2
2
2
3
1.1. ALAPSTATISZTIKÁK
(c) Átlag (mennyiségi adattípus) P Az alapsokaság m = N1 N i=1 Xi átlagának becslése az x = átlag statisztika, tehát m x.
1 n
Pn
i=1
xi (minta-)
(d) Mértani közép (pozitív s mennyiségi adattípus) rn N Q Q N Xi mértani közepének becslése az x e = n xi Az alapsokaság = i=1
i=1
(minta-) mértani közép statisztika, tehát
x e.
3. Szóródás mértékei
(a) Terjedelem (intervallum adattípus) A legnagyobb és legkisebb érték különbsége, azaz T = XN
X1
illetve t = xn
x1 ,
tehát T
t.
(b) Átlagos abszolut eltérés (mennyiségi adattípus) Az átlagtól való eltérések abszolut értékének átlaga N 1 X = jXi N i=1
1X illetve d = jxi n i=1 n
mj
xj ,
tehát d. (c) Átlagos négyzetes eltérés, szórásnégyzet illetev szórás (mennyiségi adattípus) Az átlagtól való négyzetes eltérések átlaga 2
=
N 1 X (Xi N i=1
1X (xi n i=1 n
m)2
illetve s2 =
és az eredeti mértékegység elnyeréséhez gyököt vonva: v v u u n N u1 X u1 X 2 t = (Xi m) illetve s = t (xi N i=1 n i=1
x)2 ,
x)2 ,
tehát
s Kézirat, módosítva: 2008. május 28.
4
1. FEJEZET. A STATISZTIKA ALAPFOGALMAI
Megjegyzések: 1. Ha az alapsokaság N elemszáma nagy, illetve végtelen, a jellemz½ok egy un. s½ur½uségfüggvénnyel adhatók meg. Például az alapsokaság átlagának és szórásának értéke, ha az alapsokaság jellemz½ojének eloszlása az f : R ! R0+ s½ur½uségfüggvénnyel adható meg: sZ Z Z +1
+1
x f (x)dx
m=
=
1
+1
m)2 f (x)dx
(x
ahol
1
f (x)dx = 1.
1
2. A minta jellemz½oit a megkülönböztetés hangsúlyozása érdekében esetenként a minta, illetve empírikus jelz½okkel említjük majd. 3. A medián fogalmának természetes kiterjesztése a p-kvantilis, ami a minta esetén 0
w) xi + w xi+1
qp = (1 ahol i = [(n + 1) p]
w = (n + 1) p
i
x 0 = x1
xn+1 = xn
tehát sorrendben az (n + 1) p-edik érték, ha ez egész, illetve lineáris interpoláció eredménye. Ezzel teljesül me = q0:5 , továbbá q0:25 , q0:75 az un. alsó és fels½o kvartilisek. 4. Könnyen ellen½orízhet½ok a mintából számolt statisztikákra az alábbi összefüggések: 1X 2 s = x n i=1 i n
2
0
1 n
n X i=1
jxi
n 1X (xi n i=1
me j x)2
d
1 n
x2
s
n X i=1
jxi
cj
n 1X (xi n i=1
c)2
c2R c2R
5. Sok esetben a mintából rendelkezésre állnak sorrenben az egyes x1 < x 2 <
< xk
értékek, és el½ofordulásuk f1 ; f2 ;
; fk 2 N
mintabeli gyakorisága. Ekkor a minta elemszáma, az empírikus átlag és szórásnégyzet statisztikák: n=
k X i=1
1X x= fi xi n i=1 k
fi
1X s = fi x2i n i=1 k
2
x2 .
(1.1)
5
1.1. ALAPSTATISZTIKÁK
6. Nagy elemszámú, mennyiségi adatokat tartalmazó minta esetén szokás a minta elemeit csoportokba, egymást követ½o osztályokba sorolva megadni. Ekkor az osztályok x1 < x 2 <
< xk
középpontjaival, és ; fk 2 N
f1 ; f2 ; elemszámaival n =
Pk
i=1
fi , és (1.1) további képletei jó közelítésként használhatók.
Ha a legnagyobb elemszámú osztály az i-edik, melynek határai a < b, a módusz jó közeltéseként használjuk k1 mo = a + h, k1 + k2 ahol k1 = fi
fi
k2 = fi
1
fi+1
h=b
a.
Ha f=
i 1 X
n 2
fj
j=1
i X
és
j=1
fj >
n 2
és az i-edik osztály határai a < b, akkor a medián jó közelítése lesz me = a +
n 2
f fi
h.
Hasonlóan kaphatjuk a kvantilisek qp = a +
p n f h, fi
közelítését, ahol most f=
i 1 X
fj
és
p n
j=1
i X
fj > p n
j=1
teljesül az i-edik osztályra. 7. Az un. rétegezett mintavétel esetén a minta elemei több csoportba sorolva állnak rendelkezésre. Ha ezen minta csoportok x11 ; x12 ; x21 ; x22 ;
; x1n1 ; x2n2 .. .
xk1 ; xk2 ;
; xknk Kézirat, módosítva: 2008. május 28.
6
1. FEJEZET. A STATISZTIKA ALAPFOGALMAI
akkor n =
Pk
i=1
ni ; és az egyes csoportok
ni 1 X xi = xij ni j=1
s2i
ni 1 X = x2 ni j=1 ij
x2i
i = 1; 2;
;k
statisztikáiból kapjuk a teljes mintára vonatkozó 1X x= ni xi n i=1 k
s2 =
1 (SSB + SSW ) n
statisztikák értékét, ahol jelölje az alábbi négyzetösszegeket: SSM = n x2 SSB = SSW =
k X
i=1 k X
x)2
ni (xi ni
s2i
=
i=1
SST =
ni k X X
ni k X X
(xij
xi )2
i=1 j=1
x2ij .
i=1 j=1
Az SSW un. bels½o vagy csoporton belüli négyzetösszeg, az SSM átlaghoz tartozó, és az SSB un. csoportok közötti vagy küls½o négyzetösszegekre teljesül, hogy az un. teljes négyzetösszeg felírható SST = SSM + SSB + SSW , vagy másképp SST
SSM =
ni k X X
(xij
xi )2 = SSB + SSW .
i=1 j=1
1.2. Feladatok 1.1. Feladat. Egy egyetem hallgatóiból kiválasztottak közül 30 f½o az A-kar, 35 a B-kar, 22 a C-kar és 33 a D-kar hallgatója. Becsüljük a hallagtók százalékos megoszlását az egyes karok között, melyik a legnagyobb létszámú kar? Megoldás. A (nominális adatokból álló) minta, és számolt arányok: x A B C D P
f p = nf 30 30 = 0:25 120 35 = 0:29 35 120 22 22 = 0:18 120 33 33 = 0:28 120 n = 30 + 35 + 22 + 33 = 120 1:00
p 100% 25% 29% 18% 28% 100%
7
1.2. FELADATOK
Tehát a hallagtók becsült megoszlása szakonként 25%, 29%, 18% és 28%, legnagyobb létszámúnak a B-kart becsüljük, mivel a minta módusza mo = B. 1.2. Feladat. Egy négy évfolyamos középiskola tanulóiból válsztott mintából 31 tanuló els½o, 34 tanuló második, 22 tanuló harmadik és 33 tanuló negyedik osztályos. Melyik az iskola legnépesebb évfolyama, becsüljük továbbá a kvartiliseket! Megoldás. A (ordinális adatokból álló) minta, és a kommulált gyakoriságokkal kiegészített táblázat: x 1 2 3 4P
f 31 34 22 33 n = 30 + 35 + 22 + 33 = 120
P
f 31 65 87 120
Tehát legnépesebbnek a második évfolyamot becsüljük, mivel mo = 2, a kvartilisek pedig: q0:25 = 1 me = 2 q0:75 = 4
mert (120 + 1) 0:25 = 30: 25 mert (120 + 1) 0:5 = 60: 5 mert (120 + 1) 0:75 = 90: 75
1.3. Feladat. Egy cég éves nyereség adatai a 2000 évt½ol kezd½od½o négy év során az alábbiak voltak: 1:024 1:105 1:154 1:201 eFt Számítsuk ki az évi nyereség adatok és az évenkénti relatív növekedés átlagát, szórását, átlagos abszolut eltérését, terjedelmét és mediánját! Mennyi az évi átlagos növekedés értéke? Megoldás. A nyereség és százalékban kifejezett növekedési (arány vagy mennyiségi típusú) adatokból álló minta (ami most azonos az alapsokasággal) az alábbi táblázatba rendezhet½o, kiegészítve a számoláshoz szükséges adatokkal: Év 2000 2001 2002 2003 P
x 1:024 1:105 1:154 1:201 4:484
y 1:105 1:024 1:024 1:154 1:105 1:105 1:201 1:154 1:154
100 = 7: 910 2 100 = 4: 434 4 100 = 4: 072 8 16: 417
x2 1: 048 6 1: 221 1: 331 7 1: 442 4 5: 043 7
y2 62: 571 19: 664 16: 588 98: 823
Kézirat, módosítva: 2008. május 28.
8
1. FEJEZET. A STATISZTIKA ALAPFOGALMAI
Tehát a nyereség adatok kért statisztikái (n = 4) r 5: 043 7 4:484 x= = 1: 121 eFt sx = 1: 1212 = 0:065 eFt 4 4 1:105 + 1:154 = 1: 129 5 eFt x4 x1 = 1:201 1:024 = 0:177 eFt me = 2 j1:024 1: 121j + j1:105 1: 121j + j1:154 1: 121j + j1:201 1: 121j dx = = 4 = 0:057 eFt, a növekedés adatokból kapjuk továbbá (n = 3) r 16: 417 98: 823 y= = 5: 47 % sy = 5: 472 = 1: 74 % 3 3 me = 4: 434 4 % y3 y1 = 7: 910 2 4: 072 8 = 3: 84 % j7: 910 2 5: 47j + j4: 434 4 5: 47j + j4: 072 8 5: 47j dy = = 1: 62 %. 3 Az átlagos növekedés (az az állandó éves növekedési mérték, ami ugyanilyen 2003 évi eredményhez vezet) mértékét a növekedési hányadosok ^ 100 +y p 3 = 1:079102 1:044344 1:040728 = 1: 054 6 100 mértani közepéb½ol kapjuk, tehát az átlagos növekedés mértéke: (1: 054 6 5:46%.
1) 100 =
1.4. Feladat. Egy dolgozatot egy 40 f½os tanulócsoport a következ½o eredménnyel írta meg. 10 tanuló tanuló 2.5 pontot, 15 tanuló 5.5 pontot, 10 tanuló 12.5 pontot, és 5 tanuló 17.5 pontot ért el. Adjuk meg az eredmények statisztikai jellemz½oit! Megoldás. Rendszerezzük adatainkat a következ½o táblázatba: x 2:5 5:5 12:5 17:5 P
f 10 15 10 5 n = 40
P
f 10 25 35 40
x f x2 f 2:5 10 = 25:0 2:52 10 = 62: 5 5:5 15 = 82: 5 5:52 15 = 453: 75 12:5 10 = 125:0 12:52 10 = 1562: 5 17:5 5 = 87: 5 17:52 5 = 1531: 3 320:0 3610: 1
Tehát az átlag és szórás értéke 320:0 x= = 8:0 40
s=
r
3610: 1 40
8:02 = 5: 1 ,
9
1.2. FELADATOK
az átlagos abszolut eltérés és terjedelem d=
10 j2:5
8:0j + 15 j5:5 x40
8:0j + 10 j12:5 8:0j + 5 j17:5 40 x1 = 17:5 2:5 = 15 ,
8:0j
= 4: 63
a módusz és a kvartilisek mo = 5:5 q0:25 = 0:75 2:5 + 0:25 5:5 = 3: 25 mert 0:25 41 = 10: 25 me = 5:5 mert 0:5 41 = 20: 5 q0:75 = 12:5 mert 0:75 41 = 30: 75 1.5. Feladat. Egy országúti sebességmérés alakalmával, a megengedett sebességet túllép½ok közül 10 gépjárm½u 5 km/óra sebességnél kevésbé, 15 gépjárm½u 5 és 10 km/óra közötti, és 10 gépjárm½u 10 és 15 km/óra 10 km/óra közötti, 5 gépjárm½u 15 km/óra sebességnél nagyobb mértékben tért el a megengedett½ol, és a legnagyobb túllépés mértéke 20 km/óra volt. Adjuk meg a sebesség túllépés mértékének statisztikai jellemz½oit! Megoldás. Az osztályközökkel adott mintát kiegészítve a középpontokkal, adatainat a következ½o táblázatba rendezhetjük: P f Osztály határok x f x f x2 f 0 5 2:5 10 10 2:5 10 = 25:0 2:52 10 = 62: 5 5 10 7:5 15 25 7:5 15 = 112: 5 7:52 15 = 843: 75 10 15 12:5 10 35 12:5 10 = 125:0 12:52 10 = 1562: 5 15 P 20 17:5 5 40 17:5 5 = 87: 5 17:52 5 = 1531: 3 n = 40 350:0 4000:1
Tehát az átlag és szórás értéke
r 350:0 4000: 1 x= = 8: 75 km/óra s= 8:752 = 4: 841 5 km/óra 40 40 az átlagos abszolut eltérés és terjedelem, valamint a módusz és a kvartilisek: d=
10 j2:5
8: 75j + 15 j5:5 x40 5 5+5 0:25 q0:25 = 5 + 15 10:5 me = 5 + 15 5:75 q0:75 = 10 + 10 mo = 5 +
8: 75j + 10 j12:5 8: 75j + 5 j17:5 40 x1 = 20 0 = 20 km/óra,
8: 75j
= 4: 812 5 km/óra
5 = 7:5 km/óra 5 = 5:1 km/óra
mert 0:25 41 = 10: 25
5 = 8:5 km/óra
mert 0:5 41 = 20: 5
5 = 12:9 km/óra
mert 0:75 41 = 30: 75
Kézirat, módosítva: 2008. május 28.
10
1. FEJEZET. A STATISZTIKA ALAPFOGALMAI
2. fejezet Véletlen a statisztikában Már említettük a statsztikai következtetések bizonytalanságát, melynek forrása a mintavétel esetlegessége, hacsak nem az egész alapsokaság alkotja a mintát. A mintavétel önmagában is kérdéseket vet fel, ugyanis nehéz annak kritériumát megadni, hogy a minta valóban olyan-e minden szempontból, mint az alapsokaság. Az ilyen, un. reprezentatív minta egy véletlen kísérlet eredményének tekinthet½o, amivel éppen azt fogadjuk el, hogy az egyik minta semmivel sem valószín½ubb mint bármelyik másik, ezért aztán jellemz½oik is azonos tulajdonságokat mutatnak. Tehát a minta egy véletlen kísérlet eredménye, és az abból számolt statisztikák pedig mint véletlen mennyiségek értelmezhet½ok. Ezért szükségünk lesz a valószín½uségszámítás néhány ezzel kapcsolatos fogalmára, melyeket a következ½okben tekintünk át a teljesség, és még kevésbé a matematikai pontosság igénye nélkül.
2.1. Véletlen mennyiségek Egy
véletlen mennyiségr½ol, vagy valószín½uségi változóról akkor beszélünk, ha az fx1 ; x2 ;
g
R
véges sok vagy megszámlálhatóan végtelen sok lehetséges értékhez adottak a 2 [0; 1]
p 1 ; p2 ;
un. diszkrét valószín½uségeloszlás valószín½uségei, azaz P ( 2 A) =
X
pi
P
i
A
pi = 1, és R
xi 2A
ami a 2 A esemény bekövetkezésével kapcsolatos bizonyosságunk mértékét, az esemény valószín½uségét adja meg mint egy [0; 1]-beli mennyiség. Speciálisan P ( = xi ) = pi 11
i = 1; 2;
.
12
2. FEJEZET. VÉLETLEN A STATISZTIKÁBAN
Ha a lehetséges értékek az egész számegyenest, vagy annak egy intervallumát kitöltik, eloszlása egy f : R ! R+ 0 R +1 un. valószín½uségi s½ur½uségfüggvénnyel jellemzhet½o, azaz 1 f (x)dx = 1; és ekkor Z P ( 2 A) = f (x)dx A R. A
Ez utóbbi esetben folytonos eloszlásról beszélünk, és használjuk az Z x f (t)dt x2R F (x) = 1
monoton nem csökken½o un. eloszlásfüggvényt, melyre ekkor teljesül az f s½ur½uségfüggvény x 2 R folytonossági helyein: F 0 (x) = f (x) . Továbbá, ha az I
R intervallum végpontjai a és b, akkor P ( 2 I) = F (b)
F (a)
és ez a = 1 esetén F ( 1) = 0; illetve b = +1 esetben F (+1) = 1 helyettesítésével is érvényes marad. Valószín½uségi változók legfontosabb jellemz½oje a véletlen ingadozás centruma, az Z +1 X E( ) = xi pi illetve E( ) = x f (x)dx 1
i
várható érték, és az ingadozás mértéke, a nemnegatív q p D( ) = E ( E( ))2 = E( 2 ) szórás, ahol
2
E( ) =
X i
x2i
pi
2
illetve E( ) =
Z
E 2( )
+1
x2 f (x)dx 1
feltételezve az itt szerepl½o végtelen sorok és improprius integrálok abszolut konvergenciáját. Vegyük észre, hogy egy alapsokaság átlaga és szórása egy véletlen mennyiség várható értékének és szórásának tekinthet½o, és például nagy elemszámú alapsokaság esetén módusza az f s½ur½uségfüggvény maximum helye, mediánja pedig az F (x) = 21 egyenlet megoldása. Tehát egy alapsokaság mennyiségi jellemz½oi azonosíthatók egy valószín½uségi változó megfelel½o jellemz½ojével, paraméterével. A várható érték és szórás néhány fontos tulajdonsága a következ½o. Ha ; véletlen mennyiségek, és a; b 2 R, akkor E(a + b ) = a E( ) + b E( ) D(a + b) = jaj D( ) D2 ( ) = E( 2 ) E 2 ( )
13
2.2. NEVEZETES ELOSZLÁSOK
és ha még
és
függetlenek, azaz P ( 2 A; 2 B) = P ( 2 A) P ( 2 B)
akkor teljesül D( + ) =
p
A; B
R
D2 ( ) + D2 ( ) .
2.2. Nevezetes eloszlások A továbbiakban felsorolunk néhény nevezetes véletlen kísérletet, és megadjuk az ezzel kapcsolatos véletlen mennyiség eloszlását és jellemz½oit. 1. Egy menyiség véletlen választása véges sok egyformán valószín½u lehet½oség közül. Legyenek ; xn 2 R
x 1 ; x2 ; és
1 i = 1; 2; ;n . n Ekkor a diszkrét egyenletes eloszlású valószín½uségi változó várható értéke és szórása v u n n X u1 X 1 E( ) = x = xi D( ) = s = t x2 x2 . n i=1 n i=1 i P ( = xi ) =
Tehát az empírikus átlag illetve szórás statisztika egy ilyen eloszlás várható értéke és szórása. 2. Mintavétel.
Legyen az N elemszámú halmaz elemei közül M számú megjelölt (hibás, jó, stb.). Válasszunk találomra n számút, és jelölje a válsztottak között a megjelöltek számát. Ekkor a lehetséges értékek 0; 1; 2;
;n
és ha a mintavétel (a) visszatevés nélkül történik, akkor P ( = k) =
M k
N M n k N n
k = 0; 1; 2;
;n
ami az un. hipergeometrikus eloszlás, melynek várható értéke és szórása s n 1 E( ) = n p D( ) = n p q 1 N 1 Kézirat, módosítva: 2008. május 28.
14
2. FEJEZET. VÉLETLEN A STATISZTIKÁBAN
ahol
M illetve q = 1 p N a megjelölt illetve a nem megjelölt válsztásának esélye. p=
(b) visszatevéssel történik, akkor P ( = k) =
n k
pk q n
k
k = 0; 1; 2;
;n
ami az un. binomiális eloszlás, melynek várható értéke és szórása E( ) = n p
D( ) =
p
n p q.
Megjegyzés: Könnyen belátható, hogy elég nagy M < N esetén, a kétféle mintavétel hasonló eloszláshoz vezet, ami a paraméterek közel azonosságában is megmutatkozik. Az is megmutatható, hogy a binomiális eloszlás tagjai n ! 1 és n p = állandó esetén konvergensek, és lim
n!1
n k
k
pk q n
k
=
k!
e
k = 0; 1; 2;
ezért értelmezhet½o a következ½o véletlen kísérlet. 3. Véletelen eseményszám meg…gyelése. Egy esemény bekövetkezései számának, a valószín½uségi változónak a lehetséges értékei 0; 1; 2; , a megfelel½o valószín½uségek pedig k
P ( = k) =
k!
e
k = 0; 1; 2;
ami az un. Poisson eloszlás, melynek várható értéke és szórása p E( ) = D( ) = . 4. Véletlen szám választása az [a; b] A
R intervallumból.
véletlen szám folytonos eloszlású 8 < 0 ha x < a 1 ha a x b f (x) = : b a 0 ha b < x
F (x) =
a+b 2
D( ) =
8 < 0 :
x a b a
1
ha x a ha a < x ha b < x
b
s½ur½uség és eloszlásfüggvénnyel. Ez az un. folytonos egyenletes eloszlás, melynek várható értéke és szórása E( ) =
b a p . 2 3
15
2.2. NEVEZETES ELOSZLÁSOK
5. Véletlen id½otartam. Ha a véletlen id½otartam, egy id½oegység alatt átlagosan ok miatt ér véget, s½ur½uség és eloszlásfüggvénye 0 e
f (x) =
x
ha x 0 ha 0 < x
F (x) =
0 e
1
számúszor bekövetkez½o
x
ha x 0 ha 0 < x
.
Ez az un. exponenciális eloszlás, melynek várható értéke és szórása E( ) =
1
D( ) =
1
.
Megjegyzés: A paraméter½u exponenciális eloszlású valószín½uségi változó 0 < c pozitív számszorosa, theát c is exponenciális eloszlású c paraméterrel. 6. Sok véletlen érték összege, mérési eredmény. Ha sok véletlen mennyiség összege, mint például egy mérés véletlen hibával terhelt eredménye, eloszlása az un. normális eloszlás, melynek s½ur½uség és eloszlásfüggvénye f (x) =
1
'
x
m
F (x) =
x
m
x2R,
ahol
Z x x2 t2 1 1 p e 2 dt x 2 R (x) = '(x) = p e 2 2 2 1 az un. standard normális eloszlás s½ur½uség és eloszlásfüggvénye. Az eloszlás paraméterei E( ) = m D( ) = ,
aminek jelölése: Megjegyzések:
2 N (m; ) .
(a) Az m; paraméter½u normális eloszlású valószín½uségi változó a + b transzformáltja, ahol 0 6= a; b 2 R, szintén normális eloszlású a m + b; jaj paraméterekkel. (b) Független normális eloszlású valószín½uségi változók összege is normális eloszlású, tehát ha 2 N (m1 ; 1 ) és 2 N (m2 ; 2 ) függetlenek, akkor q 2 2 + 2 N m1 + m2 ; . 1 + 2 (c) A normális eloszlás eloszlásfüggvényének számítása a függvény táblázatával történhet, melynek pozítív helyen vett értékeit megtaláljuk a függelékben. Negatív helyen a szimmetria tulajdonságból következ½o ( x) = 1
(x)
összefüggést használhatjuk. Kézirat, módosítva: 2008. május 28.
16
2. FEJEZET. VÉLETLEN A STATISZTIKÁBAN
(d) Megmutatható, hogy sok független azonos eloszlású valószín½uségi változó összegének eloszlása közelít½oen normális eloszlású lesz. Ezért használhatjuk a normális eloszlást sok véletlen hiba összegz½odéseként nyerhet½o mérési eredmények modellezésére. (e) A binomiális eloszlás is közelíthet½o normális eloszlással, ugyanis egy ilyen változó 0 illetve 1 értéket felvev½o n-számú véletlen mennyiség összege. Ez a közelítés akkor kielégít½o, ha n minfp; qg > 10 teljesül a visszatevés nélküli mintavétel esetén. Természetesen ez érvényes a hipergeometriai eloszlásra, amennyiben az közelíthet½o a binimiális eloszlással (M; N ! 1), és a Poisson eloszlásra ( > 10), mivel az a binomiális eloszlás határeloszlása.
2.3. Feladatok 2.1. Feladat. Számítsuk ki a nevezetes eloszlások várható értékét, szórását, móduszát, és a folytonos eloszlások kvartiliseit! 2.2. Feladat. Számítsuk ki a véges sokaságból vett minta átlagának várható értékét és szórását! Számítsuk ki továbbá az empírikus szórásnégyzet várható értékét! Megoldás. Legyenek az alapsokaság elemei XN 2 R
X1 ; X2 ; és jelölje m=
1 N
N X k=1
Xk
v u N u1 X t = (Xk N k=1
v u N u1 X 2 t m) = X2 N k=1 k
m2
az alapsokaság átlagát és szórását. Tekintsük a mintavétel x 1 ; x2 ;
xn
eredményeit, mint véletlen mennyiségeket, melyek közös eloszlása diszkrét egyenletes eloszlás X1 ; X2 ; XN lehetséges értékekkel, és így v u N N u1 X 1 X t E(xi ) = m = Xk D(xi ) = = (Xk m)2 N k=1 N k=1 E(x2i ) =
N 1 X 2 X = N k=1 k
2
+ m2
ezért
1X E(xi ) = m . n i=1 n
E(x) =
i = 1; 2;
;n ,
17
2.3. FELADATOK
Ha a mintavétel visszatevéssel történik, ezek a véletlen mennyiségek függetlenek, így
v u n X 1u D(x) = t D2 (xi ) = p . n i=1 n
Ha a mintavétel visszatevés nélkül történik, akkor " n # X X 1 E(x2 ) = 2 E(x2i ) + E(xi xj ) = n i=1 i6=j 2 1 2 2 2 n + m + n(n 1) m n2 N 1 1 n 1 2 1 2 + m2 + (n 1)m2 = = n N 1 n
=
= 2
n N
1
1 1
+ n m2
mivel E(xi
1 xj ) = N (N =
1)
N N
tehát D(x) =
1 s
1 Xl = N (N
Xk
k6=l
1 N (N
m2
1 n
X
2
1)
n N
1
Számoljuk most az
N X
1)
Xk2 =
k=1
1 1
N X
Xk ) =
k=1
2
N N
1
+ n m2
1X 2 s = x n i=1 i
Xk (N m
+ m2 = m2 N 1
m2
m2 = p
n
r
n N
1
2
N
1
1 . 1
n
2
x2
empírikus szórásnégyzet várható értékét a visszatevéses mintavétel esetén: 2
E(s2 ) =
2
+ m2
n
+ m2
=
n
1
2
n
és visszatevés nélküli esetben 2
E(s2 ) =
2
+ m2
n
1
n N
1 + m2 1
=
n
1 n
N
2
N
n 1
1
2
n
mivel E(x2 ) = D2 (x) + E 2 (x) .
Kézirat, módosítva: 2008. május 28.
18
2. FEJEZET. VÉLETLEN A STATISZTIKÁBAN
Megjegyzések: 1. Tehát a mintavétel módjától nem függ az átlag statisztika várható értéke, és az empírikus szórásnégyzet várható értéke is lényegében azonosnak tekinthet½o. A különbség csupán az átlag statisztika szórásában jelenik meg az n N
1
1 N = 1 N
n 1
un. korrekciós tényez½oben, ami a minta n elemszámánál jóval nagyobb, illetve végtelen alapsokaság esetén elhanyagolható. 2. Végtelen, illetve nagy méret½u alapsokaság esetén az m és paraméterek egy alkalmas s½ur½uségfüggvénnyel Z +1 Z +1 2 m= xf (x)dx = x2 f (x)dx m2 1
1
adottak, és eredményeink a visszatevéses esetnek megfelel½oen érvényesek. 2.3. Feladat. Egy bizonyos típusú gépkocsi els½o üzembe helyezése után átlagosan (várhatóan) 15000km megtétele után hibásodik meg. Ha a hibátlaul megtett út hossza exponenciális eloszlású, adjuk meg azt az úthosszt, melynek hibátlan megtétele 90%-os valószín½uség½u? Megoldás.
: megtett út a meghibásodásig, exponenciális eloszlású, E( ) = 15000 =
l =? 0:9 = P ( > l) = 1
F (l) = e
1
l 15000
!
=
!l=
1 15000 15000 ln(0:9) = 1580: 4 km
2.4. Feladat. Egy tantárgy óráin a tanulók átlagosan (várhatóan) 15 percig tudnak …gyelni. Ha ez az id½otartam exponenciális eloszlású, mennyi az az id½otartam (felezési id½o), mely alatt a tanulók fele már nem képes …gyelni? 2.5. Feladat. Ha
egy m;
paraméter½u normális eloszlású mennyiség, adjuk meg a P (j
mj
k
)
k = 1; 2; 3
valószín½uségeket! 2.6. Feladat. Adjuk meg m = 10 kvantiliseit! Megoldás.
= 2 paraméter½u normális eloszlás q0:05 és q0:95
2 N (10; 2) q0:05 =? 0:05 = P ( < q0:05 ) = 1:645 =
q0:05
10 2
! q0:05 = 10
q0:05
10 2
2 1:645 = 6:71
19
2.3. FELADATOK
q0:95
q0:95 =? 0:95 = P ( < q0:95 ) = 1:645 =
q0:95
10 2
2.7. Feladat. Adjuk meg az m;
10 2
! q0:95 = 10 + 2 1:645 = 13:29
paraméter½u normális eloszlás q0:025 és q0:975 kvantiliseit!
2.8. Feladat. Az 1kg-os csomagolású liszt tömege normális eloszlású véletlen mennyiség m = 0:95 kg; = 0:02 kg paraméterekkel. 1. Mennyi annak valószín½usége, hogy egy megvásárolt zacskó tömege 0:90 kg-nál kevesebb? 2. Ha három zacskót vásárolunk, milyen határok között van az össztömeg 95%-os valószín½uséggel? Megoldás. 1.
: egy zacskó tömege, N (0:95; 0:02) eloszlású v.v., P ( < 0:9) =
2.
0:9 0:95 0:02
=
(2:5) = 0:9938
= 1 + 2 + 3 : három zacskó tömege, N 3 0:95; 6b megjegyzés), d =? 0:95 = P (3 0:95
d<
3 0:02 eloszlású v.v. (lásd:
< 3 0:95 + d) = 2
0:975 = 1:96 = p
p
p
p
d 3 0:02
1
d 3 0:02
p d ! d = 3 0:02 1:96 = 6: 789 6 3 0:02
10
2
Tehát a 95%-os valószín½uség½u határok: 3 0:95 6: 789 6 3 0:95 + 6: 789 6
10 10
2 2
= 2: 782 1 = 2: 917 9
2.9. Feladat. Egy 1000 darabos termékhalmazban 250 hibás darab van. 100 elem½u mintát véve, milyen határok között lesz a hibás termékek száma 90%-os valószín½uséggel, ha a mintát 1. visszatevéssel vettük? 2. visszatevés nélkül vettük? Kézirat, módosítva: 2008. május 28.
20
2. FEJEZET. VÉLETLEN A STATISZTIKÁBAN
Megoldás.
: a hibásak száma a mintában,
250 1. n = 100; p = 1000 = 41 = 0:25; binomiális eloszlású v.v., E( ) = 100 14 = 25; D( ) = q p p 100 41 34 = 25 3, közel N 25; 52 3 eloszlású (lásd: 6e megjegyzés),
d =? 0:9 = P (25
d< 0:95 =
< 25 + d) = 2
5 2
d p
d p 5 2
!
3
!
1
3 5p d 3 = 7: 123 1 1:645 = 5 p ! d = 1:645 2 3 2 Tehát a 90%-os valószín½uség½u határok: 25 7: 123 1 = 17: 877 25 + 7: 123 1 = 32: 123
18 32
2.10. Feladat. Egy bizonyos típusú biztosítás kár-eseményeinek átlagos (várható-) száma havonta 120. Mennyi annak valószín½usége, hogy egy adott hónapban 100 alatt marad az ilyen események száma?
3. fejezet Becslés Pontbecslésnek azt az eljárást nevezzük, amikor az alapsokaság valamely mennyiségi jellemz½ojének értékére következtetünk a mintából számolt alkalmas statisztika értékével. Ha a meg…gyelt mintát egy véletlen kísérlet eredményének tekintjük, akkor a jellemz½o, továbbiakban paraméter becsült értéke, a mintából számolt statisztika, tehát egy véletlen mennyiség értéke lesz. Így használhatjuk a becslés jellemzésére a valószín½uségi változókkal kapcsolatos fogalmakat. A # paraméter t statisztikával történ½o becslését jelöljük a továbbiakban t,
# és ezt a becslést torzítatlannak mondjuk, ha
E(t) = # , azaz a becslés eredményeként kapott érték éppen a a becsülni kívánt paraméter körül ingadozó véletlen mennyiség. Egy ilyen torzítatlan becslés fontos jellemz½oje a becslés q D(t) = E (t #)2
standard hibája, azaz a véletlen becsült értéknek a becsült paramétert½ol való eltérésének mértéke. Ha ez a standard hiba a minta méretének növelésével tetsz½olegesen csökkenthet½o, azaz D(t) ! 0 akkor a becslét konzisztensnek nevezzük.
3.1. Pontbecslés A továbbiakban áttekintjük a már említettek közül a leggyakrabban használt becsléseket, és azok tulajdonságait, felhasználva a nevezetes véletlen kísérletek kapcsán megismert összefüggéseket. 21
22
3. FEJEZET. BECSLÉS
1. Arány illeteve valószín½uség paraméter becslése. Ha az N elem½u alapsokaság elemei között M számú rendelkezik egy adott tulajdonsággal, akkor a p = M (q = 1 p) arány becslése egy n elem½u mintából pb = nk ; N ha a minta elemei közül k számú rendelkezik az adott tulajdonsággal. Vizsgáljuk a p pb becslés tulajdonságait. E(b p) =
1 1 E(k) = n p=p n n
Tehát a becslés torzítatlan, és standard hibája, illetve annak becslése, ha a mintavétel
(a) visszatevés nélkül történt, akkor a k véletlen mennyiség hipergeometrikus eloszlású, és
D(b p) = D(b p)
1 1 D(k) = n n s 1 k p 1 n n
s
npq 1
n N
1 1 =p 1 n
k n
n N
1 1
1
s
1 p 2 n
n N
pq 1
r
1
n N
1 , 1 1 1
1 p . 2 n
(b) visszatevéssel (vagy nagy ill. végtelen alapsokaságból) történt, akkor a k véletlen mennyiség binomiális eloszlású, és: D(b p) = D(b p)
1p 1 p 1 D(k) = npq = p p(1 n n n s 1 k k 1 p p . 1 n n n 2 n
p)
Ha a mintavétel rétegezetten történt, vagyis az Ni elemszámú csoportban Mi számú rendelkezik az adott tulajdonsággal, és innen választott ni elem½u mintában ki számú az ilyen tulajdonságúak száma i = 1; 2; r, az egyes csopotokon belüli arányok besclése és a besclések standard hibája: pi =
1 D (b pi ) = p ni
s
p i qi 1
ni Ni
Mi Ni
1 1
pbi = 1 p ni
ki ni
s
ki ni
1
ki ni
1
ni Ni
1 1
23
3.1. PONTBECSLÉS
A teljes sokaságra vonatkozó arány becslése, és a becslés jellemz½oi ekkor X M pb = bi E(b p) = p i p N i=1 v u r uX ni 1 1 2 p i qi 1 D(b p) = t i ni Ni 1 i=1 v u r X 1 u n ki ki ni 1 2 p t 1 1 i ni ni ni Ni 1 n i=1 v v u r u r X X 1 u n ni 1 1 u 2 t t p p 1 Ni 1 2 n i=1 i ni 2 n i=1 n
p=
ahol M=
r X
Mi
N=
i=1
r X
Ni
i
i=1
=
Ni N
n=
r X
2 i
n ni
ni .
i=1
Ha a mintavétel nagy elmszámú rétegekb½ol, illetve visszatevéssel történt, és az egyes ni rétegek i aránya ismert (mert h i pl. a mintavétel arányosan történt, azaz i = n ),
a fenti képletek az 1
ni 1 Ni 1
tényez½o elhagyásával érvényesek.
Mindegyik esetben teljesül a minta elemszámok (minden határon túli) növelése esetén D(b p) ! 0 , tehát a becslés konzisztens, és megadható a standard hiba (véletlent½ol nem függ½o) korlátja, ezért tervezhet½o az a minta elemszám, ami biztosítja, a standard hiba el½oírtan kis értékét. 2. Átlag illetve várható érték és szórás paraméterek becslése. Az alapsokaság m átlaga, vagyis a várható érték és a becslése egy n-elem½u mintából
m
szórás paraméterek szokásos
v u n u1 X s=t (xi n i=1
n 1X x= xi n i=1
x)2 ,
és a 2.2 példa szerint teljesül E(x) = m tehát a várható érték becslése torzítatlan. Az átlag standard hibája, illetve annak becslése, ha a mintavétel Kézirat, módosítva: 2008. május 28.
24
3. FEJEZET. BECSLÉS
(a) visszatevés nélkül történt D(x) = p
n
r
n N
1
1 1
s p n
r
n N
1
1 1
(b) visszatevéssel (vagy nagy ill. végtelen alapsokaságból) vett minta esetén D(x) = p Mindkét esetben teljesül D(x)
s p . n
n
n!1
!0,
tehát a várható érték becslése konzisztens, de a minta mérete most nem tervezhet½o, hacsak nem ismert az alapsokaság szórása. A 2.2 feladat eredménye szerint mindkét esetben (illetve jó közelítéssel) E(s2 ) = tehát a
2
n
1
2
n
s2 becslés torzított, amit korrigálhatunk a 2
s
2
=
1 n
1
n X
x)2
(xi
i=1
un. korrigált empírikus szórásnégyzet alkalmazásával, amit az átlag statisztika standard hibája r s n 1 s 1 D(x) p illetve D(x) p N 1 n n becslésénél is célszer½u használni (els½osorban kis, n < 20 minta elemszám esetén). Ha a mintavétel rétegezetten történt, vagyis az alapsokaság Ni elemszámú csoportjai, és az onnan vett ni elem½u minták fX11 ; X12 ; fX21 ; X22 ; fXr1 ; Xr2 ;
; X1N1 g 3 x11 ; x12 ; ; X2N2 g 3 x21 ; x22 ; .. . ; XrNr g 3 xr1 ; xr2 ;
; x1n1 ; x2n2 ; xrnr
és jelölje mi =
Ni X
Xij
j=1
N=
r X i=1
Ni
i
v u Ni u1 X t (Xij = Ni j=1
n=
r X i=1
ni
i
=
mi )2 Ni N
25
3.1. PONTBECSLÉS
akkor az egyes csoportok paraméterinek becslése: mi
ni 1 X xi = xij ni j=1
2 i
s2i
ni 1 X = x2 ni j=1 ij
x2i
si 2 =
2 i
vagy
ni ni
i = 1; 2;
és a várható értékek becslésének standard hibái r r ni 1 si i 1 1 D (xi ) = p p ni Ni 1 ni
ni Ni
1
s2i
;r
1 1
amivel kapjuk a teljes sokaság várható értékének torzítatlan becslését, és a becslés standard hibáját: m=
r X
i
x=
mi
i=1
v u r X 1 u D (x) = p t n i=1
r X
i
és E(x) = m
xi
i=1
2 i
n ni
2 i
1
ni Ni
1 1
v u r X 1 u p t n i=1
2 i
n 2 s 1 ni i
ni Ni
1 1
illetve a korrigált empírikus szórásnégyzetekkel (kis elemszámú minták esetén) v u r X n 1 u ni 1 2 si 2 1 D (x) p t . i Ni 1 n i=1 ni Ha a mintavétel nagy elmszámú rétegekb½ol, illetve visszatevéssel történt, és az egyes csoportok i arányah ismert (mert pl. a mintavétel arányosan történt, azaz i = nni ), i
a fenti képletek az 1
ni 1 Ni 1
tényez½o elhagyásával érvényesek.
Most is teljesül a minta elemszámok (minden határon túli) növelése esetén D(x) ! 0 ,
tehát a becslés konzisztens, de a standard hiba (véletlent½ol nem függ½o) korlátja nem adható meg el½ore, ezért most sem tervezhet½o az a minta elemszám, ami biztosítja, a standard hiba el½oírtan kis értékét. Megjegyzés: A rétegezett mintavételb½ol kapott várható érték becslés standard hibája általában kisebb lesz, mint hasonló méret½u egyszer½u mintavétel esetén. Ha például nagy elemszámú a sokaság, és a mintavétel arányos volt, a standard hiba és becslése v v u r u r X ni uX ni 1 u 1 2 p t p t si 2 i n n n n i0 i0 Kézirat, módosítva: 2008. május 28.
26
3. FEJEZET. BECSLÉS
míg egyszer½u mintavétel esetén 1 p n
1 p n
sP
k i=1
Pni
x)2
(xij n 1 j=1
vagy a már korábban bevezetett SSB és SSW négyzetösszegekkel s r Pk P x)2 + ki=1 (ni 1 SSB + SSW 1 1 i=1 ni (xi p p =p n 1 n 1 n n n
1) si 2
ami a csoportok közötti SSB négyzetösszeg miatt nagyobb becsült hibát eredményez. Mindez a teljes sokaságra is érvényes, és a különbség akkor lesz számottev½o, ha az egyes rétegek i szórása lényegesen kisebb mint az egész sokaság szórása (mert a réteg-átlagok különböz½oek).
3.2. Intervallum becslés Egy # paraméter (1 )-szint½u intervallum becslése olyan t1 < t2 statisztika pár megadását jelenti, amivel teljesül: P (t1 # t2 ) = 1 2 a becsl½o intervallum amit legtöbbször # t d módon jelölünk majd, ahol t = t1 +t 2 t2 t1 közepe, és d = 2 a becslés hibája. A t1 = 1 illetve t2 = +1 formális választással nyerhetjük az un. fels½o # t2 illetve alsó # t1 becsléseket az (1 )-szinthez, amivel
P (#
t2 ) = 1
illetve
P (t1
#) = 1
.
Egy ilyen intervallum becslés megadása akkor hasznos, ha (1 ) (ko…dencia-) szintje legalább 0:9 (90%); 0:95 (95%) vagy még nagyobb, és pontosságának mértéke, a d hiba elég kicsi. Mint azt a konkrét esetekben látni fogjuk, e két cél elérése általában csak a másik rovására javítható. A t1 < t2 statisztika pár megadás többféleképpen történhet, de általában olyanokat fogunk keresni egy -kritikus értékhez, hogy teljesüljön P (# < t1 ) = P (t2 < #) =
2
amib½ol a nem kívánt határ elhagyásával nyerhetjük az 1 a # t2 fels½o becslést.
2
-szint½u #
t1 alsó illetve
1. Arány, illetve valószín½uség intervallum becslése. Egy sokaságban bizonyos (megjelölt) egyedek ismeretlen arányát jelölje p, és becsüljük ezt egy n-elem½u mintában talált k-számú megjelölt ismeretében. Ha a mintavétel visszatevéssel történt (vagy a sokaság elemszáma elég nagy), a k véletlen mennyiség binomiális eloszlású, és ha még n is elég nagy (n p > 10), eloszlása közelít½oen normális lesz, tehát k np u= p 2 N (0; 1) npq
27
3.2. INTERVALLUM BECSLÉS
azaz u eloszlása az un. standard normális eloszlás, melynek várható értéke E(u) = 0 és szórása D(u) = 1. Válasszuk a 0 < << 1 valószín½uséghez táblázatból az u hogy ha u 2 N (0; 1), akkor P (juj > u ) = . Ekkor P
k np p npq
u
kritikus értéket úgy,
=1
amit alakítva kapjuk: P (p1
p
p2 ) = 1
ahol 2
p1;2 =
k u + n 2n
u p
n
s
k n
1
k n
+
u2 4n
2
és ha itt még un elhanyagolható (ami a szokásos n >> 100 esetekben, és 2-höz általában közeli u érték miatt mindig megtehet½o), akkor kapjuk a s k u k k p p 1 n n n n (1
)-szint½u intervallum becslést.
Megjegyzések: (a) Ha p1 = p2 =
k n
+
u p
k n u p
n
q
n
k n
q 1
k n
1 k n
k n
< 0 akkor a p1 statisztika értékét 0-nak, és ha
> 1 akkor p2 értékét 1-nek választjuk.
(b) Vegyük észre, hogy az intervallum nk közepe a már megismert pontbecslés, a q 1 p hiba pedig a becsült n nk 1 nk standard hiba és az u táblázati érték szorzata. Továbbá a hiba (a mintától nem függ½o) fels½o korlátja s u k k u p , p 1 n n n 2 n ezért a minta mérete tervezhet½o, azaz adott pontossághoz megadható n értéke. Az is látható, hogy a hiba az (1 ) szinttel együtt csökkenthet½o, és fordítva, a szint növelése nagyobb hibát eredményez. Rögzített szint mellett pedig, n növelésével, tetsz½olegesen kicsi lesz a hiba mértéke. (c) Ha a mintavétel visszatevés nélkül történt az N elem½u alapsokaságból, eredményünket a standard hibának megfelel½o módosítással használhatjuk: s k u k k n 1 p p 1 1 . n n N 1 n n Kézirat, módosítva: 2008. május 28.
28
3. FEJEZET. BECSLÉS
(d) Az u kritikus érték szimmetrikus választása miatt, a p1 illetve p2 statisztikák egyikének elhagyásával nyerhetjük az 1 2 -szint½u p
p2
p
p1
fels½o illetve alsó becsléseket. 2. Átlag, illetve várható érték intervallum becslése. Egy normális eloszlású sokaság átlagos (várható-) értékét jelölje az ismeretlen m paraméter, és tegyük fel, hogy a 0 szórás ismert. Egy n-elem½u (az ilyenkor végtelen alapsokaságból visszatevéssel vagy nélkül vett) minta elemeit jelölje x 1 ; x2 ; melyek ekkor független, N (m;
0)
; xn
eloszlású véletlen mennyiségek, ezért
1X x= xi 2 N n i=1 n
tehát
mp
x 0
0
m; p
n
n 2 N (0; 1) .
Válasszuk a 0 < << 1 valószín½uséghez táblázatból az u hogy ha u 2 N (0; 1), akkor P (juj > u ) = . Ekkor P
mp
x
n
u
=1
kritikus értéket úgy,
,
0
amit alakítva P
x
0 u p n
m
0 x+u p n
=1
tehát kapjuk az m (1
) szint½u intervallum becslést.
x
0 u p n
q
Pn p 1 x)2 becsléssel kapott x s m n Ha a szórás nem ismert, az s = i=1 (xi n 1 véletlen mennyiség eloszlása az un. (n 1) szabadsági fokú T (vagy Student) eloszlás, aminek jelölése: x mp n 2 Tn 1 s Válasszuk a 0 < << 1 valószín½uséghez táblázatból a t kritikus értéket úgy, hogy ha t 2 Tn 1 , akkor P (jtj > t ) = . Ekkor hasonlóan kapjuk az m (1
) szint½u intervallum becslést.
x
s t p
n
29
3.2. INTERVALLUM BECSLÉS
Megjegyzések: (a) Vegyük észre, hogy a kapott intervallum becslések középpontjai most is a korábban tárgyalt becslések, a pontatlanság mértéke pedig a becslés standard hibájának és egy táblázati értéknek a szorzata. A hiba most csak az ismert 0 szórás esetén tervezhet½o el½ore, mivel a másik esetben t ps n értéke n mellett függ a meg…gyelt mintától is, ami el½ore nem ismerhet½o. Az természetesen mindkét esetben teljesül, hogy a pontatlanság mértéke n növelésével tetsz½olegesen kicsivé tehet½o. (b) Ha a minta n elemszáma elég nagy (n > 15; 20; 30; 60; 120; ), az alapsokaság normális eloszlásának feltételezése elhagyható, mivel az itt szerepl½o x és s P P statisztikák a ni=1 xi és ni=1 x2i összegekkel fejezhet½ok ki, és ezek ilyenkor jó közelítéssel normális eloszlásúnak tekinthet½ok az alapsokaság eloszlásától függetlenül. (c) Ha az elég nagy n elemszámú mintavétel visszatevés nélkül történt az N elemszámú sokaságból, a kapott eredmények a standard hibának megfelel½oen módosulnak, tehát r r n 1 s n 1 0 1 illetve m x t p 1 . m x u p N 1 N 1 n n (d) Az 1 2 szint½u féloldali intervallum becslések most is az egyik, nem kívánt korlát elhagyásával nyerhet½ok. (e) A fentiekhez hasonló módon készíthetünk kon…dencia intervallumot további
meg…gyelési eredmények y = ugyanis
tehát az (1
k
j=1
x y q 1 + 0 n
amib½ol kapjuk P
y 1 ; y2 ; Pk 1
x
u
0
r
1 1 + n k
y
1 k
; yk átlagára. Ismert
yj
0
szórás esetén
2 N (0; 1)
x
u
0
r
1 1 + n k
!
=1
)-szint½u határok y
x
u
0
r
1 1 + , n k
illetve az ismeretlen szórás esetén y
x
t s0
r
1 1 + . n k Kézirat, módosítva: 2008. május 28.
30
3. FEJEZET. BECSLÉS
3. A szórás kon…dencia intervalluma. Használjuk az el½oz½o pont jelöléseit, amikor a s 2 (n
= eloszlása az un. (n Válasszuk a 0 <
szórás ismeretlen paraméter. Ekkor 1)
2
1) szabadsági fokú 2 eloszlás, jelölése << 1 valószín½uséghez táblázatból a
értékekett úgy, hogy ha Ekkor kapjuk
2 n 1,
2
s 2 (n
2 1
P
akkor P
tehát a szórásnégyzet illetve szórás (1 ! n 1 n 1 2 s 2 2 ;s 2 2 amib½ol a megfelel½o 1
1
2
1) 2
2
2
>
2
2 1
2 2
=1
2
2 2 1
2
2 n 1. 2
<
és P
2
kritikus
2
>
2
=
2
2
=1
) szint½u intervallum becslései ! s s n 1 n 1 s , ;s 2 2 1
2
2
szint½u féloldali határok nyerhet½ok.
3.3. Feladatok 3.1. Feladat. Egy 500 darabos termékhalmazban ismeretlen számú hibás termék van. Becsüljük a hibásak számát, ha 100 elem½u mintát véve, 25 hibásat találtunk! Adjunk 90% biztonsággal fels½o korlátot a hibásak számára! Hány elem½u mintára lenne szükség a selejtarány 0:05 hibával történ½o 90%-os szint½u inervallum becsléséhez? Adjuk meg a megoldást visszatevéssel és visszatevés nélkül vett minta esetén! Megoldás. Ha a mintavétel visszatevéssel történt. M ; ahol M a hibás darabok ismeretlen száma. A p arány becsült A hibásak aránya p = 500 értéke, és a becslés standard hibája az N = 500 elem½u alapsokaságból (visszatevéssel) vett n = 100 elem½u minta esetén, amikor is a mintában k = 25 hibás van: p=
M 500
k 25 = = 0:25 D n 100
k 100
p
p 1 0:25 0:75 = 4: 330 1 100
10
tehát M becsült értéke, és a becslés standard hibája M
125 D 500
k 100
500 4: 330 1
2
10
= 21: 651 .
Táblázatból u0:2 = 1:282; amivel a p valószín½uség 80%-os szint½u kétoldali határai M 500
25 100
1:282 4: 330 1
10
2
2
,
31
3.3. FELADATOK
tehát 90%-os szint mellett M
25 + 1:282 4: 330 1 100
500
10
2
= 152: 76
153 .
A selejtarány 90%-os szint½u becslésének hibája kisebb mint u0:1 1:645 p = p 2 n 2 n tehát keressük azt a legkisebb n egész számot, amire 1:645 p 2 n
0:05
aminek megoldása n = 271. Ha a mintavétel visszatevés nélkül történt. M ; ahol M a hibás darabok ismeretlen száma. A p arány becsült A hibásak aránya p = 500 értéke, és a becslés standard hibája az N = 500 elem½u alapsokaságból (visszatevés nélkül) vett n = 100 elem½u minta esetén, amikor is a mintában k = 25 hibás van: s k 25 k 99 M 1 p = = 0:25 D 0:25 0:75 1 p= = 3: 876 9 10 2 , 500 n 100 100 499 100 tehát M becsült értéke, és a becslés standard hibája M
125 D 500
k 100
500 3: 876 9
2
10
= 19: 385 .
Táblázatból u0:2 = 1:282; amivel a p valószín½uség 80%-os szint½u kétoldali határai M 500
25 100
1:282 3: 876 9
10
2
tehát 90%-os szint mellett M
500
25 + 1:282 3: 876 9 100
10
2
= 149: 852
150 .
A selejtarány 90%-os szint½u becslésének hibája kisebb mint r r n 1 1:645 n 1 u0:1 p 1 1 = p N 1 500 1 2 n 2 n tehát keressük azt a legkisebb n egész számot, amire r 1:645 n 1 p 1 0:05 500 1 2 n aminek megoldása n = 176. Kézirat, módosítva: 2008. május 28.
32
3. FEJEZET. BECSLÉS
3.2. Feladat. Egy 500 darabos termékhalmazban ismeretlen számú hibás termék van. Becsüljük a hibásak számát, ha 100 elem½u mintát véve, 25 hibásat találtunk! Adjunk 90% biztonsággal fels½o korlátot a hibásak számára! Megoldás. Jelölje a minta statisztikát, N = 500; M =?; n = 100, ahol M az ismeretlen paraméter. A valószín½uség becsült értéke, és a becslés standard hibája: s M 25 1 99 p = 0:25 D 0:25 0:75 1 = 3: 876 9 10 2 , 500 100 100 499 100 tehát M becsült értéke, és a becslés standard hibája M
125 D 500
100
500 3: 876 9
10
2
= 19: 385 .
Táblázatból u0:2 = 1:282; amivel a valószín½uség 80%-os szint½u kétoldali határai M 500
25 100
1:282 3: 876 9
10
2
tehát 90%-os szint mellett M
125 + 1:282 19: 385 = 149: 852
150 .
3.3. Feladat. Hány embert kell egy közvélemény kutató cégnek megkérdeznie, hogy egy ismeretlen arányt 0.01 pontossággal tudjanak megadni 95%-os szint mellett? 3.4. Feladat. Egy mérési eljárás legnagyobb véletlen hibája eredményéb½ol x = 12:13.
=
0:03, n = 3 mérés
a) Becsüljük 90%-os biztonsággal a mért mennyiség értékét! b) Legfeljebb mennyi lehet (ugyanezen mennyiség esetén) egy mérés eredménye 95%-os biztonsággal? c) Hány méresre van szükség, hogy a 95%-os szint½u intervallum becslés pontossága 0:005 legyen? Megoldás. Feltehetjük, hogy a mérések eredménye N (m; 0 ) eloszlású, ahol m az ismeretlen várható érték paraméter, és a "3 szabály" szerint ismertnek vehetjük a szórás j j 0 = 3 = 0:01 értékét (lásd: 2.5 feladat), tehát m
0:01 0 x = 12:13 D( ) = p = p = 5: 773 5 n 3
10
3
.
33
3.3. FELADATOK
a) Táblázatból u0:1 = 1:645, amivel kapjuk a 90%-os határokat: m
12:13
1:645 5: 773 5
10
3
=
% 12: 139 . & 12: 121
b) Jelölje 1 egy további mérés eredményét, akkor u0:1 = 1:645 táblázati értékkel kapjuk a 90%-os r 1 1 12:13 1:645 0:01 + 3 1 kétoldali határokat, amib½ol
1
12:13 + 1:645 0:01
r
1 1 + = 12: 149 3 1
a keresett 95%-os fels½o határ. c) u0:05 = 1:96 amivel a kétoldali intervallum becslés pontosságára 0:01 1:96 p = 0:005 ! n = 15: 366 n
16 ,
tehát n = 16 mérés szükséges
3.5. Feladat. n = 40 feln½ott fér… súlyát megmérve, kaptuk x = 78:25 kg s (x) = 12:01 kg. a) Adjuk meg az átlagos (várható) súly 90%-os határait! b) Legalább hány kg lesz egy gépkocsi terhelése, ha 5 fér… foglal benne helyet, 90%-os szint mellett? c) Milyen határok között van a súly szórása 90%-os szint mellett? Megoldás. Feltehetjük a súly adatok N (m; ) eloszlását (már a minta mérete miatt is), ahol m a várható érték, a szórás paraméter. a) Az átlagsúly, azaz várható érték határai a t0:1 = 1: 684 táblázati értékkel (szabadsági fok: 39 40) 12:01 % 81: 45 m 78:25 1: 684 p = . & 75: 05 40 Kézirat, módosítva: 2008. május 28.
34
3. FEJEZET. BECSLÉS
b) Jelölje 1 ; 2 ; 3 ; 4 a további (gépkocsiba szálló) fér…ak súlyát, akkor t0:2 = 1: 303 táblázati értékkel (szabadsági fok: 39 40) a 80%-os kétoldali határok r 1 1 78:25 1: 303 12:01 + 40 4 amib½ol kapjuk a 90%-os alsó határt az összegre: 1
c) A
+
2
+
3
+
4
=4
2 39 40
4
eloszlás táblázatából 90%-os kon…dencia határait: r 12:01
2 0:95
r
78:25
1: 303 12:01
= 26:51
39 ; 12:01 55:76
r
2 0:05
39 26:51
1 1 + 40 4
!
= 280:2 kg.
= 55:76 amivel kapjuk a szórás
!
= (10:044; 14:576) .
4. fejezet Hipotézis vizsgálat Hipotézis vizsgálatnak azt nevezzük, amikor az alapsokaság valamely "min½oségi" jellemz½ojére, tehát egy tulajdonság meglétére illetve hiányára kell következtetnünk a meg…gyelt minta segítségével. Egy ilyen tulajdonság általában mint egy feltételezés, az un. nullhipotézis (jelölése: H0 ), és vele együtt annak tagadása, az un. alternatív hipotézis (jelölése: H1 ), fogalmazható meg. Egy H0 hipotézisr½ol, vagyis a megfelel½o tulajdonság meglétér½ol úgy döntünk, hogy kijelöljük a meg…gyelhet½o minták egy alkalmas K részhalmazát, az un. kritikus tartományt, és ha a meg…gyelt x mintára teljesül: x2K
=)
H0 -t elutasítjuk, azaz a H1 alternatív hipotézist fogadjuk el;
x2 =K
=)
H0 -t elfogadjuk;
Ezt az eljárást statisztikai próbának nevezzük. Egy ilyen eljárás, pontosabban a K kritikus tartomány megválasztása akkor tekinthet½o "ésszer½unek", ha a véletlen kísérlet eredményének tekintett minta H0 teljesülése esetén csak kicsiny ( 0:05) valószín½uséggel esik a kritikus tartományba, azaz PH0 (x 2 K) =
.
Döntésünket x 2 K esetén az indokolja, hogy kis valószín½uség½u esemény bekövetkezésében kételkedünk, az x 2 = K esetben pedig nincs okunk ilyen kételyre. Következtetésünk hibás lesz, ha H0 esetén x 2 K, ez az els½ofajú hiba, aminek valószín½usége éppen a kritikus tartomány = PH0 (x 2 K) terjedelme, ami egy adott érték.
H1 esetén x 2 = K, ez a másodfajú hiba, aminek valószín½usége = PH1 (x 2 = K) függ az alternatív hipotézist½ol. 35
36
4. FEJEZET. HIPOTÉZIS VIZSGÁLAT
A kétféle hiba valószín½usége kifejezhet½o a próba E = P (x 2 K)
J =1
E = P (x 2 = K)
er½ofüggvényével és jelleggörbéjével, mely utóbbi a null-hipotézis elfogadásának valószín½usége. Az er½ofüggvény lesz½ukítése a null-hipotézisre, az állandó EjH0 = terjedelem, és az alternatív hipotézisre EjH1 = 1 az alternatívától függ½o érték lesz. Amint azt konkrét esetekben ellen½orízhetjük, a kétféle hiba valószín½usége csak egymás rovására javítható, ezért a próbák során az alábbi eljárást célszer½u követni: utasítsuk el H0 -t a lehet½o legkisebb terjedelm½u kritikus tartománnyal (javasolt: 0:05), mert ekkor ez a döntési hiba valószín½usége; fogadjuk el H0 -t a lehet½o legnagyobb terjedelm½u kritikus tartománnyal (javasolt: 0:1), mert ekkor nem ez, hanem egy adott alternatívához tartozó, és reményeink szerint ilyenkor kicsiny a döntési hiba valószín½usége. Egy kritikus tartomány kijelölése általában statisztikák segítségével történik, és erre, a már megismert intervallum becslések is alkalmasak. Ha adott a # paraméter (1 )szint½u intervallum becslése # (t1 ; t2 ) , és vizsgálnunk kell a H0 : # = #0 hipotézist, ahol #0 egy adott érték, akkor -terjedelm½u kritikus tartomány lesz: K = fx j #0 < t1 (x) vagy t2 (x) < #0 g .
4.1. Arány illetve valószín½uség próbája, (n;c) terv Tömeggyártás min½oségellen½orzésének alapvet½o feladata, hogy a termékhalmazból választott n-elem½u minta alapján eldöntend½o, nem tartalmaz-e a termékhalmaz a megengedettnél több hibás darabot, vagyis az ismeretlen p selejthányad meghaladja-e az el½oirás szerinti p0 értéket. Ha a mintát egy véletlen kísérlet eredményének tekintjük, a p=
M N
paraméter annak valószín½usége, hogy egy találomra választott termék hibás, ahol N a termékhalmaz elemszáma, M a hibásak ismeretlen száma. Mindezek ismeretében megadható annak valószín½usége, hogy a mintában k számú hibás terméket találunk:
½ 4.1. ARÁNY ILLETVE VALÓSZÍNUSÉG PRÓBÁJA, (N;C) TERV
37
1. Ha a mintavétel visszatevés nélkül történt L(k; p) =
pN k
N pN n k N n
k = 0; 1; 2; : : : n
2. Ha a mintavétel visszatevéssel, illetve nagyon nagy elemszámú sokaságból történt L(k; p) =
n k p (1 k
p)n
k
k = 0; 1; 2; : : : n
3. Az utóbbi esetben közelít½o formulát használhatunk, ha a nagy elemszámú minta esetén (a) p lehetséges értéke kicsi (np < 10), a Poisson eloszlással történ½o közelítést L(k; p)
(np)k e k!
np
k = 0; 1; 2; : : :
tehát a mintában lév½o hibásak k száma véletlen mennyiségnek tekinthet½o.
= np paraméter½u Poisson eloszlású
(b) p értéke nagy is lehet (np > 10), a normális eloszlással történ½o közelítést ! ! k + 21 np k 21 np p p L(k; p) np(1 p) np(1 p) ! 1 k np p ' p k = 0; 1; 2; : : : : np(1 p) np(1 p) tehát a mintában lév½o hibásak k száma N np; mennyiségnek tekinthet½o.
p np(1
p) eloszlású véletlen
Vizsgáljuk el½oször azt az egyszer½u esetet, amikor p két lehetséges értéket vehet fel, tehát H0 : p = p0 ; H1 : p = p1 , és teljesül 0 < p0 < p1 < 1: Itt p0 a már korábban említett el½oírt érték, és a nála nagyobb p1 érték jelenti azt az alternatívát, amely esetén nem szeretnénk hibás döntést hozni. Keressünk terjedelm½u kritikus tartományt Kc = fk j k > c; k = 1; 2; : : :g alakban, ahol c egy alkalmasan választott egész szám. Mivel egy adott feltétlenül található olyan c szám, melyre = PH0 (k 2 Kc ) =
n X
L(k; p0 )
k=c+1
teljesül, keressük azt a legkisebb c 2 N számot, amivel n X
k=c+1
L(k; p0 )
vagy másképp írva
értékhez nem
1
J (p0 ) =
c X
L(k; p0 ) ,
k=0
Kézirat, módosítva: 2008. május 28.
38
4. FEJEZET. HIPOTÉZIS VIZSGÁLAT
és ekkor a másodfajú hiba értéke = J (p1 ) =
c X
L(k; p1 ):
k=0
Ha a továbbiakban tetsz½oleges p 2]0; 1[ értéket megengdünk, a próba jelleggörbéje, ami annak valószín½usége, hogy a H0 hipotézist elfogadjuk J (p) =
c X k=0
L(k; p) p 2]0; 1[:
Könnyen ellen½orizhet½o, hogy ez p-nek monoton csökken½o függvénye, lim0 J (p) = 1 és lim1 J (p) = 0; tehát p0 -nál kisebb p esetén még -nál is kisebb els½ofajú hibával, p1 nél nagyobb p esetén pedig -nál kisebb másodfajú hibával dönthetünk tévesen. Igaz ugyan, hogy p0 és p1 között a döntési hiba valószín½usége nagy, de ha a valóban veszélyes alternatíva értéke p1 -nél kezd½odik, akkor az ilyen fajta rossz döntés még nem jelent megengedhetetlen kockázatot. Ha értékét is el½oírjuk, a minta elemszáma tervezhet½o, vagyis adott hibavalószín½uségekhez megadható a minta n elemszáma, és a kritikus tartományt kijelöl½o c szám. Ezt nevezzük az ; -hibákhoz tartozó (n; c)-tervnek. Azt a legkisebb n egészet kell választani, melyre egyszerre teljesülnek c X
k=0 c X
L(k; p0 )
1
L(k; p1 )
; :
k=0
Egy lehetséges algoritmus n meghatározására, ha egy kezd½o n = n0 értékb½ol indulunk, és 1. n esetén meghatározzuk azt a legkisebb c egészt, melyre c X
L(k; p0 )
1
:
k=0
2. Ha
c X
L(k; p1 )
k=0
teljesül, megvan a keresett n; ha nem, akkor n az 1. lépésnél.
n + 1 értékével folytatjuk
Mindez a 3.b) esetben egyszer½ubben alakul, ugyanis az ! c X c np0 p L(k; p0 ) =1 np0 (1 p0 ) k=0 ! c X c np1 p L(k; p1 ) = . np1 (1 p1 ) k=0
39
4.2. ÁTLAG ÉS SZÓRÁS PRÓBÁI NORMÁLIS ELOSZLÁS ESETÉN
egyenletrendszert kell megoldanunk, majd a kapott gyökök egészre kerekített értékeit használhatjuk.
4.2. Átlag és szórás próbái normális eloszlás esetén Sok véletlen mennyiség véletlen hatások ered½ojének tekinthet½o, mint például egy mérés eredménye, ezért normális eloszlású lesz. Jelölje az ilyenkor végtelen, vagy nagyon nagy elmeszámú alapsokaság átlagát és szórását, vagyis a meg…gyelt véletlen mennyiségek közös várható értékét és szórását, az m és paraméter. Ezekkel a paraméterekkel kapcsolatos feltételezéseket vizsgálunk az alábbiakban. 1. (Egymintás) u-próba. Legyen az x = (x1 ; x2 ; ; xn ) minta egy N ( ; 0 ) eloszlású véletlen mennyiség n ismételt meg…gyelésének eredménye, ahol 0 adott, a várható érték paraméter ismeretlen. Vizsgáljuk a H0 : m = m0 hipotézist a H1 : m 6= m0 alternatívával szemben, ahol m0 adott (hipotetikus) érték. A normális eloszlás tulajdonságaiból következik, hogy H0 estén x m0 p 0 x 2 N m0 ; p n 2 N (0; 1) . ) n 0 Válasszuk a 0 < << 1 értékhez táblázatból u értékét úgy, hogy u 2 N (0; 1) esetén P (juj > u ) = ; akkor x m0 p n >u PH0 = , 0
tehát kaptuk a xj
K=
m0 p
x
n >u
0
-terjedelm½u, kétoldali kritikus tartományt. Hasonlóan nyerhet½ok K+ = K =
xj xj
m0 p
x
n > u2
0
m0 p
x
n<
u2
0
ugyancsak -terjedelm½u, féloldali kritikus tartományok. Adjuk meg a megfelel½o er½ofüggvényeket a különböz½o próbák összehasonlításához, tehát E = P (K) = 1 =1
P
m0 p
x
P
n
u +
mp
m0
n
0
=1
u +
u
=
0
mp
m0 0
mp
x
n
u +
0
n +
mp
m0
n
=
0
u +
mp
m0
n
,
0
Kézirat, módosítva: 2008. május 28.
40
4. FEJEZET. HIPOTÉZIS VIZSGÁLAT
illetve hasonlóan nyerhet½ok E+ = 1
u2 +
mp
m0
n
0
E =
u2 +
mp
m0
n
.
0
Egyszer½uen ellen½orízhet½o, hogy E az m paraméter m0 -ra szimmetrikus függvénye, és < E + ha > > E+ <E ha > >E
E E E E
m0 ha m0 ha
<m m0 > m >m m0 < m .
Tehát a H1+ : m0 < m illetve H1 : m0 > m alternatív hipotézisek esetén er½osebb próbákat kapunk a K + illetve K kritikus tartományok alkalmazásával. Teljesülnek továbbá lim E = lim E + = lim E = 1
m! 1
m!+1
m! 1
és lim E = 1 ha m 6= m0
n!1
lim E + = 1 ha m > m0
n!1
lim E = 1 ha m < m0
n!1
ami azt jelenti, hogy a másodfajú hiba adott alternatíva esetén tetsz½olegesen kicsivé tehet½o a minta n elemszámának növelésével. 2. Egymintás T -próba. Legyen az x = (x1 ; x2 ; ; xn ) minta egy N ( ; ) eloszlású véletlen mennyiség n ismételt meg…gyelésének eredménye, ahol a várható érték és szórás paraméter ismeretlen. Vizsgáljuk a H0 : m = m0 hipotézist a H1 : m 6= m0 alternatívával szemben, ahol m0 adott (hipotetikus) érték. Ekkor H0 estén x s
m0 p
n 2 Tn
1
.
Válasszuk a 0 < << 1 értékhez táblázatból t értékét úgy, hogy t 2 Tn P (jtj > t ) = ; akkor x m0 p PH0 n >t = , s tehát kaptuk a x m0 p K= xj n >t s
1
esetén
41
4.2. ÁTLAG ÉS SZÓRÁS PRÓBÁI NORMÁLIS ELOSZLÁS ESETÉN
-terjedelm½u, kétoldali kritikus tartományt. Hasonlóan nyerhet½ok K+ =
xj
K =
xj
x s x s
m0 p
n > t2
m0 p
n<
t2
ugyancsak -terjedelm½u, féloldali kritikus tartományok. Az er½ofüggvények viselkedése hasonló az el½obbi esethez, ezért a H1+ : m0 < m illetve H1 : m0 > m alternatív hipotézisek esetén most is er½osebb próbákat kapunk a K + illetve K kritikus tartományok alkalmazásával, továbbá az er½ofüggvények jó közelítése adható az u-próba megfelel½o er½ofüggvényével a táblázati értékek (u x t ), illetve a szórás és becslése ( 0 x s ) kicserélésével. 3. Szórás
2
próbája.
Legyen az x = (x1 ; x2 ; ; xn ) minta egy N ( ; ) eloszlású véletlen mennyiség n ismételt meg…gyelésének eredménye, ahol a várható érték és szórás paraméter ismeretlen. Vizsgáljuk a H0 : = 0 hipotézist a H1 : 6= 0 alternatívával szemben, ahol 0 adott (hipotetikus) érték. Ekkor H0 estén n
1 2 0
s
2
2 n 1
2
,
ahol 2n 1 az un. n 1 szabadsági fokú 2 (hi-négyzet) eloszlás jelölése. Válasszuk a 0 < << 1 értékhez táblázatból 21 2 < 22 értékét úgy, hogy esetén P ( > 21 ) = 1 2 és P ( > 2 ) = 2 ; akkor 2
2
2 n 1
2
K=
xj
n
1 2 0
s
2
<
2 1
2
_
2 2
<
n
1 2 0
s
2
-terjedelm½u, kétoldali kritikus tartomány. 4. Kétmintás T -próba. Legyen az x = (x1 ; x2 ; ; xn1 ) és y = (y1 ; y2 ; ; yn2 ) minta két azonos szórású normális eloszlású véletlen mennyiség n1 illetve n2 ismételt meg…gyelésének eredménye, ahol az m1 és m2 várható értékek és a közös szórás paraméter ismeretlen. Vizsgáljuk a H0 : m1 = m2 hipotézist a H1 : m1 6= m2 alternatívával szemben. Ekkor a szórás becslésére használhatjuk a két mintából kapott r r 1 X 1 X 2 s1 = (xi x) s2 = (yi y)2 n1 1 n2 1 statisztikákkal az
S=
s
(n1
1) s12 + (n2 1) s22 n1 + n2 2 Kézirat, módosítva: 2008. május 28.
42
4. FEJEZET. HIPOTÉZIS VIZSGÁLAT
statisztikát, amivel H0 esetén t(x; y) =
x
y S
r
n1 n2 2 Tn1 +n2 n1 + n2
2
,
amib½ol kaphatjuk a K = f(x; y) j jt(x; y)j > t g kétoldali kritikus tartományt, ahol t a Tn1 +n2 érték.
2
eloszláshoz tartozó megfelel½o kritikus
5. Két szórás egyenl½oségének F próbája. Legyen az x = (x1 ; x2 ; ; xn1 ) és y = (y1 ; y2 ; ; yn2 ) minta két normális eloszlású véletlen mennyiség n1 illetve n2 ismételt meg…gyelésének eredménye, ahol 1 és 2 jelöli a most nem feltétlenül azonos szórás paramétereket. Vizsgáljuk a H0 : 1 = 2 hipotézist a H1 : 1 6= 2 alternatívával szemben. Mivel (n1
1) s12 2 1
2
2 n1 1
1) s22
(n2
2 2
2
2 n2 1 ;
ahol az s1 és s2 korrigált empirikus szórás statisztikák függetlenek, ezért H0 esetén s12 2 F(n1 s22
1;n2 1)
,
ahol F(n1 1;n2 1) az un. (n1 1; n2 1) szabadsági fokú F eloszlást jelöli. Válasszuk a 0 < << 1 értékhez táblázatból f1 2 < f 2 értékét úgy, hogy F(n1 1;n2 1) esetén P ( > f1 2 ) = 1 2 és P ( > f 2 ) = 2 ; akkor K=
s 12 (x; y) j 2 < f1 s2
2
2
s12 _ f2 < 2 s2
-terjedelm½u, kétoldali kritikus tartomány H0 eldöntésére. Mivel a szokásos terjedelmekhez tartozó táblázati értékekre f1
2
< 1 < f2
teljesül, a próbát úgy célszer½u elvégezni, hogy a nagyobb empirikus szórásnégyzetet osztva a kisebbel, csupán az s2 f 2 < 12 s2 egyenl½otlenség teljesülését ellen½orízzük. Megjegyzés: A 29. oldal 2b. megjegyzése most is érvényes, ezért a fenti hipotézis vizsgálatok elég nagy minta esetén a normális eloszlás feltételezése nélkül is használhatók.
43
4.3. NEM PARAMÉTERES PRÓBÁK
4.3. Nem paraméteres próbák Eddig olyan feltételezések ellen½orzésével foglakoztunk, melyek az alapsokaság mennyiségi jellemz½oivel, paraméterekkel fogalmazhatók meg. Fontos lehet azonban olyan hipotézisek vizsgálata is, amikor azt kell ellen½oríznünk egy minta alapján, hogy az alapsokaság elemeinek valamilyen szempont szerinti megoszlása megfelel-e a feltételezett arányoknak, vagy általában a minta elemeinek eloszlása egy adott hipotetikus eloszlás-e, amit illeszkedés vizsgálatnak nevezünk. Két vagy több sokaság adott szempont szerinti megoszlásai azonosságának ellen½orzése az un. homogenitás vizsgálat. Ha a minta elemei két jellemz½o meg…gyeléséb½ol állnak, vizsgálható függetlenségük, azaz a sokaság eleminek megoszlása az egyik jellemz½o rögzített értéke mellett, a másik szerint mindig ugyanaz lesz.
4.3.1. Illeszkedés vizsgálat 1. Illeszkedés vizsgálat
2
próbával
Legyen az alapsokaság elemeinek megoszlása egy adottP szempont szerint a p1 ; p2 ; ; pr Ni ismeretlen arányokkal jellemezhet½o (0 < pi = N < 1 pi = 1), és a mintabeli hasonló szempont szerinti megoszlás gyakorisági értékei f1 ; f2 ;
; fr 2 f0; 1;
; ng
n=
r X
fi ,
i=1
melyek eloszlása, mint a véletlen kísérlet eredményekén kapott mennyiségek, az un. nedrend½u r tagú polinomiális eloszlás, ha a mintavétel visszatevéssel történt, vagy az alapsokaság N elemszáma és az egyes csoportok Ni elemszáma a minta n elemszámához hasonlítva jóval nagyobb (Ni > 20n). Vizsgáljuk a H0 : pi = pi0 i = 1; 2; : : : :r hipotézist, ahol (pi0 )i=1;2;::::r adott hipotetikus (véges) diszkrét valószín½uségeloszlás. Ekkor, ha n elég nagy (n pi > 10), H0 esetén: r X (fi
npi0 )2 2 npi0
i=1
Válasszuk 0 < << 1 értékhez a 2 P ( > ) = , így tehát kapjuk a ( K=
2
.
kritikus értéket úgy, hogy ha
(f1 ; f2 ; : : : ; fr ) j
terjedelm½u kritikus tartományt. Megjegyzések:
2 r 1
r X (fk k=1
npk0 )2 > npk0
2
2
2 r 1
akkor
)
1. A féloldali kritikus tartomány alkalmazását az indokolja, hogy az alternatív hipotézis esetén a próba statisztika várhatóan nagyobb lesz, tehát nagyobb valószín½uséggel haladja meg az ilyenkor kisebb fels½o 2 kritikus értéket, azaz kisebb másodfajú hiba valószín½uségre számíthatunk. Kézirat, módosítva: 2008. május 28.
44
4. FEJEZET. HIPOTÉZIS VIZSGÁLAT
2. Ha a hipotetikus valószín½uségeloszlás néhány #1 ; #2 ; : : : ; #s paraméter függvényeként adott, tehát vizsgálnunk kell a H0 : pi = pi0 (#1 ; #2 ; : : : ; #s ) i = 1; 2; : : : :r hipotézist, a következ½o becsléses illeszkedési próbát végezhetjük el. (a) H0 esetén megadjuk a
#^i
#i
i = 1; 2; : : : :s
becsléseket, amivel a hipotetikus eloszlás tagjainak pi0
p^i0 = p^i0 (#^1 ; #^2 ; : : : ; #^s ) i = 1; 2; : : : :r ,
becslése nyerhet½o. (b) Használjuk a r X (fi i=1
n^ pi0 )2 n^ pi0
próba statisztikát, melynek eloszlása H0 esetén most
2 r 1 s.
2. Kolmogorov próba Legyen az alapsokaság elemeinek megoszlása egy adott szempont szerint a folytonos F ismeretlen eloszlásfüggvénnyel jellemezhet½o, amikor az x = (x1 ; x2 ;
x n ) 2 Rn
minta elemei ilyen eloszlásfüggvény½u független véletlen mennyiségeknek tekinthet½ok. Vizsgáljuk a H0 : F = F0 hipotézist, ahol F0 adott hipotetikus (folytonos) eloszlásfüggvény. Jelölje továbbá az un. empirikus eloszlásfüggvényt 1X = 1f n i=1 n
Fxn (z)
z2R,
i
és számítsuk ki a = sup jFxn (z)
F0 (z)j
z2R
p statisztikát. Ekkor H0 esetén a n statisztika, mint véletlen mennyiség, eloszlása (jó közelítéssel n értékét½ol függetlenül) megadható, amely eloszlás az un. Kolmogorov féle K eloszlásfüggvénnyel adott. Válasszunk tehát egy 0 < << 1 értéket, akkor kapjuk a K=
x 2 Rn j K
p
n sup jFxn (z) z2R
terjedelm½u kritikus tartományt H0 eldöntésére.
F0 (z)j
>1
45
4.3. NEM PARAMÉTERES PRÓBÁK 2
4.3.2. Függetlenség vizsgálat
próbával
Legyen az alapsokaság elemeinek megoszlása két, r illetve s lehet½oséggel bíró jellemz½o szerint a pij i = 1; 2; r j = 1; 2; s arányokkal jellemezhet½o, és ennek megfelel½oen a minta elemeinek megoszlása az fij
i = 1; 2;
r
j = 1; 2;
s n=
r X s X
fij
i=1 j=1
gyakoriságokkal adott. Ezeket a meg…gyelt gyakoriságokat, egy összegz½o sorral és oszloppal kiegészítve, az un. gyakorisági táblázatba rendezhetjük II.
I.
1 2 .. . r ahol fk =
s X
fkj
fl =
j=1
1 f11 f21 .. .
2 f12 f22 .. .
fr1 f1
fr2 f2
r X
fil
..
.
s f1s f2s .. .
f1 f2 .. .
frs fs
fr n
k = 1; 2; : : : r
l = 1; 2; : : : ; s .
i=1
Ha a mintavételt egy véletlen kísérlet eredményének tekintjük, mint a 2 -es illeszkedés vizsgálat esetén, egy r s tagú polinomiális eloszlású gyakoriság együttesünk van. Vizsgáljuk a H0 : pkl = pk p l k = 1; 2; : : : r l = 1; 2; : : : ; s hipotézist, ahol pk =
s X
pkj
pl =
j=1
r X
pil
k = 1; 2; : : : r
l = 1; 2; : : : ; s
i=1
vagyis azt a feltételezést, hogy a két szempont szerinti megoszlás egymástól független. Ez egy becsléses illeszkedés vizsgálat elvégzését jelenti, amihez használjuk az r 1 + s 1 számú paraméter pk
p^k =
fk n
pl
p^ l =
fl n
k = 1; 2; : : : r
1 l = 1; 2; : : : ; s
1
becslését, amib½ol fr fs p s p^ s = . n n A becsléses illeszkedés vizsgálat próba statisztikájának szabadsági foka r s 1) (s 1) = (r 1) (s 1) lesz, tehát válasszunk 0 < << 1 értékhez értéket úgy, hogy ha 2 2(r 1) (s 1) akkor P ( > 2 ) = : Tehát kapjuk a 8 9 2 > > f f i j > > > > fij r X s < = X n j=1;:::s 2 K = (fij )i=1;:::;r j > fi f j > > > > i=1 j=1 > > : ; n pr
p^r =
2
1 (r kritikus
Kézirat, módosítva: 2008. május 28.
46
4. FEJEZET. HIPOTÉZIS VIZSGÁLAT
kritikus tartományt. Megjegyzések: 1. A próba elvégezhet½oségének feltétele, mint a 2 -es illeszkedés vizsgálatnál már említettük, hogy a várható gyakoriság a gyakorisági tábla minden cellájában legalább 10 legyen. 2. Mint azt már korábban jeleztük, a féloldali kritikus tartományt a másodfajú hiba csökkentése miatt alkalmazzuk. 3. A vizsgált hipotézis azt fejezi ki, hogy a gyakorisági tábla (pl.) oszlopaiban lév½o gyakoriságok megoszlása nem függ a választott oszloptól, tehát úgy is fogalmazhatunk, hogy az oszloponkénti megoszlási arányok azonosak. Ez egy homogenitás vizsgálat elvégzését jelenti.
4.3.3. Homogenitás vizsgálat Wilcoxon próbával Legyen az x = (x1 ; x2 ; ; xn1 ) és y = (y1 ; y2 ; ; yn2 ) minta két véletlen mennyiség n1 illetve n2 ismételt meg…gyelésének eredménye, és vizsgáljuk a H0 : F = G hipotézist, ahol F az els½o n1 ; G pedig a további n2 számú minta elem ismeretlen (folytonos) eloszlásfüggvénye. Rendezzük a két minta elemeit növekv½o sorba, és jelölje az x1 ; x2 ; ; xn1 minta elemek helyét, azaz rangját ebben az n1 + n2 elem½u rendezett mintában r1 ; r2 ; : : : ; rn1 ; és számítsuk ki a n1 X n1 (n1 + 1) Wn1 n2 = rk 2 k=1 statisztikát. Ekkor elég nagy n1 ; n2 minta elemszám esetén, H0 telejsülésekor Wn n q 1 2
n1 n2 2
n1 n2 (n1 +n2 +1) 12
tehát kapjuk a
2 N (0; 1) ,
8 9 < = n1 n2 Wn1 n2 2 K = (x; y) q >u : ; n1 n2 (n1 +n2 +1) 12
kritikus tartományt. Megjegyzések:
1. Vegyük észre, hogy a próba elvégzéséhez a meg…gyelt minta pontos értékeire nincs szükség, csupán a köztük lév½o rangsor ismerete szükséges. 2. Ha vannak azonos értékek, a rangokat úgy korrigáljuk, hogy az azonos értékhez tarozó rangok egyformák legyenek, és összegük annyi legyen, mintha sorrendjük eldönhet½o lenne.
47
4.4. FELADATOK
4.4. Feladatok 4.1. Feladat. Ha egy nagy elmszámú termékhalmazból n = 100 elem½u mintát veszünk, a. hány hibás termék esetén utasítjuk el azt a feltételezést, hogy a slejtszázalék 10%, = 0:05 els½ofajú hiba mellett? b. Ábrázoljuk a próba jelleggörbéjét, és adjuk meg a másodfajú hiba értékét 100p1 = 15% esetén! c. Hány elem½u mintára lenne szükség, hogy a p1 = 0:15 alternatíva esetén a másodfajú hiba értéke legfeljebb 0:1 legyen? Adjuk meg az (n; c) tervet! Megoldás. a. Feltételezésünk szerint, keressük 0:95
c X 100 J (0:10) = 0:10k (1 k k=0
0:10)100
k
legkisebb megoldását, ami c = 15 lesz, amikor is J (0:10) = 0:960 11
0.0
0.2
0.4
J(x)
0.6
0.8
1.0
b. A jellegörbe gra…konja
0.0
0.1
0.2
0.3
0.4
x
amib½ol leolvasható, hogy a p1 = 0:15 alternatíva esetén nagy, pontosan J (0:15) = 0:568 32 valószín½uséggel döntünk hibásan. Kézirat, módosítva: 2008. május 28.
48
4. FEJEZET. HIPOTÉZIS VIZSGÁLAT
c. Az (n; c) tervhez használhatjuk a normális eloszlással történ½o közelítést, mert 100nál több elem½u mintára van szükség. A megoldáshoz használjuk a kölcsönösen egyértelm½u eloszlásfüggvény táblázatából nyerhet½o A = 1: 644 9; B = 1: 281 6 mennyiségeket, melyekre (A) = 1
= 0:95
(B) =
= 0:1
amivel kapjuk !2 p 0:10) + 1: 281 6 0:15(1 0:15) n= = 361: 83 0:15 0:10 p c = 361: 83 0:10 + 1: 644 9 361: 83 0:10(1 0:10) = 45: 570 , p 1: 644 9 0:10(1
Tehát válasszuk c = 46 n = 362, amivel J (0:1)
46 362 0:10 p 362 0:10 0:90
= 0:96 J (0:15)
46 362 0:15 p 362 0:15 0:95
= 0:11
4.2. Feladat. Ha az (n; c) tervet úgy alkalmazzuk sorozatosan, hogy N elem½u tételeket elfogadunk illetve visszautasítunk a döntést½ol függ½oen, adjuk meg a kibocsájtott selejthányad várható értékét a p függvényében! Mennyi ennek maximuma? 4.3. Feladat. Adjuk meg a valószín½uség próbáját, és a próba erejét a normális eloszlással való közelítés esetén! 4.4. Feladat. Adjuk meg a szórás
2
próbájának er½ofüggvényét!
4.5. Feladat. Adjuk meg a kétmintás u-próbát a kétmintás t-próbához hasonlóan! 4.6. Feladat. Egy mérési eljárás hibája N (0; 0:02) eloszlású véletlen mennyiség. Egy termék egyik fontos jellemz½ojét mérjük ezzel az eljárással, és azt jónak min½osítjük, ha értéke m0 = 20:00: Tervezzünk próbát ennek ellen½orzésére úgy, hogy a jó terméket csak 0:01 valószín½uséggel min½osítsük hibásnak, és a 20:05 vagy annál nagyobb, illetve 19:97 vagy annál kisebb jellemz½oj½u terméket legfeljebb 0:02 valószín½uséggel min½osítsük jónak! Megoldás. u-próbával ellen½orízzük a H0 : m = 20:00 hipotézist a H1 : m 6= 20:00 kétoldali alternativ hipotézissel szemben, és keressük n értékét, amivel teljesülnek: = 0:01
m 20:05
0:02
m 19:97
0:02 .
Mivel a másodfajú hiba szimmetrikus az m = 20:00 értékre, és az alternatíva monoton csökken½o függvénye mindkét irányban, elég az = 0:01
m=19:97
= 0:02
49
4.4. FELADATOK
feltételeket teljesíteni. Tehát u0:01 = 2: 576 és így a másodfajú hiba
m=19:97
=
2:576 +
20:00 19:97 p n 0:02
2:576 +
20:00 19:97 p n 0:02
= 0:02 ,
amit alakítva kpajuk p 2: 576 + 1: 5 n
p 2: 576 + 1: 5 n = 0:02
ahol a bal oldali els½o tag értéke közelít½oen már 1-nek vehet½o, amit rendezve: 0:98 = 2: 05 = n=
p 2: 576 + 1: 5 n p 2: 576 + 1: 5 n 2: 05 + 2: 576 1:5
2
= 9: 5111
10
Tehát n = 10 mérésre van szükség. 4.7. Feladat. Egy tantárgy (maximum 100 pontos) dolgozatainak sok éves átlageredménye 58.26 pont. Egy 20 f½os tanulócsoport tagjai a szokásos felkészítés mellett kidolgozott feladatokat is kaptak a sikeres felkészüléshez. Az így megírt dolgozatok átlageredménye 62.15 pont, és az eredmények korrigált empírikus szórása 4.56: Egy másik, 15 f½os csoport tagjai pedig képletgyüjteményt használhattak a dolgozat írásakor, és eredményeik átlaga 61.01, korrigált empírikus szórása 6.69 pont lett. Van-e kimutatható javulás valamelyik esetben? Ha következtetésünk nemleges, mennyi annak kockázata, hogy az adott módon segített csoport átlageredménye mégis 62 pontra n½ott? Tételezzük fel az eredmények normális eloszlását! Megoldás. Normális eloszlást feltételezve (lásd: 2b megjegyzés), t-próbával vizsgáljuk a H0 : m = 58:26 hipotézist a H1+ : m > 58:26 alternatívával szemben, mivel most a másik oldali alternatíva kizárható. A próba statisztika értéke a 20 f½os csoport esetén: t= ami a t2
=0:01
62:15 58:26 p 20 = 3: 815 4:56
= 2:861 (szabadsági fok: 19) táblázati értékkel 3: 815 > 2:861 ) H0 -t elutasítjuk,
tehát van javulás az eredményekben, és az így vállalt els½ofajú hiba értéke kevesebb mint = 0:005. A próba statisztika értéke a 15 f½os csoport esetén t=
61:01 58:26 p 15 = 1: 592 6:69 Kézirat, módosítva: 2008. május 28.
50 ami a t2
4. FEJEZET. HIPOTÉZIS VIZSGÁLAT
=0:1
= 1:761 (szabadsági fok: 14) táblázati értékkel 1:761 ) H0 -t elfogadjuk,
1: 592
és ekkor a vállalt másodfajú hiba értéke m = 62 alternatíva esetén az u-próba er½ofüggvényével közelítve: 1: 592 +
m=62
58:26 62 p 15 6:69
= 0: 2833 .
4.8. Feladat. Ugyanazt a mennyiséget kétféle eljárással mértek meg, és kaptuk: n1 = 11 x = 123:01 s1 (x) = 0:12 n2 = 21 y = 123:21 s2 (y) = 0:13 Van-e kimutatható különbség a két eljárás pontossága, és várható eredménye között? Feltételezhetjük a mérési eredmények normális eloszlását. Megoldás. Jelölje m1 illeteve m2 a két várható érték paramétert, 1 és 2 a szórás paramétereket. Vizsgáljuk el½oször a H0 : 1 = 2 hipotézist. A próba statisztika értéke (a nagyobb becsült értéket osztva a kisebbel): f=
s22 (y) 0:132 = = 1: 173 6 s12 (x) 0:122
ami az f0:1 = 2:20 (szabadsági fok: 20;10) táblázati értékkel f = 1: 173 6
f0:1 = 2:20 ,
tehát = 2 0:1 = 0:2 terjedelm½u próbával elfogadható a szórások egyenl½osége. A várható értékek H0 : m1 = m2 azonosságát a szórások egyenl½oségének feltételezése mellett, a kétmintás T -próbával ellen½orizzük. A szórás becsült értéke a két mintából r 10 0:122 + 20 0:132 S(x; y) = = 0: 126 75 , 30 amivel a próba statisztika értéke 123:01 123:21 t= 0: 126 75
r
11 21 = 32
4: 239 5 ,
és a t0:001 = 3:646 (szabadsági fok: 30) táblázati értékkel t = j 4: 239 5j > t0:001 = 3:646 tehát = 0:001 els½ofajú hiba mellett elvetjük a várható értékek azonosságát. Összefoglalva, a mérések pontossága (szórása) azonosnak tekinhet½o, a várható eredmények azonban szigni…kánsan különböznek.
51
4.4. FELADATOK
4.9. Feladat. Szabályosnak tekinthet½o-e az a dobókocka, melyet 120-szor dobva, az alábbi gyakoriságokat …gyeltük meg: 1 2 3 4 5 6 24 16 25 10 30 15 Megoldás. Vizsgáljuk a H0 : pi =
1 2 3 4 5 6 P
1 6
hipotézist
i = 1; 2; : : : ; 6
fi
n pi0
24 16 25 10 30 15 120
20 20 20 20 20 20
2
-próbával.
(fi n pi0 )2 n pi0 16 20 16 20 25 20 100 20 100 20 25 20 282 20
tehát a próba statisztika értéke
2
és a
2 0:025
=
282 = 14: 1 , 20
= 12:83 (szabadsági fok: 5) táblázati értékkel 2 0:025
= 12:83 <
2
= 14: 1 ,
tehát a H0 hipotézist elutasítjuk 0:025 els½ofajú hibával, vagyis a kocka nem tekinthet½o szabályosnak. 4.10. Feladat. Egy bizonyos típusú …le hoszz adataiból kaptuk az alábbi gyakorisági adatokat: fi 1 kB 14 1 2 kB 16 2 3 kB 25 3 4 kB 10 4 kB 10 Tekinthetjük-e exponenciális eloszlású véletlen értéknek egy ilyen típusú …le méretét? Megoldás. Vizsgáljuk a H0 : p1 = p10 ( ) p2 = p20 ( ) p3 = p30 ( ) p4 = p40 ( ) p5 = p50 ( ) becsléses illeszkedési hipotézist, ahol jelöli a feltételezett exponenciális eloszlás ismeretlen paraméterét, aminek becsült értéke 1 x
75 = 0: 392 67 14 0:5 + 16 1:5 + 25 2:5 + 15 3:5 + 10 4:5 Kézirat, módosítva: 2008. május 28.
52
4. FEJEZET. HIPOTÉZIS VIZSGÁLAT
amit az osztályközök megadásával kaphatunk. Egészítsük ki továbbá táblázatunkat a becsült értékb½ol nyert várható gyakoriságokkal, és a próba statisztika számításával fi
ahol
0:5 1:5 2:5 3:5 4:5 P
14 16 25 10 10 75
(fi n p^i0 )2 n p^i0
n p^i0 75 75 75 75 75
p^10 p^20 p^30 p^40 p^50
0: 324 75 = 24: 356 0: 219 29 = 16: 447 0: 148 07 = 11: 105 9: 998 7 10 2 = 7: 499 0: 207 9 = 15: 593 75: 000
=1 =e =e =e =e
e
10:3562 = 4: 403 3 24: 356 0:4472 = 1: 214 9 10 2 16: 447 (25 11: 105)2 = 17: 386 11: 105 (10 7: 499)2 = 0: 834 11 7: 499 (10 15: 593)2 = 2: 006 1 15: 593
24: 642
0: 392 67 1
0: 392 67 1 0: 392 67 2 0: 392 67 3 0: 392 67 4
= 0: 324 75 e 0: 392 67 2 = 0: 219 29 e 0: 392 67 3 = 0: 148 07 e 0: 392 67 4 = 9: 998 7 10 = 0: 207 9
2
A próba statisztika értéke 24: 642, és 20:001 = 16:27 (szabadsági fok: 5 amivel 24: 642 > 16:27
1
1 = 3),
ezért a H0 hipotézist elutasítjuk = 0:001 els½ofajú hiba mellett. Tehát a véletlen mennyiség nem tekinthet½o exponenciális eloszlásúnak. 4.11. Feladat. Egy termék három különböz½o technológiával készülhet I., II. és III. osztályú min½osgben. Egy felmérésb½ol kaptuk az alábbi gyakorisági táblázatot: min½oség
technológia
I. II. III.
1. 2. 3. 50 4 1 44 41 33 6 15 26
Van-e kimutatható kapcsolat a min½oség és az alkalmazott technológia között? Megoldás. Vizsgáljuk a H0 : pij = pi p j függetlenségi hipotézist, amihez egészítsük ki a táblázatot az összegekkel, és a várható gyakoriságokkal: P technológia 1. 2. 3. min½o ség 50 4 1 I. 55 55 100 55 60 55 60 = 25 = 15 = 15 220 220 220 44 41 33 II 118 118 100 590 118 60 354 118 60 = 11 = 11 = 354 220 220 220 11 6 15 26 III. 47 47 100 235 47 60 141 47 60 141 = = = 220 11 220 11 220 11 P 100 60 60 220
53
4.4. FELADATOK
A próba statisztika értéke:
(50
25)2 (4 15)2 (1 15)2 + + + 25 15 15 2 44 590 41 11 + + 590 11
+
továbbá
= 0:001
2
6
354 2 11 354 11 235 2 11 + 235 11
+ 15
= 18:47 (szabadsági fok: (3
354 2 11 + 354 11 2 141 2 26 141 11 11 + 141 141 11 11
33
1) (3
= 79: 446
1) = 4), amivel
18:47 < 79: 446
tehát H0 -t elutasítjuk technológia között.
= 0:001 els½ofajú hibával, vagyis van kapcsolat a min½oség és a
4.12. Feladat. Egy véletlen-szám generátor hívásának n = 20 eredménye:
0:69278073 0:32268032 0:54508760 0:54796052
0:89428280 0:21392526 0:90420617 0:94966769
0:72684370 0:33039386 0:87403826 0:33603055
0:94735859 0:06091866 0:28252200 0:19376286
0:25751298 0:08225982 0:84477326 0:15896395
Elfogadható-e, a [0;1] intervallumon egyenletes eloszlás feltételezése?
Megoldás. Vizsgáljuk a H0 : F (x) = x 0 x 1 hipotézist, amihez keressük meg az empirikus eloszlásfüggvény és az egyenletes eloszlás eloszlásfüggvényének legnagyKézirat, módosítva: 2008. május 28.
54
4. FEJEZET. HIPOTÉZIS VIZSGÁLAT
obb eltérését: xk Fxn (xk ) Fxn (xk + 0) 0:06091866 0:00 0:05 0:08225982 0:05 0:10 0:15896395 0:10 0:15 0:19376286 0:15 0:20 0:21392526 0:20 0:25 0:25751298 0:25 0:30 0:28252200 0:30 0:35 0:32268032 0:35 0:40 0:33039386 0:40 0:45 0:33603055 0:45 0:50 0:54508760 0:50 0:55 0:54796052 0:55 0:60 0:69278073 0:60 0:65 0:72684370 0:65 0:70 0:84477326 0:70 0:75 0:87403826 0:75 0:80 0:89428280 0:80 0:85 0:90420617 0:85 0:90 0:94735859 0:90 0:95 0:94966769 0:95 1:00
F0 (xk ) j j 0:06091866 0:06091866 0:08225982 0:15896395 0:19376286 0:21392526 0:25751298 0:28252200 0:067478 0:32268032 0:0 773 2 0:33039386 0: 119 61 0:33603055 0: 163 97 0:54508760 0:54796052 0:69278073 0:72684370 0:84477326 0:87403826 0:89428280 0:90420617 0:94735859 0:94966769
A próba statisztika értéke z = 0:163 97
p
20 = 0: 733 3 ,
és a Kolmogorov-féle K függvény értéke táblázatból: K(0: 73) = 0:339 tehát = 1 feltételezését.
0:339 = 0: 661 terjedelm½u próbával elfogadjuk az egyenletes eloszlás
5. fejezet Regresszió analízis Vizsgáljuk a következ½o feladatot: Keressük az y mennyiség y
f (x)
közelítését az x mennyiség(-ek) alkalmas függvényével: Az y mennyiséget függ½o vagy cél változónak, az x mennyiséget, illetve mennyiségeket (vektor mennyiség esetén) független vagy befolyásoló változónak nevezzük. A közelítésben használt f az un. regressziós függvény. A feladatot az y és x mennyiségekre vonatkozó 2 2 3 3 y1 x11 x12 x1p 6 y2 7 6 x21 x22 x2p 7 6 6 7 7 n 1 n p Y = 6 .. 7 2 R X= 6 .. .. .. 7 2 R . . 4 . 5 4 . . . . 5 yn xn1 xn2 xnp
minta alapján kell megoldanunk úgy, hogy keressük azt az f : Rp ! R függvényt, mellyel a közelítés 2
y1 6 y2 6 d = Y f (X) = 6 4 yn
f (x11 ; x12 ; f (x21 ; x22 ; .. . f (xn1 ; xn2 ;
3 ; x1p ) ; x2p ) 7 7 7 2 Rn 5 ; xnp )
1
hibája a "legkisebb". A megoldás során meghatározhatjuk a regressziós függvény típusát, így beszélhetünk f (u1 ; u2 ;
; up ) = a0 + a1 u1 + a2 u2 +
lineáris regresszióról, vagy pl. p = 1 esetben f (u) = a0 + a1 u + a2 u2 + 55
ap u p
+ ap u p
56
5. FEJEZET. REGRESSZIÓ ANALÍZIS
polinomiális regresszióról. Egy másik választási lehet½oség, hogy mikor mondjuk a hibát legkisebbnek. Ennek kézenfekv½o módja a dT d=
n X
(yi
f (xi1 ; xi2 ;
; xip ))2
i=1
célfüggvény minimumhelyének megkeresése, ami az un. legkisebb négyzetek módszere.
5.1. Többváltozós lineáris regresszió Oldjuk meg el½oször a feladatot lineáris regressziós függvény keresésével. Vegyük észre, hogy elég az un. origón átmen½o f (u1 ; u2 ;
; up ) = a1 u1 + a2 u2 +
+ ap u p
regressziós függvény esetét vizsgálni, mivel a független változóra vonatkozó X mátrixot 2 3 1 x11 x1p 6 1 x21 x2p 7 6 7 6 .. .. .. 7 . . 4 . . . . 5 1 xn1 xnp
módon kiegészítve egy csupa 1-eseket tartalmazó oszloppal, a keresett regressziós függvény f (u0 ; u1 ; ; up+1 ) = a0 u0 + a1 u1 + + ap+1 up+1 alakban írható. Legyen tehát X2Rn együtthatók a 2 Rp vektorát, amivel dT d = (Y
X a)T (Y
p
az un. terv mátrix, és keressük a regressziós
X a) = Y T Y + aT X T X a
2aT X T Y
kifejezés minimális. Ez a kifejezés az a vektor komponenseinek másodfokú függvénye, és a parciális deriváltak zérushelye megoldása az X T X a= X T Y un. normál egyenletnek. Ha feltételezzük, hogy az X T X 2 Rp kapjuk a minimumhelyet 1 b a= X T X XT Y
p
mátrix ivertálható,
amivel a közelítés "négyzetes" hibája
dT d = Y T Y (X T Y )T X T X
1
XT Y = Y T Y
vagy "átlagos" négyzetes hibája s2R =
1 T d d. n
b aT X T Y
57
5.1. TÖBBVÁLTOZÓS LINEÁRIS REGRESSZIÓ
A regressziós közelítések összehasonlításához, nem origón átmen½o regressziós függvény esetén az s2R 1X ahol s2Y = (yi y)2 R2 = 1 2 sY n determinációs együtthatót használhatjuk, melynek értéke 0 R2 = 1 , R2 = 0 ,
a a a a
R2
1, és
közelítés "hibátlan", legjobb közelítés Y = Xb a cél-változó nem függ a független változóktól, y legjobb közelítés Y
Ha feltételezzük, hogy teljesül az (5.1)
Y = Xa + "
T
"n lineáris kapcsolat a függ½o és független változó(k) között, ahol az " = "1 "2 "hiba" vektor komponensei független N (0; ) eloszlású véletlen mennyiségek, eredményeinket vizsgálhatjuk a valószín½uségszámítás eszközeivel. Megmutatható, hogy q dT d T T E(b a) = a c b a 2 N c a; cT (X T X) 1 c c 2 Rp 1 2 2n p ; 2 tehát
a
b a
cT a
cT b a
2
sR2 =
1
n
p
dT d =
n
n
p
s2R
torzítatlan becslések, és a c = ei egységvektor (melynek i-edik komponense 1, a többi 0) választással kaphatjuk a regressziós együtthatók ai intervallum becslését, ahol X T X
1
b ai
p t sR qii
= [qij ] i=1;2;
p j=1;2; p
, és t a Tn
p
eloszláshoz tartozó
kritikus érték. Ha az y függ½o változó értékét egy x = (x1 ; x2 ; ; xp ) vektor esetén akarjuk becsülni, kapjuk: v uX p u p X T t xi xj qij . y x b a t sR i=1 j=1
Kézirat, módosítva: 2008. május 28.
58
5. FEJEZET. REGRESSZIÓ ANALÍZIS
6. fejezet Szórásanalízis A regressziós feladatban két mennyiségi típusú jellemz½o kapcsolatát vizsgáltuk, most egy ugyancsak mennyiségi típusú függ½o változónak, egy vagy több nominális típusú un. faktortól való függését fogjuk. Az 5.1 modellhez hasonlóan, tételezzük fel, hogy a cél-mennyiség a faktorok hatása, és egy véletlen hiba összegeként …gyelhet½o meg xi;j;k;::: =
+ ai + bj + abij + : : : + "i;j;k;:::
(i; j; k; : : :) 2 J
(6.1)
ahol a szerepl½o modell tagok jelentése a következ½o : ai : bj : .. .
az un. teljes átlag az A faktor i-edik szintjének additív hatása a B faktor j-edik szintjének additív hatása .. .
abij : az A és B faktorok i és j szintjéhez tartozó kölcsönös hatás, interakció "i;j;k;::: : a meg…gyelés véletlen hibája A J halmaz a faktorok olyan szintjeinek kombinációit tartalmazza, melyekkel meg…gyelést végeztünk, ezért ennek megadása az un. kisérlet tervet, vagy kisérleti elrendezést jelenti. A továbbiakban feltételezzük, hogy egy ismeretlen skalár paraméter, és az additív és kölcsönös hatások ett½ol való eltérítésének mértékét jelent½o további paraméterekr½ol pedig feltesszük X X X X ai = bj = abij = abij = : : : = 0 , (6.2) J
J
J
J
a meg…gyelés véletlen hibája pedig
"i;j;k;::: 2 N (0; ) (i; j; k; : : :) 2 J függetlenek. Fontos szerepe van a J index-halmaznak, vagy másképpen kisérlet tervnek. A legkézenfekkv½obb esetben a faktorok szintjeinek minden kombinációja szerepel benne (teljes elrendezés), és ha még ismételt meg…gyelések is vannak, ahol a különböz½o meg…gyelt értékek 59
60
6. FEJEZET. SZÓRÁSANALÍZIS
csupán a véletlen hatásnak köszönhet½ok, minden paraméter becsülhet½o. Érdekesek lehetnek azok az elrendezések, amikor a kísérlet terv hiányos, de a kívánt paraméterek még becsülhet½ok maradnak.
6.1. Egyszer½u osztályozás Legyen a (6.1) egyenlet most xij =
+ ai + "ij
j = 1; 2; : : : ni
i = 1; 2; : : : r
vagyis az egyetlen A faktor ai eltérít½o hatásai szerepelnek a modellben. Mindez úgy is értelmezhet½o, hogy több, r-számú, egyenként ri elem½u mintánk van, közös szórással és + ai várható értékkel. 1. A paraméterek becslése. Vezessük be a ni 1 X xi;j xi = ni j=1
statisztikákat, ahol n =
r
i = 1; 2; : : : r Pr
i=1
n
i 1X 1 XX xi;j x = ni xi = n i=1 n i=1 j=1
r
ni ekkor a + ai ai
xi xi x
x
becslések torzítatlanok. Megmutatható továbbá, hogy a SST =
ni r X X
x2ij
i=1 j=1 2
SSM = nx r X SSB = ni (xi SSW =
i=1 ni r X X
(xij
x )2 xi )2
i=1 j=1
négyzetösszegek függetlenek, és a teljes (T ) négyzetösszeg felbomlik a teljes átlagnak (M ) megfelel½o, a csoportok közötti (B), és csoportokon belüli (W ) négyzetösszeg független összegére SST = SSM + SSB + SSW ,
½ OSZTÁLYOZÁS 6.1. EGYSZERU
és
1 2
SSW 2
2 n r;
61
amib½ol kapjuk a véletlen hiba szórásnégyzetének 2
s
torzítatlan becslését. Mivel xi 2 N módon nyerhet½ok az
2
=
SSW n r és x 2 N
+ ai ; pni
+ ai
xi
s t p ni
ai
xi
x
x
s t p
; pn ; a szokásos
i = 1; 2; : : : r r 1 1 t s i = 1; 2; : : : r ni n
n
) szint½u intervallum becslések, ahol t a Tn r eloszlás megfelel½o kritikus értéke. P P További kérdés lehet egy ri=1 ci ( + ai ) = ri=1 ci ai u.n. kontraszt becslése, ahol qP Pr Pr Pr c2i r c c = 0: Mivel c a ; ; kapjuk a x 2 N i=1 i i i=1 i i=1 i i i=1 ni (1
r X i=1
c i ai
r X
ci xi
i=1
v u r 2 uX ci t st ni i=1
intervallum becslést. 2. Hipotézis vizsgálat. Vizsgáljuk most a HA : a1 = a2 = : : : = ar = 0 hipotézist, vagyis azt, hogy a faktornak nincs eltérít½o hatása, vagy másképpen, a minták várható értéke azonos. Ha HA teljesül, a SSB n r f= SSW r 1 statisztika eloszlása F(r 1;n r) , amib½ol a HA hipotézis eldöntésére szolgáló jedelm½u (egy-oldali) kritikus tartomány: K=
x = (xij ) 2 Rn j
SSB SSW
n r
r >b 1
ter-
;
ahol b az F(r 1;n r) eloszlás megfelel½o kritikus értéke. A kritikus tartományt azért választjuk így, mert az alternatív hipotézis esetén, amikor is legalább egy ai > 0, az f próbastatisztika értéke várható értékben n½o. A fentiek táblazatos összefoglalója Kézirat, módosítva: 2008. május 28.
62
6. FEJEZET. SZÓRÁSANALÍZIS
az alábbi Szórásanalízis táblázat Szóródás oka Átlag Faktor Véletlen Teljes
Négyzetösszeg SSM = nx2 P SSB = ri=1 ni (xi x )2 P P i SSW = ri=1 nj=1 (xij xi )2 P P i 2 SST = SSM + SSB + SSW = ri=1 nj=1 xij
Szabadsági fok 1 r 1 n r n
F(r B W
1;n r)
n r r 1
A. függelék Táblázatok Kolmogorov-féle K-függvény
P
p
n sup F n (x)
F (x) < z
= K(z)
x2R
z 0:4 0:5 0:6 0:7 0:8 0:9 1:0 1:1 1:2 1:3 1:4 1:5 1:6 1:7 1:8 1:9
:00 :003 :036 :136 :289 :456 :607 :730 :822 :888 :932 :960 :978 :988 :994 :997 :999
:01 :004 :043 :149 :305 :472 :621 :741 :830 :893 :935 :962 :979 :989 :994 :997 :999
:02 :005 :050 :163 :322 :488 :634 :751 :837 :898 :939 :965 :980 :989 :995 :997 :999
:03 :007 :059 :178 :339 :504 :647 :761 :845 :903 :942 :967 :981 :990 :995 :998 :999
:04 :010 :068 :193 :356 :519 :660 :770 :851 :908 :945 :968 :983 :991 :995 :998 :999
63
:05 :013 :077 :208 :373 :535 :673 :780 :858 :912 :948 :970 :984 :991 :996 :998 :999
:06 :016 :088 :224 :390 :550 :685 :789 :864 :916 :951 :972 :985 :992 :996 :998 :999
:07 :020 :099 :240 :406 :565 :696 :798 :871 :921 :953 :973 :986 :992 :996 :998 :999
:08 :025 :110 :256 :423 :579 :708 :806 :877 :925 :956 :975 :986 :993 :996 :998 :999
:09 :030 :123 :272 :440 :593 :719 :814 :882 :928 :958 :976 :987 :993 :997 :998 :999
64
A. FÜGGELÉK. TÁBLÁZATOK
Normális eloszlás eloszlásfüggvénye x :0 :1 :2 :3 :4 :5 :6 :7 :8 :9 1:0 1:1 1:2 1:3 1:4 1:5 1:6 1:7 1:8 1:9 2:0 2:1 2:2 2:3 2:4 2:5 2:6 2:7 2:8 2:9 3:0 3:1 3:2 3:3 3:4 3:5 3:6 3:7 3:8
:00 :5000 :5398 :5793 :6179 :6554 :6915 :7257 :7580 :7881 :8159 :8413 :8643 :8849 :9032 :9192 :9332 :9452 :9554 :9641 :9713 :9772 :9821 :9861 :9893 :9918 :9938 :9953 :9965 :9974 :9981 :9987 :9990 :9993 :9995 :9997 :9998 :9998 :9999 :9999
:01 :5040 :5438 :5832 :6217 :6591 :6950 :7291 :7611 :7910 :8186 :8438 :8665 :8869 :9049 :9207 :9345 :9463 :9564 :9649 :9719 :9778 :9826 :9864 :9896 :9920 :9940 :9955 :9966 :9975 :9982 :9987 :9991 :9993 :9995 :9997 :9998 :9998 :9999 :9999
P( :02 :5080 :5478 :5871 :6255 :6628 :6985 :7324 :7642 :7939 :8212 :8461 :8686 :8888 :9066 :9222 :9357 :9474 :9573 :9656 :9726 :9783 :9830 :9868 :9898 :9922 :9941 :9956 :9967 :9976 :9982 :9987 :9991 :9994 :9995 :9997 :9998 :9999 :9999 :9999
< x) = (x) :03 :04 :5120 :5160 :5517 :5557 :5910 :5948 :6293 :6331 :6664 :6700 :7019 :7054 :7357 :7389 :7673 :7704 :7967 :7995 :8238 :8264 :8485 :8508 :8708 :8729 :8907 :8925 :9082 :9099 :9236 :9251 :9370 :9382 :9484 :9495 :9582 :9591 :9664 :9671 :9732 :9738 :9788 :9793 :9834 :9838 :9871 :9875 :9901 :9904 :9925 :9927 :9943 :9945 :9957 :9959 :9968 :9969 :9977 :9977 :9983 :9984 :9988 :9988 :9991 :9992 :9994 :9994 :9996 :9996 :9997 :9997 :9998 :9998 :9999 :9999 :9999 :9999 :9999 :9999
2 N (0; 1) :05 :06 :5199 :5239 :5596 :5636 :5987 :6026 :6368 :6406 :6736 :6772 :7088 :7123 :7422 :7454 :7734 :7764 :8023 :8051 :8289 :8315 :8531 :8554 :8749 :8770 :8944 :8962 :9115 :9131 :9265 :9279 :9394 :9406 :9505 :9515 :9599 :9608 :9678 :9686 :9744 :9750 :9798 :9803 :9842 :9846 :9878 :9881 :9906 :9909 :9929 :9931 :9946 :9948 :9960 :9961 :9970 :9971 :9978 :9979 :9984 :9985 :9989 :9989 :9992 :9992 :9994 :9994 :9996 :9996 :9997 :9997 :9998 :9998 :9999 :9999 :9999 :9999 :9999 :9999
:07 :5279 :5675 :6064 :6443 :6808 :7157 :7486 :7794 :8078 :8340 :8577 :8790 :8980 :9147 :9292 :9418 :9525 :9616 :9693 :9756 :9808 :9850 :9884 :9911 :9932 :9949 :9962 :9972 :9979 :9985 :9989 :9992 :9995 :9996 :9997 :9998 :9999 :9999 :9999
:08 :5319 :5714 :6103 :6480 :6844 :7190 :7517 :7823 :8106 :8365 :8599 :8810 :8997 :9162 :9306 :9429 :9535 :9625 :9699 :9761 :9812 :9854 :9887 :9913 :9934 :9951 :9963 :9973 :9980 :9986 :9990 :9993 :9995 :9996 :9997 :9998 :9999 :9999 :9999
:09 :5359 :5753 :6141 :6517 :6879 :7224 :7549 :7852 :8133 :8389 :8621 :8830 :9015 :9177 :9319 :9441 :9545 :9633 :9706 :9767 :9817 :9857 :9890 :9916 :9936 :9952 :9964 :9974 :9981 :9986 :9990 :9993 :9995 :9997 :9998 :9998 :9999 :9999 :9999
65
T-eloszlás kritikus értékei P (jtj > t ) = n
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 50 60 70 80 90 100 1
0:2 3:078 1:886 1:638 1:533 1:476 1:440 1:415 1:397 1:383 1:372 1:363 1:356 1:350 1:345 1:341 1:337 1:333 1:330 1:328 1:325 1:316 1:310 1:306 1:303 1:299 1:296 1:294 1:292 1:291 1:290 1:282
t 2 Tn
0:1 0:05 0:025 0:01 0:001 6:314 12:706 25:452 63:657 636:621 2:920 4:303 6:205 9:925 31:599 2:353 3:182 4:177 5:841 12:924 2:132 2:776 3:495 4:604 8:610 2:015 2:571 3:163 4:032 6:869 1:943 2:447 2:969 3:707 5:959 1:895 2:365 2:841 3:499 5:408 1:860 2:306 2:752 3:355 5:041 1:833 2:262 2:685 3:250 4:781 1:812 2:228 2:634 3:169 4:587 1:796 2:201 2:593 3:106 4:437 1:782 2:179 2:560 3:055 4:318 1:771 2:160 2:533 3:012 4:221 1:761 2:145 2:510 2:977 4:140 1:753 2:131 2:490 2:947 4:073 1:746 2:120 2:473 2:921 4:015 1:740 2:110 2:458 2:898 3:965 1:734 2:101 2:445 2:878 3:922 1:729 2:093 2:433 2:861 3:883 1:725 2:086 2:423 2:845 3:850 1:708 2:060 2:385 2:787 3:725 1:697 2:042 2:360 2:750 3:646 1:690 2:030 2:342 2:724 3:591 1:684 2:021 2:329 2:704 3:551 1:676 2:009 2:311 2:678 3:496 1:671 2:000 2:299 2:660 3:460 1:667 1:994 2:291 2:648 3:435 1:664 1:990 2:284 2:639 3:416 1:662 1:987 2:280 2:632 3:402 1:660 1:984 2:276 2:626 3:390 1:645 1:960 2:241 2:576 3:291
Kézirat, módosítva: 2008. május 28.
66
A. FÜGGELÉK. TÁBLÁZATOK
2
-eloszlás kritikus értékei P
n
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 50 60 70 80 90 100
0:999 :00 :00 :02 :09 :21 :38 :60 :86 1:15 1:48 1:83 2:21 2:62 3:04 3:48 3:94 4:42 4:90 5:41 5:92 8:65 11:59 14:69 17:92 24:67 31:74 39:04 46:52 54:16 61:92
0:99 :00 :02 :11 :30 :55 :87 1:24 1:65 2:09 2:56 3:05 3:57 4:11 4:66 5:23 5:81 6:41 7:01 7:63 8:26 11:52 14:95 18:51 22:16 29:71 37:48 45:44 53:54 61:75 70:06
0:975 :00 :05 :22 :48 :83 1:24 1:69 2:18 2:70 3:25 3:82 4:40 5:01 5:63 6:26 6:91 7:56 8:23 8:91 9:59 13:12 16:79 20:57 24:43 32:36 40:48 48:76 57:15 65:65 74:22
2
0:95 :00 :10 :35 :71 1:15 1:64 2:17 2:73 3:33 3:94 4:57 5:23 5:89 6:57 7:26 7:96 8:67 9:39 10:12 10:85 14:61 18:49 22:47 26:51 34:76 43:19 51:74 60:39 69:13 77:93
>
2
=
2
2
2 n
0:90 0:10 0:05 0:025 0:01 0:001 :02 2:71 3:84 5:02 6:63 10:83 :21 4:61 5:99 7:38 9:21 13:82 :58 6:25 7:81 9:35 11:34 16:27 1:06 7:78 9:49 11:14 13:28 18:47 1:61 9:24 11:07 12:83 15:09 20:52 2:20 10:64 12:59 14:45 16:81 22:46 2:83 12:02 14:07 16:01 18:48 24:32 3:49 13:36 15:51 17:53 20:09 26:12 4:17 14:68 16:92 19:02 21:67 27:88 4:87 15:99 18:31 20:48 23:21 29:59 5:58 17:28 19:68 21:92 24:72 31:26 6:30 18:55 21:03 23:34 26:22 32:91 7:04 19:81 22:36 24:74 27:69 34:53 7:79 21:06 23:68 26:12 29:14 36:12 8:55 22:31 25:00 27:49 30:58 37:70 9:31 23:54 26:30 28:85 32:00 39:25 10:09 24:77 27:59 30:19 33:41 40:79 10:86 25:99 28:87 31:53 34:81 42:31 11:65 27:20 30:14 32:85 36:19 43:82 12:44 28:41 31:41 34:17 37:57 45:31 16:47 34:38 37:65 40:65 44:31 52:62 20:60 40:26 43:77 46:98 50:89 59:70 24:80 46:06 49:80 53:20 57:34 66:62 29:05 51:81 55:76 59:34 63:69 73:40 37:69 63:17 67:50 71:42 76:15 86:66 46:46 74:40 79:08 83:30 88:38 99:61 55:33 85:53 90:53 95:02 100:43 112:32 64:28 96:58 101:88 106:63 112:33 124:84 73:29 107:57 113:15 118:14 124:12 137:21 82:36 118:50 124:34 129:56 135:81 149:45
67
F -eloszlás
kritikus értékei
P (f > f0:1 ) = 0:1 f 2 F(n1 ;n2 )
n2
n1
1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 35 40 60 120 1
1 2 3 4 5 6 7 8 9 10 39:86 49:50 53:59 55:83 57:24 58:20 58:91 59:44 59:86 60:19 8:53 9:00 9:16 9:24 9:29 9:33 9:35 9:37 9:38 9:39 5:54 5:46 5:39 5:34 5:31 5:28 5:27 5:25 5:24 5:23 4:54 4:32 4:19 4:11 4:05 4:01 3:98 3:95 3:94 3:92 4:06 3:78 3:62 3:52 3:45 3:40 3:37 3:34 3:32 3:30 3:78 3:46 3:29 3:18 3:11 3:05 3:01 2:98 2:96 2:94 3:59 3:26 3:07 2:96 2:88 2:83 2:78 2:75 2:72 2:70 3:46 3:11 2:92 2:81 2:73 2:67 2:62 2:59 2:56 2:54 3:36 3:01 2:81 2:69 2:61 2:55 2:51 2:47 2:44 2:42 3:29 2:92 2:73 2:61 2:52 2:46 2:41 2:38 2:35 2:32 3:18 2:81 2:61 2:48 2:39 2:33 2:28 2:24 2:21 2:19 3:07 2:70 2:49 2:36 2:27 2:21 2:16 2:12 2:09 2:06 2:97 2:59 2:38 2:25 2:16 2:09 2:04 2:00 1:96 1:94 2:92 2:53 2:32 2:18 2:09 2:02 1:97 1:93 1:89 1:87 2:88 2:49 2:28 2:14 2:05 1:98 1:93 1:88 1:85 1:82 2:85 2:46 2:25 2:11 2:02 1:95 1:90 1:85 1:82 1:79 2:84 2:44 2:23 2:09 2:00 1:93 1:87 1:83 1:79 1:76 2:79 2:39 2:18 2:04 1:95 1:87 1:82 1:77 1:74 1:71 2:75 2:35 2:13 1:99 1:90 1:82 1:77 1:72 1:68 1:65 2:71 2:30 2:08 1:94 1:85 1:77 1:72 1:67 1:63 1:60
Kézirat, módosítva: 2008. május 28.
68
A. FÜGGELÉK. TÁBLÁZATOK
F -eloszlás
kritikus értékei
P (f > f0:1 ) = 0:1 f 2 F(n1 ;n2 )
n2
n1
1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 35 40 60 120 1
12 15 20 25 30 35 40 60 120 1 60:71 61:22 61:74 62:05 62:26 62:42 62:53 62:79 63:06 63:33 9:41 9:42 9:44 9:45 9:46 9:46 9:47 9:47 9:48 9:49 5:22 5:20 5:18 5:17 5:17 5:16 5:16 5:15 5:14 5:13 3:90 3:87 3:84 3:83 3:82 3:81 3:80 3:79 3:78 3:76 3:27 3:24 3:21 3:19 3:17 3:16 3:16 3:14 3:12 3:11 2:90 2:87 2:84 2:81 2:80 2:79 2:78 2:76 2:74 2:72 2:67 2:63 2:59 2:57 2:56 2:54 2:54 2:51 2:49 2:47 2:50 2:46 2:42 2:40 2:38 2:37 2:36 2:34 2:32 2:29 2:38 2:34 2:30 2:27 2:25 2:24 2:23 2:21 2:18 2:16 2:28 2:24 2:20 2:17 2:16 2:14 2:13 2:11 2:08 2:06 2:15 2:10 2:06 2:03 2:01 2:00 1:99 1:96 1:93 1:90 2:02 1:97 1:92 1:89 1:87 1:86 1:85 1:82 1:79 1:76 1:89 1:84 1:79 1:76 1:74 1:72 1:71 1:68 1:64 1:61 1:82 1:77 1:72 1:68 1:66 1:64 1:63 1:59 1:56 1:52 1:77 1:72 1:67 1:63 1:61 1:59 1:57 1:54 1:50 1:46 1:74 1:69 1:63 1:60 1:57 1:55 1:53 1:50 1:46 1:41 1:71 1:66 1:61 1:57 1:54 1:52 1:51 1:47 1:42 1:38 1:66 1:60 1:54 1:50 1:48 1:45 1:44 1:40 1:35 1:29 1:60 1:55 1:48 1:44 1:41 1:39 1:37 1:32 1:26 1:19 1:55 1:49 1:42 1:38 1:34 1:32 1:30 1:24 1:17 1:00
69
F -eloszlás
kritikus értékei
P (f > f0:05 ) = 0:05 f 2 F(n1 ;n2 )
n2
n1
1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 35 40 60 120 1
1 2 3 4 5 6 7 8 9 10 161:5 199:5 215:7 224:6 230:2 234:0 236:8 238:9 240:5 241:9 18:51 19:00 19:16 19:25 19:30 19:33 19:35 19:37 19:38 19:40 10:13 9:55 9:28 9:12 9:01 8:94 8:89 8:85 8:81 8:79 7:71 6:94 6:59 6:39 6:26 6:16 6:09 6:04 6:00 5:96 6:61 5:79 5:41 5:19 5:05 4:95 4:88 4:82 4:77 4:74 5:99 5:14 4:76 4:53 4:39 4:28 4:21 4:15 4:10 4:06 5:59 4:74 4:35 4:12 3:97 3:87 3:79 3:73 3:68 3:64 5:32 4:46 4:07 3:84 3:69 3:58 3:50 3:44 3:39 3:35 5:12 4:26 3:86 3:63 3:48 3:37 3:29 3:23 3:18 3:14 4:96 4:10 3:71 3:48 3:33 3:22 3:14 3:07 3:02 2:98 4:75 3:89 3:49 3:26 3:11 3:00 2:91 2:85 2:80 2:75 4:54 3:68 3:29 3:06 2:90 2:79 2:71 2:64 2:59 2:54 4:35 3:49 3:10 2:87 2:71 2:60 2:51 2:45 2:39 2:35 4:24 3:39 2:99 2:76 2:60 2:49 2:40 2:34 2:28 2:24 4:17 3:32 2:92 2:69 2:53 2:42 2:33 2:27 2:21 2:16 4:12 3:27 2:87 2:64 2:49 2:37 2:29 2:22 2:16 2:11 4:08 3:23 2:84 2:61 2:45 2:34 2:25 2:18 2:12 2:08 4:00 3:15 2:76 2:53 2:37 2:25 2:17 2:10 2:04 1:99 3:92 3:07 2:68 2:45 2:29 2:18 2:09 2:02 1:96 1:91 3:84 3:00 2:61 2:37 2:21 2:10 2:01 1:94 1:88 1:83
Kézirat, módosítva: 2008. május 28.
70
A. FÜGGELÉK. TÁBLÁZATOK
F -eloszlás
kritikus értékei
P (f > f0:05 ) = 0:05 f 2 F(n1 ;n2 )
n2
n1
1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 35 40 60 120 1
12 15 20 25 30 35 40 60 120 1 243:9 246:0 248:0 249:3 250:1 250:7 251:1 252:2 253:3 254:7 19:41 19:43 19:45 19:46 19:46 19:47 19:47 19:48 19:49 19:50 8:74 8:70 8:66 8:63 8:62 8:60 8:59 8:57 8:55 8:53 5:91 5:86 5:80 5:77 5:75 5:73 5:72 5:69 5:66 5:63 4:68 4:62 4:56 4:52 4:50 4:48 4:46 4:43 4:40 4:37 4:00 3:94 3:87 3:83 3:81 3:79 3:77 3:74 3:70 3:67 3:57 3:51 3:44 3:40 3:38 3:36 3:34 3:30 3:27 3:23 3:28 3:22 3:15 3:11 3:08 3:06 3:04 3:01 2:97 2:93 3:07 3:01 2:94 2:89 2:86 2:84 2:83 2:79 2:75 2:71 2:91 2:85 2:77 2:73 2:70 2:68 2:66 2:62 2:58 2:54 2:69 2:62 2:54 2:50 2:47 2:44 2:43 2:38 2:34 2:30 2:48 2:40 2:33 2:28 2:25 2:22 2:20 2:16 2:11 2:07 2:28 2:20 2:12 2:07 2:04 2:01 1:99 1:95 1:90 1:84 2:16 2:09 2:01 1:96 1:92 1:89 1:87 1:82 1:77 1:71 2:09 2:01 1:93 1:88 1:84 1:81 1:79 1:74 1:68 1:62 2:04 1:96 1:88 1:82 1:79 1:76 1:74 1:68 1:62 1:56 2:00 1:92 1:84 1:78 1:74 1:72 1:69 1:64 1:58 1:51 1:92 1:84 1:75 1:69 1:65 1:62 1:59 1:53 1:47 1:39 1:83 1:75 1:66 1:60 1:55 1:52 1:50 1:43 1:35 1:25 1:75 1:67 1:57 1:51 1:46 1:42 1:39 1:32 1:22 1:00
71
F -eloszlás
kritikus értékei
P (f > f0:025 ) = 0:025 f 2 F(n1 ;n2 )
n2
n1
1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 35 40 60 120 1
1 647:8 38:51 17:44 12:22 10:01 8:81 8:07 7:57 7:21 6:94 6:55 6:20 5:87 5:69 5:57 5:48 5:42 5:29 5:15 5:02
2 3 4 5 6 7 8 9 10 799:5 864:2 899:6 921:8 937:1 948:2 956:7 963:3 968:6 39:00 39:17 39:25 39:30 39:33 39:36 39:37 39:39 39:40 16:04 15:44 15:10 14:88 14:73 14:62 14:54 14:47 14:42 10:65 9:98 9:60 9:36 9:20 9:07 8:98 8:90 8:84 8:43 7:76 7:39 7:15 6:98 6:85 6:76 6:68 6:62 7:26 6:60 6:23 5:99 5:82 5:70 5:60 5:52 5:46 6:54 5:89 5:52 5:29 5:12 4:99 4:90 4:82 4:76 6:06 5:42 5:05 4:82 4:65 4:53 4:43 4:36 4:30 5:71 5:08 4:72 4:48 4:32 4:20 4:10 4:03 3:96 5:46 4:83 4:47 4:24 4:07 3:95 3:85 3:78 3:72 5:10 4:47 4:12 3:89 3:73 3:61 3:51 3:44 3:37 4:77 4:15 3:80 3:58 3:41 3:29 3:20 3:12 3:06 4:46 3:86 3:51 3:29 3:13 3:01 2:91 2:84 2:77 4:29 3:69 3:35 3:13 2:97 2:85 2:75 2:68 2:61 4:18 3:59 3:25 3:03 2:87 2:75 2:65 2:57 2:51 4:11 3:52 3:18 2:96 2:80 2:68 2:58 2:50 2:44 4:05 3:46 3:13 2:90 2:74 2:62 2:53 2:45 2:39 3:93 3:34 3:01 2:79 2:63 2:51 2:41 2:33 2:27 3:80 3:23 2:89 2:67 2:52 2:39 2:30 2:22 2:16 3:69 3:12 2:79 2:57 2:41 2:29 2:19 2:11 2:05
Kézirat, módosítva: 2008. május 28.
72
A. FÜGGELÉK. TÁBLÁZATOK
F -eloszlás
kritikus értékei
P (f > f0:025 ) = 0:025 f 2 F(n1 ;n2 )
n2
n1
1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 35 40 60 120 1
12 15 20 25 30 35 40 60 120 1 976:7 984:9 993:1 998:1 1001 1003 1006 1010 1014 1018 39:41 39:43 39:45 39:46 39:46 39:47 39:47 39:48 39:49 39:50 14:34 14:25 14:17 14:12 14:08 14:06 14:04 13:99 13:95 13:90 8:75 8:66 8:56 8:50 8:46 8:43 8:41 8:36 8:31 8:26 6:52 6:43 6:33 6:27 6:23 6:20 6:18 6:12 6:07 6:02 5:37 5:27 5:17 5:11 5:07 5:04 5:01 4:96 4:90 4:85 4:67 4:57 4:47 4:40 4:36 4:33 4:31 4:25 4:20 4:14 4:20 4:10 4:00 3:94 3:89 3:86 3:84 3:78 3:73 3:67 3:87 3:77 3:67 3:60 3:56 3:53 3:51 3:45 3:39 3:33 3:62 3:52 3:42 3:35 3:31 3:28 3:26 3:20 3:14 3:08 3:28 3:18 3:07 3:01 2:96 2:93 2:91 2:85 2:79 2:73 2:96 2:86 2:76 2:69 2:64 2:61 2:59 2:52 2:46 2:40 2:68 2:57 2:46 2:40 2:35 2:31 2:29 2:22 2:16 2:09 2:51 2:41 2:30 2:23 2:18 2:15 2:12 2:05 1:98 1:91 2:41 2:31 2:20 2:12 2:07 2:04 2:01 1:94 1:87 1:79 2:34 2:23 2:12 2:05 2:00 1:96 1:93 1:86 1:79 1:70 2:29 2:18 2:07 1:99 1:94 1:90 1:88 1:80 1:72 1:64 2:17 2:06 1:94 1:87 1:82 1:78 1:74 1:67 1:58 1:48 2:05 1:94 1:82 1:75 1:69 1:65 1:61 1:53 1:43 1:31 1:94 1:83 1:71 1:63 1:57 1:52 1:48 1:39 1:27 1:00
B. függelék Képletek 1. Arány becslése (a) Visszatevéses mintavétel p
p^ =
1 p p (1 D (^ p) = p n
k n 1 p p p^ (1 n
p)
p^)
(b) Visszatevés nélküli mintavétel p= 1 D (^ p) = p n
s
p (1
p)
1
M N
n N
k n
p^ = 1 1
1 p n
s
p^ (1
p^) 1
2. Várható érték és szórás becslése (a) Visszatevéses, független mintavétel m
1 Pn x{ x= n i=1
s =
D (x) = p
n
r
1 n
s p
1
Pn
i=1
(x{
x)2
n
(b) Visszatevés nélküli mintavétel véges sokaságból r 1 Pn 1 Pn m x= s = (x{ x)2 i=1 x{ n n 1 i=1 r r n 1 s n 1 p D (x) = p 1 1 N 1 N 1 n n 73
n N
1 1
74
B. FÜGGELÉK. KÉPLETEK
3. Kon…dencia intervallumok (normális eloszlás esetén) m
x
t
s p
y
x
t
m
x
u
p0 y n
x
u
1
2
2
n
2
s
n 2
;s
r
s 0
n
1 2 1
2
2
1 1 + n k r 1 1 + n k !
4. Próbák (a) Normális eloszlás paramétereinek próbái H0 :
=
0
)
2
(n
=
1) s
2
H0 : m = m 0 ) t =
x s
m0 p
H0 : m 1 = m 2 ) t = ahol
2 n 1
2
2 0
n 2 Tn
x
S=
y S r
(n1
1
r
H0 :
1
u=
x
=
2
)
s1 2 s2 2
m0 p
n1 n2 2 Tn1 +n2 n1 + n2
2 F(n1 ;n2 )
n 2 N (0; 1) 2
1)s12 + (n2 1)s22 n1 + n2 2
(b) Az u-próba er½ofüggvénye E =1
p
n
m0
m
+u
p
+
m0
n
0
m
u
0
(c) Illeszkedési próbák n pi0 )2 2 2r n p i0 i=1 p H0 : F = F0 ) P ( n supx2R jF n (x) H0 : pi = pi0 )
r ( P
i
1
F0 (x)j < z) = K(z)
(d) Függetlenség vizsgálat H0 : pij = pi: p:j ) n
r X s X i=1 j=1
i: ij
:j
n i:
:j
2
2
2 (r 1) (s 1)
(e) Szórásanalízis Pr x:: )2 n r i=1 n{ (xi: HA : a1 = a2 = : : : = ar = 0 ) f = Pr Pn{ 2 F(r xi: )2 r 1 i=1 j=1 (xij Pr x:: )2 t r(t 1) i=1 (xi: HA : A = 0 ) f = Pr P 2 F(r 1;rt r) t 2 r 1 (x x ) ij i: i=1 j=1
1;n r)