Kísérletek tervezése és értékelése
STATISZTIKAI ALAPOK
I. STATISZTIKAI ALAPOK
1
Adatok ábrázolása Yogi Berra: "You can observe a lot by watching."
I. STATISZTIKAI ALAPOK
2
1
Kísérletek tervezése és értékelése
Mérési adatok ábrázolása: Pont ábrázolás (Dotplot) Dotplot for Y1
19
20
21
22
23
Y1
I. STATISZTIKAI ALAPOK
3
Sok adatra a dotplot nem elég informatív Dotplot for Y2
17.8
18.8
19.8
20.8
21.8
22.8
Y2
I. STATISZTIKAI ALAPOK
4
2
Kísérletek tervezése és értékelése
Pulzus példa
Egy társaság minden tagjának megmérték a pulzusát (PULSE1), majd kisorsolták ki fusson és ki nem (RAN). Futás után újból mérték a pulzust (PULSE2). A résztvevık néhány jellemzıjét (dohányzás, nem, stb.) a pulzus adatokkal együtt táblázatos formában rögzítették. A táblázatban egy sor egyazon személy adatait tartalmazza.
I. STATISZTIKAI ALAPOK
5
Histogram of PULSE2; categorized by RAN Pulse.sta 8v*92c 24 22 20 18 16
Pulse.sta 8v*92c 160
No of obs
14
Box Plot of PULSE2 grouped by RAN
12 10 8 6
140
4 2
120 PULSE2
0 40
50
60
100
70
80
90
100
110
120
130
140
RAN: 1 RAN: 2
150
PULSE2
80
60
40 1
2 RAN
Median 25%-75% Non-Outlier Range Outliers Extremes
I. STATISZTIKAI ALAPOK
6
3
Kísérletek tervezése és értékelése
Box Plot of PULSE2 grouped by SEX; categorized by RAN Pulse.sta 8v*92c 160
140
PULSE2
120
100
80
60
PULSE2/RAN: 1 PULSE2/RAN: 2 Outliers
40 1
2 SEX
I. STATISZTIKAI ALAPOK
7
Scatterplot of WEIGHT against HEIGHT Pulse.sta 8v*92c 100
90
WEIGHT
80
70
60
50
40 150
155
160
165
170
175
180
185
HEIGHT
I. STATISZTIKAI ALAPOK
190
195
Include sex=1 Include sex=2 Other
8
4
Kísérletek tervezése és értékelése
Dobozos ábra és hisztogram szimmetrikus eloszlásból vett mintára
Max = 63 Min = 37 75% = 54.6 25% = 44.8 Median = 50.1
70
70
65
65
60
60
55
55
50
50
45
45
40
40
35
35
30
30 0%
5%
10%
15%
20%
25%
30%
rel. gyak. I. STATISZTIKAI ALAPOK
9
Dobozos ábra és hisztogram aszimmetrikus eloszlásból vett mintára Max = 15 Min = 0. 75% = 7.6 25% = 2.0 Median = 4.4
outlier
20
20
18
18
16
16
14
14
12
12
10
10
8
8
6
6
4
4
2
2
0
0 0%
5%
10%
15%
20%
25%
frequency I. STATISZTIKAI ALAPOK
10
5
Kísérletek tervezése és értékelése
I. STATISZTIKAI ALAPOK
11
D. G. Altman, BMJ, 1982 “Student”, 1931
I. STATISZTIKAI ALAPOK
12
6
Kísérletek tervezése és értékelése
Mérési skálák • • • •
névleges (nominal, categorical) sorrendi (ordered categorical) intervallum (interval) arányos (proportional)
I. STATISZTIKAI ALAPOK
13
11 10 9
7 6
11 5
10 4
9
3 Sopron
Gödöllõ
Nyíregyháza
8
Város
y
y
8
7 6 5 4 3 20
30
40
T
I. STATISZTIKAI ALAPOK
14
7
Kísérletek tervezése és értékelése
Alapfogalmak (vázlat) • Véletlen jelenség • Sokaság és minta • Valószínőségi változó: diszkrét vagy folytonos • Sőrőség- és eloszlásfüggvény • Függetlenség fogalma
I. STATISZTIKAI ALAPOK
15
Az ingadozás, bizonytalanság elkerülhetetlen • a gyártott termékpéldányok különböznek • az ismételt mérési eredmények nem azonosak • ha egy tételbıl többször veszünk mintát, a talált selejtarány változik • ha másik mintát veszünk a vízbıl, nem lesz teljesen azonos • ha másik napon veszünk mintát, nem lesz ugyanolyan
I. STATISZTIKAI ALAPOK
16
8
Kísérletek tervezése és értékelése
Sokaság és minta a sokaság érdekel a minta van a kezünkben az egy év alatt gyártott darabok sokasága (mi a minta?) a lehetséges mérési eredmények sokasága (mi a minta?) a lehetséges gyártott darabok sokasága (mi a minta?)
I. STATISZTIKAI ALAPOK
17
Diszkrét valószínőségi változó Dobjunk föl egy pénzérmét kimenetel: fej/írás (véletlen)
I. STATISZTIKAI ALAPOK
p(x)
Kísérlet: dobjuk föl a pénzérmét 10-szer eredmény: #fej 0, 1, 2, …,9, 10 valószínőségi függvény, eloszlásfüggvény
0.24 0.16 0.08 0.00 0 1 2 3 4 5 6 7 8 9 10
x
18
9
Kísérletek tervezése és értékelése
Diszkrét valószínőségi változó
0.8
0.16
0.6
F(x)
p(x)
1.0
0.24
0.08
0.4 0.2
0.00
0.0
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
x
x
F (k ) = P( x ≤ k ) =
p(k ) = P( x = k )
∑ p(x ) i
xi ≤ k
I. STATISZTIKAI ALAPOK
19
Folytonos valószínőségi változó
f(x)
rel. gyak
0.4 0.2
a b
x
0.0 9.4
9.8
10.2
10.6
x
b
P(a < x ≤ b ) = ∫ f ( x )dx a
sőrőségfüggvény I. STATISZTIKAI ALAPOK
20
10
Kísérletek tervezése és értékelése
Folytonos valószínőségi változó
1.0
kum.rel.gyak
F(x)
F(x)
0.8 0.6
F(xi)
0.4
xi
x
0.2 0.0 9.4
9.6
9.8 10.0 10.2 10.4 10.6
F ( xi ) = P ( x ≤ xi ) =
xi
∫ f (x )dx
−∞
x
eloszlásfüggvény I. STATISZTIKAI ALAPOK
21
Paraméter és statisztika sokaság • várható érték:
E (x ) = µ • medián • variancia Var( x ) = σ x2
minta • számtani átlag: 1 x= N
N
∑x i =1
i
• tapasztalati medián • szórásnégyzet (korrigált) s2 =
I. STATISZTIKAI ALAPOK
1 N ( x i − x )2 ∑ N − 1 i =1 22
11
Kísérletek tervezése és értékelése
Várható értékre és varianciára vonatkozó azonosságok
E [ cx ] = cE [ x ]
Var [ cx ] = c 2Var [ x ]
I.1. példa Egy lombikba töltött folyadék térfogatának várható értéke 10.05cm3, a térfogat varianciája 4·10-4(cm3)2. Mekkora a várhatóérték és a variancia mm3-ben? Jelölje x a térfogatot cm3–ben.
E 103 x = 103 E [ x ] = 103 ⋅10.05
Var 103 x = (103 ) Var [ x ] = 106 ⋅ 4 ⋅10−4 2
A várható érték 10.05·103 mm3, a variancia 400 (mm3)2. I. STATISZTIKAI ALAPOK
23
Független valószínőségi változókra vonatkozó azonosságok
E [ x1 + x2 + x3 ] = E [ x1 ] + E [ x2 ] + E [ x3 ] Var [ x1 + x2 + x3 ] = Var [ x1 ] + Var [ x2 ] + Var [ x3 ] Ha mindegyik xi azonos eloszlású és független:
E [ xi ] = E [ x ] és Var [ xi ] = Var [ x ] minden i-re E [ x1 + x2 + ... + xn ] = nE [ x ]
Var [ x1 + x2 + ... + xn ] = nVar [ x ] Példa azonos eloszlású független változókra: ismételt mérések. A mérések függetlensége ebben az esetben a hibák függetlenségét jelenti. I. STATISZTIKAI ALAPOK
24
12
Kísérletek tervezése és értékelése
Módusz, medián, várható érték 0.175
módusz
0.131
várható érték = 8
0.087
medián = 7.34
0.044 0.000 0
5
10
15
20
25
I. STATISZTIKAI ALAPOK
25
A legfontosabb folytonos eloszlás: normális eloszlás
f (x ) =
1 x − µ 2 exp − 2π σ 2 σ 1
Két paramétere van: µ és σ2
I. STATISZTIKAI ALAPOK
26
13
Kísérletek tervezése és értékelése
f(x)
x
µ különbözı
x
σ különbözı I. STATISZTIKAI ALAPOK
27
Várható értéke és varianciája:
E (x ) = µ
Var ( x ) = σ 2
,
Rövid jelölése:
(
N µ ,σ 2
)
pl.
N (0,1)
A normális eloszlás sőrőségfüggvénye (f(x)) analitikusan nem integrálható, ezért az eloszlásfüggvény (F(x)) értékét numerikusan kell kiszámolni. A numerikus integrálás eredményei táblázatos formában rendelkezésre állnak az N(0,1) eloszlásra. Mi a teendı µ≠0 és/vagy σ≠1 esetén? Célszerő transzformációt keresnünk I. STATISZTIKAI ALAPOK
28
14
Kísérletek tervezése és értékelése
Normalizált (standardizált) normális eloszlás
z =
x−µ
z2 exp − 2π 2
f (z ) =
σ
1
Var ( z ) = 1
E (z ) = 0
Megjegyzés: A magyar szakirodalomban a standard normális eloszlású változó jelölésére a „z” mellett az „u” is elterjedt. I. STATISZTIKAI ALAPOK
29
I.2. példa Határozzuk meg annak valószínőségét, hogy az x normális eloszlású valószínőségi változó a µ±σ, µ±2σ illetve µ±3σ intervallumba esı értéket vesz fel! (Pl. azt kérdezzük, hogy milyen valószínőséggel esik a 10±0.5 intervallumba, ha µ=10, σ=0.5)
P (µ −σ < x ≤ µ +σ ) = P ( x ≤ µ +σ ) − P ( x ≤ µ −σ ) xalsó
xfölsı
x-re nincs táblázat, csak z-re → transzformáció zalsó =
µ −σ − µ = −1 σ
z fölsı =
I. STATISZTIKAI ALAPOK
z=
x−µ
σ
µ +σ − µ =1 σ 30
15
Kísérletek tervezése és értékelése
P(x ≤ µ + σ ) P(x ≤ µ − σ )
µ −σ
µ
-1
0
µ +σ
x
z=
z
1
x−µ
σ
P ( µ − σ < x ≤ µ + σ ) = P ( −1 < z ≤ 1) = F (1) − F (−1) I. STATISZTIKAI ALAPOK
31
P ( µ − σ < x ≤ µ + σ ) = P ( x ≤ x fölsı ) − P ( x < xalsó ) xalsó
xfölsı
±σ
±2σ
±3σ
F ( x fölsı ) = P( x ≤ x fölsı )
0.84134
0.97725
0.99865
F ( xalsó ) = P( x ≤ xalsó )
0.15866
0.02275
0.00135
P ( xalsó < x ≤ x fölsı )
0.68268
0.9545
0.9973
I. STATISZTIKAI ALAPOK
32
16
Kísérletek tervezése és értékelése
I.3. példa Határozzuk meg, hogy egy µ=10 σ2=0.25 normális eloszlású valószínőségi változó értékei milyen szimmetrikus intervallumban vannak 95 %-os, ill. 99 %-os valószínőséggel!
α
0.05
0.01
1-α
0.95
0.99
1-α/2
0.975
0.995
zα/2
1.96
2.58
α
0.05
0.01
xalsó
9.02
8.71
xfölsı
10.98
11.29
P ( µ − zα / 2σ < x ≤ µ + zα / 2σ ) = 1 − α xalsó
xfölsı I. STATISZTIKAI ALAPOK
33
α/2
α/2 xalsó
µ
xfölsõ
-zα/2
0
zα/2
I. STATISZTIKAI ALAPOK
z
34
17
Kísérletek tervezése és értékelése
A számtani középérték
x=
1 (x1 + x 2 + ... + xn ) = 1 ∑ xi n n
E (x ) =
1 [nE (x )] = E (x ) = µ n
σ x2 = Var ( x ) =
Var ( x ) σ x2 = n n
I. STATISZTIKAI ALAPOK
35
Centrális határeloszlási tétel
Bármilyen eloszlású sokaságból vett minták számtani középértéke közelítıleg normális eloszlást követ az eredeti eloszlás várható értéke körül, varianciája pedig σ2/n. Tehát a számtani átlag közelítıleg N(µ, σ2/n) eloszlású.
I. STATISZTIKAI ALAPOK
36
18
Kísérletek tervezése és értékelése
PARAMÉTERBECSLÉS ÉS KONFIDENCIAINTERVALLUM
Becslésnél a sokaság tulajdonságára (paraméterére) következtetünk a minta adatai (jellemzıi) alapján. A becslés a mintából kiszámított statisztika (pl. a várható érték egyik lehetséges becslése lehet a mintaelemek számtani középértéke).
II. PARAMÉTERBECSLÉS
37
A becslés valószínőségi változó
( )
f Θɵ
a jobb becslés mint b, mert kisebb az ingadozása
a
c b
c-re a várható érték nem a Θ paraméter
Θɵ
Θ
paraméter II. PARAMÉTERBECSLÉS
38
19
Kísérletek tervezése és értékelése
A becslések tulajdonságai Torzítatlan becslés:
( )
ɵ = Θ. E Θ n
( ) ɵ ) Θ − E (Θ ɵ −Θ E Θ n
torzítás: korrekció:
Aszimptotikusan torzítatlan becslés:
n
( )
ɵ = Θ. lim E Θ n n →∞
II. PARAMÉTERBECSLÉS
( )
ˆ =Θ EΘ n
torzítatlan
Példa:
µˆ = x =
39
Θ=µ
∑x
i
µˆ = x4
i
n
E(x) = µ
E ( x4 ) = µ
torzítatlan
torzítatlan II. PARAMÉTERBECSLÉS
40
20
Kísérletek tervezése és értékelése
A becslés hatásosságának mértéke a varianciája. Minél kisebb a variancia, annál hatásosabb (efficiensebb) a becslés. Példa
σ2
µˆ = x
Var ( x ) =
µˆ = x4
Var ( x 4 ) = σ 2
hatásosabb
n kevésbé hatásos
II. PARAMÉTERBECSLÉS
(
41
)
ɵ − Θ > ε = 0. lim P Θ n
Konzisztens becslés:
n →∞
ˆ →Θ n→∞ Θ n A minta elemszámának növelésével a becslés a paraméter igazi értékéhez tart, pontosabban n növelésével egyre csökken annak valószínősége, hogy Q-tól jelentısen eltérjen.
µˆ = x
konzisztens
µˆ = x4
nem konzisztens
Mean square error
(
)
( )
2 ˆ − Θ = Var Θ ˆ + bias 2 MSE = E Θ II. PARAMÉTERBECSLÉS
42
21
Kísérletek tervezése és értékelése
Becslési módszerek • legkisebb négyzetek módszere: a mért adatok és a becslés közötti eltérések négyzetösszegét minimalizálja, pl. n
∑(x i =1
− µɵ ) = min 2
i
• maximum-likelihood módszer: azt a sőrőségfüggvényt, illetve paramétereit fogadjuk el becslésként, amelybıl a legnagyobb valószínőséggel kapnánk a ténylegesen kapott mérési adatokat. II. PARAMÉTERBECSLÉS
ni N
f1
f2
43
f3
x
Normális eloszlás és konstans σ 2 esetén a maximum-likelihood és a legkisebb négyzetek módszer azonos becslést eredményez. II. PARAMÉTERBECSLÉS
44
22
Kísérletek tervezése és értékelése
A becslés kivitelezése • Pontbecslés (egyetlen értéket ad meg) • Intervallumbecslés: konfidencia intervallum, amely bizonyos valószínőséggel magában foglalja a paraméter igazi értékét: – kétoldali megbízhatósági intervallum – egyoldali megbízhatósági intervallum (alsó vagy fölsı határérték)
II. PARAMÉTERBECSLÉS
45
Pl. a várható értékre egy L és U határolta intervallum:
P( L ≤ µ ≤ U ) = 1 − α A 100 ⋅ (1 − α ) %-os alsó L határ:
P( L ≤ µ ) = 1 − α
A 100 ⋅ (1 − α ) %-os fölsı U határ:
P( µ ≤ U ) = 1 − α
II. PARAMÉTERBECSLÉS
46
23
Kísérletek tervezése és értékelése
II.1. példa A tömegmérés varianciája s 2=10-2 g2 és az eloszlás normális.
a) Adjunk 99%-os kétoldali konfidencia-intervallumot az eloszlás várható értékére egyetlen darab alapján, melyre a mérés eredménye 50 g! P ( − zα / 2 < z ≤ zα / 2 ) = 1 − α = 0.99
z= II. PARAMÉTERBECSLÉS
47
P ( x − zα / 2σ < µ ≤ x + zα / 2σ ) = 0.99
α = 0.01-hez zα/2=
P(
<µ≤
) = 0.99
II. PARAMÉTERBECSLÉS
48
24
Kísérletek tervezése és értékelése
b) Adjunk 99%-os kétoldali konfidenciaintervallumot az eloszlás várható értékére több alkatrész átlaga alapján!
P ( − zα / 2 < z ≤ zα / 2 ) = 1 − α = 0.99
P(
z=
) = 0.99
<µ<
P(
,
<x−µ≤
) = 0.99
II. PARAMÉTERBECSLÉS
49
A konfidenciaintervallum félszélessége az ismétlések számának függvényében
n 1 2 3 4 5 6
zα / 2σ / n
II. PARAMÉTERBECSLÉS
1/ n
50
25
Kísérletek tervezése és értékelése
II.2. példa Adjunk a I.11. példában szereplı mérési eredmények várható értékére 95 %-os megbízhatóságú alsó határt!
s 2 = 0 .89422
x = 24 .864
P( L ≤ µ ) = 0.95
t=
s = 0.965
x−µ s n
II. PARAMÉTERBECSLÉS
P( Aν=
P(
51
≤ µ ) = 0.95 szabadsági fokhoz t0.05=
≤ µ ) = 0.95
II. PARAMÉTERBECSLÉS
52
26
Kísérletek tervezése és értékelése
II.3. példa Milyen értéket nem halad meg a I.11. példában szereplı mérési eredmények varianciájára 95 %-os valószínőséggel!
s = 0.965
s 2 = 0 .89422
(
χ 2σ 2 s = ν
)
2
P σ 2 ≤U = 0.95
II. PARAMÉTERBECSLÉS
P (σ 2 ≤ Aν=
53
) = 0.95
szabadsági fokhoz χ2alsó=
P (σ 2 ≤
) = 0.95 II. PARAMÉTERBECSLÉS
54
27
Kísérletek tervezése és értékelése
HIPOTÉZISVIZSGÁLATOK, STATISZTIKAI PRÓBÁK Statisztikai következtetés: a sokaság érdekel, de a minta van a kezünkben. Az alapsokaságra vonatkozóan valamilyen feltevéssel élünk (pl. µ és/vagy σ értéke) és azt statisztikai próbával ellenırizzük. Jöhetnek-e az adatok olyan eloszlásból …? Pl.:
H 0 : µ = µ0 nullhipotézis
H1 : µ ≠ µ 0 ellenhipotézis III. STATISZTIKAI PRÓBÁK
55
z-próba H 0 : µ = µ0
z=
x−µ σ n
H1 : µ ≠ µ0 z0 =
x −µ0 σ n
próbastatisztika
Ha H0 igaz, z0 ~ z Ha z0 olyan értékeket vesz föl, amilyeneket z szokott, elfogadjuk H0-t.
III. STATISZTIKAI PRÓBÁK
56
28
Kísérletek tervezése és értékelése
P (-z a 2 < z0 ≤ z a 2 H 0 ) = 1 − α α/2
α/2
-zα/2 elutasítás
zα/2
0
elfogadás
x − µ0 P -z a 2 < ≤ z a 2 H 0 = 1 − α σ n
z
elutasítás
µ 0 − zα / 2σ / n < x < µ0 + zα / 2σ / n
x − zα / 2σ / n < µ 0 < x + zα / 2σ / n
a konfidencia-intervallum tartalmazza a µ0 értéket
III. STATISZTIKAI PRÓBÁK
57
z-próba • kiszámítjuk a próbastatisztika aktuális értékét:
z0 =
x − µ
σ
0
n
=
értéke 0, ha H0 igaz
x − µ µ − µ0 + σ n σ n
z-eloszlású H 0 : µ = µ0 H 1 : µ ≠ µ 0 , vagy H 1 : µ < µ 0 , vagy H 1 : µ > µ 0 . III. STATISZTIKAI PRÓBÁK
58
29
Kísérletek tervezése és értékelése
• kijelöljük az elfogadási tartományt az elıírt α szignifikanciaszinthez H1 : µ ≠ µ0
Pl.
esetén
x − µ0 x − µ0 P -z a 2 < ≤ z a 2 = P ≤ za 2 = 1 − α σ n σ n • megvizsgáljuk, hogy a próbastatisztika kiszámított értéke az elfogadási tartományban van-e • ha igen, elfogadjuk a nullhipotézist
III. STATISZTIKAI PRÓBÁK
59
• A statisztikai programcsomagok kiszámolják p értékét esetén H1 : µ > µ0 Pl. p = P(z > z 0 )
• ha p > α, elfogadjuk a nullhipotézist
p 0 z0
III. STATISZTIKAI PRÓBÁK
60
30
Kísérletek tervezése és értékelése
• A statisztikai programcsomagok kiszámolják p értékét esetén H1 : µ ≠ µ0 Pl. p = 1 − P (-z 0 < z ≤ z 0 ) = 2 P (z > z 0 ) • ha p > α, elfogadjuk a nullhipotézist
p/2
p/2
0 -z0
z0
III. STATISZTIKAI PRÓBÁK
61
Elsı- és másodfajú hiba
döntés nullhipotézis
H0 igaz H0 nem igaz
a H0 hipotézist elfogadjuk
elutasítjuk
helyes döntés
elsıfajú hiba (α)
másodfajú hiba (β)
helyes döntés
III. STATISZTIKAI PRÓBÁK
62
31
Kísérletek tervezése és értékelése
A másodfajú hiba valószínősége f(z0H0)
f(z0H1)
β
α /2
α /2
( µ1 -µ0 )/( σ / √n)
III. STATISZTIKAI PRÓBÁK
63
Mőködési jelleggörbe (OC-görbe
)
1.0
β 0.8
0.6
0.4
0.2
0.0 5.000
µ0
5.005
5.010
III. STATISZTIKAI PRÓBÁK
5.015
µ1
5.020
64
32
Kísérletek tervezése és értékelése
III.1. példa Táramérlegen négy ismételt tömegméréssel határoztuk meg egy tárgy tömegét. A 4 mérésbıl álló minta számtani középértéke 5.0125 g. Korábbi mérésekbıl tudjuk, hogy a mérés varianciája s2 = 10-4 g2 . El kell döntenünk, hihetı-e, hogy a várható érték (a tárgy valódi tömege) 5.0000 g.
III. STATISZTIKAI PRÓBÁK
H 0 : µ = 5 .0000 ,
H 1 : µ ≠ 5 .0000
x = 5.0125 , σ 2 = 10 −4 ,
z0 =
65
n = 4, α = 0 .05
x − µ0 = n σ
za 2 =
III. STATISZTIKAI PRÓBÁK
66
33
Kísérletek tervezése és értékelése
III.2. példa Egy anyag minısége egyértelmően jellemezhetı a sőrőségével, melynek kívánatos értéke kisebb, mint 1.54. A gyártás során szerzett eddigi ismeretek szerint a mérés pontosságára jellemzı variancia négyzetgyöke σ = 0.03. A vizsgálat menete a következı: n-szer mintát veszünk a minısítendı legyártott tételbıl, mindegyik minta sőrőségét megmérjük, átlagoljuk: az így kapott átlagos sőrőség x . * Ha az átlagos sőrőség meghalad egy bizonyos x határértéket, az adagot rossznak, ha kisebb nála, jónak minısítjük. III. STATISZTIKAI PRÓBÁK
67
Hogy a jó tételt majdnem mindig elfogadjuk, a rosszakat majdnem mindig elutasítsuk, a következı kívánalmakat adjuk meg: • ha µ ≤ 1.50, 99 % legyen a valószínősége, hogy jónak minısítsük, • ha µ ≥ 1.54, 98 % legyen a valószínősége, hogy rossznak minısítsük az adagot. A nullhipotézis és az ellenhipotézis:
H 0 : µ ≤ µ 0 = 1.50
(a tétel jó);
H 1 : µ ≥ µ1 = 1.5 4
(a tétel rossz).
III. STATISZTIKAI PRÓBÁK
68
34
Kísérletek tervezése és értékelése
Az elsıfajú hiba megengedett valószínősége
α = 0.01, A másodfajú hiba megengedett valószínősége
β = 0.02. A kimutatandó, jelentısnek minısítendı különbség: ∆ = 0.04.
A feladat: határozzuk meg a veendı minták n számát * és az x határértéket. III. STATISZTIKAI PRÓBÁK
69
Kritikus értékek az elsı- és másodfajú hibához
H1
β
-zβ
0
H0 α 0
zα sőrőség
1.50
1.54
III. STATISZTIKAI PRÓBÁK
70
35
Kísérletek tervezése és értékelése
* Fejezzük ki azt az x határt, amelyet x 1-α valószínőséggel nem halad meg, ha H0 igaz (az ábra alsó része):
x − µ0 P (z 0 ≤ u α H 0 ) = P ≤ z α H 0 = 1 − α n σ
(
P (z 0 ≤ z α H 0 ) = P x ≤ µ 0 + z α σ
H0
x * = µ 0 + zα σ
(
)
)
n = P x ≤ x* H 0 = 1−α
n
III. STATISZTIKAI PRÓBÁK
71
Másodfajú hibát akkor követünk el, ha H1 az igaz ( µ ≥ µ1 = 1. 54 ), de mivel z 0 ≤ z α , elfogadjuk a H0 hipotézist. Ennek valószínősége:
(
)
x − µ1 x * − µ 1 ≤ n σ n
β = P (z 0 ≤ zα H 1 ) = P x ≤ x * H 1 = P σ x − µ1 ≤ − zβ σ / n
β = P
H1
x * = µ1 − z β σ
n
III. STATISZTIKAI PRÓBÁK
72
36
Kísérletek tervezése és értékelése
A kimutatandó, jelentısnek minısített különbség: ∆ = µ1 − µ 0 A két egyenlet jobb oldalát egymással egyenlıvé téve, majd átrendezve:
µ 1 − µ 0 = ( zα + z β ) σ
(z n=
+ zβ )
n =∆
2
α
(µ 1 − µ 0 )
2
σ2
III. STATISZTIKAI PRÓBÁK
73
Esetünkben: z α = 2 .326 z β = 2 . 054
n = 10 .8 ≈ 11
∆ = 0.04
x * = 1.521
σ = 0 .03
III. STATISZTIKAI PRÓBÁK
74
37
Kísérletek tervezése és értékelése
Egymintás t-próba
H 0 : µ = µ0 t0 =
H1 : µ ≠ µ 0
x − µ0 x − µ µ − µ0 µ − µ0 = + =t+ s n s n s n s n
x − µ0 P -t a 2 < ≤ ta 2 = 1 − α s n III. STATISZTIKAI PRÓBÁK
75
III.3. példa Egy analitikai módszer torzítatlanságának vizsgálatára 5 ismételt mérést végeztek egy 3.25% ismert koncentrációjú munka-standarddel. Az eredmények: 3.25, 3.27, 3.24, 3.26 és 3.24. Elfogadva, hogy az adatok közelítıleg normális eloszlásúak, ellenırizzük 5%-os szignifikanciaszinten a torzítatlanság hipotézisét!
x= H
0
t0 =
s= :
H1 :
x − µ0 = s n
tα / 2 = III. STATISZTIKAI PRÓBÁK
76
38
Kísérletek tervezése és értékelése
Statisztikai próba és konfidencia-intervallum Kétoldali eset Elfogadási tartomány: − tα 2 < t0 < tα 2
t0 =
x − µ0 s n
Átrendezve -t a 2 s
x -t a 2 s
n < x − µ 0 ≤ ta 2 s
n
n < µ 0 ≤ x + ta 2 s
n
A µ várható érték 1-α valószínőségő konfidencia-intervalluma x -t a 2 s
n < µ ≤ x + ta 2 s
n
III. STATISZTIKAI PRÓBÁK
x -t a 2 s
n < µ 0 ≤ x + ta 2 s
77
n
Elfogadjuk a nullhipotézist (µ = µ0), ha a konfidenciaintervallum tartalmazza a µ0 feltételezett várható értéket.
III. STATISZTIKAI PRÓBÁK
78
39
Kísérletek tervezése és értékelése
Statisztikai próba és konfidencia-intervallum egyoldali esetre H1 : µ > µ0
H 0 : µ ≤ µ0 t0 =
x−µ0 s
n
=
x−µ s
n
+
µ −µ0 s
n
s
n
s
n
x − µ0 P ≤ t α H 0 = 1 − α s n
Az elfogadási tartomány:
x − µ0
µ−µ0
=t+
≤ tα
x − tα s
n ≤ µ0
A nullhipotézist akkor fogadjuk el, ha µ0 benne van a várható érték 1-α valószínőségő alsó egyoldali konfidencia-tartományában. III. STATISZTIKAI PRÓBÁK
79
Meg kell tanulnunk pontosan kérdezni III.4 példa H 0 : µ ≤ µ 0 = 5 µg kg
H1 : µ > µ 0 = 5 µg kg
Ha elutasítjuk H0-t, azt látjuk bizonyítva, hogy a megengedettnél több van benne. Ha elfogadjuk H0-t, semmit nem látunk bizonyítva. H′0 : µ ≥ µ 0 = 5 µg kg
H1′ : µ < µ 0 = 5 µg kg
Ha elutasítjuk H`0-t, azt látjuk bizonyítva, hogy a megengedettnél kevesebb van benne. Ha elfogadjuk H`0-t, semmit nem látunk bizonyítva. Mit akarunk bizonyítani? III. STATISZTIKAI PRÓBÁK
80
40
Kísérletek tervezése és értékelése
Egyoldali ellenhipotézis III.5. példa Az aflatoxin-példa folytatása: Hány ismételt analízis szükséges ahhoz, hogy kimutassuk, ha 5µg/kg helyett 5.5µg/kg a koncentráció?
H′0 : µ ≤ µ 0 = 5 µg kg H1′ : µ > µ 0 = 5 µg kg
H0 III. STATISZTIKAI PRÓBÁK
Null Hypothesized Mean (Mu0) True Population Mean (Mu) Population S.D. (Sigma) Standardized Effect (Es) Type I Error Rate (Alpha) Power Goal Actual Power for Required N Required Sample Size (N)
81
Sample Size Calculation One Mean, t-Test H0: Mu <= Mu0 Value 5.0000 5.5000 0.6000 0.8333 0.0500 0.9000 0.9040 14.0000 III. STATISZTIKAI PRÓBÁK
82
41
Kísérletek tervezése és értékelése
1 Sample t-Test: Sample Size Calculation One Mean, t-Test (H0: Mu <= Mu0) Sample Size vs. Es (Alpha = 0.05, Power Goal = 0.9) 30
Required Sample Size (N)
25
20
15
10
5
0 0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Standardized Effect (Es)
III. STATISZTIKAI PRÓBÁK
83
Egy anyagban a szennyezés max. megengedett koncentrációja 0.1%. Adjuk meg a nullhipotézist és az ellenhipotézist!
III. STATISZTIKAI PRÓBÁK
84
42
Kísérletek tervezése és értékelése
J. H. Steiger, R.T. Fouladi: Noncentrality Interval Estimation and the Evaluation of Statistical Models, Chapter 9 in: L.L. Harlow, S.A. Mulaik, J.H. Steiger: What if there were no significance tests? Mahwah, NJ: Erlbaum (1997) Mean; Whisker: Mean±0.95 Conf. In terv al 0.8
0.6
0.4
0.2
0.0
-0.2
-0.4 I
II
III
IV
III. STATISZTIKAI PRÓBÁK
85
χ2 -próba a variancia vizsgálatára
H 0 :σ 2 ≤ σ 02
H1 :σ 2 > σ 02
Ha H0 igaz, akkor a következı kifejezés χ2-eloszlású, szabadsági foka: ν = n − 1
χ = 2 0
s 2 ( n − 1)
σ 02
,
s 2 ( n − 1) 2 P ≤ χ = 1− α α 2 σ 0
III. STATISZTIKAI PRÓBÁK
86
43
Kísérletek tervezése és értékelése
III.6. példa TABLE 4.3. Data on the amount of wear measured with two different materials A and B, boy’s shoes example* boy 1 2 3 4 5 6 7 8 9 10
material A
material B
13.2(L) 8.2(L) 10.9(R) 14.3(L) 10.7(R) 6.6(L) 9.5(L) 10.8(L) 8.8(R) 13.3(L)
14.0(R) 8.8(R) 11.2(L) 14.2(R) 11.8(L) 6.4(R) 9.8(R) 11.3(R) 9.3(L) 13.6(R) average difference
B–A difference d 0.8 0.6 0.3 -0.1 1.1 -0.2 0.3 0.5 0.5 0.3 0.41
III. STATISZTIKAI PRÓBÁK
87
Ellenırizzük a fiúcipı-példa A talpanyagára α =0.05-os szignifikanciaszinten, hogy elfogadható-e az az állítás, mely szerint a sokaság szórása (s) legfeljebb 2.5!
Variable TALPA
Descriptive Statistics (Fiucipo.sta) Valid N Std.Dev. Confidence SD -90.000% 10 2.451326 1.787867
III. STATISZTIKAI PRÓBÁK
Confidence SD +90.000% 4.032916
88
44
Kísérletek tervezése és értékelése
Mekkora eltérést tudnánk kimutatni? α=0.05, β=0.1, n=10
Power vs. Var One Variance: Power Calculation Chi-square Variance Test (H0: Var <= 6.25) Power vs. Population Variance (Alpha = 0.05, Df = 9) 1.0 .9 .8 .7 Power
.6 .5 .4 .3 .2 .1 0.0 0
5
10
15
20
25
30
35
Population Variance (Var)
III. STATISZTIKAI PRÓBÁK
89
Mekkora minta kellene 2.5→4 szórás kimutatásához?
Variance under H0 (Var0) Population Variance (Var) Type I Error Rate (Alpha) Power Goal Actual Power for Required Df Required Degrees of Freedom (Df)
Sample Size Calculation One Variance, Chi-Square Test H0: Var <= Var0 Value 6.2500 16.0000 0.0500 0.9000 0.9065 20.0000
III. STATISZTIKAI PRÓBÁK
90
45
Kísérletek tervezése és értékelése
III.7. példa A III.3. példa adatai alapján ellenırizzük α =0.05-os szignifikanciaszinten, hogy elfogadható-e az az állítás, mely szerint a mérési módszer varianciája (s2) legfeljebb 10-4 (%)2.
III. STATISZTIKAI PRÓBÁK
91
s = 0.013038
H0 :
s 2 = 1.700 ⋅ 10 -4
H1 :
χ 02 =
n = 5, ν =
χ ....2 (ν ) = III. STATISZTIKAI PRÓBÁK
92
46
Kísérletek tervezése és értékelése
Két szórásnégyzet összehasonlítása (F-próba)
H 0 :σ 12 = σ 22
s12 A próbastatisztika: F0 = 2 ; s2
( n1 − 1, n2 − 1)
Egyik oldali ellenhipotézis esetén: H1 :σ 1 > σ 2 Akkor utasítjuk el a nullhipotézist, ha 2
2
s12 / s22 > Fα III. STATISZTIKAI PRÓBÁK
93
Kétoldali ellenhipotézis esetén: H1 :σ 1 ≠ σ 2 2
2
Akkor utasítjuk el a nullhipotézist, ha
s12 < F1-a/ 2 s22
s12 / s22 ≥ 1
vagy
s12 < Fa/ 2 s22
elég az elfogadási tartomány fölsı határát ellenırizni
95 %-os egyoldali szint = a 90 %-os kétoldali szintnek III. STATISZTIKAI PRÓBÁK
94
47
Kísérletek tervezése és értékelése
III.8. példa Ellenırizzük, hogy a fiúcipı-példa A és B talpanyaga kopásának varianciája megegyezik-e α =0.1-es szignifikanciaszinten!
T-test for Independent Samples (Fiucipo.sta) Note: Variables were treated as independent samples Mean Mean t-value df p Valid N Valid N Std.Dev. Std.Dev. F-ratio p Group 1 Group 2 Group 1 Group 2 Variances Variances Group 1 vs. Group 2 Group 1 Group 2 TALPA vs. TALPB 10.63000 11.04000 -0.368911 18 0.716498 10 10 2.451326 2.518465 1.055528 0.937159
III. STATISZTIKAI PRÓBÁK
95
Mekkora arány kellene ahhoz, hogy észrevegyük a különbséget? α=0.05, β=0.1, n1=n2=10
III. STATISZTIKAI PRÓBÁK
96
48
Kísérletek tervezése és értékelése
Power vs. Ratio F-test on Two Variances: Power Calculation F-test on Two Variances (H0: Var1 = Var2) Power vs. Variance Ratio (Df1 = 9, Df2 = 9, Alpha = 0.05) 1.0 .9 .8 .7
Power
.6 .5 .4 .3 .2 .1 0.0 1
2
3
4
5
6
7
8
9
10
11
12
Variance Ratio ( Var1/Var2 )
III. STATISZTIKAI PRÓBÁK
97
Kétmintás t-próba
Adott a két független minta elemszáma (n1 és n2), 2
2 és szórásnégyzetük ( s1 és s2 ).
Tételezzük fel, hogy a két sokaság varianciája megegyezik. (Ezt F-próbával ellenırizni kell!)
d = x1 − x 2
E ( d ) = µ1 − µ 2
Var ( d ) = Var ( x1 − x 2 ) = σ 2 / n1 + σ 2 / n 2 III. STATISZTIKAI PRÓBÁK
98
49
Kísérletek tervezése és értékelése
1 1 sd2 = s 2 + n1 n2 s2 =
[
1 2 2 s1 ( n1 − 1) + s2 ( n2 − 1) n1+n2 - 2
]
A következı kifejezés t-eloszlású
t=
d − E(d ) d − E( d ) , ν = n1 + n2 − 2 = 1 1 sd s + n1 n2 III. STATISZTIKAI PRÓBÁK
99
H 0 : µ1 = µ 2 , ekkor E ( d ) = 0 A próbastatisztika:
t 0=
d-0 = sd
d , 1 1 s + n1 n2
A
σ 12 = σ 22 feltevést F-próbával ellenırizzük
ν = ( n1 − 1) + ( n2 − 1)
III. STATISZTIKAI PRÓBÁK
100
50
Kísérletek tervezése és értékelése
Két minta összehasonlítása III.9. példa Két cipıtalp-anyag kopását hasonlítjuk össze, 10-10 fiú lábán, a használat során. Vizsgáljuk meg 0.05-os szinten, van-e különbség a két anyag kopása között!
n
átlag
szórásnégyzet
A
10
10.61
6.063
B
10
11.04
6.343
III. STATISZTIKAI PRÓBÁK
H 0:
H1 : F0.05 (ν1 , ν2 ) =
F0 =
ν1 =
H 0:
101
ν2 =
H1 :
t0.05 (ν ) =
t0=
ν= Konfidencia-intervallum σ2-re: III. STATISZTIKAI PRÓBÁK
102
51
Kísérletek tervezése és értékelése
Feltételezhetjük, hogy a két sokaság varianciája megegyezik? (Fpróba!)
H 0 : µ1 = µ 2
Group 1 vs. Group 2 TALPA vs. TALPB
H 1 : µ1 ≠ µ 2
T-test for Independent Samples (Fiucipo.sta) Note: Variables were treated as independent samples Mean Mean t-value df p Valid N Valid N Std.Dev. Std.Dev. F-ratio p Group 1 Group 2 Group 1 Group 2 Group 1 Group 2 Variances Variances 10.63000 11.04000 -0.368911 18 0.716498 10 10 2.451326 2.518465 1.055528 0.937159
III. STATISZTIKAI PRÓBÁK
103
T-test for Independent Samples (Fiucipo.sta) Note: Variables were treated as independent samples Mean Mean t-value df p Valid N Valid N Std.Dev. Std.Dev. F-ratio p Group 1 vs. Group 2 Group 1 Group 2 Group 1 Group 2 Group 1 Group 2 Variances Variances TALPA vs. TALPB 10.63000 11.04000 -0.368911 18 0.716498 10 10 2.451326 2.518465 1.055528 0.937159
T-test for Independent Samples (Fiucipo.sta) Note: Variables were treated as independent samples Mean Mean t-value df p t separ. df p Group 1 vs. Group 2 Group 1 Group 2 var.est. 2-sided TALPA vs. TALPB 10.63000 11.04000 -0.368911 18 0.716498 -0.368911 17.98687 0.716501
III. STATISZTIKAI PRÓBÁK
104
52
Kísérletek tervezése és értékelése
Box & Whisker Plot TALPA
vs. TALPB
13.0 12.5 12.0 11.5 11.0 10.5 10.0 9.5 9.0
Mean Mean±SE Mean±1.96*SE
8.5 TALPA
TALPB
T-test for Independent Samples (Fiucipo.sta) Note: Variables were treated as independent samples Mean Mean t-value df p Valid N Valid N Std.Dev. Std.Dev. F-ratio p Group 1 vs. Group 2 Group 1 Group 2 Group 1 Group 2 Group 1 Group 2 Variances Variances TALPA vs. TALPB 10.63000 11.04000 -0.368911 18 0.716498 10 10 2.451326 2.518465 1.055528 0.937159
III. STATISZTIKAI PRÓBÁK
105
Independent Sample t-Test: Power Calculation Two Means, t-Test, Ind. Samples (H0: Mu1 = Mu2) Power vs. Es (N1 = 10, N2 = 10, Alpha = 0.05)
A próba ereje
1.0
(1 − β )
.9 .8 .7 Power
.6 .5 .4 .3 .2 .1
µB − µ A σ
0.0 0.0
0.5
1.0
1.5
2.0
2.5
Standardized Effect (Es)
III. STATISZTIKAI PRÓBÁK
106
53
Kísérletek tervezése és értékelése
OC görbe 1.0
0.8
0.6
β
σ = 3.683
0.4
σ = 1.882 0.2
0.0 0
1
2
3
4
5
6
valódi különbség III. STATISZTIKAI PRÓBÁK
107
Páros t-próba H 0 : E (d ) = 0
d i = xi − y i
1.
1.
2.
2. összefüggı (nem független) minták
x
y III. STATISZTIKAI PRÓBÁK
108
54
Kísérletek tervezése és értékelése
Páros t-próba
H 0 : E ( xi ) = E ( yi )
d i = xi − yi
E ( d i ) = E ( xi ) − E ( yi ) A páronkénti eltérés átlagértéke: d =
2 szórásnégyzete: sd =
∑ ( d -d )
2
i
i
n-1
III. STATISZTIKAI PRÓBÁK
=
∑d
i
i
n
∑d
2 i
− nd 2
i
n-1 109
A következı kifejezés t-eloszlású:
t=
d − E(d ) sd / n
A próbastatisztika: t0=
d sd / n
III. STATISZTIKAI PRÓBÁK
110
55
Kísérletek tervezése és értékelése
III.10. példa TABLE 4.3. Data on the amount of wear measured with two different materials A and B, boy’s shoes example* boy 1 2 3 4 5 6 7 8 9 10
material A
material B
13.2(L) 8.2(L) 10.9(R) 14.3(L) 10.7(R) 6.6(L) 9.5(L) 10.8(L) 8.8(R) 13.3(L)
14.0(R) 8.8(R) 11.2(L) 14.2(R) 11.8(L) 6.4(R) 9.8(R) 11.3(R) 9.3(L) 13.6(R)
B–A difference d 0.8 0.6 0.3 -0.1 1.1 -0.2 0.3 0.5 0.5 0.3
average difference
0.41
III. STATISZTIKAI PRÓBÁK
111
15
13
wear
11
9
7
material A material B
5 0
1
2
3
4
5
6
7
8
9
10
11
boys
FIGURE 4.2. Data on two different materials A and B, used for making soles of boy’s shoes.
III. STATISZTIKAI PRÓBÁK
112
56
Kísérletek tervezése és értékelése
s d2 = 0 .149
sd =
0 .386 sd = = 0 .122 10 n
0 .149 = 0 .386
t=
0 .41 = 3.4 0 .122
1.2 1.0 0.8
B-A
0.6 0.4 0.2 0.0 -0.2 -0.4 0
1
2
3
4
5
6
7
8
9
10
11
boys
FIGURE 4.3. Differences B – A for data in Figure 4.2., boy’s shoes example III. STATISZTIKAI PRÓBÁK
113
T-test for Dependent Samples (Fiucipo) Marked differences are significant at p < .05000 Mean
Std.Dv.
N
Diff.
TALPB
11.04
2.518465
TALPA
10.63 0
2.451326 10
Std.Dv.
t
df
0.410000 0.387155 3.348877 9
III. STATISZTIKAI PRÓBÁK
p
0.008539 114
57
Kísérletek tervezése és értékelése
OC görbe a fiúcipı példához 1,0
0,8
0,6
β
σ = 3.683 (2 mintás) 0,4
0,2
σ = 0.705 (páros) σ = 0.266 (páros)
σ = 1.882 (2 mintás)
0,0 0
1
2
3
4
5
6
valódi különbség
III. STATISZTIKAI PRÓBÁK
115
Illeszkedésvizsgálat
A feladat annak eldöntése, hogy a minta egy adott eloszlású sokaságból származik-e. Ha a normális eloszláshoz való illeszkedés a kérdés, normalitásvizsgálatról beszélünk.
IV. ILLESZKEDÉSVIZSGÁLAT
116
58
Kísérletek tervezése és értékelése
Illeszkedésvizsgálat H0: a minta egy adott eloszlású sokaságból származik pl. normalitásvizsgálat statisztikai próbával nagy mintára χ2-, Kolmogorov-Szmirnov-próba, kisebb erı kisebb mintára Anderson-Darling, Ryan-Joiner (Shapiro–Wilk), nagyobb (hasonló) erı grafikusan Probability plot
IV. ILLESZKEDÉSVIZSGÁLAT
117
IV.1. példa
Az x valószínőségi változóra rendelkezésünkre álló összesen n elemő mintát soroljuk osztályokba, ahogy a hisztogram készítésénél szokás. Jelölje r az osztályok számát. Az i-edik osztályba esı mintaelemek számát jelölje ni (i = 1, 2,..., r). Az i-edik osztály alsó és fölsı határát jelöljük xia-val ill. xif-fel. Egy 50 elemő minta ilyen csoportosítását mutatja a következı ábra és táblázat.
IV. ILLESZKEDÉSVIZSGÁLAT
118
59
Kísérletek tervezése és értékelése
Variable: Adatok, Distribution: Normal Kolmogorov-Smirnov d = 0.06713, Chi-Square test = 3.74073, df = 2 (adjusted) , p = 0.15407 16 14 12 10 8 6 No. of observations
4 2 0 9.5625
9.7875
10.0125
9.6750
9.9000
10.2375 10.1250
10.4625 10.3500
Category (upper limits) IV. ILLESZKEDÉSVIZSGÁLAT
<= 9.71250 9.82500 9.93750 10.0500 10.1625 10.2750 10.3875
xif
z if =
s = 0 .1 8 9 0 6
x = 10 .02622
xia
119
ni
ni n
9.71250 1 0.02 9.82500 5 0.10 9.93750 13 0.26 10.0500 11 0.22 10.1625 7 0.14 10.2750 8 0.16 10.3875 5 0.10 ∞ 0 0.00
( )
i
nj
j =1
n
Fn xif = ∑
0.02 0.12 0.18 0.38 0.60 0.74 0.90 1.0
zia
zif
x if − x
F(xia)
s
F(xif)
-∞ -1.72 0.00000 0.0423 -1.72 -1.11 0.0423 0.1343 -1.11 -0.49 0.1343 0.3129 -0.49 0.13 0.3129 0.5520 0.13 0.75 0.5520 0.7731 0.75 1.37 0.7731 0.9143 1.37 1.99 0.9143 0.9765 1.99 ∞ 0.9765 1.00000
IV. ILLESZKEDÉSVIZSGÁLAT
120
60
Kísérletek tervezése és értékelése
Illeszkedésvizsgálat statisztikai próbával Az elıfordulások ni számából kiszámítjuk az ni/n relatív gyakoriságokat és a tapasztalati Fn(x) eloszlásfüggvényt (az egyes i-edik osztályokbeli elıfordulások kumulált relatív gyakoriságát). A normális eloszlásból kiszámíthatjuk az egyes osztályokban várható elıfordulások számát:
(
p i = P x ia < x ≤ x if
) = F (x ) − F ( x ) if
ia
IV. ILLESZKEDÉSVIZSGÁLAT
121
Az elméleti F(x) eloszlásfüggvény értékeit a z változón keresztül számítjuk:
z=
x−µ
σ
melyhez természetesen szükség van a µ várható érték és a σ 2 variancia becslésére. Esetünkben:
µɵ = x = 1 0 .0 2 6 2 2
σɵ = s = 0 .1 8 9 0 6
IV. ILLESZKEDÉSVIZSGÁLAT
122
61
Kísérletek tervezése és értékelése
A Kolmogorov–Szmirnov-próba próbastatisztikája:
d = Fn ( x ) − F ( x )
D = m ax d elméleti eloszlásfüggvény
tapasztalati eloszlásfüggvény Minden osztály xif fölsı határához kiszámítjuk a d eltérést és a maximális eltérést (D) összevetjük az a szignifikanciaszinthez a Függelék táblázatából leolvasható kritikus értékkel. Az adott eloszláshoz való jó illeszkedést (nullhipotézis) elfogadjuk, ha D kisebb a kritikus értéknél. IV. ILLESZKEDÉSVIZSGÁLAT
( )
i
nj
j =1
n
xia
xif
Fn xif = ∑
<= 9.71250 9.82500 9.93750 10.0500 10.1625 10.2750 10.3875
9.71250 9.82500 9.93750 10.0500 10.1625 10.2750 10.3875 ∞
0.02 0.12 0.18 0.38 0.60 0.74 0.90 1.0
F(xia)
F(xif)
0.00000 0.0423 0.1343 0.3129 0.5520 0.7731 0.9143 0.9765
0.0423 0.1343 0.3129 0.5520 0.7731 0.9143 0.9765 1.00000
123
pi 0.1343 0.1785 0.2391 0.2211
0.2269
di 0.0223 0.0143 0.0671 0.0480 0.0331 0.0143 0.0235 0
D D0.05(50)=0.188
A Kolmogorov–Szmirnov-próbához minél több osztályba kell sorolni az adatokat, de legalább 5 osztály szükséges. Szokás ezért úgy is eljárni, hogy minden egyes xi adat külön osztály legyen, mindegyikre kiszámítható zi, F(xi) és a D próbastatisztika. IV. ILLESZKEDÉSVIZSGÁLAT
124
62
Kísérletek tervezése és értékelése
A χ2 -próba próbastatisztikája: r
∑ i =1
(n
i
− npi ) npi
2
ahol
( )
p i = F x if − F ( x ia )
Az osztályokba sorolást úgy kell elvégezni, hogy minden osztályban az elméleti eloszlásból számított elıfordulási szám (npi) nagyobb legyen 5-nél. Példánk szerinti osztályba sorolásnál ez az 1., 6., és 7. osztályra nem teljesül, azokat tehát össze kell vonni. Az összevonás utáni 5 osztályt vastag vonal jelzi. IV. ILLESZKEDÉSVIZSGÁLAT
125
A próbastatisztika elég nagy r esetén jó közelítéssel χ2eloszlású, r – 1 szabadsági fokkal, ha az eloszlás paraméterei adottak. Ha a paramétereket is becsülnünk kell, akkor r – 1-et még a mintából becsült paraméterek számával csökkenteni kell. Normális eloszlásnál két paraméter, a µ és σ becsülendı a mintából, a szabadsági fok így r – 3.
A próbastatisztika kiszámított értéke 3.7403, a szabadsági foka 5 osztályra 5 – 3 = 2, a táblázatbeli kritikus érték az elsõfajú hiba α= 0.05 megengedett valószínőségéhez 5.99, tehát a nullhipotézist (hogy az adatok normális eloszlásból származnak) elfogadjuk.
IV. ILLESZKEDÉSVIZSGÁLAT
126
63
Kísérletek tervezése és értékelése
Shapiro–Wilk-próba A statisztikai programokban alkalmazott modern próba. Az irodalom szerint a Shapiro–Wilk-próba erısebb (kisebb valószínőséggel vét másodfajú hibát), mint sok más próba. A próbastatisztika:
W =
k a y − y ( ) ∑ n − i +1 n − i +1 i i =1 n
∑(y i =1
ahol
k=
i
− y)
2
2
n n −1 , ha n páros; k = 2 , ha n páratlan 2 IV. ILLESZKEDÉSVIZSGÁLAT
127
Illeszkedésvizsgálat grafikus módszerrel Normal Probability Plot of Adatok (illeszkedes.sta 1v*50c) 3
2
1
0
Expected Normal Value
-1
-2
-3 9.6
9.7
9.8
9.9
10.0
10.1
10.2
10.3
10.4
Adatok: SW-W = 0.962434377, p = 0.1124Observed Value
IV. ILLESZKEDÉSVIZSGÁLAT
128
64
Kísérletek tervezése és értékelése
Probability-Probability Plot of Adatok (illeszkedes.sta 1v*50c) Distribution: Normal(10.0262, 0.181906) 1.4
Empirical cumulative distribution
1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Theoretical cumulative distribution
IV. ILLESZKEDÉSVIZSGÁLAT
129
Quantile-Quantile Plot of Adatok (illeszkedes.sta 1v*50c) Distribution: Normal Adatok = 10.0262+0.1826*x 0.01 0.05 0.25 0.50 0.75 0.90
0.99
10.5 10.4 10.3
Observed Value
10.2 10.1 10.0 9.9 9.8 9.7 9.6 9.5 -3
-2
-1
0
1
2
3
Theoretical Quantile
IV. ILLESZKEDÉSVIZSGÁLAT
130
65
Kísérletek tervezése és értékelése
F(z) 100%
50
0.8
80%
40
0.6
60%
30
40%
20
20%
10
Percent of obs
1.0
0.4
0.2
0.0 -3
-2
-1
0
1
2
0% 9,6704
3
z
9,8083
9,9461
10,0839
0 10,3596
10,2218
3
Expected Normal Value
2
1
0
-1
-2
-3 9,6
9,7
9,8
9,9
10,0
10,1
10,2
10,3
10,4
Observed Value
IV. ILLESZKEDÉSVIZSGÁLAT
131
A normális eloszlástól való eltérés okai és kiküszöbölésük strukturált adatok multimodalitás csoportok változó körülmények kiugró értékek . . . lényegileg (a jelenség természete miatt) nem normális eloszlású adatok → transzformáció pl. lognormális: x logaritmusa normális Box-Cox IV. ILLESZKEDÉSVIZSGÁLAT
132
66
Kísérletek tervezése és értékelése
IV. ILLESZKEDÉSVIZSGÁLAT
133
IV. ILLESZKEDÉSVIZSGÁLAT
134
67
Kísérletek tervezése és értékelése
(run charts)
IV. ILLESZKEDÉSVIZSGÁLAT
135
68