Dr. Balogh Albert: A statisztikai adatfeldolgozás néhány érdekessége
1
Kérdések: 1. Hogyan becsüljük a tapasztalati eloszlásfüggvényt? 2. Mi az a rendezett minta? 3. Mi az a medián rang és milyen becslések vannak? 4. Hogyan becsüljük a hibaarány 50%-os felső konfidencia határát? 5. Miért tér el az Excel és Minitab kvartilisszámítása? 2
1.A tapasztalati eloszlásfüggvényt rendszerint a Weibull és a normális eloszlás esetében grafikus módszerrel becsülik. Ekkor a becsléseket például Gauss(Weibull)papíron ábrázolva normális eloszlás esetében egy egyenest kapunk. 2.A tapasztalati eloszlásfüggvényt a rendezett mintaelemek eloszlásának jellemzőiből határozzuk meg. x1 < x2 < ... < xi < ... < xn Legyenek a rendezett mintaelemek nagyság szerint növekvők:
Ekkor az ezekhez tartozó yi=F(xi) értékek is rendezett növekvő mintát adnak. y1
3
Normális eloszlásfüggvény 1
Öaazegzett eloszlás függvény
0,9
yi∗ = 0,7
0,8 0,7
( xi , yi )
0,6 0,5 0,4 0,3 0,2
xi∗ = 11
μ = 10
0,1 0 0
2
4
6
8
10
12
14
16
18
Megfigyelt x értékek
1. ábra A normális eloszlásfüggvény
4
⎛x−μ⎞ y = Φ (u ) = Φ⎜ ⎟ ⎝ σ ⎠
u=
yi = Med ( yi )
x−μ
⊗
Φ(0) =0,5
σ ( xi , yi )
⊗ ⊗
⊗
μ
x xi = Med ( xi )
⊗ Kérdés: mivel becsüljük az 1. 2…i-edik mintaelemhez tartozó y1 , y2 ,..., yi − t
Egyenes Gauss-papíron ábrázolva
3. Mi az a medián rang? Az x1,<x2<,…<xi,…<xn rendezett mintaelemek sorszáma a rang. Az ezekhez tartozó yi eloszlásfüggvény-értékek is rendezett mintát alkotnak, azaz y1
(n-i) db elem nagyobb vszge
Angol: median rank. Magyar: a rang mediánja.
6
3.A tapasztalati eloszlásfüggvény szokásos becsléseit részben yi eloszlásából származtatják. A szokásos becslések egy része gyakorlati meggondolások alapján a következők: 1 i i −1 i− ϕ1(i ) = ϕ 2 (i ) = . (Montgomery) ϕ3 (i ) = 2 . n n n i ϕ4 (i ) = , Ez yi eloszlásának várható értéke. n +1 i −1 , n −1 i − 0,3 ϕ 6 (i ) ≈ . n + 0,4
ϕ5 (i ) =
Ez yi eloszlásának módusa. Ez yi eloszlásának közelítő mediánja, vagyis a medián rang.
i i − 0,3 i − 1 < < , n + 1 n + 0,4 n − 1 gi ( y ) =
ha
n +1
n! y i −1(1 − y ) n −i ; (0 ≤ y ≤ 1). (i − 1)!(n − i )!
()
()
Ez yi sűrűségfüggvénye,ebből Gi(y):
()
n n k i −1 n k n n−k n−k n k n−k Gi ( y ) = ∑ k y (1 − y ) y ( 1 y ) = 1 − ∑ k y (1 − y ) = 1− ∑ − = 1 − Gn +1−i (1 − y ) k k =i k =0 k = n −i +1 7
A medián rang közelítő képletének származtatása:
()
()
()
n n k i −1 n k n n−k n−k n k n−k Gi ( y ) = ∑ k y (1 − y ) y ( 1 y ) = 1 − ∑ k y (1 − y ) =1− ∑ − = 1 − Gn +1−i (1 − y k k =i k =0 k = n −i +1
Gi(y)=Gn+1-i(1-y).
ϕ ( n − i + 1) = 1 − ϕ (i ).
Keressük a becslést ϕ (i ) =
i−a alakban. n+b
1 − Gn −i +1(1 − yi∗ ) = 0,5 1−
i − a n +1− i + a = . n+b n+b
()
i −1 n ∑ k k =0
b=1-2a
ϕ (i ) =
i−a i − 0,3 ≈ n + 1 − 2a n + 0,4
i − a ⎞n − k ⎛ i−a ⎞ ⎛ = 0,5 ⎜ ⎟ ⎜1 − ⎟ n a n a + 1 − 2 + 1 − 2 ⎝ ⎠ ⎝ ⎠ k
Ha n → ∞ , akkor a fenti képlet az (i-a) paraméterű Poisson eloszlással közelíthető, és kapjuk, hogy a jó közelítéssel 0,3.
8
y ϕ5 =
i −1 n −1
ϕ 6 = yi∗ =
y=F(x) i − 0,3 n + 0, 4 Adatsor2
ϕ4 =
i n +1
xi∗ = F −1 (
y=0,5
•
xi
•
i − 0,3 ) n + 0,4
x
A három becslési módszer ábrázolása
9
A becslések tulajdonságai és összehasonlításuk: 1.Az i/(n+1) becslés az eseteknek több, mint felében az egyenes alatt van. 2.Az (i-1)/(n-1) becslés az eseteknek több, mint felében az egyenes felett van. 3. Mivel
i − 0,5 i − 0,3 n +1 > ,i > ,erre is teljesül a fenti megállapítás. n n + 0,4 2
4. Az (i-0,3)/(n+0,4) becslés közel azonos számú esetben van az egyenes alatt és felett. 5. A 2. és 3. esetben alábecsülik a normális eloszlás szórását, az 1. esetben pedig túl nagy szórást becsülnek. Ez azért van, mert az egyenes meredeksége fordítottan arányos a szórással. Az egyenes 0,5 ordinátájú pontjához tartozó x érték becsüli a várható értéket, az egyenes meredeksége pedig a szórás reciprok értéke.
10
11
N(35;15)
(i-0,5)/n
12
N(35;15)
13
2 1,5
(i‐1)/(n‐1)
Sorozatok1 Sorozatok2
1
Sorozatok3 E l o s z 5 l á s f v .
Sorozatok4
N(10,5;2) 0,5
Sorozatok5
0 6
7
8
9
(i‐0,3/(n+0,4)
10
N(10,5;2) 11
‐0,5 ‐1
(i‐0,5)/n
12
13
14
i/(n+1) (i‐1)/(n ‐1) (i‐0,5)/n (i‐0,3)/(n+0,4)
‐1,5
Lineáris (Sorozatok1) Lineáris (Sorozatok2)
‐2
Lineáris (Sorozatok3) Lineáris (Sorozatok4)
‐2,5
Lineáris (Sorozatok5)
‐3 Mintaelemek megfigyelt értékei
14
2 1,5
N(10,5;2) E l o s 6 z5 l á(i‐0,5)/n s f v .
(i‐0,1)/(n‐1) Sorozatok1 Sorozatok2
1
Sorozatok3 Sorozatok4
0,5
(i‐0,3)/(n+0,4)
Sorozatok5 0
7
8
9
10
N(10,5;2) 11
‐0,5 ‐1
12
13
14
i/(n+1) (i‐1)/(n‐1) (i‐0,5)/n (i‐0,3)/(n+0,4)
‐1,5
Lineáris (Sorozatok1) Lineáris (Sorozatok2)
‐2
Lineáris (Sorozatok3) Lineáris (Sorozatok4)
‐2,5
Lineáris (Sorozatok5)
‐3 Mintaelemek megfigyelt értékei
15
4.A hibaarány 50%-os felső konfidencia határa:
()
i n k ⎡ n−k ⎤ CU = ⎢1 − ∑ k p × (1 − p) ⎥ × 100%. ⎦ ⎣ k =0
pˆ =
1 ⎛n−i⎞ 1+ ⎜ ⎟ × F 0,50 (2n − 2i,2i + 2 ) 1 i + ⎝ ⎠
pˆ ≈
(i + 1) − 0,3 i + 0,7 = , n + 0,4 n + 0,4
Értékelési mód
Gyakorlati megfontolás
Minta
25 %
50 %
1,4,5,6,9,10,12
4
1,4,6,9,12,15
4
Binomiális eloszlásból kiszámítva.
A fenti képletből adódik a pontos képlet.
,
Ez a közelítő képlet a medián rangból.
Excel (i-1)/(n-1)
Minitab program(i/(n+1)
75 %
25 %
50 %
75 %
25 %
50 %
6
10
4,5
6,0
9,5
4
6
10
7,5
12
4,5
7,5
11,25
3,25
7,5
12,75
75 %
Montgomery (i ‐0,5)/n 25 50 75 % % % 4,5 6 9,75 4 7,5 12
5. Kvartilisek és a medián százalékos értékeinek összehasonlító táblázata
Kvartilisek számítási képletei:
i −1 képletből indul ki és így p=1/4 esetén n −1 1 i = (n − 1) + 1; Ennek a számnak egész részét kell venni, ezt a sorszámú 4 tagot kell kiinduló értéknek tekinteni és ehhez hozzá kell adni ennek a számnak a törtrészének és következő mintaelemtől való távolságának szorzatát. p=3/4 esetén hasonló az eljárás. Az Excel a pˆ =
i képletből indul ki és így p=1/4-re i=1/4(n+1); ezt n + 1 követően az eljárás azonos. esetén. ha p=1/4, akkor i=(1/4).n +0,5, ezután az eljárás azonos.
A Minitab a pˆ =
i − 0,5 n Ennek megfelelően az Excel képletei a 25 és 75%-os kvartilisekre, ahol [x] x egész része,{x} x törtrésze: X 0,25 = X[ w'1] + {w'1}( X [ w'1+1] − X [w'1]); X 0,75 = X [w'3 ] + {w'3}( X [ w'3 +1] − X [w'3 ]
pˆ =
A Minitab képletei:
X 0,25 = X [ w1] + {w1}( X [ w1 +1] − X [w1]); X 0,75 = X [w3 ] + {w3}( X [ w3 +1] − X [w3 ] 17
{w'} = 0,25; ha, n = 4k + 2; excel; {w'} = 0,5; ha, n = 4k + 3; excel;
{w }= 0,75, ha, n = 4k; excel; {w }= 0, ha, n = 4k + 1; excel; ' '
{w} = 0,25, ha, n = 4k ; min itab; {w} = 0,5, ha, n = 4k + 1; min itab; {w} = 0,75, ha, n = 4k + 2; min itab {w} = 0, ha, n = 4k + 3; min itab; {w} − {w' } = 0,5; min itab; excel
18
p- kvantilis mintabeli becslése p becslése
w értéke
p‐kvantilis
p=i/(n+1)
w=(n+1)p
xp=x[w]+{w}(x[w]+1‐x[w])
p=(i‐1)/(n‐1)
w=(n‐1)p+1
xp=x[w]+{w}(x[w]+1‐x[w])
p=(i‐0,5)/n
w=np+0,5
xp=x[w]+{w}(x[w]+1‐x[w])
p=(i‐0,3)/(n+0,4)
w=(n+0,4)p+0,3
xp=x[w]+{w}(x[w]+1‐x[w])
Jelölések: [w] w egész része; {w} w tört része; F(xp)=p.
19