Deszkriptív statisztika Legyen ξ={ x1, x2, x3, ..., xi,..., xn } egy n = 90 elemű minta, f(xi) a gyakorisága az xi mintaértéknek xi f(xi)
1
2
3
4
5
6
7
8
9
10
11
12
0
1
4
7
15
16
14
14
13
5
1
0
f(xi)
18 16 14 12 10 8 6 4
átlag(=6,7)
2 0 1
2
3
4
5
6
7
modus(=6)
8
9
10
11
12
xi
medián(=7)
1) Centrális tendencia 1a) Modus - a leggyakoribb érték, az az x aminél f(x) maximális, tájékoztató jellegű, további számításokra alkalmatlan 1b) Medián - az az érték, mely éppen két egyenlő részre osztja a nagyság szerint sorbarendezett mintát páratlan n-re xm az (n+1) / 2 -ik tag a sorban páros n-re xm a két középső érték átlaga Előnye az átlaggal szemben, hogy nem érzékeny a kiugró értékekre (ezek gyakran mérési v. mintavételi hibákból származnak). Szimmetrikus eloszlásnál egybeesik az átlaggal, ferde eloszlásnál nem, pl. jövedelmi kategóriák. (kvartilisek: a minta alsó és felső ¼ részét határoló adatok) 1c) Aritmetikai közép: ezt beírva az xi-k helyére, az összeg változatlan n
x=
∑x
i
i =1
n
2) Szóródás mértékszámai 2a) Terjedelem (range) xr = max { xi } - min { xi } 2b) Átlagos eltérés n
xA =
∑x i =1
i
−x
n 1
2c) Korrigálatlan empírikus variancia: ha a teljes alapsokaságot ismerjük, a varianciát a következő képlettel számítjuk ki: 2
⎛ n ⎞ x − ( x x ) ⎜ ∑ xi ⎟ ∑ ∑ i i 2 2 i =1 i =1 − ⎜ i =1 ⎟ = = („mean square-square mean”)= M (ξ ) − M (ξ ) = ⎜ n ⎟ n n ⎟ ⎜ ⎠ ⎝ n
n
2
2
⎛ n ⎞ ⎜ ∑ xi ⎟ x ∑ i =1 − ⎝ i =1 2 ⎠ n n n
2
2 i
2
⎛ n ⎞ ⎜ ∑ xi ⎟ n 2 xi − ⎝ i =1 ⎠ ∑ n = i =1 n Azonban ha csak mintából becsüljük a varianciát akkor ez a képlet alulbecsül (l. később), ezért általában a Korrigált empírikus variancia képletét kell használni, amely egy n / (n-1) -szeres korrekciós faktorban különbözik: ⎛ n ⎞ ⎜ ∑ xi ⎟ n n 2 2 xi − ⎝ i =1 ⎠ ( xi − x ) ∑ ∑ n s 2 = i =1 = i =1 n −1 n −1
2
Emp. szórás: s 2d) Variációs koefficiens - coefficient of variation (CV) s CV = ∗ 100 x (különféle változók szórásának összevetésére)
2
Becslés Adott ξ . A mintavétel célja egy Θ paraméter becslése.
ˆ . Valamilyen statisztikával (statisztikai függvénnyel) történik. Becslés jele: Θ
Paraméter Statisztika n µ várh. érték ∑ xi
Becslés x
i =1
n
σ variancia 2
∑ ( xi − x )2 i =1
σ szórás
σx
s2
n
n −1
s
n
∑ (x − x) i =1
2
átlag varianciáj a
σx standard error
2
i
n −1
2 ∑ (x − µ ) i
c
sx2
n
=
s2 = n
∑ ( xi − x )2 i =1
(n − 1)
1 n sx
n
∑(x − x)
∗
2
i
s 1 = i =1 ∗ n −1 n n (részletesen ld. később) ˆ nem feltételül azonos Θ -val!!!! A becslés értéke is valószínűségi változó, eloszlással. A kapott Θ szórással, várható értékkel stb. Az elméleti értéket görög betűvel jelöljük: µ, σ, stb, a becsült értéket latinnal: x , s, stb.
A becslés kritériumai: Torzítatlan becslés
ˆ ) = Θ azaz M( Θ
ˆ =Θ lim Θ n
n→∞
Az összes lehetséges n elemű mintából kapott becslések átlaga megegyezik Θ -val. Véges esetre: c
∑ Θˆ i =1
c
i
⎛N⎞ = Θ, ahol c = ⎜⎜ ⎟⎟ , az n elemű minták száma (N: az alapsokaság számossága) ⎝n⎠
ˆ -k adják a "sampling distribution"-t AΘ i
3
ˆ Θ i
torzítatlan torzított: = nem Θ körül ingadozik!
n A becslés hatékonysága
ˆ)= a becslés varianciája: V (Θ
∑ (Θˆ
i
−Θ
)
2
i
c
ha több statisztika van, azok hatékonysága összevethető, a kisebb varianciájú a hatékonyabb.
Θ Konzisztens becslés: minden pozitív ε-ra:
(
)
ˆ −Θ < ε =1 lim P Θ n
n→∞
A minta nagyságát növelve, a becsülendő paramétertől való nagy eltérés egyre valószínűtlenebb, az ingadozás egyre csökken.
4
Statisztikák 1) Várható érték: µ, ennek becslése x , torzítatlan.
2) Variancia, σ2 (szórás σ) Az empirikus variancia az alábbi formában TORZÍTOTT: n
∑ (x − x) i =1
2
i
n Ez a statisztika alulbecsül. Oka: A Σ (xi - x ) mindig kisebb, mint Σ (xi -µ)2 , kivéve azt a ritka esetet, ha x = µ. Torzítatlan becslést kapunk az n/(n-1) korrekciós faktor alkalmazásával: 2
⎛ n ⎞ ⎜ ∑ xi ⎟ n n 2 2 ( xi − x ) xi − ⎝ i =1 ⎠ ∑ ∑ n = i =1 s 2 = i =1 n −1 n −1
2
Megj.: Teljes enumerációnál (ha az alapsokaság minden elemét ismerjük nem csupán egy kisebb mintát) nem becslünk, tehát n az osztó.
Statisztikák eloszlása (sampling distribution)
Statisztikák várható értéke: µ, vagyis M(ξ) -re xn becslés n elemű minták átlagai eloszlásának várható értékére, M( xn )-re. Statisztikák szórása: standard hiba (standard error), négyzete a sampling variance példa: N=5, n=2, ξ := { 6, 8, 10, 12, 14 }, egyenletes e.o., µ=10, V(ξ)=8. Visszatevéses mintavétellel a lehetséges kételemű minták száma 52. Az átlag eloszlása 6
x2 6 7 8 9 10 11 12 13 14
f( x2 ) 1 2 3 4 5 4 3 2 1
p( x2 ) 1/25 2/25 3/25 4/25 5/25 4/25 3/25 2/25 1/25
5 4 3 2 1 0 6
7
8
9
10
11
12
13
14
5
1) µ = M( x2 ) 2) Az átlag varianciája
σ x2 =
∑ (x
i
− µ x )2
i
Nn
= 100/25 = 4.
σ x2 = σ 2 / n ebből a standard hiba:
σx = σ / n - annál nagyobb, minél nagyobb a val.vált. szórása - fordítva arányos a mintanagyság négyzetgyökével - az átlag szórása mindig kisebb a val.vált. szórásánál Általában: I. Ha az alappopuláció normális eloszlású, akkor x eloszlása is normális, n-től függetlenül. Ha az alappopuláció nem normális eloszlású, akkor x eloszlása annál jobban közelíti a normálist, minél nagyobb n ( n>30 jó közelítés). II. Ha a mintavétel visszatevéses, véges populációból, vagy a populáció végtelen nagy, akkor érvényes a σ x2 = σ 2 / n ha azonban a mintavétel visszatevés nélküli egy véges nagyságú populációból, akkor korrekciós faktor alkalmazandó: N −n σ2 σ x2 = ∗ N −1 n A fenti példában visszatevés nélkül 10 féle minta adódik.
σ x2 = 30/10 = 3 vagyis σ x2 = (5-2)/4 x 8/2 = 3 A faktor elhagyható, ha n<
6
Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)
Határozzuk meg x körül azt az intervallumot amibe előre meghatározott valószínűséggel esik a várható érték (µ). A várható értéket pontosan nem tudjuk, de x körül van, nagy (1-α) valószínűséggel a fenti intervallumban. Csak kicsi (α) valószínűséggel esik ezen kívülre µ. Ezt az intervallumot a várható érték becslésére szolgáló 100⋅(1- α)% megbízhatósági szintű konfidencia intervallumnak nevezzük. Leggyakrabban 90 v. 95%-os megbízhatósági szintet választunk (vagyis α = 0,1 ill. 0,05).
Kiszámítása: 1) Ha ismerjük σ x -t, az átlag elméleti szórását: Mivel az átlag eloszlása normális (vagy tart a normálishoz a minta elemszámának növelésével), ha levonjuk az átlagból a saját várható értékét és osztjuk a szórásával standard normál eloszlású val. változót kapunk. Standardizáljunk az átlag eloszlását, azaz x−µ
σx
=
x−µ
ahol
σ
σ = σ x (standard hiba) n
n
Legyen α=5%. Ekkor 2,5%Å α/2
-1,96 vagyis 1-α = 0,95 =
α/2 Æ 2,5%
100⋅(1-α)= 95% 0 P(-1,96 ≤
1,96 x−µ
σx
≤ 1,96) =
P(-1,96 σ x ≤ ( x − µ ) ≤ 1,96
σx ) = P(-1,96 σ x ≤ ( µ − x ) ≤ 1,96 σ x ) = P( x - 1,96 σ x ≤ µ ≤ x + 1,96 σ x ) L1
Vagyis a keresett két küszöbérték: illetve
L2
L1 = x − 1,96 ⋅ σ x L2 = x + 1,96 ⋅ σ x
Tehát az L1 és L2 közötti intervallum az, amely 100 esetből 95-ben tartalmazza a várható értéket. A probléma az, hogy általában nem ismerjük az átlag elméleti szórását, kénytelenek vagyunk a becslésével beérni, ezért a fenti módszer nem alkalmazható → normál eloszlású helyett t-eloszlású lesz az (átlag-várh.é.)/átlag szórása mennyiség, ld. köv. old.
7
2) Ha nem ismerjük σ x -t, az átlag elméleti szórását, csak a becsült sx -ot:
Ekkor a bizonytalanságunk megnő, egy nagyobb konfidencia intervallumot tudunk kijelölni:
x−µ x−µ = s sx n nem normál eloszlású, hanem n szabadságfokú t-eloszlású A t-eloszlás tulajdonságai: 1) várható értéke 0 2) szimmetrikus 3) a variancia nagyobb 1-nél, határtértékben 1-hez közelít 4) ért. tart. - ∞ , ∞ 5) eloszlás-család, n-1 a szabadsági fok, minél kisebb a minta (n), annál nagyobb a bizonytalanság, nagyobb a szórás 6) a t-eloszlás a normálishoz tart, ha n → ∞. Minél nagyobb mintából becslünk annál jobb lesz az átlag szórásának becslése is. Általában, n>30 esetre a konfidencia intervallumhoz a norm. eloszlás táblázata használható. Tehát a konfidenciaintervallum általános kiszámítása mintából becsült szórással:
s n s L2 = x + t(α , n −1) ⋅ n
L1 = x − t(α , n −1) ⋅
ahol n-1 a szabadságfok és t(α , n −1) ún. „t kritikus” értéket a t táblázat α-hoz tartozó oszlopából és a szabadságfoknak megfelelő sorból nézzük ki. Jelentése: csak α valószínűséggel esik egy n-1 szabadságfokú t-eloszlású val. vált. értéke a [- t(α , n −1) , t(α , n −1) ] intervallumon kívülre, vagyis csak α valószínűséggel tér el ennél jobban a 0-tól. Nagyon nagy mintánál a normál eloszlást is használhatjuk: t ( 0,05, n −1) = 1,96 , a normál elo.-ra jellemző lim n →∞
érték.
8