Tapasztalati eloszlás Matematikai statisztika elıadás III. éves elemzı szakosoknak
2009/2010 2. félév 2. elıadás
ha
Példa normális eloszlás közelítése, n=100 1.0
0.8
1.0
0.6
0.8
a/n
0.6
0.4
a/n
0.2
0.4
0.0
0.2 0.0
40
50
60
70
z
30
40
50
60
70
z
Értékösszegsor
xk
(n)
< z ≤ xk +1
(n)
x0(n)=-∞, xn+1(n)=∞
Ha a minta X1,X2,…,Xn valószínőségi változó-sorozat, Fn(z) is valószínőségi változó.
Kumulált gyakorisági sorok
normális eloszlás közelítése, n=10
30
Minden megfigyeléshez (x1,x2,…,xn) 1/n súlyt rendel. Valószínőségeloszlás! Mintaátlag éppen ennek az eloszlásnak a várható értéke. Tapasztalati eloszlás eloszlásfüggvénye: tapasztalati eloszlásfüggvény: Fn (lépcsısfüggvény). Fn(z)=k/n,
Az osztályokhoz az azokba tartozó megfigyelések ismérvértékeinek az összegét rendeli Ha a gyakorisági sor osztályközökkel van megadva és csak a megoszlás ismert, akkor becsüljük (osztályközép és gyakoriság szorzata). Lehet relatív értékösszegsort is képezni (a teljes értékösszeggel elosztva az osztályok értékösszegét)
Táblázatos megfelelıje a tapasztalati eloszlásfüggvénynek: megadja, hogy az adott osztályköz felsı határának megfelelı és annál kisebb értékek hányszor (ill. milyen arányban) fordulnak elı. Lehet lefele is kumulálni: az adott osztályköz alsó határának megfelelı és annál nagyobb értékek hányszor (ill. milyen arányban) fordulnak elı.
Grafikus ábrázolás
Oszlopdiagram: a gyakoriságokkal arányos az oszlopok magassága Mennyiségi ismérvekre:
Gyakorisági poligon Hisztogram
Megoszlás szemléltetése lehetséges kördiagrammal is.
1
Pontszámok grafikus ábrázolása
Hisztogram (mennyiségi ismérvekre)
Frequency
20
Túl sok osztály
0
Adatainkat osztályokba soroljuk (mindegyiket pontosan egybe, pl. az i-edik osztály: ai≤x
10
30
40
Példák
20
30
40
50
60
70
80
pontszám
Pontszámok grafikus ábrázolása
150
Frequency
200
Jó osztályszám
200 0
0
50
50
100
Frequency
250
Túl kevés osztály
150
Példák
300
Példák
100
350
Pontszámok grafikus ábrázolása
20
30
40
50
60
70
80
90
20
30
40
50
60
70
80
pontszám
pontszám
Középértékek: átlag
x1 + ... + xn n ha az egyes értékek (li) gyakoriságai (fi) adottak:
Mintaátlag:
x :=
x :=
f1l1 + ... + f k lk n
Ha csak az osztályközökbe esı értékek gyakoriságát ismerjük, az egyes értékeket becsüljük az osztályközéppel és alkalmazzuk az elızı képletet.
Medián
A sorbarendezett minta középsı eleme (ha páros sok eleme van: a két középsı átlaga). Közelítés osztályközös gyakoriságokra: n − f 'me−1 Me = xl + 2 h f me
xl: a mediánt magában foglaló osztály alsó határa f’me: kumulált gyakoriság a mediánt megelızı osztályig
bezárólag fme : a mediánt magában foglaló osztály gyakorisága h: a mediánt magában foglaló osztály szélessége. n: a minta elemszáma
2
Közelítése nem szimmetrikus esetben
Módusz
Ahol xmo a móduszt tartalmazó osztály alsó határa
f0 a móduszt tartalmazó osztály gyakorisága f0-1 a móduszt tartalmazó osztályt megelızı osztály gyakorisága f0+1 a móduszt tartalmazó osztályt követı osztály gyakorisága h a móduszt tartalmazó osztály szélessége
Alapstatisztikák grafikus megjelenítése
Tapasztalati kvantilisek
boxplot
Az egyes dobozok az alsó kvartilistól Gam2 a felsı kvartilisig tartanak. Középvonal a medián. T5 A vonalak a teljes terjedelmet Norm felölelik, ha ez az egyes irányokban nem nagyobb a Uni05 kvartilisek közötti különbség 1.5-2 0 2 4 szeresénél. Ha ezen kívül -4 is vannak pontok, azokat külön-külön jeleníti meg.
Elméleti kvantilis: abszolút folytonos, szigorúan monoton F esetén qz=F-1(z) Általában: inf{x:F(x)>z} A tapasztalati eloszlás kvantilisei: tapasztalati kvantilisek. Esetleg lineáris interpolációval lehet pontosítani a becsléseinket. z=1/2: medián. z=1/4, 3/4: kvartilisek
Grafikonok/1: Éves maximális vízállások
Mortality Rate
1.5 ratio
0.4
0.5
0.2 0.0
mortality
0.6
2.0
Ratio of Mortality Rates
40
60
80
100
20
40
60
80
age (year)
age (year)
Survival probability
Age at death
100
Magyar néphalandóság (2000, folytonos vonal) USA néphalandóság (1950, szaggatott vonal)
probability
6 e+04
0
Survival probability
3000
20
0 e+00
relatív gyakoriság
6
Grafikonok/2: halálozási ráták
Hisztogram 0.0000 0.0005 0.0010 0.0015 0.0020 0.0025
f 0 − f 0−1 h 2 f 0 − f 0−1 − f 0+1
1.0
Mo = xmo +
20
40
60 age (year)
200
400
600
800
2000
A leggyakoribb (tipikus) érték. Az eloszlás lehet unimodális, bimodális vagy polimodális(egy-, két- vagy többmóduszú). Meghatározása: A gyakorisági poligon maximumhelye (a modális osztályköz középértéke).
1000
80
100
20
40
60
80
100
age (year)
1000
Megfigyelések (cm)
3
Grafikonok/3: Reklámkampányok Weibull becslések
Kvantilisek kiszámítása
Weibull becslések
20 40 60 80
Reach 600
1000
0 200
600
Weibull becslések
Reach 1000
0 200
GRP n= 7
600
1000
GRP n=10
Szóródás
Tapasztalati szórás
Mennyiségi ismérv értékeinek különbözısége Mérıszámai:
| x1 − x | + | x2 − x | + | x3 − x | +...+ | xn − x | n
| x1 − x | f1 + | x2 − x | f 2 + ...+ | xk − x | f k n
Optimumtulajdonságok
A mintaátlag adja az átlagos négyzetes eltérések minimumhelyét, a minimum értéke a szórásnégyzet: ο 2 = min ∑
Kiszámítási lehetıség:
ο 2 = x2 − x 2 Négyzetgyöke a tapasztalati szórás.
Rendezett minta
A medián pedig az átlagos abszolút eltérést minimalizálja:
min ∑ a
n
| xi − a | , a megoldás : a = medián n
( x1 − x ) 2 f1 + ( x2 − x ) 2 f 2 + ... + ( xk − x ) 2 f k n
, a megoldás : a = x
a
( xi − a) 2
( x1 − x ) 2 + ( x2 − x ) 2 + ( x3 − x ) 2 + ... + ( xn − x ) 2 n
Gyakorisági sorokra: ο2 =
Gyakorisági sorra: d=
Tapasztalati szórásnégyzet: ο2 =
Terjedelem: max(xi)-min(xi) Átlagos abszolút eltérés: d=
pN − f 'i −1 hi fi
Ahol xi a kvantilist tartalmazó osztály alsó határa N a minta elemszáma f’i-1 kumulált gyakoriság a kvantilist tartalmazó osztályt megelızı osztályyal bezárólag fi a kvantilist tartalmazó osztály gyakorisága hi a kvantilist tartalmazó osztály szélessége
nemlin lin
0
nemlin lin 600
20 40 60 80
Weibull becslések
20 40 60 80
GRP n= 4
0 200
Q p = xi +
Pontdiagramok
1000
GRP n= 1
0
Reach
0 200
nemlin lin
0
nemlin lin
0
Reach
20 40 60 80
Osztályközös gyakorisági sorból
Az X1,...,Xn minta elemeit nagyság szerint sorbarendezve kapjuk az X1(n) ≤ X2(n) ≤... ≤ Xn(n) rendezett mintát. Mostantól: az X1,...,Xn minta elemei független, azonos eloszlásúak. Ha feltesszük, hogy a közös eloszlásuk abszolút folytonos, akkor felírható a rendezett minta k-adik elemének, Xk(n) -nek a sőrőségfüggvénye.
4
Rendezett minta elemeinek sőrőségfüggvénye n − 1 f ( x) F k −1 ( x)(1 − F ( x )) n −k f k , n ( x) = n k − 1
Spec.: minimum:
f1,n ( x ) = nf ( x)(1 − F ( x )) n −1 maximum:
f n ,n ( x) = nf ( x) F n −1 ( x)
Becsléselmélet
A minta eloszlásának ismeretlen paraméterét közelítjük a minta függvényével (elnevezés: becslés, becslıfüggvény) Statisztika: a minta függvénye. A becslések maguk is statisztikák. További példák statisztikára: n
tapasztalati momentumok:
∑X
k
i
/n
i =1
A grafikon néhány esetre.
Tapasztalati szórásnégyzet stb.
Becslések tulajdonságai
Torzítatlanság. θ valós paramétert becslünk a T(X) statisztikával. Ez torzítatlan, ha ,
Eθ (T ( X ) ) = θ
minden θ paraméterértékre. Példák:
Valószínőség becslése relatív gyakorisággal. Várható érték becslése mintaátlaggal Korrigált tapasztalati szórásnégyzet
∑ (X n
)
2
i
− X /(n − 1)
i =1
5