2011. október 27.
Statisztika
Becsüljük meg a fejdobás valószínőségét! Elfogadhatjuk azt a hipotézist, hogy a fejdobás valószínősége 0,75?
Kísérlet: 4-szer dobunk fel egy érmét. Megszámoljuk a fejek számát. Valszám: Ismert a fejdobás valószínősége. Milyen valószínőséggel dobunk két fejet? Statisztikai feladatok: A fejdobás valószínősége nem ismert. Két fejet dobtunk.
Különbség valószínőségszámítás és statisztika között
Milyen valószínőséggel születik fiúgyermek? Svájcban 1871 és 1900 között a 2.644.757 megszületett gyermekbıl 1.359.671 fiú és 1.285.086 lány volt. Fiúk relatív gyakorisága így 0,5141. Igaz-e, hogy a valószínőség 0,5? És 0,1? Hogyan becsülnénk a fiúszületés valószínőségét?
Példa
i =1
∑X
n i
n
⇒
u = 4 ⇒ 2Φ(u ) − 1 = 0,999936
p = 0.5 ⇒
n (ξ − p ) = 37 p(1 − p)
n X nEX − 1 ∑ i 2 EX i = p, D X i = p(1 − p), P i =1 < x ~ Φ ( x) ⇒ DX 1 n n P −u < (ξ − p ) < u ~ 2Φ(u ) − 1 p(1 − p)
P ( X i = 1) = p, n = 2.644.757, ξ =
1, i.fiú Xi = ⇒ 0, i.lány
)
n (ξ − p ) < u ≤ p(1 − p)
u u u −u = P < (ξ − p ) < < p <ξ + = P ξ − 2 n 2 n 2 n 2 n Esetünkben 0,9973 valószínőséggel 0,5132 ≤ p ≤ 0,5150
≤ P −u < 2 n (ξ − p ) < u =
(
1 p(1 − p ) ≤ ⇒ 4 2Φ (u ) − 1 ~ P −u <
BOLLA – KRÁMLI: Statisztikai következtetések elmélete Dévényi – Gulyás: Matematikai statisztikai módszerek a meteorológiában
Móri-Szeidl-Zempléni: Matematikai statisztika példatár
Példatár
Tankönyv:
Baróti-Bognárné-Fejes Tóth-Mogyoródi: Matematikai statisztika jegyzet programozó szakos hallgatóknak
Jegyzet
Irodalom
Leíró statisztika (rövid bevezetı) Becsléselmélet Hipotézisvizsgálat Többdimenziós statisztika és Idısorelemzés elemei
Alkalmazási készség kialakítása (elsısorban gyakorlaton)
Matematikai statisztika alapjainak ismertetése
Cél
Ipari termelés Mezıgazdaság Szociológia (közvéleménykutatások) Természettudományok Pénzügyi adatok Valójában az élet szinte minden területe
Következtetések levonása adatok alapján
A matematikai statisztika tárgya
Angliai mezıgazdasági alkalmazások voltak az elsık
Fejlıdése felgyorsult az utóbbi évtizedekben (számítógépek jóvoltából)
Táblázatokat a biztosítók már többszáz éve használnak Maga a tudomány fiatal tudomány, alig 100 éves a múltja
Történet
Matematikai tudomány. Ugyanakkor a statisztika mindennapi alkalmazása nem mindig kellıen precíz (teljesülnek-e a feltételek?) Ezért lényeges, hogy a feltételezéseinket és következtetéseinket pontosan fogalmazzuk meg.
Matematikai statisztika helye a tudományok között
2.
1.
Rendkívüli volt-e a 2009. évi januári Zala megyei idıjárás? Vis maior-e az áramszolgáltató szempontjából? Egy közvéleménykutatás során azt kaptuk, hogy 1000 emberbıl 400 választaná az adott pártot. Mások szerint a párt 50%-ot fog kapni. Elıfordulhat-e ez? Mekkora eséllyel?
Példák
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
52
54
1991-es USA férfi néphalandóság
56
58
60
62
64
66
68
70
72
74
76
78
80
82
84
Van-e a rassznak, nemzetiségnek hatása a halandóságra?
Példák (folyt.)
Nem fehérek
Fehérek
0 16267
1 1966
2
4
1
1 0
148006
5 6 7 >7 Összesen 211 31 5
3
Mi lehet egy vezetı által okozott károk számának eloszlása?
Veze- 129524 tık száma
Kárszám
Példák (folyt.)
Összesen Átlag
Jegy 1 2 3 4 5
Férfi
2009. január 5-ei vizsga
47 11 11 9 8 86 2,1
Ki tanul jobban?
Nı 4 1 2 2 2 11 2,7
Összesen 51 12 13 11 10 97 2,1
1 5
4 5
2,2
1
3
Átlag
3
2
24
14
1
Férfiak
Összesen
Jegy
2009. január 21-ei vizsga
Nık
Ki tanul jobban? (folyt.)
1,0
1
0
0
0
0
1
2,1
25
5
1
1
3
15
Összesen
Napfoltok száma
Alapadat: közvetlenül a sokaságból méréssel vagy leszámlálással kapott eredmény Származtatott adat: alapadatokból mőveletek eredményeként kapjuk
Statisztikai adatok
Általában korlátozott a pontosságuk Abszolút hiba: ε=|V-M|, ahol V a valóságos adat és M a mért adat. Gyakorlatban nem tudjuk meghatározni, csak becsülni tudjuk. Relatív hiba: az abszolút hiba és a mért érték hányadosa: ε/M
Adatok pontossága
Idıbeliek Területiek Mennyiségiek Minıségiek.
Vizsgálatba vont csoport: sokaság. Sokaság elemei: egyedek. Egyedek jellemzıi: ismérvek. Lehetséges kimenetelei az ismérvváltozatok. Az ismérvek által adott információk alapján az ismérvek lehetnek:
Statisztikai ismérvek
A nem számmal kifejezhetı, vagy számmal jelölt, de mégsem szám jellegő ismérveket, minısítéses ismérvnek nevezzük. (pl. fıváros kerülete) A méréssel meghatározható, számmal jellemezhetı ismérveket méréses ismérvnek nevezzük. (pl. testmagasság)
Ismérvek egy másik csoportosítása
Az olyan minısítéses ismérvet, amelynek adatai rendezhetık rendezhetı minısítéses ismérvnek hívjuk.
Ismérvek újabb csoportosítása
Tervezés (mit vizsgálunk, hogyan győjtjük az adatokat) Adatgyőjtés Kódolás (ha szükséges) Ellenırzés: leíró statisztikákkal Elemzés: matematikai statisztika módszereivel
Statisztikai elemzés lépései
Mintavétel a populációból: eredménye a (statisztikai) minta A mintavétel módja is lényeges (legegyszerőbb eset: bármelyik elem ugyanakkora valószínőséggel kerül a mintába) A mintavétel eredménye: (statisztikai) minta: x1,x2,…,xn (számsorozat) Ugyanakkor egy másik, hasonló mintavételnél más mintát kapnánk, azaz az adott minta véletlen kísérlet eredménye. Ha a minta véletlen jellegét vizsgáljuk: X1,X2,…,Xn valószínőségi változósorozat. Lényeges különbség az eddigiekhez képest: az eloszlása nem (vagy csak részben) ismert
Adatok
megjelenítése, jellemzıinek kiszámítása
a feladata. Adatok elrendezhetık táblázatban (fontos: forrás feltüntetése), illetve ábrázolhatók grafikusan.
Nem a véletlen hatását vizsgálja, hanem a konkrét minta
Leíró statisztika
Cél: tömör, számszerő jellemzés Ehhez szükség van csoportosításra (felosztása megkülönböztetı ismérv szerint, sok ismérvváltozat esetén osztályozás kell) Eredmény: egy ismérv szerinti csoportosító táblázat Tartalmazhat gyakoriságot vagy relatív gyakoriságot
Táblázatok
Megfelelı formával ellátott statisztikai sorok összefüggı rendszere Egyszerő tábla: leíró sorokból áll Csoportosító táblák: tartalmaznak összesítı rovatot is (lehet bennük összehasonlítás is) Kombinációs vagy kontingenciatábla: két ismérv szerinti kombinációs csoportosítás. Mindkét irányban tartalmaz összesítést.
Statisztikai táblák
1 n Fn ( z ) = ∑ χ { xi < z} n i =1 k Fn ( z ) = , ha xk( n ) < z ≤ xk( n+)1 , x0( n ) = −∞, xn( n+1) = ∞ n x1( n ) ≤ x2( n ) ≤ ... ≤ xn( n ) : x1 , x2 ,..., xn sorbarendezése.
Ha a minta X1,X2,…,Xn valószínőségi változósorozat, akkor Fn(z) is valószínőségi változó.
Minden megfigyeléshez (x1,x2,…,xn) 1/n súlyt rendel. Ez valószínőségeloszlás! Mintaátlag éppen ennek az eloszlásnak a várható értéke. Tapasztalati eloszlás eloszlásfüggvénye: tapasztalati eloszlásfüggvény: Fn (lépcsısfüggvény).
Tapasztalati eloszlás
a/n
1.0
0.8
0.6
0.4
0.2
0.0
30
40 z
50
60
normális eloszlás közelítése, n=10
Példa
70
1.0 0.8 0.6 0.4 0.2 0.0
a/n
30
40
z
50
60
normális eloszlás közelítése, n=100
70
Gyakorisági poligon Hisztogram
Megoszlás szemléltetése lehetséges kördiagrammal is.
Oszlopdiagram: a gyakoriságokkal arányos az oszlopok magassága Mennyiségi ismérvekre:
Grafikus ábrázolás
Adatainkat osztályokba soroljuk (mindegyiket pontosan egybe, pl. az iedik osztály: ai≤x
Hisztogram
Túl sok osztály
Példák
Frequency
40 30 20 10 0 20
30
40
pontszám
50
60
70
Pontszámok grafikus ábrázolása
80
Túl kevés osztály
Példák 350 300 250 200 150 100 50 0
Frequency
20
30
40
60 pontszám
50
70
Pontszámok grafikus ábrázolása
80
90
Jó osztályszám
Példák
Frequency
200 150 100 50 0 20
30
40
pontszám
50
60
70
Pontszámok grafikus ábrázolása
80
n
f1l1 + ... + f k lk x := n
ha az egyes értékek (li) gyakoriságai (fi) adottak:
Medián: a sorbarendezett minta középsı eleme (ha páros sok eleme van: a két középsı átlaga).
Mintaátlag: x := x1 + ... + xn
Középértékek
Elméleti kvantilis: abszolút folytonos, szigorúan monoton F esetén qz=F-1(z) Általában: inf{x:F(x)>z} A tapasztalati eloszlás kvantilisei: tapasztalati kvantilisek. z=1/2: medián. z=1/4, 3/4: kvartilisek
Tapasztalati kvantilisek
Az egyes dobozok az alsó kvartilistól T5 a felsı kvartilisig tartanak. Középvonal a medián. Norm A vonalak a teljes terjedelmet felölelik, ha ez Uni05 nem nagyobb a kvartilisek közötti -4 -2 0 2 4 különbségek 1.5szeresénél. Ha ezen kívül is vannak pontok, azokat külön-külön jeleníti meg.
Gam2
boxplot
6
Egyéb ábrázolások
( Ω, A , Pϑ )
paraméterhalmaz
minden paraméter
Θ
esetén valószínőségi mezı.
és
statisztikai mezı, ha
( Ω, A , Pϑ ) , ϑ ∈ Θ
Statisztikai mezı
Nem ismerjük a fejdobás valószínőségét:
Pp ({F} ) = p, Pp ({I} ) = 1 − p, p ∈ [ 0,1] .
Ω = {F, I} , A = {∅; {F} ; { I} ; {F, I}} ,
Egy érmedobás modellje
x1 Def.: minta realizációja: x = ⋮ a konkrét megfigyelt számsorozat. x n
ξi : i. mintaelem
ξ1 Def.: A ξ = ⋮ : Ω →X ⊆R n valószínőségi vektorváltozót ξ n mintának nevezzük. n : mintanagyság
Minta
Def: X mintatér: a minta lehetséges értékeinek halmaza. Elemei a mintaértékek. n-elemő valós minta esetén: X=Rn n-elemő pozitív egész értékő minta esetén: X=Nn Példa: egy biztosítónál 10 napon keresztül figyelték a bejelentett károk számát, ekkor X=Z0n
Mintatér
Megfigyelések: 78, 89, 167, 90, 85 Minta realizációja: (78, 89, 167, 90, 85)T Mintanagyság: 5
Egy benzinkútnál tankoló autók száma 5 napon keresztül
Független minta: a mintaelemek függetlenek. Független azonos eloszlású minta: a mintaelemek függetlenek és azonos eloszlásúak. Diszkrét minta: a mintaelemek diszkrétek. Abszolút folytonos eloszlású minta: a mintaelemek abszolút folytonosak.
A minták típusai
i =1
i =1
pϑ ( s) = Pϑ (ξi = s ) (diszkrét minta)
fϑ : sőrőségfüggvény Pϑ esetén (absz. folyt. minta)
Dϑ : szórás Pϑ esetén,
Eϑ : várható érték Pϑ esetén,
Jelölések:
Fϑ (s) = ∏ Pϑ (ξi < si ) = ∏ Fϑ ( si )
n
n
Független azonos eloszlású minta esetén:
i =1
Fϑ (s) = ∏ Pϑ (ξi < si )
n
Független minta esetén:
Fϑ (s) = Pϑ (ξ1 < s1 ,..., ξ n < sn )
Eloszláscsaládok
Egy érmedobás. Fej esetén 1-et írunk, írás esetén 0-át.
pλ (k ) = Pλ (ξi = k ) = λ e
k −λ
/ k !, k = 0,1, 2,...
Benzinkutas példa. Azt feltételezzük, hogy megfigyeléseink független, azonos eloszlású Poissonok.
k =1 p k 1− k p p (k ) = Pp (ξ1 = k ) = = p (1 − p ) 1 − p k = 0
Példák
k
T (ξ ), ha T :X →R függvény.
Def’.: Statisztika:
T :X →R k
Def.: Statisztika: a minta függvénye.
Statisztikák
n
i =1
i
∑x
n
i
,
n
n
i =1
i =1
n
k ξ ∑i
, T (ξ ) =
n
i =1
∑ξ
n
k x ∑i
n
, T (ξ ) = ξ =
tapasztalati k . momentum: T (x) =
mintaközép: T (x) = x =
X =R n ,
Tapasztalati momentumok:
Példák
.
T ( x) =
n n
i
i =1
n
∑( x − x )
X =R , 2
, T (ξ ) = s =
2
i =1
∑ (ξ
n
Tapasztalati szórásnégyzet
−ξ ) n
i
2
A ξ1,..., ξ n minta elemeit nagyság szerint sorbarendezve kapjuk az ξ 1(n) ≤ ξ 2(n) ≤... ≤ ξ n(n) rendezett mintát. Ez n-dimenziós statisztika Mostantól: a ξ1,..., ξ n minta elemei független, azonos eloszlásúak. Ha feltesszük, hogy a közös eloszlásuk abszolút folytonos, akkor felírható a rendezett minta k-adik elemének, ξ k(n) -nek a sőrőségfüggvénye. (gyakorlat) Spec.: minimum, maximum. Def.: minta terjedelme: ξ n(n) - ξ 1(n)
Rendezett minta
Mintaátlag éppen ennek az eloszlásnak a várható értéke.
1 n Fn ( z ) = ∑ χ {ξi < z} n i =1 k Fn ( z ) = , ha ξ k( n ) < z ≤ ξ k( +n1) , ξ 0( n ) = −∞, ξ n(+n1) = ∞ n
Tapasztalati eloszlás eloszlásfüggvénye: tapasztalati eloszlásfüggvény:
Tapasztalati eloszlásfüggvény
i N −1 1 F ( z0 ) = 0, F ( z1 ) = ,..., F ( zi ) = ,..., F ( z N −1 ) = , F ( z N ) = 1, N N N z0 = −∞, z N = ∞.
valós z1 ,..., z N számok, hogy
következik, hogy tetszıleges pozitív egész N -hez léteznek olyan
Biz.: Csak folytonos F eloszlásfüggvényekre látjuk be. Ebbıl
z
sup Fn ( z ) − F ( z ) → 0 majdnem mindenütt (1 vszgel). n →∞
Tétel: ξ1 ,..., ξ n független, azonos F eloszlásfüggvényőek. Ekkor
Glivenko-Cantelli tétel (”statisztika alaptétele”)
E χ {ξi < x} = P (ξi < x ) = F ( x).
változók, melyek várható értéke
ahol χ {ξi < x} független, azonos eloszlású indikátor valószínőségi
1 n Fn ( x) = ∑ χ {ξi < x}, n i =1
1 sup Fn ( z ) − F ( z ) ≤ max Fn ( zk ) − F ( zk ) + . 0≤ k ≤ N N z Tudjuk, hogy rögzített x − re
1 Fn ( z ) − F ( z ) ≤ Fn ( zk +1 ) − F ( zk ) = Fn ( zk +1 ) − F ( zk +1 ) + , N 1 Fn ( z ) − F ( z ) ≥ Fn ( zk ) − F ( zk +1 ) = Fn ( zk ) − F ( zk ) − . N Ebbıl következik, hogy
Ekkor, ha z ∈ [ zk , zk +1 ) , akkor
{
0≤ k ≤ N
}
N −1
N =1
N
∩B
∞
1 valószínőségő, így
n →∞
N
N =1
∩B
∞
N =1 k =1
= ∩ ∩ Ak , N is 1 valószínőségő.
∞ N −1
lim sup Fn ( z ) − F ( z ) = 0. 1 valószínőségő események metszete is
1 BN − en lim sup Fn ( z ) − F ( z ) ≤ . Ebbıl következik, hogy N n →∞
k =1
P( Ak , N ) = 1 és BN = ω : max Fn ( zk ) − F ( zk ) → 0 = ∩ Ak , N . n →∞
Legyen Ak , N
1 n = ω : ∑ χ {ξi (ω ) < zk } → F ( zk ) , ekkor n →∞ n i =1
1 n Fn ( x) = ∑ χ {ξi < x} → E χ {ξi < x} = F ( x) mm. n →∞ n i =1
Így a nagy számok erıs törvénye szerint
-en