Statisztika - bevezetés
2010.04.05.
Méréselmélet – PE MIK MI_BSc VI_BSc
1
Bevezetés • Véletlen jelenség fogalma • jelenséget okok bizonyos rendszere hozza létre • ha mindegyik figyelembe vehető → egyértelmű leírás • általában ez • lehetetlen vagy nehezen megoldható • célszerűtlen
Méréselmélet MI VI BSc
Statisztika_bevezetés/2
Bevezetés • Sokaság • a valamennyi elemet tartalmazó halmaz • tulajdonságait akarjuk meghatározni • típusai • véges sokaság • megszámlálhatóan végtelen sokaság • végtelen sokaság
Méréselmélet MI VI BSc
Statisztika_bevezetés/3
Bevezetés • Minta • a teljes sokaság még véges esetben is nehezen kezelhető • helyette mintát veszünk • véges sokaság: selejtek száma • megszámlálhatóan végtelen sokaság: egy műszakban a leállások száma • végtelen sokaság: adott számú mérés • minta tulajdonságai alapján következtetünk a teljes sokaságra Méréselmélet MI VI BSc
Statisztika_bevezetés/4
Bevezetés • Valószínűségi változó • olyan mennyiségek leírására, amelyek értéke nem állandó, de meghatározható, hogy mekkora valószínűséggel esnek adott határok közé • diszkrét valószínűségi változó • értékét véges vagy megszámlálhatóan végtelen elemű készletből veszi fel • folytonos valószínűségi változó • értékét valós számok folytonos sokaságából veszi fel Méréselmélet MI VI BSc
Statisztika_bevezetés/5
Bevezetés • Diszkrét valószínűségi változók jellemzése • egyszerűbb eset – két lehetséges kimenetel • bonyolultabb eset – több lehetséges kimenetel • események számának megjelenítése osztályokba sorolással • egyértelmű és összehasonlítható besorolás • egy adott osztályba tartozó elemek száma arányos az adott intervallumba esés valószínűségével → relatív gyakorisági index
Méréselmélet MI VI BSc
Statisztika_bevezetés/6
Bevezetés • relatív gyakorisági index megadása: elemszám az i - dik osztályban relatív gyakorisági = a minta teljes elemszáma
azaz annak valószínűsége, hogy az eredmény vagy tetszőleges kiválasztott mintaelem melyik osztályba esik:
(
p(xi ) = P ximin < xi < ximax
)
ahol p(x) lesz a (diszkrét) sűrűségfüggvény. Méréselmélet MI VI BSc
Statisztika_bevezetés/7
Bevezetés • A p(x) sűrűségfüggvény tulajdonságai: • p(xi) ≥ 0 ∀xi-re • Σ p(xi) = 1. • Kumulált/összegzett valószínűségek értelmezése: F (k ) = P(x ≤ k ) =
∑ p ( xi ) xi ≤ k
ez lesz a (diszkrét) eloszlásfüggvény. Méréselmélet MI VI BSc
Statisztika_bevezetés/8
Folytonos valószínűségi változók • Folytonos valószínűségi változók • diszkrét v.v. esetében több mérést végzünk / több mintát veszünk, akkor az osztályba sorolás finomítható az osztályszélesség csökkentésével • határátmenetben ∆x→0 • azaz a diszkrét valószínűségi változó a valós számok közül tetszőleges értéket vehet fel, azaz folytonos valószínűségi változóként értelmezhető
Méréselmélet MI VI BSc
Statisztika_bevezetés/9
Folytonos valószínűségi változók • folytonos valószínűségi változó • értelmezése: b
P(a < x ≤ b ) = ∫ f (x )dx a
ahol f(x) a (folytonos) sűrűségfüggvény. • tulajdonságai: • P(x=x0) = 0 ahol x0 tetszőleges érték, továbbá az egyezés nem lehetetlen esemény • f(x) ≥ 0 -∞ < x < ∞ ∞
•
∫ f (x )dx = 1
−∞
Méréselmélet MI VI BSc
Statisztika_bevezetés/10
Folytonos valószínűségi változók • Folytonos eloszlásfüggvény • a diszkrétről a folytonos esetre történő áttérés elve hasonló a sűrűségfüggvényhez • ∆x→0 határátmenetnél a folytonos eloszlás függvény értelmezése: F (xk ) = P(x ≤ xk ) =
xk
∫ f (x )dx
−∞
Méréselmélet MI VI BSc
Statisztika_bevezetés/11
Paraméterek és statisztikák • Sokaság leírása a sűrűség- és eloszlásfüggvényekkel • Sokaság ismerete: a sűrűség- és az eloszlásfüggvény alakjának és paramétereinek ismerete • Sűrűség- és eloszlásfüggvények jellemzése paraméterekkel (konstansok, momentumok) • Sokaság jellemzése mintavételezéssel • Minta jellemzése statisztikával / jellemzőkkel • Paraméterek jellemzése statisztikával
Méréselmélet MI VI BSc
Statisztika_bevezetés/12
Paraméterek és statisztikák • Várható érték (paraméter) ∞ • folytonos v.v. E (x ) =
• diszkrét v.v.
∫ xf (x )dx = µ
−∞
E ( x ) = ∑ xi p ( xi ) i
• statisztikája (mintabeli megfelelője) 1 x= N Méréselmélet MI VI BSc
N
∑ xi i =1 Statisztika_bevezetés/13
Paraméterek és statisztikák • várható érték tulajdonságai ∞
• E (ϕ (x )) = ∫ ϕ (x ) f (x )dx −∞
• E(cx) = cE(x) • E(c) = c • E(x1+x2+…+xn) = E(x1)+ E(x2)+…+ E(xn)
Méréselmélet MI VI BSc
Statisztika_bevezetés/14
Paraméterek és statisztikák • számtani átlag tulajdonságai • várható érték 1 1 E ( x ) = [E (x1 ) + K + E ( xn )] = [nE (x )] = µ n n • variancia 1 1 Var ( x ) Var ( x ) = 2 [Var ( x1 ) + K + Var ( xn )] = 2 [nVar ( x )] = n n n
Méréselmélet MI VI BSc
Statisztika_bevezetés/15
Paraméterek és statisztikák • Medián - µe • azaz az érték, amelynél nagyobbat és kisebbet egyforma valószínűséggel vesz fel a valószínűségi változó, azaz F(µe) = 0,5 • tapasztalati medián a nagyság szerint sorba rendezett elemek közül a középső (páratlan számú elemnél) vagy a középső kettő átlaga (páros számú elemnél)
Méréselmélet MI VI BSc
Statisztika_bevezetés/16
Paraméterek és statisztikák • Módusz • a valószínűségi változó legnagyobb valószínűségű értéke – a sűrűségfüggvény maximum helye (több módusz is lehet) • tapasztalati módusz: a legnagyobb gyakoriságú osztály (a legtöbb elemet tartalmazó osztály) osztályindexe
Méréselmélet MI VI BSc
Statisztika_bevezetés/17
Paraméterek és statisztikák • Variancia (paraméter) • az adatok „térbeli” elhelyezkedésének jellemzésére • megadása: • folytonos v.v. ∞
2 2 2 2 [ ] [ x − E ( x ) ] f ( x ) dx = E ( x − µ ) = σ = D (x ) ∫
Var (x ) =
−∞
• diszkrét v.v.
[
Var (x ) = ∑ [xi − E (x )] p(xi ) = E (x − µ ) 2
2
]
i
• elméleti szórásnégyzet
Méréselmélet MI VI BSc
Statisztika_bevezetés/18
Paraméterek és statisztikák • korrigált tapasztalati szórásnégyzet (statisztika) n 1 (xi − x )2 s2 = n − 1 i =1
∑
• variancia tulajdonságai • Var(cx) = c2Var(x) • Var(x1+x2+…+xn) = Var(x1)+ Var(x2)+…+ Var(xn) független x1, x2, …, xn valószínűségi változók esetén Méréselmélet MI VI BSc
Statisztika_bevezetés/19
Diszkrét eloszlások • Binomiális eloszlás • akkor alkalmazzuk, ha a bekövetkező esemény kétféle lehet (pl. bináris döntések) • sűrűség függvény n x p (x ) = p (1 − p )n − x x
• n – a teljes elemszám • x – a kérdéses esemény • p – a bekövetkezés valószínűsége Méréselmélet MI VI BSc
Statisztika_bevezetés/20
Diszkrét eloszlások • várható értéke E(x) = np • varianciája Var(x) = np(1-p) • a mintavétel visszatevéssel történik • gyakorlati alkalmazások bizonyos eseteinél nincs visszatevés, ilyenkor közelítésként megfelelő, ha n << N, azaz a vizsgált mintaszám sokkal kisebb, mint a teljes sokaság elemszáma
Méréselmélet MI VI BSc
Statisztika_bevezetés/21
Diszkrét eloszlások • Poisson-eloszlás • ritka események modellezésére • alkalmazási feltételei • bármely egységben előforduló esemény független legyen a többi egységbelitől • az esemény bekövetkezésének valószínűsége bármely egységben azonos és arányos az egység méretével • annak valószínűsége, hogy két vagy több előfordulás következik be, az egység méretének csökkentével nullához tart Méréselmélet MI VI BSc
Statisztika_bevezetés/22
Diszkrét eloszlások • ha a binomiális eloszlásnál a p bekövetkezési valószínűség igen kicsi, az n elemszám igen nagy, de np=λ konstans értékkel, akkor Poissoneloszlást kapunk • sűrűségfüggvénye: e −λ λ x p(x ) =
x!
• várható értéke, varianciája: E(x) = Var(x) = λ Méréselmélet MI VI BSc
Statisztika_bevezetés/23
Mintavétel szabályai • a „jó” minta sajátosságai • véletlenszerű • reprezentatív • megfelelően nagy • külső változók által ellenőrzött
Méréselmélet MI VI BSc
Statisztika_bevezetés/24
Mintavétel szabályai • véletlenszerű: • a sokaság bármely eleme minta lehet • ≠ vaktában történő mintavétel • tévhit: jelenségek előfordulási sorrendje véletlenszerű • reprezentatív • nehezen teljesíthető • véletlenszerűség fontosabb Méréselmélet MI VI BSc
Statisztika_bevezetés/25
Mintavétel szabályai • elegendően nagy • cél: általánosítás • de nem „ész nélkül”! • befolyásoló tényezők • eltérés nagysága • a vizsgált változó dinamikája • alkalmazott statisztikai módszer • mérésnél lehetséges hibák • költség Méréselmélet MI VI BSc
Statisztika_bevezetés/26
Mintavétel szabályai • független változó által ellenőrzött • hasonló egyedek csoportja • „fehér egerek” • előzetes vizsgálatok • kontrol csoport • csoportok homogenitása • matematikai kompenzáció más tényezők figyelembe vételére • kovariancia analízis • egyforma méretű minták Méréselmélet MI VI BSc
Statisztika_bevezetés/27
Folytonos eloszlások – normális eloszlás • Normális eloszlás • ha sok, egymástól független, egyenként kis hatású tényező összeadódik (pl. véletlen mérési hiba) • sűrűségfüggvény 1
f (x ) =
2π ⋅ σ
e
− ( x − µ )2 2σ 2
• eloszlásfüggvény F ( xi ) =
xi
∫
−∞ Méréselmélet MI VI BSc
1 2π ⋅ σ
e
− ( x − µ )2 2σ 2
dx Statisztika_bevezetés/28
Normális eloszlás • várható érték E(x) = µ • variancia Var(x) = σ 2 • szokásos jelölés N(µ, σ 2)
Méréselmélet MI VI BSc
Statisztika_bevezetés/29
Normális eloszlás • Normalizált (standardizált) normális eloszlás – u-eloszlás • legyen u a következő valószínűségi változó u=
x−µ
σ
• u paraméterei x − µ E (x ) − µ E (u ) = E =0 = σ σ x−µ 1 Var (u ) = Var = 2 Var (x ) = 1 σ σ Méréselmélet MI VI BSc
Statisztika_bevezetés/30
Normális eloszlás • ennek alapján u sűrűségfüggvénye 1 f (u ) = e 2π
−u 2 2
• azaz nem szerepelnek a paraméterek a sűrűségfüggvényben, így az értékek megadhatók táblázatosan • u-eloszlás táblázata
Méréselmélet MI VI BSc
Statisztika_bevezetés/31
Normális eloszlás • a normalizált normális eloszlás segítségével annak valószínűsége, hogy a N(µ, σ 2) eloszlású x valószínűségi változó nem halad meg egy adott a értéket: a
P( x ≤ a ) = F (a ) =
∫ −∞
• ahol
Méréselmélet MI VI BSc
ua =
1 2π ⋅ σ
e
− ( x − µ )2 2σ 2
ua
dx =
∫
−∞
1 e 2π
−u 2 2
dx = F (ua )
a−µ
σ
Statisztika_bevezetés/32
Centrális határeloszlás tétele • Centrális határeloszlás tétele • bármilyen eloszlású sokaságból vett minták számtani középértéke közelítőleg normális eloszlást követ az eredeti eloszlás várható értéke körül, varianciája pedig σ 2/n. • Tehát az x N(µ, σ 2/n) eloszlású v.v., így az x−µ u= σ/ n N(0, 1) eloszlású. • Ha az eredeti eloszlás szimmetrikus, akkor már 4 elemű mintára is jó a közelítés Méréselmélet MI VI BSc
Statisztika_bevezetés/33
χ 2 - eloszlás • bevezetése • legyen egy N(µ, σ 2) eloszlás • vegyünk ebből n db mintát: x1, …, xn xi − µ • ezek mindegyikét normalizáljuk ui = σ
• ezek négyzetösszegét véve χ 2 -eloszlású v.v. kapunk: n χ 2 = u12 + u 22 + K + u n2 = ∑ ui2 i =1
• az eloszlás szabadsági foka: ν a függetlenség miatt ν = n Méréselmélet MI VI BSc
Statisztika_bevezetés/34
χ 2 - eloszlás • sűrűségfüggvénye
Méréselmélet MI VI BSc
Statisztika_bevezetés/35
χ 2 - eloszlás
• várható értéke
( )
E χ2
n 2 = E ui = i =1
∑
n
n
n
∑ ( ) ∑ E [(u − 0) ] = ∑Var (u ) = ν E ui2 =
i =1
2
i
i =1
i
i =1
• varianciája
( )
Var χ 2 = 2ν
Méréselmélet MI VI BSc
Statisztika_bevezetés/36
Tapasztalati szórásnégyzet eloszlása • normális eloszlású sokaságból vett mintákra • megadása n 1 (xi − x )2 s2 = n − 1 i =1
∑
n
2 − ( x x ) • belátható (Fisher-Cohran tétel), hogy a ∑ i i =1 2 2 χ σ eloszlású, ν = n-1 szabadsági fokkal
• e kifejezés várható értéke n 2 E (xi − x ) = σ 2 E χ 2 = σ 2 (n − 1) i =1
∑
Méréselmélet MI VI BSc
( )
Statisztika_bevezetés/37
Tapasztalati szórásnégyzet eloszlása • ennek alapján a tapasztalati szórás várható értéke
( )
E s2
2 1 n σ = E ( xi − x )2 = E χ2 =σ 2 n −1 n −1 i =1
∑
2
( )
2
χσ • így s → eloszlású ν s 2ν 2 • vagy 2 → χ eloszlású, ν = n-1 szabadsági fokkal σ 2
• példa • χ2-eloszlás táblázat Méréselmélet MI VI BSc
Statisztika_bevezetés/38
χ 2 - eloszlás • χ 2 -eloszlás kritikus értékei
Méréselmélet MI VI BSc
Statisztika_bevezetés/39
χ 2 - eloszlás • χ 2 -eloszlás α valószínűséghez tartozó felső kritikus értéke
Méréselmélet MI VI BSc
Statisztika_bevezetés/40
Student- vagy t-eloszlás • értelmezése • az u eloszlás nem használható, ha a minta elemszáma kicsi, nincs elegendő minta σ 2 becsléséhez • ilyenkor alkalmazzuk a t - eloszlást • legyen ξ normális eloszlású v.v., ekkor ξ-ből a következő kifejezéssel kapunk Student-féle teloszlású v.v.-t: t=
u
χ2 n
Méréselmélet MI VI BSc
=
ξ − E (ξ ) χ 2σ ξ2 ν
=
ξ − E (ξ ) sξ Statisztika_bevezetés/41
Student- vagy t-eloszlás • sűrűségfüggvénye
Méréselmélet MI VI BSc
Statisztika_bevezetés/42
Student- vagy t-eloszlás • egyetlen paramétere van, mely a nevezőben szereplő szórásnégyzetnek a szabadsági foka • várható értéke E(t) = 0 • ha ν → ∞, akkor a t-eloszlás közeledik normális eloszláshoz (ν > 30 esetén már helyettesíthető) • a szabadsági fok alapján táblázatból kikereshetők adott α valószínűséghez és ν szabadsági fokhoz tartozó tα/2 kritikus értékek
Méréselmélet MI VI BSc
Statisztika_bevezetés/43
Student- vagy t-eloszlás • legyen t v.v. az n elemű minta középértéke alapján: x−µ x−µ t=
sx
=
s/ n
• ekkor megadható, hogy t v.v. α valószínűséggel veszi fel a (-tα/2, tα/2) intervallumon kívül eső értékeket • t-eloszlás táblázata
Méréselmélet MI VI BSc
Statisztika_bevezetés/44
Student- vagy t-eloszlás • t-eloszlás kritikus értékei
Méréselmélet MI VI BSc
Statisztika_bevezetés/45
Student- vagy t-eloszlás
szabadsági fok
konfidencia szint
Méréselmélet MI VI BSc
Statisztika_bevezetés/46
F-eloszlás • értelmezése • legyen χ12 és χ22 két egymástól független χ 2 eloszlású v.v. ν1 és ν2 szabadsági fokkal • a következő kifejezés F-eloszlású χ12 / ν 1 F= 2 χ2 / ν 2
• ahol a számláló szabadsági foka ν1 a nevezőé pedig ν2 Méréselmélet MI VI BSc
Statisztika_bevezetés/47
F-eloszlás • a tapasztalati szórásnégyzetnél levezetettek alapján: s2
σ
• ebből
2 ν = χ 2
F=
s2
χ2 ⇒ 2 = ν σ
s12 / σ 12 s 22 / σ 22
2 2 • ha σ 1 = σ 2
akkor Méréselmélet MI VI BSc
F=
s12 s 22 Statisztika_bevezetés/48
F-eloszlás • sűrűségfüggvénye
Méréselmélet MI VI BSc
Statisztika_bevezetés/49
F-eloszlás
• táblázatbeli megadás a ν1 és ν2 szabadsági fokok alapján történik • legyen Fα(ν1,ν2) a ν1 és ν2 szabadsági fokokkal jellemzett F-eloszlású v.v.-nak az a kritikus értéke, amelyet csak α valószínűséggel halad meg. Ekkor Fα (ν 1 ,ν 2 ) =
1
F1−α (ν 2 ,ν 1 )
azaz a kritikus intervallum határai közül a felsőt a táblázatból, az alsót számolással kapjuk meg. Méréselmélet MI VI BSc
Statisztika_bevezetés/50
F-eloszlás • F-eloszlás kritikus értéke
• F-táblázat Méréselmélet MI VI BSc
Statisztika_bevezetés/51
F-eloszlás
számláló szabadsági foka
nevező szabadsági foka
Méréselmélet MI VI BSc
Statisztika_bevezetés/52