Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre
Minták alapján történő értékelések
¾ A statisztika a tömegjelenségek vizsgálatával
foglalkozik. ¾ Bizonyos
esetekben célszerűtlen a teljes megfigyelése.
lehetetlen statisztikai
illetve sokaság
¾ A minták alapján történő értékelés során nem
kell megfigyelnünk a statisztikai sokaság minden egyedét, hanem csak tervszerűen előre meghatározandó részét (minta).
¾ A
minta
jellemzőiből
következtethetünk
a
kellő
biztonsággal
statisztikai
sokaság
egészének jellemző értékeire. ¾ A mintából számított különböző jellemzők az
alapsokaság tekinthetők.
hasonló
jellemzői
becslésének
A becslést akkor alkalmazzuk, ha: ¾ tömegesen előforduló jelenségeket figyelünk meg
(közgazdasági jellegű becslések esetén),
¾ a
teljes körű termésbecslés),
megfigyelés
lehetetlen
(pl.
¾ a teljes körű megfigyelés költsége nagyobb, mint
az információ gazdasági értéke, illetve olcsóban jutunk kielégítő pontosságú információhoz,
¾ a megfigyelés a termék megsemmisítésével jár
(különböző minőségvizsgálatok),
¾ kísérletek
kiértékelése során minták értékelési módszerei).
(kis
elemszámú
1. Alapfogalmak: ¾ alapsokaság ¾ ¾ ¾ ¾
(a vizsgált statisztikai sokaság amelynek a jellemzőit becsülni kívánjuk), mintasokaság (a mintába bekerülő elemek összessége), visszatevéses mintavétel (ismétléses), visszatevés nélküli mintavétel (ismétlés nélküli), A mintavétel során a valószínűségi változókból álló statisztikai alapsokaságból mintát veszünk. A mintavétel során az alapsokaság minden elemének egyforma esélyt kell biztosítani a mintába kerüléshez. Ez esetben a minta reprezentatív .
¾ A minta nagysága „n” ( a mintában lévő elemek
száma). ¾ n = 1-N-ig „N” az alapsokaság száma, ⎛N ⎞ ¾ Egymástól független minták száma ⎜ ⎟ ⎜n ⎟ ⎝ ⎠ 9
nagy elemszámú minta > 30 – 40
9
kis elemszámú minta < 30 – 40
9
kiválasztási arány
n f = N
elem
¾ Statisztikai
becslés: az alapsokaságból vett minta alapján az alapsokaságot alkotó valószínűségi változók eloszlásának, jellemzőinek, paramétereinek becslése. ¾ A torzítatlan becslés: a minta jellemző értékei megegyeznek az alapsokaság jellemzőivel (az alapsokaság minden elemének egyforma esélyt biztosítunk a mintába kerüléshez, így az alapsokaság és a minta jellemzői között csak véletlenszerű eltérések mutatkoznak. ¾ A torzított becslésnél nem csak véletlen, hanem szisztematikus eltérések is vannak.
2. Mintaelemek kiválasztásának módszerei 2.1. Véletlen kiválasztáson alapuló módszerek: a visszatevés nélküli kiválasztást alkalmazzuk, mert viszonylagosan kicsi a kiválasztási arány.
2.1.1. Egyszerű véletlen kiválasztás: (az alapsokaság elemeit sorszámozzuk)
¾ Sorsolással történő kiválasztás, ¾ Véletlen számok táblázatának alkalmazásával, ¾ Mechanikus
kiválasztás - egymástól egyenlő távolságra lévő egyedeket választunk ki, lehet időbeli és térbeli (pl. azonos időközönként mérünk, térképre helyezett hálózat).
¾ Véletlen
koordináták módszere (egyenletes térbeli elhelyezkedésű sokaságnál, pl. legelő, növények termésbecslése).
2.1.2. Rétegzett mintavétel: a
heterogén
alapsokaságot
rétegekre
bontjuk, és ezekből külön – külön történik a
mintavétel
(vállalkozói,
alkalmazotti
jövedelem viszonyok vizsgálatakor)
2.1.3. Lépcsőzetes kiválasztás: csak
akkor
alkalmazzuk,
ha
nem
ismerjük az alapsokaság minden egységét (pl. árbecslés, homogén sokaság esetén),
2.2. Nem véletlen kiválasztáson alapuló módszerek 2.2.1. Kvóta szerinti kiválasztás: ¾ közvélemény kutatás, háztartási statisztikai felmérések, ¾ az alapsokaságot körzetekre bontják és ezen belül arányokat, kvótákat határoznak meg. 2.2.2. Koncentrált kiválasztás: ¾ árstatisztikai megfigyeléseknél, a legjellemzőbb típusok kerülnek a mintába.
2.2.3. Önkényes kiválasztás
¾ Szubjektív
alapon a tipikusnak elemeket vonják be a mintába.
vélt
3. Becslések egyszerű véletlen kiválasztással nyert minta alapján becsülhető: ¾ az átlag, ¾ az értékösszeg, ¾ két átlag illetve értékösszeg hányadosa, ¾ arány illetve megoszlás.
¾ 3.1. Számtani átlag becslése: ¾ a statisztikai becslés elméleti alapját a
véletlen tömegjelenségek legáltalánosabb törvényei képezik, amelyet a valószínűségszámítás tár fel.
¾ Nagy számok törvénye (Bernoulli XVII.sz.): ¾ a
megfigyelésben résztvevő egyedek számát fokozatosan növelve a bizonyosság felé közeledik annak a valószínűsége, hogy a relatív gyakoriság és a valószínűség csak egy általunk tetszőleges és előre meghatározható mértékben tér el egymástól.
¾ Relatív
gyakoriság: a kedvező eseteknek az összes lehetséges esethez való viszonya. ¾ Valószínűség: az a számérték, amely körül valamely véletlen jelenség relatív gyakoriságai ingadoznak. ¾ Átlagtörvény: (Csebisev tétele) A megfigyelésben résztvevő egyedek számának növelésével a bizonyossághoz közeledik annak a valószínűsége, hogy a megfigyelésben résztvevő, kiválasztott egyedek vizsgált tulajdonságának átlaga és az egész statisztikai sokaságban érvényesülő átlag közötti különbség tetszőlegesen kicsi legyen.
¾ Ha
a valószínűségi változók normális vagy megközelítőleg normális eloszlást mutatnak, akkor a szórás ismeretében meghatározható, hogy az átlagtól felfelé és lefelé tetszés szerint választott határok között az ismérv értékeinek hány százaléka helyezkedi el.
¾ A
központi határeloszlás tétele (Ljapunov): Ha a statisztikai sokaság egyedeire sok befolyásoló tényező hat, és egy – egy tényező hatása a többitől független, továbbá önmagában csak kismértékben járul hozzá az összhatáshoz, akkor a valószínűségi eloszlás normális eloszlást követ.
1 σ 68,3% 2 σ 95,5% 3 σ 99,7%
Számtani átlag becslése
300 ha rostkenderkóró termésátlagának becslése 1 m2 terület rostkenderkóró hozama, dkg
x
Minták száma, db
Eltérés
Eltérés és a gyakoriságok szorzata
f
d
f * d
Eltérések négyzete
d2
Súlyozott eltérés négyzet
f * d2
401-450
8
0
0
0
0
451-500
15
1
15
1
15
501-550
26
2
52
4
104
551-600
49
3
147
9
441
601-650
37
4
148
16
592
651-700
12
5
60
25
300
701-750
3
6
18
36
108
Összesen:
150
440
1560
A minta átlaga:
xm =A
f *d 440 ∑ * 50 = 425 + 146,66 = 571,66dkg + * i = 425 + 150 ∑f
A minta szórása:
fd ⎛ ∑fd ∑ −⎜ σm = i * ∑f ⎜⎝ ∑f 2
2
2 ⎞ ⎟ = 50 * 1560 − ⎛⎜ 440 ⎞⎟ = ⎟ 150 ⎝ 150 ⎠ ⎠
σ m = 50 * 10,4 − 8,6 = 50 * 1,8 = 67,08dkg
Az alapsokaság szórása:
n
150 2 S = σm * = 67,08* = 67,3dkg / m n −1 149 A standard hiba:
s 67,3 67,3 2 Sx = = = = 5,49dkg / m n 150 12,25 A hibahatár:
∆ 68% = t * Sx = 1* 5,49 = 5,49dkg / m
∆ 95,5% = t * Sx = 2 * 5,49 = 10,98dkg / m
2
2
A megbízhatósági, vagy konfidencia intervallum:
x m − t * Sx ≤ x ≤ x m + t * Sx 68%-os valószínűségi szinten:
566,17dkg / m ≤ x ≤ 577,15dkg / m 2
95,5%-os valószínűségi szinten:
560,68dkg / m 2 ≤ x ≤ 582,64dkg / m 2
2
A szükséges minta elemszám meghatározása azonos hibahatár mellett: 68%-os valószínűségi szinten:
⎛ t * s ⎞ ⎛ 1* 67,08 ⎞ 2 n =⎜ ⎟ ≈ 150m ⎟ =⎜ ⎝ ∆ ⎠ ⎝ 5,49 ⎠ 2
2
Kiválasztási arány:
⎛ n ⎞ ⎛ 150 ⎞ f =⎜ ⎟=⎜ ⎟ = 0,00005 = 0,005% ⎝ N ⎠ ⎝ 3000000 ⎠
A szükséges minta elemszám meghatározása azonos hibahatár mellett: 95,5%-os valószínűségi szinten:
⎛ t * s ⎞ ⎛ 2 * 67,08 ⎞ 2 = n =⎜ = 596 m ⎜ ⎟ ⎟ ⎝ ∆ ⎠ ⎝ 5,49 ⎠ 2
2
Kiválasztási arány:
⎛ n ⎞ ⎛ 596 ⎞ f =⎜ ⎟=⎜ ⎟ = 0,000198 = 0,019% ⎝ N ⎠ ⎝ 3000000 ⎠