A mintavétel szakszerűtlenségeinek hatása a monitoring-statisztikákra Vörös Zsuzsanna NÉBIH RFI tervezési referens 2013. április 17.
Egy kis felmérés
nem
kor
Következtetések: 1. a jelenlevők nemi megoszlása: 2. a jelenlevők átlagos életkora:
Milyen a statisztika? Churchill:
„Én csak abban a statisztikában hiszek,
amit magam hamisítottam.” Öreg igazság:
Van kis hazugság, van nagy hazugság, és van statisztika.
Milyen a statisztika? George Horace Gallup 1901-1984.
1936: az esedékes elnökválasztáson a Literary Digest című hetilap a republikánus Alfred Landon, míg Gallup a végül győztes demokrata Franklin Delano Roosevelt sikerét jelezte előre. A Literary Digest a szokásos módszerrel tízmillió "szavazólapot" küldött szét, amelyekből kétmillió érkezett vissza. Gallup ezzel szemben egy keresztmetszetet adó lakossági mintával dolgozott: 3 ezer embert, de férfiakat és nőket arányosan "szondáztak" meg, interjúkat készítettek, valamint figyelembe vették az iskolázottságot és az anyagi körülményeket is.
Emlékezzünk! Mi a mintavétel? Az alapsokaság nem mindegyik tagját vizsgáljuk, hanem véletlenszerűen kiemelünk belőle néhányat (n elemű minta), ezeket vizsgálva következtetünk az alapsokaság jellemző paramétereire (valószínűségi változó dimenziói). „A reprezentatív módszer elmélete a valószínűség-számítás törvényein, más szóval a véletlen tömegjelenségek törvényein nyugszik. Ezért követelmény, hogy az alapsokaság, a szó szoros értelmében sokaság legyen, tehát nagyszámú egységet foglaljon magában.”
Y
Matematikai összefoglaló
X
Emlékezzünk! Mekkora legyen a minta? – 300 ezer élelmiszeripari vállalkozás, kb. 220 milliárd tétel évente – mindez az élelmiszerláncban A minta nagysága a mintából nyerhető adatok pontosságára és megbízhatóságára van hatással, ezért a minta nagyságát mindig az szabja meg, hogy a populáció vizsgált jellemzőjét milyen pontossággal és megbízhatósággal (megbízhatósági intervallummal és szignifikancia-szinttel) akarjuk megkapni.
A minta nagysága független az alapsokaság terjedelmétől – táblázatokban n értéke. A minta nagysága az adatfelvétel pontosságával és megbízhatóságával van összefüggésben.
Az ismérvelosztás várható értékei A hiba nagysága (%)
10% vagy 90%
20% vagy 80%
30% vagy 70%
40% vagy 60%
50%
0,1
360 000
640 000
840 000
960 000
1 000 000
0,5
14 400
25 600
33 600
38 400
40 000
1
3 600
6 400
8 400
9 600
10 000
1,5
1 600
2 844
3 733
4 267
4 444
2
900
1 600
2 100
2 400
2 500
2,5
576
1 024
1 344
1 536
1 600
3
400
711
933
1 067
1 111
4
225
400
525
600
625
5
144
256
336
384
460
6
100
178
233
267
278
8
56
100
131
150
156
10
36
64
84
96
100
Vissza
Emlékezzünk! Szignifikancia-szint: A próbafüggvény kritikus tartományba esésének valószínűsége. Megbízhatósági intervallum (konfidencia-intervallum): Valószínűségi intervallum, adott szignifikancia-szinten a becsült változó alsó és felső korlátja. A konfidencia-intervallum intervallum értékű becslést ad egy paraméterre, amely valószínűleg ezek közé a korlátok közé esik. Az α paraméter egy előzetesen megadott értékére a becsült paraméter 1-α valószínűséggel esik az intervallumba. Ezt az 1-α szintet sokszor százalékban adják meg; például 95% tipikus.
Emlékezzünk! Konfidencia-intervallum 95 %-os szignifikancia-szint mellett
Y
99 %-os szignifikancia-szint mellett
X Számítása: ismeretlen szórású normál eloszlásra Student t eloszlásfüggvénnyel
Különböző mintanagyságokhoz tartozó konfidencia intervallumok ( + %) Konf. int. (%)
20 20
14.2
15
11.5 10 10
8.2 7.1 6.35.8
5
5
4.5 4.1
3.5
3.2
2.9
2.6
0 0
100
200
300
400
500
600
700
800
900
Mintanagy ság fõben
1000
1100
1200
1300
1400
1500
Emlékezzünk! Milyen legyen a minta? Reprezentatív a minta, ha a minta és az alapsokaság, amiből vettük, ugyanazt az eloszlást követi.
A minta reprezentativitása nem a minta-elemszám, hanem a minta kiválasztás módszerének függvénye. Milyen statisztikai következtetéseket tudunk levonni a minta alapján? -
leírást, analízissel az alapsokaság jellemzőit írjuk le, jóslással következtetünk további jellemzőkre.
Emlékezzünk!
Mitől lesz jó egy következtetés?
-
reprezentatív a minta; jól illeszkedő hozzárendelt empirikus eloszlásfüggvény, az illeszkedés hibájának megadása.
A mintavételezés hibái általában Alapvető hibák: • nem reprezentatív a minta, (túl kicsi a minta, nem random a mintavételezés), • a következtetésekhez nincsenek becslések a bizonytalansági tényezőkre, hibákra; • nem definiáltak előre a lehetséges mintavételi hiba nagysága, a megbízhatósági szintje és a konfidencia intervallumok.
Csak random mintavétel esetében következtethetünk a populációra!
A mintavétel hibáinak típusai • az elsőfajú hibák és bekövetkezésük valószínűsége • a másodfajú hibák és bekövetkezésük valószínűsége a nullhipotézist elfogadjuk a nullhipotézis igaz a nullhipotézis hamis
Helyes döntés
a nullhipotézist elvetjük elsőfajú hiba
másodfajú hiba
Helyes döntés
A mintavételezés hibáinak statisztikai következményei • megnő az adott szignifikancia-szinten a konfidencia-intervallum nagysága • adott megbízhatósági intervallum mellett lecsökken a szignifikancia-szint nagysága • megnő az első- és másodfajú hibák előfordulásának valószínűsége. A bevezető mintavétel hibája: -
A teremben x átlagéletkorú férfiak ülnek: igaz, ha a megállapításhoz megadjuk, hogy -
5 elemű mintát vettünk az alapsokaságból, és hogy az ehhez tartozó hiba -
a Δ2 = 1/n képlettel becsülve: 45%.
Kapcsoló
A monitoring mintavétel céljai Cél: a populációt minél jobban leíró statisztikákat (statisztikai változókat) meghatározni, azaz statisztikai változókkal leírni az adott populációt, illetve megadni azt, hogy az állításaink milyen biztonsággal igazak. Ezek az adatok szolgálnak később a kockázatbecslések alapjaként. A vizsgált populációból kiválasztunk bizonyos számú vizsgálati egységet, amiket ténylegesen is megvizsgálunk, ezek alkotják a mintát. Rétegezett mintavétel (egylépcsős mintavétel): - a sokaság adott ismérvek szerint csoportokba van rendezve, - majd egyszerű véletlen mintát veszünk a csoportokból. A fentiek csak a monitoring célú mintavételek kis részére igaz. Bár nincs rögzített arány, de később kb. 25% lesz az ilyen, véletlenszerű, és 75% a kockázatalapú mintavétel - önkényes kiválasztással, azaz a felvételt végző személy szakmai ismereteire támaszkodva választják ki a mintát.
A Hivatalok mintavételezési hibáinak okai A mintaszámok és a véletlenszerű kiválasztás • - gazdasági, • - logisztikai, • - munkaszervezési
okokból felülíródnak.
A hibák statisztikai következményei
• • • •
Mi történik, ha a tervezettnél kevesebb mintát veszünk? Mi történik, ha nem az előírt hónapban vesszük a mintát? Mi történik, ha nem az előírt élelmiszerlánc-pozícióban vesszük a mintát? Mi történik, ha előre tudja a megmintázandó, hogy mintát vesznek tőle? – élelmiszer-áruházláncok problematikája
A hibák statisztikai következményei • Mi történik, ha a tervezettnél kevesebb mintát veszünk? pozitivitás pozitivitás 14 14 12 12 10 10
8
8
pozitivitás 14 12 10
6
8
4
4 2
pozitivitás 6 4
2 0
2
0
0
6
• –> a hiba megnő, a megbízhatósági intervallum szélesedik
pozitivitás
A hibák statisztikai következményei • Mi történik, ha nem az előírt hónapban vesszük a mintát? pozitivitás pozitivitás 14 14 12 12 10 10
8
8
pozitivitás 14 12 10
6
8
4
4 2
pozitivitás 6 4
2 0
2
0
0
6
• –> a hiba megnő, a megbízhatósági intervallum szélesedik
pozitivitás
A hibák statisztikai következményei • Mi történik, ha nem az előírt élelmiszerlánc-pozícióban vesszük a mintát? pozitivitás 14 12 10 8 6 4 2 0
– nem lesz reprezentatív a mintánk
tejgazdaság kiskereskedő nagykereskedő
A hibák statisztikai következményei
• Mi történik, ha előre tudja a megmintázandó, hogy mintát vesznek tőle? – élelmiszer-áruházláncok problematikája
– nem lesz reprezentatív a mintánk
A monitoring mintavétel céljainak veszélyeztetése a hibák által
• hibás következtetések a magyar mezőgazdaság állapotáról; • hibás kockázatbecslések – monitoring-tervek; • rosszabb pozíciók a nemzetközi piacokon; • rossz stratégiai irányok kijelölése; • gazdasági, politikai, társadalmi feszültségek keltése.
Összefoglalás Egy monitoring mintavétel akkor teljesíti az elvárásokat, ha - reprezentatív – jól jellemzi az alapsokaságot, - kiszámítható (megbecsülhető) az állítások igazságtartalma – azaz a hibák valószínűsége; Ezért nem szabad: - a terveket szabadon felülbírálni, - a nehézségeket a szakszerűség rovására megoldani.
Felhasznált irodalom
• Dr. Dukáti Ferenc: Termékek megfelelőségének matematikai statisztikai ellenőrzése (BME Továbbképző Intézete) • Kehl Dániel – dr. Rappai Gábor: Mintaelemszám tervezése Likertskálát alkalmazó lekérdezésekben (Statisztikai Szemle, 84. évfolyam 9. szám) • Lehota József : Marketingkutatás az agrárgazdaságban (Mezőgazda Kiadó) • Szelezsán János: Valószínűségszámítás és matematikai statisztika (LSI Oktatóközpont)
Köszönöm a figyelmüket!