TDK-dolgozat
Szilágyi Tímea BA
2012
A reprezentatív kutatások megbízhatóságának vizsgálata és lehetséges hibáinak feltárása
Representative of the reliability of research and exploration of possible errors
Kézirat lezárása: 2012.november 09.
Szilágyi Tímea A reprezentatív kutatások megbízhatóságának vizsgálata és lehetséges hibáinak feltárása Representative of the reliability of research and exploration of possible errors
A világ szinte bármely területén találkozhatunk statisztikai adatokkal. Gyakran használjuk ezeket mondanivalónk alátámasztására, tudományosan megalapozott szintre emelve. Azt gondolhatjuk, így nagyobb jelentőséget tulajdoníthatunk neki, vagy jobb benyomást kelthetünk. De valóban tudományosan megalapozott lenne? Mi biztosította a minta reprezentativitását, milyen tényezőket vettek figyelembe? Honnan tudjuk, hogy megbízható forrásból származnak-e? Ha igen, akkor milyen mértékű hibát tartalmaznak? Ezeken kívül még számtalan kérdés felmerülhet bennünk. A munkám során szeretném ezen kérdések megválaszolását kifejteni. Különös hangsúlyt fektetek a nem körültekintően elkészített statisztikai következtetések használatának veszélyeire. Megvizsgálom, milyen feltételeknek kell érvényesülnie, hogy minőségi eredményt kapjunk a kutatás során. Sorra veszem a különböző megbízhatósági vizsgálatok alkalmazását, és azok hatásait. Ezek feltárása közben különböző valószínűségi-számítást és matematikai statisztikai módszereket is alkalmazok. Továbbá rávilágítok, milyen lehetséges hibákat követhetünk el, milyen hibaszámítási módszerek léteznek. Így az írásomban megjelennek a mintavételi eljárással kapcsolatos kételyek, ezek negatív hatásai. Külön-külön feltárom a nem mintavételi eljárásokkal kapcsolatos problémákat (válaszadási, nem válaszolási, végrehajtási, feldolgozási és lefedési hibákat). Ezeken túl sorra veszem a hipotézisvizsgálat során az első és másodfajú hiba elkövetésének lehetőségeit. Az utolsó részben pedig megpróbálom a következtetéseimet összegezni, mind a nem reprezentatív kutatások kiszűrésére, mind a becslési és egy egyéb hibaszámítási módszerek kiküszöbölésére.
Szilágyi Tímea Representative of the reliability of research and exploration of possible errors A reprezentatív kutatások megbízhatóságának vizsgálata és lehetséges hibáinak feltárása
Statistical data can be found almost everywhere around the world. We often use them to academically support what we want to say, in order to make it seem more important, or to make a better impression on others. But do statistical data really provide academic support? What ensured the representativity of the sample, what kinds of factors were taken into consideration? How do we know that these data stem from reliable sources, and even if they do, to what extent do they contain errors? In addition to the previously mentioned questions, a lot more can occur to us concerning the representative researches. In the course of my work I would like to discuss the answers to these questions, putting a special emphasis on the risks of the use of not carefully statistical conclusions. I am going to examine what requirements are needed to get quality results during a research. I am going to list the application and the effects of the different reliability analyses as well, using a variety of probability calculations and mathematical statistical methods. Furthermore I am going to reveal the possible errors we can make and the existing error analysis methods. As a result the doubts and their negative effects regarding sampling procedures appear in my writing. I am going to separately detail the problems that are not directly connected to the sampling procedures – answering, non-answering, executive, processing and covering errors. Moreover, I am going to list the possibilities of committing errors of the first and the second kind during hypothesis analysis. Finally, I am going to try to sum up my conclusions in order to filter out the nonrepresentative researches and to eliminate the estimational and other error analysis methods.
Tartalomjegyzék I.
BEVEZETÉS ............................................................................................. 1. oldal
II.
REPREZENTATIVITÁS, MINTAVÉTELI ELJÁRÁSOK................. 2. oldal 2.1. Mintavételi eljárások ...................................................................... 3. oldal 2.1.1. Véletlen mintavételi technikák .............................................. 4. oldal 2.1.1.1.
Egyszerű véletlen minta ....................................... 4. oldal
2.1.1.2.
Szisztematikus mintavétel .................................... 5. oldal
2.1.1.3.
Rétegzett mintavétel ............................................. 5. oldal
2.1.1.4.
Csoportos mintavétel ............................................ 6. oldal
2.1.1.5.
Többlépcsős mintavétel ........................................ 6. oldal
2.1.2. Nem véletlen mintavételi technikák ...................................... 6. oldal
III.
2.1.2.1.
Önkényes mintavétel ............................................ 6. oldal
2.1.2.2.
Koncentrált mintavétel ......................................... 7. oldal
2.1.2.3.
Kvótás mintavétel ................................................. 7. oldal
2.1.2.4.
Hólabda mintavétel............................................... 7. oldal
MINTAVÉTELI ÉS NEM MINTAVÉTELI HIBÁK ........................... 7. oldal 3.1. Nem mintavételi hiba....................................................................... 7. oldal 3.1.1. Lefedési hiba .......................................................................... 8. oldal 3.1.2. Mérési hiba ............................................................................ 8. oldal 3.1.3. Feldolgozási hiba ................................................................... 9. oldal 3.1.4. Nem válaszolási hiba ............................................................. 10. oldal 3.2. Mintavételi hiba ............................................................................... 11. oldal 3.2.1. Standard hiba ......................................................................... 11. oldal
IV.
3.2.1.1.
Egyszerű véletlen mintavétel hibája .................. 11. oldal
3.2.1.2.
Rétegzett mintavétel hibája ................................ 12. oldal
MINTAVÉTELEK MEGBÍZHATÓSÁGA ........................................... 13. oldal 4.1. Becslés ............................................................................................... 13. oldal 4.2. Hipotézisvizsgálat ............................................................................ 15. oldal 4.2.1. A hipotézisvizsgálat menete .................................................. 16. oldal 4.2.2. A hipotézisvizsgálat során elkövethető hibák ........................ 19. oldal 4.2.2.1.
Az első- és másodfajú hiba vizsgálata gyakorlati példán keresztül ..................................................................... 21. oldal
4.2.2.1.1. Az első- és másodfajú hiba elkövetésének vizsgálata az F-próbán keresztül .................................... 21. oldal 4.2.2.1.2. Az első- és másodfajú hiba elkövetésének vizsgálata a χ2-próbán keresztül ..................................... 26. oldal V.
ÖSSZEGZÉS ............................................................................................. 31. oldal
IRODALOMJEGYZÉK....................................................................................... 32. oldal
TÁBLÁZATOK ÉS ÁBRÁK JEGYZÉKE 1. táblázat: A hipotézisvizsgálat során elkövethető hibák (és azok elkövetési valószínűsége) ............................................................................................. 20. oldal 2. táblázat: A vizsgált 17 ország adatai ........................................................... 21. oldal 3. táblázat: Coefficiens táblázat ...................................................................... 23. oldal 4. táblázat: Variancia-analízis táblázat 17 elemű minta esetében ................... 24. oldal 5. táblázat: Variancia- analízis táblázat 119 elemű minta esetében ................ 26. oldal 6. táblázat: A χ2-póróba kiszámítása 17 elemű minta esetében ...................... 28. oldal 7. táblázat: A χ2-póróba kiszámítása 119 elemű minta esetében .................... 30. oldal 1. ábra: Mintavételi technikák ......................................................................... 4. oldal 2. ábra: A torzítatlanság és a pontosság kapcsolata ........................................ 15. oldal 3. ábra: Kétoldali kritikus tartomány .............................................................. 17. oldal 4. ábra: Bal oldali kritikus tartomány.............................................................. 18. oldal 5. ábra: Jobb oldali kritikus tartomány ............................................................ 18. oldal 6. ábra: Az F-próba döntési ábrája 17 elemű minta esetében ......................... 25. oldal 7. ábra: Az F-próba döntési ábrája 119 elemű minta esetében ....................... 27. oldal 8. ábra: A χ2-próba döntési ábrája 17 elemű minta esetében .......................... 29. oldal 9. ábra A χ2-próba döntési ábrája 119 elemű minta esetében ......................... 31. oldal
I.
Bevezetés
Nap, mint nap találkozunk statisztikai adatokkal, akár újságot olvasunk, akár televíziót nézünk vagy rádiót hallgatunk. Mi magunk is gyakran élünk velük mondanivalónk alátámasztására. Számadatok felhasználásával úgy tűnhet érvelésünk statisztikán alapul. Így azt gondolhatjuk ettől még érdekesebbnek, még inkább jelentőségteljesebbnek tűnik mondandónk, nagy befolyással lehet másokra. De valóban tudományosan megalapozott állításokról van szó? Ehhez először is fogalmazzuk meg, mit is jelent a statisztika. „Ez egy gyakorlati tevékenység a tömegesen előforduló jelenségek egyedeire vonatkozó információk gyűjtésére, feldolgozására és elemzésére, illetve ennek alapján a vizsgált jelenség egészének tömör, számszerű elemzésére szolgál.” (Domán Csaba-Szilágyi Roland- Dr. Varga Beatrix: Statisztikai elemzések alapjai I. [2009.] 11. oldal) Miután ezt tisztáztuk, nem árt meggyőződnünk arról, hogy honnan is származnak ezen információk, statisztikai adatok. Meghatározásuknál figyelembe vették-e a legfontosabb kérdéseket, hogy minőségi következtetéseket kapjunk? Először is, amiről szó van, amit vizsgálni kívánunk, az mérhető-e, lehet-e operacionalizálni? Például: ha a hajdúsítását kívánjuk alátámasztani érvekkel, igencsak nehéz megállapítani, mi számít dús hajnak, és mi az, ami nem. Ez nem kézzelfogható, vagyis
operacionalizálhatatlan.
Ha
egy
másik
példát
vizsgálunk,
például
a
Magyarországon élő túlsúlyos emberek arányát szeretnék megállapítani, akkor először is tisztázni kell a fogalmát, számszerű adatokkal alátámasztani, illetve meg kell határozni, hogy milyen tényezők hatnak rá. Ezt követően, fontos megvizsgálni a felmérés módját. Kiket kérdeztünk meg a kutatás során? Az egész alapsokaságot, vagy csak egy részét? Azt sem mindegy, hogy mekkora a reprezentativitás mértéke. Figyelembe kell venni azon szempontot is, hogy a kérdések mennyire elfogultak, tartalmazzák-e a számomra kívánatos választ? Végső soron pedig felmerül bennünk, mennyire megbízható a felmérés, milyen megbízhatósági szintet és hibahatárral dolgoztunk a vizsgálódás során. A dolgozatom első részében sorra veszem a véletlen mintavételi és nem véletlen mintavételi technikák egyes típusait. A fogalmának meghatározásán túl megpróbálom konkrét példákkal is illusztrálni. Így szót ejtek az egyszerű véletlen, szisztematikus és
1
rétegzett mintavételek közötti különbségekről, továbbá a kérdőív készítés alapjául szolgáló önkényes, koncentrált, kvótás és önkényes mintavételi eljárásokról is. A következő fejezetben a korábban vizsgált mintavételi és nem mintavételi technikák lehetséges hibáit tárom fel. Első körben szintén a kérdőívkészítéssel és feldolgozással kapcsolatos nem mintavételi hibák kerülnek bemutatásra. Sorra veszem a lefedési, a mérési, a feldolgozási, és a nem válaszolási hibákat, valamint azt, hogyan kerülhetjük el ezeket, vagy csökkenthetjük a mértéküket. Ezt követően a mintavételi hibák során a standard hiba vizsgálata kerül előtérbe különböző mintavételi technikákon keresztül. Az utolsó részben a mintavétel megbízhatóságának kérdésével foglalkozok. Egyik fontos meghatározója a becslések torzítatlansága, pontossága, hatásossága és konzisztenciája. Ezek meghatározásán túl tisztázom a becsléssel kapcsolatos alapfogalmakat, és rövid példán keresztül be is mutatom. Inkább a hipotézisvizsgálatra helyezek nagyobb hangsúlyt. Sorra veszem általánosságban a hipotézisvizsgálat menetét, majd a hipotézisvizsgálat során elkövethető hibákat. Továbbá gyakorlati példán keresztül két próbafüggvény segítségével végigvezetem az első- és másodfajú hiba elkövetésének valószínűségét. Végül összegzem a reprezentatív kutatások megbízhatóságáról megfogalmazott következtetéseimet, a vizsgálat során elkövetett hibákat értékelem, és lehetséges megoldásokat javasolok. II.
REPREZENTATIVITÁS, MINTAVÉTELI ELJÁRÁSOK Egy sikeres és megbízható kutatás legfontosabb kulcspontjának a felhasznált
adatok információtartalmának megbízhatósága kell, hogy legyen. Ehhez az egyik szempont, amit figyelembe kell vennünk az a megfigyelés köre. A statisztikai megfigyelés kiterjedhet a statisztikailag vizsgálandó jelenségek vagy folyamtok teljességére,
egy-egy
kiválasztott
egyedére
vagy
részére.
Ennek
megfelelően
megkülönböztetünk tehát: •
teljes körű,
•
egyedi, vagy monografikus,
•
reprezentatív megfigyelést.
2
A dolgozatomban egyértelműen a reprezentativitás játssza a főszerepet, de a teljesség igénye nélkül röviden szót ejtek a többi megfigyelési körről is. A teljes körű statisztikai megfigyelés a sokaság minden egyes tagjára kiterjed, Mivel széleskörű a vizsgálat, ezért túl költséges, időigényes, nehezen hozzáférhető, és körülményes az ellenőrzése. Ezzel szemben a monografikus, vagy egyedi megfigyelés a sokaságnak egy-egy meghatározott egységét választja ki, tulajdonképpen a kiemelkedő vagy tipikus példák egyedi vizsgálata. Alapos statisztikai elemzések alá vetik az egyedet, ugyanis így rávilágíthatunk az eredmények alakulásának miértjére, illetve a meglévő hibák okaira. A legelterjedtebb eljárás a reprezentatív vagy képviseleti megfigyelés. Ebben az esetben a vizsgált egyedeknek vagy jelenségeknek csak egy kiválasztott részét figyeljük meg, amely alapján a kapott összefüggéseket, megállapításokat jellemzőnek tekintjük az egész sokaságra. Ezt a módszert leginkább az határozza meg, hogy az egységek kiválasztásánál hogyan jártunk el. Alapvető szabályként a reprezentatív módszer alkalmazásánál a mintába kerülő egyedek kiválasztását olyan módszerrel kell elvégezni, amely minden tendencia érvényesülését eleve kizárja. Attól függően, hogy ez a követelmény hogyan érvényesül a mintavételnél, több módszert különböztetünk meg, melyeket a későbbiek során részletesebben bemutatok. 2.1. Mintavételi eljárások A mintavételnél meg kell határoznunk azt a részsokaságot, amire a vizsgálat kiterjed, illetve meg kell választani azt a mintavételi technikát, amely megfelelő reprezentativitást biztosít az alapsokaságra nézve. A kiválasztás során azonban figyelembe kell venni, hogy nem mindegy, kik kerülnek a mintába. Fontos, ha önkényesen határozzuk meg a bekerülendő egyedeket, akkor a saját elképzeléseinket fogják tükrözni a vizsgálatok. Ezért a tudományos alaposságú mintavétel leggyakrabban alkalmazott típusa az úgynevezett valószínűségen alapuló mintavétel. Ennek az egyik legfontosabb sajátossága az, hogy a vizsgálandó csoport minden egyes tagjának egyenlő esélyt kell biztosítani, hogy a mintába bekerüljön. Ezek alapján megkülönböztetünk valószínűségen alapuló, vagyis véletlen mintavételi technikákat, és nem valószínűségen alapuló, másnéven nem véletlen mintavételi technikákat. Ezek további csoportosítása a következő: 3
Mintavételi technikák
Nem véletlen mintavételi
Önkényes mintavétel
Koncentrált mintavétel
Kvótás mintavétel
Egyszerű véletlen mintavétel
Véletlen mintavételi technikák
Hólabda mintavétel
Szisztematikus mintavétel
Rétegzett mintavétel
Csoportos mintavétel
Többlépcsős mintavétel
Egyéb mintavételi technikák
1. ábra: Mintavételi technikák Forrás: Domán Csaba-Szilágyi Roland-Dr. Varga Beatrix: Statisztikai elemzések alapjai II. ([2009.] 9. oldal) 2.1.1. Véletlen mintavételi technikák Annak érdekében, hogy a minta adatainak elemzése során alkalmazni lehessen a valószínűség-számítás
összefüggéseit,
a
mintát,
és
ezáltal
a
minta
egyedeit
véletlenszerűen kell megválasztani. A véletlen mintavételt továbbbonthatjuk aszerint, hogy ismétléses (visszatevéses) vagy ismétlés nélküli (visszatevés nélküli) kiválasztásról van szó. Ismétlés nélküli kiválasztásról, akkor beszélünk, ha a már egyszer kiválasztott elemet a továbbiakban már nem használhatjuk fel. Ismétléses eljárás alatt pedig azt értjük, hogy a már egyszer kiválasztott elem is részt vesz minden további kiválasztásban, mégpedig egyenlő valószínűséggel. Természetesen nem beszélhetünk a visszatevés lehetőségéről, ha a vizsgálat vagy a mérés természete lehetetlenné teszi ezt. (Például: az autók töréstesztje.) 2.1.1.1. Egyszerű véletlen minta Az egyszerű véletlen mintavétel során egy „N” elemből álló sokaság minden elemének egyenlő esélyt biztosítunk a mintába való bekerülésre. Ha a minta nagysága előre rögzített és a sokaság nagysága is ismert, akkor egy elem bekerülési valószínűsége e két szám hányadosa. 4
Az egyszerű véletlen kiválasztás lényegét tekintve „sorsolást” jelent. Ennek több gyakorlati megvalósítási lehetősége van. A legcélravezetőbb a véletlen számok használata. Régebben ehhez általában véletlenszám-táblázatot használtak, ma már inkább a személyi számítógépekbe eleve beépített véletlenszám-generátort használják az egyszerű véletlen mintavételezéshez. Ha egy egyszerű példán keresztül szeretném szemléltetni ezt az eljárást, akkor ezt legkönnyebben a pénzérme feldobásával tudom megtenni. Ebben az esetben a mérésnek két kimenetele lehet: fej vagy írás. A feldobást ismételve minden egyes alkalommal a pénzérme bármelyik oldala kerülhet felülre. A minta elemszámát pedig az fogja meghatározni, hogy hányszor ismételtem meg a műveletet. 2.1.1.2. Szisztematikus mintavétel Az eljárás lényege, hogy a sokaság egyedeit bizonyos rendben rögzítjük és egymástól egyenlő távolságra álló egyedeket választunk ki. A szisztematikus kiválasztás történhet lista-, térkép alapján vagy bizonyos időközök alapján. Ha a lista a vizsgált ismérv szerint véletlenszerűen van sorba rendezve, akkor a szisztematikus kiválasztás egyenértékű a véletlen kiválasztással. Ha feltételezzük, hogy az eljárás során a teljes sokaság minden kadik elemét választjuk a mintába, akkor fontos a véletlen kezdőpont használata, vagyis 1 és k szám között választunk ki egy kezdőpontot. Ennek a módszernek a veszélye a ciklikusság, ugyanis ekkor előfordulhat, hogy bizonyos elemek nem kerülnek be a mintába. Például: ha az ültetés úgy történik, hogy minden férfi mellé, egy nőt ültetünk (vagyis1. fiú, 2. lány), és minden második illetőt vizsgálunk, akkor a mintánkba csak nők fognak bekerülni. 2.1.1.3. Rétegzett mintavétel A módszer elsődleges célja, hogy az eredetileg heterogén alapsokaságot valamely változó értékei szerint homogénebb részhalmazokra bontsuk. Ezután az egyes rétegeken belül egyszerű kiválasztást hajtunk végre oly módon, hogy végeredményben az egyes csoportokból kiválasztott elemek összessége a kívánt nagyságú minta legyen. Például ha kutatásaim során nemcsak országos adatokra van szükségem, hanem meg akarom vizsgálni az egyes települések foglalkoztatottságát, akkor meghatározok bizonyos nagyságkategóriákat, hogy az azonos lakossággal, és feltételekkel rendelkező városokat hasonlítsam össze. 5
2.1.1.4. Csoportos mintavétel Csoportos mintavétel esetén a kiválasztáskor egyszerű véletlen mintavétellel előállítunk egy elsődleges mintavételi egységet, amelyből kiválaszthatjuk a másodlagos mintavételi egységet. Ezt akkor célszerű alkalmazni, ha az elsődleges egységek heterogének. Például ha városok lakosai közül kell mintát venni. Bár nincsen lista egy város teljes lakosságáról, az emberek azonban elkülönülő számlálókörzetekben laknak. Ezért aztán megtehetjük, hogy először kiválasztunk valamennyit a számlálókörzetek közül, elkészítjük a bennük lakók névsorát, majd mintát veszünk az egyes listákról. 2.1.1.5. Többlépcsős mintavétel Többlépcsős mintavételről akkor beszélhetünk, amikor lehetetlen teljes körű felsorolást készíteni a sokaságról. Ebben az esetben egymás után többször alkalmazzuk a két alaplépést: a listakészítést és a kiválasztást. Elkészítjük az elsődleges mintavételi egységek felsorolását, melyet rétegezhetünk is. Az egységek közül mintát veszünk. Felsoroljuk a beválasztott elsődleges mintavételi egységek elemeit, ezeket is rétegezhetjük, ha akarjuk. Ezt követően mintát veszünk a másodlagos mintavételi egységek közül is, és így tovább. Például: Magyarország könyvtárainak taglistájából szeretnénk valamit megtudni az olvasókról. Első lépés: mintát veszünk a könyvtárak közül (pl. szisztematikus minta, bekerül minden 10-dik könyvtár neve). Második lépés: a kiválasztott könyvtárak tagjairól listát kérünk, és azokból mind veszünk mintát. Itt is be lehet vezetni a rétegzést, pl. a taglistánál gyermek és felnőtt olvasókat szétválasztjuk. 2.1.2. Nem véletlen mintavételi technikák Bizonyos helyzetekben elkerülhetetlen az alkalmazásuk, amikor nem áll módunkban statisztikai szempontból korrektebb mintavételt végezni. A véletlen mintavételi eljárásokkal szemben az előnye, hogy gyors és költséghatékony, viszont kevésbé megbízhatóbb. A teljesség igénye nélkül gyors áttekintést adok a fajtáiról. 2.1.2.1. Önkényes mintavétel Ennél az eljárásnál, egyszerűen elérhető alanyok kerülnek a mintába, akik a kutató rendelkezésére állnak. Például: egy meccs előtt sorban állva megkérdezett 100 szurkoló véleménye, akik épp szembe jöttek a pénztárnál. A módszer hátránya, hogy nem reprezentatív. 6
2.1.2.2. Koncentrált mintavétel A vizsgálat szempontjából a legfontosabb elemek kerülnek a mintába. Például: a vezérszurkolókat akarom megkérdezni valamiről, és ezért mindig nagydarab, kigyúrt, kopasz személyeket választok a mintába, mert sejtéseim szerint ők azok. 2.1.2.3. Kvótás mintavétel A kvótás mintavételi eljárás alapja az ún. kvótamátrix, mely a célpopuláció összes jellemzője szerint sorolja táblázatba az elemeket. Ehhez meg kell határozni a kategóriákat és azok arányát a populációban. Például a nők-férfiak, pályakezdők-régóta a pályán lévők aránya az adott munkahelyen. 2.1.2.4. Hólabda mintavétel Ezt a módszert akkor használjuk, amikor nehéz a populáció tagjait körülhatárolni, néhány személytől gyűjtünk adatokat és megkérjük, ajánljanak másokat a vizsgálathoz. Feltáró célra alkalmas (pl. etnikai kisebbségek). III. MINTAVÉTELI ÉS NEM MINTAVÉTELI HIBÁK Gyakran találkozhatunk a mindennapokban azzal a fogalommal, hogy statisztikai hiba. De mit is értünk ezalatt? A fogalom magába foglalja a mintavételi és nem mintavételi hibákat egyaránt. A kettő között a legnagyobb különbség, hogy még az előbbi oka a részleges adatfelvétel lehet, addig az utóbbi emberi mulasztásra vezethető vissza. Továbbá azt is fontos megállapítani, míg a mintavételi hiba matematikai-statisztikai eszközökkel
becsülhető,
addig
a
nem
mintavételi
hiba
nehezen
mérhető,
számszerűsítésére kizárólag a szakirodalomban található empirikus adatokra, illetve saját tapasztalatainkra hagyatkozhatunk. Azonban mindkét eset mérsékelhető a megfelelő mintavételi terv elkészítésével és a mintavételi mód megalapozott kiválasztásával. Erről a későbbiekben szólnék többet, most megvizsgálom a két hibatípus további altípusait, és elemzem őket. 3.1. Nem mintavételi hiba A nem mintavételi hibák a mintavételen kívüli, egyéb forrásokból erednek, és véletlen vagy nem véletlen jellegűek lehetnek. A nem mintavételi hiba lényegében a következő három forrásból adódhat: 7
•
a vizsgálni kívánt sokaságról nem állnak rendelkezésre pontos információk, a mintavételi keret nem tökéletesen fedi le a célsokaságot, nem sikerül a megfigyeléseket a mintavételi terv szerint végrehajtani; megtagadás vagy egyéb okok miatt a felvétel hiányos;
•
az egyedi válasz, mérés, megfigyelés valamilyen okból kifolyólag pontatlan;
•
a hibák adódhatnak a kódolás, az editálás, a táblázás stb. során1
A nem mintavételi hibák csoportosítása különböző szempontok szerint más és más lehet. Én a dolgozatomban az alábbi tematika szerint fogom sorra venni őket: •
Lefedési hiba
•
Mérési hiba
•
Feldolgozási hiba
•
Nem válaszolási hiba
3.1.1. Lefedési hiba A lefedési hiba általában az alapsokaság meghatározásából fakad, ami a felmérés szempontjából releváns, tényleges sokaság és a kutató által meghatározott sokaság közötti eltérésként definiálható. A lefedési hiba származhat kihagyásokból, többszörös számbavételekből vagy téves számbavételből. Figyelembe kell venni azt is, hogy különböző problémák rejtve maradnak, azokat feltárni csak nagyon nehezen lehet, közvetett módszerekkel. Például: a népszámlás hiányos címlistái. A lefedési hiba abból is eredhet, hogy a kutató által meghatározott alapsokaság és a mintavételi lista által érintett alapsokaság között eltérések tapasztalhatók. Ezt a mintavételi keretből eredő hibának nevezik. Ilyen eset gyakran előfordul helytelen, hibás regiszterek esetén, amikor a kijelölt cím nem létezik, vagy ott nem található meg a keresett megfigyelési egység. Az, hogy a mintavételi keret milyen jól, mennyire pontosan fedi le a vizsgált sokaságot, befolyásolja az eredmények megbízhatóságát, növeli a nem mintavételi hiba mértékét. Továbbá döntő befolyással van a minta reprezentativitására. 3.1.2. Mérési hiba A mérési hiba úgy definiálható, mint a változó megfigyelt és a valós értéke közötti különbség. Ebben az esetben is megkülönböztethetünk véletlen és szisztematikus mérési 1
Dr. Marton Ádám: A reprezentatív felvételek megbízhatósága [1991.] 65. oldal
8
hibákat. Képzeljünk el egy céltáblát, amelyen a találatok a középpont körül szóródnak. Sem véletlen hibát, sem szisztematikus hibát nem hordoz. Amennyiben a lövések egy adott pont körül szóródnak, de ez a pont nem a céltábla közepe, az utóbbi esettel állunk szemben. Azonban ha az egész céltáblán szétszórtan helyezkednek el a találatok, a véletlen hiba mértéke magas. Most pedig ezen túlmenően vizsgáljuk meg, hogy a mérési hibák forrása milyen négy alapvető tényező köré csoportosítható: •
a kérdőív, mint a keresendő információk bemutatásának eszköze;
•
az adatgyűjtési módszer, mint a keresendő információ megszerzésének módszere;
•
a kérdező, mint a kérdések feltevője, az információ megszerzője (kivéve az önkitöltős kérdőívek esetében);
•
a válaszadó, mint a kérdések befogadója, az információ szolgáltatója.
A kérdőív olyan hibákat hordozhat magában, mint a kérdés megfogalmazása, a kérdések hossza, magának a kérdőívnek a hossza, a kérdések sorrendje, válaszkategóriák, nyitott és korlátozott válaszlehetőségek megadása. A különböző adatgyűjtési technikák sajátos hibaforrásokat rejtenek magukban. A kérdezőbiztos személye nagy befolyással lehet az eredményre. Fontos az illető tapasztalata, megjelenése, ugyanis nem mindegy milyen stílusban teszi fel a kérdést, másmás reakciót válthat ki a válaszadóból. Továbbá problémát jelenthet a helytelenül feltett kérdés, ha más szavakat használ, vagy nem szerez többletinformációt, holott szükséges lenne. Felmerülhet még a válaszok meghamisítása vagy rögzítési, illetve a válaszadó megválasztásából eredő hiba. Végül pedig vizsgáljuk meg a válaszadókat. Ebben az esetben a hiba forrása lehet a pontatlan válaszolás, ha például: nem áll megfelelő tudás birtokában. Ezenkívül még lehetséges a válasz megtagadása is, akár önszántából, akár akaratán kívül (például: nem beszéli a nyelvet). 3.1.3. Feldolgozási hiba A feldolgozási hiba az adattal végzett valamennyi munkafolyamatban keletkezhet, a rögzítéstől a teljeskörűsítésig. Például: elveszett postai kérdőív, tévesen jelölt kódszám, gépi adatrögzítés hibái. 9
A rögzítés során, akár manuálisan, akár géppel történik, könnyen előfordulhat, hogy elírunk egy adatot, rosszul visszük fel a rendszerbe, stb. A különböző irányított kérdésekre adott válaszok kódolása szintén nagy rizikófaktor, a kódszámok összekeverhetők, emellett a helytelen skálázás alkalmazása és a hiányzó értékek megfelelő kezelése is problémát okozhat. A hiányzó adatok pótlására alkalmazott módszerek szintén kellő körültekintést igényelnek, hiszen a végeredményekre gyakorolt hatásuk jelentős lehet. 3.1.4. Nem válaszolási hiba A nem mintavételi hiba egyik leggyakoribb formája, így nem véletlen, hogy megannyi publikáció során foglalkoztak már vele. A nem válaszolási hiba akkor merül fel, ha néhány, a mintában szereplő válaszadó nem válaszol. A visszautasítás és az elérés hiánya az elsődleges okai a nem válaszolásnak. Emellett azonban további tényezők is generálhatnak nem válaszolás okozta adathiányt. Ezeket csoportosíthatjuk úgy, hogy: •
Egyszerű, de nem ritka oka lehet a nem válaszolásnak az, hogy a keresett személy (átmenetileg) nem található meg. Leggyakrabban azért, mert nem tartózkodik otthon.
•
Az is fontos eset, amikor a kérdezett nem képes válaszolni a kérdésekre. Ez leginkább olyan esetekben fordul elő, amikor személyes megkérdezéskor a megkérdezett nincs a kellő információk birtokában, azoknak utána kell néznie, régi, kéznél nem levő dokumentumokat kell beszereznie stb.
•
A leglényegesebb azonban mindezeken túl az a helyzet, amikor a megkérdezett szándékosan megtagadja a válaszadást. Ez történhet egyszerűen a kérdőívtől vagy az interjútól való általános viszolygásából, bizalmatlanságból, abból, hogy sajnálja rá az időt és a fáradságot, de leggyakrabban abból, hogy bizonyos kényes kérdésekre jól vagy rosszul felfogott érdekét szem előtt tartva nem kíván válaszolni. Ilyen kényes kérdések lehetnek a faji, vallási hovatartozásra, egészségi állapotra, vagy manapság kiváltképp jellemző módon a jövedelmi illetőleg vagyoni helyzetre vonatkozó kérdések. (Hunyadi –Vita [2002.] )
10
Annak, ha nem sikerül utolérnünk az illetőt, természetesen rendkívül sok oka lehet a regiszterek hibáiból adódó nem valós címektől kezdve az ismeretlen címre való költözésen keresztül a sikertelen kapcsolatfelvételig. Mivel ezekről a személyekről semmit sem tudunk, így nem tudjuk megbecsülni válaszolási hajlandóságukat sem. 3.2. Mintavételi hiba A mintavételi hiba a vizsgált mutató lehetséges mintákból számított értékeinek átlagos eltérését mutatja a megfelelő sokasági értékből. Ez a sokaság jellegén, az alkalmazott mintavételi eljáráson és a szóban forgó mutatószám fajtáján túlmenően alapvetően a minta nagyságától függ. A valószínűségi mintavétel módszereivel nyert statisztikák ritkán egyeznek meg pontosan annak a paraméternek az értékével, amelyet velük megbecsülni kívánunk. A valószínűség számítás segítségével azonban megbecsülhetjük, hogy milyen mértékű hiba várható a szóban forgó eljárás használatakor. A véletlen mintavételi hiba alapvető tulajdonságai a következőkben foglalhatók össze: •
csökken a mintanagyság növekedésével (de nem egyenesen arányosan),
•
függ a vizsgált sokaság nagyságától,
•
függ a megismerni kívánt jellemző szóródásától,
•
mérhető és kontrollálható véletlen mintavétel esetén,
•
csökkenthető egy megfelelő mintavételi terv elkészítésével, megfelelő mintavételi mód kiválasztásával.2
3.2.1. Standard hiba A mintavételi hiba nagyságát az úgynevezett standard hiba mértékével, illetve ennek az átlag százalékában kifejezett relatív nagyságával lehet jellemezni. A valószínűség számításban értékes információ a standard hiba, mert megmutatja, milyen mértékben szóródnak a mintabecslések a populációs paraméter körül. Ha valakinek a statisztikából ismerős a szórás fogalma, az észreveheti, hogy a standard hiba ebben az esetben a mintaeloszlás szórása. 3.2.1.1. Egyszerű véletlen mintavétel hibája 2
www.statcan.ca: Power from Data (2012. 10. 20.)
11
A standard hiba mértéke az alábbi tényezőktől függ •
a minta nagysága (n)
•
a teljes sokaság (N)
•
a mintából becsült szórás (s)
Ezen tényezőkkel a standard hiba a következő képlet segítségével számítható ki:
√ Mindkét esetben a
1
1
egy korrekciós tételt jelöl, amely értéke 1-nél mindig kisebb,
és a visszatevés nélküli kiválasztás miatt kell. 3.2.1.2. Rétegzett mintavétel hibája Az alapsokaság átlagának a mintára támaszkodó becslése a következő tényezőktől függ: •
a minta nagyságától,
•
a sokaság méretétől,
•
a vizsgált jellemző szóródásától,
•
az alapsokaság homogén vagy heterogén jellegétől, mely a rétegenkénti szórások nagyságában jut kifejezésre.
A standard hiba nagysága - a mintaátlagok szórása – a következő képletek alkalmazásával számítható: 1
ahol a korrekciós tényező:
1
Továbbá: •
Nj az elemek száma az alapsokaság j-edik rétegében; a j-edik réteg nagysága,
•
L a rétegek száma,
•
nj a j-edik rétegből kiválasztott minta elemeinek száma,
•
∑
=N az alapsokaság összes elemeinek száma, 12
•
az átlagbecslés standard hibájának négyzete3
Ezek alapján megállapítható, hogy a standard hiba nagysága az alapsokaság elemeinek rétegen belüli szóródásától függ. Ebből következik, hogy minél több és minél homogénebb réteg kerül kialakításra, annál nagyobb lesz a becslés pontossága. IV. MINTAVÉTELEK MEGBÍZHATÓSÁGA A dolgozatom során a statisztikai adatok megbízhatóságát tekintve, már megvizsgáltam a reprezentativitás fogalmát, a minta nagyságát, a különböző mintavételi eljárásokat, illetve a mintavételi és nem mintavételi hibákat is. Ebben a fejezetben pedig a reprezentatív kutatásokhoz kapcsolódó becslések és hipotézisvizsgálatok megbízhatóságára, valamint ezek lehetséges hibáira térek ki. 4.1. Becslés Olyan esetekben, amikor valamiért nem tudjuk, vagy nem akarjuk a teljes sokaságot megvizsgálni,
hogy meghatározzuk
a fontosabb
statisztikai
mutatóit, becslést
alkalmazunk, aminek lényege, egy minta alapján próbálunk ezen értékekre következtetni. Ha például egy TV csatorna szeretné tudni, hogy egy országban az emberek naponta átlagosan hány órát nézik műsoraikat, nyilván nem kérdezhetnek meg erről mindenkit egyesével. Vesznek, tehát mondjuk egy 1000 főből álló mintát, amely alapján megpróbálnak az összes lakosra érvényes TV-nézési szokásokra következtetni. Kiszámoljuk a 1000 fős minta átlagát, szórását vagy egyéb más szükséges mutatókat, és ebből akarjuk megközelíteni a teljes sokaságra vonatkozó adatokat. A becslés megbízhatósága attól függ, mennyire hasonló becsléseket kapnánk a mintavétel többszöri megismétlésével. A megbízhatóság a becslés varianciájának segítségével mérhető: minél kisebb a varianciája, annál megbízhatóbb a becslés. A statisztikai becslés célja az ismeretlen paraméter értékének közelítő meghatározása a mintából származó megfigyelések alapján. Ezt úgynevezett becslő függvény segítségével végezhetjük el, amely a mintaelemek függvényében ad egy értéket az ismeretlen jellemzőre. A jelölése Θ szimbólummal történik. 3
Dr. Szilágyi Roland: Mintavételen alapuló becslések hibáinak kezelése különös tekintettel a nemválaszolás okozta problémákra
13
A mintajellemzők és a becslés céljainak vizsgálata alapján megállapíthatjuk, egy becslő függvény akkor felel meg igazán az elvárásainknak, ha az értéke minél jobban megközelíti a sokasági paramétert, valamint a különböző mintákból számított értékek minél kisebb eltérést mutatnak. A jó becslés kritériumai: •
Torzítatlanság
•
Pontosság,
•
Hatásosság
•
Konzisztencia
Torzítás lényege az, hogy az adott minta elemei nem jellemzőek arra az alapsokaságra, amelyből ki lettek válogatva. A torzítás lehet tudatos: csak bizonyos (fociszerető) embereket kérdezek meg arról, szeretik-e a focit (mert én is szeretem). Nem tudatos torzítás: bármilyen rosszul megválasztott mérési módszer okozhatja, pl. egy műsor népszerűségére lehet szavazni sms-ben, azonban sokan kimaradnak, mert nem tudnak sms-t küldeni, vagy sajnálják rá a pénzt. Tehát egy becslés torzítatlan, ha a becsült és valóságos várható értékek megegyeznek, ~ azaz: E [ ~θ ] = θ vagy E [ θ - θ] = 0, vagyis a hiba várható értéke 0. Két becslő függvény közül azt tekintjük hatásosabbnak, amelynek kisebb a szórása (standard hibája). Konzisztencia pedig az a tulajdonság, amely esetében egyre nagyobb mintát véve egyre pontosabb becslést kapunk. Így nagy minta használata esetén elfogadható olyan konzisztens becslés is, amely nem torzítatlan. Pár példa a különböző esetekre:
14
2. ábra: A torzítatlanság és pontosság kapcsolata
Forrás: http://www.agr.unideb.hu/~huzsvai/okt/mtl60057/eloadas_2.pdf (letöltés: 2012. 10. 28.) 4.2. Hipotézisvizsgálat Ha egy minta adataiból szeretnék következtetéseket levonni a sokaságra nézve, akkor gyakran feltételezésekkel élünk a sokaság vizsgált jellemzőjéről. Ezeket a sokaságra vonatkozó különféle feltevéseket nevezzük hipotéziseknek, melyek helyességének mintavételen alapuló vizsgálata nem más, mint a hipotézisvizsgálat. Attól függően, hogy az állítás mire vonatkozik, megkülönböztetünk: •
Paraméteres hipotézisvizsgálatot,
•
Nem paraméteres hipotézis vizsgálatot.
Az előbbi csoportról akkor beszélünk, amikor a sokaság valamelyik eddig tárgyalt paraméterére vonatkozik az állítás, például: átlagra, szórásra, relatív gyakoriságra, stb. A
15
második csoport pedig valamilyen más jellemzőre vonatkozik, például: eloszlásra, a sokaság egyedeit jellemző ismérvek kapcsolatára, stb. Ettől függetlenül általánosan megállapítható, hogy egy hipotézisvizsgálat eredménye a nullhipotézis igaz vagy hamis voltára vonatkozik egy adott mintavételi eljárás tükrében. A vizsgálat alapjául szolgáló eljárásokat nevezzük statisztikai próbáknak. Számos ilyennel találkozhatunk statisztikai tanulmányaink során, melyekre a későbbiekben térnék ki. Most rövid áttekintést adnék a hipotézisvizsgálat menetéről, amely minden esetben ugyanaz, illetve a különböző próbák csak technikai elemekben térnek el egymástól.
4.2.1. A hipotézisvizsgálat menete 1. A hipotézisek megfogalmazása Mindig két hipotézist fogalmazunk meg, úgy, hogy azok egymást kizáróak legyenek, és együtt egy biztos eseményt írjanak le. Ezáltal versenyeztetjük egymással a két állítást, melynek következményeképpen csak az egyiket fogadjuk el, azt, amely a mintavétel eredménye alapján hihetőbbnek tűnik a másiknál. Az alaphipotézist nullhipotézisnek nevezzük, jele: H0. Ezzel szemben áll az alternatív hipotézis (másnéven ellenhipotézis), jele: H1. A hipotézisvizsgálat közvetlenül a nullhipotézis helyességének ellenőrzésére irányul. Ezért a hipotézisek nem cserélhetőek fel tetszés szerint egymással. 2. A próbafüggvény kiválasztása A próbafüggvény a hipotézisvizsgálat elvégzéséhez szükséges mintabeli információ kinyerésére szolgál. Egy olyan függvényt kell választanunk, amelynek eloszlása H0 igazságát feltételezve pontosan ismert, így egy konkrét minta alapján lehetővé teszi a hipotézis helyességének ellenőrzését. A választást befolyásolja maga a nullhipotézis, valamint az, hogy az adott esetben milyen alkalmazási feltétek teljesülésére lehet számítani.
A próbafüggvények fontos kismintás tulajdonságai a torzítatlanság és az erő. Egy tesztet akkor nevezünk torzítatlannak, ha a hibás nullhipotézis visszautasításának valószínűsége nagyobb, mint a helyesé. Az erőfüggvény felhasználásával ez úgy fogalmazható meg, hogy 16
kétoldali próba esetében az erőfüggvény H0-ban veszi fel a minimumát. A nagymintás tulajdonságok közül legfontosabb a konzisztencia. Egy próbát akkor nevezünk konzisztensnek, ha erőfüggvénye minden H0-tól különböző pontban tetszőlegesen közel jut az 1-hez a mintanagyság minden határon túli növelése esetén. (Statisztika Szemle, 89. évfolyam 10-11. szám: A statisztikai próbák gondolatvilága [1135. oldal] ) 3. Szignifikanciaszint és kritikus tartomány megadása A próbafüggvény teljes értékkészletét két tartományra bontjuk, elfogadási és kritikus tartományra. Az elfogadási tartomány határait úgy választjuk meg, hogy a nullhipotézis fennállása esetén a próbafüggvény előre megadott nagy valószínűséggel ebbe a tartományba essen, amit 1-α -val jelölünk, és megbízhatósági szintnek nevezünk. Ebből következik, hogy a kritikus tartományba esés valószínűsége α, ezt az értéket szignifikanciaszintnek hívjuk. Mindkét értéket százalékban szokás megadni. Az elfogadási és a kritikus tartomány határán helyezkednek el az úgynevezett kritikus értékek, melyeket az utóbbi tartomány részének szokás tekinteni. Azt, hogy a kritikus érték megválasztása következtében hogyan alakulnak az egyes tartományok határai normális eloszlású függvény segítségével mutatom be:
3. ábra: Kétoldali kritikus tartomány
Forrás: http://www.mateking.hu/statisztikaoktatas2/BCE/hipotezisvizsgalat (letöltés: 2012. 11.02.) Ez az eset akkor áll fenn, amikor számunkra közömbös, a valóság milyen irányban tér el a H0-ban rögzített helyzettől. Ilyenkor a túl kicsi vagy túl nagy értékek egyaránt a 17
nullhipotézis helytelenségét jelentik. A kritikus tartomány két részének elhelyezkedését a határpontok adják. Ebben az esetben megkülönböztetünk alsó (ca) és felső (cf) határpontokat. Az előbbi a próbafüggvény eloszlásának p=α/2, míg az utóbbi p=1-α/2 rendű kvantilise. Egyoldali kritikus tartományra olyan esetben van szükség, amikor a nullhipotézis helytelenségét vagy a kiugróan magas, vagy kiugróan alacsony értékek jelzik.
4. ábra: Bal oldali kritikus tartomány
Forrás: http://www.mateking.hu/statisztikaoktatas2/BCE/hipotezisvizsgalat (letöltés: 2012. 11. 02.) Bal oldali kritikus tartomány esetén a kritikus érték ca, és jobboldali az elfogadási tartomány.
5. ábra: Jobb oldali kritikus tartomány
Forrás: http://www.mateking.hu/statisztikaoktatas2/BCE/hipotezisvizsgalat (letöltés: 2012. 11. 02.) 18
Jobb oldali kritikus tartomány esetén a kritikus érték cf, és baloldali az elfogadási tartomány. 4. Döntés a nullhipotézisről A hipotézisvizsgálat utolsó lépése, amikor egy vagy több mintát veszünk a vizsgált sokaságból, meghatározzuk a próbafüggvény értékét, majd azt figyelembe véve döntést hozunk a nullhipotézisről. Ha a próbafüggvénynek a minta adataiból számított értéke az elfogadási tartományba esik, akkor a H0 hipotézist tekintjük igaznak, a H1 hipotézist pedig elvetjük. Ellenkező esetben, ha a próbafüggvény értéke a kritikus tartományba esik, akkor a H0-t vetjük el, és a H1 alternatív hipotézist tekintjük igaznak. A döntés logikája, ha feltesszük, hogy a nullhipotézis igaz, akkor a próbafüggvény csak nagyon kis valószínűséggel esik a kritikus tartományba, vagyis csekély eséllyel lehetséges, hogy a hipotézis igaz, és mi mégis elvetettük. Ha tehát a pórba elvégzése során a próbafüggvény mégis a kritikus tartományba esik, akkor kételkedni kezdünk a nullhipotézisben és az alternatív hipotézist tekintjük helyesnek. Természetesen ezek csak feltevések, bárhogy döntünk is, a hiba lehetősége fenn áll, amiről a következő fejezetben szólnék részletesebben.
4.2.2. A hipotézisvizsgálat során elkövethető hibák Az előbbi fejezetben taglaltakat átgondolva megállapíthatjuk, hogy a nullhipotézis helyességre vonatkozó döntésünk nem mindig lesz helyénvaló. Előfordulhat ugyanis az az eset, amikor a H0 hipotézis helyes, de a próbafüggvény adott mintából számított értéke mégis a kritikus tartományba esik. Ilyenkor a H0-t elvetjük, annak ellenére, hogy a valóságban helyes. Ez nyilvánvalóan hibás döntés, amit elsőfajú hibának nevezünk. Ez a döntés tetszés szerint korlátozható, mivel feltételezhetjük, az elsőfajú hiba α valószínűséggel fordulhat elő. Ennek azonban az a hátránya, hogy az α csökkentésével párhuzamosan megnő a kockázat a másodfajú hiba elkövetésére, ami nem más, mint a H0 téves megtartása. A másodfajú hiba elkövetésének valószínűségét β-val szokás jelölni. Ez csak akkor konkretizálható, ha pontosan tudjuk, a valóságban mi áll a H0-ban szereplő feltételezéssel szemben, azonban ezt rendszerint nem ismerjük. A valóságos helyzet ismeretének hiányát a β valószínűségek az egyszerű alternatív hipotézisek egész halmazára vonatkozó vizsgálattal tudjuk enyhíteni. Ennek eszközei a jelleggörbe és erőfüggvény.
19
Egy próba jelleggörbéjén azt a függvényt értjük, ami minden lehetséges egyszerű hipotézishez hozzárendeli azt a valószínűséget, amellyel a próbafüggvény az elfogadási tartományba esik. A H=H0 esetben ez a valószínűség 1-α, minden más esetben pedig β, azaz
a
másodfajú
hiba
elkövetésének
valószínűsége.
A
megfelelő
kiegészítő
valószínűségeket megadó függvényt a próba erőfüggvényének nevezzük. Az erőfüggvény értéke a H=H0 esetben α, minden más esetben pedig 1-β. A gyakorlatban többnyire az erőfüggvényt használják a próbafüggvények viselkedésének minősítésére. Az erőfüggvény egy-egy értékét a próba adott egyszerű hipotéziséhez tartozó erejének szokás nevezni. (Hunyadi- Mundruczó- Vita: Statisztika [440. oldal] ) Az 1-β kiegészítő valószínűséget, tehát annak az eseménynek a valószínűségét, hogy nem követjük el a másodfajú hibát, a próba erejének nevezzük.
A hipotézisvizsgálat során elkövethető hibák (és azok elkövetési valószínűsége) 1. táblázat
Forrás: Statisztikai Szemle, 89. évfolyam 10-11. szám: A statisztikai próbák gondolatvilága [1141. oldal] ) Egy általános példával szemléltetném az elméletet a gyakorlatban való megjelenéséről. Az első- és másodfajú hiba igen hasonlatos a vizsgáztatás során elkövethető hibákhoz. Ha ugyanis a vizsgázó felkészültségét nullhipotézisnek tekintjük, a vizsgáztatás elsőfajú hibája a felkészült vizsgáztató megbuktatása, a másodfajú hiba pedig a nem eléggé felkészült hallgató átengedése. Érdemes arra is figyelni, ha ezt a két esetet felcseréljük, vagyis a nullhipotézis a vizsgázó felkészületlensége lesz, akkor az első- és másodfajú
20
hiba is szerepet cserél. Nyilvánvalóan egy valamennyire méltányos vizsgáztatás során célszerű mindkét fajta hiba elkövetésének valószínűségét alacsony szinten tartani. Alapvetően arra következtethetünk, H0 elvetése erős-, míg a nullhipotézis megtartása meglehetősen gyenge döntés. Ez azért van így, mert az elsőfajú hiba elkövetése korlátozható, ezzel szemben a másodfajú hiba elkövetésének valószínűsége vagy nem ismert, vagy nem befolyásolható. Az utóbbi eshetőség ellen csak közvetetten, a minta elemszámának növelésével lehet védekezni.
Újabban szokásos még egy harmadik, az úgynevezett harmadfajú hiba definiálása is. E hibának van egy teljesen általános és egy, a hipotézisvizsgálathoz közvetlenül kötődő értelmezése is. A szűkebben értett harmadfajú hiba az, amikor egy kétoldali H0 helyes elvetése után hibás döntést hozunk a H0-beli helyzettől való eltérés irányáról. Ennek elkövetési valószínűsége azonban a legtöbbször elhanyagolhatóan kicsi. (Statisztikai Szemle, 89. évfolyam 10-11. szám: A statisztikai próbák gondolatvilága [1142. oldal] )
4.2.2.1.Az első- és másodfajú hiba vizsgálata gyakorlati példán keresztül A világ országaiból egyszerű véletlen mintavétellel került kiválasztásra 17 különböző adottságokkal rendelkező ország. Bár az adatokat 1995-ben dolgozták fel, azonban nem kívánok közgazdasági összefüggésekre rámutatni az eredmények alapján, ezért nem tartottam
szükségesnek
a
friss
adatbázis
felkutatását.
Kizárólag
módszertani
összefüggéseket szeretnék levonni. Ebben a fejezetben azt vizsgálom, hogyan hat a városban élő emberek arányára a népesség és a népsűrűség eloszlása az egyes területeken. Továbbá azt szeretném bemutatni, hogy milyen mértékű első- és másodfajú hibát kapunk eredményül a különböző próbák elvégzése során.
A vizsgált 17 ország adatai: 2. táblázat Megnevezés
Városban élő emberek aránya (%)
Népesség (ezer fő)
Népsűrűség (km2/fő)
Bolívia
51
7900
6,9
Kamerun
40
13100
27
Kanada
77
29100
2,8
21
64
10500
111
60
7800
159
Ecuador
56
10700
39
El Salvador
44
5800
246
Görögország
63
10400
80
India
26
911600
283
Kuvait
96
1800
97
Malajzia
43
19500
58
Hollandia
89
15400
366
Nicaragua
60
4100
33
Peru
70
23650
18
Szenegál
40
8700
43
Szomália
24
6667
10
Tanzánia
21
29800
29
Összesen
924
1116517
1609
Magyarország DominikaiKöztársaság
Forrás: SPSS program mintafájlja A 2. táblázat alapján a városban élő emberek aránya lesz az eredményváltozóm, míg az népesség és a népsűrűség a magyarázóváltozók. A korrelációs mátrix alapján azt tapasztalom, hogy a városban élő emberek aránya és a népesség között negatív irányú, gyenge, míg az eredményváltozó és a népsűrűség között pozitív irányú viszonylag gyenge kapcsolat van. A két eredményváltozó között pozitív irányú közepes kapcsolat figyelhető meg. Összességében azt mondhatjuk, hogy nincsen szoros összefüggés egyik változó között sem. A próbák vizsgálata előtt még fontosnak tartom a többváltozós regressziós függvény elkészítését, mely segítségével további elemzéseket végezhetünk az egyes változók kapcsolatáról.
22
Coefficiens táblázat 3. táblázat
Coefficiens Tengelymetszet
50,0693
Népesség (ezer fő) 2
0,00005
Népsűrűség (km /fő)
0,0811
Forrás: Saját szerkesztésű excel táblázat Ezek alapján a többváltozós regressziós függvény a következőképpen írható fel:
50,0693
5 10%& ' 8,11 10%
Az egyes paraméterek értelmezése: •
b0 =50,0693: a b0 paraméter értelmezésének nincs értelme ebben az esetben, ugyanis ha a népesség és a népsűrűség is 0, akkor a városban élő emberek aránya nem lehet 50,0693%.
•
b1=-5,2*10-5: minden egyéb változatlansága mellett, ha a népesség ezer fővel nő, akkor a városban élő emberek aránya átlagosan 0,00005%-kal csökken.
•
b2=8,11*10-2: minden egyéb változatlansága mellett, ha a népsűrűség 1 km2/fővel nő, akkor átlagosan a városban élő emberek aránya 0,0811 %-kal nő.
4.2.2.1.1. Az első- és másodfajú hiba elkövetésének vizsgálata az F-próbán keresztül A következő hipotéziseket feltételezem: H0: β1=β2=0 H1: э1:β1≠0 A H0 hipotézisem azt jelenti, hogy a lineáris függvényünk nem megbízható, mivel minden β érték egyenlő nullával. Tehát a valóságban nem létezik ilyen regressziós függvény. Ezzel szemben a H1 hipotézis szerint, létezik olyan β, melynek értéke nem egyenlő nullával, vagyis megbízható lineáris függvényt kapunk. Ezért a célunk az utóbbi hipotézis elfogadása lesz, tehát a valóságban létezik ilyen regressziós függvény. Ezen megállapítások alapján, kiszámítom, hogyan alakul az első- és másodfajú hiba lehetősége a minta elemszámának növelése, illetve a szignifikancia szint változásának következtében. 23
Az F-próba megállapításához szükséges részeredmények bemutatását a nemzetközileg is szabványosnak tekinthető ANOVA (ANalysis Of VAriance) táblázat segítségével rendezem.
Variancia-analízis táblázat 17 elemű minta esetében 4. táblázat Átlagos Szabadságfok
Eltérésnégyzetösszeg
(DF)
(SS)
négyzetösszeg
F-érték
F szignifikanciája
(MS) Regresszió (R) Hibatényező (E) Teljes (T)
2
1850,58
925,2901
14
5573,302
398,093
16
7423,882
2,324
0,1344
Forrás: Saját szerkesztésű excel táblázat A szabadságfokok az alábbi módon alakulnak: p=2, ahol is a p a magyarázóváltozók számát jelenti n-p-1=14, ahol az n a minta elemszámát jelöli n-1=16. Az SS elnevezésű oszlop az eltérésnégyzetösszegeket tartalmazza a teljes összeget két részre osztva, a regresszió függvény által magyarázott és a hibához köthető részre. Ezek meghatározása a következő képletek segítségével történik:
S*+
SSR
-y
y/0
S1
SSE
-y
y0
S*
SST
-y
y/0
ahol: 24
y= az eredményváltozó tényleges értékei, a városban élő emberek aránya
y/= az eredményváltozó adatainak átlaga, a városban élő emberek átlaga y= a regressziós függvényből kiszámított érték Az átlagos négyzetösszeg (MS) az előző két oszlop adataiból számítható ki:
MSR MSE
SSR/p
SSE/-n
p
10
Végül megállapítható az F-próba értéke is:
F
MSR MSE
A példámban a F értéke 2,324 lett.
Pr
H0
H1
0
2,324
3,74
F
6. ábra: Az F-próba döntési ábrája 17 elemű minta esetében
Forrás: Saját szerkesztés 1-α=0,95 df1=p=2 df2=n-p-1=14
25
Az ábrán jól látszik, hogy az F-próba értéke a kritikus érték alatt van, vagyis a H0 tartományába esik, így ezt fogadom el. Ha a valóságban létezne ilyen regressziós függvény, ami az alábbi kritériumoknak eleget tesz, akkor azt mondhatom, 5%-os szignifikancia szinten helyes döntést hoztam, mert elfogadtam a H0 hipotézist. Ezzel szemben én azt a nullhipotézist fogalmaztam meg a példám elején, hogy nem megbízható a függvény. Ha a H0 hipotézis a valóságban nem igaz, és én mégsem vetem el, akkor másodfajú hibát követek el. Ennek mértéke nem meghatározható, de tudjuk, hogy ellentétes kapcsolat van az α és a β között. Ha a szignifikancia szintem kicsi, akkor a β értéke nagy lesz, vagyis csak kis eséllyel hozok helyes döntést (1-β esetében). A hipotézisvizsgálat során elkövethető hibák kiküszöbölésének egyik megoldása a minta elem számának növelése lehet. Ezért a korábban vizsgált 17 ország adatait hétszer megismételve egy 119 elemű mintát kapok, mellyel kapcsolatos számítások eredményei a következők:
Variancia-analízis táblázat 119 elemű minta esetében 5. táblázat Átlagos Szabadságfok
Eltérésnégyzetösszeg
(DF)
(SS)
négyzetösszeg
F-érték
F szignifikanciája
(MS) Regresszió (R) Hibatényező (E) Teljes (T)
2
12954,06
6477,031
116
39013,11
336,32
118
51967,18
19,25
6*10-8
Forrás: Saját szerkesztésű excel táblázat A minta elem szám növelésével az F értékre egy sokkal nagyobb eredményt kapunk.
26
Pr
H0
H1
0
3,07
19,26
F
7. ábra: Az F-próba döntési ábrája 119 elemű minta esetében
Forrás: Saját szerkesztés Egyértelműen látszik, hogy az F-próba értéke jóval meghaladja a kritikus értékét. Ebben az esetben a H1 hipotézist kell elfogadnunk. Mivel eredetileg is azt szerettük volna eredményül kapni, hogy a valóságban létezik ilyen regressziós függvény, így helyes döntést hoztunk. A 0-hoz közeli p-értékek a nullhipotézis elutasítását javasolják, ami a példám során igaznak is bizonyul. Ha azonban a feltételezéseink szerint a nullhipotézis mondaná ki azt, hogy a függvényünk megbízható, és mi mégis elvetjük, akkor az elsőfajú hiba esélyét növelnénk. Összességében megállapítható, hogy az elsőfajú hiba elkövetésének valószínűsége annál kisebb, minél nagyobb α-t választunk szignifikancia szintnek. Ezzel szemben a másodfajú hiba mértéke a minta elem számának növelésével küszöbölhető ki.
4.2.2.1.2. Az első- és másodfajú hiba elkövetésének vizsgálata a χ2-próbán keresztül Az első esetben itt is a 17 ország adatain létrehozott regresszió függvénnyel kapcsolatos eredményeken végzek hipotézisvizsgálatot. H0: Pr (xi)= Pi H1: эi: Pr (xi) ≠ Pi
27
A nullhipotézis azt mondja ki, hogy a rezidumok normál eloszlást követnek, míg az alternatív hipotézis szerint nem követnek normál eloszlást. Számomra az a kedvező, ha a H0 hipotézist fogadom el. Ehhez azonban először meg kell határoznom a rezidumok értékét. A számításokat a Microsoft Office Excel programján keresztül végeztem. A b értékeket a 3. táblázatból kiolvasva, már korábban felírtuk a regressziós függvényt, melyből az y értékei megadhatóak. A rezidumok kiszámítása a következőképpen történik:
e
y
y
ahol: e= a rezidumok y= a városban élő emberek aránya
y= a regressziós függvény alapján meghatározott értékek A hipotézisvizsgálat elvégzéséhez további táblázat készítésére van szükség:
A χ2-póróba kiszámítása 17 elemű minta esetében 6. táblázat Osztályköz
fi
z
Pi’
Pi
nPi
(fi-nPi)2/nPi
-30- -13
4
-0,706
0,2389
0,2389
4,06
0,00089
-13- 4
6
0,23
0,591
0,3521
5,99
0,00002
4- 21
5
1,116
0,879
0,288
4,896
0,00221
21-
2
∞
1
0,121
2,057
0,00158
Összesen
17
1
17
0,0047
gyakoriság
Forrás: Saját szerkesztés A táblázat első oszlopa a tényleges gyakoriságot mutatja meg az egyes osztályközökben. A z kiszámítása a következőképpen történik:
28
xf
z
σ
x/
ahol: xf= a felső osztályköz
x/= a mintaátlag σ= a minta szórása. A Pi az i-edik osztályközbe esés valószínűségét jelöli, míg az nPi az egyenletes eloszlás esetére feltételezett gyakoriságot jelenti. Végül a χ2-t úgy kapom meg, hogy:
χ2
B @
-f@
nP@ 0 nP@
A példában ennek az értéke 0,0047 lett.
8. ábra: A χ2-próbaddöntési ábrája 17 elemű minta esetében
Forrás: Saját szerkesztés df= r-1-b= 4-1-0=3 1-α=0,95 Ahol: r= az osztályközök száma 29
b= a becsült paraméterek száma A hipotézisvizsgálat alapján elmondható, hogy a kiszámított χ2 érték a kritikus érték alatt van, amely így a H0 tartományába esik, ezért ezt fogadjuk el, vagyis a rezidumok normál eloszlást követnek. Mivel eredetileg is ennek elérésére törekedtem, így helyes döntést hoztam. Ebben az esetben az elsőfajú hibát akkor követtem volna el, ha a nullhipotézist elvetettem volna. A χ2-próba vizsgálata során is bemutatom, mi történik a minta elem számának növelése következtében. Itt is az eredeti adatok 7-szeresét veszem, hogy 119 elemű mintát kapjak. Hasonló módon járok el az előző esethez, ugyanazon számításokat végzem el. Annyi eltéréssel, hogy a nagyobb elem szám miatt az osztályközök számát is növelem. Így a χ2 kiszámítását tartalmazó táblázat a következőképpen alakul:
A χ2-póróba kiszámítása 119 elemű minta esetében 7. táblázat
Osztályköz
fi
z
Pi’
Pi
nPi
(fi-nPi)2/nPi
-30- -18
21
-0,99
0,1611
0,1611
19,1709
0,1745
-18- -6
21
-0,33
0,3707
0,2096
24,9424
0,6231
-6- 6
35
0,33
0,6293
0,2586
30,7734
0,0489
6- 18
21
0,99
0,8389
0,2096
24,9424
0,6231
18- 30
14
1,65
0,9505
0,1116
13,804
0,0028
30-
7
∞
1
0,0495
5,8905
0,209
1
119
1,6814
gyakoriság
Összesen
119
Forrás: Saját szerkesztés Ezek alapján a döntési ábra:
30
9. ábra: A χ2-próba döntési ábrája 119 elemű minta esetében
Forrás: Saját szerkesztés Bár láthatjuk a minta elem számának növelésével a χ2 értéke is nőtt, de még mindig a H0 tartományába esik. Ennél jóval drasztikusabb adatbővítésre lenne szükségem, hogy bebizonyosodjon az elsőfajú hiba elkövetésének lehetősége. Ha azt feltételezzük, hogy a rezidumok nem követnek normál eloszlást, és mi mégis a elfogadjuk a nullhipotézist, akkor következik be a másodfajú hiba. A helyes döntés pedig a H0 elvetése lenne. Összességében tehát megállapítható: a hipotézisvizsgálat során nagy valószínűséggel elkövetünk valamilyen hibát. Éppen ezért a szignifikancia szintet mindig úgy érdemes megválasztani, hogy mérlegeljük először is, az első- vagy másodfajú hiba elkövetése okoz nagyobb problémát. Ha az elsőfajú hibát szeretnénk elkerülni, akkor célszerű alacsony szignifikancia szintet meghatározni, ugyanis ha a nullhipotézis a valóságban igaz és elfogadjuk, akkor nagy eséllyel hozunk helyes döntést. Ha pedig a másodfajú hibát akarjuk nagyobb valószínűséggel elkerülni, növelnem kell az α értékét, vagyis ha a H0 a valóságban nem igaz, és elvetjük, akkor helyes a döntésünk. Tehát végső soron azt mondhatjuk, hogy az elsőfajú hiba ellen könnyedén felléphetünk a szignifikancia szint növelésével,
viszont
a
másodfajú
hiba
elkövetésének
valószínűsége
nehezen
meghatározható, csak a minta elem számának növelésével csökkenthetjük mértékét.
31
V. A
ÖSSZEGZÉS
dolgozatomban
a
reprezentatív
kutatások
megbízhatóságát
vizsgáltam.
A
reprezentativitás lényege, hogy egy kiválasztott részsokaság megfigyelése alapján kapott összefüggéseket az egész sokaságra nézve jellemzőnek tekintjük. Azt tapasztaltam, hogy a módszer sikere elsősorban a megfelelő mintavételi technika kiválasztásán múlik. A véletlen mintavételi eljárások közül az egyszerű véletlen mintánál figyelembe kell venni, hogy minden elem számára egyenlő esélyt kell biztosítanunk a mintába kerülésre. A szisztematikus mintavétel lehetséges hibájának forrása a ciklikusság lehet, vagy ha valamilyen szempont szerint sorba rendezzük az elemeket. A rétegzett és a csoportos mintavételi eljárás a sokaság heterogén és homogén mivoltával foglalkozik. A nem mintavételi technikák alapvető problémája, hogy kevésbé megbízhatóbbak az előbb felsorolt mintavételeknél. A lefedési hiba származhat kihagyásokból, többszörös vagy téves számbavételből. A mérési hiba forrása lehet a kérdőív, az adatgyűjtési módszer, a kérdező és válaszadó is. A feldolgozási hiba többnyire az adatrögzítés során kerül elkövetésre. A nem válaszolási hiba pedig az elérés hiányától az elutasításig számos lehetőséget rejt magában. A mintavételi és nem mintavételi hibák mértékének enyhítése történhet a minta nagyság bővítésével, megfelelő kiválasztási módszer alkalmazásával, megbízható, szakszerű munkavégzéssel. A mintavételünk annál megbízhatóbb, minél inkább eleget tesz a becslés az alábbi kritériumoknak: torzítatlan, pontos, hatásos és konzisztens. A hipotézisvizsgálatok során első- és másodfajú hiba merülhet fel. Amikor a nullhipotézisünk helyes, de mi mégis elvetjük elsőfajú hibát követünk el. Az α csökkentésével a hiba mértékét enyhíthetnénk, azonban ez a másodfajú hiba kockázatának emelkedését jelentené. Ha azt feltételezzük, hogy a H0 hipotézis a valóságban nem igaz, és mi mégis elfogadjuk, szintén a másodfajú hiba elkövetésének valószínűségét erősítenénk. Erre megoldás viszont az előbbivel szemben, ha a szignifikancia szintet növeljük, ugyanis minél nagyobb az α értéke, annál kisebb lesz a β értéke. A másodfajú hiba a minta elem számának növelésével kiküszöbölhető. Összességében elmondhatjuk azt, hogy a reprezentatív kutatás számos hiba lehetőséget rejt magában, mind a megfigyelés körének kiválasztása, mind a mintavétel vizsgálata során. Bár némelyik probléma nehezen meghatározható, kiküszöbölése költséges, de minden esetben enyhíthető a mértéke a megfelelő megoldás alkalmazásával. 32
IRODALOMJEGYZÉK Domán Csaba-Szilágyi Roland- Dr. Varga Beatrix: Statisztikai elemzések alapjai I. [2009.] 11. oldal Domán Csaba-Szilágyi Roland- Dr. Varga Beatrix: Statisztikai elemzések alapjai II. ([2009.] 9. oldal Dr. Marton Ádám: A reprezentatív felvételek megbízhatósága [1991.] 65. oldal Dr. Szilágyi Roland: Mintavételen alapuló becslések hibáinak kezelése különös tekintettel a nemválaszolás okozta problémákra [2011.] Herman Sándor: A biztonságelemzés alapelvei a gazdaságban és a társadalomban statisztikus szemmel Hunyadi- Mundruczó- Vita: Statisztika [1997.] 440. oldal Hunyadi –Vita: Statisztika közgazdászoknak [2002.] Statisztika Szemle, 89. évfolyam 10-11. szám: A statisztikai próbák gondolatvilága [1135.; 1141.; 1142. oldal] www.agr.unideb.hu/~huzsvai/okt/mtl60057/eloadas_2.pdf (letöltés: 2012. 10. 28.) http://www.afsz.hu/sysres/adattar2010/modszertan.html (letöltés: 2012.10.28.) http://ecology.science.unideb.hu/files/04-Allatokologiai-mintavetelezes-I.pdf
(letöltés:
2012.10.06.) http://hu.scribd.com/doc/44521943/Adatfelvetel (letöltés: 2012.10.20.) www.mateking.hu/statisztikaoktatas2/BCE/hipotezisvizsgalat (letöltés: 2012. 11.02.) http://www.uni-miskolc.hu/~bolantro/informalis/tartalom.html (letöltés: 2012.10.05.) www.statcan.ca: Power from Data (2012. 10. 20.)
33