Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László
Created by XMLmind XSL-FO Converter.
Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László Publication date 1997 Szerzői jog © 1997 dr. Korpás Attiláné, Sándorné dr. Kriszt Éva, Varga Edit, Veitzné Kenyeres Erika, Nemzeti Tankönyvkiadó Rt. Dr. Korpás Attiláné- főiskolai docens Sándorné Dr. Kriszt Éva - főiskolai docens (9. és 10. fejezet) Varga Edit - főiskolai adjunktus (11. fejezet) Veitzné Kenyeres Erika - főiskolai tanársegéd (6., 7. és 8. fejezet) A gyakorlófeladatokat: Dr. Korpás Attiláné állította össze. Szakmai lektor: Dr. Csernyák László - egyetemi tanár, tanszékvezető, a matematikatudomány kandidátusa A mű más kiadványban való részleges vagy teljes felhasználása, illetve utánközlése a kiadó engedélye nélkül tilos!
Created by XMLmind XSL-FO Converter.
Tartalom 6. Mintavétel ....................................................................................................................................... 1 1. 6.1. Alapfogalmak, jelölések ................................................................................................. 1 2. 6.2. Véletlen mintavételi eljárások ........................................................................................ 3 2.1. 6.2.1. Független, azonos eloszlású minta kiválasztása ............................................. 4 2.2. 6.2.2. Egyszerű véletlen mintavétel .......................................................................... 4 2.3. 6.2.3. Szisztematikus mintavétel .............................................................................. 4 2.4. 6.2.4. Rétegzett mintavétel ....................................................................................... 5 2.5. 6.2.5. Csoportos mintavétel ...................................................................................... 6 2.6. 6.2.6. Többlépcsős mintavétel .................................................................................. 7 2.7. 6.2.7. Kombinált eljárások ........................................................................................ 7 3. 6.3. Nem véletlen mintavételi eljárások ................................................................................ 8 4. 6.4. A mintajellemzők fontosabb tulajdonságai .................................................................... 9 5. 6.5. Gyakorlófeladatok ........................................................................................................ 14 7. Statisztikai becslések .................................................................................................................... 17 1. 7.1. Alapfogalmak ............................................................................................................... 17 2. 7.2. A becslőfüggvényekkel szemben támasztott követelmények ....................................... 18 2.1. 7.2.1. Torzítatlanság ............................................................................................... 18 2.2. 7.2.2. Konzisztencia ................................................................................................ 19 2.3. 7.2.3. Hatásosság .................................................................................................... 20 2.4. 7.2.4. Elégségesség ................................................................................................. 20 3. 7.3. Intervallumbecslés ........................................................................................................ 20 3.1. 7.3.1. A sokaság várható értékének becslése .......................................................... 20 3.2. 7.3.2. A sokasági értékösszeg becslése ................................................................... 29 3.3. 7.3.3. A sokasági arány becslése ............................................................................ 30 3.4. 7.3.4. A sokasági szórásnégyzet becslése ............................................................... 32 4. 7.4. A konfidenciaintervallum meghatározása rétegzett mintavétel esetén ......................... 34 5. 7.5. A minta elemszámának meghatározása ........................................................................ 41 6. 7.6. Gyakorlófeladatok ..................................................................................................... 42 8. Hipotézisvizsgálat ......................................................................................................................... 47 1. 8.1. A hipotézisvizsgálat alapfogalmai ................................................................................ 47 2. 8.2. A hipotézisvizsgálat során elkövethető hibák .............................................................. 52 3. 8.3. A statisztikai hipotézisvizsgálat menete ....................................................................... 58 4. 8.4. Egymintás statisztikai próbák ....................................................................................... 59 4.1. 8.4.1. A várható értékkel kapcsolatos próbák ......................................................... 59 4.2. 8.4.2. A sokasági szórásra vonatkozó próba ........................................................... 62 4.3. 8.4.3. A sokasági arányszámmal (valószínűséggel) kapcsolatos próba .................. 64 5. 8.5. Kétmintás statisztikai próbák ....................................................................................... 65 5.1. 8.5.1. Két sokasági várható érték különbségének vizsgálata .................................. 65 5.2. 8.5.2. Két sokasági arányra (valószínűségre) vonatkozó próba .............................. 68 5.3. 8.5.3. Két sokasági szórás egyezőségére vonatkozó statisztikai próba ................... 70 6. 8.6. Egyéb hipotézisvizsgálatok .......................................................................................... 72 6.1. 8.6.1. Illeszkedésvizsgálat ...................................................................................... 72 6.2. 8.6.2. Függetlenségvizsgálat ................................................................................... 75 6.3. 8.6.3. Varianciaanalízis ........................................................................................... 78 7. 8.7. Gyakorlófeladatok ........................................................................................................ 82 9. Kétváltozós korreláció- és regressziószámítás .............................................................................. 88 1. 9.1. Kétváltozós korrelációszámítás .................................................................................... 88 1.1. 9.1.1. A kovariancia ................................................................................................ 89 1.2. 9.1.2. A lineáris korrelációs együttható .................................................................. 93 1.3. 9.1.3. A rangkorrelációs együttható ........................................................................ 99 2. 9.2. Kétváltozós regressziószámítás .................................................................................. 104 2.1. 9.2.1. Az elméleti regresszió ................................................................................. 104 2.2. 9.2.2. A tapasztalati regresszió ............................................................................. 105 2.3. 9.2.3. A regressziófüggvény paramétereinek meghatározása ............................... 110 2.4. 9.2.4. A változók felcserélhetősége ...................................................................... 123 2.5. 9.2.5. A rugalmassági együttható .......................................................................... 125 iii Created by XMLmind XSL-FO Converter.
Általános statisztika II
3. 9.3. Statisztikai következtetések a kétváltozós lineáris regresszió alapján ........................ 3.1. 9.3.1. A regressziós modell feltételrendszere ....................................................... 3.2. 9.3.2. A regressziós becslés pontosságának mérése ............................................. 3.3. 9.3.3. A regressziófüggvény paramétereinek intervallumbecslése ....................... 3.4. 9.3.4. Regressziós becslések és prognózisok ........................................................ 3.5. 9.3.5. A regressziófüggvény eredményeinek hipotézis-ellenőrzése ..................... 3.6. 9.3.6. A reziduális változó vizsgálata ................................................................... 3.7. 9.3.7. A paraméterek robusztus becslése .............................................................. 4. 9.4. Nemlineáris regresszió ............................................................................................... 5. 9.5. Gyakorlófeladatok ...................................................................................................... 10. Többváltozós korreláció- és regressziószámítás ....................................................................... 1. 10.1. A lineáris regressziófüggvény meghatározása ......................................................... 1.1. 10.1.1. A háromváltozós lineáris regressziófüggvény .......................................... 1.2. 10.1.2. A legkisebb négyzetek módszere és tulajdonságai ................................... 1.3. 10.1.3. A regressziófüggvény paramétereinek intervallumbecslése ..................... 1.4. 10.1.4. A regressziófüggvény eredményeinek ellenőrzése ................................... 1.5. 10.1.5. A varianciaanalízis alkalmazása a többváltozós regressziószámításban ... 2. 10.2. Többváltozós korrelációszámítás ............................................................................. 2.1. 10.2.1. Páronkénti korrelációs együttható ............................................................ 2.2. 10.2.2. Parciális korrelációs együttható ................................................................ 2.3. 10.2.3. Többszörös korrelációs és determinációs együttható ................................ 2.4. 10.2.4. A multikollinearitás és mérése .................................................................. 3. 10.3. Néhány kiegészítés a regressziószámításhoz ............................................................ 3.1. 10.3.1. Minőségi ismérvek kezelése a regressziós modellben .............................. 3.2. 10.3.2. A tényezőváltozók kiválasztása ................................................................ 4. 10.4. Gyakorlófeladatok ................................................................................................. 11. Az idősorok összetevőinek vizsgálata ...................................................................................... 1. 11.1. Az idősorok összetevői ............................................................................................ 1.1. 11.1.1. Additív és multiplikatív komponensek ..................................................... 2. 11.2. Trendszámítás .......................................................................................................... 2.1. 11.2.1. Trendszámítás mozgóátlagolással ............................................................. 2.2. 11.2.2. Analitikus trendszámítás ........................................................................... 3. 11.3. A szezonalitás vizsgálata .......................................................................................... 3.1. 11.3.1. Szezonális eltérések számítása .................................................................. 3.2. 11.3.2. Szezonindexek számítása .......................................................................... 4. 11.4. Előrejelzés az eredmények alapján ........................................................................... 5. 11.5. Gyakorlófeladatok .................................................................................................... A. Függelék .................................................................................................................................... B. Tárgymutató ...............................................................................................................................
iv Created by XMLmind XSL-FO Converter.
126 127 127 131 132 134 138 140 142 148 154 154 154 163 166 167 169 171 171 174 176 177 179 180 181 182 186 186 187 189 189 193 211 211 213 215 217 223 241
Az ábrák listája 6,1. A képviselők életkor szerinti megoszlásának hisztogramja ....................................................... 11 6,2. A mintaátlagok megoszlásának hisztogramja 100 db 30 elemű minta alapján .......................... 12 6,3. A mintaátlagok megoszlásának hisztogramja 100 db 100 elemű minta alapján ........................ 13 7,1. A és becslőfüggvény eloszlás .................................................................... 20 7,2. A konfidenciaintervallum ábrázolása ........................................................................................ 22 7,3. A konfidenciaintervallum elhelyezkedése a mintavétel többszöri végrehajtása esetén ............. 23 7,4. A standard normális és a Student-féle t-eloszlás ....................................................................... 25 7,5. A sűrűségfüggvénye különböző szabadságfokok esetén ............................................ 32 8,1. Az elfogadási és a kritikus tartomány lehetséges elhelyezkedés ............................................... 49 8,2. ábra a. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél .................. 50 8,2. ábra b. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél ................. 50 8,2. ábra c. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél .................. 51 8,3. Az elfogadási és a kritikus tartomány elhelyezkedés ................................................................. 53 8,4. Az α és a β grafikus meghatározása különböző alternatívhipotézisek esetén ............................ 55 8,5. Az α és a β grafikus meghatározása különböző kritikus értékek esetén .................................... 56 8,6. Az F-eloszlás sűrűségfüggvénye különböző szabadságfokok esetén ........................................ 70 9,1. Pontdiagramok különböző korrelációs együtthatókkal .............................................................. 95 9,2. Rangszámpárok ábrázolása ........................................................................................................ 99 9,3. A munkában töltött évek számának és a bruttó kereseteknek megfelelő pontok ..................... 108 9,4. A bruttó átlagkereset a munkában töltött évek számának függvényében a középfokú végzettségű nőknél ............................................................................................................................................. 108 9,5. Korrrelálatlanság ..................................................................................................................... 109 9,6. Függvényszerű kapcsolat ......................................................................................................... 110 9,7. A függvénytípus kiválasztását segítő grafikus ábrák ............................................................... 111 9,8. A legkisebb négyzetek módszere ............................................................................................. 111 9,9. A megfigyelt adatok és a különböző módon számolt regressziófüggvények .......................... 115 9,10. A szállítási távolság és a szállítás időtartamának pontdiagramja ........................................... 116 9,11. A koordináta-rendszer transzformációja ................................................................................ 118 9,12. A változók felcserélése .......................................................................................................... 124 9,13. A hibatényező eloszlásának vizsgálata .................................................................................. 139 9,14. A mérési hiba hatása a regressziófüggvényre ........................................................................ 142 10,1. A regressziós együtthatók közötti összefüggések .................................................................. 162 10,2. Útdiagram .............................................................................................................................. 162 11,1. Az idősorok komponensei ..................................................................................................... 187 11,2. A háztartások gázfelhasználásának alakulása Nógrád megyében 1990 és 1994 között ......... 192 11,3. A népesség természetes fogyásának alakulása Nógrád megyében ........................................ 199 11,4. Az ellátatlan munkanélküliek létszámának alakulása ............................................................ 201 11,5. A kiemelt üdülőövezet vendéglétszámának idősora és exponenciális trendje ....................... 206 11,6. Az urántermelés parabolikus trendje ..................................................................................... 209
v Created by XMLmind XSL-FO Converter.
A táblázatok listája 6.1. A sokaság típusa, a mintavétel módja és a mintaelemek kapcsolata ........................................... 3 6.2. 30 elemű minták mintaátlagainak megoszlása ........................................................................... 11 6.3. A 100 elemű minták átlagai ....................................................................................................... 12 6.4. 100 elemű minták mintaátlagainak megoszlása ......................................................................... 12 7.1. A mintába került üvegek nettó töltési tömeg szerinti megoszlása ............................................. 28 7.2. A mintába került kávécsomagok megoszlása ............................................................................ 33 7.3. A rétegzett mintából történő becslés jelölésrendszere .............................................................. 35 7.4. A számításhoz szükséges adatok ............................................................................................... 38 7.5. A sokaság és a minta elemszámának megoszlása ..................................................................... 38 7.6. 1000 elemű minta adatai ............................................................................................................ 39 8.1. A hipotézisvizsgálat során hozott döntések és bekövetkezésük valószínűsége ......................... 52 8.2. A másodfajú hiba elkövetésének valószínűsége különböző ellenhipotézisek esetén ................. 55 8.3. Az z-próba elfogadási tartományának határai szignifikanciaszint mellett ................................. 59 8.4. A t-próba elfogadási tartományának határai α szignifikanciaszint mellett ................................ 61 8.5. A elfogadási tartományának határai α szignifikanciaszint mellett ............................... 63 8.6. Két mintát igénylő próbák esetén alkalmazott jelölések ............................................................ 65 8.7. A 10 elemű minta mérési eredményei ....................................................................................... 67 8.8. Az F-próba elfogadási tartományai α szignifikanciaszint mellett .............................................. 71 8.9. A minta valamilyen ismérv szerinti megoszlása ....................................................................... 72 8.10. A kiválasztott vendégek kiszolgálási idő szerinti megoszlása ................................................. 74 8.11. A próbafüggvény számított értékének meghatározására szolgáló munkatábla ................... 75 8.12. A megkérdezett személyek nemhez való tartozás és beosztás szerinti megoszlása ................. 77 8.13. Munkatábla a próbafüggvény aktuális értékének meghatározásához ................................. 77 8.14. Varianciaanalízis-tábla sémája ................................................................................................ 80 8.15. Az egyes dolgozók teljesítményadatai ..................................................................................... 81 9.1. Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerint .................................. 90 9.2. Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerint .................................. 91 9.4. Munkatábla a lineáris korrelációs együttható kiszámításához ................................................... 98 9.5. A versenyen elért helyezések ..................................................................................................... 99 9.6. Munkatábla a rangkorrelációs együttható kiszámításához ....................................................... 102 9.7. Munkatábla a rangkorrelációs együttható kiszámításához ....................................................... 103 9.8. A hallgatók létszámmegoszlása ............................................................................................... 106 9.9. A hallgatók matematika- és statisztika-vizsgaeredményei közötti kapcsolat tapasztalati regressziófüggvénye ....................................................................................................................... 106 9.11. A munkában töltött évek száma és a havi átlagkereset tapasztalati regressziófüggvénye a középfokú végzettségű nőknél ......................................................................................................................... 108 9.12. Munkatábla az analitikus regressziófüggvény meghatározásához ......................................... 114 9.13. Munkatábla a normálegyenletekkel történő megoldáshoz ..................................................... 117 9.14. Munkatábla a transzformált normálegyenletekkel történő megoldáshoz ............................... 120 9.15. A maradék-négyzetösszeg kiszámításának táblázata ............................................................. 129 9.16. Varianciaanalízis-tábla .......................................................................................................... 137 9.17. Varianciaanalízis-tábla .......................................................................................................... 138 9.18. Eredménytábla a szállítási távolság és a szállítási idő közötti összefüggés vizsgálatához .... 139 9.19. A feljegyzett adatok táblázata ................................................................................................ 141 9.20. Munkatábla a reziduumok számítására .................................................................................. 141 9.21. A megmaradó adatok táblázata a .......................................................................................... 142 9.22. Munkatábla a hatványkitevős regressziófüggvény meghatározásához .................................. 145 9.23. A tokaji aszú életkora és eladási ára közötti összefüggés ...................................................... 146 9.24. Munkatábla az exponenciális regressziófüggvény meghatározásához .................................. 147 10.1. A szállítási idő vizsgálatára vonatkozó adatok ...................................................................... 157 10.2. Számítások a transzformált változók alapján ......................................................................... 158 10.3. A maradéktag négyzetösszegének kiszámítása ...................................................................... 165 10.4. Az eddigi részeredmények ..................................................................................................... 167 10.5. A regressziófüggvény paramétereinek ellenőrzéséhez szükséges részeredmények ............... 168 10.6. A varianciaanalízis-tábla többváltozós regressziószámítás esetén ......................................... 169 vi Created by XMLmind XSL-FO Converter.
Általános statisztika II
10.7. A varianciaanalízis-tábla ....................................................................................................... 170 10.8. A 20 elemű minta adatai ........................................................................................................ 173 10.9. Az
felbontása ................................................................................................................ 178
10.10. Az felbontása .............................................................................................................. 178 11.1. Háromtagú mozgóátlagok számítása ( ) ......................................................................... 189 11.2. Négytagú mozgóátlagok számítása ( ) ........................................................................... 190 11.3. A háztartások számára értékesített gázmennyiség Nógrád megyében 1990 és 1994 között negyedéves bontásban .................................................................................................................... 191 11.4. A mozgóátlagolású trendszámítás munkatáblája ( ) ....................................................... 191 11.5. A népesség természetes fogyásának alakulása Nógrád megyében ........................................ 195 11.6. Munkatábla a paraméterek meghatározásához ...................................................................... 196 11.7. Munkatábla a paraméterek meghatározásához ...................................................................... 197 11.8. A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámítása ......................... 197 11.9. Az ellátatlan munkanélküliek létszámának alakulása Nógrád megyében 1991 és 1994 között (ezer fő) ................................................................................................................................................... 199 11.10. Munkatábla az ellátatlan munkanélküliek létszámának alakulását kifejező lineáris trendfüggvény kiszámításához ................................................................................................................................ 200 11.11. A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámításának munkatáblája 202 11.12. Egy kiemelt üdülőövezet vendégeinek létszáma 1982 és 1992 között ................................ 204 11.13. A legkisebb négyzetek módszerének megfelelő négyzetösszeg számítása .......................... 206 11.14. A trendtől való eltérések összehasonlítása ........................................................................... 207 11.15. Az urántermelés alakulása Magyarországon ........................................................................ 208 11.16. Az egyedi szezonális eltérések számítási táblázata .............................................................. 211 11.17. Egy márkakereskedő személygépkocsi-értékesítésének adatai ............................................ 214 11.18. Munkatábla az egyedi szezonindexek kiszámításához ........................................................ 214 11.19. A személygépkocsi-értékesítés szezonalitását jellemző szezonindexek .............................. 216 11.20. A trend és a szezonhatás előrejezése ................................................................................... 216 1. A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata .............. 223 1. A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata (folytatás) 225 2. A
-eloszlás táblázata ............................................................................................................... 226
2. A -eloszlás táblázata (folytatás) .............................................................................................. 3. AzF-eloszlás táblázata ................................................................................................. 3. Az F-eloszlás táblázata (folytatás) ................................................................................ 3. Az F-eloszlás táblázata (folytatás) .............................................................................. 3. Az F-eloszlás táblázata (folytatás) .............................................................................. 3. Az F-eloszlás táblázata (folytatás) ............................................................................... 3. Az F-eloszlás táblázata (folytatás) ............................................................................... 4. A Student-féle t-eloszlás táblázata ..............................................................................................
vii Created by XMLmind XSL-FO Converter.
228 229 231 232 234 235 237 238
6. fejezet - Mintavétel 1. 6.1. Alapfogalmak, jelölések Tankönyvünk első kötetében a megfigyelt statisztikai sokaság elemzésére szolgáló különböző eszközökkel, mutatószámokkal ismerkedtünk meg. A sokaságot ismertnek feltételezve, figyelmünket csak arra fordítottuk, hogyan lehet annak összetételét, változását, törvényszerűségeit megvizsgálni. Nem tértünk ki részletesen arra, hogy az alapadatokhoz teljes körű vagy részleges felvétellel jutottunk. Utólag azt mondhatjuk, hogy az eddigiek során megfigyelésünk a sokaság minden elemére kiterjedt, tehát elemzéseink a sokaság teljes körű megfigyelésén alapultak. Ebben a kötetben olyan módszerekkel ismerkedünk meg, amelyekhez nem szükséges a sokaság minden egyes elemének megfigyelése, mivel erre gyakran nincs is lehetőségünk. A társadalmi-gazdasági statisztikában azonban az adatokhoz való hozzájutás gyakori formája a részleges adatgyűjtés, melynek egyik módja a reprezentatív megfigyelés. Reprezentatív megfigyelésre vagy más néven mintavételes megfigyelésre van szükség pl. a lakosság életkörülményeivel kapcsolatos kérdések (jövedelem, fogyasztási szokások stb.) megválaszolásához, a tömegtermelés minőség-ellenőrzési eljárásaihoz vagy a közvélemény-kutatásokhoz. Ily módon becsüljük pl. a várható termés mennyiségét a mezőgazdaságban vagy a kisvállalkozások tevékenységének eredményeit is. (Ilyen jellegű kérdésekkel már a Valószínűségszámítás c. tárgyban is foglalkoztunk.) A reprezentatív megfigyelés, röviden szólva a mintavétel célja, hogy valamely sokaság egy részének megfigyelése révén következtetéseket tudjunk levonni a sokaság egészére, annak jellemzőire, összetételére vonatkozóan. Azt a sokaságot, amelyre a mintavétel segítségével következtetni szeretnénk, alap sokaságnak, az alapsokaság azon részét, amely alapján a következtetéseket levonjuk, mintasokaságnak nevezzük . A továbbiakban az alapsokaságot röviden sokaságnak, a mintasokaságot pedig mintának fogjuk nevezni. Tekintsük át először a sokaság megadásának módjait és a legfontosabb sokasági jellemzőket. A sokaság elemszáma lehet véges vagy végtelen. Legyen X a sokaság egy ismérve. Ha a sokaságból véletlenszerűen kiemelünk egy egyedet, ennek ismérvértéke a véletlentől függ, ezért valószínűségi változó, ezt a véletlentől függő ismérvértéket jelölje Ekkor eloszlásfüggvénye Véges sokaság esetén az egyedeket, illetve azok ismérvértékeit nagyság szerint sorba rendezhetjük. Az ismérvértékek legyenek
(N az egyedek száma). Ekkor
A várható értéke, vagy másképpen a sokaság ismérvértékének várható értéke véges sokaság esetén – mint ismeretes – az átlaggal egyenlő:
szórásnégyzete
1 Created by XMLmind XSL-FO Converter.
Mintavétel
Végtelen elemszámú sokaság esetén két esetet különböztetünk meg. Ha diszkrét valószínűségi változó, ami azt jelenti, hogy az ismérvértékek véges vagy megszámlálhatóan végtelen halmazt alkotnak, akkor az F eloszlásfüggvény szintén egy „lépcsősfüggvény” (az értéke
Ha
intervallumban állandó), várható
folytonos és létezik a sűrűségfüggvénye, akkor a várható értéke
(ha ez az improprius integrál is létezik). A szórásnégyzetet a szokásos módon kapjuk:
(A jobb oldalon szereplő várható értékeknek is létezniük kell.) A gyakorlatban a mintavétel általában véges sokaságból történik. Ugyanakkor a nagy elemszámú sokaságokat tekinthetjük végtelennek, így a végtelen elemszámú sokaságra kidolgozott eszközök jól használhatók ezen sokaságok esetén is. Ezek után tekintsük át a mintával kapcsolatos alapfogalmakat. A minta elemszáma, tekintet nélkül arra, hogy véges vagy végtelen sokaságból származik, mindig véges. Elemszámát n-nel jelöljük. Az egyes mintaelemek valószínűségi változók, értékük mintáról mintára változhat. Ezeket célszerű -nel jelölni. A minta elemei csak addig tekinthetők változóknak, míg a mintavétel nem történt meg, a minta elemeinek kiválasztása után konkrét számértékek lesznek:
A mintából különböző mintajellemzők (átlag, szórás, értékösszeg, arány stb.) számíthatók. Miután a minta elemei valószínűségi változók, az ezekből számított mintajellemzők is valószínűségi változók lesznek, értékük mintáról mintára változhat attól függően, hogy mely sokasági elemek kerültek a mintába. Ez a mintajellemzőknek nagyon fontos tulajdonsága. A véges elemszámú sokaságból történő mintavételnél alapvető fontosságú, hogy rendelkezésre álljon egy ún. mintavételi keret, amely egyenként tartalmazza a vizsgálni kívánt sokaság elemeit, mégpedig mindegyiket, és mindegyiket csak egyszer. Egy ilyen teljes keret biztosítása sokszor nem könnyű feladat, mert vannak olyan sokaságok, amelyeknél az elemek száma és összetétele napról napra változik, s bármilyen jó is a megszűnő és az újonnan létrejövő egységek nyilvántartása, ez szükségszerűen különbözik a mintavételi keret összeállításakor létező sokaságtól. (Ilyen nehézség léphet fel a mintavételi keret összeállításánál, ha a sokaságot pl. Magyarország népessége vagy a Magyarországon működő kisvállalkozások stb. képezik.) A mintavétel tervezése, a mintavételi eljárás megválasztása során két egymásnak ellentmondó követelményt kell figyelembe vennünk. Az egyik követelmény a pontosság, a másik az olcsóság. Mivel az egyik követelmény előtérbe helyezése a másik háttérbe szorulását jelenti, lényeges a mintavétel tervezése során az elvárt célok és a lehetséges eszközök pontos megfogalmazása, számbavétele. Az, hogy ezen követelményeket mennyire vesszük figyelembe a mintavétel tervezése során, lényegesen befolyásolja a mintaelemek kiválasztási eljárását. A következőkben a mintaelemek kiválasztási módjait tekintjük át. A mintaelemek kiválasztása visszatevéssel vagy visszatevés nélkül történhet. Végtelen (vagy végtelennek tekintett) elemszámú sokaságból akár visszatevéssel, akár visszatevés nélkül választjuk ki a minta elemeit, azok mint valószínűségi változók minden esetben függetlenek lesznek egymástól. Véges sokaság esetén csak a visszatevéses mintavétel eredményez független mintaelemeket. A mintaelemek ezen tulajdonságára a későbbiek során még visszatérünk. Az elmondottakat a 6.1. táblázatban foglaltuk össze.
2 Created by XMLmind XSL-FO Converter.
Mintavétel
6.1. táblázat - A sokaság típusa, a mintavétel módja és a mintaelemek kapcsolata A sokaság elemszáma A mintavétel módja végtelen
visszatevéses visszatevés nélküli
véges
A mintaelemek
függetlenek
visszatevéses visszatevés nélküli
nem függetlenek
Az elmondottak alapján különbséget teszünk független mintavételi eljárások és nem független mintavételi eljárások között. Véges sokaság esetén a minta fontos jellemzője a kiválasztási arány, amely azt mutatja meg, hogy a sokaság elemeinek mekkora hányada kerül a mintába. Adott N mellett annál nagyobb valószínűséggel lehet a mintából a sokaságra következtetni, minél nagyobb a kiválasztási arány. Az n-nek, a minta elemszámának azonban nagyobb jelentősége van a kiválasztási aránynál, mert ez határozza meg a mintából való következtetésnél használható módszereket. A mintavétel során és a mintából történő következtetésnél meg kell különböztetnünk a kis és a nagy minta fogalmát. Ennek jelentőségét az adja, hogy a mintából számított jellemzők nagy részének (pl. mintaátlag, mintabeli arány) eloszlása nagy minta esetén közelítőleg normális eloszlásúvá válik, ennélfogva kezelésük egyszerűsödik. (Ezen megállapításra a későbbiek során még visszatérünk.) Felvetődik a kérdés, hogy mi tekinthető kis, illetve nagy mintának. Azt mondhatjuk, hogy már nagy mintának tekinthető, azaz egyes mintajellemzők eloszlásfüggvényei ezen mintaelemszám fölött már közelítőleg normális eloszlásúvá válnak. A mintanagysághoz szorosan kapcsolódik a mintavételi hiba fogalma. A mintavételi hiba abból adódik, hogy a sokaság egy részéből következtetünk az egészre. Meghatározásának módszerei matematikailag kidolgozottak. Nagysága, illetve annak valószínűsége – a sokaság jellege, az alkalmazott mintavételi eljárás és a mutató fajtája mellett – alapvetően a mintanagyságtól függ, hiszen a mintanagyság növelésével a sokaság egyre nagyobb részét vizsgáljuk meg, s így egyre kisebbé válik a mintavételből eredő nagy hiba valószínűsége. A mintaelemek kiválasztása során elkövethetünk ún. nem mintavételi hibát is, amely több forrásból adódhat: többek között a sokaságot nem tökéletesen fedi le a mintavételi keret (pl. ilyen fordulhat elő, ha a megfigyelt sokaság a Magyarországon működő kisvállalkozások), nem sikerül a megfigyeléseket a terv szerint végrehajtani, válaszmegtagadás vagy egyéb okok miatt hiányoznak adatok. Hiba adódhat abból is, hogy a kérdésekre kapott válaszok nem egészen pontosak (tudatosan vagy önhibáján kívül téves adatot szolgáltat a válaszadó), vagy hibákat követhetnek el a kódolás, táblázás stb. során. Az ilyen típusú hibák nagyságát nehéz meghatározni. Vizsgálatuknak, feltárásuknak elsődlegesen az a célja, hogy a mintavétel tervezésének és végrehajtásának különböző fázisaiban hatásukat csökkenteni lehessen. Egy mintából csak akkor lehet számítható megbízhatóságú következtetéseket levonni a sokaságra vonatkozóan, ha a minta elemeit nem önkényesen, hanem véletlenszerűen választjuk ki. A véletlenszerűség nem feltétlenül jelenti azt, hogy a sokaság minden egyes elemének egyenlő esélye van a mintába történő kerülésre, hanem csak azt jelenti, hogy minden elemhez egy előre meghatározott ismert valószínűség tartozik, és biztosítjuk, hogy ezzel a valószínűséggel kerüljön be a mintába az adott elem, továbbá azt, hogy a mintaelemek kiválasztási eljárásának előre meghatározottnak és egyértelműnek kell lennie. Ha a minta elemeit véletlenszerűen választjuk ki a sokaságból, véletlen (vagy valószínűségi) mintát kapunk. Attól függően, hogy a mintavétel során biztosítjuk-e a véletlenszerűséget vagy sem, különböző mintavételi eljárásokról beszélhetünk.
2. 6.2. Véletlen mintavételi eljárások 3 Created by XMLmind XSL-FO Converter.
Mintavétel
2.1. 6.2.1. Független, azonos eloszlású minta kiválasztása Független, azonos eloszlású mintát akkor kapunk, ha homogén és végtelen (vagy nagyon nagy) sokaságból veszünk véletlen (visszatevéses vagy visszatevés nélküli) mintát, illetve amikor véges sokaságból visszatevéssel választjuk ki a minta elemeit. Tehát független mintát veszünk. Ilyenkor a minta elemei (vagy függetlennek tekinthető), azonos eloszlású valószínűségi változók lesznek. Ugyanis
az
i-edik
mintaelem
ismérvértékére
nyilvánvalóan
független
igaz,
hogy
tehát az egyes mintaelemek mint valószínűségi változók eloszlása a ismérvérték sokaságbeli eloszlásával azonos. Alkalmazása elsősorban a tömegtermelés minőség-ellenőrzésénél célszerű. Például azonos eloszlású, független mintához jutunk, ha az 1 kg-os liszt töltési tömegének ellenőrzéséhez mintát veszünk. Ekkor a sokaság végtelennek tekinthető, így a minta elemei minden esetben függetlenek lesznek. A gyakorlatban azonban nem túl gyakran jutunk független, azonos eloszlású mintához, mivel a valóságban ritkán áll rendelkezésünkre végtelen vagy végtelennek tekinthető sokaság, vagy véges sokaság esetén nem minden esetben van lehetőség a mintaelemek megvizsgálása után a sokaságba történő visszatevésre (pl. egy adott cégtől vásárolt gumiabroncsok elhasználódásának minőségi vizsgálatakor). Ennek ellenére ez a mintavételi eljárás későbbi vizsgálataink során kiemelt szerepet kap, mert matematikailag rendkívül könnyen kezelhető, és ezen a mintatípuson keresztül lehet a legkönnyebben megmutatni a sokasági és a mintajellemzők kapcsolatát.
2.2. 6.2.2. Egyszerű véletlen mintavétel Egyszerű véletlen mintavételt hajtunk végre homogén, véges elemszámú sokaság esetén, amikor a mintát visszatevés nélkül választjuk ki, elemenként egyenlő valószínűséggel. (Ezt az esetet a valószínűségszámításban is vizsgáltuk.) A végrehajtásához egy, a mintavételi keret minden elemét, de mindegyiket csak egyszer tartalmazó komplex lista szükséges. Ezen listából a mintaelemek kiválasztása történhet sorsolással, ún. véletlenszám-táblázattal, illetve számítógépes véletlenszám-generálással. A visszatevés nélküliség követelményét a sorsolásnál oly módon biztosíthatjuk, hogy a kihúzott cédulákat nem tesszük vissza az urnába, míg a véletlenszám-táblázatnál, illetve a számítógépes véletlenszám-generálásnál az ismételten előforduló sorszámot átugorjuk, és haladunk tovább a táblázatban, illetve a számítógép által előállított listában.
Az egyszerű véletlen mintavétel során különböző összetételű mintát kaphatunk. Minden n elemű minta előfordulásának a valószínűsége ugyanakkora. Természetesen a mintavétel végrehajtása után csak egyetlenegy mintánk lesz, s ebből következtetünk a sokaság jellemzőire. A gyakorlatban a sokaságok ritkán homogének, ezért az egyszerű véletlen mintavétel tiszta alkalmazása sem fordul elő gyakran, de ugyanakkor kiindulópontként szolgál a bonyolultabb eljárásokhoz.
2.3. 6.2.3. Szisztematikus mintavétel A gyakorlatban a véletlen kiválasztást a szisztematikus mintavétellel lehet legegyszerűbben megvalósítani. Az eljárás lényege a következő: egy n elemű mintát kívánunk venni egy N elemű sokaságból. Ehhez először a sokaságot valamely szempont szerint sorba rendezzük – általában eleve adott egy sorrend –, majd meghatározzuk a számértéket, ahol a szám egész részét jelenti. Az első k elem közül egyenlő valószínűséggel kiválasztjuk a kiindulópontot, s ezután szisztematikusan az erre következő minden k-adik elem kerül be a mintába. A szisztematikus mintavétel végrehajtása rendkívül egyszerű, nem igényel szakismeretet, ellenőrzése is könnyű. Ezen mintavételi eljárás azonban csak akkor eredményez véletlen mintát, ha a listaképző ismérv és a megfigyelt
4 Created by XMLmind XSL-FO Converter.
Mintavétel
ismérv között nincs sztochasztikus kapcsolat. Súlyos torzítást okozhat az is, ha a lista rejtett trendet vagy periodicitást tartalmaz. Tekintsük a következő példát. Valamely főiskola hallgatóinak – akikről rendelkezésre áll egy ábécé szerinti lista – a tandíjfizetéssel kapcsolatos véleményére vagyunk kíváncsiak. Ekkor a szisztematikus mintavétel nagy valószínűséggel véletlen mintát fog eredményezni, hiszen nagyon valószínű, hogy a hallgató nevének kezdőbetűje és a tandíj fizetéséről alkotott véleménye között nincs sztochasztikus kapcsolat. Ebben az esetben a szisztematikus kiválasztás egyszerűsíti a munkát.
2.4. 6.2.4. Rétegzett mintavétel Minden mintavételnél felmerül az a kérdés, hogyan lehet a mintaelemek kiválasztását úgy végrehajtani, hogy az meghatározott mintanagyság mellett minél jobban reprezentálja a vizsgálni kívánt sokaságot. Célszerű továbbá olyan becslési eljárásokat alkalmazni, amelyek minél kisebb hibával becsülik az ismeretlen sokasági jellemzőt. A leggyakrabban alkalmazott ilyen eljárás az ún. rétegzett mintavétel. A rétegzett mintavétel során a vizsgált ismérv szempontjából heterogén sokaságot több homogén (minél kisebb szórású) részsokaságra (rétegekre) bontjuk úgy, hogy a csoportok kiadják a teljes sokaságot, továbbá egyetlen sokasági elem se tartozzon két vagy több csoportba. Az egyes rétegeken belül a minta elemeinek a kiválasztása egyszerű véletlen mintavétellel történik. A rétegzett mintavétel eredményeként egyrészt jobb keresztmetszetet kapunk a vizsgált sokaság összetételéről, másrészt az egyes rétegek nagyobb homogenitása miatt ezeken belüli kisebb mintákból is megfelelő pontosságú következtetést vonhatunk le. Ilyen módon az eredetileg heterogén sokaságra ugyanakkora minta esetén pontosabb következtetést tudunk levonni rétegzett mintából, mint ha egyszerű véletlen mintavételt alkalmaztunk volna. A rétegzés nem csupán pontosságnövelő hatása miatt elterjedt mintavételi eljárás. A rétegzett kiválasztást arra is felhasználhatjuk, hogy az egyes rétegek sokasági jellemzőire megbízható becslést adjunk. Pl. az egyik kisvárosunkban a háztartások jövedelemviszonyait szeretnénk megvizsgálni. Ehhez a város háztartásait a gyermekszám alapján rétegekbe soroljuk. A mintavétel végrehajtása után lehetőség van egyrészt a kisvárosban lévő háztartások egy főre jutó jövedelmének, másrészt az egyes rétegek – tehát a gyermektelen, az 1 gyermekes, a 2 gyermekes stb. háztartások – esetén az egy főre jutó jövedelemnek a becslésére. Rétegzett mintavételt alkalmaz többek között a Központi Statisztikai Hivatal – negyedéves rendszerességgel – az 50 vagy kevesebb főt foglalkoztató iparba és a kivitelező építőiparba sorolt kisszervezetek reprezentatív megfigyelésére. (Az 50 főt meghaladó létszámú szervezetek megfigyelése teljes körű és folyamatos.) A rétegzés során több szempontot is figyelembe vettek: jogi személyiségű-e a gazdasági társaság; a jogi személyiségű társaságokon belül 21 és 50 fő közötti vagy 21 fő alatti létszámkategóriába tartozik-e; budapesti vagy vidéki székhelyű-e, illetve azt, hogy mikor alakult meg a gazdasági társaság. Ezen szempontok alapján a feldolgozóiparban 16, a kivitelező építőiparban 12 réteget alakítottak ki 1 a vizsgálat végrehajtásához. A továbbiak megértéséhez néhány újabb jelölés bevezetésére van szükség. A sokaság rétegeinek számát M-mel jelöljük, az egyes rétegeken belül a sokaság elemszáma pedig:
ekkor:
Rétegenként
elemű mintákat veszünk, és a mintákra igaz, hogy
A módszer részletes leírása Dr. Telegdi László: Az ipari és építőipari kisszervezetek reprezentatív megfigyelése (Statisztikai Szemle 1993. március) c. tanulmányában olvasható. 1
5 Created by XMLmind XSL-FO Converter.
Mintavétel
Felvetődik a kérdés, hogy hogyan osszuk el a minta elemeit az egyes rétegek között. A mintaelemek szétosztása történhet arányos elosztással, illetve nem arányos elosztással. a) Az arányos elosztás lényege, hogy a mintában a sokasági rétegarányoknak megfelelően választjuk meg a minta elemszámát, tehát adott réteg aránya a mintában és a sokaságban megegyezik, azaz
Ezt a kedvező tulajdonságot a későbbi számításoknál fogjuk felhasználni. A j-edik réteg mintaelemszámát ekkor a következő összefüggéssel állapíthatjuk meg:
b) A nem arányos elosztás során a mintában a rétegarányok nem egyeznek meg a sokaságbeli arányokkal. Tehát
A következőkben – a nem arányos elosztáshoz tartozó – néhány, a statisztikai gyakorlatban legtöbbször előforduló eljárást mutatunk be. – Egyenletes elosztás során minden egyes rétegbe azonos számú mintaelem kerül. Így a j-edik réteg mintaelemszáma lesz. Előnyös tulajdonsága, hogy egyszerű, semmilyen tervezési előkészítést nem igényel, végrehajtása kényelmes. Hátránya pedig, hogy az egyes rétegek nagyságát, szórását stb. nem veszi figyelembe a szükséges mintaelemszám meghatározásához. Így nagyfokú torzítást okozhat. – A Neyman-féle optimális elosztás végrehajtásához szükséges, hogy előre ismerjük (vagy legalább hozzávetőlegesen becsülni tudjuk) a sokaság rétegenkénti szórásait. Ekkor rögzített mintaelemszám mellett kedvezőbb tulajdonságú mintát kapunk, ha nagyobb szórású rétegből aránylag nagyobb, kisebb szórásúból pedig kisebb mintát veszünk. Ezt az eljárást a rendszeres időközönként megismétlődő megfigyeléseknél alkalmazzák. Így a megelőző időszak eredményei felhasználhatók az egyes rétegek mintaelemszámának meghatározásához. A j-edik réteg mintaelemszáma az alábbi összefüggés alapján határozható meg:
ahol
a j-edik réteg elemszáma a sokaságban,
a j-edik réteg szórása a sokaságban, n: a minta elemszáma.
2.5. 6.2.5. Csoportos mintavétel Az egyszerű véletlen, a szisztematikus és a rétegzett mintavétel során feltételeztük, hogy rendelkezésünkre áll egy olyan lista – a mintavételi keret –, amely a sokaság összes elemét tartalmazza, s ebből választjuk ki a mintát. A gyakorlati feladatok egy részénél azonban ilyen lista nem áll rendelkezésre, bár elkészíthető volna, de előállítása költséges és munkaigényes lenne. Más esetekben rendelkezésre áll ugyan a lista, de ha abból választanánk ki közvetlenül a mintaelemeket, a felvétel végrehajtása rendkívül költséges lenne. Ezen 6 Created by XMLmind XSL-FO Converter.
Mintavétel
feladatoknál célszerű a sokaság elemeit nem közvetlenül kiválasztani, hanem ezek természetes vagy mesterséges csoportjait megfigyelni. A csoportos mintavétel során a homogén sokaság elemeinek (természetes vagy mesterséges) csoportjai közül egyszerű véletlen mintát veszünk, majd a kiválasztott csoportokon belül minden egyes egyedet megfigyelünk. A csoportos mintavétel esetén a költségtakarékosságot tartjuk elsődleges szempontnak, míg a megfigyelés megbízhatósága némileg háttérbe szorul. Bizonyos esetekben a csoportos mintavétel segítségével, ugyanazon költségkeret mellett lényegesen nagyobb mintához juthatunk, mint egyszerű véletlen mintavétellel. Nézzünk néhány példát a csoportos mintavétel alkalmazására. Egy adott évben vizsgálni kívánjuk a szakközépiskolában végzettek továbbtanulását, illetve munkába állását az érettségi után 3 hónappal. Ha egyszerű véletlen mintavételt hajtanánk végre, akkor az országban található valamennyi szakközépiskola végzős évfolyamának tanulóiról teljes körű listát kellene összeállítani. A mintát ebből a listából kellene kiválasztani. Egy ilyen lista összeállítása rendkívül nehézkes és költséges lenne. További jelentős költséget jelentene, hogy az így kiválasztott diákok területileg is rendkívül szétszórtan helyezkednek el, így az információk begyűjtése is hosszadalmas lenne. Ha azonban csoportos mintavételt végzünk, akkor a középiskolák rendelkezésre álló országos listájából egyszerű véletlen mintavétellel kiválaszthatunk néhány középiskolát. Ilyenkor a kiválasztott iskola végzős évfolyamának valamennyi hallgatója belekerül a mintába, s a felvétel során mindannyiukat meg kell kérdezni. Ebben az esetben a csoportok területi koncentráltsága miatt a csoportos mintavétel olcsóbb, mint az egyszerű véletlen mintavétel. Az egyik nagy országos politikai párt valamely döntés meghozatala előtt kíváncsi a tagság véleményére. Ekkor egyszerűbb és olcsóbb a helyi pártszervezetek közül néhányat egyszerű véletlen mintavétellel kiválasztani, s ezeknél minden párttagot megkérdezni, mint egy részletes címlistát összeállítani a párt tagságáról. Csak akkor célszerű a csoportos mintavétel alkalmazása, ha a helyi szervezeteken belül a párt tagjainak véleménye nem azonos a vizsgált kérdésről. Ellenkező esetben a csoportos mintavétel torz eredményre vezethet. A fenti példákból is kitűnik, hogy a csoportos mintavétel során kétféle egység különül el: elsődleges mintavételi egység, amelyre a felvétel közvetlenül irányul (iskolák, helyi szervezetek), végső mintavételi egység, amelyre vonatkozóan következtetéseket akarunk levonni a kapott mintából (tanulók, párttagok).
2.6. 6.2.6. Többlépcsős mintavétel A többlépcsős mintavételt hasonló esetekben alkalmazzuk, mint a csoportos mintavételt – amelyet egylépcsősnek is szoktak nevezni –, azzal a különbséggel, hogy többször ismételjük meg egymás után az egyszerű véletlen mintavételt, tehát a mintaelemek kiválasztása több fokozatban, több lépcsőben történik. A mintavétel végrehajtása során először kiválasztjuk az elsődleges mintavételi egységeket. Attól függően, hogy hányszor ismételjük meg egymás után az egyszerű véletlen kiválasztást, két-, három- vagy többlépcsős mintavételről beszélhetünk. Ha az elsődleges mintavételi egységeken belül rögtön a megfigyelni kívánt elemeket választjuk ki (egyszerű véletlen mintavétellel), akkor kétlépcsős a mintavétel. Ha az elsődleges mintavételi egységeken belül először újabb nagyobb csoportokat választunk ki, majd az így képzett csoportokból választjuk ki a mintaelemeket, akkor a mintavétel három- (vagy több-) lépcsős lesz. A többlépcsős mintavétel előnye a csoportos kiválasztással szemben, hogy homogén elsődleges mintavételi egységek homogenitása esetén a teljes körű megfigyelés helyett mintára támaszkodik, s ezáltal csökken a fölösleges adatfelvételek száma, s így ugyanakkora elemszámú minta esetén kisebb a mintavételi hiba valószínűsége, mint a csoportos mintavételnél. Előző példánkat folytatva, ha a helyi szervezetekben nem kérdeznek meg minden párttagot, hanem egyszerű véletlen mintavétellel kiválasztanak néhányat, s csak ezeknek teszik fel a megfelelő kérdéseket, akkor kétlépcsős mintavételi eljárást hajtanak végre. Ebben az esetben az első lépcső a helyi szervezetek (elsődleges mintavételi egységek) kiválasztása, a második lépcső pedig a megkérdezésre kerülő tagok (végső mintavételi egységek) kiválasztása.
2.7. 6.2.7. Kombinált eljárások
7 Created by XMLmind XSL-FO Converter.
Mintavétel
A kombinált eljárások gyakorta egy lépésben alkalmaznak több, eddig megismert mintavételi módszert. Ily módon ötvözhető például a rétegzés pontosságnövelő előnye a csoportos vagy többlépcsős mintavétel költségmegtakarításával. A KSH pl. az egységes lakossági adatfelvételi rendszerben (ELAR) egyszerre alkalmaz rétegzést és lépcsőzést. A kombinált eljárások külön csoportját képezik a ismétlődő felvételek, illetve panelfelvételek. Ezen felvételek alkalmazására akkor van szükség, ha a vizsgált sokaság szerkezetét vagy az egyes egyedek jellemzőinek időbeni változását akarjuk vizsgálni. Az ismétlődő felvételek esetén nem szükséges, hogy a mintában szereplő egyedek azonosak legyenek. E módszer legfőbb erénye, hogy egy-egy időpontban a vizsgált sokaság keresztmetszetéről megbízható képet ad. Az ismétlődő felvételek általában úgy történnek (például a legtöbb országban a munkaerő-felvételek), hogy a minta elemei néhány egymás után következő megkérdezéskor azonosak, majd előírt rend szerint cserélődnek. A panelfelvételeknél a minta elemeinek a lehetőségek keretei között azonosaknak kell lenniük, s ezáltal alkalmasak az egyes egyedek jellemzőinek időbeni vizsgálatára. A panelfelvétel előnye, hogy számos társadalmi jelenségre vonatkozóan pontosabb információkat ad, mint a szerkezeti változásokból levonható következtetések. Ezeket az előnyöket már az 1940-es években felismerték, és törekedtek a panelfelvételek alkalmazására. Az eljárás hátránya, hogy a mintába került egyedek nyomon követése nehéz, és a válasz megtagadása miatti torzítás gyorsan növekszik. Ilyen panelfelvételnek tekinthető például a KSH háztartás-statisztikája, amelyben ELAR mintára támaszkodva nyernek kétévenként összehasonlító adatokat a lakosság jövedelmére és fogyasztási szokásaira vonatkozóan. A gyakorlatban sokszor előfordul a teljes körű felvétel és a mintavétel összekapcsolása. Pl. Magyarországon jelenleg 3-4 évente tartanak teljes körű állatszámlálást, amikor a kisgazdaságok teljes állatállományát összeírják. Ezen információ kiegészítéseként negyedévente reprezentatív felvételt végeznek egyes fontosabb állatfajták állományának becslése érdekében. A teljes körű felvételek közötti időszakban a reprezentatív felvételből és a megelőző teljes körű felvételből következtetnek a sokaság állapotára, a teljes állatállományra. Ez úgy történik, hogy kiválasztják a sokaságnak a reprezentatív felvétel során a mintába került egyedeit, majd ezeknél a teljes körű és a reprezentatív megfigyelés során nyert eredményeket összehasonlítják. A tapasztalt változásokat a sokaságra matematikai módszerek segítségével általánosítják.
3. 6.3. Nem véletlen mintavételi eljárások Az eddigiek során áttekintettük a véletlenen alapuló mintavételi eljárásokat. Vannak azonban olyan mintavételi eljárások, amelyekre a véletlen kiválasztás nem jellemző, így ezen eljárásokkal létrejövő minták nem tekinthetők véletlen avagy valószínűségi mintáknak. Az eddig ismertetett mintavételi eljárásoknak számtalan hátrányos tulajdonsága van. Ezek közül a leglényegesebb, hogy nincs biztosítva, a minta a sokaságra valóban jellemző legyen, így félrevezető következtetések forrása lehet. Továbbá a nem véletlen minták esetén nem lehetséges a mintából számított jellemzők hibájának a meghatározása, tehát nem tudjuk a bizonytalanság, a tévedés várható hibáját becsülni. Ennek ellenére a nem véletlen mintavételi eljárásokat széles körben alkalmazzák, mivel végrehajtásuk egyszerűbb és esetenként lényegesen olcsóbb, mint a korrektül megtervezett és végrehajtott véletlen mintavétel. Főleg igénytelen felvételeknél (gyors elővizsgálatoknál) használják, korlátozott következtetési lehetőségekkel. A szisztematikus kiválasztásról a véletlen mintavételi eljárások között már esett szó. Láttuk, ha a listaképző ismérv és a megfigyelt ismérv között nincs sztochasztikus kapcsolat, akkor ez az eljárás véletlen mintát eredményez. Ellenkező esetben a kapott mintaelemek nem lesznek függetlenek egymástól, így a következtetések levonása során figyelembe kell venni a mintaelemek függőségéből adódó torzítást is. Időbeni megfigyeléseknél a periodicitás veszélye miatt alkalmazása nem célszerű. Eléggé elterjedt mintavételi eljárás a kvóta szerinti kiválasztás. Ennek lényege, hogy a felvételt végző személyek (kérdezőbiztosok) előre megkapják, hogy milyen összetételű mintához kell jutniuk, de az előre adott kereteken belül rájuk van bízva a véletlenszerű kitöltés. A kvóta szerinti kiválasztás legnagyobb hátránya, hogy a kapott minta a kérdezőbiztosok szimpátiája, illetve ítélőképessége szerint áll össze. Ez a statisztikailag nem számszerűsíthető szubjektivitás jelentős mértékben befolyásolja a kapott eredményeket. Az önkormányzati választások várható eredményét mintavételes eljárással kívánják meghatározni. Kvóta szerinti kiválasztás esetén a kérdezőbiztos úgy kapja meg a feladatát, hogy kérdezzen meg az adott választókörzetben öt 18 és 30 év, tíz 31 és 40 év közötti férfit, három 18 és 30 közötti nőt stb. Ezeken a határokon belül saját maga választja ki a megkérdezett személyeket, elvben véletlenszerűen, gyakorlatban 8 Created by XMLmind XSL-FO Converter.
Mintavétel
azonban szubjektíven, ötletszerűen. Annak ellenére, hogy a kérdezőbiztos korrektül jár el, előfordulhat, ha kora délutáni órában végzi a felmérést, hogy a felvett mintában nagyobb lesz pl. a munkanélküliek aránya, mint a sokaságban. Továbbá gyakori, hogy a kérdezőbiztos saját ismeretségi köréből igyekszik „véletlen mintát” biztosítani, ez viszont bizonyos szempontból homogén csoportok megfigyelését jelenti. Az önkényes kiválasztás során a felvételt végző személy szakmai ismereteire támaszkodva – a véletlent figyelmen kívül hagyva – választja ki a sokaságra jellemző (vagy legalábbis általa jellemzőnek tartott) mintát. Sokéves tapasztalatok mutatják, hogy az ilyen kiválasztáson alapuló megfigyelés sokszor erősen torzított eredményt ad. Meg kell említenünk, hogy az önkényes kiválasztás a mintavétel történelmileg elsőként alkalmazott módszere volt, mára azonban eléggé visszaszorult. Az utóbbi időben elterjedt az ún. exit pool eljárás, amelyet elsősorban a választási eredmények előrejelzésére alkalmaznak. A módszer lényege, hogy a szavazóhelyiségből kijövő választót megkérdezik arról, hogy kire adta a voksát, s az így kapott minta alapján következtetnek a választási eredményekre.
4. 6.4. A mintajellemzők fontosabb tulajdonságai Ha a minta elemeit véletlen mintavételi eljárással választjuk ki, akkor a mintaelemek ismérvértékei és a mintajellemzők valószínűségi változók lesznek. A következőkben a mintajellemzők közül a minta átlagával foglalkozunk részletesen. Kiszámítása a
összefüggéssel történik, ahol
az i-edik mintaelem ismérvértéke. Egy konkrét mintavételnél, ha
adódik, akkor a mintaátlag
A mintaátlag tulajdonságait független, azonos eloszlású minta esetén mutatjuk be, mivel ezen mintavételi mód kezelése matematikailag egyszerűbb. Néhány esetben gyakorlati jelentősége miatt kitérünk az egyszerű véletlen mintavétel esetére is. Tekintsük először a mintaelemek eloszlását. A független, azonos eloszlású minta esetén a minta elemeinek eloszlása megegyezik a sokaság eloszlásával. A mintaelemek várható értéke és szórása pedig a sokaság várható értékével és szórásával fog megegyezni. Hiszen
és
Feladatunk azonban a mintaátlag vizsgálata. A mintaátlagot mint valószínűségi változót várható értékével, szórásával és eloszlásával jellemezhetjük. Vizsgáljuk meg először a mintaátlag mint valószínűségi változó várható értékét. Valószínűségszámításból ismeretes, hogy
Így a minta átlagának várható értéke:
vagyis megegyezik a sokaságra vonatkozó várható értékkel.
9 Created by XMLmind XSL-FO Converter.
Mintavétel
A mintaátlag szórásnégyzete a mintaelemek függetlensége miatt
Így a mintaátlag szórásnégyzete
azaz a mintaátlag szórása
A mintaátlag szórását, a -ot a mintaátlag standard hibájának nevezzük. A standard hiba megmutatja, hogy mekkora a mintaátlagok sokasági várható értéktől való átlagos (négyzetes) eltérésének várható értéke. Nagysága a sokasági szórástól és a mintanagyságtól (n) függ. Egyszerűbben fogalmazva a standard hiba arra ad választ, hogy egyetlen mintavétel esetén mekkora hibát követünk el „átlagosan”. Mivel a hiba elkövetésének „oka” maga a reprezentatív mintavétel, szokásos ezt a hibát a reprezentatív megfigyelés hibájának is nevezni. Ha a mintaelemek kiválasztása egyszerű véletlen mintavétellel történt, akkor a mintaátlag standard hibájának meghatározása (bizonyítás nélkül) a következő összefüggéssel történik:
ahol a
-t korrekciós tényezőnek vagy véges szorzónak nevezzük.
A fenti összefüggésben a korrekciós tényező alkalmazása egyszerű véletlen mintavételnél abból következik, hogy ezen eljárás esetén a mintaelemek nem függetlenek, és ezért a standard hiba levezetésekor a mintaelemek közötti kapcsolatszorosságról tájékoztató kovarianciát is figyelembe kell venni. Az összefüggésből jól látható, hogy egyszerű véletlen mintavétel esetén a mintaátlag szórása jelentős mértékben függhet a kiválasztási aránytól. A korrekciós tényező értéke 0 és 1 között lehet. Alacsony (pl. 1% alatti) kiválasztási arány esetén értéke közel esik 1-hez, ezért elhagyása lényegesen nem befolyásolja a kapott eredményt. Ha viszonylag magas a kiválasztási arány (5 és 10% közötti vagy ennél nagyobb), akkor a korrekciós tényező alkalmazására feltétlenül szükség van. Konkrét mintavételnél
a standard hibát
-gal fogjuk jelölni, és a
összefüggéssel határozzuk meg. Végül vizsgáljuk meg a mintaátlag eloszlását. Független, azonos eloszlású minta esetén a mintaátlag (
) eloszlásáról a következők mondhatók (a
bizonyításokat nem részletezzük, de felhívjuk a figyelmet arra, hogy a összegének konstansszorosa):
a
valószínűségi változók
1. Normális eloszlású sokaság esetén a mintaátlag is normális eloszlású, függetlenül a minta nagyságától. (Normális eloszlású valószínűségi változók összege is normális eloszlású.)
10 Created by XMLmind XSL-FO Converter.
Mintavétel
2. Ha a sokaság eloszlása nem ismert, de nagy mintát veszünk, akkor a mintaátlag közelítőleg normális eloszlású lesz, a centrális határeloszlás-tétel 2 következményeként. 3. Ha a sokaság eloszlása nem ismert és kis mintát veszünk, akkor a mintaátlag eloszlása függ a sokaság eloszlásától, ezért általánosan semmit sem tudunk mondani. A mintaátlag egy-egy mintavételnél megvalósuló konkrét értékeinek eloszlását is szemléltethetjük. Erre vonatkozóan nézzük a következő példát. Az 1994-ben megválasztott 371 országgyűlési képviselő életkor szerinti megoszlása a következő hisztogrammal szemléltethető 3 (6.1. ábra):
6,1. ábra - A képviselők életkor szerinti megoszlásának hisztogramja
A mintaátlag eloszlásának vizsgálatához a 371 elemű sokaságból először 30, majd 100 elemű mintákat vettünk számítógépes véletlenszám-generálás segítségével, visszatevéssel, így független, azonos eloszlású mintához jutottunk. A mintavételt mindkét esetben 100-szor ismételtük meg, majd minden egyes mintára vonatkozóan kiszámítottuk a mintaátlagot. A 30 elemű minták mintaátlagainak megoszlása a következő volt (6.2. táblázat):
6.2. táblázat - 30 elemű minták mintaátlagainak megoszlása A mintaátlag értéke (év)
A mintaátlagok megoszlása (%)
– 43,90
1
43,91 – 45,00
5
45,01 – 46,10
13
46,11 – 47,20
15
47,21 – 48,30
22
48,31 – 49,40
25
49,41 – 50,50
15
50,51 – 51,60
2
Matematika üzemgazdászoknak. Valószínűségszámítás. (Szerk: dr. Csernyák László.) Nemzeti Tankönyvkiadó, Budapest, 1990. 187. oldal. (A további hivatkozásoknál: Valószínűségszámítás.) 3 Az alapadatokat nem közöljük. 2
11 Created by XMLmind XSL-FO Converter.
Mintavétel
51,61 – 52,70
1
52,71 – 53,80
1
Összesen
100
Ezt követően a 100 elemű mintákat választottuk ki a 30 elemű mintákhoz hasonló módon. A kiszámított mintaátlagokat a 6.3. táblázat tartalmazza:
6.3. táblázat - A 100 elemű minták átlagai 47,08 48,64 48,38 46,54 48,68 47,74 46,29 47,52 48,46 48,02 49,51 47,78 46,94 49,34 46,25 47,48 48,21 47,71 46,78 46,03 51,25 47,71 47,55 47,57 47,21 47,78 47,82 46,13 48,58 48,32 48,99 46,74 46,62 47,83 46,70 48,04 47,33 45,68 48,13 47,39 49,45 48,71 46,08 47,16 47,14 48,52 49,47 47,06 48,33 47,65 49,34 47,05 48,13 47,14 50,17 47,54 48,07 48,45 47,98 48,37 46,09 47,87 46,07 47,69 47,79 50,11 47,89 48,68 46,99 47,80 47,97 46,88 47,92 47,48 46,77 47,91 47,35 47,32 46,70 46,73 48,27 49,10 46,17 47,77 48,14 47,16 49,45 46,86 48,96 48,49 48,49 48,44 46,66 50,24 48,05 48,64 47,22 48,17 46,08 46,94 A kapott mintaátlagokat osztályközös relatív gyakorisági sorba rendeztük (6.4. táblázat).
6.4. táblázat - 100 elemű minták mintaátlagainak megoszlása A mintaátlag értéke (év)
A mintaátlagok megoszlása (%)
– 46,10
6
46,11 – 47,20
25
47,21 – 48,30
40
48,31 – 49,40
21
49,41 – 50,50
7
50,51 – 51,60
1
Összesen
100
A mintaátlagok megoszlásait hisztogrammal szemléltethetjük (6.2. és 6.3. ábra).
6,2. ábra - A mintaátlagok megoszlásának hisztogramja 100 db 30 elemű minta alapján
12 Created by XMLmind XSL-FO Converter.
Mintavétel
6,3. ábra - A mintaátlagok megoszlásának hisztogramja 100 db 100 elemű minta alapján
A grafikus ábrákat összehasonlítva azt láthatjuk, hogy a tapasztalati eloszlás 100 elemű minták esetén jobban közelíti a normális eloszlást, mint 30 elemű minták esetén. (A mintaátlag eloszlására tett 2. megállapításunk is ezt mondja ki.) A relatív gyakorisági sorokból és a hisztogramokból az is kitűnik, hogy a mintaátlagok kisebb intervallumban szóródnak 100 elemű minták esetén, mint 30 eleműeknél. Ez egyben azt is jelenti, hogy a 100 elemű minták esetén kisebb a standard hiba. A példánkban mindkét esetben meghatározhatjuk − a mintaelemek függetlenségének feltételezésével − a mintaátlag standard hibáját. (A sokasági szórás 9,84 év.) 13 Created by XMLmind XSL-FO Converter.
Mintavétel
a) 30 elemű minták esetén: b) 100 elemű minták esetén:
év.
S mint vártuk, 100 elemű minták esetén valóban kisebb a mintaátlagok sokasági átlagtól vett átlagos négyzetes eltérésének várható értéke, mint 30 elemű minták esetén. A mintaátlagok átlagát is kiszámíthatjuk: a) 30 elemű minták esetén: b) 100 elemű minták esetén: Természetesen egyik esetben sem kaphatjuk eredményül a sokasági átlagot (ami 47,776 év), mert a 100 kísérlet lényegesen kisebb, mint az összes lehetséges minta száma, mely mintaátlagok átlaga nagyon jól megközelíti a sokasági átlagot.
de ennek ellenére a b) esetben a
Meg kell jegyeznünk, hogy csak a könnyebb megértés érdekében határoztuk meg a sokasági várható értéket. A gyakorlatban éppen ezen érték mintából történő becslése a cél, ezért ez természetesen ismeretlen.
5. 6.5. Gyakorlófeladatok 1. Az alábbi adatokat, információkat ismerjük: a) A BKV által szállított utasok száma 1992-ben Budapesten 1481 ezer fő volt. b) A Budapestre hullott csapadék mennyisége 1996 februárjában 28 mm volt. c) Egy édességbolt kávéforgalma 1996 decemberében. d) A magyar lakosság egy főre jutó húsfogyasztása (kg/fő). e) A dohányzók aránya a 14–18 éves fiatalok körében. f) A kiszolgálási idő átlagos nagysága egy ARAL benzinkútnál. g) A fogyasztói árak alakulása. h) A lakossági tulajdonban lévő személygépkocsik átlagos életkora 8,2 év volt 1992-ben. i) A magyar háztartások jövedelmüknek átlagosan 30%-át fordítják élelmiszer-vásárlásra. j) A felsőfokú intézményekben végzettek száma 1995-ben. Feladat: Gondoljuk át, hogy a fenti információkból melyek azok, amelyek reprezentatív megfigyelésből származnak! 2. Tételezzünk fel egy mindössze 5 elemű sokaságot, amelyben egy mennyiségi ismérv értékei a következők:
A sokaság elemei
értékei
A
2
B
6
14 Created by XMLmind XSL-FO Converter.
Mintavétel
C
8
D
10
E
15
Feladat: a) Számítsuk ki az összes lehetséges kételemű és háromelemű – visszatevés nélküli kiválasztással kapható – mintákat és mintaátlagokat! b) Határozzuk meg a standard hibát: 1. a kételemű minták alapján, 2. a háromelemű minták alapján! c) Hasonlítsuk össze a kapott eredményeket! 3. Néhány, a fejezetben található jelölés: a j-edik réteg nagysága a sokaságban, a sokaság szórásnégyzete, a mintaátlag szórása, a sokaság átlaga, a minta átlaga. Feladat: Párosítsuk a fenti jelöléseket a helyes megnevezéssel! 4. Tételezzük fel, hogy egy sokaság 10 elemből áll. Egy tetszőleges mennyiségi ismérv értékei a sokasági egységeknél:
Sokasági egység
Ismérv értéke
15 Created by XMLmind XSL-FO Converter.
Mintavétel
Feladat: a) Számítsuk ki a sokaság átlagát és szórását! b) Határozzuk meg az ismétlés nélkül kiválasztható kételeműminták átlagait! c) Rendezzük a kapott mintaátlagokat osztályközös gyakorisági sorba! Készítsünk az adatokból gyakorisági poligont! d) Vizsgáljuk meg a mintaátlagok sokasági átlag körüli szóródását! 5. A katonai sorozáson megjelenő fiúk átlagos testmagassága 175 cm, a testmagasság szórása 8 cm. (A testmagasság szerinti eloszlás normálisnak tekinthető.) Feladat: A sokaságból 20 elemű mintát véve, mekkora a valószínűsége annak, hogy a mintaátlag a sokasági átlag 3 cm-es környezetében lesz? 6. A felnőtt korú népesség testtömege szerint normális eloszlású, 78 kg-os várható értékkel, 8 kg-os szórással. A sokaságból 10 fős véletlen mintát veszünk. Feladat: a) Mi a valószínűsége annak, hogy 1. a mintába kerülők mindegyikének a testtömege meghaladja a 80 kg-ot, 2. a mintaátlag nagyobb, mint 80 kg? b) Magyarázzuk meg a kapott eredményeket! 7. Valamely termék gyártásánál az éves termelésben a szabvány-előírásnak megfelelő termékek aránya 90%. Feladat: Számítsuk ki annak a valószínűségét, hogy egy 200 elemű egyszerű véletlen mintában legalább 95% a szabványnak megfelelő termékek aránya! (Megjegyzés: a mintabeli arányok normális eloszlásúak!) 8. Hosszú évek tapasztalata alapján feltételezhetjük, hogy a hallgatók statisztikadolgozatainak pontszáma normális eloszlást követ. Az átlagos pontszám: pont, a szórás: pont. (A dolgozatok elérhető maximális pontszáma 100 pont.) Feladat: a) Számítsuk ki annak a valószínűségét, hogy egy 40 fős tanulócsoportban az átlagos pontszám 72 pont felett lesz! b) Mekkora a valószínűsége annak, hogy egy véletlenszerűen kiválasztott hallgató 72 pont felett teljesít?
16 Created by XMLmind XSL-FO Converter.
7. fejezet - Statisztikai becslések 1. 7.1. Alapfogalmak Az előző fejezetben a mintavétel alapfogalmaival, a mintavételi eljárásokkal és a mintaátlag tulajdonságaival ismerkedtünk meg. Ebben a fejezetben valamely sokasági jellemző (várható érték, szórás, értékösszeg, arány stb.) mintából történő közelítő meghatározásával foglalkozunk. A mintából való következtetés fontos alapfogalma a becslőfüggvény. Becslőfüggvényen a értéke a sokaság valamely
mintaelemek olyan n-változós függvényét értjük, amelynek paraméterének mintából történő becslésére szolgál. 1
Becslőfüggvény lehet például a mintaelemek átlaga
amellyel a sokasági várható értéket
vagy a mintabeli arány, amellyel a sokasági arányt becsülhetjük. Ugyanazon sokasági jellemző értékének közelítő meghatározásához több becslőfüggvény is használható. Például a sokasági várható érték becslésére a mintaelemek számtani átlagán kívül szimmetrikus eloszlás esetén a mediánt, a harmonikus átlagot, a négyzetes átlagot stb. is használhatjuk. A sokasági szórásnégyzet becslésére is több becslőfüggvényt konstruálhatunk. Ezek közül a legfontosabbakat emeljük ki. Becsülhetjük a
statisztikával, amelynek egy konkrét mintavételnél
az értéke az
összefüggéssel határozható meg. A fenti becslőfüggvényt tapasztalati szórásnégyzetnek nevezzük. A sokasági szórásnégyzet becslésére használhatjuk a korrigált tapasztalati szórásnégyzetet, a
becslőfüggvényt is, amelynek egy adott mintánál az értéke
Mivel a legtöbb sokasági jellemző becslésére több becslőfüggvény is konstruálható, ezért felvetődik a kérdés, hogy melyiket használjuk. Ehhez nyújtanak támpontot a becslőfüggvényekkel szemben támasztott követelmények, amelyek alapján el tudjuk dönteni, hogy melyik becslőfüggvény mondható jónak, jobbnak, illetve bizonyos esetben a legjobbnak. A becslőfüggvény értéke valószínűségi változó, értéke mintáról mintára változhat, de egyetlen n elemű mintához csak egyetlenegy értéket rendel. Ezt az értéket nevezzük valamely sokasági jellemző pontbecslésének. Például
1
A mintaelemek ezen függvényét statisztikának is szokták nevezni.
17 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
-nek pontbecslése az és -nak az s* vagy az s. Ezzel szemben az intervallumbecslésnél egyetlenegy minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza az ismeretlen sokasági jellemzőt. Ezt az intervallumot konfidenciaintervallumnak vagy megbízhatósági intervallumnak nevezzük.
2. 7.2. A becslőfüggvényekkel szemben támasztott követelmények 2.1. 7.2.1. Torzítatlanság Torzítatlannak nevezünk egy becslőfüggvényt, ha annak várható értéke megegyezik a becsülni kívánt sokasági jellemző értékével. Jelöljük a sokasági jellemzőt -val, a becslőfüggvényét pedig továbbra is tekinthető torzítatlan becslőfüggvényének, ha
-pal. E követelmény szerint
akkor
Véges sokaság esetén a torzítatlanság tulajdonsága azt jelenti, hogy ha az összes lehetséges módon kiválasztjuk az n elemű mintákat, és minden egyes minta esetén kiszámítjuk a becslőfüggvény értékét, majd ezek számtani átlagát képezzük, akkor e követelmény szerint a sokasági jellemző értékét kell kapnunk. Vagyis az összes lehetséges pontbecslés átlaga a tényleges érték. Ennél kevésbé szigorú, ám a gyakorlatban mégis sokszor elfogadható az aszimptotikus torzítatlanság követelményének teljesülése is. Eszerint
azaz a minta elemszámának növelésével a becsülni kívánt paraméter és a becslőfüggvény várható értékének különbsége egyre kisebb lesz. Nézzük meg e követelmények teljesülését néhány becslőfüggvény esetén. A mintaátlag
a sokasági várható érték torzítatlan becslőfüggvénye.
E tulajdonság teljesülését már a 6.4. pontban bizonyítottuk. Vagyis beláttuk, hogy ha a eloszlású, független valószínűségi változók alkotják a mintát, akkor
ahol
a sokaság (egyben a
azonos
) várható értéke.
Ha konkrétan egy mintavételre sor kerül, és
adódik, akkor
az
értékeknek ugyanazon függvénye, mint a valószínűségi változóknak, vagyis az úgy tekinthető, mint e minta esetén felvett értéke (azaz olyan valószínűségi változó által felvett érték az , amelynek várható értéke ). Most vizsgáljuk meg, hogy a szórásnégyzetekre teljesül-e ez a követelmény. Tekintsük először a tapasztalati szórásnégyzet várható értékét:
18 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
Mivel
, továbbá
, így
Vagyis a tapasztalati szórásnégyzet hogy
a sokasági szórásnégyzet torzítottbecslőfüggvénye. Igaz viszont,
a tapasztalati szórásnégyzet tehát a sokasági szórásnégyzet aszimptotikusan torzítatlan becslőfüggvénye. A korrigált tapasztalati szórásnégyzet viszont már torzítás nélkül becsüli a -et. Ezt könnyen igazolhatjuk. A korrigált tapasztalati szórásnégyzetet a tapasztalati szórásnégyzet felhasználásával a következőképpen írhatjuk fel:
Ezen összefüggést és a tapasztalati szórásnégyzet
várható értékének levezetésénél leírtakat felhasználva
tehát a becslőfüggvény torzítatlan. Ezért a gyakorlatban a korrigált tapasztalati szórásnégyzetet használjuk a sokasági szórásnégyzet becslésére.
2.2. 7.2.2. Konzisztencia A konzisztencia követelménye azt írja elő, hogy a becslés torzítatlan (vagy legalább aszimptotikusan torzítatlan) legyen, és a mintanagyság minden határon túl történő növelése esetén annak a valószínűsége, hogy a becsülni kívánt paraméter és a becslőfüggvény eltérése kisebb egy számnál, 1 legyen. Képlettel felírva:
19 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
Másképpen megfogalmazva: a konzisztencia azt a követelményt támasztja a becslőfüggvényekkel szemben, hogy nagyon nagy minta esetén a becslőfüggvény mintából számított értéke nagy valószínűséggel közelítse meg a sokasági jellemző értékét. Véges (N elemű) sokaság és visszatevés nélküli mintavétel (tehát egyszerű véletlen mintavétel) esetén a konzisztencia azt jelenti, hogy esetén a becslőfüggvény „mintából” számított értéke megegyezik a sokasági paraméter értékével.
2.3. 7.2.3. Hatásosság Ha a
és a
torzítatlan becslőfüggvénye
-nak, és
akkor azt mondhatjuk, hogy
hatásosabb becslőfüggvénye -nak, mint Más szavakkal: az a becslőfüggvény hatásosabb, amelynél a becslőfüggvény mintából számított értékeinek a sokasági paramétertől számított átlagos négyzetes eltérésének várható értéke (tehát szórása) kisebb. A 7.1. ábrán két torzítatlan ( , ) becslőfüggvény sűrűségfüggvénye látható. A kettő közül azt tekintjük hatásosabb becslőfüggvényének, amelynek szórása (standard hibája) kisebb, mivel ez azt jelenti, hogy becslésünk nagyobb valószínűséggel áll közel a sokasági paraméterhez.
7,1. ábra - A
és
becslőfüggvény eloszlás
Ha egy sokasági paraméter összes becslőfüggvénye között létezik egy olyan, amelynek minimális a szórása, azt hatásos becslésnek nevezzük.
2.4. 7.2.4. Elégségesség Ez a követelmény azt mondja ki, hogy az elégséges becslés minden mintából nyerhető információt tartalmaz a becsülni kívánt jellemzőről.
3. 7.3. Intervallumbecslés Az alapfogalmak áttekintése után a becslések különböző eseteivel foglalkozunk. A becslés egyik célja egy olyan intervallum megadása, amely megadott nagy valószínűséggel tartalmazza a sokasági jellemzőt. Ekkor konfidenciaintervallumot határozunk meg. A becslés során egyetlen n elemű minta alapján egyetlenegy értéket is adhatunk az ismeretlen sokasági jellemzőre. Ekkor – mint már említettük – pontbecslést hajtunk végre. Pl. pontbecslést adunk, ha azt mondjuk, hogy a sokaság várható értéke a mintaátlaggal ( ), vagy a sokasági arány a mintabeli aránnyal egyenlő stb. Térjünk vissza ismét a konfidenciaintervallum meghatározására.
3.1. 7.3.1. A sokaság várható értékének becslése 20 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
A sokaság várható értékének
becslőfüggvényeként a mintaátlagot
használjuk. Mint azt már beláttuk,
torzítatlan és konzisztens becslést eredményez. A sokasági várható értékre adott konfidenciaintervallum meghatározásánál a mintaátlag eloszlásáról elmondottak (6.4. pont) alapján a következő alpontokat fogjuk megkülönböztetni: a) Normális eloszlású sokaság esetén, ha a sokaság szórása
ismert.
b) Normális eloszlású sokaság esetén, ha a sokaság szórása
nem ismert.
c) Nem normális, de ismert eloszlású sokaság esetén, ha nagy mintát vettünk. d) Nem normális, de ismert eloszlású sokaság esetén, ha kis mintát vettünk, illetve ismeretlen eloszlású sokaság esetén. A további tárgyalás során a minta elemszáma legyen n, és az előre rögzített (magas) valószínűségi szint a) Normális eloszlású sokaság esetén, ha a sokaság szórása
ismert
Ha a sokaság normális eloszlású, a minta elemei és a mintaátlag elemszámától függetlenül. Mivel a sokasági szórás
.
is normális eloszlású lesz, a minta
ismert, definiálhatunk egy valószínűségi változót oly
módon, hogy a normális eloszlású mintaátlagból kivonjuk annak várható értékét
és elosztjuk a szórásával
Jelöljük ezt a változót Z-vel, tehát
Így Z standard normális eloszlású valószínűségi változó lesz. A konfidenciaintervallum meghatározása során keressük azt a
intervallumot, amely
valószínűséggel tartalmazza a Z változót, azaz
és valószínűséggel nem tartalmazza azt. A keresett intervallumot úgy határozzuk meg, hogy ugyanakkora valószínűsége legyen annak, hogy a Z változó kisebb, mint az intervallum alsó határa, mint annak, hogy a Z nagyobb, mint annak felső határa. Ez a valószínűség -vel egyenlő, mivel a keresett intervallum a Z valószínűségi változót valószínűséggel nem tartalmazza, azaz
Mivel a Z változó standard normális eloszlású (és ezen eloszlás szimmetrikus az Y tengelyre), ezért az intervallum is szimmetrikus lesz a Y tengelyre, így helyett határokat használhatunk. A keresett intervallumba esés valószínűsége (Z standard normális eloszlású, az ismert összefüggések felhasználásával 2 ) pedig:
Előre megadott magas valószínűségi szint esetén a Z valószínűségi változónak a konfidenciaintervallumba valószínűséggel kell esnie. Ekkor
2
Valószínűségszámítás 142. oldal
21 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
azaz
Ebből z meghatározható táblázat (Függelék 1. táblázat) alapján, a megoldás legyen amely mellett a
.A
tehát az az érték,
intervallum kimetszi a standard normális eloszlás sűrűségfüggvénye alatti terület
%-át. Ezt szemlélteti a 7.2. ábra.
7,2. ábra - A konfidenciaintervallum ábrázolása
Mivel a sokaság várható értékére (μ-re) akarunk egy intervallumot adni, rendezzük át a egyenlőtlenséget oly módon, hogy az intervallum középpontjában a sokaság várható értéke (μ) álljon. Tehát
Ebből
azt jelenti, hogy
Vagyis a konfidenciaintervallum Egy konkrét mintaesetén
a konfidenciaintervallum
A mennyiséget hibahatárnak vagy maximális hibának nevezzük és Δ-val jelöljük. Ez az érték azt mutatja meg, hogy a becslés során valószínűséggel Δ-nál kevesebbet tévedünk.
22 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
A becslés hibahatárának csökkentésére több lehetőség is adódik. Csökkenthetjük a standard hibát, a értéket, illetve mindkettőt. A standard hiba, a mintaátlag szórása csak a minta elemszámától függ (a sokasági szórás ( ) adott), mégpedig annak gyökével fordítottan arányos. Így a standard hiba, s ezáltal a hibahatár csökkentésének egyik módja a minta elemszámának növelése. A értéke a megbízhatósági szinttől, az (1 – μ)-tól függ. Tehát a megbízhatósági szint csökkentésével (az intervallumunk kisebb valószínűséggel tartalmazza a sokasági paramétert) a hibahatárt is csökkentjük. Összefoglalva az elmondottakat, a becslési pontosságot a minta elemszámának növelésével vagy a megbízhatósági szint csökkentésével javíthatjuk. De ez utóbbi csak látszateredmény, mert hiába adunk meg kis intervallumot, ha kis valószínűséggel esik csak bele a μ. Jól látható, hogy az intervallum határai valószínűségi változók, értékük függ a minta átlagától. Mivel csak egyetlenegy minta áll a rendelkezésünkre, ezért a konfidenciaintervallum határai is konkrét számértékek lesznek. Ekkor a konfidenciaintervallumot úgy értelmezhetjük, hogy a sokaság várható értéke valószínűséggel határok közé esik. Tekintsünk vissza a 6. fejezetben elkezdett számpéldára. Határozzuk meg, hogy milyen határok közé esik 95%os valószínűséggel a 371 országgyűlési képviselő átlagéletkora, ha csak egyetlen 100 elemű mintát vettünk. A konfidenciaintervallum megadásához tételezzük fel, hogy a sokaság normális eloszlású, és a minta elemeit visszatevéssel választottuk ki (tehát függetleneknek tekinthetjük). A kiválasztott 100 elemű minta átlaga 47,08 év. A 371 képviselő életkorának szórása (sokasági szórás) 9,85 év. Tehát: A becslőfüggvény értéke a 100 elemű minta alapján: A mintaátlag standard hibája:
Ezek után határozzuk meg a hibahatárt. Ehhez szükség van a
értékére – a meghatározásához
–, amely a standard normális eloszlás táblázatából kereshető ki.
így
. A hibahatár:
Tehát 95%-os valószínűséggel 1,93 évnél kevesebbet tévedünk a becslés során. A konfidenciaintervallum határai: 47,08 ± 1,93, így a 371 képviselő átlagéletkora 95%-os valószínűséggel 45,15 év és 49,01 év között van.
7,3. ábra - A konfidenciaintervallum elhelyezkedése a mintavétel többszöri végrehajtása esetén
23 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
Már említettük, hogy a konfidenciaintervallum határait befolyásolja a minta átlaga, vagyis az a tény, hogy a kiválasztás során melyik sokasági elem kerül be a mintába. Mivel a sokaság szórása ismert, továbbá változatlan a konfidenciaintervallumba esés valószínűsége (95%), ezért a maximális hiba, s ezáltal a konfidenciaintervallum hossza is ugyanaz lesz minden esetben. Tehát az intervallum elhelyezkedése csak egyetlen tényezőtől, a mintaátlagtól függ. A 7.3 ábra 5 különböző minta esetén – amelyek mintaátlagai a 6.3. táblázatban találhatók és amelyek rendre 47,08 év, 49,51 év, 51,25 év, 48,99 év és 49,45 év – a konfidenciaintervallum elhelyezkedését szemlélteti. b) Normális eloszlású sokaság esetén, ha a sokaság szórása ( ) nem ismert A becslés célja továbbra is az, hogy konfidenciaintervallumot készítsünk a sokaság várható értékére, Mivel a sokaság szórása (σ) nem ismert, ezért azt a mintából a korrigált tapasztalati szórás ( ) segítségével kell becsülni. Ennek következtében a
változót lehet csak használni az intervallum meghatározásához. Ez a változó (Student-féle) t-eloszlású valószínűségi változó szabadságfokkal. 3 (Azért a szabadságfok, mert a számlálóban lévő valószínűségi változó nem független a
3
valószínűségi változóktól.)
A Student-féle t-eloszlás sűrűség- és eloszlásfüggvénye a Valószínűségszámítás 196. oldalán található.
24 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
7,4. ábra - A standard normális és a Student-féle t-eloszlás
A t-eloszlással kapcsolatban meg kell említenünk, hogy a standard normális eloszláshoz hasonlóan szimmetrikus az Y tengelyre, továbbá a szabadságfok növelésével a t-eloszlás egyre inkább közelít a standard normális eloszláshoz, 100 feletti szabadságfok esetén (azaz jelen esetben 100-nál több elemű minta esetén) 4 a két eloszlás eltérése minimális lesz. A 7.4. ábrán a standard normális és a Student t-eloszlás sűrűségfüggvényét szemléltetjük. (Az N(0, 1) jelölés a standard normális eloszlásra utal.) A konfidenciaintervallum az a) pontban megfogalmazott esethez hasonlóan vezethető le, azzal a különbséggel, hogy a Z helyett a változót használjuk, továbbá az egyenlet megoldása Student t-eloszlás táblázatából kereshető ki (Függelék 4. táblázat).
helyett
lesz, amely a
Az elmondottaknak megfelelően a konfidenciaintervallum határai:
Konkrét minta esetén:
ahol
és
Folytassuk a példánkat azzal a feltevéssel, hogy a sokaság szórása (σ) nem ismert. Ekkor mintából kell becsülnünk. A minta elemeiből számított korrigált tapasztalati szórás A mintaátlag standard hibája:
(Mivel a standard hiba kiszámításához a korrigált tapasztalati szórást használtuk fel, ezért konkrét minta esetén az 4
jelölést használjuk a
helyett.)
Ez az egyik magyarázata annak, hogy a 100-nál nagyobb elemű mintákat már nagy mintáknak tekintjük.
25 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
A hibahatár kiszámításához a Student t-eloszlás táblázatából kell kikeresni a
-t, amelynek értéke a példában
Ennek megfelelően a hibahatár:
A konfidenciaintervallum pedig: (47,77 ± 2,0) év. Tehát a 371 képviselő átlagéletkora 95%-os valószínűséggel 45,77 év és 49,77 év között van. c) Nem normális, de ismert eloszlású sokaság esetén, ha nagy mintát vettünk Nagy minta esetén – a 6.4. fejezetben elmondottak alapján – a mintaátlag a centrális határeloszlás tétele értelmében közelítőleg normális eloszlású lesz, így a sokaság várható értékére adott konfidenciaintervallum alsó és felső határa konkrét minta esetén az
illetve a
összefüggés alapján határozható meg attól függően, hogy ismert vagy sem a sokasági szórás. Mivel nagy mintánk van – és nagy mintához tartozó szabadságfok esetén a Student t-eloszlás megközelítőleg egybeesik a standard normális eloszlással –, a konfidenciaintervallum meghatározásához ismeretlen sokasági szórás esetén is használhatjuk a standard normális eloszlás táblázatát. (A fentiek közül az első intervallumot azzal a különbséggel, hogy a sokasági szórás (σ) helyett a mintabeli korrigált tapasztalati szórást (s) használjuk.) d) Nem normális, de ismert eloszlású sokaság esetén, ha kis mintát vettünk, illetve ismeretlen eloszlású sokaság esetén Mivel ekkor a minta átlagának eloszlásáról általánosan semmit sem tudunk mondani, ezért a konfidenciaintervallum meghatározása a valószínűségszámításból megismert Csebisev-egyenlőtlenség 5 alapján történik, amely a következő formában írható fel:
Tegyük fel, hogy valószínűségi változónk egyenlőtlenség felírható a következő módon:
amelynek várható értéke
szórása pedig
ekkor a fenti
A felírt egyenlőtlenség nagyon hasonlít a korábban meghatározott konfidenciaintervallumra azzal a különbséggel, hogy itt a „szorzószám” nem egy eloszlás táblázatából vett érték, hanem az összefüggésből határozható meg. Tehát a Csebisev-egyenlőtlenség azt mutatja meg, hogy az intervallumba esés valószínűsége legalább helyett használható a
. Természetesen, ha a sokaság szórása nem ismert, a
is.
Konkrét mintánál a Csebisev-egyenlőtlenség
5
Valószínűségszámítás 108. oldal
26 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
formában írható fel, amelynél, ha a sokaság szórása nem ismert, a
helyett az
is használható.
Tekintsük a következő példát! Egy biztosítótársaság központjában az átlagkereset meghatározása céljából egy 20 elemű mintát vettek. A mintában az átlagkereset a keresetek korrigált tapasztalati szórása pedig s = 21 300 Ft. Becsüljük meg legalább 95%-os valószínűséggel, hogy milyen határok között van a központ dolgozóinak átlagkeresete! Először határozzuk meg a k értékét!
A mintaátlag standard hibája: Ezek után kiszámíthatjuk a konfidenciaintervallum határait:
A központ dolgozóinak átlagkeresete legalább 95%-os valószínűséggel 26 910,3 Ft és 69 489,7 Ft között lesz. Az eddigiek során feltételeztük – a pontos matematikai tárgyalás érdekében –, hogy független, azonos eloszlású minta áll a rendelkezésünkre. Ha a minta elemei egyszerű véletlen mintavételből származtak, akkor a konfidenciaintervallum meghatározása némiképp módosul az eddigiekhez képest. A sokaság várható értékének a becslésére továbbra is a mintaátlag használható. A mintaátlag standard hibája (ami független, azonos eloszlású minta esetén , illetve
illetve
) a 6.4. fejezetben leírtaknak megfelelően
volt, konkrét minta esetén pedig illetve a korrigált
tapasztalati szórás felhasználásával lesz. Az egyszerű véletlen mintavételnek számtalan jó tulajdonsága mellett hátránya, hogy kismintás vizsgálatoknál csak közelítő módon tudunk konfidenciaintervallumot adni az átlagbecslésre. Szerencsére belátható, hogy nagy minták esetén a
változó standard normális eloszlást követ, így az intervallumbecslést az eddigiekben megismert módon lehet elvégezni. Egyetlen eltérés csupán, hogy a standard hiba kiszámításakor a korrekciós tényezőt is figyelembe kell venni. Mivel nagy mintánk van, a fenti valószínűségi változó akkor is standard normális eloszlású, ha a sokasági szórás (σ) helyett a mintából becsült korrigált tapasztalati szórást ( ) használjuk. Nézzünk néhány példát! Tegyük fel, hogy az országgyűlési képviselők életkorának becslésére felhasznált minta elemeit nem visszatevéssel, hanem visszatevés nélkül választottuk ki (tehát egyszerű véletlen mintavétel történt). A minta elemei nem függetlenek, így a mintaátlag standard hibájának kiszámításánál alkalmaznunk kell a korrekciós tényezőt:
27 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
A hibahatár: A konfidenciaintervallum pedig: (47,08 ± 1,65) év, azaz (45,43 ; 48,73) év. Az a) pontban számított eredménnyel (45,15 ; 49,01) összehasonlítva megállapíthatjuk, hogy visszatevés nélküli mintavétel esetén a konfidenciaintervallum rövidebb – tehát pontosabb becslést eredményez –, mint visszatevéses mintavételnél. Ez az eltérés azzal magyarázható, hogy visszatevéses mintavétel esetén a „szélsőséges” mintaelemek ismét bekerülhetnek a mintába, így a becslési hiba nagyobb lehet. Vegyünk egy másik példát! Egy konzervipari vállalat 50 000 üvegből álló gyümölcskonzerv-szállítmány értékesítését tervezi. Minőségellenőrzés céljából egy 500 üvegből álló mintát vesznek egyszerű véletlen mintavétellel. A mintába került üvegek nettó töltőtömeg szerinti megoszlása a következő (7.1. táblázat):
7.1. táblázat - A mintába került üvegek nettó töltési tömeg szerinti megoszlása Üvegek nettó töltési tömege, gramm
Üvegek száma
441 – 460
15
461 – 480
85
481 – 500
160
501 – 520
190
521 – 540
50
Összesen
500
Becsüljük meg 95%-os valószínűséggel, hogy milyen határok között van az üvegek átlagos nettó töltőtömege a szállítmányban! Mivel a sokaság eloszlása nem ismert, de nagy mintát vettünk, a c) pontban megfogalmazott esettel van dolgunk. A feladat megoldása során első lépésként ki kell számolnunk a becslőfüggvény értékét, a mintaátlagot, majd a korrigált tapasztalati szórást kell meghatároznunk. A mintaátlag (súlyozott számtani átlag formát alkalmazva):
A korrigált tapasztalati szórás:
A mintaátlag standard hibája:
Az értékhez és az így a hibahatár:
szabadságfokhoz tartozó Student t-eloszlású változó értéke
28 Created by XMLmind XSL-FO Converter.
és
Statisztikai becslések
A konfidenciaintervallum határai pedig: az alsó határ: 497 – 1,7 = 495,3 gramm, a felső határ: 497 + 1,7 = 498,7 gramm. Tehát az 50 000 üveg átlagos nettó töltőtömege 95%-os valószínűséggel 495,3 és 498,7 gramm között van. Megjegyzés: A hibahatár meghatározásához (tekintettel a nagy mintaelemszámra) használhatjuk a Student teloszlás helyett a standard normális eloszlás táblázatát is. Az esetén a standard normális eloszlású változó értéke . A és a érték megegyezik, ezért ugyanahhoz az eredményhez jutunk.
3.2. 7.3.2. A sokasági értékösszeg becslése A minta alapján a sokasági várható érték mellett lehetőségünk van ezen mutató N-szeresének, a sokasági értékösszegnek értékösszeget becslőfüggvénye:
a becslésére is. A sokasági értékösszeg becslőfüggvényeként nem a mintabeli használjuk, hanem a mintaátlag N-szeresét. Így a sokasági értékösszeg
Mivel a becslőfüggvény az átlagbecslés becslőfüggvényének egy konstanssal (N) történő szorzásával jön létre, ezért a standard hiba négyzete is N-szerese lesz az átlagbecslés standardhiba-négyzetének:
attól függően, hogy ismert vagy sem a sokasági szórás. Konkrét mintából számolva a standard hiba négyzete:
Ezek után a sokasági értékösszegre adott konfidenciaintervallum alsó és felső határa a következő lesz:
Konkrét minta esetén pedig a határok az
összefüggéssel határozhatók meg, ahol Fontos megjegyeznünk, hogy a keresett intervallumot megkaphatjuk úgy is, hogy a sokasági várható értékre adott konfidenciaintervallum határait – pl. – megszorozzuk N-nel, hisz a sokasági értékösszegre adott konfidenciaintervallum levezetésénél a becslőfüggvényt és annak standard hibáját is megszoroztuk a sokaság elemszámával, N-nel. Az előzőekben meghatározott konfidenciaintervallum, ha a minta elemszáma nagy, mind független azonos eloszlású, mind egyszerű véletlen minta esetén használható. A különbség csak a standard hiba kiszámításában van. Kis minta esetén – hasonlóan az átlagbecsléshez – a megadott összefüggés csak akkor használható, ha független, azonos eloszlású mintánk volt.
29 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
Folytassuk a gyümölcskonzerv-szállítmányra vonatkozó példánkat, és határozzuk meg, milyen határok között lesz 95%-os valószínűséggel az 50 000 üveg összes nettó töltőtömege ! A becslőfüggvény értéke az eddigi számítási eredmények felhasználásával:
Egyben 24 850 kg a pontbecslés értéke is, hiszen egyetlen mintához egyetlen értéket rendel. Az intervallumbecsléshez a becslőfüggvény standard hibája:
esetén:
A konfidenciaintervallum pedig
Ugyanarra az eredményre jutunk, ha a sokasági várható értékre adott konfidenciaintervallum határait megszorozzuk 50 000-rel. Így
Tehát 50 000 üveg összes nettó töltőtömege 95%-os valószínűséggel 24 765 és 24 935 kg között van.
3.3. 7.3.3. A sokasági arány becslése A sokasági arány becslésének, az ún. aránybecslésnek az a lényege, hogy a sokaságot valamely minőségi vagy mennyiségi ismérv alapján két csoportba soroljuk, és az egyes csoportokba esés valószínűségét akarjuk meghatározni. Vizsgálhatjuk például a sokaságon belül a férfiak vagy a nők arányát, egy vállalaton belül azon dolgozók arányát, akiknek a keresete magasabb, mint 25 000 Ft, vagy valamely terméknél bizonyos minőségi követelményeknek megfelelő darabok arányát. A sokasági arányt P-vel jelöljük. Ez azt jelenti, hogy egy egyedet kiválasztva P a valószínűsége annak, hogy az egyed rendelkezik az adott tulajdonsággal. Továbbra is feltételezzük, hogy független, azonos eloszlású minta áll a rendelkezésünkre. Ha n elemű mintát veszünk, akkor legyen az adott tulajdonsággal rendelkező mintabeli elemek száma . Független minta esetén
binomiális eloszlású (Bernoulli-féle kísérletsorozatról van szó) és
Így a mintabeli arány
várható értéke
Mivel P és így becsüljük.
így
a P-nek torzítatlan becslése, és szórásnégyzete
eleve ismeretlen (hiszen a P-t akarjuk meghatározni), ezért a
30 Created by XMLmind XSL-FO Converter.
-ot
-nel
Statisztikai becslések
Egy konkrét mintábanp-vel jelöljük a
értékét, a
értékét pedig
-nel. Úgy is felfoghatjuk, hogy
legyenek az adott tulajdonsághoz tartozó karakterisztikus valószínűségi változók, azaz
és
Ekkor Ugyanakkor
és
vagyis
Az eddigiek során alkalmazott gondolatmenetnek megfelelően a mintából számított arány ( ) alapján a binomiális eloszlás segítségével megkaphatjuk a keresett konfidenciaintervallumot. Ezt az eljárást a gyakorlatban ritkán alkalmazzuk. Helyette (mivel nagy mintaelemszám esetén a binomiális eloszlás jól közelíthető normális eloszlással) definiálhatunk egy
valószínűségi változót, amely standard normális eloszlású, ha n elég nagy. Ekkor a konfidenciaintervallum meghatározásához a standard normális eloszlást használjuk, s ennek segítségével (hasonló gondolatmenetet alkalmazva, mint az átlagbecslésnél) a következő módon írhatjuk fel a keresett intervallumot:
amelyből a konfidenciaintervallum alsó és felső határa konkrét mintaesetén:
ahol
a
egyenlet megoldása során a standard normális eloszlás táblázatából kikeresett érték.
Ha egyszerű véletlen minta áll a rendelkezésünkre, akkor a konfidenciaintervallum meghatározása az előzőektől csak annyiban különbözik, hogy az
kiszámításánál a korrekciós tényezőt
is figyelembe kell venni.
Egyik közvélemény-kutató cégünk a választók között a választás napján közvélemény-kutatást végzett abból a célból, hogy az urnák lezárása után röviddel közzétegye a választás becsült eredményét. A fővárosban az egyik pártra a 2000 megkérdezettből 700 szavazott. Becsüljük meg 99%-os valószínűséggel, hogy milyen határok között lesz a pártra szavazók aránya a szavazatok összeszámlálása után a fővárosban! A pártra szavazók aránya a mintában (a becslőfüggvény értéke):
majd kiszámítjuk a standard hibát:
31 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
A 99%-os valószínűséghez konfidenciaintervallum határai:
tartozó
táblázatbeli
érték
felhasználásával
a
Tehát a szavazatok összeszámlálása után 99%-os valószínűséggel arra számíthatunk, hogy a kiválasztott pártra szavazók aránya 32,2% és 37,8% között lesz.
3.4. 7.3.4. A sokasági szórásnégyzet becslése A sokasági szórásnégyzet ( szórásnégyzetet ( ) használjuk.
) becslésére a torzítatlan becslést eredményező korrigált tapasztalati
Független, azonos eloszlású minta esetén definiáljuk az
változót. Ha a minta
tagjainak szórásnégyzete
és
akkor a
valószínűségi változók várható értéke 0 és szórásuk 1. Ha feltételezzük, hogy normális eloszlásúak, akkor négyzetösszegük, így
szabadságfokkal.
is
6 érdemes megjegyezni, hogy független standard normális eloszlású változók négyzetösszegének A eloszlását fejezi ki. Egyetlen szabadságfoka van, ami az összegezendő független változók számával egyenlő. A csak pozitív értékekre van értelmezve, s balról aszimmetrikus. Az eloszlás sűrűségfüggvényét a 7.5. ábra szemlélteti.
7,5. ábra - A
6
sűrűségfüggvénye különböző szabadságfokok esetén
Valószínűségszámítás 196. oldal
32 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
A 7.3.1. pontban már megállapítottuk, hogy annak valószínűsége, hogy a sokasági paraméter a konfidenciaintervallumba esik, s annak valószínűsége, hogy nem, . Sokasági paraméterünk valószínűséggel lesz kisebb a konfidenciaintervallum alsó határánál, s ugyanekkora valószínűséggel lesz nagyobb a felső határánál. Mivel a aszimmetrikus, az eddigi esetekkel ellentétben a konfidenciaintervallum nem lesz szimmetrikus a pontbecslésre. A konfidenciaintervallum képzéséhez írjuk fel az alábbi összefüggést:
ahol a
illetve a
szabadságfok esetén a
az
eloszlásfüggvényének az
illetve az
értékhez tartozó kvantilise. Ezt a táblázatából kereshetjük ki. (Függelék 2. táblázat.) Mivel az eloszlás nem szimmetrikus, mind a két értéket ki kell keresnünk a táblázatból. Átrendezés után a következő összefüggés írható fel:
Ebből már felírhatjuk a sokasági szórásra adott konfidenciaintervallumot. Konkrét minta esetén
Nézzünk egy példát az elmondottakra. Egy 250 grammos vákuumos kávét csomagoló gép működésének vizsgálatához egy 100 elemű véletlen mintát vettek az egyik munkanapon. A mintába került kávécsomagok nettó töltési tömeg szerinti megoszlása a következő volt:
7.2. táblázat - A mintába került kávécsomagok megoszlása 33 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
A csomagok töltési A csomagok tömege (gramm) száma – 240
8
240 – 245
22
245 – 250
32
250 – 255
28
255 –
10
Összesen
1002
Tegyük fel, hogy a kávécsomagok töltési tömeg szerinti eloszlása normálisnak tekinthető. Határozzuk meg, hogy milyen határok között lesz a kávécsomagok töltési tömegének szórása 95%-os valószínűséggel! Először számítsuk ki a minta átlagát és szórását!
A
táblázatából
szabadságfoknál kikeressük a megfelelő táblázati értékeket, melyek
(Mivel a táblázata a 99-es szabadságfokhoz tartozó értéket nem tartalmazza, ezért a 100-nál talált értékeket adtuk meg.) Így a szórásra adott megbízhatósági intervallum határai:
Tehát a kávécsomagok nettó töltési tömegének ingadozása (szórása) 95%-os megbízhatóság mellett 2,1 és 2,7 gramm között van. Természetesen külön vizsgálat tárgyát képezi az a torzítás, amely abból származik, hogy a normalitási feltételünk hibás.
4. 7.4. A konfidenciaintervallum meghatározása rétegzett mintavétel esetén A 6.2.4. pontban részletesen tárgyaltuk a rétegzett mintavételi eljárást. Emlékeztetőül itt csak annyit említünk meg, hogy ezen mintavételi módnál a sokaságot oly módon bontjuk rétegekre, hogy a sokaság minden elemét tartalmazzák a rétegek, de egyetlen elem se tartozzon egynél több csoportba, és rétegenként egyszerű véletlen mintát veszünk.
34 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
Az eddigiek során a sokaság várható értékére, a sokasági értékösszegre és az arányra mind független azonos eloszlású minta, mind egyszerű véletlen minta esetén megadtuk a konfidenciaintervallumot. (A sokasági szórásra csak független azonos eloszlású minta esetén tettük meg mindezt.) Mivel a rétegzett mintavétel során a minta elemeit rétegenként egyszerű véletlen mintavétellel választjuk ki, ezért a konfidenciaintervallum meghatározásánál csak ezzel az esettel fogunk foglalkozni. A rétegzett mintából történő becslés tanulmányozásához további jelölések bevezetésére van szükség. Ezeket a 7.3. táblázatban tekintjük át.
7.3. táblázat - A rétegzett mintából történő becslés jelölésrendszere Megnevezés
Sokaságban
Mintában
Konkrét mintában
Elemszám
N
n
n
A rétegek száma
M
M
M
Elemszám az egyes rétegekben A j-edik réteg aránya (súlya) a sokaságban A j-edik réteg iedik eleméhez tartozó ismérvérték A j-edik réteg átlaga A j-edik réteg szórása Adott tulajdonsággal rendelkezők aránya Véges sokaság feltételezése mellett az ismeretlen sokasági várható érték azonos az átlaggal rétegátlagok súlyozott számtani átlagaként számítható ki:
, és a
Nézzük most a becslést a mintaelemek nem arányos elosztása esetén! Mivel minden rétegből egyszerű véletlen mintát veszünk, a rétegátlagokat célszerű a megfelelő mintaátlagokkal becsülni. Tehát a j-edik réteg átlagának a becslőfüggvénye a j-edik réteg mintaátlaga, a Célunk azonban nem a rétegátlag, hanem a sokasági átlag becslése. A sokasági várható érték becslőfüggvényét a mintaátlagoknak a sokasági rétegarányokkal súlyozott átlagaként kapjuk, amely képlettel felírva a következő:
35 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
A konfidenciaintervallum meghatározásához azonban szükségünk van a becslőfüggvény standard hibájára. (Az egyszerűség kedvéért az összefüggéseket a standard hiba négyzetére mutatjuk be.) Tehát
amely a rétegek függetlensége miatt tovább írható a következő módon:
Így az összefüggés redukálódott a j-edik réteghez tartozó mintaátlag szórásnégyzetének a rétegarányok négyzetével súlyozott átlagára. Egyszerű véletlen mintavétel esetén
Ezt visszahelyettesítve az előző összefüggésbe, azt kapjuk, hogy
Ennek négyzetgyöke a standard hiba. Természetesen, ha nem ismerjük a rétegenkénti szórásnégyzetet, akkor a mintából kell becsülnünk a korrigált empirikus szórásnégyzet segítségével, s így a standard hiba:
A konfidenciaintervallum meghatározásához a becslőfüggvény eloszlásának ismerete is szükséges. Ezen becslőfüggvényről belátható, hogy nagy minta esetén közelítőleg standard normális eloszlású (s a rétegzett mintavételnél általában nagy mintával van dolgunk). Így a sokasági várható értékre adott megbízhatósági intervallum határai a következők:
Konkrét minta esetén pedig
Vizsgáljuk meg, hogy a mintaelemek konfidenciaintervallum határai!
arányos
elosztása
esetén
hogyan
határozhatók
meg
a
Ha a minta elemeit arányos elosztással választottuk ki, akkor az egyes rétegek aránya a mintában és a sokaságban megegyezik, tehát becslőfüggvényébe
Ezt behelyettesítve a rétegzett mintavétel esetén a sokasági várható érték
36 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
adódik. Tehát a becslőfüggvény a rétegátlagoknak a mintabeli rétegarányokkal súlyozott számtani átlaga.
Ha behelyettesítjük a rétegzett mintavétel esetén az átlagbecslés standard hibájának négyzetét mutató összefüggésbe,
adódik, és felhasználva, hogy -tel, azaz a mintabeli belső szórásnégyzettel, akkor arányos elosztás esetén az átlagbecslés standard hibájának négyzete a következőképpen is írható:
Ennek négyzetgyöke a standard hiba. Ha a rétegenkénti szórás nem ismert, akkor a fenti összefüggés helyett konkrét minta esetén az
képletet használjuk, ahol
továbbá
a mintából számított j-edik réteg korrigált tapasztalati szórásnégyzete.
Arányos rétegzés esetén így egyszerűsödik az átlagbecslés standard hibáját meghatározó összefüggés, és világossá válik, hogy a rétegzett mintavételnél a becslés pontossága csak a rétegeken belüli szóródástól függ. Továbbá belátható, hogy a rétegzett mintavétel standard hibája kisebb, mint az egyszerű véletlen mintavételé, mivel a mutató kiszámításánál csak a csoportokon belüli szórással számolunk, s nem vesszük figyelembe a rétegátlagok különbözőségét. (Ismeretes, hogy a sokaság teljes szórásnégyzete Ha a sokaság erősen heterogén, akkor a nagy, így az arányosan rétegzett becslés standard hibája lényegesen kisebb lesz az egyszerű véletlen mintavételen alapuló becslésénél. Ezért a rétegzett mintavétel pontosabb becslést eredményez, mint az egyszerű véletlen mintavétel. Ezzel szemben, ha a sokaság közel homogén volt, akkor a teljes szórásnégyzet nagy részét a eredményezi, s ekkor a rétegzés nem vezet lényegesen pontosabb eredményre. Mivel az arányos elosztás esetén használt összefüggést a nem arányos elosztás esetén használt összefüggésből vezettük le, ezért a becslőfüggvény nagy minta esetén továbbra is standard normális eloszlású lesz, így a konfidenciaintervallum konkrét minta esetén az
összefüggésekkel határozható meg, attól függően, hogy ismert vagy sem a rétegenkénti szórás. Értékösszegbecslés esetén a rétegzett mintavételnél hasonlóan járunk el, mint egyszerű véletlen minta esetén. Nevezetesen a sokasági várható értékre adott konfidenciaintervallum határait meg kell szorozni N-nel. Aránybecslésnél a sokasági arány becslőfüggvénye a mintabeli arányok súlyozott átlagaként számítható ki, azaz
37 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
Konkrét minta esetén A standard hiba kiszámítása során konkrét mintánál – mind arányos, mind nem arányos elosztásnál – a nem arányos elosztás esetén használt
összefüggésben a rétegszórások ( ) helyett a
szerepel. Tehát
A konfidenciaintervallum határait pedig konkrét minta esetén a
összefüggésbe történő behelyettesítéssel határozhatjuk meg. Tekintsük a következő példát! A díjköteles levélpostai küldemények egyhavi forgalmát kívánta megbecsülni a Magyar Posta. Ezért a postahivatalokat a forgalom nagysága szerint három csoportba (A, B és C) sorolták, és az egyes csoportokból egyszerű véletlen kiválasztással mintát vettek. A sokaság és a minta megoszlását, továbbá a számítási eredmények egy részét valamely hónapban a 7.4. táblázat tartalmazza.
7.4. táblázat - A számításhoz szükséges adatok Hivatalok száma
Rétegek
a sokaságban
a mintában
Levélpostai küldemények számának átlaga (E db)
szórása (E db)
a mintában
A
80
38
101,0
54,0
B
420
26
12,0
6,0
C
2690
32
1,5
0,8
Összesen
3190
96
...
...
Adjunk pont- és intervallumbecslést a Magyar Posta havi átlagos levélforgalmára! (A megbízhatósági szint 95%.) Először vizsgáljuk meg, hogy a mintaelemeket arányosan osztották-e el az egyes rétegek között! Ehhez határozzuk meg az egyes rétegek arányát a sokaságban és a mintában! A számítási eredményeket a 7.5. táblázat mutatja.
7.5. táblázat - A sokaság és a minta elemszámának megoszlása Rétegek
Az egyes rétegek aránya (%)
38 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
a sokaságban
a mintában
A
2,5
39,6
B
13,2
27,1
C
84,3
33,3
Összesen
100,0
100,0
Mivel az egyes rétegek aránya nem egyezik meg az alapsokaságban és a mintában, így a mintaelemek szétosztása nem arányos elosztással történt.
Becsüljük meg a postahivatalok átlagos forgalmát a nem arányos elosztás esetén használt alapján! A példában:
képlet
Tehát a Magyar Posta havi átlagos levélforgalma 5378 db. (Ekkor pontbecslést adtunk a levélforgalomra.) A standard hiba négyzetének meghatározására – mivel a rétegszórások a sokaságban nem ismertek – az képletet használjuk. Így a példában:
amelyből a standard hiba: A keresett megbízhatósági intervallum határai pedig
felhasználásával:
Megállapíthatjuk, hogy az egyhavi átlagos levélforgalom 95%-os megbízhatósággal 4890 és 5866 db között van adott hónapban. Becsüljük meg 95%-os valószínűséggel az adott havi összes levélforgalmat!
Tehát a Magyar Posta összes levélforgalma a vizsgált hónapban 95%-os valószínűséggel 15 599,1 E db és 18 712,54 E db között van . Tekintsük a következő példát! Egy városban kérdőíves felméréssel vizsgálták a házi munkára fordított idő nagyságát. A vizsgált településen 80 000 felnőtt lakos lakik, akik közül 36 000 férfi. A nem szerinti hovatartozás alapján rétegzett 1000 elemű mintára vonatkozó információkat a 7.6. táblázat tartalmazza.
7.6. táblázat - 1000 elemű minta adatai 39 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
A lakosság száma a mintában
A házi munkával töltött idő átlaga (óra)
szórása (óra)
a mintában
Nem
Férfi
450
0,6
1,5
Nő
550
4,0
1,2
Összesen
1000
...
...
Határozzuk meg a házi munkával töltött napi átlagos időt a felnőtt lakosság egészére 95,5%-os megbízhatósági szinten! Mivel a férfiak aránya a mintában és a sokaságban megegyezik (a férfiak aránya 45%, a nőké pedig 55%), a mintát arányos elosztással választották ki. A házi munkával töltött idő átlaga:
Mivel a rétegenkénti sokasági szórás nem ismert, ezért a standard hiba kiszámítására az összefüggést használjuk. Ehhez először célszerű meghatározni a belső szórásnégyzetet:
Ennek felhasználásával a standard hiba:
Mivel
a keresett konfidenciaintervallum határai:
Megállapíthatjuk, hogy a városban a házi munkára fordított átlagos idő 95,5%-os valószínűséggel 2,386 óra és 2,554 óra között van. Induljunk ki az előző példa eredményeiből! Határozzuk meg, hogy mekkora lenne a becslés standard hibája, ha a minta elemeit nem rétegzett, hanem egyszerű véletlen mintavétellel választottuk volna ki! Természetesen a becslőfüggvény értéke, a mintaátlag továbbra is 2,47 óra. A standard hiba meghatározásához szükség van a mintaelemek teljes szórására, amely nemcsak a rétegeken belüli szórástól ( ), hanem a rétegek közötti szórástól ( ) is függ. Ezért meg kell határoznunk a külső szórást. Ehhez először kiszámítjuk a mintában a külső szórásnégyzetet:
40 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
A már korábban kiszámított
ismeretében a teljes szórásnégyzet:
Ezek után egyszerű véletlen mintavétel feltételezése esetén a standard hiba:
Megállapíthatjuk, hogy egyszerű véletlen mintavételnél a standard hiba 0,068 óra, míg rétegzett mintavétel esetén csak 0,042 óra. Tehát a rétegzett mintavétel alkalmazása csökkentette a standard hibát.
5. 7.5. A minta elemszámának meghatározása Az eddigiek során feltételeztük, hogy rendelkezésre áll egy meghatározott elemszámú minta, amely elemeinek felhasználásával meghatároztuk valamely sokasági jellemzőt adott megbízhatósággal tartalmazó konfidenciaintervallum határait. A becslést ismert mintanagyság alapján végezzük el. Ekkor a becslés pontossága a mintaelemek számától is függ. Közelítsük meg a problémát a másik oldalról. Határozzuk meg, hogy mekkora mintára van szükségünk ahhoz, hogy egy adott megbízhatósági szint mellett egy adott pontosságot ( ) tudjunk biztosítani. Ezen gondolatmenetet az is indokolja, hogy a reprezentatív adatfelvétel során előre megtervezzük, rögzítjük a pontossági és a megbízhatósági követelményeket. A minta elemszámának meghatározását független, azonos eloszlású minta és egyszerű véletlen minta esetén mutatjuk be. Független, azonos eloszlású mintánál a hibahatár a már megismert képlet szerint:
amelyből átrendezéssel meghatározhatjuk a szükséges minta elemszámát:
A fenti összefüggésből látható, hogy a mintaelemszám négyzetesen arányos a megbízhatósággal és a sokasági szórással, fordítottan arányos a hibahatár négyzetével (a pontossággal). Egyszerű véletlen mintavétel eseténa standard hiba meghatározásánál a korrekciós tényezőt, ..-t is figyelembe kell venni, amely a hibahatárt is módosítja. Így:
Átrendezés után a szükséges minta elemszáma:
Igazolható, hogy ha véges sokaságból visszatevéssel választjuk ki a minta elemeit (tehát független, azonos eloszlású mintát veszünk), akkor adott pontossági és megbízhatósági feltételek mellett nagyobb mintaelemszámra van szükség, mint ha véges sokaságból visszatevés nélkül (egyszerű véletlen mintavétellel) választottuk volna ki a minta elemeit.
41 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
A mintanagyságot az egyéb véletlen kiválasztási módok esetén is rögzített pontossági és megbízhatósági feltételek mellett határozzuk meg a fenti összefüggések alkalmazásával. Így például rétegzett mintavétel esetén, ha a mintaelemeket arányos elosztással választottuk ki, a fenti összefüggésben a helyett a kell használnunk. Fontos megjegyzés: ha a sokasági szórás nem ismert, a minta elemszámának meghatározásánál használhatjuk a korábbi mintavételből származó szórást is. Térjünk vissza a gyümölcskonzerv-szállítmánnyal foglalkozó példánkhoz, amelynek eredményei a következők voltak: A mintába került konzervek nettó töltőtömegének szórása: A hibahatár 1,7 gramm, a megbízhatósági szint pedig 95%, és 50 000 üveget tartalmaz a szállítmány. a) Határozzuk meg, hány elemű mintára van szükség, ha változatlan megbízhatóság és szórás esetén a pontosságot a felére csökkentjük! Ha a pontosság a felére csökken, akkor a hibahatár kétszeresére nő, tehát
Ekkor lényegesen kevesebb (126) elemű minta is elegendő lenne. b) Hány elemű mintára van szükség, ha változatlan pontosság mellett a megbízhatóságot 98%-ra akarjuk növelni? a szükséges minta elemszáma pedig
Ekkor a
Tehát ha a megbízhatóságot 98%-ra növeljük, változatlan pontosság mellett nagyobb (698 elemű) mintára lenne szükség.
6. 7.6. Gyakorlófeladatok 1. Egy szoros elszámolásra nem kötelezett bolt napi eladási forgalmára 12 véletlenszerűen kiválasztott napon az alábbi megfigyeléseket tették. (Forgalom 1000 Ft-ban, kerekítve.) 17,2; 10,8; 14,6; 15,5; 20,4; 16,3; 16,8; 17,5; 16,3; 18,1; 16,6; 20,5. Korábbi tapasztalatok alapján azt állíthatjuk, hogy a napi forgalom normális eloszlású. Feladat: a) Készítsünk 95%-os megbízhatósággal intervallumbecslést a napi átlagos forgalomra! b) Mondjuk meg a standard hiba, a maximális hiba és a konfidenciaintervallum jelentését! 2. Egy üdítőital-féleség palackozására új automata gépsort vásároltak. 500 elemű (10%-os) véletlen minta segítségével vizsgálják a gép teljesítményét. Feltételezzük, hogy a töltési tömeg normális eloszlást követ.
Üdítőital tömege (gramm)
Palackok száma (db)
– 960
50
961 – 980
75
981 – 1000
300
42 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
1001 – 1020
50
1021 – 1040
25
Összesen
500
Feladat: a) Készítsünk intervallumbecslést: 1. a palackok átlagos töltőtömegére (95%-os megbízhatósággal), 2. az 1000 gramm töltőtömeg feletti üvegek arányára (90%-os megbízhatósággal)! b) 5000 palack eladott üdítőital esetén maximálisan hány olyan palack van, amelyben 1000 gramm feletti a töltőtömeg? (Valószínűségi szint 90%.) 3. Egy gazdaságban tájékozódni kívánnak arról, hogy az 1000 hektáros búzavetés-területen milyen termés várható. Ennek érdekében véletlen koordináták alapján kijelölt 1 m2-es mintavételi tereken 100 mintavételt végeznek. A mintából nyert adatok a következők:
Terméknagyság- A mintaelemek csoportok (g/m2) száma – 450
4
451 – 500
8
501 – 550
20
551 – 600
32
601 – 650
20
651 – 700
12
701 –
4
Összesen
100
Feladat: Becsüljük meg 95%-os megbízhatósági szinten a) a várható termésátlagot, b) az 1000 ha-os területen várható búzatermés mennyiségét! 4. Az egyik húsipari vállalatnál 500 gramm névleges tömegű húskonzerv töltésére új gépet állítottak üzembe. Egy 100 elemű minta segítségével vizsgálták a gép teljesítményét. Feltételezhető, hogy a töltési tömeg normális eloszlást követ. A 100 elemű mintában az átlagos töltési tömeg 498,6 gramm, a szórás 11,2 gramm. Feladat: a) Jelöljünk ki a konzervek átlagos töltőtömegére konfidenciaintervallumot 1. 95%-os megbízhatósági szinten,
43 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
2. 98%-os megbízhatósági szinten! b) Ha ugyanezen információk 200 elemű mintából származnának, hogyan módosulnának az a) pontbeli intervallumok? 5. Egy 500 elemű minta alapján arra kívántak választ kapni, hogy Magyarországon a gyümölcscentrifuga mennyire elterjedt. A megkérdezett háztartások közül 80-ban volt ilyen gép. A háztartások száma a vizsgált évben 4 millió volt. Feladat: a) Becsülje meg 95,5%-os megbízhatósági szinten a gyümölcscentrifugával rendelkező háztartások arányát! b) Hány darabra becsülhető a háztartásokban használt gyümölcscentrifugák száma? (Valószínűségi szint: 95,5%.) 6. Egy könyvtárban egy adott héten a beiratkozott olvasók 5%-a fordult meg és kölcsönzött könyvet. Elemzés céljából feljegyezték az olvasók által kölcsönzött könyvek számát:
A kölcsönzött könyvek száma
Olvasók száma
1
14
2
15
3
24
4
20
5
15
6
10
7
8
8
4
Összesen
110
Feladat: a) Adjunk 90%-os megbízhatósági intervallumot a háromnál több könyvet kölcsönzők arányára vonatkozóan! b) Milyen szóródást mutat a mintában a kölcsönzött könyvek száma? (A szórás mutatószámával mérve.) c) Milyen határok között becsülhető – 95%-os megbízhatósági szinten – a b) pontbeli mutatószám? 7. Egy bizonyos típusú televíziókészülék javításával Budapesten csak egy szerviz foglalkozik. Egy 100 elemű mintából az újonnan vásárolt és garanciális időn belül meghibásodott készülékek száma 30 db volt. Készítsünk 95%-os megbízhatósággal intervallumbecslést arra vonatkozóan, hogy az adott évben értékesített 10 000 db készülék közül hány db szorul majd garanciális javításra? Feladat: Hány elemű mintából kapnánk olyan becslést, amelynek a) 98%-os a megbízhatósága változatlan hibahatár mellett? b) változatlan megbízhatóság mellett kétszeres a pontossága?
44 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
8. Valamely felsőoktatási intézményben a napi átlagos ebédköltség nagyságának becslésére az ott tanuló 1800 diákból 200 fős mintát vettek. Az intézményen belül a hallgatók 60%-a fiú. A 200 fős minta eredményei:
Nem
Megkérdezette k száma (fő)
Átlagos ebédköltség (Ft/fő/nap)
Az ebédköltség rétegen belüli szórása (Ft/fő/nap)
Fiú
120
400
124
Lány
80
220
118
Együtt
200
...
...
Feladat: a) Becsüljük meg a hallgatók átlagos napi ebédköltségét 95%-os megbízhatósággal! b) Becsüljük meg, mekkora bevételre tenne szert naponta az étkezést biztosító cég, ha valamennyi hallgató az intézményben ebédelne! c) Számítsuk ki, hogy mennyi lenne a becslés során elkövetett standard hiba, ha nem rétegeztük volna a mintát? 9. Egy országban új társasági adótörvény bevezetését tervezi a kormány. Szeretnék a lehető legmagasabb adót kivetni, de nem akarják elveszíteni a sok külföldi befektetőt s lehetetlen helyzetbe hozni a vállalkozásokat. Ezért a törvény alkotása előtt egy előzetes felmérést végeztek arra vonatkozóan, mi az a maximális adókulcs, amit még a vállalkozók is elfogadhatónak tartanak. Az országban 348 600 vállalkozás működik. Egy 1000 elemű mintavétel eredményei:
A A Javasolt megkérdez Javasolt vállalkozáso maximális ett maximális A vállalkozás k aránya a adókulcs tulajdonosa vállalkozá adókulcs sokaságban szórása sok száma átlaga (%) (%) (%) (db) Belföldi
26
300
30
6
32
250
20
5
Vegyes tulajdonú
42
450
25
7
Összesen
100
1000
...
...
Külföldi
Feladat: Becsüljük meg 95,5%-os megbízhatósági szinten, mennyi a vállalkozások által javasolt adókulcs átlagos nagysága! 10. Egy reprezentatív felmérés során vizsgálták a libamájtermelést a libamáj-hasznosítású hibrideknél. A 25 ezer db-os hibridállomány 40%-a gödöllői májhibrid, 30%-a Hungavis-kombi, 30%-a Hungavis-barna. A vizsgálat során levágott 500 lúdra vonatkozó adatok:
Fajta
Ludak A máj átlagos száma (db) tömege (gramm)
A tömeg relatív szórása (%)
45 Created by XMLmind XSL-FO Converter.
Statisztikai becslések
Gödöllői májhibrid Hugavis-kombi Hungavis-barna Összesen
175
695
16,0
75
530
13,0
250
610
14,0
500
...
...
Feladat: Becsüljük meg 95,5%-os valószínűségi szinten a) a libamáj átlagos tömegét – az egyes fajtáknál, – az állatállomány egészére, b) a májhasznosítású hibridek által termelt libamáj várható össztömegét! 11. Egy gazdaságban 3000 almafa össztermését kívánják megbecsülni. Ennek érdekében a két almafajta (A és B) terméséből arányosan rétegzett 10%-os mintát vesznek. A 2250 A fajtából kiválasztott 225 fán az összes termés 27 000 kg, a B fajtából a mintába került almafákon az összes termés pedig 11 250 kg volt. A mintaátlagoktól számított eltérés-négyzetösszeg az egyes fajtáknál a következő: A-nál 201 600, B-nél 118 400. Feladat: a) Számítsuk ki – az egyes rétegekben az átlagos almatermést, – az egyes rétegek szórását! b) Becsüljük meg a gazdaság várható össztermését 95%-os megbízhatósági szinten! c) Az A fajtánál a „nagyon gyenge” termésű fák aránya: 12%, a B fajtánál pedig 8%. Mennyire becsülhető ez az arány az egész gazdaságban? Hány ilyen almafa „pótlásáról” célszerű gondoskodni? (A valószínűségi szint 90%-os.) 12. A személygépkocsi-abroncsok minőségét egyszerű véletlen minta segítségével ellenőrzik. A késztermékek minőség-ellenőrzése során az abroncsok 20%-a nem felelt meg a minőségi követelményeknek. Feladat: Határozzuk meg a minőségileg kifogásolt termékek arányának konfidenciaintervallumát, ha a fenti értéket és elemű mintából kaptuk (a megbízhatóság 95%-os)!
46 Created by XMLmind XSL-FO Converter.
8. fejezet - Hipotézisvizsgálat Az előző fejezetben megismert becslési eljárások során a sokasági paramétert ismeretlennek tekintettük, és a mintából származó adatokat arra használtuk fel, hogy az ismeretlen sokasági paraméter közelítő értékét meghatározzuk. A hipotézisvizsgálatnál ezzel szemben egy (vagy több) sokaságról állítunk valamit, majd a rendelkezésünkre álló minta (vagy minták) alapján az állítás helyességét ellenőrizzük. Másképpen megfogalmazva: azt próbáljuk eldönteni, hogy valamely mintából számított érték és egy általunk előre feltételezett érték közötti eltérés elég nagy-e ahhoz, hogy állításunk helyességét megkérdőjelezzük.
1. 8.1. A hipotézisvizsgálat alapfogalmai Egy vagy több sokaságra vonatkozó állítást, feltevést hipotézisnek nevezünk. A hipotézis vonatkozhat az egy (vagy több) sokaság eloszlására, de a szóban forgó eloszlás egy (vagy több) paraméterére is. A hipotézis helyességét mintából (vagy mintákból) származó adatok alapján ellenőrizzük. A fent elmondottakhoz hozzá kell fűzni, hogy nincs értelme hipotézisként kezelni olyan feltevéseket, amelyek helyességéről teljes körű számbavétellel is meggyőződhetünk. A statisztikai hipotézis fogalmához hozzátartozik, hogy a rendelkezésre álló információt a minta képviseli, ezért a következtetésünk bizonytalanságot hordoz, valószínűségi jellegű. Hipotézis például, hogy egy csomagológép a szabványnak megfelelően tölti a tasakokat, vagy hogy egy új eljárás eredményesebb, mint a régi. A hipotézisvizsgálat első lépése a vizsgálni kívánt hipotézis matematikai megfogalmazása. Pontosabban, két hipotézist kell egyszerre megfogalmaznunk. Az ún. nullhipotézist és egy azzal szemben álló másik állítást, az ún. alternatív hipotézist. Ez utóbbit ellenhipotézisnek is szokták nevezni. A továbbiakban a nullhipotézist az alternatív hipotézist fogjuk jelölni. Magukat a konkrét feltételezéseket a illetve a szimbólumot követő kettőspont után írjuk fel, mégpedig olyan formában, hogy azok egymást kölcsönösen kizárják. Erre azért van szükség, mert minden hipotézisvizsgálat végeredménye, hogy a két hipotézis közül valamelyiket elfogadjuk a másikkal szemben. A nullhipotézis és az ellenhipotézis is lehet egyszerű vagy összetett hipotézis. Egyszerű hipotézis esetén az állításunkat egyenlőség formájában fogalmazzuk meg, míg az összetett hipotézis több önálló hipotézis összessége. Így állításunk megfogalmazása során az < és > relációjeleket használhatjuk. A nullhipotézist mi mindig egyenlőség formájában fogalmazzuk meg, azaz a nullhipotézis a továbbiakban mindig egyszerű hipotézis, míg az alternatív hipotézisünk többnyire összetett hipotézis lesz. Például, ha az állításunk az, hogy a sokaság várható értéke ( ) egyenlő egy előre rögzített értékkel, akkor a nullhipotézis és az alternatív hipotézis a következő módon fogalmazható meg:
Ha pedig alternatív hipotézisként azt állítjuk, hogy az alapsokaság várható értéke kisebb az
számnál, akkor
Az a hipotézis, amelynek helyességéről közvetlenül döntünk, a nullhipotézis, és döntésünket mindig az alternatív hipotézisünkkel szemben hozzuk meg. Mivel a nullhipotézis és az alternatív hipotézis kölcsönösen kizárják egymást, döntésünk – a nullhipotézist illetően – alternatív döntés lesz, vagy a nullhipotézist ( ), vagy az alternatív ( ) hipotézist fogadjuk el. A hipotézisvizsgálat eszköze a statisztikai próba. A próba egy olyan eljárás, amelynek során a mintából származó információk alapján döntünk a nullhipotézis elfogadásáról vagy elutasításáról. A statisztikai próba végrehajtásakor a nullhipotézis és az alternatív hipotézis megfogalmazása után feladatunk a mintaelemek egy olyan függvényének a keresése, amelynek valószínűségeloszlása a nullhipotézis helyességének feltételezése, a sokaságra tett bizonyos kikötések és a mintavétel adott módja mellett egyértelműen meghatározható. Az e követelménynek eleget tevő függvényt próbafüggvénynek nevezzük.
47 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
A próbafüggvény a hipotézisvizsgálat során hasonló szerepet tölt be, mint a becslőfüggvény a paraméterek becslésekor. A próbafüggvény konstruálása matematikai feladat. A próba végrehajtásakor az alkalmazónak csak a megfelelő próbafüggvényt kell kiválasztania. Ehhez tudnia kell, hogy az adott hipotézist milyen feltételek fennállása esetén, milyen mintából stb. melyik próbafüggvénnyel lehet ellenőrizni. A további tárgyalások előtt ismerkedjünk meg egy gyakran használt függvénnyel, az ún. z próbafüggvénnyel. A sokasági várható értékre vonatkozó állítás teszteléséhez (nevezetesen ) – ha normális eloszlású sokaságból származó n elemű független, azonos eloszlású mintánk van és a sokasági szórás – a z próbafüggvény 1 használható, amely a következő formában írható fel:
ismert
Ha valóban a sokaság várható értéke (átlaga), akkor láttuk, hogy és így ezen próbafüggvény a fent meghatározott feltételek mellett standard normális eloszlású valószínűségi változó lesz. Ezt a változót oly módon képeztük, hogy kivontuk egy valószínűségi változóból annak várható értékét és elosztottuk a szórásával (röviden standardizáltuk a valószínűségi változónkat). Tehát teljesíti a próbafüggvényekkel szemben támasztott azon követelményt, hogy eloszlása egyértelműen meghatározható, ha a nullhipotézisünk igaz. Mivel z a nullhipotézis teljesülése esetén standard normális eloszlású, pontosan meg lehet mondani, hogy mekkora annak a valószínűsége, hogy z valamely
Fordítva,
intervallumba essen
ha megadunk egy valószínűséget (pl. ), akkor az a értéke meghatározható a standard normális eloszlás táblázata (Függelék 1. táblázat) segítségével:
ebből
. A táblázat alapján
Ez azt jelenti, hogy ha 100-szor veszünk n elemű mintát és minden esetben kiszámítjuk a z konkrét értékét:
akkor ezen értékek közül várhatóan 95 esik a
intervallumba, ha helyes a
hipotézis.
Mivel egyetlen minta áll rendelkezésünkre, ezért csak ennél tudjuk ellenőrizni, hogy a
érték az adott intervallumba esik-e. Ha beleesik, akkor elfogadjuk a hipotézist. Könnyen látható, hogy az intervallum hossza, így a beleesés esélye is az adott valószínűségtől függ. Általánosan fogalmazva: a hipotézisvizsgálat végrehajtása során a próbafüggvény lehetséges értékeinek tartományát osztópontok segítségével két egymást át nem fedő tartományra bontjuk. Az egyik az elfogadási tartomány, legyen ez a intervallum, a másik ennek komplementere, az elutasítási vagy kritikus tartomány. Az egyes tartományok határait úgy választjuk meg, hogy a próbafüggvény értéke a nullhipotézis ( ) elfogadása esetén előre megadott nagy valószínűséggel az elfogadási tartományba essen, azaz esetünkben
legyen, és a kritikus tartományba esés csak
valószínűséggel következzen be.
Néhány próbafüggvényt – annak ellenére, hogy valószínűségi változó – a szakirodalom nem görög, hanem latin betűvel jelöl. Bár eddig a valószínűségi változót görög, az általa felvett értéket a megvalósult minta esetén latin betűvel jelöltük, ezen próbafüggvényeknél alkalmazkodunk a megszokott jelölésmódhoz, megkülönböztetésül a próbafüggvény (z) megvalósult értékét az alsó indexbe írt 0-val (pl. z0 ) jelöljük. 1
48 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Ha ezek után a rendelkezésre álló minta adataiból kiszámítjuk a próbafüggvény ún. aktuális értékét és ez beleesik az elfogadási tartományba, akkor a elfogadjuk, ellenkező esetben a elutasítjuk és a fogadjuk el. A próbafüggvény kritikus tartományba esésének valószínűségét jelöljük.
szignifikanciaszintnek nevezzük, és α-val
Példánkban az szignifikanciaszint azt jelenti, hogy ha a mintavételt végtelen sokszor végrehajtjuk, akkor 100 esetből mindössze átlag ötször fordul elő az az esemény, hogy a próbafüggvényünk minta alapján kiszámított értéke a kritikus tartományba esik. Ebben az esetben azt mondjuk, hogy a hipotézist 0,05-ös szignifikanciaszinten fogadjuk el vagy vetjük el annak megfelelően, hogy a mintából számított érték hova esik. Az elfogadási és a kritikus tartomány egymáshoz viszonyított elhelyezkedése háromféle lehet. Az egyes eseteket a 8.1. ábra szemlélteti.
8,1. ábra - Az elfogadási és a kritikus tartomány lehetséges elhelyezkedés
Bal oldali vagy jobb oldali – egyoldali – kritikus tartományhoz abban az esetben jutunk, ha az ellenhipotézisben a nullhipotézishez képest egy meghatározott irányú eltérést írunk fel. Ha a sokasági várható értékre akkor bal oldali kritikus tartományról, ha pedig akkor jobb oldali kritikus tartományról beszélünk. Kétoldali kritikus tartomány kijelölésére olyan esetben kerül sor, amikor a nullhipotézisben megfogalmazott állítástól való bármilyen irányú eltérés érdekel bennünket. Ekkor pl. a sokasági várható értékre vonatkozóan az alternatív hipotézis. Az elfogadási és a kritikus tartományt elválasztó és értékeket kritikus értékeknek nevezzük, és az alsó, a felső kritikus értéket jelöljük. A kritikus érték(ek)et a szignifikanciaszint és a próbafüggvény eloszlásának ismeretében táblázatok segítségével egyértelműen meghatározhatjuk. A 8.2. ábrán megvizsgálhatjuk az eddig elmondottakat a z próbafüggvény esetén.
49 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
8,2. ábra a. ábra - Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél
8,2. ábra b. ábra - Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél
50 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
8,2. ábra c. ábra - Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél
A szemléltető ábrák áttekintése után nézzük meg, hogyan határozzuk meg a z próbafüggvény kritikus értékeit 5%-os szignifikanciaszint esetén. (Tehát ) Mivel a z próbafüggvény standard normális eloszlást követ, ezért az értékek kikereséséhez a Függelék 1. táblázatát használjuk. a) Ha a értéket
az alternatív hipotézisünk, akkor bal oldali kritikus tartománnyal van dolgunk, s a kritikus jelöltük. Mivel a kritikus tartományba esés valószínűsége α, tehát
és a z standard normális eloszlású, így
Most már az értéket. Mivel
ezért
esetén a standard normális eloszlás táblázatából (Függelék 1. táblázat) kikereshetjük a
így
A következőkben ezt fogjuk jelölni, ahol a z a standard normális eloszlásra, az pedig arra a valószínűségre utal, amekkora valószínűséggel kisebb a próbafüggvény aktuális értéke a kritikus értéknél. Itt 51 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
akkor az elfogadási tartományba esés valószínűsége
b) Ha
Ezt az intervallumot a bevezetőben már meghatároztuk: illetve
tehát
és
vagy másképpen felírva
Tehát hasonló, mint a kétoldalú konfidenciaintervallum esete. c) Ha a az alternatív hipotézisünk, akkor jobb oldali kritikus tartományunk van, és annak a valószínűsége, hogy nagyobb a próbafüggvény számított értéke, Tehát
amely átrendezés után:
esetén
amiből
Az a) pontban leírt jelöléseket alkalmazva:
2. 8.2. A hipotézisvizsgálat során elkövethető hibák Mint már korábban elmondtuk, a mintából a sokaságra vonatkozóan csak valószínűségi következtetés lehetséges, így a hipotézisvizsgálat során hozott döntésünk bizonyos kockázattal jár. Előfordulhat, hogy a hipotézis helyes, s a próbafüggvény adott mintából számított értéke mégis a kritikus tartományba esik. Ilyenkor a annak ellenére, hogy fennáll, elutasítjuk. Ezt a hibás döntést elsőfajú hibának nevezzük. Az ilyen hiba elkövetésének valószínűsége az elfogadási és a kritikus tartomány konstrukciója alapján – hisz annak a valószínűsége, hogy a próbafüggvény a kritikus tartományba esik –, amelyet, mint már említettük, szignifikanciaszintnek nevezünk. Előfordulhat, hogy a nem áll fenn (nem „igaz”), és a próbafüggvény mintából számított értéke mégis az elfogadási tartományba esik. Ez szintén hibás döntés, s ilyenkor másodfajú hibát követünk el. Ezen esemény bekövetkezésének valószínűségét szokás jelölni. Az elmondottakat a 8.1. táblázat szemlélteti.
8.1. táblázat - A hipotézisvizsgálat során hozott döntések és bekövetkezésük valószínűsége A valóságos helyzet igaz
igaz
Az
A -ra vonatkozó döntést elfogadjuk
elutasítjuk
helyes döntés
elsőfajú hiba
másodfajú hiba helyes döntés
valószínűséget a próba (megbízhatósági) szintjének, az
pedig a próba erejének nevezzük.
52 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Összefoglalásként megállapíthatjuk, hogy az elsőfajú hiba elkövetése során az igaz nullhipotézist elutasítjuk, a másodfajú hiba elkövetésénél pedig a hamis nullhipotézist fogadjuk el. Az első- és a másodfajú hibáról leírtak szemléltetésére nézzük a következő példát! Egy alkatrész-összeszerelő műhelyben a futószalag mellett valamely munkafolyamat elvégzésének normaideje 15 perc. Vizsgáljuk meg 25 elemű minta alapján, hogy ennyi idő alatt el lehet-e végezni az adott munkafolyamatot! Tekintsük az alkatrész összeszerelésére fordított időt normális eloszlásúnak, a szignifikanciaszint pedig legyen 5%, azaz
Az ismert sokasági szórás
: 3 perc.
A vizsgálandó nullhipotézis: Az alternatív hipotézisben azt fogalmazzuk meg, hogy a norma nem helyes, és több mint 15 perc kell az adott munkafolyamat elvégzésére, tehát Ekkor jobb oldali kritikus tartományunk van. Azt mondtuk, hogy a próbafüggvény kritikus tartományba esésének a valószínűsége α. Tehát:
A próbafüggvényre vonatkozó összefüggés figyelembevételével a fenti képletet a következőképpen alakíthatjuk át:
A rendelkezésre álló adatok alapján a zárójelben álló egyenlőtlenség jobb oldalán lévő kifejezés értéke, figyelembe véve a 8.1. pontban leírtakat (azaz ), meghatározható, így konkrét minta esetén
Mivel azonos átalakításokat végeztünk, továbbra is annak a valószínűsége, hogy a mintaátlag nagyobb, mint 16 perc. Ekkor a 16 percet tekinthetjük kritikus értéknek, mivel ez az érték választja el az elfogadási és az elutasítási tartományt.
8,3. ábra - Az elfogadási és a kritikus tartomány elhelyezkedés
53 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
A 8.3. ábra az elfogadási és a kritikus tartomány elhelyezkedését mutatja az átalakítás után. (Tehát a feltételezett várható érték 15 perc, a kritikus érték esetén pedig 16 perc.) Az ábráról leolvasható, hogy hogy nagyobb, mint 16 perc.
annak valószínűsége, hogy a mintaátlag kisebb, mint 16 perc, és
annak,
Vizsgáljuk meg, hogyan lehet meghatározni a másodfajú hiba elkövetésének a valószínűségét! A fenti példában az ellenhipotézis pedig meghatározása azonban csak egyszerű (pl.
azaz összetett ellenhipotézisünk van. A β alternatív hipotézis esetén lehetséges.
Számítsuk ki a másodfajú hiba elkövetésének a valószínűségét a nullhipotézis és a ellenhipotézis esetén! Használjuk fel a korábban meghatározott kritikus értéket, a 16 percet! Másodfajú hibát akkor követünk el, ha elfogadjuk a nullhipotézist, holott az ellenhipotézis volt az igaz. Másképpen megfogalmazva ez azt jelenti, hogy a mintaátlagunk az elfogadási tartományba esik (kisebb, mint 16 perc) annak ellenére, hogy a az igaz. Képlettel felírva:
Mivel csak a standard normális eloszlás táblázata áll a rendelkezésünkre, először a változónkat át kell alakítani standard normális eloszlásúvá (standardizálnunk kell), s ezt követően határozhatjuk csak meg a β értékét. Tehát:
azaz nullhipotézis és valószínűsége 5%, a másodfajú hibáé pedig 79,67%.
ellenhipotézis esetén az elsőfajú hiba elkövetésének
A összetett ellenhipotézis azonban számtalan egyszerű hipotézisre bontható fel. Válasszunk ki ezek közül néhányat, s határozzuk meg ezen esetekben a fenti gondolatmenetet követve a β értékét. Az eredményeket a 8.2. táblázatban foglaltuk össze.
54 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
8.2. táblázat - A másodfajú hiba elkövetésének valószínűsége különböző ellenhipotézisek esetén H 1:
β érték
μ = 15,1
0,9332
μ = 15,4
0,8413
μ = 15,5
0,7967
μ = 16,0
0,5000
μ = 16,5
0,2033
μ = 17,0
0,0485
μ = 17,2
0,0228
Tehát a másodfajú hiba elkövetésének a valószínűsége függ attól, hogy mely ellenhipotézis esetén határoztuk meg. A 8.4. ábrán a másodfajú hiba elkövetésének a valószínűségét ábrázoltuk különböző alternatív hipotézisek esetén.
8,4. ábra - Az α és a β grafikus meghatározása különböző alternatívhipotézisek esetén
Az ábrán jól látszik, hogy a helyzetnek megfelelő eloszlás egy része benne van a – téves – fennállása alapján kijelölt elfogadási tartományban. Ez a terület, amelyet besatíroztunk, a másodfajú hiba elkövetésének valószínűségét mutatja. Továbbá az ábráról leolvasható, hogy alternatív hipotézis esetén a másodfajú hiba elkövetésének a valószínűsége nagy (0,7967) lesz, míg ellenhipotézisnél ez a valószínűség kicsi (0,028). Vizsgáljuk meg, hogyan változik és fennállása esetén a másodfajú hiba elkövetésének valószínűsége, ha az elsőfajú hiba elkövetésének valószínűségét 0,05-ről 0,01-re csökkentjük. (Ebben az esetben
)
55 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
A korábbi példák eredményeit felhasználva ( perc, perc) határozzuk meg azt a kritikus értéket, amely esetén 0,01 annak a valószínűsége, hogy a mintaátlag nagyobb, mint a kritikus érték! Behelyettesítve a kritikus érték meghatározására alkalmazható összefüggésbe:
Tehát annak a valószínűsége, hogy a mintaátlag nagyobb, mint 16,4 perc, 0,01. A 8.5. ábrán láthatjuk, hogyan változik a másodfajú hiba elkövetésének a valószínűsége, ha a kritikus értéket 16 percről 16,4 percre növeljük, ami egyben azt jelenti, hogy a szignifikanciaszintet (α -t) 0,05-ről 0,01-re csökkentjük. Az ábra alapján megállapíthatjuk, hogy ha csökkentjük az elsőfajú hiba elkövetésének valószínűségét (α -t) akkor e csökkentésnél nagyobb mértékben nő meg a másodfajú hiba elkövetésének valószínűsége (β). Az előzőekben már meghatároztuk (5%-os szignifikanciaszinten) másodfajú hiba elkövetésének valószínűségét, ami 0,028 volt.
és
esetén a
Most határozzuk meg, hogy mekkora a másodfajú hiba elkövetésének a valószínűsége, ha a kritikus érték 16,4 perc, azaz a szignifikanciaszint 1%.
8,5. ábra - Az α és a β grafikus meghatározása különböző kritikus értékek esetén
56 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Mint vártuk a 8.5. ábra alapján, az elsőfajú hiba elkövetésének a valószínűsége lecsökkent (0,05-ről 0,01-re), de ugyanakkor nagymértékben megnőtt (0,0228-ról 0,0918-ra) a másodfajú hiba elkövetésének a valószínűsége. Általánosságban is elmondhatjuk, hogy az csökkentése esetén megnő a β elkövetésének a valószínűsége. Felvetődik a kérdés, hogy a hipotézisvizsgálat során az első- vagy a másodfajú hiba elkövetése-e a veszélyesebb. Kérdés továbbá, hogy egy-egy konkrét hipotézisvizsgálatnál milyen szignifikanciaszintet célszerű választani. Elterjedt az a nézet, hogy a másodfajú hiba veszélyesebb az elsőfajú hibánál. Vizsgáljuk meg, mi az alapja ennek az állításnak? Ha elsőfajú hibát követünk el – vagyis az igaz nullhipotézist visszautasítjuk –, akkor a hipotézisvizsgálat eredménye, hogy a elutasítjuk. Ezt követően egy újabb nullhipotézist fogalmazunk meg, majd a 57 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
hipotézisvizsgálat végrehajtása után a ismét elutasítjuk, hisz az eredeti nullhipotézis volt az igaz. Ha következetesen végighaladunk az összes lehetséges hipotézisen – s természetesen minden esetben új mintát veszünk –, akkor mindegyiket vissza kell utasítanunk, s visszajutunk az eredeti állításunkhoz. Azt mondhatjuk tehát, hogy az elsőfajú hiba elkövetése nem okoz „jóvátehetetlen” hibát. Másodfajú hibát viszont akkor követünk el, ha egy hamis hipotézist elfogadunk. Abból viszont, hogy elfogadjuk a hipotézist, az következik, hogy a probléma vizsgálatát befejeztük. A hiba korrigálására tehát nincs lehetőség. A szignifikanciaszint megválasztásánál olyan kompromisszumos megoldásra van szükség, hogy nem túl magas mellett a másodfajú hiba elkövetésének a valószínűsége viszonylag alacsony legyen. Ez az vagy ehhez közeli szignifikanciaszint, amit a gyakorlatban sokszor alkalmaznak. Az eddig elmondottak alapján nyilvánvaló, hogy egy-egy nullhipotézis helyességének ellenőrzésére olyan próbát és ezáltal próbafüggvényt célszerű választani, amelynél az elsőfajú hiba adott elkövetési valószínűsége mellett minimális a másodfajú hiba elkövetésének valószínűsége. A különböző próbák e szempontból történő összehasonlításánál jó szolgálatot tesz a próbák erőfüggvénye. Erőfüggvényenazt a függvényt értjük, amely úgy áll elő, hogy minden lehetséges egyszerű alternatív hipotézishez meghatározzuk a megfelelő kiegészítő valószínűségeket és ezeket (az alternatív hipotézisben meghatározott érték) függvényében ábrázoljuk. Az erőfüggvénnyel e könyv keretei között részletesebben nem foglalkozunk, mint ahogyan a következőkben az egyszerű alternatív hipotézisekkel sem. Ezek után tekintsük át a statisztikai próba végrehajtásának általános gondolatmenetét röviden, hisz ezen gondolatmenet egyes részeivel a korábbiakban már foglalkoztunk. A 8.3. fejezetben leírt lépések bármely hipotézis vizsgálata esetén alkalmazhatók.
3. 8.3. A statisztikai hipotézisvizsgálat menete 1. Megfogalmazzuk a
nullhipotézist és a vele szemben álló
alternatív hipotézist.
2. Megkeressük a
megfogalmazott állításnak és az egyéb feltételeknek megfelelő próbafüggvényt.
3. Megválasztjuk az elsőfajú és a másodfajú hibáról elmondottak alapján a szignifikanciaszintet. 4. Végrehajtjuk a mintavételt, meghatározzuk a mintajellemzők értékét és kiszámítjuk a próbafüggvény aktuális (számszerű) értékét. 5. Az alternatív hipotézissel összhangban a szignifikanciaszintnek megfelelően felosztjuk a próbafüggvény lehetséges értéktartományát elfogadási és visszautasítási tartományra. 6. Döntünk a és a hipotézisről. Ha a próbafüggvény értéke az előre meghatározott elfogadási tartományba esik, elfogadjuk a a alternatív hipotézissel szemben, ellenkező esetben elutasítjuk, és a ellenhipotézis kerül elfogadásra. Ismét elmondjuk, hogy mivel minta alapján hozzuk meg a hipotézisvizsgálat során a döntésünket, az valószínűségi jellegű lesz, bizonytalanságot hordoz. A hipotézist nem tudjuk „igazolni” vagy „cáfolni”, ezért azt mondjuk, hogy a hipotézist szignifikanciaszinten elfogadjuk vagy elutasítjuk. (Szokásos szóhasználat még a „fenntartjuk” vagy „elvetjük” megállapítás is.) A következőkben a fontosabb próbák részleteit tekintjük át. Az áttekintés során feltételezzük, hogy egy vagy többazonos eloszlású, független elemekből álló minta áll a rendelkezésünkre. Mivel az egyéb mintáknak a független, azonos eloszlású mintától vett eltérésének a hatása az egyes próbákra még szinte alig van feltérképezve, illetve bonyolult, ezért e szigorú megkötés. A leggyakrabban használt egyszerű véletlen mintáról azonban elmondhatjuk, hogy ha a kiválasztási arány kicsi, akkor ez a minta jó közelítéssel független, azonos eloszlású mintának tekinthető. A hipotézisvizsgálat során alkalmazott statisztikai próbákat több szempont alapján is csoportosíthatjuk. Azokat a statisztikai próbákat, amelyek alkalmazása csak előírt eloszlású statisztikai sokaság esetén lehetséges, paraméteres statisztikai próbáknak nevezzük, míg a nemparaméteresek azok a statisztikai próbák, amelyek bármely eloszlású sokaság esetén alkalmazhatók. Az elfogadási és kritikus tartomány elhelyezkedése alapján beszélhetünk továbbá egyoldali és kétoldalistatisztikai próbáról. Vannak olyan statisztikai próbák, amelyek 58 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
végrehajtásához egy mintára van szükség, és vannak olyanok, amelyekhez két minta kell. Ez alapján megkülönböztetünk egymintás, illetve kétmintás statisztikai próbákat. Az egyes statisztikai próbák tárgyalása során is ez utóbbi csoportosítást fogjuk alkalmazni.
4. 8.4. Egymintás statisztikai próbák E pontban az egymintás statisztikai próbák közül csak azok tárgyalására kerül sor, amelyek a sokaság valamely paraméterének (várható érték, szórás, arány) tesztelésére szolgálnak. A következőkben az alapján csoportosítjuk az egymintás próbákat, hogy mely sokasági paraméterre vonatkoznak.
4.1. 8.4.1. A várható értékkel kapcsolatos próbák Az e csoportba tartozó két próba esetén azt teszteljük, hogy egy sokaság ismeretlen várható értéke (μ) megegyezik-e az általunk feltételezett értékkel. Nullhipotézisünk ekkor a következő lesz:
Alternatív hipotézisünk pedig:
Az ismertetésre kerülő két próba kizárólag az alkalmazási feltételek tekintetében tér el egymástól. Az egymintás z-próba 2 Ha a sokaság normális eloszlású, és a sokaság σ szórása (valamilyen előzetes tény birtokában) ismert, akkor próbafüggvényként a 8.1. pontban felírt
valószínűségi változót használjuk, amely standard normális eloszlást követ – a mintanagyságtól függetlenül –, ha a nullhipotézis igaz. Konkrét minta esetén a próbafüggvény megvalósult értékét a 8.1.-ben leírtaknak megfelelően a
összefüggéssel határozzuk meg. A próba végrehajtása során az elfogadási és a kritikus (visszautasítási) tartomány elhelyezkedése – mint ahogy a 8.2. ábrán is bemutattuk – az alternatív hipotézistől függ. Az elfogadási tartomány α szignifikanciaszint melletti határait a 8.3. táblázatban foglaltuk össze.
8.3. táblázat - Az z-próba elfogadási tartományának határai szignifikanciaszint mellett Alternatív hipotézis
2
Elfogadási tartomány
A szakirodalomban használatos az u-próba elnevezés is.
59 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Tekintsük a következő példát! Egy automata gépsor lisztet csomagol, szabvány szerint 100 dkg-os tömeggel és 3 dkg-os megengedett szórással. Az automata ellenőrzésére 30 db-os véletlen mintát vettek. A lemért liszteszacskók átlagos tömege 98 dkg volt. Feltételezhető, hogy a gép által töltött liszteszacskók töltési tömege normális eloszlást követ. Ellenőrizzük, hogy a gép a szabványnak megfelelően csomagol-e ( )! Nullhipotézisünket – a töltési tömeg megfelel a szabványnak – a
egyenlőséggel fogalmazzuk meg. Alternatív hipotézisünk pedig
tehát kétoldali statisztikai próbát végzünk. Mivel a sokaság normális eloszlású és a szórás ismert, z-próbát alkalmazhatunk. Ezután kiszámítjuk a próbafüggvény aktuális értékét és n = 30 ismeretében:
Az 5%-os szignifikanciaszint ( ) esetén a standard normális eloszlás táblázatából (Függelék 1. táblázat) az alternatív hipotézis figyelembevételével a felső kritikus érték: Az alsó kritikus érték pedig ennek mínusz egyszerese lesz, azaz vagyis az elfogadási tartomány:
Mivel az elfogadási tartomány nem tartalmazza a próbafüggvény aktuális értékét, a –3,65-öt, a nullhipotézist elutasítjuk az alternatív hipotézissel szemben. Vagy azt is mondhatjuk, hogy a liszteszacskók töltési tömege 5%os szignifikanciaszinten nem felel meg a szabványnak. Felvetődik a kérdés, hogy van-e olyan szignifikanciaszint, amelynél elfogadjuk a nullhipotézist. Ha megnézzük a standard normális eloszlás táblázatát, azt tapasztaljuk, hogy x = 3,65-höz
érték tartozik. Mivel
kétoldali próbát végeztünk, amelyből Tehát csak ennél kisebb szignifikanciaszint esetén fogadjuk el a próbát, ami „gyakorlatilag” azt jelenti, hogy minden szignifikanciaszinten elutasítjuk a nullhipotézist. A kritikus értéket a vizsgált jelenség „mértékegységében” is kifejezhetjük. Ehhez a
egyenlőtlenséget a átrendezni:
behelyettesítése és
felhasználása után a következő formába kell
Az egyenlőtlenségbe behelyettesítve kiszámolhatjuk a kritikus értékeket:
60 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Tehát az elfogadási tartományunk 98,9 és 101,1 dkg között van. A mintaátlagunk, ami 98 dkg, nem esik bele ebbe az intervallumba. Így a 5%-os szignifikanciaszinten elutasítjuk. Ez utóbb mondottakat és a becsléselméletben tanultakat figyelembe véve nem nehéz észrevenni a kétoldali hipotézisvizsgálat és az intervallumbecslés közötti hasonlóságot. A hasonlóság ellenére a két eset között a különbség a következő. Az intervallumbecslésnél a sokaság valamilyen paraméterére adunk egy, az adott paramétert valószínűséggel tartalmazó, a mintától függő végpontokkal határolt intervallumot valamely mintajellemzőből kiindulva. A hipotézisvizsgálat esetében pedig valamely paraméternek a nullhipotézisben feltételezett értékéből indulunk ki, és a mintajellemzőre adunk egy olyan intervallumot, amely a fennállása esetén valószínűséggel tartalmazza a mintáról mintára változó mintajellemzőt. A vizsgált jelenség „mértékegységben” kifejezett kritikus értékeinek meghatározása csak a könnyebb megértést szolgálta, a későbbiek során nem fogjuk alkalmazni. Az egymintás z-próba abban az esetben is használható, ha egy véges szórású, tetszőleges eloszlású sokaságbólnagy elemszámú független mintát veszünk (a sokasági szórást ekkor nem szükséges ismernünk). A mintaelemek függetlensége és a valószínűségszámításból megismert centrális határeloszlás tétele miatt a
próbafüggvény – ahol a lehetséges mintákból számított korrigált empirikus szórás – közelítőleg standard normális eloszlású lesz, ha a igaz. A próba végrehajtása során használt kritikus értékek természetesen ugyanazok maradnak. Konkrét minta esetén a próbafüggvény megvalósult értékének kiszámítása a
képlettel történik. Az egymintás
t-próba
Enyhítsünk valamelyest a z-próba alkalmazásának meglehetősen szigorú feltételein! Az egymintás t-próba végrehajtásához a sokasági eloszlás szórását nem kell ismernünk, de a sokaság eloszlásának továbbra is normálisnak kell lennie. Ebben az esetben a
próbafüggvény használható a ellenőrzésére. Amennyiben a igaz, és a sokaság eloszlása valóban normális, akkor a t próbafüggvény szf = n – 1 szabadságfokú Student t-eloszlást követ. Erre alapozva könnyen felírhatjuk a próba végrehajtásához szükséges elfogadási tartományokat, amelyeket a 8.4. táblázatban foglaltunk össze.
8.4. táblázat - A t-próba elfogadási tartományának határai α szignifikanciaszint mellett Alternatív hipotézis
Elfogadási tartomány
61 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Konkrét minta esetén a próbafüggvény értékét a következő összefüggéssel határozzuk meg:
Térjünk vissza az előző példához! Fogadjuk el továbbra is azt, hogy a sokaság eloszlása normális, de a szórást ezúttal a mintából becsüljük. 30 mérés eredményei alapján:
A nullhipotézis és az alternatív hipotézis továbbra is
A próbafüggvény mintából számított értéke:
A
szabadságfokhoz és 0,05 szignifikanciaszinthez tartozó felső kritikus érték a Student t-eloszlás
táblázatából (Függelék 4. táblázat)
Az alsó kritikus érték ennek a mínusz egyszerese, azaz
Az elfogadási tartomány: [–2,05; 2,05]. Mivel próbafüggvényünk értéke beleesik az elfogadási tartományba, ezért a nullhipotézist elfogadjuk. Tehát 5%-os szignifikanciaszinten a gép a szabványnak megfelelően csomagol. Vizsgáljuk meg, hogy más szignifikanciaszinten elutasítjuk-e a próbát. A Student t-eloszlás táblázatában a szf = 29 szabadságfoknál olyan értéket kell keresni, amelynél a t0 (vagy annak mínusz 1-szerese) nagyobb. Ez az 1,70. Ekkor amiből valószínűsége, hogy az igaz
Tehát 0,1-es szignifikanciaszinten már elutasítjuk a elutasítjuk.
Ekkor 10% annak a
4.2. 8.4.2. A sokasági szórásra vonatkozó próba Gyakori feladat a sokasági szórásra vonatkozó feltevés ellenőrzése is. A 7.4.3. pontban láttuk, hogy a sokasági szórás becslésére a korrigált tapasztalati szórást használjuk. Intervallumbecslést csak akkor tudunk adni, ha a sokaság normális eloszlású. A konfidenciaintervallum meghatározását a alapoztuk. A sokasági szórásra vonatkozó hipotézis ellenőrzésekor is ezekre az ismeretekre támaszkodunk. Röviden ismételjük meg az ott elmondottakat. Ha a sokaság szórása és várható értéke (átlaga) m0, akkor független, azonos eloszlású minta esetén a négyzetösszegük, az
valószínűségi változók standard normális eloszlásúak, így valószínűségi változó
Ezért a sokasági eloszlás szórására vonatkozó
hipotézis ellenőrzésére (ha a sokaság normális eloszlású) a
62 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
próbafüggvény használható, amely szf = n – 1 szabadságfokú követ, ha a igaz. Figyelembe véve a 7.4.3. pontban a elmondottakat, a próba végrehajtása során az elfogadási tartomány határai különböző alternatív hipotézisek esetén a következők lesznek (8.5. táblázat):
8.5. táblázat - A Alternatív hipotézis
elfogadási tartományának határai α szignifikanciaszint mellett Elfogadási tartomány
Előző példáinkban feltettük, hogy a liszt csomagolásánál a gép 3 dkg-os szórással tölt. A 30 elemű mintában pedig 5,5 dkg volt a szórás. Ellenőrizzük le, hogy helyes volt-e az a feltevés, hogy a csomagológép maximum 3 dkg szórással tölt! A szignifikanciaszint továbbra is 5%. Konkrét minta esetén a próbafüggvény magvalósult értékének kiszámítása a
képlettel történik. A nullhipotézist továbbra is egyenlőség formájában írjuk fel:
Az alternatív hipotézisben pedig azt a feltételezést fogalmazzuk meg, hogy a szórás meghaladja az előírtat 3 , azaz
Az alternatív hipotézis szerint egyoldalú próbát hajtunk végre jobb oldali kritikus tartománnyal. A mintából számított szórás: s = 5,5 dkg. A próbafüggvény számított értékének meghatározásához szükséges adatok tehát n = 30, s = 5,5 dkg és Az érték pedig:
A kritikus érték a Függelék 2. táblázatából Az elfogadási tartomány tehát 0 és 42,6 között van. Mivel próbafüggvényünk aktuális értéke nem esik bele az elfogadási tartományba, ezért elutasítjuk a nullhipotézist. A elvetésével automatikusan az alternatív hipotézist fogadjuk el, azaz a töltés során a szórás meghaladja az előírást. Úgy is fogalmazhatunk, hogy a minta adatai – 5%-os szignifikanciaszinten – ellentmondanak annak a feltevésnek, hogy a gép maximum 3 dkg szórással tölt.
3
Ekkor a nullhipotézis elfogadása azt jelenti, hogy a csomagológép 3 dkg vagy annál kisebb szórással tölt 5%-os szignifikanciaszinten.
63 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
4.3. 8.4.3. A sokasági arányszámmal (valószínűséggel) kapcsolatos próba Legyen P egy arányszám, amely a 7.3.3. pontban leírtaknak megfelelően meghatározott típusú egyedek előfordulásának valószínűségét mutatja a sokaságban, vagyis P annak a valószínűsége, hogy egy egyedet véletlenszerűen kiválasztva az rendelkezik az adott tulajdonsággal. Ellenőrizni kívánjuk azt, hogy a sokasági arány egyenlő-e egy általunk előre feltételezett P0 értékkel. A nullhipotézis tehát H 0 : P = P0. Legyen A az az esemény, hogy egy mintaelem kiválasztásakor az rendelkezik az adott tulajdonsággal. Ha igaz a H0 : P = P0 hipotézis, akkor P(A) = P0. Ha karakterisztikus valószínűségi változója, akkor
az i-edik mintaelem kiválasztásakor az A esemény
A feltevés szerint
ha a sokaság nagy.
Ekkor
az adott tulajdonságú elemek aránya a mintában és
Így a
valószínűségi változó várható értéke nulla és szórása 1. ugyanakkor n db azonos eloszlású valószínűségi változó összege, ezért nagyn esetén a centrális határeloszlás-tétel szerint közel standard normális eloszlású. Így a
próbafüggvénynek választva, egy megvalósult minta esetén a
értéket kell vizsgálni, ahol p a megvalósult mintabeli arány. A próba kritikus értékei megegyeznek a z-próba kritikus értékeivel, mivel mindkét próbafüggvény standard normális eloszlású. Nézzünk egy példát a próba alkalmazására. Egy biztosítótársaság feltevése szerint az első számú vezetők egynegyedének van nagy életbiztosítása. Ezen feltevés ellenőrzésére véletlenszerűen kiválasztottak 1000 vállalatot. A megkérdezett cégek vezetői közül 226 kötött már valamilyen nagy összegű életbiztosítást. Ellenőrizzük 5%-os szignifikanciaszinten a feltevés helyességét! Nullhipotézisünket – az első számú vezetők negyedének (25%-ának) van nagy összegű életbiztosítása – H 0 : P = 0,25 formában fogalmazzuk meg. Az alternatív hipotézis pedig H1 : P ≠ 0,25, tehát kétoldalú próbát hajtunk végre. 64 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
A mintabeli arány: A próbafüggvény minta alapján számított (aktuális) értéke:
Az alternatív hipotézisnek megfelelő kritikus érték: az elfogadási tartomány pedig -tól 1,96-ig terjed. Mivel az elfogadási tartomány tartalmazza a próbafüggvény megvalósult értékét, a nullhipotézist elfogadjuk. Tehát 5%-os szignifikanciaszinten elfogadjuk azt az állítást, hogy az első számú vezetők egynegyedének van nagy összegű életbiztosítása.
5. 8.5. Kétmintás statisztikai próbák A hipotézisvizsgálatot eddig arra az esetre korlátoztuk, amikor adva volt egy sokaság, és a hipotézis ennek a sokaságnak valamely paraméterére vonatkozott. Előfordul azonban, hogy nem egy, hanem két sokasággal van dolgunk, és a hipotézis két paraméter értékének egymáshoz való viszonyára (általában különbségére) vonatkozik. Ilyenkor kétmintás próbát hajtunk végre, azaz a sokaságokból egy-egy független, véletlen mintát veszünk a hipotézis ellenőrzése céljából. Tipikus döntési probléma két eljárás (pl. két különböző technológia, módszer vagy kezelés) hatásának az összehasonlító vizsgálata. Ennek speciális esete, hogy az egyik hagyományos, a másik új eljárás. Ekkor azt az állítást vizsgáljuk, hogy az új eljárás eredményesebb, mint a hagyományos. Noha a feltevés az, hogy az új eljárás (módszer stb.) eredményesebb, mint a hagyományos, a nullhipotézisben az egyenlőség szerepel. Az „igazi” állítást mindig az alternatív hipotézisben fogalmazzuk meg. Így többnyire egyoldalú próbát hajtunk végre. Gyakran előforduló döntési feladat az is, amikor két sokaságot (pl. férfiak–nők, falu–város stb.) kívánunk összehasonlítani valamilyen átlagos színvonal szempontjából. Feltevésünkben ekkor a két sokaság átlagos színvonala közötti eltérés szerepel. A két sokaságot két véletlen és független mintának kell képviselnie.
5.1. 8.5.1. Két sokasági várható érték különbségének vizsgálata Legyen adott két sokaság, rendre illetve paraméterekkel. A két sokaságból egy-egy véletlen és egymástól független mintát veszünk. A mintákból rendelkezésünkre álló adatokat a 8.6. táblázatban foglaltuk össze.
8.6. táblázat - Két mintát igénylő próbák esetén alkalmazott jelölések Megneve zés
Sokaság
Minta
1. 2. 1. 2. sokaság sokaság minta minta
Megvalósult minta
1. minta
2. minta
Elemszá m Átlag Szórás A minták alapján ellenőrizni kívánjuk a 65 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
hipotézis helyességét a
bal oldali, a
kétoldali vagy a
jobb oldali alternatív hipotézissel szemben. A H0 tetszőleges, előre megadott érték, és azt a különbséget fejezi ki, ami feltevésünk szerint a két várható érték között lehetséges. Az, hogy melyik próbafüggvényt alkalmazzuk a H0 helyességének ellenőrzésére – a várható értékkel kapcsolatos egymintás próbákhoz hasonlóan –, attól függ, hogy milyen információkkal rendelkezünk a két sokaságról. A kétmintás z-próba Tegyük fel, hogy mindkét sokaságnormáliseloszlású illetve paraméterekkel, és ismerjük a sokasági szórásokat. Legyen és a mintaátlaguk, akkor ezek is normális eloszlásúak, így különbségük is az. ha H0 helyes és a függetlenség miatt
Ezért ez
esetben a
próbafüggvény standard normális eloszlást követ, függetlenül a mintaelemszámoktól, ha a H0 igaz. Konkrét minta esetén a próbafüggvény megvalósult értékét a következő összefüggéssel határozhatjuk meg:
A próba elfogadási tartománya megegyezik az egymintás z-próba elfogadási tartományával. A gyakorlatban rendszerint nem ismerjük a sokasági ( ) szórásokat, ezért azokat a mintából becsüljük a korrigált tapasztalati szórások ( illetve ) segítségével. Ha kellően nagy mintánk van, a
próbafüggvény közelítőleg standard normális eloszlást alkot, ha a H0 igaz. (Ennek igazolásával nem foglalkozunk.) A próbafüggvény megvalósult értékét a
összefüggéssel számolhatjuk ki konkrét minta esetén. Ezek után a próba elvégzése már egyszerű. A próba végrehajtásához itt annál nagyobb mintára van szükség, minél jobban eltér a sokaság eloszlása a normális eloszlástól. A kétmintás t-próba Két várható érték különbségére vonatkozó feltevés kis minták alapján is ellenőrizhető, ha az alábbi kikötések teljesülnek: a) a minták normális eloszlású sokaságból származnak, b) az ismeretlen sokasági szórások azonossága feltételezhető 4 .
4
E feltevés ellenőrzésére a 8.5.3. pontban ismertetésre kerülő F-próba szolgál.
66 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
A nullhipotézis ellenőrzésére a
próbafüggvény használható, amelyben
továbbá a
és
a lehetséges minták korrigált tapasztalati szórásai.
Konkrét minta esetén a próbafüggvény megvalósult értéke a
összefüggéssel határozható meg, ahol
továbbá s1 és s2 a korrigált tapasztalati szórás konkrét értékei egy mintánál. Ez a próbafüggvény H0 helyessége és az alkalmazási feltételek fennállása esetén szf = n1 + n2 – 2 szabadságfokú Student t-eloszlást követ. Tekintsük a következő példát! Egy autóabroncsokat gyártó cég az új típusú abroncs kopásállóságának ellenőrzése érdekében 10 gépkocsira véletlen mintavétellel kiválasztott új típusú, 10 gépkocsira pedig hasonló módon kiválasztott régi típusú abroncsot szerelt. 50 000 km megtétele után megmérte az abroncsok kopását. A mérési eredményeket a 8.7. táblázat tartalmazza. A 10 elemű minták alapján a cég arról kíván meggyőződni, hogy az új típusú abroncsok kopásállóbbak-e, mint a régi típusúak. A szignifikanciaszint 5%. Az, hogy az abroncsok kopásának eloszlása normális, továbbá hogy a sokasági szórások egyenlőek, feltételezhető. Mivel feltevésünk a két típus eltérésének csak az irányára vonatkozik (δ = 0), ezért
ahol 1-gyel a régi, 2-vel pedig az új típusú abroncsot jelöltük. Az alternatív hipotézisben azt fogalmazzuk meg, hogy az új abroncs kopásállóbb, mint a régi (vagyis a mm-ben mért kopása számszerűen kisebb), azaz
8.7. táblázat - A 10 elemű minta mérési eredményei Sorszám
Régi típusú
Új típusú
abroncsok kopása mmben 1
1,4
1,2
2
2,1
2,0
67 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
3
1,7
1,7
4
2,9
2,6
5
1,0
1,1
6
3,4
2,5
7
2,5
2,3
8
1,7
1,5
9
2,4
2,1
10
2,0
1,6
A minta adatainak átlaga és szórása:
Mivel a sokasági szórások nem ismertek és kis mintát vettünk, t-próbát alkalmazhatunk. A próbafüggvény számított értéke:
A szabadságfok: szf = 10 + 10 – 2 = 18, a kritikus érték a Függelék 4. táblázata alapján pedig:
Az
elfogadási tartomány: A próbafüggvény megvalósult értéke beleesik az elfogadási tartományba, így a nullhipotézist fogadjuk el. A kétféle típusú gumiabroncs kopásállósága 5%-os szignifikanciaszinten azonosnak tekinthető. A minta tehát nem igazolta a feltevést.
5.2. 8.5.2. Két sokasági arányra (valószínűségre) vonatkozó próba Legyen P1 és P2 két ismeretlen sokasági arányszám (valószínűség). A próba végrehajtása során ellenőrizni kívánjuk, hogy a két paraméter különbsége egyenlő-e egy megadott értékkel (pl. nullával). Ezért a sokaságokból egy-egy független mintát veszünk, és meghatározzuk a kérdéses arányszámokat torzítatlanul becslő és relatív gyakoriságokat. Tehát a nullhipotézis
melynek ellenőrzésére a kétmintás z-próba használható. Ha a vizsgálni kívánt két sokaságból rendelkezésünkre áll két nagy minta, akkor a
próbafüggvény standard normális eloszlást alkot (lásd 8.4.3. és 8.5.1. alatti megfontolásainkat). Konkrét minta esetén a próbafüggvény megvalósult értéke a
68 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
összefüggéssel határozható meg. Ha
akkor a nullhipotézis
Ellenőrzésére célszerű a fenti összefüggés helyett az ugyancsak standard normális eloszlású
próbafüggvényt használni, ahol most számított relatív gyakoriságok.
az egyes minták elemszámai,
pedig a mintákból
Konkrét minta esetén a
összefüggés használható, ahol A próba végrehajtása során a kritikus értékek megegyeznek az egymintás z-próba kritikus értékeivel.Nézzünk egy példát. Az egyik országos közvélemény-kutató cég 1000 elemű független, azonos eloszlású mintával dolgozik. Két, egymás után 1 hónapos eltéréssel megismételt közvélemény-kutatás eredménye szerint valamely politikust a lakosság 32%-a, illetve 38%-a tartotta rokonszenvesnek. Vizsgáljuk meg 5%-os szignifikanciaszinten azt a feltevést, hogy adott politikus iránt nőtt-e a rokonszenv! A mintában: n1 = n2 = 1000, továbbá p1 = 0,32, p2 = 0,38. A kérdés megválaszolása a
nullhipotézis vizsgálatát jelenti, ahol 1-gyel a korábbi, 2-vel a későbbi vizsgálat eredményét jelöltük. Az alternatív hipotézisben azt fogalmazzuk meg, hogy a politikus iránti rokonszenv nőtt, azaz
Mivel a két arányszám közötti eltérésnek csak az iránya érdekel bennünket, ezért az próbafüggvényt használjuk. Ennek a mintából számított értéke:
melynek meghatározásához
69 Created by XMLmind XSL-FO Converter.
esetén felírt
Hipotézisvizsgálat
A kritikus érték bal oldali kritikus tartomány esetén
Az elfogadási tartomány pedig
Mivel a próbafüggvény számított értéke nem esik bele az elfogadási tartományba, a H0-t elutasítjuk a H1-gyel szemben. Tehát 5%-os szignifikanciaszinten nőtt az adott politikus iránti rokonszenv a lakosság körében .
5.3. 8.5.3. Két sokasági szórás egyezőségére vonatkozó statisztikai próba A kétmintás t-próba alkalmazásának egyik feltétele a két sokasági szórás egyezősége volt. A két mintát igénylő próbák közül ismerkedjünk meg utolsónak ezen probléma tesztelésére is alkalmas próbával. A 8.6. táblázatban bevezetett jelöléseket alkalmazzuk. Szükséges azonban az a további megszorítás, hogy a sokaság eloszlásának mindkét sokaság esetén pontosan vagy igen jó közelítéssel normálisnak kell lennie. Célunk a két sokasági szórásra vonatkozó
nullhipotézis vizsgálata. Erre az
próbafüggvény használható, ami H0 helyessége esetén szf1 = n1 – 1 és szf2 = n2 – 1 szabadságfokú F-eloszlást alkot. Hiszen a számláló is és a nevező is valószínűségi változó (lásd 7.3.4. pont). Ezért ezt a próbát F-próbának nevezzük. Konkrét minta esetén a próbafüggvény megvalósult értéke a következő összefüggéssel határozható meg:
Fontos megjegyeznünk, hogy a szf1 a számláló szabadságfoka, a szf2 pedig a nevező szabadságfoka. Az, hogy melyik sokaságot jelöljük 1-essel, illetve 2-essel, elhatározás dolga. Ha ezt azonban egyszer már eldöntöttük, akkor e döntéshez a továbbiakban következetesen ragaszkodnunk kell, s a számláló és a nevező szabadságfokát ennek megfelelően kell megállapítani. (Erre később még visszatérünk.) Az F-eloszlás 5 – a hasonlóan – nem szimmetrikus eloszlás. Ez befolyásolja az elfogadási tartomány határainak kikeresését. Az eloszlás sűrűségfüggvényét a 8.6. ábra szemlélteti, különböző szabadságfokpárok esetén. Az F-próba kritikus értékei szintén külön erre a célra készített táblázatokból olvashatók ki (Függelék 3. táblázat). Mivel most a szf1 és szf2 szabadságfokok a táblázatban egy-egy külön dimenziót igényelnek, így a „p” értékek a táblázat címe alatt szerepelnek. A táblázatból közvetlenül kiolvasható a cf felső kritikus érték, míg az ca alsó kritikus értékek a következő összefüggéssel határozhatók meg:
8,6. ábra - Az F-eloszlás sűrűségfüggvénye különböző szabadságfokok esetén
5
Sűrűségfüggvénye a Valószínűségszámítás 197. oldalán található.
70 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Tehát az alsó kritikus értéket úgy határozhatjuk meg, hogy a felcserélt szabadságfokok mellett kikeresett felső kritikus érték reciprokát vesszük. Ezek után tekintsük át az F-próba elfogadási tartományait különböző alternatív hipotézisek esetén (8.8. táblázat)!
8.8. táblázat - Az F-próba elfogadási tartományai α szignifikanciaszint mellett Alternatív hipotézis
Elfogadási tartomány
Az alsó kritikus érték kikeresésével kapcsolatos kellemetlenséget elkerülhetjük, ha a számlálóba mindig a nagyobb szórást írjuk. Így eleve biztosítjuk, hogy a próbafüggvény értéke 1-nél nagyobb legyen. Mivel mindig nagyobb vagy egyenlő, mint 1, így az alsó kritikus érték mindig kisebb vagy egyenlő lesz, mint 1. Ezért nem fordulhat elő, hogy a próbafüggvény számított értéke kisebb legyen az alsó kritikus értéknél, így nem feltétlenül szükséges ezen érték meghatározása. Az F-próbáról elmondottak igazak a és a ellenhipotézis esetén is. Mivel a ellenhipotézis esetén, ha a számlálóba a nagyobb szórást írtuk, a próbafüggvény értéke mindig az elfogadási tartományba esik, így a nullhipotézist mindig elfogadjuk a ellenhipotézissel szemben. Mint már említettük, a kétmintás t-próba alkalmazásának feltétele, hogy a sokasági szórások megegyezzenek. Az új és a régi típusú gumiabroncsok kopásállóságát összehasonlító példában feltételeztük, hogy Ellenőrizzük 5%-os szignifikanciaszinten ezen állítás helyességét! (Továbbra is 1-gyel a régi, 2-vel az új típusú abroncsokat jelöljük.)
71 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
A vizsgálandó nullhipotézis:
illetve az ellenhipotézis:
A próbafüggvény megvalósult értéke: Az alternatív hipotézis kétoldali statisztikai próbát határozott meg. Annak ellenére, hogy a számlálóba a nagyobb mintabeli szórás került, (csupán a gyakorlás céljából) határozzuk meg az alsó és a felső kritikus értéket is! A két szabadságfok: illetve
A kritikus értékek pedig:
és
Az elfogadási tartomány: [0,248 ; 4,03]. A próbafüggvény számított értéke beleesik az elfogadási tartományba, így a nullhipotézisünket elfogadjuk. Tehát 5%-os szignifikanciaszinten a régi és az új típusú gumiabroncs kopásállóságának a szórása azonosnak tekinthető.
6. 8.6. Egyéb hipotézisvizsgálatok A 8.4. és a 8.5. pontban tárgyalt próbák sokasági paraméterekre vagy ezek egymáshoz való viszonyára vonatkoztak. Ebben a pontban olyan hipotézisvizsgálati módszerekkel foglalkozunk, amelyek egy vagy több változó sokasági eloszlására irányulnak. Megismerkedünk továbbá a varianciaanalízis legegyszerűbb modelljével.
6.1. 8.6.1. Illeszkedésvizsgálat Egy valószínűségi változó eloszlására vonatkozó állítás vagy feltételezés ellenőrzését illeszkedésvizsgálatnak nevezzük. Attól függően, hogy a hipotézisünket mennyire konkretizáljuk, kétféle illeszkedésvizsgálatot különböztetünk meg. 1. Ha a feltételezett (hipotetikus) eloszlás egyértelműen meghatározott – a típusát és paramétereit előre rögzítjük –, akkor tiszta illeszkedésvizsgálatról beszélünk. 2. Ha a feltételezett (hipotetikus) eloszlásnak csak a típusát adjuk meg – a paramétereit pedig a mintából becsüljük –, akkor becsléses illeszkedésvizsgálatot végzünk. Tegyük fel, hogy a sokaságot valamely (többnyire mennyiségi, de néha minőségi) ismérv(ek) alapján k számú részre bontottuk, azaz a sokaság egységeit a szóban forgó ismérv(ek) alapján osztályoztuk. Tegyük fel, hogy ugyanezt az osztályozást a mintára vonatkozóan is elvégeztük. A mintaelemek osztályozásának eredményeit a 8.9. táblázatban foglaltuk össze.
8.9. táblázat - A minta valamilyen ismérv szerinti megoszlása a Az ismérv alapján képzett
A kategória előfordulásának
kategóriák ismérvértéke
gyakorisága a mintában
a konkrét mintában
X1
v1
n1
X2
v2
n2
.
.
.
.
.
.
Xi
vi
ni
72 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
.
.
.
.
.
.
Xk
vk
nk
Összesen
n
n
Az ismérvértékek alapján képzett kategóriák lehetnek egyedi értékek, illetve mennyiségi ismérv esetén osztályközök. Egyedi értékek esetén a minta eloszlásáról, míg osztályközök esetén megoszlásáról beszélünk. a
Az általunk feltételezett eloszlás minden ismérvváltozathoz egy meghatározott Pi valószínűséget rendel. A Pi megmutatja, hogy a feltételezett (elméleti) eloszlás fennállása esetén mekkora lenne az i-edik ismérvváltozat előfordulásának valószínűsége, vagyis egy elemet véletlenszerűen kivéve ennyi a valószínűsége, hogy az adott ismérvváltozatba tartozik. Ennek megfelelően a nullhipotézis az alábbi módon adható meg:
ahol Az alternatív hipotézist pedig a H 1 : létezik olyan i, amelyre formában fogalmazhatjuk meg. Világos, hogy mérhetnénk.
Egy mintában az eltérést a
összeggel
Ha a rendelkezésre álló minta elég nagy, akkor a H0 hipotézis ellenőrzésére a
(ahol ) próbafüggvény használható, amely jó közelítéssel szabadságfokú követ, ha a igaz. (A bizonyítással nem foglalkozunk.) A szabadságfoknál a b a Pi meghatározásához szükséges azon paraméterek számát jelenti, amelyet a mintából becsültünk, k pedig a képzett kategóriák száma. (Természetesen tiszta illeszkedésvizsgálatnál a b értéke 0, így ) A próbafüggvény csak akkor közelíti meg jól a ha nagy mintánk van. További követelmény a jó közelítéshez, hogy a legkisebb feltételezett gyakoriság (nPi) nagyobb vagy egyenlő legyen, mint 10, de legalább Ez a szigorú feltétel valójában a mintanagyságra, valamint a képzett kategóriák számára vonatkozó korlát. Ha ez nem teljesül és a minta elemszáma valamilyen oknál fogva előre adott, célszerű új kategóriákat képezni a próba végrehajtásához. A próbafüggvény képzésének logikája, hogy igaz H0 esetén az n elemű mintában az i-edik kategória előfordulásának gyakorisága az körül ingadozik, hiszen – mint azt láttuk – ennyi a várható értéke. A próbafüggvény számlálójában lévő különbség tehát a nullhipotézis fennállása esetén csak a véletlenszerű (a mintavétel véletlen jellege miatti) eltéréseket mutatja. Ha az alternatív hipotézis igaz, akkor a két eloszlás (a feltételezett elméleti és a mintából előállt eloszlás) eltérése már nemcsak a véletlentől függ, ezért várható, hogy a próbafüggvény eloszlása a megfelelő szabadságfokú képest jobbra fog tolódni. Így az illeszkedésvizsgálatot jobb oldali kritikus tartománnyal kell végrehajtani. Ez azt jelenti, hogy az szignifikanciaszinthez felső kritikus értéket kell A próba végrehajtásához az elfogadási tartomány
keresni, azaz pedig
lesz. 73 Created by XMLmind XSL-FO Converter.
a kritikus tartomány
Hipotézisvizsgálat
Konkrét minta esetén a próbafüggvény megvalósult értékét a
összefüggéssel határozhatjuk meg, ahol Az illeszkedésvizsgálatnak számtalan felhasználási területe van. Az eddig megismert egy- és kétmintás statisztikai próbák feltétele volt, hogy a minta normális vagy közelítőleg normális eloszlású sokaságból származzon. Ezen megkötés teljesülését illeszkedésvizsgálattal ellenőrizhetjük, magát a vizsgálatot pedig normalitásvizsgálatnak nevezzük. Nézzünk erre vonatkozóan egy példát. Valamely gyorsbüféhálózat üzleteiben a vevőket 45 másodperc alatt kell kiszolgálni. A kiszolgálási idő megengedett szórása 7 másodperc. 400 véletlenszerűen kiválasztott vendég kiszolgálási idő szerinti megoszlását a 8.10. táblázat mutatja:
8.10. táblázat - A kiválasztott vendégek kiszolgálási idő szerinti megoszlása Kiszolgálási idő (másodperc)
Vendégek száma (fő)
– 35
20
35 – 40
80
40 – 45
100
45 – 50
100
50 – 55
60
55 –
40
Összesen
400
Ellenőrizzük azt a feltevést, hogy a mintánk az előírt paraméterű (μ = 45, σ = 7) normális eloszlásból származott! A szignifikanciaszint 5%. A vizsgálathoz először a normális eloszlás feltételezése melletti Pi elméleti valószínűségeket kell meghatározni. Ha az i-edik osztályköz felső határát xif-fel, illetve alsó határát xia-val jelöljük, akkor az i-edik osztályközbe esés valószínűsége μ várható értékű és σ szórású normális eloszlás feltételezésével:
A valószínűségek meghatározásához először ki kell számolni a hányadosokat, amelyeket a számítások elvégzéséhez szükséges munkatábla (8.11. táblázat) (3) oszlopában tüntettünk fel. Ezek után a standard normális eloszlás táblázatából (Függelék 1. táblázat) kikeressük a hányadosokhoz tartozó eloszlásfüggvény-értékeket (a munkatábla (4) oszlopa). Az (5) oszlopban a Pi valószínűségeket határozzuk meg a (4) oszlop szomszédos elemeinek kivonásával. (Ennek magyarázatát az i-edik osztályközbe esés valószínűségére az előzőekben felírt összefüggés adja.) A kiszámított Pi elméleti valószínűség megmutatja, hogy mekkora az i-edik kategória előfordulásának valószínűsége, ha normális eloszlású sokaságból származik a minta. A normális eloszlás feltételezése melletti gyakoriságok – (6) oszlop – segítségével meghatározzuk a (7) oszlop összesen sorában a próbafüggvény számított értékét.
74 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Fontos megjegyeznünk, hogy az utolsó osztályközhöz tartozó zif értéket mindig ∞-nek vesszük. Ennek következtében ezen osztályközhöz tartozó eloszlásfüggvény értéke 1 lesz, és így teljesül a
összefüggés.
A számítások elvégzésének gondolatmenetét alkalmazzuk a példánkra. Az eredményeket a 8.11. táblázat tartalmazza.
8.11. táblázat - A munkatábla
próbafüggvény számított értékének meghatározására szolgáló
Kiszolgálá Vendége si idő (sec) k száma (fő) (1)
(2)
(3)
(4)
(5)
(6)
(7)
0,07 64 – 35
20
–1,43
0,0764
35 – 40
80
–0,71
0,2389
40 – 45
100
0,00
0,5000
45 – 50
100
0,71
0,7611
50 – 55
60
1,43
0,9236
55 –
40
∞
1
0,16 30,56 25 65,00 0,26 11 104,44
3,65
0,26 104,44 11 65,00 0,16 25 30,56
0,19
3,46 0,19
0,38 2,92
0,07 64 Összesen
400
–
–
1,00 400,00 00
10,79
A táblázat alapján a próbafüggvény aktuális értéke: A kritikus érték meghatározásához a szabadságfok mivel az osztályközök (kategóriák) száma 6 és a sokaság paraméterei adottak, így tiszta illeszkedésvizsgálatot hajtottunk végre. A kritikus érték az elfogadási tartomány pedig [0 ; 11,1]. Mivel a számított érték az elfogadási tartomány része, elfogadjuk a nullhipotézist. A kiszolgálási időt tehát 5%-os szignifikanciaszinten 45 perc várható értékű, 7 perc szórású normális eloszlású valószínűségi változónak lehet tekinteni. Az illeszkedésvizsgálatot nemcsak a normális eloszlás, hanem egyéb elméleti eloszlások (pl. egyenletes, lognormális, Poisson- stb. eloszlás) fennállásának ellenőrzésére is használhatjuk. Természetesen az egyes eloszlások esetén a feltételezett elméleti eloszlás melletti gyakoriság normalitásvizsgálatnál bemutatott gondolatmenettől.
6.2. 8.6.2. Függetlenségvizsgálat
75 Created by XMLmind XSL-FO Converter.
meghatározása különbözni fog a
Hipotézisvizsgálat
A függetlenségvizsgálat azon nullhipotézis ellenőrzésére szolgál, hogy két ismérv független egymástól. Az alternatív hipotézisben pedig azt fogalmazzuk meg, hogy nem függetlenek. Ez az alternatív hipotézis két ismérv közötti sztochasztikus, illetve függvényszerű kapcsolatot enged meg. 6 Ha a sokaságról teljes körű információval rendelkezünk, akkor az I. kötet 3.4. pontjában szereplő kontingenciatábla segítségével és a 3.4.1. pontban felírt függetlenség definíciójának felhasználásával eldönthetjük, hogy a két ismérv független-e egymástól. Más a helyzet, ha a véges sokaságot nem ismerjük, és a következtetést mintából származó adatokra kell alapoznunk. Ilyenkor is egy méretű (ahol s a sorok, t az oszlopok számát mutatja) kontingenciatáblából indulunk ki – általános sémája Tankönyvünk I. kötetének 3.15. táblázatában található –, amely most a mintában észlelt gyakoriságokat tartalmazza. A függetlenségvizsgálat során a
nullhipotézist a van olyan i és j, amelyre
és
(ha
)
alternatív hipotézissel szemben teszteljük, ahol: az első ismérv i-edik és a második ismérv j-edik változata együttes előfordulásának valószínűsége a sokaságban, és
a peremeloszlás megfelelő valószínűségei.
Ha a nullhipotézis fennáll, akkor a két szóban forgó ismérv egymástól .
szignifikanciaszintenfüggetlennek tekinthető
Nyilvánvaló, hogy a együttes valószínűségek a és a peremvalószínűségek ismeretében meghatározhatók, ha a hipotézis igaz. Általában ezeket a peremvalószínűségeket sem ismerjük. Becslésükre a minta gyakoriságait használjuk. Legyen az 1. ismérv szerinti i-edik osztályhoz tartozó gyakoriság a mintánál és a 2. ismérv j-edik osztályához tartozó gyakoriság. Jelölje továbbá az 1. ismérv i-edik és a 2. ismérv j-edik osztályába eső mintaelemek számát
Ha a próbafüggvény
és
Ekkor
valószínűségek ismeretesek, akkor tiszta illeszkedésvizsgálatról van szó, és a
szabadságfokú, valószínűségi változó, mivel osztály van. Ha a és valószínűségek (paraméterek) nem ismeretesek, akkor ezeket becsüljük a és gyakoriságok segítségével. Itt tulajdonképpen illetve szabad paramétert kell becsülni, hiszen mindkét peremen a valószínűségek összege 1. Így a becsléses illeszkedésvizsgálat próbafüggvénye, a
6
Általános statisztika I. (Szerk. Korpás Attiláné dr.) Nemzeti Tankönyvkiadó, Bp., 1996. 3.4. pont (A további hivatkozásoknál: I. kötet.)
76 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
valószínűségi változ szabadságfokú alkot. Tehát a szabadságfok levezethető a becsléses illeszkedésvizsgálatnál alkalmazott szabadságfokból. A függetlenségvizsgálat így valóban az illeszkedésvizsgálat speciális eseteként kezelhető. A következőkben a konkrét mintában az 1. ismérv i-edik előfordulásának és a 2. ismérv j-edik előfordulásának együttes gyakoriságát jelölje a peremgyakoriságokat pedig és Ekkor a próbafüggvény megvalósult értéke a következőképpen határozható meg:
A próba elutasítási tartománya a becsléses illeszkedésvizsgálatnak megfelelően jobb oldali, így a szignifikanciaszint esetén akkor fogadjuk el, ha a próbafüggvény megvalósult értéke a tartományba esik.
elfogadási
Tekintsük a következő példát. Egy szociológiai vizsgálat során azt kívánjuk ellenőrizni, hogy az egyetemet végzett férfiak és nők előrejutási lehetőségei azonosnak tekinthetők-e. Ehhez a vizsgálathoz az egyik egyetem 15 évvel ezelőtt végzett évfolyamának hallgatói közül véletlenszerűen kiválasztottunk 200 főt. A megkérdezettek adatait a 8.12. táblázat tartalmazza:
8.12. táblázat - A megkérdezett személyek nemhez való tartozás és beosztás szerinti megoszlása Megnevezés
Férfi
Nő
Összesen
Beosztott
20
40
60
Középvezető
60
40
100
Felső vezető
30
10
40
Összesen
110
90
200
A vizsgálat során a szignifikanciaszint 5%. A nullhipotézis és az alternatív hipotézis a következő formában írható fel:
van olyan i és j, amelyre
és
(ha
).
A próbafüggvény kiszámításához készítsük el a 8.13. táblázatot.
8.13. táblázat - Munkatábla a
próbafüggvény aktuális értékének meghatározásához
Megnevezés Beosztott Férfi
20
33
5,121
Középvezet ő
60
55
0,455
Felső vezető
30
22
2,909
77 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Beosztott Nő
40
27
6,259
Középvezet ő
40
45
0,556
Felső vezető
10
18
3,556
200
200
18,856
Összesen
A táblázat alapján a próbafüggvényünk számított értéke: A szabadságfok: A kritikus érték szf szabadságfok és 5%-os szignifikanciaszint esetén Mivel a kritikus érték kisebb, mint a számított érték, a elutasítjuk. Tehát a rendelkezésre álló adatok 5%-os szignifikanciaszinten ellentmondanak annak az állításnak, hogy a nemhez való tartozás és a beosztás független egymástól. A függetlenség történő ellenőrzése során – hasonlóan a Tankönyvünk I. kötete 3.4.1. pontjában ismertetett függetlenség definíciójához – nem tettünk megkötést az ismérvek típusára vonatkozóan. Így ezen eljárás bármilyen ismérvek esetén alkalmazható. A gyakorlatban sokszor előfordul, hogy két minőségi (vagy területi) ismérv közötti kapcsolat szorosságát kívánjuk meghatározni, de a teljes véges sokaságot nem ismerjük. Mivel következtetéseinket mintára kell alapoznunk, a 3.4.2. pontban megismert asszociációs mutatószámok által mért kapcsolat szorossága félrevezető lehet, mert nem tudunk a mutatóhoz a mintanagyságtól függő konfidenciaintervallumot rendelni. Ezért célszerű a sokaságban érvényesülő sztochasztikus kapcsolat hiányát hipotézisként kezelni, és a minta adatai alapján függetlenségvizsgálattal ellenőrizni, hogy a két ismérv független-e egymástól, vagy van közöttük sztochasztikus vagy függvényszerű kapcsolat.
6.3. 8.6.3. Varianciaanalízis A varianciaanalízisannak a nullhipotézisnek az ellenőrzésére szolgál, hogy kettőnél több azonos szórású normális eloszlású valószínűségi változónak azonos-e a várható értéke is. A próba végrehajtásához szükség van legalább egy nominális mérési skálán és egy arányskálán mért ismérvre. A nominális mérési skálán mért ismérv alapján M db egymástól független sokaságot hozunk létre, amelyekből független, azonos eloszlású mintát veszünk. Így M db egymástól független mintához jutunk. Legyen a j-edik sokaságból származó i-edik megfigyelés ( modellje szerint
). A varianciaanalízis
ahol : az egész sokaságra jellemző várható érték, : a sokasági hatást képviselő, csak a j-edik sokaságra jellemző konstans, : az előző kettőhöz képest a véletlen ingadozást képviselő, 0 várható értékű és valószínűségi változó.
szórású normális eloszlású
Tehát a modellünk szerint minden megfigyelés három tagból tevődik össze. Az első két komponens összege amely a j-edik sokaságra jellemző várható érték, amit is szoktak jelölni. A modell szerint a j-edik sokaságon belüli megfigyelések a várható érték körül ingadoznak a szórású normális eloszlás törvényszerűségeinek megfelelően. A felírt modell szerint a j-edik sokaságból származó
elemű minta alapján számított
78 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
mintabeli átlag várható értéke:
mivel
továbbá
és
rögzített j mellett állandó paraméterek.
Legyen
az „egyesített” minta átlaga. (Felírásánál a rész- és a főátlagok közötti összefüggést használtuk fel a mintákra alkalmazva.) Igaz továbbá, hogy
Ezután belátható, hogy
Tehát az egyesített minta átlaga
csak akkor lehet torzítatlan becslése a
(az egyesített sokaság várható
értékének), ha Vezessük be a
vagy a
nullhipotézist. A felírt nullhipotézisek egyenértékűek azzal az állítással, hogy az X (az arányskálán mért ismérv) várható értéke független a sokaságokat megkülönböztető tényezőtől (a nominális mérési skálán mért ismérvtől). A várható érték tehát minden részsokaságban egyenlő az egyesített sokaság várható értékével, a A felírt – két egymással ekvivalens – nullhipotézissel szemben az az alternatív hipotézis áll, hogy a sokasági átlagoknak nem mindegyike esik egybe a az egyesített sokasági átlaggal. (Ezzel egyenértékű az az ellenhipotézis, hogy létezik olyan amely nem egyenlő 0-val.) A nullhipotézis ellenőrzésére szolgáló próbafüggvény a
összefüggésen alapul, ami nem más, mint az I. kötet 3.4.3. pontjában megismert összefüggésnek az egyes mintákra és az egyesített mintára történő alkalmazása.
79 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
A modell kiinduló feltételei (az egyes sokaságok normális eloszlásúak, és a szórásaik megegyeznek) esetén a nullhipotézis tesztelésére az
próbafüggvényt használjuk, amely és bizonyítható továbbá, hogy a számláló várható értéke
szabadságfokú F-eloszlást alkot, ha a igaz. Az is
lesz. A nevező várható értéke pedig, mivel
Tehát a próbafüggvénynek mind a számlálója, mind a nevezője becslését adja. Ha az ellenhipotézis az igaz, akkor a számláló nagyobb lesz, mint a nevező, ezért a próbát jobb oldali kritikus tartománnyal kell végrehajtani. Konkrét minta esetén jelöljük ,
a j-edik sokaságból származó i-edik megfigyelés eredményét
a j-edik (rész)minta átlagát és
az „egyesített” minta átlagát. Legyen
a konkrét mintából számított teljes eltérés-négyzetösszeg,
a konkrét mintából számított külső eltérés-négyzetösszeg,
a konkrét mintából számított belső eltérés-négyzetösszeg. Ekkor a próbafüggvény megvalósult értéke a következő összefüggéssel határozható meg:
Ha a nullhipotézis igaz, akkor azt mondhatjuk, hogy a nominális mérési skálán mért ismérvnek szignifikanciaszinten semmilyen hatása sincs az arányskálán mért ismérv átlagos nagyságára. Ha pedig az alternatív hipotézis az igaz, akkor a két ismérv között sztochasztikus (vagy függvényszerű) kapcsolat áll fenn. A próba végrehajtásához szükséges számítások elvégzését megkönnyíti a varianciaanalízis- tábla, amelynek sémáját – konkrét minta esetén – a 8.14. táblázat tartalmazza.
8.14. táblázat - Varianciaanalízis-tábla sémája
Összetevő
Négyzetösszeg
Szabadságfok
Becsült szórásnégyzet
80 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Külső Belső
–
Teljes
Az eddigiek során a próba végrehajtásához egy nominális és egy arányskálán mért ismérvre volt szükség. A varianciaanalízist akkor alkalmazhatjuk, ha mintavételből származó információk alapján kívánjuk eldönteni, hogy egy mennyiségi ismérv (arányskálán mérhető) átlagos nagysága függ-e valamilyen minőségi ismérvtől (nominális skálán mérhető), vagy független attól. Ekkor a varianciaanalízist a vegyes kapcsolat fennállásának tesztelésére használjuk. Nézzük a következő példát. Egy összeszerelő-üzemben ugyanazon alkatrész összeszerelését 4 dolgozó végzi. Az üzem vezetése szerint az egyik dolgozó rosszabb teljesítményt nyújt, mint a többi. Ennek ellenőrzésére 15 napon keresztül figyelemmel kísérték a gyártott alkatrészek számát. Az egyes dolgozók teljesítménye normális eloszlásúnak tekinthető, továbbá a szórások egyezősége feltételezhető. A megfigyelés eredményeit a 8.15. táblázat tartalmazza.
8.15. táblázat - Az egyes dolgozók teljesítményadatai Megfigyelt Átlagos napok száma teljesítmény (db)
Eltérésnégyzetösszeg
Dolgozó A
15
59,3
117,6
B
15
57,9
173,4
C
15
61,0
228,2
D
15
60,2
86,4
Összesen
60
...
...
Vizsgáljuk meg, hogy a 4 dolgozó átlagos teljesítménye azonosnak tekinthető-e (α = 5%). Először írjuk fel a nullhipotézist és az ellenhipotézist! létezik olyan
amely nem egyenlő a többivel.
A próbafüggvény kiszámításához:
Ezek után kiszámíthatjuk a próbafüggvény megvalósult értékét, ami
81 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
A kritikus érték megállapításához a szabadságfokok:
és
A kritikus érték pedig 5%-os
szignifikanciaszint esetén A próba elfogadási tartománya: [0 ; 2,79]. Mivel a próbafüggvény értéke az elfogadási tartományba esik, a nullhipotézist elfogadjuk. A 4 dolgozó átlagos teljesítménye között nincs szignifikáns különbség, más szóval nem bizonyult igaznak az a feltételezés, hogy egyik dolgozójuk rosszabb teljesítményt nyújt.
7. 8.7. Gyakorlófeladatok 1. A zacskóba csomagolt 1 kg-os kristálycukor tömegének ellenőrzésére 10 elemű véletlen mintát vettünk. Feltételezhető, hogy a csomagolóautomata normális eloszlással tölt. Mérési eredmények dkg-ban: 96; 96; 97; 100; 98; 98; 96; 99; 101; 102. A töltősúly szórásának megengedett mértéke 1 dkg. Feladat: a) Ellenőrizzük, hogy a kristálycukor töltési tömege megfelel-e a szabványnak! (α = 1%.) b) Ellenőrizzük 5%-os szignifikanciaszinten azt a feltevést, hogy a csomagolási tömeg szórása meghaladja az 1 dkg-os mértéket! 2. Egy konzervgyárban a húskonzervek töltését automata gép végzi. A dobozok szabvány szerinti töltési tömege 450 gramm, szórása 10 gramm. A gyár egyik szállítmányából 30 darabból álló véletlen mintát vettek. A mintába került dobozok átlagos töltési tömege 448 gramm, a szórása 12 gramm. A dobozok töltési tömeg szerinti eloszlása normális. Feladat: Vizsgáljuk meg annak a hipotézisnek a helyességét, hogy a) a konzervek átlagos töltési tömege nem tér el a szabványtól! – A megengedett szórás felhasználásával, – a mintából becsült szórás felhasználásával. b) a szórás nem tér el szignifikánsan a szabvány szerintitől! Az elsőfajú hiba elkövetésének mindhárom esetben 5% esélyt adunk. 3. Adott technológiai folyamattal évek óta készítenek tv-képcsöveket. A képcső szabvány szerinti átlagos élettartama 12 000 óra, a megengedett szórás 3000 óra. Új technológiát vezetnek be a képcsövek minőségi paramétereinek javítására. Egy 60 db-os mintában az átlagos élettartam 12 800 óra, 3 100 órás szórással. A képcsövek élettartama normális eloszlást alkot. Feladat: Ellenőrizzük az alábbi hipotéziseket: a) Az új technológiával gyártott képcsövek élettartama nem felel meg a szabványnak (α = 0,05 és α = 0,01 szignifikanciaszinteken)! b) Az új képcsövek élettartama meghaladja a szabványosat! (α = 0,05.) 82 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
4. Egy titkárnőképző hirdetésében azt állítják, hogy a végzettek 90%-ának garantálják az elhelyezkedését. Az utolsó tanfolyamon 100-an végeztek, és közülük 84-nek sikerült elhelyezkedni. Feladat: a) Mondjunk véleményt a hirdetésről 5, illetve 1%-os szignifikanciaszinten! b) Megerősítené-e döntésünket, ha az információk 200 elemű mintából származtak volna? 5. 200 grammos mosóport 3 műszakban töltenek. Műszakonként 50 elemű mintát vesznek a töltés mennyiségének ellenőrzésére. A töltési tömeg átlagára vonatkozó adatok:
A töltőgép 5 grammos szórással képes tölteni. A töltési tömeg normális eloszlása feltételezhető. Feladat: Vizsgáljuk meg, hogy az egyes műszakok töltési mennyiségei eltérnek-e szignifikánsan a névleges értéktől! (α = 0,05.) 6. Egy reprezentatív felmérés során vizsgálták a juhok gyapjúhozamát 300 elemű minta alapján. A vizsgálat során a következő adatok váltak ismeretessé. A fésűs merinó fajta részletes adatai:
Gyapjúhozam (kg)
Juhok száma (db)
– 4,0
6
4,0 – 5,0
32
5,0 – 6,0
40
6,0 – 8,0
59
8,0 –
13
Összesen
150
A német húsmerinó fajtára számított eredmények: a megfigyelt juhok száma: 150 db, az átlagos gyapjúhozam: 5 kg, a gyapjúhozam szórása: 1,24 kg, a 6 kg feletti gyapjúhozamú juhok aránya 32%. Mindkét fajtánál a gyapjúhozam szerinti normális eloszlás feltételezhető. Feladat: a) Szakértők tapasztalatai szerint a fésűs merinó juhok átlagos hozama 1,5 kg-mal meghaladja a német húsmerinó gyapjúhozamát. Alátámasztja-e a minta a szakértői tapasztalatokat? (α = 10%.) A szórások azonossága feltételezhető! b) Van-e szignifikáns különbség a 6 kg feletti hozamú juhok aránya között? (α = 5%.)
83 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
7. Az M-0-ás autópálya valamely szakaszán forgalomszámlálást tartanak. Az egyes napokon történő számlálás eredményei (az áthaladó gépkocsik száma szerint csoportosítva):
Gépkocsik száma
Napok száma
– 1000
14
1001 – 2000
19
2001 – 3000
31
3001 – 4000
19
4001 – 5000
15
5001 felett
12
Összesen
110
A megfigyelt napokon átlagosan 2851 gépkocsi haladt át a vizsgált helyen, a szórás 1506 gépkocsi. (Kerekített adatok!) Feladat: Ellenőrizzük azt a feltevést, hogy a gépkocsiforgalom normális eloszlású! (α = 5%.) 8. Termésátlagbecsléshez az alábbi 100 elemű mintát használjuk.
A mintaelemek száma
Termésnagyság-
*
csoportok (g/m2)
ténylegesen
N(579; 69,51)* eloszlás feltételezésével
– 450
4
3,14
451 – 500
8
9,57
501 – 550
20
21,01
551 – 600
32
28,07
601 – 650
20
...
651 – 700
12
...
701 –
4
...
Összesen
100
...
A mintából számított paraméterek.
Feladat: a) Számítsuk ki a hiányzó adatokat! b) Ellenőrizzük 5%-os szignifikanciaszinten, hogy normális eloszlásúnak tekinthető-e a minta! 9. Egy lakótelepen 420 háztartásnál elemezték a mosógéppel való ellátottságot. A minta adatai:
84 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Háztartástípus
Egyedülállók és Gyermekes gyermektelen Összesen házaspárok házaspárok
Mosógép- ellátottság Nincs mosógép Hagyományos Félautomata automata
és
Összesen
20
44
64
40
236
276
40
40
80
100
320
420
Feladat: a) Ellenőrizzük megfelelő próbával azt a feltevést, hogy a mosógép nélküli háztartások aránya szignifikánsan nagyobb az egyedülálló (és gyermektelen) háztartásokban! (α = 5% és α = 1% mellett.) b) Számítsuk ki, hogy milyen szoros a kapcsolat a két ismérv között! c) Ellenőrizzük 5%-os szignifikanciaszinten, hogy a szorossági mérőszám szignifikáns kapcsolatot jelez-e! 10. Egy közvélemény-kutató intézet azt vizsgálja, hogy három párt szavazói a választások után 1 évvel mennyire ragaszkodnak ahhoz a párthoz, amelyikre a választáskor szavaztak. Az erre vonatkozó vizsgálat eredményei a következők:
Szavazat a
Most kire szavazna?
választás idején
A-ra
B-re
C-re
A
142
8
41
34
225
B
37
103
24
23
187
C
5
8
67
8
88
Összesen
184
119
132
65
500
Nem tudja Összesen
Feladat: a) Milyen következtetésre jut a közvélemény-kutató intézet a kapott adatok birtokában a választók „ragaszkodását” illetően? (α = 0,01.) b) Számítsuk ki a két ismérv közötti kapcsolat szorosságát! 11. A közlekedési balesetek elemzésére szolgál az alábbi minta:
Megnevezés Autópálya Főút–autóút
Egyéb
Összesen
Halálos
50
60
10
120
Sérüléses
80
690
110
880
Összesen
130
750
120
1000
Feladat: 85 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
a) Ellenőrizzük, hogy a baleset kimenetele és az út típusa között van-e szignifikáns kapcsolat! (α = 5%.) b) Szignifikáns különbség van-e a halálos balesetek aránya között a főút–autóút és az egyéb utak esetében? (α = 1%.) 12. 50 véletlenszerűen kiválasztott hallgató dolgozatának eredménye valamely tantárgyból:
Hallgatók
Elért pontszám
Feladatsor száma (fő)
átlaga
szórása
A
8
41
7,5
B
10
37
10,0
C
14
40
7,0
D
8
34
8,7
E
10
37
6,4
Összesen
50
...
...
Feladat: a) Vizsgáljuk meg, hogy két (tetszőlegesen választott) feladatsor eredményei szignifikánsan eltérnek-e egymástól 5%-os szinten! b) Igazolható-e az az állítás, hogy a feladatsorok (összességükben) eltérő nehézségűek voltak? (α = 0,05.) 13. Egy marketinggel foglalkozó cég vezetője arra kíváncsi, hogy jól kiképzett munkatársainak ügynöki teljesítménye független-e az életkortól. Az adatokat úgy gyűjtötték, hogy egy adott termékből egy hónap alatt hány darabot sikerült az ügynöknek eladni. A 600 elemű minta adatai:
Eladások száma Életkor
Összesen
5 és 9 között
10 és 15 között
16 és 20 között
50
80
70
200
30 és 40 év között
80
90
90
260
40 év felettiek
60
50
30
140
Összesen
190
220
190
600
30 év alattiak
Feladat: Befolyásolja-e az életkor az ügynökök munkájának eredményességét? (α = 5%.) 14. Egy piackutatás során különböző csomagolásban (A, B, C, D, E) mutattak be egy terméket. 300 vevő az alábbi megoszlásban választott:
86 Created by XMLmind XSL-FO Converter.
Hipotézisvizsgálat
Csomagolás
Vevők száma
A
45
B
55
C
70
D
65
E
65
Összesen
300
Feladat: Ellenőrizze 5%-os szignifikanciaszinten, hogy egyenlő arányban választják-e az egyes csomagolási fajtákat!
87 Created by XMLmind XSL-FO Converter.
9. fejezet - Kétváltozós korreláció- és regressziószámítás A társadalmi-gazdasági jelenségek alakulását, viselkedését vizsgálhatjuk teljes körű vagy részleges megfigyeléssel, nézhetjük önmagukban, de elemezhetjük a velük szoros kapcsolatban levő tényezőkkel együttesen is. Ha önmagukban vizsgáljuk azokat, akkor csak az események rögzítésére, egy állapot leírására van lehetőségünk. A hatótényezők összefüggésének elemzése ennél bővebb lehetőséget kínál, mivel arra is választ kaphatunk, hogy a bekövetkezett állapot milyen tényezők hatására jött létre, mely tényezők, milyen mértékben határozták meg a vizsgált jelenség alakulását. Ebben a fejezetben a társadalmi-gazdasági folyamatokat alakító tényezők összefüggéseivel foglalkozunk és a becslési eljárásokhoz, valamint a hipotézisvizsgálathoz hasonlóan mintából származó adatokat használunk fel. A közgazdasági elemzőmunkában a mennyiségi ismérvek közötti sztochasztikus kapcsolatok vizsgálatának van elsődleges szerepe. A gazdasági élet jelenségei ugyanis rendszerint számszerűsíthetők. Vizsgálhatjuk például a gazdasági társaságok nettó árbevételének és jövedelmezőségének összefüggését, vagy a nemzetgazdaság fizetési mérlegének hiánya és az export volumene közötti kapcsolatot. Korábban, a kombinációs táblák elemzésekor már megismerkedtünk a sztochasztikus kapcsolat fogalmával, 1 az ismérvek közötti tendenciaszerű összefüggéssel. Az ismérvek fajtája szerint megkülönböztettünk asszociációt, vegyes kapcsolatot és megismerkedtünk a korrelációs kapcsolattal is. A csoportosított adatokból végzett elemzés kapcsán alkalmazható a korrelációs tábla, a kapcsolat szorossága mérhető a megismert korrelációs hányadossal, az összefüggések feltárásában pedig segít a tapasztalati regressziófüggvény. A következőkben a mennyiségi ismérvek közötti kapcsolatvizsgálat speciális eszközeivel fogunk megismerkedni. Ha aziránt érdeklődünk, vajon fennáll-e a kapcsolat vagy sem, illetve milyen irányú és erősségű az összefüggés, a korrelációszámítás eszközeivel kaphatunk választ kérdésünkre. Az ismérvek közötti függőségi viszonyok feltárásával, az összefüggésekben rejlő tendenciák matematikai függvényekkel történő leírásával pedig a regressziószámítás foglalkozik. A gyakorlati elemzőmunkában a korreláció- és a regressziószámítást általában együtt, egymást kiegészítve alkalmazzák. Ha a korrelációszámítás során szoros kapcsolat mutatkozik az ismérvek között, akkor a regressziós függvényt bátran felhasználhatjuk az összefüggés jellemzésére, gyenge kapcsolat esetén viszont a regressziófüggvénnyel szemben is fenntartásaink lehetnek.
1. 9.1. Kétváltozós korrelációszámítás A sztochasztikus kapcsolatok elemzése során már megismertük a korrelációs hányadost 2 . Ebben a fejezetben további mérőszámok meghatározásával foglalkozunk, amelyek szintén a mennyiségi ismérvek közötti kapcsolat szorosságát fejezik ki, kiszámításuk azonban reprezentatív megfigyelések adataiból, azaz mintából történik. A korrelációszámítás célja a kapcsolat intenzitásának és irányának mérése. A kapcsolatszorosság vizsgálatánál a két mennyiségi ismérvet szimmetrikusan kezeljük. A korrelációs kapcsolat szorossági mérőszámainak esetében is ésszerűnek látszik megvizsgálni, hogy egy összefüggés mennyire áll közel a függetlenséghez és mennyire közelíti meg a függvényszerű kapcsolatot. Ezért a mutatószámokkal szemben az asszociációs együtthatókhoz hasonló követelményt támasztunk: – ha nincs összefüggés az ismérvek között, vagyis függetlenek egymástól, a szorosság mérőszámának nullát kell adnia; – ha egyértelmű (lineáris függvényszerű) kapcsolat van az ismérvek között, a mérőszámnak 1 (illetve +1 vagy – 1) értéket kell felvennie (a kapcsolat irányának megfelelően).
1 2
I. kötet 125. oldal I. kötet 159. oldal
88 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A szorossági mérőszámok meghatározásánál fontos szerepet játszanak a vizsgált ismérvek mérhetőségi tulajdonságai. A szóba jöhető mérőszámok közül, amelyeket a statisztika ilyen célra használ, itt csak a legfontosabbakat mutatjuk be.
1.1. 9.1.1. A kovariancia Induljunk ki a mennyiségi ismérvek kétdimenziós eloszlásainak speciális paraméteréből, a kovarianciából. A valószínűségszámításban két valószínűségi változó,
és
kovarianciáján a
számot értjük, ha a definícióban szereplő várható értékek léteznek. Ott bebizonyítottuk, hogy 3 1. 2. Ha és függetlenek, akkor és függetlenek.
fordítva nem igaz, ha
3. Ha és együttes eloszlása (kétváltozós) normális eloszlás, akkor függetlenek.
akkor még nem biztos, hogy
akkor csak akkor, ha
és
Adott egy sokaság, amelynek két mennyiségi ismérvét, X-et és Y-t vizsgáljuk. Diszkrét esetet feltételezve X lehetséges értékei Y lehetséges értékei (mindkét esetben elképzelhető, hogy a lehetséges értékek száma nem véges). Ha véletlenszerűen kiválasztunk egy egyedet,
az úgynevezett együttes valószínűségek és
a peremvalószínűségek, akkor
ahol
az X, illetve az Y ismérv várható értéke. Ha a sokaság véges N tagú és ismérvértékkel rendelkeznek),
3 4
az együttes gyakoriságok (azon egyedek száma, amelyek az
illetve
a peremgyakoriságok 4 , akkor
Valószínűségszámítás 163., 168., 179. oldal I. kötet 127. oldal
89 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
Így a kovariancia (amelyet most
Itt az
illetve
-nal jelölünk):
az X ismérv, illetve az Y ismérv átlaga.
A kovariancia gyakran használt képlete még – az abszolút gyakoriságokat felhasználva, a definíciónak megfelelően – az átlagtól való eltérések szorzatának átlagaként felírt formula:
A kovarianciatehát az átlagtól való eltérések szorzatának számtani átlaga, amely az együttes szóródás nagyságrendjét jellemzi. Abban a speciális esetben, amikor
a kovariancia a szórásnégyzettel azonos, így valóban a két ismérv
együttes szórásának tekinthető, Nézzünk egy példát! Egy település könyvtárának összesen 50 beiratkozott olvasója van. A kölcsönzött kötetek száma (db) és a kölcsönzési idő (hét) közötti összefüggést kívánjuk vizsgálni. (A könyvtár kéthetes időtartamokra kölcsönöz és legfeljebb kétszer hosszabbítja meg a kölcsönzési időt.) X: a kölcsönzési idő (hét), Y: a kölcsönzött kötetek száma (db). (Adatok a 9.1. táblázatban.)
9.1. táblázat - Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerint Kölcsönzési idő (hét)
Kölcsönzött kötetek száma (db) Y Összesen
X
Összesen
3
9
2
1
15
8
7
2
3
20
4
9
1
1
15
15
25
5
5
50
A kölcsönzési idő átlaga 4 hét (
). A kölcsönzött kötetek átlagos száma 2 (
90 Created by XMLmind XSL-FO Converter.
).
Kétváltozós korreláció- és regressziószámítás
Ha a kovariancia másik képletéből indulunk ki, a számítás menete a következő:
Kérdés, hogy a kovariancia nagysága mennyire szoros sztochasztikus kapcsolatot jelez. Erre azért is nehéz válaszolni, mert a kovariancia nem dimenzió nélküli szám, nagysága függ a vizsgált ismérvek mértékegységétől. Számítsuk ki a kovarianciát az előbbi példa adataiból, a kölcsönzési időt azonban most napokban mérjük! (9.2. táblázat.)
9.2. táblázat - Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerint Kölcsönzési idő (nap)
Kölcsönzött kötetek száma (db) Y Összesen
X
Összesen
3
9
2
1
15
8
7
2
3
20
4
9
1
1
15
15
25
5
5
50
Az átlagos kölcsönzési idő most:
A kölcsönzött kötetek átlaga:
(Itt már csak a nullától különböző szorzatokat írtuk fel.) A kovariancia lényegesen nagyobb lett, pedig csak a kölcsönzési idő dimenzióján változtattunk. A kétváltozós korrelációs kapcsolat vizsgálatánál a kovariancia képlete általában leegyszerűsödik, ha egyedi adatokból dolgozunk, azaz minden értékpár csak egyetlenegyszer fordul elő, így a súlyok szerepét betöltő előfordulások száma mindegyik eltérésnél egy.
91 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Ekkor a kovariancia:
ahol Mielőtta kovariancia felhasználásáról beszélnénk, összegezzük, hogy milyen tulajdonságai vannak. A következőket állapíthatjuk meg: 1. Előjelét a
szorzatösszeg előjele határozza meg.
2. A sokaság elemszámától független. 3. Nagysága az ismérvek szóródásától és a kapcsolat szorosságától függ. Minél szorosabb a korreláció, annál nagyobb abszolút értékű szorzatösszegre számíthatunk. 4. A két ismérv korrelálatlansága esetén 5. Ha az X, Y ismérvek függetlenek 5 , akkor Ha akkor értéke nemcsak a kapcsolat szorosságától függ, hanem a mennyiségi ismérvek dimenziójától is, amint azt a példánkban láttuk. Célszerű a kapcsolat erősségének mérésére, ahogy erre már utaltunk, normált, a intervallumban elhelyezkedő mérőszámot alkalmazni. Ekkor teljesülnek a szorossági mérőszámokkal szemben megfogalmazott követelmények. Tegyük fel, hogy az X és Y ismérv között lineáris kapcsolat áll fenn, azaz
Ekkor a számtani átlag és a szórás ismert tulajdonságai alapján:
Írjuk fel a
Minden
(mivel
-t:
helyettesíthető tehát
Ezt az átalakítást elvégezve a kovariancia a következőképpen írható:
).
Fordítva is igaz, ha
akkor van olyan a és b, hogy
(Ezt az állítást nem bizonyítjuk.) Minden más esetben
5
Valószínűségszámítás 168. oldal
92 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Bizonyítás:
És ez akármilyen
-nál igaz. Legyen
ekkor
,
azaz Lineáris függvénykapcsolat esetén tehát a kovariancia az ismérvek külön-külön számított szórásainak szorzatával azonos.
1.2. 9.1.2. A lineáris korrelációs együttható A sztochasztikus kapcsolatok szorosságának mérésére szolgáló dimenzió nélküli mérőszám a korrelációs együttható. Mi megkülönböztetésül lineáris korrelációs együtthatónak nevezzük. Ha két valószínűségi változó kovarianciáját ( ) elosztjuk a két változó szórásával ( illetve ), megkapjuk a korrelációs együtthatót, melyet Pearson angol statisztikusról Pearson-féle korrelációs együtthatónak is neveznek. (Jele: R.) Képlete:
A kovarianciánál leírtak miatt fennáll, hogy Eddigi megfontolásainknak megfelelően a sztochasztikus kapcsolat két valószínűségi változó között annál szorosabb, minél közelebb van az Ha
a
és az
az 1-hez.
valószínűségi változók a kovarianciánál leírtak szerint korrelálatlanok.
Ha véges sokaságra kívánjuk felírni a lineáris korrelációs együtthatót (jele:
), képlete a következő:
Számítsuk ki példánk adataiból a lineáris korrelációs együtthatót! (Adatok a 9.1. táblázatban.) A gyakoriságeloszlás alapján már kiszámítottuk a kovarianciát: A peremeloszlások szórására a következőket kapjuk:
93 Created by XMLmind XSL-FO Converter.
volt.
Kétváltozós korreláció- és regressziószámítás
és
A lineáris korrelációs együttható:
(gyenge, negatív kapcsolat). Számítsuk ki a lineáris korrelációs együtthatót a napokban mért kölcsönzési idők adataival is! (Adatok a 9.2. táblázatban.) Ebben az esetben a kölcsönzési idő szórása:
Vegyük észre, hogy a szórás 2. tulajdonsága értelmében ez a hetekben mért kölcsönzési idő alapján számított szórásból egyszerűbben is kiszámítható: (A minimális eltérés természetesen kerekítésből adódik.) A kölcsönzött kötetek számának szórása változatlan:
A lineáris korrelációs együttható most: dimenzió nélküli mérőszámról van szó. napokban mérjük.
egyezően az előbbivel, mutatva, hogy függetlenül attól, hogy a kölcsönzési időt hetekben vagy
A kapcsolat szorosságáról grafikus úton is tájékozódhatunk. Ha az összes
értékpár egy növekvő egyenesen fekszik :
Ha az összes értékpár egy csökkenő egyenesen fekszik: Ha
akkor az ismérveket korrelálatlanoknak nevezzük. Ha az X és Y ismérvek függetlenek, akkor A tétel azonban nem fordítható meg, a korrelálatlanságból nem következik a függetlenség.
6
Minél közelebb vannak a pontok az egyeneshez, annál közelebb kerül a lineáris korrelációs együttható +1-hez. Az elmondottakat szemlélteti a 9.1. ábra.
6
Lásd 9.1.1. A kovariancia
94 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Általában nem áll rendelkezésünkre az együttes peremeloszlás-függvény, illetve az egész sokaság. Ilyenkor egy mintából becsüljük a korrelációs együtthatót. például azt jelenti, hogy az első mintaelem X ismérvértéke
(A
és Y ismérvértéke
A lineáris korrelációs együttható becslésére használt becslőfüggvényünk:
ahol
:az X ismérv lehetséges mintaátlaga,
: az Y ismérv lehetséges mintaátlaga, :az X ismérv szórásának becslése, : az Y ismérv szórásának becslése, n: a minta elemszáma.
9,1. ábra - Pontdiagramok különböző korrelációs együtthatókkal
95 Created by XMLmind XSL-FO Converter.
)
Kétváltozós korreláció- és regressziószámítás
Az
az
aszimptotikusan torzítatlan és erősen konzisztens becslése. 7
Egy konkrét mintavételnél, ha lineáris korrelációs együttható:
7
és
Ennek bizonyítását lásd Köves Pál–Párniczky Gábor: Általános statisztika II. Közgazdasági és Jogi Könyvkiadó, 1981. 208. oldal
96 Created by XMLmind XSL-FO Converter.
,a
Kétváltozós korreláció- és regressziószámítás
a mintaátlagok,
ahol
pedig a tapasztalati szórások (a képletek nevezőiben a mintanagyság, n szerepel). Ha a kovarianciára, illetve a változók szórására külön nincsen szükségünk és a mintában mindegyik értékpár egyetlenegyszer fordul elő, megfelelő átalakítás után 8 a lineáris korrelációs együtthatót egy konkrét mintából kiszámíthatjuk a következőképpen is:
egyszerűbben
Kiszámítható az úgy is, hogy magukat az eltérésszorzatokat és az eltérés-négyzetösszegeket nem számítjuk ki. Elvégezhetők ugyanis a következő átalakítások:
Ezek alapján:
A következő példánkban egy egyéni vállalkozó adatait dolgoztuk fel. A vállalkozó fő tevékenységi körében teherszállítással foglalkozik. Munkájának elemzése során 10 véletlenszerűen kiválasztott fuvar alapján vizsgálta, hogy van-e összefüggés a szállítás időtartama és távolsága között. A megfigyelés eredménye a 9.3. táblázatban található.
8
Sorszám
Szállítás távolsága (km) x
Szállítás időtartama (perc) y
11.
114
110
Ennek belátását az olvasóra bízzuk.
97 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
12.
114
113
13.
112
118
14.
110
120
15.
119
127
16.
120
135
17.
116
122
18.
120
140
19.
125
145
10.
130
150
∑
150
270
A számításokat célszerű munkatáblában elhelyezni (9.4. táblázat).
9.4. táblázat - Munkatábla a lineáris korrelációs együttható kiszámításához Sor szá m
x
y
11.
4
10
187
121
289
12.
4
13
154
121
196
13.
2
8
247
169
361
14. 10 20
35
25
49
15. 19 27
4
0
0
16
0
16. 20 35
5
8
40
25
64
17. 16 22
1
1
25
18. 20 40
5
13
65
25
169
19. 25 45
10
18
180
100
324
10. 30 50
15
23
345
225
529
15 27 0 0
0
0
1248
828
2006
∑
98 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A munkatábla adatainak felhasználásával számítsuk ki a lineáris korrelációs együtthatót! Az átlagtól való eltérések segítségével számított lineáris korrelációs együttható:
A kapott eredmény alapján megállapíthatjuk, hogy szoros pozitív irányú kapcsolat van a szállítási távolság és a szállítási idő között. Ha a gyakorlatban olyan összefüggéseket vizsgálunk, melyeknél nem zárható ki, hogy nemlineáris kapcsolat áll fenn az ismérvek között, a lineáris korrelációs együttható értelmezésénél kellő óvatossággal kell eljárni, és további elemzésre is szükség van. A korrelációs együttható ugyanis a lineáris kapcsolat mérőszáma, nemlineáris esetben nem használható.
1.3. 9.1.3. A rangkorrelációs együttható A lineáris korrelációs együttható arányskálán mért mennyiségi ismérvek közötti kapcsolat szorosságát mérte. Szükséges lehet azonban olyan tulajdonságok közötti összefüggés vizsgálata is, melyek legfeljebb sorrendi (ordinális) skálán mérhetők. Ennek a problémának a megközelítésére nézzük a következő példát. Az olimpiai játékokra készülve egy sícsapat az Alpokba utazott edzőtáborba. A hatfős csapat tagjai: Eszter, Brigitta, Karin, Bence, István és Pál. A sportolók a felkészülési idő végén versenyt rendeztek lesiklásban és műlesiklásban. A feljegyzett eredményeket a 9.5. táblázat tartalmazza.
9.5. táblázat - A versenyen elért helyezések Diák
Eszter Brigitta Bence István Karin
Pál
Lesiklás (X)
2.
1.
3.
4.
5.
6.
Műlesiklás (Y)
2.
3.
1.
5.
4.
6.
Edzőjük ki akarta számítani, hogy vajon van-e kapcsolat a lesiklásban és a műlesiklásban elért helyezések között. Mivel ő korábbi tanulmányaiból a lineáris korrelációs együtthatót ismerte, ezt számította ki, és a következő eredményt kapta 9 :
Az eredményből arra következtetett, hogy viszonylag szoros kapcsolat van a helyezési számok között. Gondoljuk végig, hogy a lineáris korrelációs együttható számítása helyes volt-e az edző részéről. A helyezési számok sorrendi skálán mért értékek. A teljesített időről és az idők különbségéről az egyes sífutókra vonatkozóan a helyezési számok alapján nem tudunk semmit mondani. A 9.2. ábra alapján könnyen meggyőződhetünk arról, hogy a 6 futó helyezési számaira vonatkozó értékpárok egy emelkedő egyenesen fekszenek, ha mindkét versenyen azonos helyezést érnek el.
9,2. ábra - Rangszámpárok ábrázolása
9
A felkészülésen csak ez a hat sportoló vett részt, tehát a teljes sokaságot vizsgáljuk.
99 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
Nézzük meg a 9.2. ábraA) részét. A lineáris korrelációs együttható ebben az esetben értéket vesz fel. Ez egyértelmű lineáris (függvényszerű) kapcsolatra utal, így a kérdésfeltevés jogos. Egy másik szélsőséges eset akkor áll fenn, ha a műlesiklás sorrendje pontosan a fordítottja a lesiklásénak. Grafikusan ábrázolva ezt az esetet, a 9.2. ábraB) részéhez hasonló rajzunk lesz. A helyezési számok értékpárjai most egy csökkenő egyenesen helyezkednek el. A lineáris korrelációs együttható most lesz. Ez az érték is arra utal, hogy a lineáris korrelációs együttható a kapcsolat vizsgálatára alkalmas mérőszám. A példa átgondolása után tehát logikusnak tűnik a lineáris korrelációs együttható alkalmazása ordinális skála esetében is. De a lineáris korrelációs együttható számítása csak akkor lehetséges, ha az ismérvváltozatok természetes számok. Ez az ordinális skálánál nem mindig teljesül. Ezt a problémát úgy tudjuk megoldani, hogy mindegyik ismérv megfigyelési értékeit önmagában rangsoroljuk. A rendezett értékek rangsort adnak, melyek már alkalmasak lesznek a számítások elvégzésére. Nézzünk egy következő példát! ismérvváltozatokat az ábécé betűivel jelöltük. A megadott sorrendek: (B,D); (C,E); (A,F); (D,B); (E,G). A két ismérv lehetséges értékeinek sorrendje és a hozzájuk tartozó rangszámok a következők:
A B C D E
B D E F G
1 2 3 4 5
1 2 3 4 5
Az eredeti megfigyelt értékek helyébe a rangszámokat téve a következő párokat kapjuk: (2;2), (3;3), (1;4), (4;1) (5;5). Mivel a rangszámok pontosan a megfigyelési értékek sorrendjét adják meg, a két ordinális skálán mért ismérv közti esetleges kapcsolat a rangszámok alkalmazásán keresztül vizsgálható. Mivel a rangszámok természetes számok, rendelkeznek a mennyiségi ismérvekre jellemző tulajdonságokkal. Ezen meggondolások következtetései alapján ésszerűnek látszik, hogy a rangszámokból lineáris korrelációs együtthatót számoljunk az ismérvek kapcsolatszorosságának mérésére. A mérőszám értelmezésénél arra kell ügyelni, hogy az elsősorban az együtt megfigyelt ismérvváltozatok sorrendje közötti kapcsolat szorosságát méri. Ahhoz, hogy a rangszámokra korrelációs együtthatót számoljunk, nem a korábbi fejezetben megismert formulát használjuk, hanem egy átalakított formulát, melyet a következőkben vezetünk le. Mivel minden gyakoriság 1, a lineáris korrelációs együttható: 100 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
A nevezőben szereplő szórások a megfigyelt értékek négyzetes és számtani átlaga alapján is kiszámíthatók. 10 Az átalakított formula:
Az és az megfigyelési értékpárjaira vonatkozóan igaz, hogy mindegyik ismérv rangszámai 1-től n-ig vesznek fel értékeket, melyek számtani sorozatot alkotnak, és
így
valamint
(A szummázási határok a következő képletekben is, ahol külön nem jelöljük, 1-től n-ig értendők, a továbbiakban eltekintünk kiírásuktól.) Ezáltal a fenti korrelációs együttható nevezője átalakítható a következőképpen:
A korrelációs együttható számlálójára, vagyis a kovarianciára vonatkozóan kihasználhatjuk az alábbi összefüggést:
amelyből átrendezéssel a
egyenlőséget kapjuk. Ennek alapján a számláló:
Az utolsó lépésben felhasználtuk a nevezőre kapott eredményeinket.
10
I. kötet 73. oldal
101 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Ha a fenti kifejezéseket behelyettesítjük a korrelációs együttható képletének számlálója, illetve nevezője helyébe, a következőt kapjuk:
vagy:
A rangszámok különbségét többnyire
jelöljük, és rangkülönbségnek nevezzük.
Az adott módon a korrelációs együtthatót nagyon egyszerűen ki tudjuk számolni. Ezt a mutatószámot (Spearman-féle) rangkorrelációs együtthatónak nevezzük. A mutatószám levezetését egy konkrét mintára mutattuk be. Itt is becslésről van tehát szó. A sokaságra számítható rangkorrelációs együttható:
a rangskálán mért ismérvek kapcsolatszorossági mérőszáma. Értéke: Becslőfüggvénye:
Szemléltetésképpen térjünk vissza a témakör elején bemutatott példára. A példában a megfigyelt értékek közvetlenül a rangszámok voltak. A rangkülönbségeket legegyszerűbben a 9.6. táblázatban számíthatjuk ki.
9.6. táblázat - Munkatábla a rangkorrelációs együttható kiszámításához Lesiklás (
)
Műlesiklás ( )
2
1
3
4
5
6
2
3
1
5
4
6
1
0
1
0
0 0
2 4
4
1
A rangkorrelációs együttható számítása:
Ha a sorrend azonos a két ismérv szerinti rangsorolásnál, akkor
(minden i-re), így
102 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Fordított sorrend esetén pedig: A gyakorlati felhasználás során, ha több ismérvérték megegyezik egymással, ezekhez a megfelelő rangszámok számtani átlagát rendeljük, és így közelítjük a rangkorrelációs együtthatót. Túlságosan sok egyező helyezési szám esetén azonban ezzel a formulával nem célszerű számolni. Ezzel a problémával találkozunk a következő példában. Egy hetipiacon 11 kiválasztott gyümölcskereskedőnél minőségvizsgálatot végeztek. Az almát és a körtét, amelyet eladásra kínáltak, A, B, C, D, E és F minőségi osztályba sorolták. A megfigyelési értékeket és a megfelelő rangszámokat a 9.7. táblázat tartalmazza:
9.7. táblázat - Munkatábla a rangkorrelációs együttható kiszámításához Gyümölc s-
Körte
Alma
keresked Minőség Minőségi ő Rangszám Rangszám i osztály osztály sorszáma 1.
B
2,5
B
3
0,25
2.
A
1,0
A
1
0,0 0,00
3.
F
11,0
F
10,5
0,5 0,25
4.
E
9,5
F
10,5
1,00
5.
E
9,5
E
9
0,5 0,25
6.
D
7,5
D
7
0,5 0,25
7.
D
7,5
D
7
0,5 0,25
8.
C
5,0
D
7
4,00
9.
B
2,5
B
3
0,25
10.
C
5,0
B
3
2,0 4,00
11.
C
5,0
C
5
0,0 0,00
Ebben az esetben a rangszámokat az alábbiak szerint képezzük. A 2. sorszámú kereskedőnél a legjobb minőségű (A kategóriájú) az alma, ezért ő az 1 rangszámot kapja. Az 1. és a 9. sorszámú kereskedőnél az almára vonatkozó ismérvértékek megegyeznek (B kategóriájúak), ezért a 2 és a 3 rangszám számtani átlagát, azaz 2,5öt rendelünk mindkettőhöz. Hasonló megfontolás alapján a C kategóriájú almát árulók a rangszámot kapják. A rangkorrelációs együttható számítása:
103 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Szoros, pozitív irányú kapcsolat mutatkozik az alma és a körte minőségi osztályokba sorolása között, azaz aki jobb minőségi árut kínál az egyik gyümölcsből, annál a másik gyümölcsből is jobb minőségű kapható és fordítva.
2. 9.2. Kétváltozós regressziószámítás Ebben a részben olyan kérdésekre keressük a választ, hogy milyen összefüggés mutatható ki például a mezőgazdasági üzemekben a burgonya termésátlaga és a felhasznált öntözővíz mennyisége között. (Adott öntözővíz-mennyiség felhasználása esetén hogyan következtethetünk a várható termésátlagra.) A következőkben olyan módszerekkel ismerkedünk meg, amelyek segítségével megválaszolható az a kérdés, hogy az egyik ismérv (változó) hogyan hat a másik ismérvre (változóra), egy változó adott értékéhez a másik változónak mekkora a várható értéke. Ugyanis figyelembe kell venni, hogy az összefüggés sztochasztikus, hiszen a termésátlagot sok más egyéb tényező (pl. a ráfordított munkaidő, a napsütéses órák száma stb.) is befolyásolja. A továbbiakban először a regressziószámítás valószínűségszámítási alapjait elevenítjük fel.
2.1. 9.2.1. Az elméleti regresszió Matematikai tanulmányainkban találkoztunk már ezzel a fogalommal. Két valószínűségi változó együttes valószínűségeloszlását vizsgálva definiálható a feltételes várható érték fogalma. Idézzük fel ezeket a fogalmakat először diszkrét, majd folytonos valószínűségi változók esetén. 11 Ha
és
diszkrét valószínűségi változók, melyek lehetséges értékei
valószínűségi változó
illetve
akkor az
feltétel melletti várható értékén az alábbi összeget értjük:
és
ahol
Ez a mennyiség megmutatja, hogy
várható értéke hogyan függ a
lehetséges értékeitől, vagyis
pontokban értelmezett függvény, amelyet az valószínűségi változó vonatkozó regressziós függvényének nevezünk. Grafikonjadiszkrét pontokból áll.
az
valószínűségi változóra
Hasonlóan definiálható a
a
valószínűségi változó
vonatkozó regressziós függvénye.
A valószínűségszámításban tárgyaltuk, hogy a regressziós függvényekhez úgy is eljuthatunk, hogy keressük azt a
illetve
függvényt, amelyre az
várható értékek (átlagok) minimálisak. Ha és folytonos valószínűségi változók, akkor minden olyan x-re, ahol az eloszlásfüggvény értelmezve van,
11
Valószínűségszámítás 6.6. pont.
104 Created by XMLmind XSL-FO Converter.
feltételes
Kétváltozós korreláció- és regressziószámítás Ha és függetlenek, akkor a feltételes várható érték megegyezik az adott változó feltétel nélküli várható értékével. Ezt az állítást arra a valószínűségszámítási tételre alapozzuk, hogy függetlenség esetén az együttes sűrűségfüggvény a perem-sűrűségfüggvények szorzatával egyenlő, és így például
független az x-től. Felhívjuk a figyelmet arra, hogy értelmezett.
ebben az esetben konstans, de nem biztos, hogy az egész számegyenesen
Az együttes eloszlás ismeretében a regressziófüggvény egyértelműen megadható. Kiemelt szerepe van a kétdimenziós normális eloszlásnak. Ha és együttes eloszlása normális, -nak -re vonatkozó és -nek -ra vonatkozó regressziós függvénye lineáris függvény. A regressziós görbe tehát egyenes. Például
ahol
2.2. 9.2.2. A tapasztalati regresszió Ha a véges N elemű sokaság ismert és az X, illetve Y ismérv lehetséges értékei diszkrétek, akkor jelölje
az együttes és
illetve
a peremgyakoriságokat
illetve
Ebben az esetben kiválasztva egy egyedet, az egyes valószínűségek, mint az előző pontban is láttuk:
Így a regressziós függvények:
(Ha valamely lehetséges érték nulla gyakoriságú, ott a megfelelő regressziós függvény nem értelmezhető.) Az
illetve
az úgynevezett részátlagok, vagyis
amelyeknek X ismérve
például azon egyedek Y ismérvértékeinek átlaga,
egyenlő. Ez azt jelenti, hogy koordináta-rendszerben ábrázolva az
pontokat,
a függvényérték az abszcisszájú ( „feletti”) pontok ordinátájának átlaga. Ezzel a módszerrel az I. kötetben már megismerkedtünk, most a mélyebb elméleti háttér átgondolása után a teljesség igénye miatt térünk rá vissza. 12
12
I. kötet 156. oldal
105 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Nézzünk egy példát! Vizsgáljuk meg egy felsőoktatási intézmény közgazdászhallgatóinak matematika- és statisztikaosztályzatai közötti összefüggést! Az adatokat a 9.8. táblázatban láthatjuk.
9.8. táblázat - A hallgatók létszámmegoszlása Statisztikaosztályzat 1
2
3
4
5
Összesen
1
4
2
2
1
0
9
2
3
4
2
1
1
11
3
1
15
14
10
4
44
4
1
0
16
6
3
26
5
1
0
5
1
3
10
Összesen
10
21
39
19
11
100
Matematikaosztályzat
A regressziófüggvényt a 9.9. táblázatban helyeztük el.
9.9. táblázat - A hallgatók matematika- és statisztika-vizsgaeredményei közötti kapcsolat tapasztalati regressziófüggvénye Matematikaosztályzat
Átlagos statisztikaosztályzat
1
2,00
2
2,36
3
3,02
4
3,38
5
3,50
Számításaink eredményei egyértelműen mutatják, hogy pozitív irányú sztochasztikus kapcsolat mutatkozik a két tantárgy osztályzatai között. A jobb matematika-érdemjegyekhez általában jobb statisztika-érdemjegyek tartoznak és fordítva. Ha X és Y, vagy csak az egyik folytonos ismérv, akkor osztályközöket képezhetünk, és például
az
az
i-edik osztályköz közepe, és értéke az ebben az osztályközben található egyedek Y ismérvértékeinek átlaga. Így természetesen a tényleges regressziófüggvénynek a közelítését kapjuk. Példaként nézzünk meg egy olyan céget, ahol 20 középfokú végzettségű nő dolgozik, és vizsgáljuk meg, hogyan befolyásolja a munkában eltöltött idő (X) az elérhető bruttó keresetet (Y). A megfigyelt adatokat a 9.10. táblázatban találjuk. 106 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás 9.10. táblázat
Sorszám
Munkában töltött évek száma, X
Bruttó átlagkereset, (ezer Ft) Y
1.
23
33,4
2.
36
31,0
3.
18
27,5
4.
35
35,8
5.
35
28,1
6.
24
26,0
7.
25
26,4
8.
4
24,1
9.
21
33,4
10.
23
27,0
11.
40
31,0
12.
30
28,6
13.
22
28,9
14.
5
22,1
15.
23
24,0
16.
17
27,0
17.
24
27,9
18.
4
14,2
19.
25
26,0
20.
26
27,6
Ha egyedi adatokból dolgozunk, mindenekelőtt érdemes tájékozódni az ismérvek közötti összefüggésről. Ehhez ábrázoljuk is az adatokat. Az ismérvek közötti kapcsolat lényegének megismerésében fontos szerepet játszik a grafikusábrázolás. Kétváltozós kapcsolat esetén ilyen grafikus ábrát úgy készítünk, hogy a derékszögű koordináta-rendszer vízszintes tengelyére az ok szerepét játszó tényezőváltozó (más néven magyarázóváltozó) (X) értékeit, függőleges tengelyére pedig a vizsgált jelenség, vagyis a függő változó (más néven eredményváltozó) (Y) értékeit mérjük fel. Ily módon pontdiagramot kapunk.
107 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Példánk adatait ábrázolva ilyen pontdiagramot látunk a 9.3. ábrán. A nők munkában töltött éveinek és bruttó keresetének kapcsolatára már a pontdiagramból is következtethetünk.
9,3. ábra - A munkában töltött évek számának és a bruttó kereseteknek megfelelő pontok
Vizsgáljuk tovább az összefüggést, és készítsük el a tapasztalatiregressziófüggvényt! Ha ugyanazt az eljárást követnénk, mint az előző példában (matematika-, statisztikaosztályzatok), akkor a regressziófüggvényünk 14 pontból állna. Ezt ábrázolva sem kapnánk a pontdiagramnál sokkal áttekinthetőbb ábrát. (A pontok száma 6-tal csökken, ugyanis 14 különböző értéke van az X ismérvnek.) Ezért az X értékeiből négy osztályközt képezve a következő eredményt kaptuk, amelyet a 9.11. táblázatban helyeztünk el.
9.11. táblázat - A munkában töltött évek száma és a havi átlagkereset tapasztalati regressziófüggvénye a középfokú végzettségű nőknél Munkában töltött évek száma
Átlagos bruttó kereset
20,13 27,25 28,11 31,48 A regresszió tanulmányozása megerősíti a kapcsolat fennállására vonatkozó feltételezésünket, egyúttal annak irányát is jelzi: X növekedésével Y is növekvő tendenciát mutat. Azaz minél hosszabb valakinek a munkaviszonya, annál több a bruttó átlagkeresete. A függvény grafikus képét a 9.4. ábrán látjuk.
9,4. ábra - A bruttó átlagkereset a munkában töltött évek számának függvényében a középfokú végzettségű nőknél
108 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
töltött évek számának függvényében a középfokú végzettségű nőknél A regressziófüggvényt közelítő grafikonból következtetések vonhatók le a kapcsolat irányáról és természetéről. Korrelációs kapcsolat esetén a pontdiagram pontjai szóródnak a regressziófüggvényt közelítő grafikon körül. A szóródás mértéke a kapcsolat szorosságára vonatkozóan ad felvilágosítást. Ha a két ismérv korrelálatlan, akkor a regressziós függvényértékeket ábrázoló pontok az X tengellyel párhuzamos vonalon vannak. Ebben az esetben ugyanis az jöhetnek szóba, vagyis az
valamennyi
bármilyen értéke mellett ugyanolyan
azonos érték (9.5. ábra).
9,5. ábra - Korrrelálatlanság
109 Created by XMLmind XSL-FO Converter.
értékek
Kétváltozós korreláció- és regressziószámítás Függvényszerű kapcsolat esetén a pontdiagramon a pontok a kapcsolatot megadó függvény grafikonján helyezkednek el. A regressziófüggvény körül nincs szóródás (ha eltekintünk a mérési pontatlanságoktól). (9.6. ábra.)
9,6. ábra - Függvényszerű kapcsolat
2.3. 9.2.3. A regressziófüggvény paramétereinek meghatározása Két probléma merülhet fel a regressziószámítás során: 1. Ismerjük a sokaságot (illetve az együttes eloszlást), de a regressziós függvény nem alkalmas az elemzésre (például nagyon ingadozik). 2. Nem ismerjük a sokaságot (illetve az együttes eloszlást), ezért minta alapján kell becsülnünk a regressziós függvényt. Mindkét esetben azt tesszük, hogy egy analitikus (akárhányszor differenciálható) függvénytípusból (pl. lineáris függvények, másodfokú függvények, hatványfüggvények) választjuk ki azt, amelyikre a 9.2.1. alatt már felírt kifejezés, minimális. Ezt nevezzük analitikus regressziófüggvénynek. (A valószínűségszámításban elsőfajú, illetve másodfajú regressziós függvényről beszéltünk.) Természetesen felmerül a kérdés, hogy mely típusú függvényekkel dolgozzunk. A regressziófüggvény típusának kiválasztása Ahhoz, hogy a regressziófüggvény típusát meghatározzuk, elsősorban az adott terület szakmai ismerete szükséges. A gazdasági élet, a gazdasági jelenségek közötti sokoldalú, bonyolult összefüggések miatt már a tényezők (ismérvek) kiválasztásához is szakmai megfontolásokra, szakértői véleményekre van szükség. Segítségünkre lehetnek a függvénytípus kiválasztásánál a korábban említett egyszerűbb módszertani eszközök. 110 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Ilyen a grafikus ábrázolás eredményeképpen kapott pontdiagram. A pontdiagram nemcsak ahhoz nyújt segítséget, hogy érdemes-e tovább vizsgálódni, mint ahogy ezt az előző pontban mondtuk, hanem a pontok sűrűsödési helye és vonulási iránya támpontot ad a függvénytípus kiválasztásához is (9.7. ábra).
9,7. ábra - A függvénytípus kiválasztását segítő grafikus ábrák
A statisztikai gyakorlatban a következő függvénytípusokat használjuk: 1. lineáris regresszió, 2. hatványkitevős (vagy multiplikatív) regresszió, 3. exponenciális regresszió, 4. parabolikus regresszió, 5. hiperbolikus regresszió. A legkisebb négyzetek módszere A függvénytípus kiválasztásával azonban a regressziófüggvény meghatározásának problémája még nincs megoldva. A végtelen sok egyenes (vagy parabola, hatványkitevős, exponenciális vagy más típusú függvény) közül azt az egyet keressük, amely az összefüggést a lehető legjobban írja le. Ennek a függvénynek a paramétereit (állandóit) a gyakorlatban a legkisebb négyzetek módszere segítségével határozzuk meg. Induljunk ki ismét abból, hogy adott egy véges (N elemű) sokaság problémát a 9.8. ábrán szemléltetjük.
9,8. ábra - A legkisebb négyzetek módszere 111 Created by XMLmind XSL-FO Converter.
értékpárokkal. A
Kétváltozós korreláció- és regressziószámítás
(Megjegyezzük, hogy a pontok és a regressziós egyenes megfelelő pontjai közötti távolságot különbözőképpen értelmezhetjük: vertikálisan, ahogy az ábrán látjuk, de horizontálisan és geometriailag is mérhetők a távolságok. A leggyakrabban használatos eljárásból indultunk ki, ahol a pont és az egyenes távolságát vertikálisan az Y tengellyel párhuzamosan mérjük.) esetben tárgyaljuk részletesen, amikor a választott függvénytípus lineáris. Egy lineáris ennek az egyenlete:
Ha az
értékpárt nézzük, és az Az eltérést jelölje
Nyilvánvaló, hogy a
és
függvény grafikonja egyenes, legyen
értéket helyettesítjük az egyenes egyen- letébe, nem biztos, hogy
vagyis
azaz
paraméterek (együtthatók) megválasztásától függ, hogy mekkorák ezek az
értékek. A módszer onnan kapta a nevét, hogy
és
meghatározására feltételként azt szabjuk, hogy a
összeg legyen minimális. Az E kétváltozós függvénynek ott lehet minimuma, ahol
112 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás 13
-ra és
-re a
úgynevezett normál- (lineáris) egyenletrendszer adódik, amelynek megoldása:
Ha az első egyenletet
osztjuk, a számlálóban és a nevezőben már ismert kifejezéseket kapunk.
Végezzük el ugyanezt az osztást a
kifejezésben is:
Ugyanazt az eredményt kaptuk, mint amikor az ismert együttes eloszlás normális. Így a regressziós egyenes egyenlete:
Ha az X, Y értékek függetlenek, ahogy ezt a 9.1.1. pontban beláttuk,
Ekkor
Egyenletünk az
Matematika üzemgazdászoknak. Analízis. (Szerk. dr. Csernyák László.) Nemzeti Tankönyvkiadó, Budapest, 1989. 6.7. pont. (A további hivatkozásoknál: Analízis.) 13
113 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás alakra hozható. Ha az X és Y ismérvértékeket standardizáljuk, azaz egyenlete:
és
akkor egyenesünk
Ugyanezeket az eredményeket kapjuk, ha a 9.2.3. pont elején említett feltételből indulunk ki. A regressziószámításban az ismérvek közötti ok-okozati összefüggés feltárására törekszünk. Ez a változók elnevezésében is kifejezésre jut. A szakirodalomban, mint már említettük, az ok szerepét játszó X változót független változónak vagy magyarázóváltozónak, az okozat szerepét betöltő Y változót pedig függő változónak vagy eredményváltozónak szokták nevezni. Az eredmények értelmezése A paraméter azt fejezi ki, hogy az lehetséges értékei között.
helyen a függvény éppen ezt az értéket veszi fel, ha a 0 szerepel az X
A paraméter geometriai értelemben az egyenes meredekségét meghatározó iránytangens, regressziós együtthatóként választ ad arra, hogy az X változó egységnyi változása átlagosan mekkora változást okoz az Y változóban. Térjünk vissza a munkában eltöltött idő és a bruttó átlagkereset kapcsolatát vizsgáló példához! (A megfigyelt adatokat a 9.10. táblázatban találjuk.) Válasszuk a lineáris függvénytípust, és számítsuk ki az analitikus regressziófüggvény paramétereit! A szükséges mellékszámításokat a 9.12. táblázatban találjuk.
9.12. táblázat - Munkatábla az analitikus regressziófüggvény meghatározásához Sorszám 1.
23
33,4
768,2
529
2.
36
31,0
1116,0
1296
3.
18
27,5
495,0
324
4.
35
35,8
1253,0
1225
5.
35
28,1
983,5
1225
6.
24
26,0
624,0
576
7.
25
26,4
660,0
625
8.
4
24,1
96,4
16
9.
21
33,4
701,4
441
10.
23
27,0
621,0
529 114
Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
11.
40
31,0
1240,0
1600
12.
30
28,6
858,0
900
13.
22
28,9
635,8
484
14.
5
22,1
110,5
25
15.
23
24,0
552,0
529
16.
17
27,0
459,0
289
17.
24
27,9
669,6
576
18.
4
14,2
56,8
16
19.
25
26,0
650,0
625
20.
26
27,6
717,6
676
∑
460
550,0
13 267,8
12 506
9,9. ábra - A megfigyelt adatok és a különböző módon számolt regressziófüggvények
Értelmezések: A
azt fejezi ki, hogy a pályakezdő alkalmazottak bruttó átlagkeresete várhatóan 20,1 ezer Ft, azaz 20 100 Ft.
A paraméter pedig azt jelenti, hogy az egy évvel hosszabb ideje dolgozó nők bruttó átlagkeresete átlagosan 0,32 ezer Ft-tal, azaz 320 Ft-tal magasabb. A különböző módon számolt regressziófüggvényeket a 9.9. ábrán mutatjuk be. A lineáris regresszió együtthatóinak becslése
115 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Ha nem ismerjük a sokaságot, a regressziófüggvényt csak mintából becsülhetjük. Induljunk ki ismét egy
n elemű mintából. A becslőfüggvények az alábbiak lesznek:
A becslőfüggvények torzítatlan becslést adnak, ennek fontosságára a 9.3. pontban még visszatérünk. Egy konkrét mintavétel után, ahol a mintaelemek ismérvértékei megoldandó normálegyenletek:
a
A regressziós együtthatók kiszámítási formulái az alábbiak lesznek:
Végezzük el az elemzést egy konkrét példán! A 9.1.2. pontban megvizsgáltuk egy teherfuvarozással foglalkozó vállalkozó adatai alapján, hogy van-e összefüggés a szállítási távolság és a szállítás időtartama között. A lineáris korrelációs együtthatóból ( ) szoros kapcsolatra következtettünk. Nézzük most meg, milyen természetű az összefüggés a két ismérv között! Az alapadatokat a korábbi, 9.7. táblázatban találjuk. Mindenekelőtt ábrázoljuk a megfigyelt statisztikai adatokat!
9,10. ábra - A szállítási távolság és a szállítás időtartamának pontdiagramja
116 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
A 9.10. ábra lineáris összefüggésre enged következtetni. Ezek után határozzuk meg a lineáris regressziófüggvényt. A normálegyenlet-rendszer megoldásához szükséges számítások a 9.13. táblázatban találhatók.
9.13. táblázat - Munkatábla a normálegyenletekkel történő megoldáshoz
Sorszám
Szállítás időtartama (perc) y
Szállítás távolsága (km) x
xy
1.
4
10
40
16
2.
4
13
52
16
3.
2
8
16
4
4.
10
20
200
100
5.
19
27
513
361
6.
20
35
700
400
7.
16
22
352
256
8.
20
40
800
400
9.
25
45
1125
625
10.
30
50
1500
900
270
5298
3078
Együtt: 150
117 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A normálegyenletek segítségével határozzuk meg a függvény paramétereit:
Értelmezések: A
paraméter közgazdaságilag csak akkor értelmezhető, ha a magyarázóváltozó értelmezési tartománya az helyet tartalmazza.
Jelen esetben a tartományába.
paraméter igazán nem értelmezhető, mert az
hely nem tartozik az X-ek értelmezési
A paraméter az egyenes meredeksége (iránytangense), megmutatja, hogy az X magyarázóváltozó egy egységgel nagyobb értékéhez az Y eredményváltozó átlagosan mennyivel nagyobb (vagy kisebb) értéke tartozik. A paramétereket természetesen mindig az adott feladat, a vizsgált összefüggés tartalmának megfelelően értelmezzük. A
paraméter jelentése: 1 km-rel hosszabb út átlagosan másfél perccel növeli a szállítási időt.
Az egyenletrendszer megoldását különböző technikákkal is elvégezhetjük. Az egyik lehetőség az ún. transzformált normálegyenletekkel történő megoldás, amely a következőket jelenti. A normálegyenletek megoldásának egyszerűsítése céljából transzformációt hajtunk végre. A változókat az átlaguktól vett eltéréseikkel helyettesítjük. Ez megfelel egy geometriai transzformációnak, amennyiben a koordináta-rendszer kezdőpontját az minden
helyébe
pontba helyezzük át. Akkor minden
érték helyébe
kerül. A koordináta-rendszer transzformációját a 9.11. ábra szemlélteti.
9,11. ábra - A koordináta-rendszer transzformációja
118 Created by XMLmind XSL-FO Converter.
és
Kétváltozós korreláció- és regressziószámítás
A normálegyenleteket az új változókra
felírva a következőket kapjuk.
Transzformált normálegyenletek:
normálegyenletekből mindazon tagok kiesnek, amelyek A
tényezőt tartalmaznak.
paraméter meghatározásáraaz alábbi egyszerű képlet adódik:
, 14
mert
14
és
.
Vessük össze az eredeti normálegyenletekből kapott képlettel!
119 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A kapott képlet megegyezik az eredeti normálegyenletekből meghatározottal. Nem is lehet más, mert a geometriai transzformációval az egyenes helyzete nem változott meg, így iránytangense is ugyanaz maradt. A
paramétert
a
normálegyenletekből
már
levezetett
összefüggés
alapján
határozzuk
meg:
. De úgy is gondolkodhatunk, hogy az új koordináta-rendszerben , minthogy az eredeti koordinátarendszerben ábrázolva a regresszióvonal áthalad az ponton. Ezt az alábbi formában írhatjuk fel: . Minket azonban a
értéke az eredeti x, y változók szerint érdekel. Amennyiben
kiszámítottuk, könnyen meghatározható a
értékét a fentiek szerint már
:
. A paraméter a rendelkezésre álló adatoktól függően a már ismert összefüggések felhasználásával további módon is meghatározható:
A magyarázat egyszerű, hiszen ahogy már láttuk:
így
Ha az összefüggést végigegyszerűsítjük n-nel, valóban
-et kapunk. Rajtunk múlik követjük a regressziós paraméterek meghatározásánál; a különböző megoldások (normálegyenletekbe történő behelyettesítés vagy képletekkel történő számítás) egyenrangúak, ugyanahhoz az eredményhez vezetnek. A lényeg, hogy a kapott paramétereket helyesen értelmezzük, elemezzük. -et azaz
A számítások nyomon követéséhez folytassuk az előző példát! A szükséges számításokat célszerű a 9.14. táblázat szerinti munkatáblában elvégezni. Miután a transzformált normálegyenletekből nyert képletekkel kívánunk dolgozni, először az átlagokat kell meghatároznunk:
9.14. táblázat - Munkatábla a transzformált normálegyenletekkel történő megoldáshoz Sor x -
y
120 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás szá m 1. 4
10
187
121
289
2. 4
13
154
121
196
3. 2
8
247
169
361
35
25
49
4. 10 20 5. 19 27 4
0
0
16
0
6. 20 35 5
8
40
25
64
1
25
7. 16 22 1 8. 20 40 5
13
65
25
169
9. 25 45 10
18
180
100
324
10. 30 50 15
23
345
225
529
0
1248
828
2006
∑
15 27 0 0 0
A lineáris regressziófüggvény mindkét megoldás szerint:
További megoldási lehetőség a paraméterekmátrixalgebrai műveletekkel15 történő meghatározása. Ebben az esetben az eredeti változókra felírt egyenletrendszert mátrix-, vektorjelölésekkel adjuk meg. A paramétervektort ez esetben a mátrixegyenlet megoldásával kapjuk. A módszer alkalmazásánál támaszkodunk a matematikai tanulmányokban megismertekre. 16 Jelölésrendszerünk is az ott bevezetett jelölésekkel azonos. Jelölések:
ahol y:
rendű n elemű oszlopvektor, melynek elemei az Y megfigyelt értékei.
X: rendű mátrix, melynek első oszlopa n elemű összegezővektor, második oszlopa pedig az X megfigyelt értékei.
15 16
Lényeges könnyítést nem jelent, de a későbbiekben, ha kettőnél több változónk lesz, sokkal egyszerűbb ez a megoldási mód. Operációkutatás II. Szerk. Dr Csernyák László. Nemzeti Tankönyvkiadó, Bp., 1991.
121 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A függvény paramétereit tartalmazó b vektor pedig:
Az X mátrix transzponáltja:
Ha az X mátrix transzponáltját megszorozzuk jobbról az eredeti mátrixszal, az ún. együtthatómátrixot kapjuk:
Így a mátrix elemeiként a normálegyenletek együtthatóit kapjuk. Az
szorzat pedig:
Ezzel a művelettel tehát a normálegyenletek bal oldalán szereplő kifejezéseket kapjuk. A normálegyenletek mátrixalgebrai jelöléssel a következőképpen írhatók fel:
Az együtthatómátrix inverzével balról végigszorozva az egyenletet eljutunk a becsült paraméterek vektorához. (Az inverz mátrix általában létezik, mivel, kivételes esetektől eltekintve a normálegyenletek függetlenek. Így nem szinguláris.)
Amint látjuk, a paraméterek kiszámításához szükség van az mátrix inverzére. A még ma sem ritka kézi számításoknál a ( )-es mátrix inverzének számítására egyszerűsített formulát szokás használni. Egyszerű szorzással meggyőződhetünk arról, hogy az
mátrix inverze az
mátrix. Példánk megoldása mátrixalgoritmussal az alábbi:
A paraméterek meghatározása:
122 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A lineáris regressziófüggvény:
A kapott eredmények statisztikai jelentését ismételten összefoglaljuk. A lineáris regressziófüggvény
paramétere a regressziós egyenes meredekségét meghatározó iránytangens.
Ebből a geometriai értelmezésből következően nagyon fontos eredményt szolgáltat. A paraméter kifejezi, hogy a magyarázóváltozó egy egységnyi változása átlagosan mekkora változást okoz az eredményváltozóban. A
paraméter előjele megegyezik a lineáris korrelációs együttható
irányú a kapcsolat a két ismérv között, ha
előjelével. Ha
akkor pozitív
akkor pedig negatív irányú kapcsolatra következtethetünk. A
paramétert regressziós együtthatónak nevezzük. A jelentése.
paraméternek a legtöbb esetben nincs közgazdasági
2.4. 9.2.4. A változók felcserélhetősége Tekintettel arra, hogy a regressziószámításnál mindkét ismérv mennyiségi ismérv, nemcsak X ismérv hatását vizsgálhatjuk Y-ra, hanem fordítva is. Minden esetben két regressziós egyenes határozható meg. Bizonyos esetekben egyértelmű oksági viszony van az ismérvek között, s ekkor indokolt egyik vagy másik ismérvet független változónak tekinteni. Vannak azonban olyan esetek, amikor az ismérvek kölcsönhatásárólbeszélhetünk, s tetszőleges az egyes változók szerepe. Elvileg tehát X és Y ismérvek megfigyelt
adatai alapján mindig felírható az alábbi két regressziós egyenes:
Y-nak X szerinti regressziófüggvénye (amit már ismerünk):
továbbá X-nek Y szerinti regressziófüggvénye:
Felhívjuk a figyelmet arra, hogy ebben az esetben mindenképpen indokolt jelölni a paraméterek után zárójelben a változók közötti viszonyt, vagyis, hogy adott esetben melyik az eredményváltozó és melyik a tényezőváltozó. Tehát a fenti egyenletekben a regressziós együtthatók:
Az
függvény
paramétere pedig:
A két egyenes egymáshoz viszonyított helyzetét a kapcsolat szorossága befolyásolja. Könnyű belátni, hogy a két regressziós egyenes
paraméterei és a lineáris korrelációs együttható között szoros az összefüggés. Felírható: ebből
.
A korreláció hiánya esetén: vagyis párhuzamosak, egymásra pedig merőlegesek.
az egyenesek a megfelelő tengellyel
Lineáris függvényszerű kapcsolat esetén
a két egyenes egybeesik.
ezért
Sztochasztikus kapcsolatnál a két egyenes annál közelebb kerül egymáshoz, minél szorosabb a kapcsolat. 123 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A paraméter hasonlóan értelmezhető, mint a részletesen ismertetett egységnyi változásának hatására mennyivel változik (nő vagy csökken) az x változó. A gyakorlatban ezt az információt az eredeti összefüggés
Vagyis: az y változó
más szempontból történő megvilágítására
használjuk: A azt fejezi ki, hogy ahhoz, hogy az y változó egy egységgel változzon meg, mennyivel kell megváltoznia az x változónak. Példánkban:
A kapott eredmény azt fejezi ki, hogy a szállítási idő 1 perccel való növekedéséhez a távolság átlagosan 0,6 kmrel, azaz 600 m-rel történő növekedése szükséges.
Az
és az
regressziós függvényeket a 9.12. ábra szemlélteti.
9,12. ábra - A változók felcserélése
A két egyenes láthatóan közel esik egymáshoz, mivel egymáshoz viszonyított helyzetüket a korreláció szorossága befolyásolja. Könnyű belátni, hogy a kapcsolat szorosságát nem befolyásolja az a kérdés, hogy a változók szerepet cserélnek. 17 A számítási formulából látható, hogy Y-nak X-re vonatkozó korrelációs együtthatója megegyezik X-nek Y-ra vonatkozó korrelációs együtthatójával.
17
Gondoljunk vissza az
kiszámítási képletére.
124 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
2.5. 9.2.5. A rugalmassági együttható A lineáris regressziófüggvény paramétere, X ismérv Y-ra gyakorolt hatásának nagyságát, vagyis azt mutatja, hogy X egységnyi változása Y-nak mekkora változását indukálja. Természetesen a két ismérvnek nemcsak a különbségeit, hanem relatív változásait isszembeállíthatjuk egymással. Ily módon a közgazdasági elméletben igen fontos szerepet játszó rugalmasság (idegen szóval elaszticitás) fogalmához jutunk, amelyet példaként az analízisben is említettünk. 18 Általánosságban a rugalmasság arra ad választ, hogy az egyik változó relatív változása a másik változó milyen mértékű relatív változását eredményezi, ha függvénykapcsolat van köztük. Ennek mérésére a rugalmassági (elaszticitási) együttható (jele: Ε)szolgál, amely a matematikai tanulmányokból ismert differenciálhányados segítségével definiálható. Jelöljük X ismérv tetszőleges értékét x-szel, Y ismérv hozzá tartozó értékét pedig y-nal ( ). Vegyük xnek egy nagyon kicsiny (abszolút) változását, ezt jelöljük Δx-szel. Az ennek megfelelő függvénynövekmény Δy. Ez azt jelenti, hogy az X ismérv értékéhez az érték tartozik. A relatív növekmények ennek alapján:
A rugalmassági együttható arra ad választ, hogy az Y változó relatív változása hányszorosa az X változó relatív változásának. Ezt az alábbi hányados fejezi ki:
Mivel ez a hányados a hosszúságú intervallumra vonatkozik (ezen belül egy átlagos értéknek tekinthető), az x-beli értéket úgy kapjuk, hogy vesszük a határértékét esetén. Így képezhető Y-nak X-re vonatkozó rugalmassági együtthatója. (Természetesen hasonlóan képezhető X-nek Yra vonatkozó rugalmassági együtthatója.) A rugalmassági együttható:
Ez a határérték akkor létezik, ha az f függvény minden pontban differenciálható. A határértéket képezve a következő összefüggéshez jutunk:
Az együtthatót a sztochasztikus kapcsolatra alkalmazva figyelembe kell venni, hogy y-nak csupán becsült értéke áll rendelkezésünkre:
Az elaszticitási együttható becsléséhez ezen regressziófüggvény differenciálhányadosát használjuk fel. Ily módon a rugalmassági együttható becslése a következő:
18
Analízis 192. oldal
125 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A vizsgált gazdasági jelenségnek a hatótényezővel szembeni viselkedését a mutató előjele és abszolút nagysága jellemzi. A rugalmassági együttható előjele a differenciálhányados előjelével egyezik meg. Azt fejezi ki, hogy az adott jelenség a hatótényező változásával azonos irányban (ekkor pozitív az előjel) vagy ellentétes irányban (ekkor negatív az előjel) változik. A mutató abszolút nagyságának vizsgálata megkülönböztetnünk.
során három fő
értéket,
illetve
értékcsoportot kell
Ez azt jelenti, hogy a hatótényező 1%-os változása esetén a vizsgált gazdasági jelenség ennél kisebb mértékben változik az adott helyen. Ez esetben azt mondjuk, hogy az Y változó rugalmatlan az X változásával szemben. Ilyen esettel találkozhatunk például az élelmiszerek jövedelemrugalmasságának vizsgálata során.
A hatótényező változásával az adott helyen arányosan változik a gazdasági jelenség. Azaz, ha X 1%-kal növekszik, akkor ennek hatására az Y változóban is 1%-os változás következik be.
Ez az eset akkor fordul elő, ha az adott helyen a vizsgált jelenség érzékenyen reagál a hatótényező változására. A hatótényező 1%-os változása az adott helyen tehát 1%-nál nagyobb változást eredményez a vizsgált jelenségben. Ezeket a jelenségeket az adott hatótényező szempontjából rugalmasnak tekintjük. Rugalmasnak tekintjük például a luxuscikkek forgalmát az ár szempontjából. A lineáris regresszió rugalmassági együtthatója a következő:
ugyanis
és deriváltja
A rugalmassági együttható ebben az esetben is x függvénye, kivéve azt az esetet, amikor , azaz a regressziófüggvény grafikonja origón átmenő egyenes. Az x bármely kiválasztott értékére számítható. A gyakorlatban azonban többnyire az átlagos szinten (szokásos megfogalmazással élve az átlagpontban) vizsgálják, hogy a független változó 1%-os változása hány %-os változást idéz elő a függő változóban.
esetén ui. a függvényérték A szállítási távolság és az időtartam összefüggését vizsgáló példánkban az átlagos szinten mért rugalmasság:
A mutatószám egynél kisebb, ezért azt mondhatjuk, hogy a szállítás időtartama rugalmatlanul reagál a szállítási távolságra. Az átlagos szállítási időtartam környezetében a szállítási távolság 1%-os növekedése átlagosan 0,84%-kal hosszabbítja meg a szállítás időtartamát.
3. 9.3. Statisztikai következtetések a kétváltozós lineáris regresszió alapján Az analitikus regressziószámítás során az elméleti regresszió becslését végeztük el adott számú megfigyelésből származó adatok, azaz n elemű minta alapján. Így az elméleti összefüggést mintából származó analitikus
126 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás függvénnyel közelítjük. A tapasztalati adatokból a paraméterek becslésére kerül sor. A becsült paraméterek valószínűségi változók, értékük mintáról mintára ingadozik. Célunkat, miszerint az alapsokasági összefüggésekre kívánunk következtetni, csak akkor érhetjük el, ha előtte megismerkedünk a regressziós modell feltételrendszerével és a becsült paraméterek valószínűségi eloszlásával.
3.1. 9.3.1. A regressziós modell feltételrendszere Tételezzük fel, hogy az X tényezőváltozó és az Y eredményváltozó között lineáris sztochasztikus kapcsolat áll fenn, ami alatt azt értjük, hogy
Hangsúlyozni szeretnénk, hogy továbbra is feltételezzük, hogy az X magyarázóváltozó ismert (mindig rögzített) érték és az eredményváltozó, Y a sztochasztikus változó. Ha a sokaság véges, akkor a fentiek azt jelentik, hogy ha az értéket, amely az
értékpárt alkot, akkor ezen
ha
akkor a lehetséges
A
és a
értéket rögzítve vesszük az összes olyan
értékek átlaga
Korábbi jelölésünket megtartva,
értékek átlaga (rögzített
mellett) a fentiek alapján nulla.
a már ismert módszerekkel meghatározható.
Most térjünk rá arra az esetre, amikor változó, ezért valamely rögzített Természetesen
és
értékét minta alapján becsüljük. Mivel csak Y a sztochasztikus
érték mellett a mintaelem Y ismérvértéke
valószínűségi változó.
általában nem egyenlő
Legyen
ahol
is a definícióból adódóan valószínűségi változó. Az is nyilvánvaló, hogy különböző
a megfelelő
és
valószínűségi változók (így
és
) eloszlása különböző lehet. (
és
értékekre
eloszlása az Y változó
vonatkozó feltételes eloszlása.) Ahhoz, hogy a paraméterek értékeinek becslését vizsgálhassuk, szükségünk van néhány feltevésre. 1. 2.
és így
is normális eloszlású (az ha
(
és
különbsége
állandó;
),
),
3.
Ezzel ekvivalens, hogy
4.
(független
(
). Nyilvánvaló, hogy az
),
szórása is ugyanennyi (
).
Ezen feltételek teljesülése esetén standard lineáris modellről beszélünk.
3.2. 9.3.2. A regressziós becslés pontosságának mérése A regressziós becslés során elkövetett hibák alapvetően kétféle okra vezethetők vissza. 1. Az analitikus regresszió az elméleti regresszió mintából számított közelítése, becslése. Ezért a regressziófüggvény paraméterei a valóságos
paraméterek becsült értékei (pontbecslései). A mintából
szóródnak az elméleti értékek körül. Ezt a szóródást az együtthatók standard hibája fejezi ki. 127 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás 2. A hiba másik forrása, hogy a vizsgált ismérvek között sztochasztikus kapcsolatvan. Y-nak X szerinti regressziós becslése nem a tényleges Y értékeket, hanem azoknak csak az X-től függő részét adja. A tényleges és a regressziófüggvénnyel becsült értékek eltérése miatt beszélhetünk a regresziófüggvény, illetve a regresszióértékek hibájáról. Az eltérések nagyságát értelemszerűen befolyásolja a kapcsolat szorossága. Szoros korreláció esetén a becsült értékek jól közelítik az eredményváltozó értékeit. Laza kapcsolatnál viszont a kétféle YA paraméterek hibái A 9.2.3. pontban és kapott becslőfüggvényeket most a következőképpen írhatjuk, mivel a minta X ismérvértéke rögzített és csupán az Y ismérvérték valószínűségi változó:
Ez azt jelenti, hogy és így is az ( ) valószínűségi változók lineáris kombinációja. Ennek alapján már nem nehéz bizonyítani az alábbi állításokat: és
1. 2. A
és
vagyis torzítatlan becslésről van szó.
valószínűségi változók szórása, vagyis a becslés standard hibája:
3. A becslés konzisztens. (Az állítást nem bizonyítjuk.) 4. Konkrét minta esetén a standard hibát az alábbi képletekkel számítjuk ki:
A 2. pontbeli képletekben szereplő mintabeli adatok alapján becsüljük és
az
illetve az
szórása. Értékét a gyakorlatban nem ismerjük, ezért a
jelöljük.
128 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Konkrét mintából történő becsléséhez a következő gondolatmenettel jutunk el: – elméleti szórás:
– mintából becsült szórás:
,
– konkrét mintából becsült szórás:
,
„maradéktag”, vagy más néven becsült reziduum.
ahol
az a reziduális négyzetösszeg, amelynek nagyságát a legkisebb négyzetek módszerével történő becslés során minimalizáljuk. Elméleti megfontolásból, a torzítatlanság követelményének teljesüléséért a négyzetösszeget a szabadságfokkal korrigáljuk, ami jelen esetben (mert képzése tényezőváltozó alapján történik). Így elérjük, hogy torzítatlan becslőfüggvénye lesz az alapsokasági varianciának, -nek. Bemutatópéldánk adatai alapján számítsuk ki a paraméterek standard hibáját!
9.15. táblázat - A maradék-négyzetösszeg kiszámításának táblázata Sorszám
y
1.
10 10,5
–0,5
0,25
2.
13 10,5
2,5
6,25
3.
8
0,5
0,25
4.
20 19,5
0,5
0,25
5.
27 33,0
–6,0
36,00
6.
35 34,5
0,5
0,25
7.
22 28,5
–6,5
42,25
8.
40 34,5
5,5
30,25
9.
45 42,0
3,0
9,00
10.
50 49,5
0,5
0,25
0,0
125,00
7,5
Együtt: 270 270,0
129 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A szórás ( ) becslése:
A becsült paraméterek standard hibái:
Megjegyzés: A számítási részeredmények a 9.13. és a 9.14. táblázatban találhatók. A paraméterek hibáit a következőképpen értelmezzük: kifejezi, hogy a 10 elemű mintavételeket végtelen sokszor ismételve a lehetséges becsült értékek –
Az
paramétertől.
a pedig azt jelenti, hogy a lehetséges becsült
Az
szóródnak az alapsokasági regressziófüggvény
paraméterek átlagosan 0,1374 egységgel
paramétere körül, az összes lehetséges 10 elemű minta esetén.
A regressziós becslés abszolút és relatív hibája A regressziófüggvény hibája a regressziós becslés második hibaforrására, az ismérvek közötti sztochasztikus kapcsolatra vezethető vissza. A paraméterek hibájának meghatározásánál bevezettük a maradéktag szórásának becslésére az
formulát, amely önmagában is fontos.
a regressziós becslés abszolúthibájának nevezzük.
Hasznos információt nyújt a regressziós függvény útján nyerhető regressziós becslések megbízhatóságáról, alkalmazhatóságáról. Az abszolút hiba a 9.1. pontban megismert korrelációs együttható (r) felhasználásával is meghatározható:
Az abszolút hiba kifejezi, hogy a regressziós becslések
átlagosan mennyivel térnek el az eredményváltozó
megfigyelt értékeitől. A regressziófüggvény használhatóságát a gyakorlatban a hiba relatív mértéke alapján jobban megítélhetjük. A regressziós becslés relatív hibáját az abszolút hiba és az átlag hányadosaként számítjuk. Relatív hiba:
A relatív hiba kifejezi, hogy a regressziós becslések átlagosan hány %-kal térnek el az eredményváltozó megfigyelt értékeitől.
130 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A regressziófüggvény megbízhatóságáról a relatív hiba ad felvilágosítást. Minél kisebb a relatív hiba, annál megbízhatóbb a regressziófüggvény. A gyakorlatban általában 10% alatti relatív hiba esetén fogadjuk el jónak a regressziós becslést. Példaként ismét a távolság és a menetidő közötti kapcsolatot leíró regressziófüggvényt idézzük fel. Az abszolút hiba :
A becsült értékek átlagosan 3,95 perccel térnek el a tényleges szállítási időtől. A relatív hiba:
A becsült értékek átlagosan 14,6%-kal térnek el a tényleges szállítási időtől. Mivel a relatív hiba 10%-nál nagyobb, az eredményeket kellő óvatossággal kell kezelnünk.
3.3. 9.3.3. A regressziófüggvény paramétereinek intervallumbecslése A paraméterek becslésével, a pontbecslés, intervallumbecslés fogalmával korábban már megismerkedtünk. A becsléselméletben tanultak alkalmazhatók a regressziós becslésekre is. A regressziós modell feltételeinek rögzítése és a paraméterek becslőfüggvényének kidolgozása után lehetővé válik, hogy összefüggést teremtsünk a mintából becsült paraméterek és az elméleti, alapsokasági paraméterek között. Így módunkban áll a gyakorlatban egyetlen mintából következtetni az alapsokasági paraméterekre. A regressziós paraméterek pontbecslésének ismeretében intervallumbecslés is adható. Mivel feltételezzük, hogy az a
azonos szórású normális eloszlású független valószínűségi változók és
ezek lineáris kombinációja, be lehet látni (mi nem bizonyítjuk), hogy a
valószínűségi változó
szabadságfokú Student t-eloszlást alkot, azaz
valószínűségi szint esetén
Átalakítva:
A zárójelen belüli egyenlőtlenségek a
paraméterre konfidenciaintervallumokat jelölnek ki,
valószínűségi
valószínűségi változó. Ezért az előző összefüggést úgy értelmezzük, hogy ha ismételt mintavételeket hajtunk végre, azaz a regressziószámításnál többször elvégezzük az adott számú megfigyelést, és mindegyik után elkészítjük a konfidenciaintervallumot, várhatóan az intervallumok %-a tartalmazni fogja a sokasági paramétert. Egyetlen mintából készített konfidenciaintervallum a
131 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
t-táblázatbeli érték:
kiszámított standard hiba
Így a
A korábban már
az alábbi konfidenciaintervallum írható fel:
Ennek alapján azt mondhatjuk, hogy a sokasági van.
paraméter 95%-os megbízhatósággal ezen intervallumban
3.4. 9.3.4. Regressziós becslések és prognózisok A regressziós függvénnyel két ismérv közötti összefüggés tendenciáját írjuk le. A becslőfüggvényt felhasználhatjuk a tényezőváltozó egy rögzített értéke mellett az eredményváltozó értékének becslésére. Ehhez a megfelelő Ezt az
értéket behelyettesítjük a regressziófüggvénybe, és kiszámítjuk a hozzá tartozó
becsült értéket.
értéket kétféleképpen foghatjuk fel:
a) Ez az érték az értékpárok
értékeiből képzett
várható érték, illetve véges diszkrét esetben az
lehetséges
becslése. Becsülhetjük például a testmagasság és a testsúly közötti
összefüggés vizsgálata alapján az adott testmagasságú emberek átlagos testsúlyát. Az becslőfüggvénye definíció szerint. b) Ez az érték annak becslése, hogy egy
minta esetén
az
mekkora lehet.
Mindkét esetben intervallumbecslést adunk. Az
értékhez tartozó feltételes várható érték intervallumbecslése
A regressziófüggvény segítségével kapott becslések azonban eltérhetnek a mivel mintából dolgoztunk. Az
tartozó feltételes várható értéktől,
szórása, azaz a standard hiba a paraméterek szórásának ismeretében meghatározható:
(Nem bizonyítjuk és a formulákat már csak konkrét mintára alkalmazva írjuk fel.) Látható, hogy a standard hiba akkor a legkisebb, ha a rögzített hely ( esetben a képlet az alábbi formulára egyszerűsödik:
) éppen az átlaggal egyenlő. Ebben az
Ennek alapján azt mondhatjuk, hogy regressziós becslésünk az átlag környezetében a legjobb, a szélső értékek felé haladva egyre romlik. 132 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A konfidenciaintervallumot szintén a t-eloszlás segítségével határozzuk meg:
A becsült konfidenciaintervallum értéket (átlagot).
valószínűséggel tartalmazza az
helyhez tartozó feltételes
várható
A teherfuvarozó vállalkozó adatainak felhasználásával 95%-os valószínűségi szinten adjunk intervallumbecslést a 12 km távolságra történő szállítások átlagos idejére! Az átlagos színvonal becsült értéke:
Korábbi számításokból ismert:
A standard hiba:
A konfidenciaintervallum:
A 12 km távolságra történő szállítások átlagos ideje 95,0%-os megbízhatósági szinten 19,4 és 25,4 perc között van. Az egyedi
becslések konfidenciaintervalluma
Előfordulhat, hogy nem átlagos szintet, hanem egy hiányzó célra is ugyanezt a becslőfüggvényt használjuk. Mivel
adatot kívánunk becsülni az
értéknél valamely
helyen. Erre a
érték az
módon számítható, ezért
A behelyettesítés és a gyökvonás után az egyedi érték becslésekor a standard hiba kiszámításának képlete egy konkrét mintára a következő:
Egyedi
érték
valószínűségi szinthez tartozó konfidenciaintervalluma:
133 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
Ismét a korábbi példa adataiból becsüljük meg 95,0%-os valószínűségi szinten most konkrétan egy 12 km távolságra történő fuvarozás menetidejét. Az egyedi érték becslése:
A standard hiba:
A konfidenciaintervallum:
Az eredmények is mutatják, hogy az egyedi értékek becslése konfidenciaintervallum ebben az esetben lényegesen szélesebb sávot ölel fel.
lényegesen
pontatlanabb.
A
Bármilyen formában történik is a becslés, óvakodni kell az általánosítástól. A regressziós becslésnek csak az adott keretek között, a vizsgált adathalmazra vonatkozóan van értelme. Attól is tartózkodni kell, hogy a regressziós függvényt tetszés szerint meghosszabbítsuk. A függvény mindig csak a megfigyelt értékek értelmezési tartományában érvényes.
3.5. 9.3.5. A regressziófüggvény eredményeinek hipotézisellenőrzése Az eredmények valóságtartalmának ellenőrzése a hipotézisvizsgálat eszközeivel történhet. Mivel az eredmények mintából származnak, felmerül a kérdés, hogy a kapott eredmények a sokaságra is igazak-e. Kétféle vizsgálatot végezhetünk: – ellenőrizhetjük, hogy szignifikáns-e a
regressziós együttható;
– szignifikánsnak bizonyul-e maga a regressziófüggvény. (Megjegyezzük, hogy a kétféle módszer – két ismérv kapcsolatának vizsgálatakor – azonos eredményre vezet. A teljesség kedvéért mindkét módszert bemutatjuk.) A regressziós együttható (
) tesztelése
Az ellenőrzés gondolatmenete a következő. Feltételezzük, hogy valójában nincs korreláció, az elméleti paraméter ( ) nullával egyenlő, és a tapasztalati adatokból számított ( ) paraméter nullától való eltérését csak a véletlen okozza. A regressziós együttható tesztelése t-próbával történik. A hipotézisek matematikai megfogalmazása a
módon történik. A nullhipotézis helyességét próbafüggvénnyel ellenőrizhetjük. Mint láttuk, n elemű minta esetén a
134 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
valószínűségi változó Az ellenőrzés
szabadságfokú t-eloszlást alkot.
szignifikanciaszinten azt jelenti, hogy a
teljesülése esetén fogadhatjuk el ezen a szignifikanciaszinten a nullhipotézist. Konkrét minta esetén a próbafüggvény számított értéke:
A próbafüggvény nem más, mint a regressziós együttható becsült értékének és a hozzá tartozó standard hibának a hányadosa. Számított értékét az szignifikanciaszinthez és az szabadságfokhoz tartozó kritikus értékhez viszonyítjuk.
Ha
, a
hipotézist elfogadjuk. Ez azt jelenti, hogy a paraméter nem különbözik szignifikánsan
nullától. Abban az esetben, ha ,a hipotézist elvetjük. A mintabeli információk ekkor azt mutatják, hogy szignifikáns a kapcsolat az X és az Y változó között. Teszteljük le a mintapéldánkban szereplő regressziófüggvény függvény
; továbbá a
paraméterét! A 10 elemű mintából származó
paraméter standard hibája
volt.
A próbafüggvény számított értéke:
A próbafüggvény kritikus értéke (5%-os szignifikanciaszinten,
):
Mivel a számított érték (10,95) meghaladja a t kritikus értékét (2,31), a távolság és a fuvarozási időtartam között a valóságban
hipotézist fogadjuk el. A szállítási paraméter szignifikáns.
A varianciaanalízis alkalmazása a regressziószámításban A regressziós együttható tesztelése mellett magának a regressziófüggvénynek a hipotézis-ellenőrzése is elvégezhető. Ez a varianciaanalízis módszerével történhet. Elsőként írjuk fel az eredményváltozó és a magyarázóváltozó közötti összefüggést az i-edik megfigyelésre:
azaz
ahol
az Y megfigyelt értéke (
), 135 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás az
tartozó regressziós becslés,
a maradéktag vagy reziduum. Megállapíthatjuk, hogy a maradéktagok összege nulla. Ez belátható, ha a már ismert normálegyenleteink közül az I. normálegyenletet
átrendezzük:
Ebből következik, hogy
Ez azt jelenti, hogy a regressziós becslések összege és ebből következően átlaga is megegyezik az eredményváltozó tényleges értékeinek összegével és átlagával. Kiinduló összefüggésünk tehát az átlagtól vett eltérések alapján is felírható:
Ez fontos összefüggés számunkra, mert kifejezi, hogy az eredményváltozó megfigyelt értékeinek átlagtól való eltérése két komponenssel magyarázható, egyrészt a becsült regressziófüggvény szóródásával, másrészt a maradéktag ingadozásával. Bizonyítás nélkül közöljük, hogy az eltérések összetevőkre bontása az eltérés-négyzetösszegekre is felírható:
Az eltérés-négyzetösszegeket a következőképpen is szokás jelölni:
Különleges jelentősége van a reziduális négyzetösszegnek (SSE), mivel a megfigyelt regressziófüggvény körüli szóródását fejezi ki. Ha
értékeknek a
ez azt jelenti, hogy a függő változó teljes varianciája megmagyarázható a tényezőváltozó
segítségével. Minden megfigyelt érték a regressziófüggvényen helyezkedik el. Egyéb tényezőknek nincs hatása az eredményváltozóra, vagyis az ismérvek között függvényszerű kapcsolat van. Ha az akkor a két ismérv között sztochasztikus kapcsolat áll fenn. Minél nagyobb a reziduális négyzetösszeg értéke, annál nagyobb a becslés hibája, mert a modellben nem szereplő egyéb magyarázóváltozók hatása annál nagyobb szerepet játszik a függő változó szóródásában. A varianciaanalízis(9.16. táblázat): 136 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
9.16. táblázat - Varianciaanalízis-tábla A szórásnégyze t forrása
Eltérésnégyzetösszeg
Szabadság fok
Átlagos négyzetösszeg
Regresszió
Hibatényező
Teljes A szabadságfokokról a következőket kell tudni: A teljes négyzetösszeg (SST) szabadságfoka paramétert kell kiszámítani.
mert számításához először a mintából az
A hibatényező négyzetösszegének (SSE) szabadságfoka paraméter, a
és a
azaz egy
Ennek az a magyarázata, hogy számításához két
becslése szükséges.
A regresszióból becsült négyzetösszeg szabadságfoka pedig a szabadságfokok között fennálló additív összefüggésből következik.
A tesztelésnél itt is a regresszió fennállásának tagadásából indulunk ki. Hipotéziseinket a következőképpen írhatjuk fel:
A regresszióból származó becslést a szórásnégyzet „külső” becslésének, a hibatényezőből származót pedig „belső” becslésének tekinthetjük. (Így teljes az analógia a 8. fejezetben megismert F-próbával.) A nullhipotézist F-próbával ellenőrizzük, amelynek képlete konkrét mintaesetén:
ahol a számláló szabadságfoka,
a nevező szabadságfoka pedig
Abban az esetben, ha az MSE (a „belső” szórásnégyzet becslése) relatíve nagy az MSR-hez (a „külső” szórásnégyzet becsléséhez) képest, a regressziófüggvény rosszul illeszkedik a ponthalmazhoz, ami a változók közötti lineáris kapcsolat hiányára utal, és így elfogadását támasztja alá. A fordított eset a magyarázóváltozó és az eredményváltozó lineáris kapcsolatára utal. Ekkor az X és Y változók közötti lineáris kapcsolat hiányát megfogalmazó nullhipotézisnek ellentmond, és így az alternatív hipotézist (
137 Created by XMLmind XSL-FO Converter.
) támasztja alá.
Kétváltozós korreláció- és regressziószámítás A bemutatópéldánkhoz kapcsolódóan a szállítási távolság és a fuvarozási idő közötti összefüggés vizsgálatából elkészítettük a varianciaanalízis-táblát. A felhasznált számítási részeredmények az alábbiak:
Ezen adatokból állítottuk össze a varianciaanalízis-táblát (9.17. táblázat).
9.17. táblázat - Varianciaanalízis-tábla Szórásnégyet EltérésÁtlagos Szabadságfok forrása négyzetösszeg négyzetösszeg Regresszió
1881
1
1881
Hibatényező
125
8
15,625
Teljes
2006
9
–
A próbafüggvény számított értéke:
Kritikus értéke 5%-os szignifikanciaszint mellett:
.
A szerinti feltételezést 5%-os szignifikanciaszint mellett elvetjük. Megállapítható, hogy a paraméter értéke szignifikánsan különbözik nullától, vagyis a szállítási távolság és a menetidő között szignifikáns kapcsolat van. A szorosság mérése a varianciaanalízis-tábla alapján Az eltérésnégyzetek közötti összefüggés alapján kiszámíthatjuk a regresszió által megmagyarázott eltérésnégyzetösszegnek az y teljes eltérés-négyzetösszegéhez való arányát. Ezt a mutatószámot determinációs együtthatónak nevezzük. (Jele: )
Értéke sztochasztikus kapcsolat esetén 0 és 1 közé eshet, és százalékos formában fejezzük ki. Bizonyítás nélkül közöljük, hogy a most megismert determinációs együttható négyzetgyöke a lineáris korrelációs együttható. (Ez a számítás a 9.1.2. pontban megismert számítási képleteket egy újabb lehetőséggel bővíti.)
3.6. 9.3.6. A reziduális változó vizsgálata Eddigi eredményeinknél feltételeztük, hogy jól választottuk ki a regressziós függvényt, azaz helyesen specifikáltuk a függvény típusát, továbbá teljesülnek a lineáris regresszió feltételei. A regressziószámítás alkalmazása során azonban a feltételek teljesülését ellenőrizni is kell. Ez az úgynevezett diagnosztikai tesztekkel történhet, amelyek egyrészt értékelik a modellt, másrészt a levont következtetések valódiságát 138 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás támasztják alá. A legtöbb regressziószámításhoz készült programcsomag tartalmazza ezeket a diagnosztikai teszteket. Az eredmények értékelése azonban minden esetben a felhasználóra vár. Arra a kérdésre, hogy a regressziófüggvény jól írja-e le a valóságot, a reziduális változó tapasztalati értékeinek ( ) vizsgálata ad választ. Ez a változó az elméleti véletlen változó tapasztalati megfelelője, és rendelkeznie kell annak tulajdonságaival. Ha ez nem áll fenn, akkor ez azt jelenti, hogy a véletlen mellett más, szisztematikus hatás is érvényesül a reziduális eloszlásban, ezért a modell felülvizsgálatra szorul. A reziduális változó eloszlását kétféleképpen vizsgálhatjuk: a reziduumok grafikus ábrázolásával, valamint a hipotézisvizsgálat eszközeivel. E vizsgálat részletes bemutatása meghaladja tankönyvünk kereteit. A problémát csak grafikonokkal szemléltetjük. A hibatényező grafikus ábráját az x magyarázóváltozó függvényében a 9.13. ábrán mutatjuk be.
9,13. ábra - A hibatényező eloszlásának vizsgálata
Az a) ábrán a vízszintes szalag x nagyságától független szóródást jelent. A reziduális eloszlás véletlen jellegűnek tekinthető, ha a pontdiagram a sávon belül helyezkedik el. A variancia állandóságának feltétele teljesül. A b) ábra szétnyíló tendenciát mutat. A variancia az x érték növekedésével nő, tehát ellentmond az állandó szórás feltételének. Ez esetben vagy a modell (a függvénytípus), vagy a becslési eljárás újragondolása szükséges. A becslési módszerek közül célszerű például a legkisebb négyzetek módszere helyett az úgynevezett súlyozott legkisebb négyzetek módszerével dolgozni. A következőkben bemutatjuk a szállítási távolság és a szállítási idő vizsgálata közötti összefüggés EXCEL 5.0 szoftverrel való megoldása után kapott eredménytábláját (9.18. táblázat). Vessük össze az eredményeket az eddig közöltekkel!
9.18. táblázat - Eredménytábla a szállítási távolság és a szállítási idő közötti összefüggés vizsgálatához x
y
4
10
4
13
xy 16
16
e
40 1
7
187 12 10,4203 1
1
4
154 12 10,4203 2,5797 1
52
0,1766
274,8868
6,6549
274,8868
3
139 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
2
8
4
16 3
10
20
100 200
19
27
361 513
9
4
0
247 16 9
7,4058 0,5942
0,3531
383,9328
35
25 19,4638 0,5362
0,2875
56,7948
0
16 33,0290
36,3487
6,0290
36,3487
25 34,5362 0,4638
0,2151
7,5362
56,7948
1
42,3443
1,5072
2,2718
25 34,5362 5,4638 29,8528
7,5362
56,7948
0 20
35
400 700
5
16
22
256 352
1
8
40
28,5072 2
20
40
400 800
5
13
25
45
625 1125 10 18 180 10 42,0725 2,9275 0
8,5705
15,0725
227,1792
30
50
900 1500 15 23 345 22 49,6087 0,3913 5
0,1531
22,6087
511,1531
0 1248 82 270,000 0,0000 124,956 8 0 5
0,0000
1881,0435
150 270 3078 5298 0
65
paraméter értéke
→ 1,507246 4,391304
standard hiba
→ 0,137347 2,409648
determinációs → 0,937709 3,95216 eh. F próbafv. értéke SSR
→ 120,4287 8
←szf
→ 1881,043 124,9565
F kritikus értéke
5,317645
t próbafv. értéke
10,974
t kritikus értéke
2,306006
←
←
1,822384
3.7. 9.3.7. A paraméterek robusztus becslése
140 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A megismert becslési eljáráson kívül még sok más lehetőség is van a sztochasztikus összefüggések vizsgálatára. Ezek közül a robusztus becslés módszerét emeljük ki. A gyakorlati számításoknál ugyanis mindkét változónál előfordulhatnak úgynevezett mérési hibák. Az adatok pontatlansága, a hibák mértéke és iránya értelemszerűen kihat mindenfajta további statisztikai számítás eredményére, így a regressziófüggvény paramétereinek becsült értékeire is. Léteznek olyan becslési eljárások, amelyek kevésbé érzékenyek az adatbázisban lévő mérési hibákra vagy a modellekben rögzített feltételek teljesülésére. Ezek az eljárások a robusztus becslési módszerek. Ezzel az eljárással számíthatjuk például az úgynevezett nyesett átlagot, amelyet az átlagszámítás ismert szabálya szerint határozhatunk meg azzal a különbséggel, hogy a rangsor szélén elhelyezkedő kiugróan nagy vagy kicsi értékeket, azaz a szélsőséges értékeket elhagyjuk. A módszer a regressziós paraméterek becslésére is kiterjeszthető. Ebben az esetben első lépésben a legkisebb négyzetek módszerével meghatározzuk a paramétereket, majd kiszámítjuk a reziduumokat. Ezt követően elhagyjuk azokat a megfigyeléseket, amelyekhez a legnagyobb és a legkisebb reziduumok tartoznak. Összesen (ahol ) megfigyelést hagyunk el a rangsor mindkét szélén, majd a megmaradt adatok alapján újra végrehajtjuk a becslést a legkisebb négyzetek módszerével. Kövessük végig a leírtakat az alábbi példán! Abból indulunk ki, hogy ismert az
függvény, amellyel leírható az y és az x változók közötti
determinisztikus kapcsolat. A megfigyelés során elírás történt, és tévedésből az helyett (9.19. táblázat).
jegyezték fel
9.19. táblázat - A feljegyzett adatok táblázata Sorszám
y
x
1.
17
1
2.
21
3
3.
50
2
4.
25
5
5.
29
7
Ebből az öt adatpárból, amely a téves adatot is tartalmazza, meghatározzuk a regressziófüggvényt, majd pedig kiszámítjuk a maradéktagokat. (A részletes számításokat nem közöljük.) A lineáris regressziófüggvény:
Számítsuk ki a becslési hibákat!
9.20. táblázat - Munkatábla a reziduumok számítására Sorszám
y
1.
17
28,7
2.
21
28,5
141 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
3.
50
28,8
4.
25
28,2
5.
29
27,9
21,2
1,1
Annak illusztrálására, hogy egyetlen hibás adat mekkora eltérést okoz, nézzük meg a 9.14. ábrát!
9,14. ábra - A mérési hiba hatása a regressziófüggvényre
A továbbiakban elhagyjuk az első és a harmadik megfigyelést, mert a maradéktag az elsőnél a legkisebb és a harmadiknál a legnagyobb. Ezt követően a megmaradó megfigyelések alapján (9.21.táblázat) újra becsüljük a regressziófüggvény paramétereit.
9.21. táblázat - A megmaradó adatok táblázata a Sorszám
y
x
1.
21
3
2.
25
5
3.
29
7
A regressziófüggvény: Elhagytuk a mérési hibát tartalmazó megfigyelést az adataink közül, és így visszakaptuk a determinisztikus összefüggést leíró függvényünket, amelyből kiindultunk.
4. 9.4. Nemlineáris regresszió A mennyiségi ismérvek közötti kapcsolat törvényszerűségeinek leírására igen gyakran nem alkalmas a lineáris függvény. A kapcsolatnak egyenessel történő kifejezése ugyanis feltételezi, hogy az X változó egységnyi változása Y-nál mindig adott nagyságú (konstans) változást eredményez. A közgazdasági összefüggéseknél e feltétel gyakran nem teljesül. Ilyen esetekben nemlineáris modellek alkalmazására kerül sor. A műtrágyafelhasználás és a terméshozam nagysága között például korrelációs kapcsolat van. A műtrágya-felhasználás nyos termékek egy főre jutó fogyasztása és az egy főre jutó jövedelemszint között sem állapíthatunk meg egyértelmű lineáris összefüggést, ugyanis egy adott jövedelemszint felett a termék fogyasztásában telítettség következik be, és a jövedelem további emelkedésével nem, vagy csak nagyon kis mértékben növekszik a termék fogyasztása. A vállalati gyakorlatban alkalmazható költségfüggvények és termelési függvények legtöbbje is nemlineáris típusú. 142 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás Nemlineáris regressziófüggvényt akkor használunk, ha az X változó Y-ra gyakorolt hatásának mértéke függ az X változó nagyságától. A megfelelő függvénytípus kiválasztásához az érintett szakterület alapos ismerete szükséges. A megfigyelt at segíthet a megfelelő függvénytípus kiválasztásában. A nemlineáris, vagy másképpen görbevonalú regresszió fontosabb típusai : a hatványkitevős, az exponenciális, a parabolikus, a hiperbolikus függvények. Mielőtt ezen függvénytípusok tárgyalására rátérnénk, idézzük fel a regressziós függvény paramétere meghatározási elvét, amit a legkisebb négyzetek módszerekéntismertünk meg. E módszer segítségével határozhatjuk meg adott függvénytípuson belül a ponthalmazhoz legjobban illeszkedő függvényt. A legkisebb négyzetek módszerét nemlineáris regresszióra is alkalmazhatjuk. Parabolikus regressziófüggvény Ha egy parabola típusú regressziófüggvény adott, tehát lehetséges.
akkor a következő megoldás
A legkisebb négyzetek kritériuma most is azt igényli, hogy a regressziófüggvény paramétereit úgy határozzuk meg, hogy a megfigyelt y értékeknek a regressziófüggvény megfelelő értékeitől számított eltérésnégyzetösszege minimális legyen. Tehát a következő kifejezést kell minimalizálni:
Ha a függvény szerinti parciális deriváltjait egyenlővé tesszük nullával, az alábbi normálegyenleteket kapjuk a regressziós paraméterek megállapítására: I. normálegyenlet: II. normálegyenlet: III. normálegyenlet:
, , .
(Az összegzési határokat most nem írtuk ki, értelemszerűen
)
Előfordulhat, hogy nem polinomokkal, hanem más, pl. racionális törtfüggvényekkel közelítünk. Világosan látszik az általánosítás lehetősége. Magasabb fokú polinomnál hasonlóan járhatunk el, a paraméterek (együtthatók) száma mindig a fokszámnál 1-gyel nagyobb, és ugyanannyi a lineáris normálegyenletek száma is. A normálegyenletek egyszerűsíthetők, ha a változókat a lineáris regressziónál tanult módon transzformáljuk. Ha a változókat az átlaguktól v
és
Nulla továbbá minden páratlan hatványsor összege, tehát egyszerűbben megoldhatók.
és és
nulla.
is. Így a normálegyenletek
A parabolikus regressziót a gyakorlatban általában akkor használjuk, ha a két változó közötti összefüggés jellege bizonyos határig növekvő (vagy csökkenő), de ezen túl megfordul a tendencia. (A műtrágya-felhasználás például egy adott szintig növeli a termésátlagot, bizonyos határon túl pedig alacsonyabb hozamot eredményez.)
143 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A parabolikus regressziófüggvény paramétereinek értelmezése nem olyan kézenfekvő. A független változó hatását nem tudjuk olyan szemléletesen megfogalmazni. Az x helyen az X ismérvérték egységnyi változása az Y ismérvérték
mértékű változását vonja maga után (tehát függ az x -től).
A parabolikus regressziót elsősorban valamely meghatározott x értékhez tartozó függvényérték kiszámításához használjuk fel. Gyakori, hogy éppen azt kutatjuk, hogy a függvény milyen x érték mellett maximális. Hatványkitevős regressziófüggvény Az X és Y változók kapcsolatát az x és y megfigyelt értékei alapján az alábbi becslőfüggvénnyel írhatjuk le:
Természetesen itt feltételeznünk kell a változók és
pozitivitását.
Az egyenletből látható, hogy most az x és y értékek logaritmusai között van lineáris kapcsolat. A paramétereket ezért a lineáris regressziónál megismert formulák segítségével határozhatjuk meg. A különbség csupán annyi, hogy x helyett log x és y helyett log y szerepel.
Az eredeti függvény felírásához a változókat az alábbi módon:
visszakeresésével a
-t is meg kell határozni. Jelöljük a transzformált
A regressziófüggvény:
ahol
.
A hatványkitevős függvény regressziós együtthatója a rugalmassági együtthatóval azonos, ugyanis
és így
A hatványkitevős regresszió paramétere tehát elaszticitási (rugalmassági) együtthatóként értelmezhető. Megmutatja, hogy 1%-kal nagyobb x értékhez hány %-kal nagyobb vagy kisebb y érték tartozik.
144 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás (Amennyiben a hatványkitevős függvény paramétere 1 vagy annál nagyobb értéket vesz fel, azt mondhatjuk, hogy adott esetben az eredményváltozó rugalmasan reagál az tényezőváltozó alakulására.) Hatványkitevős regresszió esetén tehát a rugalmasság független a hatótényező nagyságától. A függvény minden pontján állandó. A következő példában a hatványkitevős függvény alkalmazását mutatjuk be. Grafikus ábrázolás útján dönthetjük el az alapadatok ismeretében a függvény típusát. Feltételezzük, hogy ez korábban elkészült, és a hatványkitevős függvény látszott a legjobb közelítésűnek. 30 négytagú (2 felnőttből és 2 gyerekből álló) aktív keresős háztartásban megfigyelték az egy főre jutó havi jövedelem és az egy főre jutó havi utazási és szórakozási kiadások nagyságát. Az alapadatokat és a szükséges részszámítások eredményeit a 9.22. táblázat tartalmazza. (A könnyebb áttekinthetőség kedvéért nem írjuk ki valamennyi rendelkezésre álló adatot és részeredményt.)
9.22. táblázat - Munkatábla a hatványkitevős regressziófüggvény meghatározásához Sorszám
x
y
1
18
4
1,255 0,602 0,009 0,033
0,00029 0,00008 7 1
2
25
7
1,398 0,845 0,152 0,276
0,04195 0,02310 2 4
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
30
19
4
Együ tt
1,279 0,602 0,033 0,033 0,00099
37,394 17,084
0,00110 0
1,00822 0,4612
ahol x: egy főre jutó jövedelem (E Ft), y: egy főre jutó utazási és szórakozási kiadás (E Ft).
A paraméter azt jelenti, hogy amelyik háztartásban 1%-kal magasabb az 1 főre jutó jövedelem, ott átlagosan 2,186%-kal több az utazási és szórakozási kiadás összege. Tehát az utazási és szórakozási kiadás nagysága rugalmasan reagál a jövedelem változására. Exponenciális regressziófüggvény Becslőfüggvényünk x és y megfigyelt értékei alapján a következő:
145 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
Az exponenciális függvény olyan esetben kerül alkalmazásra, amikor az Y ismérv növekedése arányos az adott helyen felvett értékével:
A regressziós paraméter arra ad választ, hogy a tényezőváltozó egységnyi növekedése hányszorosára változtatja az eredményváltozó értékét. Lineáris alakra transzformálva:
Az exponenciális függvényekre az a jellemző, hogy lineáris összefüggés van a függő változó logaritmusa és az x változó között. Jelöljük a transzformált változókat és a paramétereket a következő módon:
A regressziós modell a bevezetett jelölésekkel:
Nézzük a következő példát! Magyarország történelmi borvidékén vizsgálták a tokaji aszú életkora (év) és export eladási ára (dollár) közötti összefüggést. 28 véletlenszerűen kiválasztott palack megfigyelt adatait a 9.23. táblázat tartalmazza:
9.23. táblázat - A tokaji aszú életkora és eladási ára közötti összefüggés Sorszám
Életkor (év)
Eladási ár (dollár)
1.
25
2100
2.
22
1325
3.
20
800
4.
19
700
5.
17
550
6.
17
460
7.
16
400
8.
13
220
9.
12
170
146 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
10.
10
100
11.
10
125
12.
10
89
13.
9
79
14.
9
70
15.
8
59
16.
8
55
17.
8
51
18.
7
60
19.
7
39
20.
7
34
21.
6
39
22.
6
25
23.
6
18
24.
5
24
25.
5
8
26.
4
16
27.
4
11
28.
4
9
A bevezetett jelölések szerint a paraméterek logaritmusait az alábbi normálegyenletekkel becsüljük:
9.24. táblázat - Munkatábla az exponenciális regressziófüggvény meghatározásához
Sorszá m
Életkor (év) x
Eladási ár (dollár) y
11.
125
2100
3,322219
83,05548
1625
12.
122
1325
3,122216
68,68875
1484
147 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
27.
114
1111
1,041393
4,165571
1116
28.
114
1119
0,954243
3,81697
1116
Összese n:
294
7636
54,40651
674,4496
4024
(A könnyebb áttekinthetőség kedvéért itt sem közlünk minden részeredményt.) Normálegyenletek:
A regressziófüggvényünk lineáris alakban:
A paraméterek logaritmusainak visszakeresett értékei:
Így az összefüggés exponenciális regressziófüggvénye:
Az eredmények alapján megállapíthatjuk, hogy az 1 évvel idősebb borok export eladási ára átlagosan 28,9%-kal magasabb.
5. 9.5. Gyakorlófeladatok 1. Egy utazási iroda programfüzetéből véletlenszerűen kiválasztottunk 10 társasutat. Vizsgáljuk az utak időtartama (X) és részvételi díja (Y) közötti kapcsolatot. A 10 elemű minta adatai:
Sorszám
Időtartam (nap)
Részvételi díj (E Ft)
1.
3
19
2.
4
24
148 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
3.
4
25
4.
5
26
5.
7
33
6.
8
35
7.
8
34
8.
9
40
9.
10
44
10.
12
50
Feladat: a) Számítsuk ki a kovarianciát, a lineáris korrelációs együtthatót! b) Csoportosítsuk az adatokat az utazás időtartama szerint! Számítsuk ki a korrelációs hányadost! 2. Egy pályázatra benyújtott 8 művet 3 bíráló véleményezett az alábbi rangsorolással:
A pályaművek A jelölése
B
C
D
E
F
G
H
Első bíráló
5
2
4
3
7
8
1
6
Második bíráló
4
1
6
2
5
7
3
8
Harmadik bíráló
5
2
3
4
7
8
1
6
Feladat: Vizsgáljuk meg, hogy mennyire vannak „összhangban” a bírálati eredmények! 3. 10 országot rangsoroltak az alábbi szempontok szerint:
Hitelképesség
1 főre jutó GDP
Ország rangsora A
1
3
B
2
1
C
3
5
D
4
2
E
5
9
F
6
10 149 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
G
7
7
H
8
8
I
9
6
J
10
4
Feladat: Számítsuk ki a rangkorrelációs együtthatót, és értelmezzük a kapott eredményt! 4. Egy kereskedelmi cég felmérést végzett ügynöki beosztású munkatársai körében, hogy egy hónap alatt hányszor sikerült megkötni az üzletet. 5 ügynöktől a következő adatokat kapták:
Ajánlat
200
400
300
150
250
Eladás
30
70
55
20
45
Feladat: a) Számítsuk ki a lineáris regressziófüggvény paramétereit, és mondjuk meg jelentésüket! b) Számítsuk ki a regressziófüggvény értékeit, és ellenőrizzük a
összefüggés teljesülését!
c) Számítsuk ki a regressziós becslés abszolút és relatív hibáját! d) Állítsuk össze a varianciaanalízis-táblát és teszteljük a regressziót (
)!
e) Számítsuk ki a determinációs együtthatót! f) Adjunk becslést egy 500 ajánlatot tevő ügynök eladásainak várható számára! g) Cseréljük fel a változókat, és számítsuk ki az paramétert!
regressziófüggvény paramétereit! Értelmezzük a
5. Mutassuk ki a társasutak időtartama és részvételi díja közötti összefüggést (1. feladat) lineáris regressziófüggvénnyel! Feladat: a) Számítsuk ki a paramétereket, valamint a regresszióval becsült értékeket, és hasonlítsuk össze a megfigyelt értékekkel! b) Teszteljük a
paramétert 5%-os szignifikanciaszinten t-próbával!
c) Jelöljük ki a
paraméter 95%-os megbízhatósági szintű konfidenciaintervallumát!
d)Vizsgáljuk a függvény rugalmasságát az
helyen!
6. Egy város 10 véletlenszerűen kiválasztott élelemiszer-áruházának értékesítési forgalom- és készletadatai 1996-ban:
Sorszám
Forgalom (M Ft)
Készlet (M Ft)
150 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
1.
56,9
3,5
2.
117,5
7,5
3.
60,7
3,9
4.
75,5
4,7
5.
60,7
3,6
6.
72,8
4,5
7.
67,7
3,9
8.
72,6
5,1
9.
85,9
5,4
10.
73,6
5,2
Néhány számítási eredmény:
Feladat: a) Számítsuk ki a lineáris regressziófüggvény paramétereit, és mondjuk meg a regressziós együttható jelentését! b) Számítsuk ki a lineáris korrelációs és a determinációs együtthatót a kovarianciából kiindulva, a regressziófüggvény
paraméterének felhasználásával!
c) Ellenőrizzük 5%-os szignifikanciaszinten a d) Jelöljük ki a
paramétert!
paraméter konfidenciaintervallumát 95%-os megbízhatósági szinten!
7. Egy likőripari vállalatnál vizsgálták, hogy a palackozó gépsor óránkénti teljesítménye és a selejtes töltés között milyen kapcsolat van. A megfigyelt 15 nap adatai:
Teljesítmény (1000 palack/nap) X
Selejtszám (palack/nap) Y
17
9,0
18
9,0
19
8,9
20
9,1
21
9,3
22
9,2
23
9,7 151 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás
24
10,4
25
10,4
26
11,6
27
14,1
28
18,2
29
25,0
30
38,3
31
57,0
360
249,2
Az összefüggést exponenciális regresszióval leírva, a következő eredményt kapták: Feladat: a) Értelmezzük a regressziófüggvény paramétereit! b) Számítsuk ki a selejtszám regresszióval becsült értékeit, és állapítsuk meg a maradék-négyzetösszeget! c) Adjunk becslést a selejtes palackokra, hatványkitevős összefüggést feltételezve! d)Döntsük el, hogy melyik típusú függvény írja le jobban a két ismérv kapcsolatát! 8. 19 ország adatai alapján vizsgálták az 1 lakosra jutó GDP (USA-dollár), X és az 1000 lakosra jutó személygépkocsik száma (db), Y ismérvek közötti összefüggést. Számítási eredmények: Lineáris regressziófüggvény: A megfigyelt változók szórásai:
Feladat: a) Milyen szoros a kapcsolat a két ismérv között? b) Hány %-ban játszik meghatározó szerepet az X ismérv az Y ismérv szóródásában? c) Írjuk fel a hatványkitevős regresszió normálegyenleteit, és számítsuk ki a paramétereket! d) Értelmezzük mindkét regressziófüggvény
paraméterét!
e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jutó GDP-mutatója 7200 dollár! 9. Egy élelmiszer-áruházban véletlenszerűen kiválasztottak 10 vevőt, és megkérdezték őket, hogy naponta hány percet töltenek vásárlással (X), percben és mennyit költenek átlagosan naponta élelmiszerre (Y) Ft-ban. Az elvégzett számításokból az alábbiak ismeretesek:
152 Created by XMLmind XSL-FO Converter.
Kétváltozós korreláció- és regressziószámítás A vásárlásra fordított átlagos idő 21 perc, az átlagos kiadás pedig 5420 Ft. Lineáris regresszióval becsülve megállapították, hogy az a vevő, aki 1 perccel több időt töltött az áruházban, átlagosan 240 Ft-tal költött többet. A regressziófüggvénnyel becsült értékek és a tényleges vásárlási összegek eltéréseinek négyzetösszege: 112 878. A két ismérv kapcsolatának szorosságát vizsgálva megállapították, hogy a vásárlási idő 46,4%-os mértékben játszik meghatározó szerepet a napi átlagos vásárlási kiadásban. Feladat: a) Írjuk fel számszerűen a lineáris regressziófüggvényt! b) Számítsuk ki a regressziós becslés abszolút és relatív hibáját! c) Állapítsuk meg, hogy milyen szoros és milyen irányú a kapcsolat a két ismérv között!
153 Created by XMLmind XSL-FO Converter.
10. fejezet - Többváltozós korrelációés regressziószámítás A korábbi fejezetben a korrelációs összefüggést két mennyiségi ismérv között értelmeztük. A társadalmigazdasági élet jelenségei azonban sokkal összetettebbek, bonyolultabbak annál, mint amit két tényező összefüggése kifejez. Egy-egy jelenség változása általában több tényező változásával van összefüggésben. A gyakorlatban általában nem lehetséges egyetlen magyarázóváltozó segítségével leírni a vizsgált jelenség alakulását. A kétváltozós kapcsolat vizsgálatánál az Y-ra ható tényezők közül csak egyet, Xfeltételezve, hogy ennek hatása jelentős. A bérből és fizetésből élők havi bruttó átlagkeresetét jelentősen befolyásolja például iskolai végzettségük foka, de ezen kívül egyéb tényezők, pl. beosztás, gyakorlati idő stb. is alakítják. A lakások eladási ára és a lakások mérete közötti kapcsolat elemzésénél számszerűsíthetjük pl. a lakások életkorának hatását is. A gazdasági társaságok gazdálkodásának mutatóit vizsgálva is arra a következtetésre jutunk, hogy az eredmény alakulását több tényező befolyásolja, ilyenek például a nettó árbevétel, a hatékonyságot kifejező vagyonarány mutatója stb. Az eredményváltozóra ható tényezők körének kibővítésével többszörös vagy többváltozós sztochasztikuskapcsolathoz jutunk.
1. 10.1. A lineáris regressziófüggvény meghatározása A többváltozós regresszióanalízis segítségével több ismérv eredményváltozóra gyakorolt hatását vizsgáljuk. A kapcsolat az ismérvek száma szerint három-, négy-, öt- stb. változós, a függvény típusa szerint pedig lineáris és nemlineáris kapcsolat lehet. A többváltozós lineáris regressziós modellt a következőképpen írhatjuk fel:
A továbbiakban csak a háromváltozós lineáris kapcsolattal foglalkozunk, de az itt elmondottak akárhány változóra általánosíthatók.
1.1. 10.1.1. A háromváltozós lineáris regressziófüggvény Az előző fejezetben tárgyalt kétváltozós kapcsolathoz hasonlóan ebben az esetben is az a cél, hogy a mennyiségi ismérvek közötti összefüggések tendenciáját egy függvénnyel leírjuk. Ekkor lényegében az elméleti regressziófüggvényt közelítjük analitikus függvénnyel a megfigyelt minta alapján. Tegyük fel, hogy a sokaság N egyedből áll, és az egyedek ismérvértékeit a következő vektorok tartalmazzák:
Ez azt jelenti, hogy az i-edik egyed Y ismérvértéke pontjaihoz az módszerével. Ekkor az
ismérvértéke
és
ismérvértéke
A tér
egyenletű síkot illeszthetjük a legkisebb négyzetek
háromváltozós függvény minimumát kell keresni. Szélsőérték ott lehet, ahol a parciális deriváltak nullák.
154 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
Ebből a következő, ún. normálegyenlet-rendszert kapjuk:
Ez az egyenletrendszer az ismérvértékeket tartalmazó vektorok segítségével is felírható ( 1 az ún. összegzővektor, minden komponense 1):
Legyen
Ekkor az egyenletrendszer
Amennyiben az
mátrixnak létezik az inverze, akkor
Ezt leíró regressziónak is szokás nevezni. Ha a sokaság nem véges vagy nem ismert, akkor minta segítségével becsülhetjük a regressziós függvény együtthatóit. A legáltalánosabb esetben a véletlenszerűen kiválasztott egyedek mindhárom ismérvértéke valószínűségi változó. Gyakran fordul elő az az eset, hogy csupán az eredményváltozó függ a véletlentől, a magyarázóváltozókat pontosan ismerjük. Például említhetjük a következő kísérletet. Különböző parcellákon más-más műtrágya- és öntözővíz-mennyiség mellett mérjük a termésátlagot. Kíváncsiak vagyunk arra, hogy a műtrágya és az öntözővíz mennyisége hogyan befolyásolja a termésátlagot. Itt a magyarázóváltozók értékét pontosan ismerjük, de az eredményváltozó értékét más véletlen jelenségek is befolyásolhatják, így az valószínűségi változó. A következőkben ezzel az esettel foglalkozunk, vagyis amikor az Y eredményváltozó értéke valószínűségi változó, de a magyarázóváltozók értékei ismertek; ezt standard lineáris regressziónak nevezzük. Tegyük fel, hogy n elemű mintát veszünk, az egyes mintaelemek
illetve
ismérvértékei:
A megfelelő Y ismérvértékek (valószínűségi változók):
Ekkor
(
), vagy ami ugyanaz vektorok segítségével:
155 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
és
ahol
Itt nyilvánvalóan az ( ) is valószínűségi változók, amelyeket reziduumoknak nevezünk. A együtthatóvektort itt is azon feltétel határozza meg, hogy az
várható érték minimális legyen. A leíró regressziónál alkalmazott módszerrel az ottanival analóg eredményt kapunk. A
becslőértékre vonatkozó normálegyenlet:
Ha
inverze létezik, akkor a
becslőfüggvénye
Ekkor Itt jegyezzük meg, hogy ahhoz, hogy az X mátrix oszlopai függetlenek legyenek (ez az inverz létezésének szükséges feltétele), elengedhetetlen, hogy X-nek legalább annyi sora legyen, mint oszlopa, vagyis a minta elemeinek száma nagyobb legyen, mint a regressziós együtthatók száma. Amennyiben egy konkrét mintáról van szó, akkor alakúak:
A normálegyenletek megoldásával az paramétereit kapjuk.
(
(
), és a normálegyenletek a következő
) pontrendszerhez legjobban illeszkedő sík
A változók transzformálásával viszonylag egyszerű megoldási lehetőség adódik. Vezessünk be új változókat:
A zér
156 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás A második és harmadik normálegyenletre
adódik. Ebből
és
meghatározható.
A
Háromnál több változó esetében jól használható, praktikus egyszerűsítésre nincs lehetőség. Megfelelő számítástechnikai apparátus felhasználásával azonban a megoldás mátrixalgebrai műveletekkel lehetséges.
egyenletből a regressziófüggvény paramétereinek becslése az alábbi:
Az
Az együtthatómátrix elemei:
Az
vektor elemei pedig:
Számítástechnikai szempontból az inverz mátrix létezése lehet kétséges. A gyakorlati regressziószámítási feladatoknál azonban általában teljesül az a feltétel, hogy a normálegyenletek független egyenletrendszert alkotnak. Ezért az együtthatómátrix nem szinguláris, és így invertálható. Végezzük el a számításokat egy gyakorlati példán! A kétváltozós modellben szereplő változókat kibővítve 10 megfigyelésből vizsgáljuk meg a szállítás időtartama (y), a szállítási távolság ( ) és a szállítási tömeg ( ) közötti összefüggést! (Az adatok a 10.1. táblázatban találhatók.) A regressziós sík paramétereit határozzuk meg a transzformált változók alapján és mátrixalgebrai módszerrel egyaránt.
10.1. táblázat - A szállítási idő vizsgálatára vonatkozó adatok Szállítás Szállított távolsága (km) tömeg (tonna)
Sorszám
Szállítás időtartama (perc) y
1.
10
4
4
2.
13
4
5 157 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
3.
8
2
2
4.
20
10
5
5.
27
19
5
6.
35
20
7
7.
22
16
6
8.
40
20
7
9.
45
25
9
10.
50
30
10
Összesen :
270
150
60
1. A paraméterek meghatározása a transzformált változók alapján. A szükséges számításokat a 10.2. táblázat tartalmazza.
10.2. táblázat - Számítások a transzformált változók alapján Sorszám
y
1.
10
4
4
121 4
22
187
34
289
121 1
11
154
14
196
169 16 52
247
76
361
25
1
35
7
49
16
1
0
0
0
40
8
64
0
25
17 11 2 2.
13
4
5 14 11 1
3.
8
2
2 19 13 4
4.
5.
20 10
27 19
5
5
7
5
0
4
5
1
1 6.
35 20
7
7.
22 16
6
8
5
1
25
1
5
1
0
1
0
0
1
25
5 8.
40 20
7 13 5
1
5
65
13
169
9.
45 25
9 18 10 3 100 9
30
180
54
324
10.
50 30 10 23 15 4 225 16 60
345
92
529
Összes 27 150 60 0
0
0 828 50 186 1248 298 2006 158 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás en
0
A második és a harmadik normálegyenlet „maradványa”:
Megoldás a regressziós együtthatókra:
Az előbbiek felhasználásával:
A háromváltozós regressziófüggvény becslése:
2. A paraméterek mátrixalgebrai műveletekkel történő meghatározása:
159 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
A háromváltozós lineáris regressziófüggvény becslése:
(A 10.2. táblázat alapján számított paraméterektől való minimális eltérést az adatok különböző pontossága, azaz a kerekítés okozza.) A regressziófüggvény paramétereinek értelmezése
Először a konkrét mintából kapott regressziós együtthatók (
és
) értelmezésével foglalkozunk. Ha
értékét Y) becsült
értéke (y) éppen
egységgel változik. (A változás növekedés vagy csökkenés lehet
előjelétől függően.) Az az
eredményváltozó becsült értékében bekövetkező hatás. A regressziós együttható tehát kifejezi, hogy egy adott tényezőváltozó egységnyi növekedése mekkora növekedést (vagy csökkenést) okoz az eredményváltozó becsült értékében, miközben a másik tényezőváltozó értéke változatlan. A regressziós együtthatók tehát egy-egy tényezőváltozó részleges hatását mutatják, ezért ezeket parciális regressziós együtthatóknak nevezzük. Szokásos a mutató parciális jellegét a jelölésben is érzékeltetni. Például az eredményváltozóban csak
hatása mutatkozik meg,
így is írható:
ami arra utal, hogy
változatlan.
Példánkkal kapcsolatban a következőket állapíthatjuk meg. Amennyiben a szállítási távolság 1 km-rel hosszabb, a menetidő átlagosan 1,025 perccel hosszabb, azonos szállítási tömeg mellett ( ). A szállított tömeg hatása pedig abban nyilvánul meg, hogy azonos szállítási távolság mellett 2,148 perccel hosszabb átlagosan a menetidő, ha 1 tonnával nagyobb tömeget kell elszállítani ( ). A a konstans, az vett függvényérték, ha ott értelmezve van. Értelmezése példánkban logikailag nem indokolt.
helyen
A parciális regressziós együtthatóhoz hasonlóan parciális rugalmassági együttható is értelmezhető. Ez a mutató arra ad választ, hogy egy adott tényezőváltozó egységnyi relatív változása milyen relatív változást eredményez az y-ban a másik változó változatlan színvonala mellett. Általános képlete:
ahol
a j-edik tényezőváltozó. (Háromváltozós esetben
.)
Regressziófüggvényünkre alkalmazva:
160 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás Mint látható, a parciális rugalmassági együttható nagysága attól függ, hogy azt a tényezőváltozók milyen színvonala mellett számítjuk. Vizsgáljuk először az átlagos szintena rugalmasságot a példában!
szerinti rugalmasság (
):
Ez azt jelenti, hogy átlagos távolság és átlagos szállítandó tömeg esetén 1%-os szállításiút- növekedés 0,57%-os menetidő-növekedést eredményez. szerinti rugalmasság (
):
A fuvaronkénti átlagos tömeg 1%növeli a szállítási időt.
-kal
Számítsuk most ki a parciális rugalmasságot az
helyeken!
szerinti rugalmasság:
szerinti rugalmasság:
Ez utóbbiak jelentése: A szállítási távolság 25 km-ről történő 1%0,559%-kal növeli a menetidőt. A szállított tömeg 10 tonnáról való 1%-os növeli a szállítás idejét.
-kal
Felhívjuk a figyelmet arra, hogy lineáris esetben a rugalmasság mértéke a vizsgált helytől is függ. Az értelmezés minden esetben a rögzített hely környezetére érvényes. A paraméterek értelmezésével kapcsolatban fel kell hívnunk a figyelmet az ún. multikollinearitás veszélyére. mutatkozik. Multikollinearitásnak nevezzük a tényezőváltozók közötti lineáris kapcsolatot. Ha a tényezőváltozók között lineáris kapcsolat van, vagyis az mátrix valamely oszlopa felírható a többi lineáris kombinációjával, akkor inverze nem létezik. Ez komoly problémákat okozhat. Egyértelmű lineáris függőségre általában nem számíthatunk a független változók között, de a sztochasztikus összefüggés is zavarja az eredmények értelmezését és bizonytalanná teszi a becslést. A regressziós modell változói közötti összefüggések elemzéséhez a legtöbb információt a regressziós függvény és paraméterei jelentik. A regressziós együtthatók között kimutatható összefüggéseket szemlélteti háromváltozós esetre a 10.1. ábra.
161 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
10,1. ábra - A regressziós együtthatók közötti összefüggések
A 10.1. ábrán a nyilak irányában haladva vizsgálhatjuk a tényezőváltozók hatását az eredményváltozóra. A tényezőváltozót és az eredményváltozót közvetlenül összekötő nyíl a magyarázóváltozó közvetlen hatását fejezi ki, számszerű értékét a regressziófüggvényben az adott magyarázóváltozó együtthatója mutatja. Ezt a grafikus ábrát útdiagramnak is szokás nevezni. A háromváltozós modellben a magyarázóváltozók nemcsak az eredményváltozóval, hanem egymással is kapcsolatban lehetnek. Ezért egy-egy magyarázóváltozó hatása az Így például az X1 változó Y-ra gyakorolt hatása a következőképpen írható fel:
A teljes (totális) hatás e két hatás együttese. Az összefüggésből a tényezőváltozók közötti kapcsolatra is következtethetünk. Minél erősebb a magyarázóváltozók közötti kapcsolat, annál nagyobb a változók közvetett hatásának aránya. A direkt és az indirekt hatás kimutatásához meg kell határozni a kétváltozós lineáris regressziófüggvényeket is. Mutassuk be a változók közötti direkt és indirekt hatást az előző példa adatai alapján! Készítsük el az útdiagramot is! (10.2. ábra.)
10,2. ábra - Útdiagram
162 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
A változókat páronként vizsgálva a kétváltozós lineáris regressziófüggényeket a 9.2. pontban tanultak szerint határozhatjuk meg. A részletes számítást nem közöljük. A kapott eredmények a következők: A kétváltozós lineáris regressziófüggvények:
Az előzőekben meghatározott háromváltozós lineáris regressziófüggvény:
A kétváltozós és a háromváltozós regressziós együtthatók összefüggései:
Az összefüggésekből látható, hogy a direkt és az indirekt hatásoknak egyaránt szerepe van. A magyarázóváltozók között pozitív irányú a kapcsolat. Ez azt jelenti, hogy a nagyobb súlyú rakományt általában hosszabb távolságra szállítják.
1.2. 10.1.2. A legkisebb négyzetek módszere és tulajdonságai Az előzőekben csak a háromváltozós, lineáris regressziós modellel foglalkoztunk, ahol a paraméterek becslésére a már ismert legkisebb négyzetek módszerét alkalmaztuk.
163 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás Mint már említettük, eredményeink könnyen általánosíthatók arra az esetre, amikor két magyarázóváltozó helyett több van. Ezek számát jelölje m. Ekkor az mátrix a következő alakú:
Említettük azt is, hogy esetén számíthatunk csak arra, hogy becslőfüggvényeink teljesen azonosak a háromváltozós esetben megismertekkel:
illetve
inverze létezik. Ekkor
.
Ekkor
(
).
Azt a feltevést, hogy csak az eredményváltozó valószínűségi változó, a magyarázóváltozók meghatározottak (determinisztikusak), továbbra is fenntartjuk, és továbbiakkal egészítjük ki: a) legyen minden ). b)
szórása ugyanakkora,
, ha
Ha azaz
). Ez azt is jelenti, hogy
jelölje azt az
A
mátrixot az
ahol
az egységmátrix. (Felhasználtuk, hogy
mátrixot, amelynek i-edik sorában a j-edik elem
valószínűségi változó kovarianciamátrixának nevezzük. Feltevésünk azt jelenti, hogy
.)
eloszlásáról nem tételeztünk fel semmit.
Be lehet látni, hogy ezen feltevés mellett
vagyis a
a
(
.
akkor
Hangsúlyozzuk, hogy
(
torzítatlan becslése, és
164 Created by XMLmind XSL-FO Converter.
,
Többváltozós korreláció- és regressziószámítás ahol valószínűségi vektorváltozó bizonyítását nem részletezzük.)
típusú kovarianciamátrixa. (Ezen állítások
Az előző összefüggésben szereplő értékét általában nem ismerjük, ezért a konkrét mintából számított reziduumok felhasználásával a következő formula szerint becsüljük:
ahol n: a megfigyelések száma, m: a tényezőváltozók száma, így (
a szabadságfok, );
.
A legkisebb négyzetek módszerével kapott regressziós együtthatók a sokasági paraméterek legjobb lineáris torzítatlan becslései. Ez azt jelenti, hogy a lineáris becslések közül a legkisebb négyzetek módszere esetében a legkisebb a paraméterbecslések szórása, vagyis a standard hiba. Egy becslés során a standard hiba nagysága is fontos információt jelent a becslési eredmények megítélése szempontjából. Számítsuk ki a vizsgált példánkban meghatározott regressziófüggvény paramétereinek standard hibáját! Ehhez első lépésben az eredményváltozó megfigyelt értékeinek és becsült értékeinek eltéréseit, vagyis a maradéktagokat (reziduumokat), majd azok négyzetösszegét kell kiszámítani. A számításokat a 10.3. táblázatban találjuk.
10.3. táblázat - A maradéktag négyzetösszegének kiszámítása Sorszá m
y
1.
10
11,429
2,042041
2.
13
13,577
0,332929
3.
8
5,083
2,917
8,508889
4.
20
19,727
0,273
0,074529
5.
27
28,952
6.
35
34,273
7.
22
28,025
8.
40
34,273
5,727
32,798529
9.
45
43,694
1,306
1,705636
10.
50
50,967
Összes en:
270
270,000
3,810304 0,727
0,528529 36,300625
0,935089 0,000
87,037100
A maradéktag szórásnégyzete:
165 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
Az együtthatók kovarianciamátrixa:
A paraméterek varianciái (standardhiba-négyzetei) és szórásai (standard hibái)
A becsült paraméterek standard hibái a mintavételből származó átlagos véletlen hiba nagyságát mutatják.
1.3. 10.1.3. A regressziófüggvény paramétereinek intervallumbecslése Most az előbbiek mellett még azt is tegyük fel, hogy eloszlása Levezethető, hogy ekkor ( ) is normális eloszlású, mivel normális eloszlású valószínűségi változók lineáris kombinációja, és
, ahol
az
mátrix főátlójának i-edik eleme, amint azt az előző pontban
láttuk. Ez azt jelenti, hogy a
valószínűségi változó standard normális eloszlású. De
nem ismert,
kell becsülni, ez azt jelenti, hogy
szabadságfokú t-eloszlást alkot. Ennek alapján az intervallumbecslés is elvégezhető. Ehhez első lépésben előírjuk a becslés megbízhatósági szintjét, majd a t-eloszlás segítségével meghatározzuk a maximális hibát, ezt követően pedig kijelöljük a konfidenciaintervallumot. Az i-edik változóhoz tartozó csak konkrét mintára írjuk fel):
paraméterre a következő valószínűségi megállapítást tehetjük (a formulákat
166 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
Az elméleti paraméter konfidenciaintervalluma
valószínűségi szinten:
A becslésnél tanultak természetesen itt is alkalmazandók, azaz nagy minta esetén a t-eloszlás helyett a standard normális eloszlás használható. Ebben az esetben a konfidenciaintervallum számítása az alábbi formában történik:
Példánk adataiból végezzük el a paraméterek becslését 95%-os megbízhatósági szinten! Gyűjtsük össze a korábbi részeredményeket (10.4. táblázat)!
10.4. táblázat - Az eddigi részeredmények Paraméterek
A paraméterek becsült értéke
A paraméterek standard hibája
A konfidenciaintervallum meghatározásához szükséges t értéket minta elemszáma, m pedig a magyarázóváltozók száma.) Így
szabadságfoknál keressük ki. (n a .
A konfidenciaintervallumok 95%-os megbízhatósági szinten a következők:
1.4. 10.1.4. A regressziófüggvény eredményeinek ellenőrzése A regressziós modell specifikálása a függvény típusának és a paramétereknek a meghatározását jelenti. Az első probléma tehát a függvénytípus kiválasztása. Számunkra többváltozós esetben most ez a kérdés nem vetődik fel, mert azt mondtuk, hogy csak a lineáris függvénytípussal foglalkozunk. A gyakorlatban azonban ebben a szakaszban feltétlenül figyelembe kell venni az adott terület szakértőjének véleményét is. A következőkben azt vizsgáljuk, hogy a modellképzésnél szóba jöhető magyarázóváltozók valóban szignifikáns kapcsolatban vannak-e az eredményváltozóval. Ehhez el kell végezni a paraméterek hipotézis-ellenőrzését. A tényezőváltozók paramétereinek teszteléséhez ismerni kell a regressziós együtthatók eloszlását. Ha az eredményváltozó (Y) normális eloszlást követ, akkor, mint már említettük, a b regressziós együtthatók is normális eloszlást követnek, mivel a b lineáris kombinációja az Y értékeinek. A minta nagyságának növelésével a b eléggé általános feltételek mellett akkor is normális eloszlású lesz, ha az 167 Created by XMLmind XSL-FO Converter.
változó nem követ normális
Többváltozós korreláció- és regressziószámítás eloszlást. Ezt a központi határeloszlás tétele alapján állíthatjuk, melyet matematikai tanulmányainkból jól ismerhetünk. A maradéktag szórásnégyzetét ( ) nem ismerjük, közelítő értékét mintából becsültük. A becslőformula nevezőjében ezért nem a mintanagyságot, hanem a becsült paraméterek számával csökkentett mintanagyságot szerepeltetjük, amit szabadságfoknak nevezünk. A maradéktag szórásának torzítatlan becslése így biztosítható. Mivel a számításokhoz szükséges reziduális szórásnégyzetet a mintából becsüljük, bizonyítható, hogy a b paraméterek nem normális, hanem Student t-eloszlást követnek. (Lásd 10.3. pont.) Ily módon t-próbával ellenőrizhető, hogy egy-egy tényezőváltozó szignifikáns kapcsolatban van-e az eredményváltozóval. Általános formában az i-edik tényezőváltozó ellenőrzésére szolgáló nullhipotézis a következőképpen írható fel:
A kétoldalú ellenhipotézis pedig:
A paraméterek tesztelésére a t-próbafüggvényt használjuk. A próbafüggvény:
Konkrét minta esetén pedig:
Mivel kétoldalú próbát végzünk, a próba szabadságfoka az intervallumbecsléshez hasonlóan:
.
Az ellenőrzés során meghatározzuk a próbafüggvény számított értékét és azt az adott szabadságfokhoz és választott szignifikanciaszinthez tartozó kritikus értékkel hasonlítjuk össze. Ha a próbafüggvény számított értékének abszolút értéke kisebb, mint a kritikus érték, a vizsgált feltevések közül a nullhipotézist ( ) fogadjuk el. Ezt azt jelenti, hogy az i-edik magyarázóváltozó nincs szignifikáns kapcsolatban az eredményváltozóval, ezért célszerű kihagyni a modellből. Abban az esetben, ha a próbafüggvény számított értéke abszolút értékben nagyobb, mint a kritikus érték, akkor a nullhipotézist (melyben a kapcsolat tagadását fogalmaztuk meg) elvetjük, és a el. Ez azt jelenti, hogy a vizsgált tényezőváltozó ( szignifikanciaszinten valós kapcsolat mutatkozik.
alternatív hipotézist fogadjuk
) és az eredményváltozó (Y) között a vizsgált
Vizsgáljuk meg a példánk adataiból meghatározott regressziófüggvény paramétereinek szignifikanciáját! A szignifikanciaszintet válasszuk a szokásos 5%-nak! A legtöbb korreláció-regressziószámításra készült szoftver már közli az ellenőrzéshez szükséges részeredményeket. Az elrendezés általában a 10.5. táblázatban bemutatott módon történik.
10.5. táblázat - A regressziófüggvény paramétereinek ellenőrzéséhez szükséges részeredmények Magyarázóváltoz ó
A becsült paraméter értéke
A becsült paraméter standard hibája
t érték
168 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
1,025
0,30229
3,39078
2,148
1,230089
1,746
A próbafüggvény kritikus értéke
. Ezt a
értékkel összehasonlítva a
hipotézist pedig elfogadjuk. Ez azt jelenti, hogy a
a
szignifikánsnak bizonyul, a
hipotézist elvetjük;
parciális regressziós együttható
viszont nem.
Ez utóbbi azt jelenti, hogy a szállítási idő és a szállított tömeg között nem mutatható ki szignifikáns összefüggés. A gyakorlati felhasználás során ilyenkor meg kell kísérelnünk a változó elhagyását vagy esetleges transzformációját, vagy másik magyarázóváltozó bevonását. Az új változó ellenőrzését természetesen szintén el kell végezni. A feladat ez irányú folytatására most nem térünk ki. Vizsgáljuk meg a paramétereket -os szignifikanciaszinten. A kritikus t érték ebben az esetben 1,90. Itt még elfogadjuk ugyan a nullhipotézist, de lényegesen kisebb az eltérés a számított t érték és a kritikus t érték között. paraméter.
-nál a t kritikus értéke 1,42. Ezen a szignifikanciaszinten már szignifikánsnak mutatkozik a
1.5. 10.1.5. A varianciaanalízis alkalmazása a többváltozós regressziószámításban Az előző fejezetben bemutattuk kétváltozós esetben a szórásnégyzet-felbontás egy speciális alkalmazási területét. Az eredményváltozó varianciáját a regressziós modell és a hibatényező hozzájárulására bontottuk. A többváltozós regressziós modell feltételei segítségével bizonyítható, hogy többváltozós esetben is felírható az eltérés-négyzetösszegek között a következő összefüggés:
Ezt az összefüggést felhasználhatjuk további mutatószámok számítására is, de a varianciaanalízis végrehajtásával a regressziós függvény ellenőrzése is elvégezhető. A következő hipotéziseket vizsgáljuk:
A nullhipotézisben azt fogalmaztuk meg, hogy mindegyik parciális regressziós együttható értéke nulla. Tehát a regresszió tagadásából indulunk ki. Az alternatív hipotézis azt jelenti, hogy a modellben van szignifikáns paraméter. A varianciaanalízis-táblát a 10.6. táblázatban látjuk.
10.6. táblázat - A varianciaanalízis-tábla többváltozós regressziószámítás esetén A szórásnégyzet forrása Regresszió
Eltérésnégyzetösszeg
Szabadságf ok
Átlagos négyzetösszeg
m
169 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
Hibatényező
Teljes A kétváltozós regressziónál megismert összefüggéshez képest a szabadságfoknál található eltérés, mert figyelembe kell venni a tényezőváltozók számát is, ami jelen esetben m. A próbafüggvény számított értéke konkrét minta esetén:
A számláló szabadságfoka:
, a nevező szabadságfoka pedig:
.
Az F próbafüggvény lényegében azt vizsgálja, hogy az Y eredményváltozó szórásnégyzetéből szignifikánsan nagy hányadot magyaráz-e meg a regressziófüggvény. A próba végrehajtása úgy történik, hogy a számított F értéket összehasonlítjuk a választott szignifikanciaszinthez tartozó kritikus F értékkel. Ha a számított érték nem haladja meg a kritikus értéket, akkor a nullhipotézist elfogadjuk, ami azt jelenti, hogy elfogadjuk a regresszió tagadását, vagyis az adott szignifikanciaszinten nem áll fenn a lineáris regresszió. Ellenkező esetben a nullhipotézist elutasítjuk, és az alternatív hipotézist fogadjuk el. A nullhipotézis elfogadása nem jelenti szükségképpen a rossz specifikációt. Előfordulhat, hogy a változókat – vagy csak valamelyik változót – választottuk ki helytelenül, vagy a függvény típusa nem lineáris. Mindenesetre a modellalkotást ilyenkor felül kell vizsgálni. Ellenőrizzük 5%-os szignifikanciaszinten a korábban meghatározott regressziófüggvényünket! Az kiszámításához szükséges adatokat a 10.7. táblázatban adjuk meg.
10.7. táblázat - A varianciaanalízis-tábla A szórásnégyzet forrása
EltérésÁtlagos Szabadságfok négyzetösszeg négyzetösszeg
Regresszió
1919
2
959,5
Hibatényező
87
7
12,4
Teljes
2006
9
Az F-próba a következő:
A kritikus érték 5%-os szignifikanciaszinten:
170 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás A próbafüggvény számított értéke nagyobb, mint a kritikus érték. Ebből arra a következtetésre juthatunk, hogy a szállítási út hossza és a szállított tömeg együttesen szignifikáns kapcsolatban vannak a szállítás menetidejével (azaz a függvény 5%-os szignifikanciaszinten elfogadható). Megjegyezzük, hogy a többváltozós modellben is kiszámíthatjuk a determinációs együtthatót. Az eltérésnégyzetösszegek hányadosaként határozható meg, és ebben az esetben többszörös determinációs együtthatónak nevezzük:
A többszörös determinációs együttható 0 és 1 között vehet fel értékeket. Továbbá kifejezi, hogy a modellben lévő magyarázóváltozók mennyiben magyarázzák meg az eredményváltozó szóródását. Példánkban:
A menetidő szóródását az út hossza és a szállított tömeg együttesen 95,7%-ban befolyásolja. (Erre a mutatószámra a 10.2. pontban még visszatérünk.)
2. 10.2. Többváltozós korrelációszámítás A többváltozós korrelációszámítás célja a többváltozós korreláció szorosságának mérése. A regressziószámítással szemben a korreláció szorosságának vizsgálatakor minden változót valószínűségi változónak tekintünk. Vagyis kizárjuk az olyan kontrollált kísérletek eredményeként kapott magyarázóváltozókat, amelyekkel a többi befolyásoló tényező értékét rögzíteni tudjuk, és így hatásukat a vizsgálat során ellenőrzésünk alatt tartjuk. Az eredményváltozót ennek ellenére megkülönböztetjük a tényezőváltozóktól. Ezt azonban csak amiatt tesszük, hogy jelölésrendszerünk összhangban legyen a regressziószámításnál tanultakkal. A kapcsolat szorosságának vizsgálata önmagában a megkülönböztetést nem tenné szükségessé. Kettőnél több változó esetén a korreláció szorosságáról háromféle értelemben beszélhetünk. A kapcsolat szorossága vizsgálható páronként, továbbá páronként, de a többi változó hatásának kiszűrésével. Végül pedig az eredményváltozó és az összes tényezőváltozó közötti szorosság is mérhető.
2.1. 10.2.1. Páronkénti korrelációs együttható A páronkénti korrelációs együtthatóval csak két-két változó közötti kapcsolat szorosságát mérjük, a többváltozós kapcsolatot kétváltozós kapcsolatra redukáljuk és az eddig megismert lineáris korrelációs együtthatókat számítjuk. A mutatószám meghatározásakor eltekintünk a többi tényezőváltozótól, ezért kiszámítási módja megegyezik a kétváltozós kapcsolatnál megismert formulával. Ezeket az együtthatókat totális korrelációs együtthatóknak is szokták nevezni. A többváltozós lineáris modellben az Rkorrelációs mátrixba rendezzük a lineáris korrelációs együtthatókat. (A jelöléseket és a képleteket ebben a részben ismét csak a konkrét mintára vonatkozóan közöljük, egyszerűsítve ezzel a problémát.) A korrelációs mátrix a páronkénti korrelációs együtthatókat tartalmazza. Egy ( korrelációs mátrix a következő:
)-változós modell esetén a
Vegyük észre, hogy a korrelációs mátrix szimmetrikus mátrix. A mátrix fődiagonálisában szereplő korrelációs együtthatók értéke 1. Ez a kétváltozós lineáris korrelációs együtthatók képzési módjából adódik, hiszen egy-egy
171 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás változó önmagával való kapcsolatát méri. Könnyen belátható, hogy minden változó tökéletesen korrelált önmagával. A mátrix első sora és első oszlopa az eredményváltozó és az egyes tényezőváltozók közötti kapcsolat szorosságát mérő lineáris korrelációs együtthatókat tartalmazza, a mátrix többi eleme pedig a tényezőváltozók egymás közötti korrelációját méri. A korrelációs mátrix nagy segítséget nyújt a regressziós modell megalkotásához. Az elemzés kezdeti szakaszában módot ad a megfelelő tényezőváltozók kiválasztásához. Gyakran előfordul, hogy a korrelációs mátrix mellett a változók páronkénti kovariancia-mérőszámait tartalmazó, variancia-kovariancia mátrixra is szükségünk van. A mátrix általános formája a következő:
az eredményváltozó és a j-edik magyarázóváltozó;
ahol
pedig az i-edik és a j-edik magyarázóváltozó kovarianciája. A mátrix diagonális elemei pedig a regressziós modellben szereplő változók szórásnégyzetei. A korrelációs mátrix és a variancia-kovariancia mátrix között a következő összefüggés áll fenn:
A modellben szereplő S a változók szórásaiból álló diagonális mátrix:
következő lineáris korrelációs együtthatók számíthatók: a) Y és
között:
b) Y és
között:
c)
és
között:
172 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás Számítsuk ki az előző, 10.1. pontban tárgyalt példa adataiból a szállítási idő (Y), a távolság ( tömeg (
) és a szállított
) közötti páronkénti korrelációs együtthatókat, és írjuk fel a korrelációs mátrixot!
Eredményeink azt mutatják, hogy szoros pozitív irányú kapcsolat van a menetidő (Y) és a távolság (
),
valamint szintén pozitív irányú, valamivel lazább kapcsolat mutatkozik a menetidő (Y) és a rakomány súlya ( ) között. A tényezőváltozók között is erős a sztochasztikus kapcsolat. A variancia-kovariancia mátrix pedig:
Nézzünk egy másik példát! Egy ingatlanközvetítő iroda adatai alapján 1996 októberében 20 budapesti öröklakás eladási ára (millió Ft), életkora (év) és területe ( ) a következő volt. (Az adatokat a 10.8. táblázatban találjuk.)
10.8. táblázat - A 20 elemű minta adatai Sorszá m
Eladási ár (M Terület ( Ft) y )
Életkor (év)
1.
2,45
48
2
2.
4,10
55
2
3.
2,15
71
3
4.
4,20
82
0
5.
4,50
100
3
6.
6,00
85
1
7.
3,00
70
8
8.
2,76
73
9
9.
2,70
74
10
10.
2,45
66
7 173 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
11.
1,20
35
47
12.
2,10
53
18
13.
2,40
73
18
14.
1,25
39
63
15.
2,00
67
23
16.
1,40
48
64
17.
1,70
51
31
18.
3,40
61
5
19.
1,55
53
40
20.
1,45
54
78
Ismeretesek az alábbi számítási eredmények is:
A páronkénti korrelációs együtthatók a következőképpen számíthatók:
A totális korrelációs együtthatók azt mutatják, hogy az eladási ár és a terület között közepesnél szorosabb pozitív irányú kapcsolat van. Az eladási ár és az életkor között pedig szintén közepesnél szorosabb, de negatív irányú a kapcsolat. A két tényezőváltozó között közepes erősségű negatív irányú kapcsolat mutatkozik.
2.2. 10.2.2. Parciális korrelációs együttható A parciális korrelációs együttható annyiban különbözik a páronkénti együtthatótól, hogy számításánál a többi változótól nem tekintünk el, de hatásukat kiküszöböljük. Az így kapott parciális korrelációs együttható azt mutatja meg, hogy milyen szoros a kapcsolat valamelyik kiválasztott tényezőváltozó és a függő változó között, ha a többi tényezőváltozó hatását mind a vizsgált tényezőváltozóból, mind az eredményváltozóból kiszűrjük.
174 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás a) Az Y és
közötti kapcsolat szorossága, ha
hatását kiszűrjük:
b) Az Y és
közötti kapcsolat szorossága, ha
hatását kiszűrjük:
c) A két tényezőváltozó közötti parciális korrelációs együttható:
Ügyeljünk a jelölésekre is! A parciális korrelációs együttható alsó indexében megjelöljük, hogy mely változók kapcsolatát vizsgáljuk, majd a pont után írjuk azt a változót, amelyiknek hatását a kapcsolat vizsgálata során kiszűrjük. (Hasonlóan, mint a parciális regressziós együtthatónál.) Az ingatlanközvetítő iroda adataiból:
A parciális korrelációs együtthatók lényegesen eltérnek a páronkénti korrelációs együtthatóktól. Az eladási ár és a lakásméret között lényegesen lazább kapcsolat mutatkozik, ha kiszűrjük mindkét változóból a lakások életkorának hatását. Hasonlóan lazább a kapcsolat az eladási ár és az életkor között is, ha megtisztítjuk az összefüggést a lakásméret hatásától. Lényegesen eltér a tényezőváltozók között kapcsolatot mérő korrelációs együttható a totális mérőszámtól, az
parciális
-től.
Korábbi példánkban:
Az parciális korrelációs együttható azt mutatja meg, hogy azonos szállított tömeg mellett a szállítási idő és a szállítási út hossza között közepesnél erősebb pozitív irányú kapcsolat van. A másik két parciális korrelációs együttható is hasonlóképpen értelmezhető. Vegyük észre, hogy a parciális korrelációs együtthatók lényegesen lazább kapcsolatot mutatnak, mint a páronkénti korrelációs együtthatók. Ez azt jelenti, hogy ha kiszűrjük két
175 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás változóból a harmadik változó hatását, gyengébb kapcsolat mutatkozik közöttük. A páronkénti kapcsolatot tehát a harmadik változó hatása mindegyik esetben felerősítette.
2.3. 10.2.3. Többszörös korrelációs és determinációs együttható A páronkénti korrelációs együtthatókra és a parciális korrelációs együtthatókra egyaránt az jellemző, hogy két változó között mérik a kapcsolatot. A többváltozós lineáris modellnél azonban arra a kérdésre is válaszolni kell, hogy milyen szoros a kapcsolat az eredményváltozó (Y) és a modellbe bevont tényezőváltozók ( ) összessége között. Ezt a kapcsolatot a többszörös korrelációs együttható méri. Másképpen fogalmazva azt is mondhatjuk, hogy a többszörös korrelációs együttható megmutatja, hogy milyen szorosan illeszkedik a regressziófüggvény az eredményváltozó (Y) megfigyelt értékeihez. A többszörös korrelációs együttható olyan speciális kétváltozós korrelációs együttható, amely az Y eredményváltozó és az Képlete:
magyarázóváltozók alapján becsült
kapcsolatának szorosságát méri.
(Jelölés: az alsó indexben először az eredményváltozót jelöljük, majd egy pont után felsoroljuk a regressziófüggvényben szereplő magyarázóváltozókat.) A háromváltozós modellben a többszörös korrelációs együtthatót a páronkénti korrelációs együtthatók felhasználásával is kiszámíthatjuk:
A többszörös korrelációs együttható előjelét mindig pozitívnak tekintjük. A többszörös korrelációs együttható négyzetét többszörös determinációs együtthatónak nevezzük. Ezt a mutatószámot már ismerjük a 10.1.5. pontból, ahol a regresszióból származtattuk, és a varianciaanalízis segítségével definiáltuk. Ezzel a mutatószámmal azt mérjük, hogy a független változók együttesen milyen erősséggel határozzák meg az Y változó ingadozását. Másképpen fogalmazva az együttható arra ad választ, hogy a függő változó teljes szórásnégyzetéből mekkora a regressziónak tulajdonítható, tehát a tényezőváltozókkal megmagyarázható hányad. A 10.8. táblázatban megadott adatokból kiszámított többszörös korrelációs és determinációs együttható:
Az eladási ár, a lakásméret és az életkor között szoros kapcsolat mutatkozik.
Az eladási ár szórásnégyzetének 64,1%-át a lakásméret és az életkor határozza meg. A 10.1. pontban tárgyalt példa eredményeiből számított többszörös korrelációs és determinációs együttható pedig:
A szállítási idő, a szállítási út és a szállított tömeg között a többszörös korrelációs együttható szoros kapcsolatot mutat.
176 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás A többszörös determinációs együttható:
A szállítási idő varianciájának 95,7%-át a szállítási út hossza és a szállított tömeg nagysága magyarázza. A variancia fennmaradt hányadát ( ) egyéb, a modellben nem szereplő tényezők okozzák.
2.4. 10.2.4. A multikollinearitás és mérése A matematikai-statisztikai módszerek alkalmazására széles körben nyílik lehetőség a gyakorlatban. A módszerek felhasználása azonban csak akkor lehet hatékony, ha az elméletileg megalapozott, vagyis, ha fennállnak az alkalmazás feltételei. A többváltozós lineáris regressziós modellnél abból a feltételezésből indultunk ki, hogy a tényezőváltozók lineárisan függetlenek egymástól. Ennek az alapvető feltételnek az a magyarázata, hogy a legkisebb négyzetek elve alapján becsült regressziós együtthatók ( ) meghatározásához szükség van az mátrix inverzére. Mint ismeretes, az mátrix rangja azaz megegyezik a változók számával. Amennyiben az X mátrix rangja kisebb, mint a regressziófüggvény együtthatói nem becsülhetők. Ez az eset akkor fordul elő, ha a tényezőváltozók egyike kifejezhető a többi tényezőváltozó lineáris kombinációjaként, vagyis a tényezőváltozók között függvényszerű kapcsolat áll fenn. Ezt teljes multikollinearitásnak nevezzük. Felismerése viszonylag könnyű, és a problémát valamelyik változó elhagyásával meg tudjuk oldani. A társadalmi, gazdasági jelenségek vizsgálatánál gyakoribb a tényezőváltozók közötti sztochasztikus kapcsolat. Szinte elképzelhetetlen, hogy a tényezőváltozók között ne jelentkezzen multikollinearitás. A regressziófüggvény együtthatói ekkor is meghatározhatók és értelmezhetők is, de a multikollinearitás csökkenti becsléseink értékét, bizonytalanságot okozva bennük. A vizsgálat céljától függ, hogy a becslés bizonytalansága mennyiben jelent problémát. Abban az esetben, ha az eredményváltozó nagyságának a tényezőváltozók adott színvonala melletti becslése, előrejelzése a cél, pl. egy adott termék iránti kereslet színvonalát kívánjuk megbecsülni, a modellt alkalmazhatjuk akkor is, ha jelentős multikollinearitás mutatkozik a tényezőváltozók között. Más a helyzet azonban, ha gazdasági elemzésre, a hatótényezők kimutatására szolgáló regressziós modellről van szó. Ebben az esetben a parciális regressziós együtthatók jelentik a legfontosabb információt, tehát a multikollinearitás jelenléte káros. Ebből következik, hogy a tényezőváltozók kölcsönös függőségének mértékét és hatását ellenőriznünk kell. A multikollinearitás mérésére többféle eljárás ismert. Tananyagunkban csak a következő módszert mutatjuk be. A mérés logikai menetének megértéséhez gondoljuk végig a következőket. Ha egy-egy új tényezőváltozót bekapcsolunk a vizsgálatba, akkor a többszörös determinációs együttható vagy nagyobb lesz, vagy egyáltalán nem változik a nagysága. A modellben szereplő minden változóra kiszámíthatjuk, hogy mennyivel növeli a többszörös determinációs együtthatót, ha a változót utolsóként vonjuk be. Ekkor lényegében azt vizsgáljuk, hogy az utoljára bevont változónk növeli-e az eredményváltozó varianciájának a függvény által megmagyarázott részét. Ha ezeket a változónkénti hatásokat összeadjuk, és a kapott összeg egyenlő a többszörös determinációs együtthatóval, akkor a multikollinearitást nullának tekintjük. Ebben az esetben ugyanis a többszörös determinációs együtthatót fel tudjuk bontani a változónkénti hatások összegére. A gyakorlatban ilyen eset ritkán fordul elő. Általában azzal az esettel találkozunk, hogy a többszörös determinációs együtthatónak van egy olyan hányada, amit a tényezőváltozók együttesen magyaráznak meg. A multikollinearitás mérésére ezért a többszörös determinációs együttható és a tényezőváltozók által megmagyarázott rész különbségét célszerű használni. A mérőszám három változó esetén a következő:
ahol
a magyarázóváltozók számát jelöli.
Minél nagyobb az M értéke, annál inkább számolni kell a multikollinearitásból adódó veszélyekkel.
177 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás Számítsuk ki a multikollinearitás mérőszámát a példában meghatározott páronkénti korrelációs együtthatókból és a többszörös determinációs együtthatóból! (Alapadatok a 10.8. táblában.) Az M mérőszám az alábbi:
A többszörös determinációs együttható felbontását a 10.9. táblázatban adjuk meg.
10.9. táblázat - Az
felbontása A változók
Változók
hozzájárulása az -hez 0,08900 0,13590 0,41605
Összesen
0,64095
Számottevő a multikollinearitás, mert a kapcsolat jelentős részét az emellett jelentős az együtthatóra.
és az
és az
együttes hatása teszi ki, de
változók külön-külön vizsgált hatása is a többszörös determinációs
Vizsgáljuk meg ezek után az egész fejezeten végigvonuló, szállítási idő, távolság és szállítási tömeg közötti kapcsolatot bemutató példában a multikollinearitást.
A többszörös determinációs együttható felbontását a 10.10. táblázatban adjuk meg.
10.10. táblázat - Az
felbontása A változók
Változók
hozzájárulása az -hez 0,0190 0,0715 0,8663
Összesen
0,9568
178 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás Ennél a feladatnál nagymértékű multikollinearitással találkozunk. Szinte a teljes hatás a tényezőváltozók együttes hatásaként érvényesül az eredményváltozóra. Amennyiben előrejelzés a célunk, vagyis a szállítási időt kívánjuk megbecsülni a távolság és a szállított tömeg meghatározott színvonala mellett, némi fenntartással ugyan, de alkalmazható a modell. A változók közötti összefüggések részletes elemzéséhez azonban célszerű lenne vagy a szállítási távolság ( modellbe.
), vagy a szállított tömeg (
) helyett másik magyarázóváltozót beépíteni a
Nézzünk még egy másik példát is a multikollinearitás vizsgálatára! 30 véletlenszerűen kiválasztott mezőgazdasági üzem 1992. évi adatai alapján megvizsgáltuk az alábbi változók kapcsolatát: Y: a kukorica termésátlaga (q/ha), a műtrágya-felhasználás (kg/ha), az öntözésre felhasznált víz mennyisége (
/ha).
A számítások során a következő részeredmények adódtak:
A parciális korrelációs együtthatók a következők:
A többszörös determinációs együttható:
A multikollinearitás mérőszáma:
Ennél a feladatnál már jóval kisebb multikollinearitás mutatkozik. Ezt vélelmezhetjük a páronkénti és a parciális korrelációs együtthatók közötti viszonylag kis mértékű eltérésből is, de a multikollinearitás mérőszáma is erről tanúskodik. Megjegyezzük, hogy a gyakorlati tapasztalatok alapján a multikollinearitást akkor szokásos káros mértékűnek tekinteni, ha létezik a korrelációs mátrixnak a tényezőváltozókra vonatkozó részében a többszörös korrelációs együtthatónál nagyobb abszolút értékű elem. Természetesen léteznek ennél jóval egzaktabb módszerek is a multikollinearitás mérésére, a probléma kezelésére. A statisztikai módszertan számos eljárást ismer multikollinearitást tartalmazó regressziós modellek paramétereinek becslésére, ilyen például a faktoranalízis.
3. 10.3. Néhány kiegészítés a regressziószámításhoz 179 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás A regressziós modellképzés elsődleges és egyben leglényegesebb feladata a modell specifikálása. A vizsgált tényezőt leginkább meghatározó változók kiválasztása és beépítése a modellbe nem könnyű feladat. Ha például a közalkalmazotti réteg átlagjövedelmét befolyásoló tényezőket kívánjuk számba venni, feltehetően fontos változó lesz a közalkalmazotti munkaviszony hossza, az életkor, az iskolai végzettség, a beosztás stb. Az utóbbiak azonban minőségi ismérvek. Kérdés, hogyan tudjuk megoldani, hogy minőségi ismérvek is szerepelhessenek a regressziós modellben.
3.1. 10.3.1. Minőségi ismérvek kezelése a regressziós modellben A regressziószámítás alapvetően a mennyiségi ismérvek közötti összefüggések elemzésének eszköztára. Az eredményváltozót illetően ezt a kikötést továbbra is megtartjuk. A magyarázóváltozók között azonban gyakran találkozunk minőségi vagy területi ismérvekkel is. Ebben az esetben az ismérveket alternatív ismérvekké alakítjuk, és mesterséges változók segítségével illesztjük be a modellbe. A mesterséges változók ily módon 1 és 0 értéket tartalmazó változók. A minőségi vagy területi ismérveket eggyel kevesebb változóval tudjuk bevinni a modellbe, mint ahány változata van az ismérvnek. Alternatív ismérveknél, ha a minőségi ismérv csupán két változattal rendelkezik (pl. férfi, nő), akkor elegendő egy mesterséges változót bevezetni (pl. férfi =1, nő =0). Három változattal rendelkező ismérvnél két mesterséges változó elegendő stb. Nézzük meg általánosságban, hogyan történhet a minőségi ismérvek kezelése a regressziós modellben. Vizsgáljuk a bruttó átlagkeresetnek az életkorral, a nem szerinti hovatartozással és a beosztással való összefüggését! Képezzük ennek érdekében a következő modellt:
ahol a változók az alábbiak: Y: a havi átlagos bruttó kereset (Ft), X: életkor (év), , ha a megfigyelés férfira vonatkozik,
N: Nem
, ha a megfigyelés nőre vonatkozik, B: Beosztás
, ha a megfigyelésbe bevont dolgozó vezető,
, ha a megfigyelésbe bevont dolgozó beosztott. Ennek megfelelően a modell szerint például egy 45 éves, vezető beosztásban dolgozó férfi havi bruttó átlagkeresetének várható értéke:
míg egy ugyancsak 45 éves, vezető beosztásban dolgozó nőé:
azaz
kevesebb. Ez pedig azt jelenti, hogy
az azonos korú és beosztású férfiak és nők keresetének várható
értéke közötti különbség. Hasonló értelmezést adhatunk a B mesterséges változó együtthatójának is.
parciális regressziós
Ezek alapján választ kapunk arra, hogy a keresetek színvonalában mennyiben jut kifejezésre az életkor és a beosztás, illetve, hogy azonos életkorú és beosztású férfiak és nők esetében van-e szignifikáns különbség a havi átlagkeresetek nagyságában. 180 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás A mesterséges változókat tartalmazó modell paramétereinek becslése ugyanúgy a legkisebb négyzetek módszerének segítségével történik, mint ahogy azt a korábbiakban láttuk. Nézzük a következő példát! Az egyik budapesti kerületi önkormányzat felmérést végeztetett 50 eladásra meghirdetett zöldövezeti családi házra. A vizsgálat során a következő változókat figyelték meg:
Lineáris regressziós modell segítségével közelítve az Y változó alakulását, a következő regressziófüggvényhez jutottak:
A paraméterek meghatározása a legkisebb négyzetek elve alapján történt. Az ellenőrzés során a paraméterek szignifikánsnak bizonyultak. Értelmezésük a következő: A
paramétert nem értelmezzük. l való -rel alacsonyabb.
-rel magasabb. : A csatornázott lakások ára átlagosan 520 Ft/ garázsellátottságú lakásokhoz képest.
-rel magasabb az azonos életkorú, azonos telefon- és
átlagosan 1200 Ft-tal magasabb négyzetméterenként. A regressziós együtthatók értelmezésekor hasonlóan járunk el, mint azt a standardizálás során tettük. Itt is egyegy tényező hatásának elkülönítéséről van szó, a többi tényező változatlansága mellett. Nem hagyható azonban figyelmen kívül, hogy az eredményhez alapvetően más módszerrel jutottunk. A regressziószámítás általánosabb, mint a standardizálás módszere, mivel elméletileg tetszőleges számú minőségi és mennyiségi ismérv hatásának szétválasztására alkalmas. A regressziószámítás további előnye még, hogy az eredmények a megismert hipotézisvizsgálati módszerekkel ellenőrizhetők. A számítógépes programcsomagok alkalmazásánál azonban ügyelni kell arra, hogy a számítógép nem tesz különbséget a „természetes” és a „mesterséges” változók között. Ilyen esetekben a korrelációs mátrix elemei egészen különböző (asszociáció, vegyes kapcsolat, korreláció) kapcsolat szorosságát mérik azonos formulával, a páronkénti korrelációs együtthatókkal.
3.2. 10.3.2. A tényezőváltozók kiválasztása 181 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás A regressziós modell specifikálásánál az első és egyben legnehezebb feladat az eredményváltozót befolyásoló magyarázóváltozók kiválasztása. Ehhez általában javasolható az adott terület szakértőinek tanácsát is kikérni. Minden szóba jöhető változót általában nem lehetséges és rendszerint nem is szükséges beépíteni a modellbe. Az „optimális” regressziófüggvény meghatározásához két fő szempontot szokás mérlegelni: 1. Úgy kell kialakítani a regressziófüggvényt, hogy becslési célokra alkalmas legyen. 2. A legkevesebb tényezőváltozót tartalmazza a vizsgált sztochasztikus kapcsolat leírására. A felsorolt követelmények egyidejű betartása azonban nem lehetséges. A gyakorlatban bizonyos kompromisszumra van szükség. Több módszer ismeretes az „optimális modellek” szerkesztésére. A végső döntésnél azonban mindig támaszkodni kell a vizsgált területre vonatkozó szakmai ismeretekre. A tényezőváltozók kiválasztásának módszertanával részletesen nem foglalkozunk. Megemlítjük, hogy az optimális regressziófüggvény specifikálásának legegyszerűbb, de rendkívül munkaigényes módszere az összes lehetséges regressziófüggvény kiszámítása és összehasonlítása a tényezőváltozók adott halmazából. Ilyenkor az összehasonlításnál általában a többszörös determinációs együtthatóra támaszkodunk. Ez a mutató ugyanis (mint azt már ismertettük) azt fejezi ki, hogy az adott modellben szereplő tényezőváltozók együttesen milyen arányban magyarázzák meg az eredményváltozó szóródását. Nem elegendő azonban csak a többszörös determinációs együtthatóra figyelni. A túlságosan bonyolult, sokváltozós modell áttekinthetetlen. Ezért azok közül a modellek közül, amelyeknek közel azonos a többszörös determinációs együtthatója ( ), a kevesebb változót tartalmazó regressziós függvényt választjuk. Ezzel kettős célt érünk el. Egyrészt egyszerűsítjük a modellt, másrészt csökkentjük a multikollinearitás veszélyét.
4. 10.4. Gyakorlófeladatok 1. Egy 10 elemű véletlen minta alapján azt vizsgáljuk, hogy milyen összefüggés van valamely tantárgy zárthelyieredménye (Y), a felkészülési idő ( adatai az alábbiak:
A dolgozat Felkészülési idő eredménye (%) (óra)
) és a hallgató intelligenciahányadosa (
IQ
33
2
99
44
5
99
54
5
116
56
8
98
65
8
114
70
10
109
72
13
94
79
11
118
85
15
100
94
18
97
Feladat:
182 Created by XMLmind XSL-FO Converter.
) között. A 10 hallgató
Többváltozós korreláció- és regressziószámítás a) Írjuk fel a transzformált normálegyenleteket ( paramétereit!
), és számítsuk ki a regressziófüggvény
b) Értelmezzük a kapott eredményeket! c) Számítsuk ki és értelmezzük a két-két változó közötti kapcsolat szorosságát! d) Számítsuk ki és értelmezzük a többszörös determinációs együtthatót! e) Vizsgáljuk meg a parciális rugalmasságokat az
és
helyen!
2. A Közlekedéstudományi Intézet megvizsgálta a munkába járással kapcsolatos utazások (ingázások) alakulását. A regressziós modell változói a következők voltak: Y: ingázók száma (ezer fő), aktív keresők száma (ezer fő), városi lakónépesség aránya (%). A kapott részeredmények a következők: A regressziós függvény: A paraméterek standard hibái sorrendben:
A korrelációs mátrix: Feladat: a) Értelmezzük a kapott eredményeket! b) Számítsuk ki a többszörös korrelációs és determinációs együtthatót! c) Határozzuk meg és értelmezzük az
-t!
d) Teszteljük 5%-os szignifikanciaszinten a
és
regressziós együtthatókat!
3. A vállalati eredmény (Y) alakulását 20 elemű minta alapján regresszióelemzéssel vizsgáltuk. Független változó a nettó árbevétel (
) és a létszám (
) volt.
Eredmények:
Változó A paraméter értéke
A paraméter standard hibája
X1
0,025
0,005
X2
0,019
0,004
Ismeretes továbbá, hogy a regresszióból származó összes eltérés-négyzetösszeg 36 900, a maradéknégyzetösszeg pedig 9300. Feladat:
183 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás a) Készítsünk 95%-os megbízhatósági szinten konfidenciaintervallumot a regressziós együtthatókra! b) Állítsuk össze a varianciaanalízis-táblát és teszteljük a regressziófüggvényt 5%-os szignifikanciaszinten! 4. 40 véletlenszerűen kiválasztott személygépkocsi üzemeltetési költségét (ezer Ft/év), Y; életkorát (év), kilométerteljesítményét (ezer km/év),
és
vizsgáltuk.
A regressziófüggvény: A paraméterek standard hibái sorrendben: Az eltérés-négyzetösszegek:
.
Feladat: a) Értelmezzük a paramétereket! b) Teszteljük a c) Készítsük el a
nullhipotézist 5%-os szignifikanciaszinten! paraméter 95%-os megbízhatósági szintű konfidenciaintervallumát!
d) Becsüljük meg egy 15 ezer km-t futott 6 éves gépkocsi éves üzemeltetési költségét! 5. 50 véletlenszerűen kiválasztott nőnél a következő változókat figyeltük meg: Testsúly (kg): Y, Testmagasság (cm): X1 , Életkor (év): X2 . Az alábbi számítási részeredmények ismertek:
Feladat: Ellenőrizzük a varianciaanalízis módszerével, hogy szignifikáns-e a felsorolt változók közötti összefüggés! (Szignifikanciaszint 5%.) 6. Mezőgazdasági szövetkezetnél a kukorica termésátlagát befolyásoló tényezőket vizsgálták. A megfigyelt szövetkezetek száma 30 volt. A két legfontosabb hatótényezőnek a műtrágya-felhasználás (hatóanyag q/ha), és a felhasznált öntözővíz mennyisége ( alábbi részeredmények ismertek: A regressziófüggvény:
/ha),
bizonyult. E három tényező összefüggését vizsgálva az
.
A paraméterek standard hibái sorrendben: 0,446; 0,174 és 0,00039. A regressziófüggvény értékeinek ( ) és a termésátlag megfigyelt értékeinek (y) összes eltérés-négyzetösszege: 118,44. A maradék-négyzetösszeg:10,11.
184 Created by XMLmind XSL-FO Converter.
Többváltozós korreláció- és regressziószámítás
A korrelációmátrix:
.
Feladat: Elemezzük a korreláció- és regressziószámítás eredményeit!
185 Created by XMLmind XSL-FO Converter.
11. fejezet - Az idősorok összetevőinek vizsgálata Tankönyvünk első kötetében már találkoztunk az időbeli ismérv szerinti elemzés egyszerűbb eseteivel. Megismerkedtünk az idősorok főbb típusaival és azok grafikus megjelenítésével. Bemutattuk továbbá azokat az egyszerűbb mutatószámokat, amelyekkel a jelenségekben, folyamatokban bekövetkezett változások vizsgálhatók. A felsorolt módszerek alkalmazása lehetőséget nyújt a vizsgált jelenség múltbeli fejlődésének megállapítására. törvényszerűségek feltárására és a jelenség jövőbeni alakulásának az előrejelzésére is. Az előző fejezetekben ismertettük azokat a matematikai-statisztikai elemzési eszközöket, amelyeket felhasználva az idősorok mélyebb, megbízhatóbb elemzését is elvégezhetjük. Statisztikai elemzés szempontjából az idősor úgy is felfogható, mint az egyes időpontokhoz (időszakokhoz) rendelt valószínűségi változók összessége. Lényeges sajátossága, hogy minden olyan időponthoz (időszakhoz), amelyben megfigyelést végzünk, a valószínűségi változó különböző (rendszerint végtelen sok) lehetséges értéke tartozik, de ezek közül természetesen csak egy realizálódik. A jelenségek fejlődése, alakulása, és így az azoknak megfelelő idősor számos tényező együttes hatásának az eredménye. Az egy-egy jelenség változását befolyásoló sok-sok tényezőről mélyebb, részletesebb információnk általában nincs. E változások hatását is csak közvetve, az időtényezőn keresztül érzékeljük. Az időtényező ily módon gyűjtője a jelenséget befolyásoló tényezők sokaságának. Ebből következően az idősorokat speciális sztochasztikus kapcsolatnak tekintjük, ahol a magyarázóváltozó szerepét formailag az időtényező tölti be. Az idősorelemzésnek két fő megközelítési módja ismert, a determinisztikus és a sztochasztikus idősorelemzés. A determinisztikus idősorelemzés abból a feltevésből indul ki, hogy az idősort tartósan érvényesülő hosszú távú tendencia (trend), tartósan ható szabályos, jól modellezhető hullámmozgás (szezonalitás) határozza meg, és ezektől eseti-egyedi eltérítő hatást eredményez a véletlen. A sztochasztikus idősorelemzés kiindulópontja pedig az, hogy minden idősor sztochasztikus folyamat, amelynek pillanatnyi alakulását saját korábbi állapotából és a véletlen hatásokból lehet magyarázni. E felfogás szerint a véletlen változó beépül a folyamatba, annak aktív alkotóeleme lesz, és a jelenség fő mozgatójává válik. Tananyagunkban csak a determinisztikus idősorelemzéssel foglalkozunk.
1. 11.1. Az idősorok összetevői A statisztikai elemzés szempontjából az idősornak három összetevője van: az alapirányzat vagy trend, a periodikus ingadozás és a véletlen ingadozás. Az idősorok legfontosabb összetevője az alapirányzat vagy trend. A trend az idősorban hosszabb időszakon át tartósan érvényesülő tendencia. Az alapirányzat maga is több tényező együttes hatásának a következménye, alapvetően társadalmi-gazdasági törvényszerűségek határozzák meg. A gazdasági jelenségek fejlődési tendenciájának kialakulásában lényeges szerepe van a demográfiai változásoknak, a műszaki fejlődésnek és a vizsgált jelenséggel összefüggő egyéb speciális körülményeknek. A jelenség trendje addig érvényes, amíg a magyarázó törvényszerűségek stabilak, azokban lényeges változások nem következnek be. Ha a társadalmi-gazdasági környezetben minőségi változások következnek be, a régi fejlődési tendenciákat új tendenciák váltják fel. A periodikus ingadozás az idősorokban rendszeresen ismétlődő hullámzást jelenti. Két típusát különböztetjük meg, a szezonális vagy idényszerű hullámzást és a konjunkturális ingadozást. A szezonális vagy idényszerű hullámzás periodikus ingadozás, azaz a trendtől való abszolút vagy relatív mértékű eltérés periodicitást mutat.
186 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata A szezonalitás legtöbbször az évszakok változásának következménye, általában olyan idősorokban érvényesül, amelyeknél a megfigyelések időközei egy évnél jóval rövidebbek. (Pl. a kereskedelmi áruforgalom, az építőipari termelés.) A természeti tényezők mellett társadalmi szokások, hagyományok is szerepet játszanak a szezonalitás kialakulásában. (Pl. az ünnepek is hatással vannak a kereskedelmi forgalomra.) Előfordulhat, hogy a periódus hossza egy évnél rövidebb. Példaként említhető a tömegközlekedés, ahol egy éven, egy hónapon, sőt egy napon belüli ingadozás is kimutatható. Ebben az esetben többszörös szezonalitást mutató idősorról beszélünk. Vannak olyan idősorok, ahol az ingadozások periódusának hosszúsága nem állandó. Ezek egy részének természeti okai vannak. Kimutathatók bizonyos meteorológiai ciklusok, amelyek elsősorban a mezőgazdasági termelést befolyásolják. Jellemzőek az ún. gazdasági (konjunktúra-) ciklusok. A gazdasági ciklus a konjunktúra, a recesszió, az üzleti pangás és a megújulás időszakait foglalja magába. A továbbiakban a megfigyelt adatnak a trendből, illetve a periodikus ingadozásból származó részét determinisztikusnak tételezzük fel. Az idősorokban lehetnek még véletlenszerű, szabálytalan ingadozások is. Ezt az összetevőt valószínűségi változónak tekintjük. A véletlen ingadozás sok (önmagában nem jelentős) tényező együttes hatása az idősorra. A véletlen hatás eredménye, hogy az idősorok adatai a trendből, illetve a periodikus komponensből adódó görbe körül sztochasztikusan ingadoznak. Az idősorokban bizonyos körülmények hatására egyszeri kiugró értékek is előfordulhatnak, melyek nagyságuknál és egyes esetekben utóhatásuknál fogva nem tekinthetők véletlen ingadozásnak. (Pl. háborúk, súlyos természeti csapások hatása.) E kiugró értékeket, melyeket strukturális töréseknek nevezünk, el kell különítenünk a fentebb felsorolt komponensektől. Hogy torzító hatásuk ne jusson kifejezésre az egyes összetevők meghatározásánál, a strukturális töréseket és az utóhatásukat jellemző adatokat célszerű kihagyni az elemzéseknél. Az egyes tényezők szerepét az idősor kialakításában a 11.1. ábra sémáival szemléltetjük.
11,1. ábra - Az idősorok komponensei
Egy-egy jelenség idősora nem tartalmazza feltétlenül mindhárom összetevőt. Ha például egy jelenséget csak évenként figyelünk meg, akkor az idősorban nem tapasztalunk idényszerű hullámzást, az esetleges ingadozások az éves periódusban kiegyenlítődnek. Előfordulhat az is, hogy egy jelenség értékeit havonként rögzítjük, és a megfigyelt adatok kis eltérésekkel egy állandó érték körül ingadoznak. Ez esetben nem beszélhetünk alapirányzatról, az ilyen idősorokat stacionárius idősoroknak nevezzük. Az idősorok elemzésének alapvető feladata a komponensek elkülönítése. A tényezőkre bontás többféle elméleti feltevés alapján történhet. Az egyes komponensek között additív (összegszerű), multiplikatív (szorzatszerű), vagy ezeknél bonyolultabb kapcsolat lehetséges. Mi a továbbiakban csak az additív, illetve a multiplikatív összefüggést feltételezve vizsgáljuk az idősorok összetevőit.
1.1. 11.1.1. Additív és multiplikatív komponensek
187 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata Szemléltető ábránkon (11.1. ábra) feltételeztük, hogy a komponensek összeadódnak, és a komponensek összege adja az idősort. A gyakorlatban az elemzés fordítva történik, az idősor adataiból kell elkülöníteni az egyes összetevőket, az idősort kell komponenseire bontani. Abban az esetben, ha azt feltételezhetjük, hogy az idősor adatai a komponensek összegeként adódnak, additív kapcsolatról beszélünk. Ha megfigyelésünk p számú periódusra (pl. évre) és egy perióduson belül m időszakra (szezonra) vonatkozik, akkor az i-edik időszak megfigyelt adata
ahol
a periódus sorszámát (pl. évet) jelöli, a perióduson belüli időszak sorszámát (pl. negyedévet, hónapot) jelöli,
az i-edik periódus j-edik időszakának megfigyelt adata, a szezonális ingadozást (bármely i-edik periódus j-edik szakaszában) fejezi ki, a véletlen hatás értéke az i-edik periódus j-edik szakaszában. Egyetlen indexet használva (
):
A szezonális eltérés a periódusok különböző szakaszaiban különböző mértékű és irányú lehet. Az egyes periódusokban a különböző irányú, pozitív, negatív eltérések kiegyenlítik egymást. (Ha a kiegyenlítés nem következnék be, akkor a különbözetet a trendbe kellene beépítenünk.) Tehát egy m szakaszból álló periódus esetén:
A feltételezzük, hogy várható értéke
Vannak olyan jelenségek, amelyeknél azzal a feltételezéssel élünk, hogy az idősor adatait a komponensek szorzata alkotja, az összetevők kapcsolata multiplikatív:
ahol
a multiplikatív módon ható szezonális ingadozás,
a multiplikatív módon ható véletlen hatás. Az alapirányzat szerinti értéket nem befolyásolja a komponensek kapcsolódási módja. A periodikus ingadozás és a véletlen hullámzás viszont lényegesen eltérő módon viselkedik additív és multiplikatív kapcsolat esetén. Ebben az esetben a szezonális (és a véletlen) komponens relatív módon fejti ki hatását. Az idősor értékét meghatározott arányban téríti el a trendtől. Az
összefüggést pozitív tényezők esetén
logaritmizálva a összefüggést kapjuk. Az additív kapcsolatnál elmondott feltételezések ebben az esetben a logaritmusokra vonatkoznak és megegyeznek azokkal. Így
188 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
Ebből következik, hogy
A gyakorlatban a vizsgált jelenségre vonatkozó ismeretek, valamint az adott idősor grafikus ábrájának áttekintése alapján dönthetjük el, hogy milyen az idősorban a komponensek kapcsolódási módja. Ha a szezonális hullámzás abszolút nagysága mutat állandóságot, additív, ha a relatív nagysága, akkor multiplikatív modellel állunk szemben.
2. 11.2. Trendszámítás A trendszámítás feladata az idősor fő komponensének, az alapirányzatnak a kimutatása. Az idősor kiegyenlítése, kisimítása a célunk úgy, hogy a periodikus ingadozás és a véletlen ingadozás hatását kiküszöböljük. Az idősorok kiegyenlítése többféle módszerrel történhet, közülük a mozgóátlagolás és az analitikus trendszámítás módszerét ismertetjük. Megemlítjük az alapirányzat meghatározásának előzetes, gyors információszerzésre alkalmazott módszerét, a grafikus becslést és a vonal értékeit kezeljük alapirányzati értékekként. A módszer önkényes, nem tekintjük megbízható eljárásnak (kivéve az egyszerű eseteket), csak előzetes tájékozódásra alkalmazható.
2.1. 11.2.1. Trendszámítás mozgóátlagolással Ha a komponenseket illetően additivitást tételezünk fel, akkor a
feltételezésből és a periodicitásból az következik, hogy bármely
esetén:
Míg multiplikatív kapcsolat esetén:
Foglalkozzunk csupán az additív esettel. (A multiplikatív eset hasonlóan tárgyalható.) Ha a mozgóátlag k tagszáma az m-mel vagy annak egész számú többszörösével egyenlő, akkor a felírt összefüggések miatt várható, hogy az átlagban a szezonális és a véletlen komponens már nem szerepel. A számítás menete a következő. Az fajú adatsorozat 1, 2, ..., k; 2, 3, ..., ; elemeinek kiszámítjuk a számtani átlagát (multiplikatív esetben a geometriai átlagát) páratlan k esetén a részsorozat középső elemének tekintjük ( Ezt mutatja a 11.1. táblázat
1
indexű , és ezt az átlagot
-edik elem).
esetén.
11.1. táblázat - Háromtagú mozgóátlagok számítása (
) lagokat számtani átlaggal számítjuk
1
az itt ismertetett módon.
189 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
Időszak (időpont)
Idősor adata
Mozgóösszeg
Mozgóátlag
t 1 2 3
n Itt
az
valószínűségi változó adott megfigyelésből (mintából) származó értéke,
pedig az
becslése.
Ha k páros, akkor az nem egész, hanem pl. esetén 2,5; 3,5; 4,5; ...; n – 1,5. Ezért az így kapott átlagokból kéttagú mozgóátlagok képzésével kapjuk az egész indexű elemeket. Ez utóbbi műveletet középre igazításnak vagy centrírozásnak nevezzük. Az eljárást a 11.2. táblázat szemlélteti.
11.2. táblázat - Négytagú mozgóátlagok számítása ( Idősza Idős k or (időpo adata nt)
Mozgóösszeg
Mozgóátlag
Centrírozás (
)
)
t
1 2 3 4
– n
–
190 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata A bemutatott sémákból jól látható, hogy a kiegyenlített idősor rövidebb, mint az eredeti idősor. Páratlan tagszám esetén taggal, páros tagszám esetén k taggal kevesebb trendértéket tudunk meghatározni. Célunk, hogy a megrövidült kiegyenlített idősor alkalmas legyen az elemzésre, következtetések levonására, az idősor rövidülése ne okozzon túlzott mértékű információveszteséget. A mozgóátlag tagszámának megválasztása függ az idősor hosszúságától. Viszonylag rövid idősorból nem célszerű nagy tagszámú mozgóátlagot számolni. Ha az idősor nem tartalmaz szezonális ingadozást, célszerű páratlan tagszámot választani az alapirányzat feltárásához. Ismételten hangsúlyozzuk, hogy a szezonális hullámzást mutató idősorok esetén a mozgóátlag tagszámát úgy kell megválasztani, hogy az a perióduson belüli szakaszok (szezonok) számával azonos ( ), vagy annak egész számú többszöröse legyen. Ha egy jelenség értékeit pl. negyedéves bontásban ismerjük, a szezonhatás kiküszöbölése érdekében 4 vagy 8, esetleg 12 tagú mozgóátlagot célszerű számítani attól függően, hogy mennyire hosszú idősor áll rendelkezésre. A véletlen hatás kiküszöbölése annál hatékonyabb, minél nagyobb tagszámú az átlag, ugyanis annál jobban eltűnnek az egyedi átlagolandó értékekben jelen lévő véletlen ingadozások, hiszen az átlag nagy valószínűséggel a várható értékkel, nullával lesz egyenlő. Az elmondottakból látható, hogy viszonylag rövid, szezonalitást mutató idősor esetén a mozgóátlag tagszáma nem növelhető, amelynek következtében a véletlen komponens értéke nem szűrődik ki teljes egészében az idősorból, de hatása tompított lesz. A mozgóátlagolású trendszámítás előnye a módszer egyszerűségében, széles körű alkalmazhatóságában rejlik. Nem igényel előzetes feltételezéseket a trend alakjára vonatkozóan. Hátránya, hogy a kiegyenlített idősor megrövidül, továbbá, hogy a módszer közvetlenül nem eredményez analitikusan ismert trendfüggvényt. Tekintsük a módszer bemutatására a következő példát. (Adatok a 11.3. táblázatban.)
11.3. táblázat - A háztartások számára értékesített gázmennyiség Nógrád megyében 1990 és 1994 között negyedéves bontásban Adatok: millió m 3 I.
II.
III.
IV.
Év negyedév 1990
3,5
3,1
2,4
13,9
1991
6,7
6,4
5,1
17,2
1992
7,4
7,2
5,2
18,0
1993
8,2
8,1
7,2
18,5
1994
9,3
8,0
7,2
11,7
Mivel éves periodicitásról és negyedéves szezonalitásról van szó, k csupán 4 vagy annak egész számú többszöröse lehet. Az adatsor mérete miatt válasszuk a k-t 4-nek. A számításokat a 11.4. táblázat tartalmazza.
11.4. táblázat - A mozgóátlagolású trendszámítás munkatáblája ( Adatok: millió m 3 Negyed Értékesíte tt
Négytagú mozgó-
Centrírozott
Év év
mennyisé g
összeg
átlag
átlag
191 Created by XMLmind XSL-FO Converter.
)
Az idősorok összetevőinek vizsgálata
1990 I.
3,5
1991 II.
3,1
1992 III.
2,4
1993 IV. 1994 I. II. III. IV. I. II. III. IV. I. II. III. IV. I. II.
12,9
3,225
16,1
4,025
19,4
4,850
22,1
5,525
25,4
6,350
26,1
6,525
26,9
6,725
27,0
6,750
27,8
6,950
28,6
7,150
29,5
7,375
31,5
7,875
32,0
8,000
33,1
8,275
33,0
8,250
33,0
8,250
36,2
9,050
3,6
3,9
4,4
6,7
5,2
6,4
5,9
5,1
6,4
7,2
6,6
7,4
6,7
7,2
6,8
5,2
7,0
8,0
7,3
8,2
7,6
8,1
7,9
7,2
8,1
8,5
8,3
9,3
8,2
8,0
III.
7,2
IV.
11,7
8,7
A jelenség megfigyelt értékeit és a mozgóátlagolással számított trendértékeket ábrázoltuk a 11.2. ábrán.
11,2. ábra - A háztartások gázfelhasználásának alakulása Nógrád megyében 1990 és 1994 között
192 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
2.2. 11.2.2. Analitikus trendszámítás Ha a vizsgált jelenség tartós irányzatát az idő függvényében valamilyen regressziós függvénnyel határozzuk meg, analitikus trendszámításról beszélünk. Az analitikus trendszámítás tehát a regressziószámítás egy speciális esete, amennyiben az idősorban bekövetkezett változásokat az időtényező (t) függvényében vizsgáljuk tapasztalati adatok, a valószínűségi változók minden egyes időpontban egyetlen, realizálódott értéke alapján. A vizsgálatba bevont időtáv nagyon ritkán bővíthető, nem képzelhető el a mintavétel megismétlése. Jelölje
az elméleti idősort, az eddigieknek megfelelően
idősort. Az
pedig a tapasztalati
az elméleti idősor értékeinek analitikus függvény segítségével történő becslése.
Első lépésként arról kell döntenünk, hogy milyen típusú függvénnyel becsüljük az alapirányzat értékeit. A grafikus ábrája alapján következtetünk. Szakmai ismeretek, a jelenség természetének ismeretében feltételezéssel élünk a fejlődés irányvonalára vonatkozóan. Az alkalmazható függvényekkel már foglalkoztunk a regressziószámítás témakörénél. Trendszámítás során a leggyakrabban alkalmazott függvénytípusok: lineáris trendfüggvény, exponenciális trendfüggvény, parabolikus trendfüggvény. Amennyiben eldöntöttük az alkalmazandó függvény típusát, feladatunk a függvény paramétereinek meghatározása. A függvény paraméterei meghatározásának leggyakrabban alkalmazott módszere a már jól ismert legkisebb négyzetek módszere. Lineáris trend
193 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata Ha olyan jelenség időbeni változását vizsgáljuk, amelynél azt tapasztaljuk, hogy az időegységenként bekövetkezett változás, növekedés vagy csökkenés abszolút értelemben közel állandó, a változás egyenletes, az alapirányzat értékeit lineáris trenddel határozzuk meg. Foglalkozzunk először azzal az esettel, amikor nincs szezonális hatás, vagy ami ugyanaz, a szezonális hatást a trend részének tekintjük. Az idősor tényleges trendfüggvénye:
ahol a Ha a
és a
a lineáris trendfüggvény ismeretlen paraméterei. időpontban mintát veszünk, akkor ez valószínűségi változó lesz:
ugyanis tartalmaz egy véletlen változót. A véletlen változóról feltételezzük, hogy a várható értéke ( ,
A
időpontban 0 a
), és a különböző időpontok véletlen változói egymástól függetlenek, így . Ekkor
időpontokban mért
lineáris trendfüggvényt. Itt a
adatokból a legkisebb négyzetek módszerével meghatározhatjuk az
a
a
értékének egy becslése.
pedig a
A normálegyenleteket itt is egyszerűsíthetjük egy lineáris transzformációval. Az időegységeket kódolhatjuk úgy is, hogy a t értékek összege 0 legyen, azaz
.
Ezt az eljárást csak akkor használhatjuk, ha az idősor egymást követő azonos hosszúságú időszakokra vagy egymástól egyenlő távolságra lévő időpontokra vonatkozik. A kódolást úgy végezzük, hogy megkeressük a vizsgálatba bevont időtáv középső időegységét, és hozzárendeljük a értéket. Időben előre (a jelen felé) pozitív egész sorszámokat, visszafelé pedig negatív egész sorszámokat írunk. Amennyiben páros számú a vizsgálatba bevont időegységek száma, nincs konkrét középső időegység. Úgy járunk el, hogy két időszakot (időpontot) tekintünk középsőnek, a jelentől távolabbit -gyel a jelenhez közelebbit -gyel jelöljük. Mivel így két szomszédos időszak kódjának különbsége nem egységnyi, hanem ( ), a többi időszak távolságát is 2 egységnek vesszük. A jelen felé pozitív páratlan sorszámokat írunk, a múlt felé pedig negatív páratlan számokat rendelünk az egyes időszakokhoz a t értékeként. Ha egy jelenség értékeit pl. 1989 és 1994 között éves bontásban ismerjük, akkor az időszakok kódolása az alábbi lehet: 1.
194 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
Év:
1989
1990
1991
1992
1993
1994
t:
1
2
3
4
5
6
Év:
1989
1990
1991
1992
1993
1994
1
3
5
2.
t:
Ez utóbbi transzformációnak az az előnye, hogy a normálegyenletek módosulnak, egyszerűsödnek:
A paraméterek közvetlenül adódnak:
A paraméterek értelmezése A paraméterek értékét befolyásolja az időpontok kódolási módja, amelyet azok értelmezésénél figyelembe kell vennünk. A
paraméter az alapirányzat értéke a
jelölt időpontban.
, akkor a vizsgálatba bevont időpontot megelőző időpont trend szerinti értéke.
Ha
Ha és páratlan az időpontok száma: a középső időpont alapirányzata, és egyben a vizsgált idősor adatainak számtani átlaga. és páros az időpontok száma, nincs 0-val jelölt időpont, a
Ha átlaga.
paraméter az idősor adatainak számtani
A paraméter az időegységenkénti átlagos abszolút változás mértéke, előjelétől függően növekedést vagy csökkenést jelez a vizsgálatba bevont időtartam alatt. és az időpontok száma páros, akkor
Ha
az időegységenkénti átlagos abszolút változás mértéke.
Jelentését tekintve a lineáris trendfüggvény paramétere megegyezik az időbeli változás átlagos mértékével, azaz a mutatószámmal. (Lásd I. kötet 2.2.4. pont.) A lineáris trend számítását a következő példával szemléltetjük. Mint ismeretes, a népesség növekedését (csökkenését) alapvetően a születések és a halálozások számának viszonya befolyásolja. A halálozások és a születések különbsége az ún. természetes fogyás. Nógrád megyében 1983 és 1993 között ez a jelenség a következőképpen alakult (11.5. táblázat):
11.5. táblázat - A népesség természetes fogyásának alakulása Nógrád megyében Év
Természetes fogyás (fő)
195 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
1983
332
1984
273
1985
510
1986
505
1987
478
1988
367
1989
700
1990
584
1991
498
1992
828
1993
1100
Összesen
6175
Először a számítási módot mutatjuk be. A paraméterek meghatározásához szükséges számításokat a 11.6. táblázat tartalmazza.
11.6. táblázat - Munkatábla a paraméterek meghatározásához Év
t
1983
11
1332
332
1
1984
12
1273
546
4
1985
13
1510
1530
9
1986
14
1505
2020
16
1987
15
1478
2390
25
1988
16
1367
2202
36
1989
17
1700
4900
49
1990
18
1584
4672
64
1991
19
1498
4482
81
1992
10
1828
8280
100
1993
11
1100
12 100
121
Összesen
66
6175
43 454
506
Normálegyenletek:
196 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata Az egyenletrendszer megoldásával kapott paraméterek:
A természetes fogyás alapirányzatát leíró lineáris trend:
1982-ben az alapirányzat szerinti természetes fogyás 212 fő volt. 1983 és 1993 között Nógrád megye népessége évente átlagosan 58 fővel csökkent a természetes fogyás növekedése következtében. módszer alkalmazásához a következő számítások elvégzése szükséges. (Adatok a 11.7. táblázatban.)
A
11.7. táblázat - Munkatábla a paraméterek meghatározásához Év
t
1983
332
25
1984
273
16
1985
510
9
1986
505
4
1987
478
1
1988
0
367
0
0
1989
1
700
700
1
1990
2
584
1168
4
1991
3
498
1494
9
1992
4
828
3312
16
1993
5
1100
5500
25
Összesen
0
6175
6404
110
A
paraméter értéke:
A
paraméter értéke:
A lineáris trend egyenlete: A kétféle módszerrel kapott trendfüggvényt összehasonlítva látható, hogy csak a különbözik. Ennek magyarázata, hogy a tartozik. Ez utóbbi megoldásnál a
(ahol a függvény a
paraméter értéke
értékét felveszi) más-más időszakhoz
értékét az idősor átlagos értékeként is értelmezzük.
Számítsuk ki ezek után a trendértékeket! Ha bármelyik trendfüggvénybe behelyettesítjük a megfelelő t értékeket, megkapjuk az idősor alapirányzatának becsült értékeit, az
-ket (Adatok a 11. 8. táblázatban.)
11.8. táblázat - A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámítása 197 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
A természetes fogyás (fő) Év
tényleges
trend szerinti
létszám
létszám
1983
332
270
1984
273
328
1985
510
387
123
15 129
1986
505
445
60
3600
1987
478
503
625
1988
367
561
37 636
1989
700
620
1990
584
678
8 836
1991
498
736
56 644
1992
828
794
34
1 156
1993
1100
853
247
61 009
Összesen
6175
6175
0
197 904
62
3 844 3 025
80
6 400
Megfigyelhetjük, hogy a trendfüggvénnyel kapott létszámadatok összege megegyezik a tényleges létszámadatok összegével, 6175 fővel. Általánosítva is igaz, hogy
. Ezt könnyen igazolhatjuk, ugyanis
, ami nem más, mint az első normálegyenlet jobb oldalán álló kifejezés (lásd 11.2.2. pont). E normálegyenlet bal oldalán pedig
szerepel.
Így, ha létezik is szezonalitás, abban az esetben, ha a vizsgált időtartam a szezonalitás periódusidejének egész számú többszöröse, és azonban már jelentkezik.
a szezonalitástól független. A szezonalitás az
(
) különbségekben
A táblázat utolsó oszlopában szereplő 197 904 nem más, mint a legkisebb négyzetek módszere szerint minimalizált négyzetösszeg. Példánkban tehát . Erről a függvényről természetesen csak azt állítjuk, hogy a legjobb a lineáris függvények közül, lehetséges, hogy más típusú trendfüggvény jobban illeszkedik. Használjuk a továbbiakban is az eddig alkalmazott jelöléseket:
(Ha nincs szezonhatás,
akkor ez a mintabeli értéke, ha van, akkor ebben a szezonalitásból származó eltérések is benne vannak.) E négyzetösszeget n-nel osztva a reziduális szórásnégyzetet kapjuk:
nyel való közelítések hasonló módon nyert mutatójával összehasonlítva tájékoztat az illeszkedésről. Az a függvény illeszkedik jobban, ahol ez a szórásnégyzet kisebb. 198 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata Példánkban:
A négyzetgyökvonással kapott reziduális szórás úgy értelmezhető, mint az idősorértékek trend szerinti értékektől vett eltéréseinek négyzetes átlaga. Példánkban:
fő.
Képezhető a relatív reziduális szórás mutatószáma is:
.
Példánkban , tehát a természetes fogyás lineáris trenddel becsült létszámai a valós létszámoktól átlagosan közel 24%-kal térnek el. Különböző típusú trendfüggvények közül a jelenség életpályáját az a függvénytípus jellemzi legjobban, ahol a relatív reziduális szórás értéke a legkisebb. A trendadatok ismeretében elkészíthető a trendfüggvény grafikonja (11.3. ábra). Figyeljük meg, hogy hogyan illeszkedik a trendvonal az idősor tényleges adataihoz. (A változás tendenciáját az idősor első és utolsó adata alapján is bemutatja az ábra.)
11,3. ábra - A népesség természetes fogyásának alakulása Nógrád megyében
A következőkben páros tagszámú idősor lineáris trendjének meghatározását mutatjuk be. A munkanélküliek, de már semmiféle ellátásban nem részesülők adatait a 11.9. táblázatban adjuk meg.
11.9. táblázat - Az ellátatlan munkanélküliek létszámának alakulása Nógrád megyében 1991 és 1994 között (ezer fő) Év
I.
II.
III.
IV.
199 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
negyedév 1991
1,4
1,5
2,2
2,8
1992
3,2
3,8
5,5
6,0
1993
7,4
9,0
11,1
11,1
1994
11,4
12,2
13,0
12,8
11.10. táblázat - Munkatábla az ellátatlan munkanélküliek létszámának alakulását kifejező lineáris trendfüggvény kiszámításához Létszá m Év 199 1
Negy (ezer ed- év fő) I.
1,4
Lineá ris
t 1
trend
t 1,4
1 5
II.
1,5
2
3,0
4
III.
2,2
3
6,6
9
IV.
2,8
4
11,2
16
225
0,4
169
1,3
121
2,2
81
3,1
49
4,0
25
4,9
9
5,8
1
6,7
0
3
5
1
2 2
199 2
I.
3,2
5
16,0
25 4
II.
3,8
6
22,8
36
III.
5,5
7
38,5
49
IV.
6,0
8
48,0
64
5 5
199 3
199 4
I.
7,4
9
66,6
81
1
7,4
1
7,6
II.
9,0
10
90,0
100
3
27,0
9
8,5
III.
11,1
11 122,1
121
5
55,5
25
9,4
IV.
11,1
12 133,2
144
7
77,7
49
10,3
I.
11,4
13 148,2
169
9
102,6
81
11,2
II.
12,2
14 170,8
196
11 134,2
121
12,1
III.
13,0
15 195,0
225
13 169,0
169
13,0
IV.
12,8
16 204,8
256
15 187,5
225
13,9
200 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
Összesen
114,4 136 1278, 1496 2
Normálegyenletek a
0
608,6 1360 114,4
számítással:
Az egyenletrendszer megoldásával kapott paraméterek:
A lineáris trend függvénye:
.
A paraméter példánkban az 1990-es év negyedik negyedévéhez (a t értéke ebben az időpontban lenne nulla) tartozó trend szerinti érték. Ismerve a jelenség időbeli alakulását (hogy ui. ebben az időszakban már voltak munkanélküliek, de még nem telt el annyi idő, amennyi után már nem jár a munkanélküli támogatás), el kell fogadnunk a paraméter negatív értékét. A paraméter azt fejezi ki, hogy a munkanélküli-ellátásban nem részesülők létszáma negyedévenként átlagosan 0,899 ezer fővel, azaz mintegy 900 fővel növekedett 1991 és 1994 között. A
módszer alapján a paraméterek értékei:
A trendegyenlet pedig:
A kétféle módszerrel számított trendegyenlet mindkét paramétere különbözik egymástól. A paraméter azért, mert a hely ez utóbbi megoldásnál az idősor „közepén” van, elvileg az 1992-es év IV. negyedéve és az 1993-as év I. negyedéve között. E megoldásnál a paraméter megoldóképletéből adódó ( ) gyakorlatiasabb jelentéstartalmat hangsúlyozzuk. Eszerint 1991 és 1994 között az ellátatlan munkanélküliek negyedévenkénti átlagos száma 7150 fő volt Nógrád megyében. A paraméter értéke azért nem egyezik meg a módszerrel kapott eredménnyel, mert (mivel páros számú adattal dolgoztunk) az időegységek kétegységnyi távolságra kerültek egymástól. A negyedévenkénti átlagos változást ezért a kapott paraméter kétszerese fejezi ki. megközelítően 900 fő, jelentéstartalma azonos a már leírtakkal. A fejlődési tendenciát egyszerűbb módszerrel kiszámítva más eredményt kapunk:
Eszerint 760 fővel nő a munkanélküliek száma negyedévenként átlagosan. A két szélső adatot összekötő egyenes iránytangense jelentősen kisebb, mint a legkisebb négyzetek módszerével illesztett egyenesé. (A 11.4. ábrán
11,4. ábra - Az ellátatlan munkanélküliek létszámának alakulása
201 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
A 11.10. táblázat utolsó oszlopában az alapirányzat szerinti létszámok szerepelnek. A trendfüggvénnyel kapott létszámadatok összege megegyezik a tényleges létszámadatok összegével. Kisimítottuk az idősort, vizsgáljuk meg, hogy a lehetséges további komponensek összege nulla-e (11.11. táblázat). A táblázat utolsó oszlopában szereplő 8,64 nem más, mint a legkisebb négyzetek módszere szerint minimalizált négyzetösszeg:
Ebből a reziduális szórás:
A relatív reziduális szórás:
11.11. táblázat - A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámításának munkatáblája Tényleges Év
Negyed-
Trend szerinti
létszám, ezer fő
év 1991
I.
1,4
0,4
1,0
1,00
202 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
1992
1993
1994
II.
1,5
1,3
0,2
0,04
III.
2,2
2,2
0,0
0,00
IV.
2,8
3,1
0,09
I.
3,2
4,0
0,64
II.
3,8
4,9
0,81
III.
5,5
5,8
0,09
IV.
6,0
6,7
0,49
I.
7,4
7,6
0,04
II.
9,0
8,5
0,5
0,25
III.
11,1
9,4
1,7
2,89
IV.
11,1
10,3
0,8
0,64
I.
11,4
11,2
0,2
0,04
II.
12,2
12,1
0,1
0,01
III.
13,0
13,0
0,0
0,00
IV.
12,8
13,9
1,1
1,21
114,4
114,4
0,0
8,64
Összesen
A munkanélküli-ellátásban nem részesülők lineáris trenddel becsült létszámai a valós létszámoktól átlagosan 735 fővel térnek el. Ez az eltérés az 1991 és 1994 közötti negyedévenkénti átlagos létszám alig több mint 10%a. Exponenciális trend A társadalmi-gazdasági folyamatok változó környezetben nem mindig követnek lineáris tendenciát. Ha a vizsgált jelenség egyik időszakról a másik időszakra megközelítőleg mindig ugyanannyiszorosára, azonos százalékkal nő vagy csökken, azaz az időegységenkénti relatív változás ingadozik egy állandó körül, a tartós irányzatot exponenciális trenddel fejezzük ki. Az exponenciális trendfüggvény általános alakja:
Az exponenciális függvény pozitív esetén logaritmikus transzformációval lineáris alakra hozható, a paraméterek meghatározása visszavezethető a lineáris függvényre (a logaritmus alapja tetszőleges lehet):
A transzformáció mutatja, hogy a függvényértékek logaritmusa, összefüggés van. A
időpontban mért
és az időegységek, t között lineáris
adatokból a legkisebb négyzetek módszerével
meghatározhatjuk az exponenciális trendfüggvényt. Itt a realizálódott idősor alapján történt becslése.
a
203 Created by XMLmind XSL-FO Converter.
a
pedig a
értékének egy
Az idősorok összetevőinek vizsgálata A felírt logaritmustranszformációból következik, hogy az idősor adatainak logaritmusai és a t értékek alapján a lineáris trend paramétereinek megoldására szolgáló normálegyenletek és a megoldóképletek alkalmasak az exponenciális trend paramétereinek a meghatározására. Ezúttal is kétféleképpen választhatjuk meg az időt jelölő t értékeit. Ha az időszakokat folyamatosan sorszámozzuk, akkor a normálegyenletek a következők lesznek:
A normálegyenletek megoldásai a
és
A logaritmus visszakeresése megadja a exponenciális trendegyenlet:
értékek. és
paraméter értékét, és ezek segítségével felírható az eredeti
módszerrel pedig a paraméterek logaritmusai az alábbiak:
A
A paraméterek értelmezése A
paraméter a jelenség alapirányzat szerinti értéke a
időpont, a A
jelölt időpontban. Ha
, és nincs 0-val jelölt
paraméter az idősor adatainak mértani átlaga.
paraméter az időegységenkénti átlagos relatív változás mutatószáma. Jelzi, hogy a vizsgált időszak alatt a
jelenség értéke időegységenként átlagosan hányszorosára, hány %-ra ( , ha növekedés,
, ha csökkenés) változott.
Amennyiben a paramétereket páros tagszámú idősorra a négyzete (
) vagy hány %-kal (
eljárással határozzuk meg, a
paraméter
) jelzi az időegységenkénti átlagos relatív változást.
Jelentését tekintve a
paraméter megegyezik az
jelölt
2
, az időbeli változás átlagos üteme elnevezésű
mutatóval. Megbízhatóbbnak tartjuk az exponenciális trendfüggvény paraméterét, mert azt az idősor minden egyes adatát felhasználva határozzuk meg, míg az az idősor első és utolsó adata alapján kerül kiszámításra. Az exponenciális trend számítását a következő példán mutatjuk be (11.12. táblázat).
11.12. táblázat - Egy kiemelt üdülőövezet vendégeinek létszáma 1982 és 1992 között Év 2
Létszám (ezer fő)
t
Általános statisztika I. kötet 2.2.4. pont.
204 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
1982
135,8
2,1329
25
1983
151,5
2,1804
16
1984
157,0
2,1959
9
1985
165,8
2,2196
4
1986
182,9
2,2622
1
1987
188,4
0
2,2751
0
0
1988
185,3
1
2,2679
2,2679
1
1989
225,4
2
2,3529
4,7058
4
1990
341,1
3
2,5329
7,5987
9
1991
440,4
4
2,6438
10,5752
10
1992
447,2
5
2,6505
13,2525
25
Összesen
2620,8
0
25,7141
5,7249
110
Az exponenciális trendfüggvényt a
módszer alapján írjuk fel.
Az üdülőövezet vendéglétszámát leíró exponenciális trendfüggvény paraméterének értéke 217,6 ezer fő, amelynek példánkban egyidejűleg kettős jelentése van: egyrészt az idősor adatainak mértani átlaga, másrészt a páratlan tagszámú idősor miatt a nullával jelölt időpont trend szerinti értéke. Konkrétan: 1982 és 1992 között az üdülőövezet vendéglétszáma évenként átlagosan 217,6 ezer fő volt, és 1987ben az alapirányzat szerinti létszám is 217,6 ezer fő. Gyakorlatiasabb a
paraméter átlagként való értelmezése.
A paraméter értéke 1,127, ez azt jelenti, hogy 1982 és 1993 között a vendégek száma évenként átlagosan 1,127-szeresére, azaz 12,7 %-kal növekedett. A
fejlődési
tendenciát
az
egyszerűbb,
a
fejlődés
átlagos
üteme
mutatóval
meghatározva:
, amely most éppen a paraméterrel azonos átlagos relatív növekedést mutat. (A és az „azonossága” véletlenszerűen lehetséges ugyan, de nem jelentheti a kétféle számítás „egyenértékűségét”.)
205 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata Vizsgáljuk meg ezek után, hogy mennyire illeszkedik jól a függvény (adatok a 11.13. táblázatban). Exponenciális trend esetén a tényleges és a trendértékek logaritmusainak összege egyezik meg, azaz . (Ez az egyenlőség az első normálegyenlet alapján igazolható.) Az eredeti adatokra nézve nem áll fenn az egyenlőség (
).
A 11.13. táblázat utolsó oszlopában szerepel a legkisebb négyzetek módszere szerint minimalizált eltérések négyzetösszege (19 266,79), amely alapján elvégezzük az illeszkedésvizsgálatot.
A reziduális szórásnégyzet: A reziduális szórás:
. .
11.13. táblázat - A legkisebb négyzetek módszerének megfelelő négyzetösszeg számítása Év 1982
135,8
119,7
16,1
259,21
1983
151,5
134,9
16,6
275,56
1984
157,0
152,0
5,0
25,00
1985
165,8
171,3
30,25
1986
182,9
193,1
104,04
1987
188,4
217,6
852,64
1988
185,3
245,2
3588,01
1989
225,4
276,4
2601,00
1990
341,1
311,5
29,6
876,16
1991
440,4
351,0
89,4
7992,36
1992
447,2
395,6
51,6
2662,56
Összesen
2620,8
19 266,79
A relatív reziduális szórás: . Az üdülőövezet vendégeinek exponenciális függvénnyel becsült létszámai a tényleges létszámoktól átlagosan 41,85 ezer fővel térnek el. Az exponenciális függvény szerinti létszámok 17,6%-os hibával illeszkednek a tényleges létszámadatokhoz. Tekintsük meg a 11.5. ábrát, ahol az eredeti idősort és annak exponenciális trendfüggvényét látjuk.
11,5. ábra - A kiemelt üdülőövezet vendéglétszámának idősora és exponenciális trendje
206 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
Mint már említettük, a összeg annak eldöntésére is alkalmas, hogy különböző típusú trendfüggvények közül melyik fejezi ki jobban az idősor alapirányzatát. Példánk adataiból a lineáris trendfüggvényt is meghatároztuk: . Mindkét trendfüggvény alapján meghatározva a trendértékeket és a minimalizált négyzetösszeget, a következőket kapjuk (11.14. táblázat).
11.14. táblázat - A trendtől való eltérések összehasonlítása Ténylege s Év
Lineáris trend szerinti
létszám (ezer fő) lineáris
exponenciális
1982
135,8
84,3
2652,25
259,21
1983
151,5
115,1
1324,96
275,56
1984
157,0
145,9
123,21
25,00
1991
440,4
361,4
2641,00
7992,36
1992
447,2
392,2
3025,00
2662,56
Összese n
2620,8
2620,8
29 231,70
19 266,79
Az utolsó oszlopban szereplő adatokat a 11.13. táblázatból vettük át.
207 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata Az exponenciális függvény jobban illeszkedik (19 266,79 < 29 231,70) és minden kiszámítható mutatószám is értelemszerűen kedvezőbb lesz, mint a lineáris trendfüggvény esetén. Parabolikus trend A jelenségek idősorai között gyakran találkozhatunk olyan típusokkal is, amelyek fejlődési tendenciájában nem figyelhető meg sem a lineáris függvényre jellemző abszolút, sem az exponenciális függvényre jellemző relatív változás állandósága. Amennyiben az idősorban irányvonal-változást tapasztalunk, növekedésből csökkenést vagy csökkenésből növekedést, az idősor elég jól jellemezhető a parabolikus függvénnyel. A továbbiakban csak a másodfokú parabolikus trendfüggvénnyel foglalkozunk, amelynek általános alakja:
A paramétereket ebben az esetben is a legkisebb négyzetek módszerével becsüljük. A normálegyenletek a következők:
A háromismeretlenes egyenletrendszer megoldása helyett általában a már megismert használjuk. Ha
akkor t további páratlan hatványainak összege is nulla. Így a
kiesése után fennmaradó második normálegyenletből a
A
és a
módszert és a
tagok
paraméter:
paraméter értékét pedig az alábbi egyenletrendszer megoldása eredményezi:
(Az első és a harmadik egyenlet „maradványa”.) Ekkor a becslés
.
A parabolikus trendfüggvény paramétereinek szakmai jelentést nem tulajdonítunk, az alapirányzat értékei alapján elemezzük a vizsgált jelenséget. A parabolikus trend számítását a magyarországi urántermelés 5 évenkénti folytonos idősorán mutatjuk be. Az adatokat és a
eljárásnak megfelelő számításokat a 11.15. táblázatban találjuk.
11.15. táblázat - Az urántermelés alakulása Magyarországon 208 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
Év
Termelés (ezer tonna)
t
380
1960
9
81
3420
426
2116
0 720
1965
4
16
6 2880
641
760
780
79 6241
0 760
1970
1
1
400 0
1975
850
0
0
0
0
0
844
1980
830
1
1
1
830
830
832
690
2
4
16
1380
2760
745
1985
6
36 4 3025
5
1990
620
3
9
81
Összes en
4850
0
28 196
1860
5580
582
38 1444
730 16 230 4850
0
13 26 6
Az egyszerűsödött egyenletrendszer:
Megoldása:
A parabolikus trendfüggvény:
Az urántermelés ötévenkénti adatait és az alapirányzat szerinti értékeit a 11.6. ábra szemlélteti.
11,6. ábra - Az urántermelés parabolikus trendje
209 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
Napjainkban nem következett be az urántermelés irányvonalának változása. A trendfüggvények alkalmazásával kapcsolatban a következőket jegyezzük meg: 1. Tananyagunkban csak a lineáris, az exponenciális és a parabolikus trendfüggvényt ismertettük. A gyakorlatban további függvénytípusokat is alkalmaznak az idősorban lévő tendencia leírására. A számítógépes programcsomagok segítségével bármilyen trendfüggvény könnyen előállítható a vizsgált adathalmazra. Pl. nemcsak másod-, hanemharmadrendű vagy p-edrendű parabola is használható. Ezek az ún. polinomiális trendfüggvények. A polinomiális trendfüggvény az időtényező p-edfokú polinomja:
Tapasztalati adatok alapján a legkisebb négyzetek módszerével számolva:
Ha eltérő fokszámú polinomokat hasonlítunk össze abból a szempontból, hogy melyik illeszkedik jobban az idősorhoz, akkor a reziduális szórás mutatóját a szabadságfokkal korrigálva kell használni. Ennek képlete:
ahol p a polinom fokszáma. 2. A trendfüggvény tárgyalásakor abból indulunk ki, hogy az egy speciális regressziófüggvény, ahol a független változó az időtényező. Felmerülhet bennünk, hogy különböző jelenségek időben megfigyelt adataiból regressziószámítást végezzünk. Az ilyen számításoknak számtalan „buktatója” lehet. Előfordulhat ugyanis, hogy két jelenség időbeli alakulása között akkor is mutatkozik regresszió, ha azok között semmiféle közvetlen oksági kapcsolat nincs. Lehetséges továbbá, hogy feltételezhető ugyan sztochasztikus kapcsolat a két jelenség (X és Y) között, de a kiszámított regressziós együtthatóban a magyarázóváltozó (X) hatása „keveredik” a trendhatással. Ez a keveredés önmagában nem zavar, ha a regressziószámítás fő célkitűzése a függő változó színvonalának 210 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata előrejelzése, becslése. (Pl. egy áru keresletét akarjuk előre jelezni az áralakulás függvényében.) Ha a regressziós együtthatónak is önálló jelentést tulajdonítunk, akkor indokolt a trendhatást kiszűrni. 3 Ennek módszereivel tananyagunkban nem foglalkozunk.
3. 11.3. A szezonalitás vizsgálata A szezonhatás vizsgálatánál arra keresünk választ, hogy a szezonalitás milyen mértékben vagy arányban téríti el az idősor értékét az alapirányzattól. Vizsgálatánál az idősor adataiból ki kell szűrnünk a trendhatást és a véletlen hatást. A szezonális komponens eltérő módon viselkedik additív és multiplikatív modell esetén. Additív összefüggés esetén a szezonhatás a trendtől való abszolút eltérés, multiplikatív kapcsolat esetén pedig relatív eltérés formájában jelentkezik. A szezonalitást additív modell esetén szezonális eltérésekkel, multiplikatív modell esetén szezonindexekkel jellemezzük.
3.1. 11.3.1. Szezonális eltérések számítása Additív összefüggés és lineáris trend esetén az idősor megfigyelt értékeit a komponensek összegeként írhatjuk fel:
A trendhatást úgy szűrjük ki, hogy az idősor megfigyelt értékeiből rendre kivonjuk a trendértékeket:
Az így nyert különbségeket egyedi szezonális eltéréseknek nevezzük. Ezt követően minden periódusból vesszük a j-edik eltérést ( ) és ezek számtani átlagát képezzük. Ezzel a véletlen hatást szűrjük ki, illetve tompítjuk:
Ha a trendet nem lineáris függvénnyel határoztuk meg, akkor nem teljesül az a feltétel, hogy a szezonális eltérések összege (illetve átlaga) nulla legyen. Mozgóátlagolással kapott trendértékek esetén ez elméletileg teljesül ugyan, de ha kevés számú megfigyelésünk van, akkor előfordulhat, hogy
.
Ilyen esetben a szezonális eltérések korrekciójára kerül sor. A korrigálás úgy történik, hogy az előbbiekben kiszámított ún. nyers szezonális eltérések átlagát képezzük, és az átlagot levonjuk az szezonális eltérések:
értékekből. A korrigált
A szezonális eltérések azt fejezik ki, hogy adott szezonban a szezonhatás miatt az idősor értéke átlagosan mennyivel magasabb vagy alacsonyabb a trend szerinti értéknél. Tekintsük ismét a 11.3. táblázatban közölt adatokat. A Nógrád megyei háztartások gázfogyasztását és a mozgóátlagolással kimutatott trend szerinti fogyasztását a 11.16. táblázatban ismét közöljük.
11.16. táblázat - Az egyedi szezonális eltérések számítási táblázata
981.
3
211 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
Adatok: millió
Év
Negyedév
Értékesített
Mozgóátlagolás ú trend
mennyiség
I.
3,5
II.
3,1
III.
2,4
3,6
IV.
3,9
4,4
I.
6,7
5,2
1,5
II.
6,4
5,9
0,5
III.
5,1
6,4
IV.
7,2
6,6
0,6
I.
7,4
6,7
0,7
II.
7,2
6,8
0,4
III.
5,2
7,0
IV.
8,0
7,3
1990
1991
1992 0,7
I.
8,2
7,6
0,6
II.
8,1
7,9
0,2
III.
7,2
8,1
IV.
8,5
8,3
0,2
I.
9,3
8,2
1,1
II.
8,0
8,7
III.
7,2
IV.
11,7
1993
1994
Az egyes negyedévek szezonális eltérései (millió
):
212 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
A korrekciós tényező:
A korrigált szezonális eltérések (millió
I.
II.
0,975
0,100
0,250
szezonális 0,969
0,094
0,244
Nyers szezonális eltérés
Korrigált eltérés
):
III.
IV.
Az I. negyedévi szezonális eltérés azt jelenti, hogy a háztartások számára értékesített gázmennyiség 1990 és 1994 között az I. negyedévekben átlagosan 0,969 millió haladja meg az alapirányzat szerinti mennyiséget. A III. negyedévekben a szezonhatás miatt elmarad az értékesítés az alapirányzattól, átlagosan 1,306 millió
3.2. 11.3.2. Szezonindexek számítása Multiplikatív összefüggés és exponenciális trend esetén az idősor megfigyelt értékeit a komponensek szorzataként írhatjuk fel:
A trendhatást úgy szűrjük ki, hogy az idősor megfigyelt értékeit rendre elosztjuk a trendértékekkel:
Az így nyert hányadosokat egyedi szezonindexeknek nevezzük. Ezt követően minden periódusból vesszük a jedik szezonindexet ( ) és ezek mértani átlagát képezzük. Ezzel a véletlen hatást szűrjük ki, illetve tompítjuk:
Ha a trendet nem exponenciális függvénnyel írtuk le, akkor nem teljesül az a feltétel, hogy . Mozgóátlagolással számított trendértékek felhasználása esetén is előfordulhat, hogy a véletlen hatás nem szűrődik ki teljes egészében. Ilyen esetben a szezonindexek korrekciójára kerül sor. A korrigálás úgy történik, hogy az előbbiekben kiszámított ún. nyers szezonindexek mértani átlagát képezzük, és ezzel az átlaggal elosztjuk az A korrigált szezonindexek:
213 Created by XMLmind XSL-FO Converter.
értékeit.
Az idősorok összetevőinek vizsgálata A szezonindex azt fejezi ki, hogy az adott szezonban a szezonhatás miatt az idősor értéke átlagosan hányszorosa az alapirányzat szerinti értéknek. A szezonindexek számítását a következő példán mutatjuk be. (Adatok a 11.17. táblázatban.)
11.17. táblázat - Egy márkakereskedő személygépkocsi-értékesítésének adatai Negyedév Év
I.
II.
III.
IV.
1991
13
10
30
38
1992
21
17
42
22
1993
21
17
45
41
1994
25
18
47
42
Az alapirányzatot az
egyenlet fejezi ki, ha
Számítsuk ki az egyedi szezonindexeket! Ehhez először kiszámítjuk a trendértékeket, majd a megfelelő hányadosokat képezzük (11.18. táblázat). Az egyes negyedévek szezonindexei (%):
A négy szezonindex szorzata:
Példánkban, mivel a trendet lineáris függvénnyel fejeztük ki, a szezonindexek szorzata jelentősen eltér a kívánatos 1-től. Mivel a
, ezért korrekciós tényezőt képezve korrigálnunk kell.
11.18. táblázat - Munkatábla az egyedi szezonindexek kiszámításához
Év
Negyedév
1991
I.
13
19
68,4
II.
10
20
50,0
III.
30
21
142,9
IV.
38
22
172,7
I.
21
23
91,3
1992
214 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
1993
1994
II.
17
25
68,0
III.
42
26
161,5
IV.
22
27
81,5
I.
21
29
72,4
II.
17
30
56,7
III.
45
31
145,2
IV.
41
32
128,1
I.
25
34
43,8
II.
18
35
51,4
III.
47
36
130,6
IV.
42
38
110,5
A korrekciós tényező:
.
A korrigált szezonindexek %-os formában:
(Ezek szorzata:
.)
Az eredmények alapján megállapíthatjuk, hogy a személygépkocsi-értékesítés pl. a II. negyedévben átlagosan csak 60,7%-a a trend szerintinek, míg pl. a IV. negyedévben a szezonhatás miatt átlagosan 28,5%-kal meghaladja a trend szerint várható forgalmat.
4. 11.4. Előrejelzés az eredmények alapján A piaci viszonyokhoz való gyors alkalmazkodás szükségessé teszi, hogy bizonyos jelenségeket rövidebb, hosszabb időszakra előre megbecsüljünk. E tevékenység egyik eszköze a gazdasági előrejelzés, a prognosztika. A gazdasági előrejelzés statisztikai módszertana igen széles körű, ennek egyik fontos területe az idősorok extrapolációja. Ez abban áll, hogy a feltárt törvényszerűségeket előrevetítjük a jövőbe, feltételezve azok további folytatódását. Az extrapoláció egyik legegyszerűbb módja az, hogy a fejlődés átlagos mértéke ( ) vagy a fejlődés átlagos üteme ( ) alapján végzünk becslést. Ha az abszolút változást tételezzük fel egyenletesnek, akkor lineáris; ha a relatív változást tételezzük fel egyenletesnek, akkor exponenciális extrapolációt hajtunk végre. Ha az idősor (vagy legalább az első és utolsó) megfigyelt adatát ismerjük, akkor az idősor becslése: Lineáris extrapolációval:
Exponenciális extrapolációval:
215 Created by XMLmind XSL-FO Converter.
adatának
Az idősorok összetevőinek vizsgálata A két adat alapján történő becslés eredménye félrevezető is lehet. Megbízhatóbb előrejelzést végezhetünk a trendfüggvénnyel meghatározott alapirányzat alapján. Az extrapolációt úgy végezzük, hogy az előre jelezni kívánt időegység t értékét behelyettesítjük a trendfüggvénybe. Végezzünk előrejelzést a 11.12. táblázatban közölt idősorra. Az exponenciális trendfüggvény: volt, melyet a vendégforgalom 1982-től 1992-ig ismert adataiból számítottunk. Az 1992-es évhez tartozó t érték 5 volt. Becslés 1996-ra:
(A t értékeit „továbbvezettük”.)
Ha az idősor szezonális ingadozást is tartalmaz, az extrapolációnál azt is figyelembe kell venni. Ha megfigyeléseink negyedévekre (vagy hónapokra) vonatkoznak, akkor az ( )-adik periódus j-edik szezonjában az extrapolált érték: Additív kapcsolatot feltételezve:
.
Multiplikatív kapcsolatot feltételezve:
.
Példaként tekintsük a személygépkocsi-értékesítés korábban kiszámított adatait. Az 1991. I. negyedéve és 1994. IV. negyedéve közötti időszakot jellemző trendegyenlet: és 1992. IV. negyedév
(
, 1993. I. negyedév
).
11.19. táblázat - A személygépkocsi-értékesítés szezonalitását jellemző szezonindexek Negyedév
I.
II.
III.
IV.
Szezonindex (%)
82,1
60,7
156,4
128,5
Becslés az 1996-os év egyes negyedéveire:
11.20. táblázat - A trend és a szezonhatás előrejezése Negyedév
t
Trendérték (db)
Megjegyzés: 1994. IV. negyedév höz.
Várható értékesítés (db)
; kettesével továbbvezetve jutottunk el 1996. I. negyedévére a
-
Mint példáinkból látjuk, az előrejelzések egyszerűen végrehajthatók. Óvakodnunk kell azonban az előrejelzések mechanikus alkalmazásától. Megbízható előrejelzést csak akkor tudunk adni, ha az alapirányzatot, a múltbeli tendenciát megbízható adatokat tartalmazó, kellően hosszú idősorok alapján állapítottuk meg.
216 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
5. 11.5. Gyakorlófeladatok 1. A színházlátogatások számának alakulása Magyarországon:
Év
Látogatás (1000)
1984
5998
1985
6072
1986
5957
1987
5868
1988
5717
1989
5195
1990
4991
1991
5094
1992
4749
Feladat: a) Ábrázoljuk az adatokat! b) Vizsgáljuk meg az idősorban érvényesülő tendenciát lineáris trendfüggvény segítségével! c) Értelmezzük a paramétereket! d) Adjunk becslést 1995-re! 2. Egy intézmény létszámának alakulása:
Év
Létszám (fő)
1990
20
1991
22
1992
25
1993
28
1994
30
1995
34
Feladat: a) Számítsuk ki a lineáris trendfüggvény paramétereit a
, valamint a
b) Számítsuk ki a trendértékeket! 3. A légi szállítás adatai:
217 Created by XMLmind XSL-FO Converter.
módszerrel!
Az idősorok összetevőinek vizsgálata
Év
Szállított Utaskilométer utasok (1000 (millió) fő)
Díjbevétel (millió Ft)
1986
1197
1143,0
4 124,8
1987
1320
1285,6
5 032,7
1988
1310
1344,3
6 160,9
1989
1472
1576,6
7 873,3
1990
1517
1694,8
12 230,0
1991
1045
1286,7
15 717,6
1992
1213
1478,1
18 779,8
Feladat: a) Vizsgáljuk a légi szállítás alakulását az 1986-os évhez képest, valamint évről évre! b) Számítsunk trendfüggvényeket mindhárom idősorra! c) Adjunk becslést 1995-re:
4. Az egyéni vállalkozásokban foglalkoztatottak létszámának alakulása a kereskedelmi ágazatban:
Év
Létszám (1000 fő) január 1-jei állapot
1984
43,5
1985
50,9
1986
58,6
1987
67,6
1988
78,0
1991
146,6
1992
201,5
Feladat: a) Ábrázoljuk az adatokat! b) Az ábra alapján döntsünk a trendfüggvény típusáról! Számítsuk ki a megfelelő trendfüggvény paramétereit! c) Számítsuk ki a függvényértékeket, és rajzoljuk be a grafikus ábrába! d) Adjunk becslést az 1995-ös évre vonatkozóan a trendfüggvény, a fejlődés átlagos mértéke ( ), valamint a fejlődés átlagos üteme ( ) alapján! Hasonlítsuk össze az eredményeket!
218 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata 5. A lakosság takarékbetét-állományának alakulása Magyarországon:
Év
Betétállomány (Mrd Ft)
1980
145,3
1981
160,1
1982
175,7
1983
197,1
1984
219,4
1985
244,1
1986
274,9
1987
287,5
1988
312,7
1989
309,5
1990
368,6
1991
466,0
1992
634,7
A megadott adatok alapján kiszámított exponenciális trendfüggvény szerint a betétállomány évente átlagosan 11,2%-kal növekedett. Ismert továbbá, hogy az 1980-ra becsült trend 140,4 Mrd Ft, 1992-re pedig 501,9 Mrd Ft. A trendfüggvény jellemzésére kiszámított
.
Feladat: a) Írjuk fel az exponenciális trendfüggvény egyenletét a
módszer szerint!
b) Számítsuk ki a lineáris trend paramétereit, és értelmezzük azokat! c) Adjunk becslést 1995-re a jobb közelítést adó trendfüggvény alapján! 6. A GYES-en, GYED-en lévők számának alakulása Magyarországon:
Év
1000 fő
1980
264
1981
254
1982
242
1983
233
1984
224
219 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata
1985
218
1986
220
1987
225
1988
231
1989
241
1990
245
1991
247
1992
272
Feladat: a) Ábrázoljuk az adatokat! Döntsünk a legmegfelelőbb trendfüggvény típusáról! b) Számítsuk ki a paramétereket, és írjuk fel a trendfüggvényt! c) A trendadatok ismeretében rajzoljuk az ábrába a függvényt! 7. Egy áruházlánc boltjaiban értékesített fűszerek forgalmának alakulása:
Év
Negyedév
Forgalom (millió Ft)
1990
I.
38
II.
23
III.
37
IV.
71
I.
35
II.
27
III.
36
IV.
72
I.
38
II.
27
III.
41
IV.
75
I.
41
II.
25
III.
41
IV.
80
1991
1992
1993
220 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata Feladat: a) Ábrázoljuk az adatokat! b) Számítsuk ki a mozgóátlagolású trend adatait! c) Vizsgáljuk a szezonhatást! Értelmezzük a kapott eredményeket! d) Mivel a mozgóátlagok alapján nem készíthetünk pontos előrejelzést, számítsunk lineáris trendfüggvényt a centrírozott mozgóátlagokból! e) Adjunk becslést az 1996-os év fűszerforgalmára vonatkozóan, a szezonalitást is figyelembe véve! 8. Egy építőipari vállalkozás tevékenységének árbevétele a következőképpen alakult (M Ft):
Negyedév Év I.
II.
III.
IV.
1991
20
30
40
10
1992
22
33
50
13
1993
25
36
60
15
1994
28
40
70
20
Az alapirányzatot leíró lineáris trend egyenlete: Feladat: a) Az összetevők szorzatszerű kapcsolatának feltételezésével vizsgáljuk meg az árbevétel alakulásának szezonalitását! b) Adjunk becslést az 1995-ös év egyes negyedéveire vonatkozóan! c) Számítsuk ki, hogy mennyi a véletlen hatás 1994 IV. negyedévében? 9. Egy déligyümölcsöket importáló gazdálkodó szervezet citromforgalmának szezonalitását vizsgáltuk. A trendértéket az
függvény alapján becsültük. (Mértékegység: tonna.)
Az egyedi szezonális eltérések táblázata:
Negyedév Év I.
II.
1980
158
15
1991
107
1992
167
1993
206
44
1994
186
43
III.
IV.
Feladat:
221 Created by XMLmind XSL-FO Converter.
Az idősorok összetevőinek vizsgálata a) Számítsuk ki az egyes negyedévek korrigált szezonális eltérését! Mondjuk meg jelentésüket! b) Adjunk becslést az 1995-ös év megfelelő negyedéveire a trend- és a szezonhatás ismeretében! c) Mennyi a véletlen tényezők szerepe 1995 II. negyedévében, ha ismerjük, hogy ennek az időszaknak a tényleges forgalma 680 tonna volt?
222 Created by XMLmind XSL-FO Converter.
A. függelék - Függelék 1. táblázat - A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata x
x
x
x
0,00
0,500 0
0,34
0,633 1
0,68
0,751 7
1,0 0,846 2 1
0,01
0,504 0
0,35
0,636 8
0,69
0,754 9
1,0 0,848 3 5
0,02
0,508 0
0,36
0,640 6
0,70
0,758 0
1,0 0,850 4 8
0,03
0,512 0
0,37
0,644 3
0,71
0,761 1
1,0 0,853 5 1
0,04
0,516 0
0,38
0,648 0
0,72
0,764 2
1,0 0,855 6 4
0,05
0,519 9
0,39
0,651 7
0,73
0,767 3
1,0 0,857 7 7
0,06
0,523 9
0,40
0,655 4
0,74
0,770 4
1,0 0,859 8 9
0,07
0,527 9
0,41
0,659 1
0,75
0,773 4
1,0 0,862 9 1
0,08
0,531 9
0,42
0,662 8
0,76
0,776 4
1,1 0,864 0 3
0,09
0,535 9
0,43
0,666 4
0,77
0,779 4
1,1 0,866 1 5
0,10
0,539 8
0,44
0,670 0
0,78
0,782 3
1,1 0,868 2 6
0,11
0,543 8
0,45
0,673 6
0,79
0,785 2
1,1 0,870 3 8
0,12
0,547 8
0,46
0,677 2
0,80
0,788 1
1,1 0,872 4 9
0,13
0,551 7
0,47
0,680 8
0,81
0,791 0
1,1 0,874 5 9
0,14
0,555 7
0,48
0,684 4
0,82
0,793 9
1,1 0,877 6 0
0,83 0,796
1,1 0,879
0,15 0,559
0,49 0,687
223 Created by XMLmind XSL-FO Converter.
Függelék
6
9
7
7
0
0,16
0,563 6
0,50
0,691 5
0,84
0,799 5
1,1 0,881 8 0
0,17
0,567 5
0,51
0,695 0
0,85
0,802 3
1,1 0,883 9 0
0,18
0,571 4
0,52
0,698 5
0,86
0,805 1
1,2 0,884 0 9
0,19
0,575 3
0,53
0,701 9
0,87
0,807 8
1,2 0,886 1 9
0,20
0,579 3
0,54
0,705 4
0,88
0,810 6
1,2 0,888 2 8
0,21
0,583 2
0,55
0,708 8
0,89
0,813 3
1,2 0,890 3 7
0,22
0,587 1
0,56
0,712 3
0,90
0,815 9
1,2 0,892 4 5
0,23
0,591 0
0,57
0,715 7
0,91
0,818 6
1,2 0,894 5 4
0,24
0,594 8
0,58
0,719 0
0,92
0,821 2
1,2 0,896 6 2
0,25
0,598 7
0,59
0,722 4
0,93
0,823 8
1,2 0,898 7 0
0,26
0,602 6
0,60
0,725 7
0,94
0,826 4
1,2 0,899 8 7
0,27
0,606 4
0,61
0,729 1
0,95
0,828 9
1,2 0,901 9 5
0,28
0,610 3
0,62
0,732 4
0,96
0,831 5
1,3 0,903 0 2
0,29
0,614 1
0,63
0,735 7
0,97
0,834 0
1,3 0,904 1 9
0,30
0,617 9
0,64
0,738 9
0,98
0,836 5
1,3 0,906 2 6
0,31
0,621 7
0,65
0,742 2
0,99
0,838 9
1,3 0,908 3 2
0,32
0,625 5
0,66
0,745 4
1,00
0,841 3
1,3 0,909 4 9
0,33
0,629 3
0,67
0,748 6
1,01
0,843 8
1,3 0,911 5 5
224 Created by XMLmind XSL-FO Converter.
Függelék
1. táblázat - A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata (folytatás) x
x
x
x
1,36
0,913 1
1,70
0,95 54
2,08
0,981 2
2,7 0,997 6 1
1,37
0,914 7
1,71
0,95 64
2,10
0,982 1
2,7 0,997 8 3
1,38
0,916 2
1,72
0,95 73
2,12
0,983 0
2,8 0,997 0 4
1,39
0,917 7
1,73
0,95 82
2,14
0,983 8
2,8 0,997 2 6
1,40
0,919 2
1,74
0,95 91
2,16
0,984 6
2,8 0,997 4 7
1,41
0,920 7
1,75
0,95 99
2,18
0,985 4
2,8 0,997 6 9
1,42
0,922 2
1,76
0,96 08
2,20
0,986 1
2,8 0,998 8 0
1,43
0,923 6
1,77
0,96 16
2,22
0,986 8
2,9 0,998 0 1
1,44
0,925 1
1,78
0,96 25
2,24
0,987 5
2,9 0,998 2 2
1,45
0,926 5
1,79
0,96 33
2,26
0,988 1
2,9 0,998 4 4
1,46
0,927 9
1,80
0,96 41
2,28
0,988 7
2,9 0,998 6 5
1,47
0,929 2
1,81
0,96 49
2,30
0,989 3
2,9 0,998 8 6
1,48
0,930 6
1,82
0,96 56
2,32
0,989 8
3,0 0,998 0 7
1,49
0,931 9
1,83
0,96 64
2,34
0,990 4
3,0 0,998 5 9
1,50
0,933 2
1,84
0,96 71
2,36
0,990 9
3,1 0,999 0 0
1,51
0,934 5
1,85
0,96 78
2,38
0,991 3
3,1 0,999 5 2
1,52
0,935 7
1,86
0,96 86
2,40
0,991 8
3,2 0,999 0 3 225
Created by XMLmind XSL-FO Converter.
Függelék
1,53
0,937 0
1,87
0,96 93
2,42
0,992 2
3,2 0,999 5 4
1,54
0,938 2
1,88
0,96 99
2,44
0,992 7
3,3 0,999 0 5
1,55
0,939 4
1,89
0,97 06
2,46
0,993 1
3,3 0,999 5 6
1,56
0,940 6
1,90
0,97 13
2,48
0,993 4
3,4 0,999 0 7
1,57
0,941 8
1,91
0,97 19
2,50
0,993 8
3,4 0,999 5 7
1,58
0,942 9
1,92
0,97 26
2,52
0,994 1
3,5 0,999 0 8
1,59
0,944 1
1,93
0,97 32
2,54
0,994 5
3,5 0,999 5 8
1,60
0,945 2
1,94
0,97 38
2,56
0,994 8
3,6 0,999 0 8
1,61
0,946 3
1,95
0,97 44
2,58
0,995 1
3,6 0,999 5 9
1,62
0,947 4
1,96
0,97 50
2,60
0,995 3
3,7 0,999 0 9
1,63
0,948 4
1,97
0,97 56
2,62
0,995 6
3,7 0,999 5 9
1,64
0,949 5
1,98
0,97 61
2,64
0,995 9
3,8 0,999 0 9
1,65
0,950 5
1,99
0,97 67
2,66
0,996 1
1,66
0,951 5
2,00
0,97 72
2,68
0,996 3
1,67
0,952 5
2,02
0,97 83
2,70
0,996 5
1,68
0,953 5
2,04
0,97 93
2,72
0,996 7
1,69
0,954 5
2,06
0,98 03
2,74
0,996 9
2. táblázat - A szf
0,005
-eloszlás táblázata 0,01
0,025
0,05
0,1
0,25 226
Created by XMLmind XSL-FO Converter.
Függelék
1
0,0000
0,0002
0,0010
0,0039
0,0158
0,102
2
0,0100
0,0201
0,0506
0,103
0,211
0,575
3
0,072
0,115
0,216
0,352
0,5844
1,21
4
0,207
0,297
0,484
0,711
1,06
1,92
5
0,412
0,554
0,831
1,15
1,61
2,67
6
0,676
0,872
1,24
1,64
2,20
3,45
7
0,989
1,24
1,69
2,17
2,83
4,25
8
1,34
1,65
2,18
2,73
3,49
5,07
9
1,73
2,09
2,70
3,33
4,17
5,90
10
2,16
2,56
3,25
3,94
4,87
6,74
11
2,60
3,05
3,82
4,57
5,58
7,58
12
3,07
3,57
4,40
5,23
6,30
8,44
13
3,57
4,11
5,01
5,89
7,04
9,30
14
4,07
4,66
5,63
6,57
7,79
10,2
15
4,60
5,23
6,26
7,26
8,55
11,0
16
5,14
5,81
6,91
7,96
9,31
11,9
17
5,70
6,41
7,56
8,67
10,1
12,8
18
6,26
7,01
8,23
9,39
10,9
13,7
19
6,84
7,63
8,91
10,1
11,7
14,6
20
7,43
8,26
9,59
10,9
12,4
15,5
21
8,03
8,90
10,3
11,6
13,2
16,3
22
8,64
9,54
11,0
12,3
14,0
17,2
23
9,26
10,2
11,7
13,1
14,8
18,1
24
9,89
10,9
12,4
13,8
15,7
19,0
25
10,5
11,5
13,1
14,6
16,5
19,9
26
11,2
12,2
13,8
15,4
17,3
20,8
27
11,8
12,9
14,6
16,2
18,1
21,7
227 Created by XMLmind XSL-FO Converter.
Függelék
28
12,5
13,6
15,3
16,9
18,9
22,7
29
13,1
14,3
16,0
17,7
19,8
23,6
30
13,8
15,0
16,8
18,5
20,6
24,5
40
20,7
22,2
24,4
26,5
29,1
33,7
50
28,0
29,7
32,4
34,8
37,7
42,9
60
35,5
37,5
40,5
43,2
46,5
52,3
80
51,2
53,5
57,2
60,4
64,3
71,1
100
67,3
70,1
74,2
77,9
82,4
90,1
200
152,2
156,4
162,7
168,3
174,8
186,2
2. táblázat - A
-eloszlás táblázata (folytatás)
szf
0,5
0,75
0,9
0,95
0,975
0,995
1
0,455
1,32
2,71
3,84
5,02
7,879
2
1,39
2,77
4,61
5,99
7,38
10,6
3
2,37
4,11
6,25
7,81
9,35
12,8
4
3,36
5,39
7,78
9,49
11,1
14,9
5
4,35
6,63
9,24
11,1
12,8
16,7
6
5,35
7,84
10,6
12,6
14,4
18,5
7
6,35
9,04
12,0
14,1
16,0
20,3
8
7,34
10,2
13,4
15,5
17,5
22,0
9
8,34
11,4
14,7
16,9
19,0
23,6
10
9,34
12,5
16,0
18,3
20,5
25,2
11
10,3
13,7
17,3
19,7
21,9
26,8
12
11,3
14,8
18,5
21,0
23,3
28,3
13
12,3
16,0
19,8
22,4
24,7
29,8
14
13,3
17,1
21,1
23,7
26,1
31,3
15
14,3
18,2
22,3
25,0
27,5
32,8
16
15,3
19,4
23,5
26,3
28,8
34,3 228
Created by XMLmind XSL-FO Converter.
Függelék
17
16,3
20,5
24,8
27,6
30,2
35,7
18
17,3
21,6
26,0
28,9
31,5
37,2
19
18,3
22,7
27,2
30,1
32,9
38,6
20
19,3
23,8
28,4
31,4
34,2
40,0
21
20,3
24,9
29,6
32,7
35,5
41,4
22
21,3
26,0
30,8
33,9
36,8
42,8
23
22,3
27,1
32,0
35,2
38,1
44,2
24
23,3
28,2
33,2
36,4
39,4
45,6
25
24,3
29,3
34,4
37,7
40,6
46,9
26
25,3
30,4
35,6
38,9
41,9
48,3
27
26,3
31,5
36,7
40,1
43,2
49,6
28
27,3
32,6
37,9
41,3
44,5
51,0
29
28,3
33,7
39,1
42,6
45,7
52,3
30
29,3
34,8
40,3
43,8
47,0
53,7
40
39,3
45,6
51,8
55,8
59,3
66,8
50
49,3
56,3
63,2
67,5
71,4
79,5
60
59,3
67,0
74,4
79,1
83,3
92,0
80
79,3
88,1
96,6
101,9
106,6
116,3
100
99,3
109,1
118,5
124,3
129,6
140,2
200
199,3
213,1
226,0
234,0
241,1
255,3
3. táblázat - AzF-eloszlás táblázata
1
2
3
4
5
6
7
8
9
1
161, 199, 215, 224, 230, 233, 236, 238, 240, 45 50 71 58 16 99 77 88 54
2
18,5 19,0 19,1 19,2 19,3 19,3 19,3 19,3 19,3 1 0 6 5 0 3 5 7 8
229 Created by XMLmind XSL-FO Converter.
Függelék
3
10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 3
4
7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00
5
6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77
6
5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10
7
5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68
8
5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39
9
5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18
10
4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02
11
4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90
12
4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80
13
4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71
14
4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65
15
4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59
16
4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54
17
4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49
18
4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46
19
4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42
20
4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39
21
4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37
22
4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34
23
4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32
24
4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30
25
4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28
26
4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27
27
4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25
28
4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24
230 Created by XMLmind XSL-FO Converter.
Függelék
29
4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22
30
4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21
40
4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12
50
4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 ∞
3,85 3,00 2,61 2,38 2,22 2,11 2,02 1,95 1,89
3. táblázat - Az F-eloszlás táblázata (folytatás)
10
15
20
30
40
50
100
120
∞
241, 245, 248, 250, 251, 251, 253, 253, 254, 88 95 02 10 14 77 04 25 19
1
19,4 19,4 19,4 19,4 19,4 19,4 19,4 19,4 19,4 0 3 5 6 7 8 9 9 9
2
8,79 8,70 8,66 8,62 8,59 8,58 8,55 8,55 8,53
3
5,96 5,86 5,80 5,75 5,72 5,70 5,66 5,66 5,63
4
4,74 4,62 4,56 4,50 4,46 4,44 4,41 4,40 4,37
5
4,06 3,94 3,87 3,81 3,77 3,75 3,71 3,70 3,67
6
3,64 3,51 3,44 3,38 3,34 3,32 3,27 3,27 3,23
7
3,35 3,22 3,15 3,08 3,04 3,02 2,97 2,97 2,93
8
3,14 3,01 2,94 2,86 2,83 2,80 2,76 2,75 2,71
9
2,98 2,85 2,77 2,70 2,66 2,64 2,59 2,58 2,54
10
2,85 2,72 2,65 2,57 2,53 2,51 2,46 2,45 2,41
11
2,75 2,62 2,54 2,47 2,43 2,40 2,35 2,34 2,30
12
2,67 2,53 2,46 2,38 2,34 2,31 2,26 2,25 2,21
13
2,60 2,46 2,39 2,31 2,27 2,24 2,19 2,18 2,14
14
2,54 2,40 2,33 2,25 2,20 2,18 2,12 2,11 2,07
15
231 Created by XMLmind XSL-FO Converter.
Függelék
2,49 2,35 2,28 2,19 2,15 2,12 2,07 2,06 2,02
16
2,45 2,31 2,23 2,15 2,10 2,08 2,02 2,01 1,97
17
2,41 2,27 2,19 2,11 2,06 2,04 1,98 1,97 1,92
18
2,38 2,23 2,16 2,07 2,03 2,00 1,94 1,93 1,88
19
2,35 2,20 2,12 2,04 1,99 1,97 1,91 1,90 1,85
20
2,32 2,18 2,10 2,01 1,96 1,94 1,88 1,87 1,82
21
2,30 2,15 2,07 1,98 1,94 1,91 1,85 1,84 1,79
22
2,27 2,13 2,05 1,96 1,91 1,88 1,82 1,81 1,76
23
2,25 2,11 2,03 1,94 1,89 1,86 1,80 1,79 1,74
24
2,24 2,09 2,01 1,92 1,87 1,84 1,78 1,77 1,72
25
2,22 2,07 1,99 1,90 1,85 1,82 1,76 1,75 1,70
26
2,20 2,06 1,97 1,88 1,84 1,81 1,74 1,73 1,68
27
2,19 2,04 1,96 1,87 1,82 1,79 1,73 1,71 1,66
28
2,18 2,03 1,94 1,85 1,81 1,77 1,71 1,70 1,65
29
2,16 2,01 1,93 1,84 1,79 1,76 1,70 1,68 1,63
30
2,08 1,92 1,84 1,74 1,69 1,66 1,59 1,58 1,52
40
2,03 1,87 1,78 1,69 1,63 1,60 1,52 1,51 1,45
50
1,93 1,77 1,68 1,57 1,52 1,48 1,39 1,38 1,30 100 1,91 1,75 1,66 1,55 1,50 1,46 1,37 1,35 1,27 120 1,84 1,68 1,58 1,47 1,41 1,36 1,26 1,24 1,11
∞
3. táblázat - Az F-eloszlás táblázata (folytatás)
1
2
3
4
5
6
7
8
9
1
647, 799, 864, 899, 921, 937, 948, 956, 963, 79 48 15 60 83 11 20 64 28
2
38,5 39,0 39,1 39,2 39,3 39,3 39,3 39,3 39,3 1 0 7 5 0 3 6 7 9
232 Created by XMLmind XSL-FO Converter.
Függelék
3
17,4 16,0 15,4 15,1 14,8 14,7 14,6 14,5 14,4 4 4 4 0 8 3 2 4 7
4
12,2 10,6 9,98 9,60 9,36 9,20 9,07 8,98 8,90 2 5
5
10,0 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 1
6
8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52
7
8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82
8
7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36
9
7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03
10
6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78
11
6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59
12
6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44
13
6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31
14
6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21
15
6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12
16
6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05
17
6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98
18
5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93
19
5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88
20
5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84
21
5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80
22
5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76
23
5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73
24
5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70
25
5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68
26
5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65
27
5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63
28
5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 233 Created by XMLmind XSL-FO Converter.
Függelék
29
5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59
30
5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57
40
5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45
50
5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38
100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 ∞
5,03 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11
3. táblázat - Az F-eloszlás táblázata (folytatás)
10
15
20
30
40
50
100
120
∞
968, 984, 993, 1001 1005 1008 1013 1014 1018 63 87 08 ,4 ,6 ,1 ,2 ,0 ,2
1
39,4 39,4 39,4 39,4 39,4 39,4 39,4 39,4 39,5 0 3 5 6 7 8 9 9 0
2
14,4 14,2 14,1 14,0 14,0 14,0 13,9 13,9 13,9 2 5 7 8 4 1 6 5 0
3
8,84 8,66 8,56 8,46 8,41 8,38 8,32 8,31 8,26
4
6,62 6,43 6,33 6,23 6,18 6,14 6,08 6,07 6,02
5
5,46 5,27 5,17 5,07 5,01 4,98 4,92 4,90 4,85
6
4,76 4,57 4,47 4,36 4,31 4,28 4,21 4,20 4,14
7
4,30 4,10 4,00 3,89 3,84 3,81 3,74 3,73 3,67
8
3,96 3,77 3,67 3,56 3,51 3,47 3,40 3,39 3,33
9
3,72 3,52 3,42 3,31 3,26 3,22 3,15 3,14 3,08
10
3,53 3,33 3,23 3,12 3,06 3,03 2,96 2,94 2,88
11
3,37 3,18 3,07 2,96 2,91 2,87 2,80 2,79 2,73
12
3,25 3,05 2,95 2,84 2,78 2,74 2,67 2,66 2,60
13
3,15 2,95 2,84 2,73 2,67 2,64 2,56 2,55 2,49
14
3,06 2,86 2,76 2,64 2,59 2,55 2,47 2,46 2,40
15
234 Created by XMLmind XSL-FO Converter.
Függelék
2,99 2,79 2,68 2,57 2,51 2,47 2,40 2,38 2,32
16
2,92 2,72 2,62 2,50 2,44 2,41 2,33 2,32 2,25
17
2,87 2,67 2,56 2,44 2,38 2,35 2,27 2,26 2,19
18
2,82 2,62 2,51 2,39 2,33 2,30 2,22 2,20 2,13
19
2,77 2,57 2,46 2,35 2,29 2,25 2,17 2,16 2,09
20
2,73 2,53 2,42 2,31 2,25 2,21 2,13 2,11 2,04
21
2,70 2,50 2,39 2,27 2,21 2,17 2,09 2,08 2,00
22
2,67 2,47 2,36 2,24 2,18 2,14 2,06 2,04 1,97
23
2,64 2,44 2,33 2,21 2,15 2,11 2,02 2,01 1,94
24
2,61 2,41 2,30 2,18 2,12 2,08 2,00 1,98 1,91
25
2,59 2,39 2,28 2,16 2,09 2,05 1,97 1,95 1,88
26
2,57 2,36 2,25 2,13 2,07 2,03 1,94 1,93 1,85
27
2,55 2,34 2,23 2,11 2,05 2,01 1,92 1,91 1,83
28
2,53 2,32 2,21 2,09 2,03 1,99 1,90 1,89 1,81
29
2,51 2,31 2,20 2,07 2,01 1,97 1,88 1,87 1,79
30
2,39 2,18 2,07 1,94 1,88 1,83 1,74 1,72 1,64
40
2,32 2,11 1,99 1,87 1,80 1,75 1,66 1,64 1,55
50
2,18 1,97 1,85 1,71 1,64 1,59 1,48 1,46 1,35 100 2,16 1,94 1,82 1,69 1,61 1,56 1,45 1,43 1,31 120 2,05 1,83 1,71 1,57 1,49 1,43 1,30 1,27 1,00
∞
3. táblázat - Az F-eloszlás táblázata (folytatás)
1
2
3
4
5
6
7
8
9
1
4052 4999 5403 5624 5764 5859 5928 5981 6022 ,2 ,3 ,5 ,3 ,0 ,0 ,3 ,0 ,4
2
98,5 99,0 99,1 99,2 99,3 99,3 99,3 99,3 99,3 0 0 6 5 0 3 6 8 9
235 Created by XMLmind XSL-FO Converter.
Függelék
3
34,1 30,8 29,4 28,7 28,2 27,9 27,6 27,4 27,3 2 2 6 1 4 1 7 9 4
4
21,2 18,0 16,6 15,9 15,5 15,2 14,9 14,8 14,6 0 0 9 8 2 1 8 0 6
5
16,2 13,2 12,0 11,3 10,9 10,6 10,4 10,2 10,1 6 7 6 9 7 7 6 9 6
6
13,7 10,9 9,78 9,15 8,75 8,47 8,26 8,10 7,98 5 2
7
12,2 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 5
8
11,2 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 6
9
10,5 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 6
10
10,0 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4
11
9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63
12
9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39
13
9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19
14
8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03
15
8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89
16
8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78
17
8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68
18
8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60
19
8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52
20
8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46
21
8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40
22
7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35
23
7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30
24
7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26
25
7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22
236 Created by XMLmind XSL-FO Converter.
Függelék
26
7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18
27
7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15
28
7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12
29
7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09
30
7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07
40
7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89
50
7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78
100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 ∞
6,64 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41
3. táblázat - Az F-eloszlás táblázata (folytatás)
10
15
20
30
40
50
100
120
∞
6055 6157 6208 6260 6286 6302 6333 6339 6365 1 ,9 ,0 ,7 ,4 ,4 ,3 ,9 ,5 ,6 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,5 2 0 3 5 7 8 8 9 9 0 27,2 26,8 26,6 26,5 26,4 26,3 26,2 26,2 26,1 3 3 7 9 0 1 5 4 2 3 14,5 14,2 14,0 13,8 13,7 13,6 13,5 13,5 13,4 4 5 0 2 4 5 9 8 6 6 10,0 9,72 9,55 9,38 9,29 9,24 9,13 9,11 9,02 5 5 7,87 7,56 7,40 7,23 7,14 7,09 6,99 6,97 6,88 6 6,62 6,31 6,16 5,99 5,91 5,86 5,75 5,74 5,65 7 5,81 5,52 5,36 5,20 5,12 5,07 4,96 4,95 4,86 8 5,26 4,96 4,81 4,65 4,57 4,52 4,41 4,40 4,31 9 4,85 4,56 4,41 4,25 4,17 4,12 4,01 4,00 3,91 10 4,54 4,25 4,10 3,94 3,86 3,81 3,71 3,69 3,60 11
237 Created by XMLmind XSL-FO Converter.
Függelék
4,30 4,01 3,86 3,70 3,62 3,57 3,47 3,45 3,36 12 4,10 3,82 3,66 3,51 3,43 3,38 3,27 3,25 3,17 13 3,94 3,66 3,51 3,35 3,27 3,22 3,11 3,09 3,01 14 3,80 3,52 3,37 3,21 3,13 3,08 2,98 2,96 2,87 15 3,69 3,41 3,26 3,10 3,02 2,97 2,86 2,84 2,75 16 3,59 3,31 3,16 3,00 2,92 2,87 2,76 2,75 2,65 17 3,51 3,23 3,08 2,92 2,84 2,78 2,68 2,66 2,57 18 3,43 3,15 3,00 2,84 2,76 2,71 2,60 2,58 2,49 19 3,37 3,09 2,94 2,78 2,69 2,64 2,54 2,52 2,42 20 3,31 3,03 2,88 2,72 2,64 2,58 2,48 2,46 2,36 21 3,26 2,98 2,83 2,67 2,58 2,53 2,42 2,40 2,31 22 3,21 2,93 2,78 2,62 2,54 2,48 2,37 2,35 2,26 23 3,17 2,89 2,74 2,58 2,49 2,44 2,33 2,31 2,21 24 3,13 2,85 2,70 2,54 2,45 2,40 2,29 2,27 2,17 25 3,09 2,81 2,66 2,50 2,42 2,36 2,25 2,23 2,13 26 3,06 2,78 2,63 2,47 2,38 2,33 2,22 2,20 2,10 27 3,03 2,75 2,60 2,44 2,35 2,30 2,19 2,17 2,07 28 3,00 2,73 2,57 2,41 2,33 2,27 2,16 2,14 2,04 29 2,98 2,70 2,55 2,39 2,30 2,25 2,13 2,11 2,01 30 2,80 2,52 2,37 2,20 2,11 2,06 1,94 1,92 1,81 40 2,70 2,42 2,27 2,10 2,01 1,95 1,82 1,80 1,68 50 2,50 2,22 2,07 1,89 1,80 1,74 1,60 1,57 1,43 100 2,47 2,19 2,03 1,86 1,76 1,70 1,56 1,53 1,38 120 2,32 2,04 1,88 1,70 1,59 1,53 1,36 1,33 1,00 ∞
4. táblázat - A Student-féle t-eloszlás táblázata szf 0,55 0,6
0,7
0,8 0,90 0,95
0,97 0,97 0,99 0,99 5 75 5
238 Created by XMLmind XSL-FO Converter.
Függelék
1
0,15 0,32 0,72 1,37 3,08 6,31 12,7 14,1 31,8 63,6 8 5 7 6 1 2 2 6
2
0,14 0,28 0,61 1,06 1,89 2,92 4,30 4,55 6,96 9,92 2 9 7 1
3
0,13 0,27 0,58 0,97 1,64 2,35 3,18 3,32 4,54 5,84 7 7 4 8
4
0,13 0,27 0,56 0,94 1,53 2,13 2,78 2,88 3,75 4,60 4 1 9 1
5
0,13 0,26 0,55 0,92 1,48 2,02 2,57 2,66 3,36 4,03 2 7 9 0
6
0,13 0,26 0,55 0,90 1,44 1,94 2,45 2,52 3,14 3,71 1 5 3 6
7
0,13 0,26 0,54 0,89 1,41 1,89 2,36 2,44 3,00 3,50 0 3 9 6
8
0,13 0,26 0,54 0,88 1,40 1,86 2,31 2,37 2,90 3,36 0 2 6 9
9
0,12 0,26 0,54 0,88 1,38 1,83 2,26 2,33 2,82 3,25 9 1 3 3
10
0,12 0,26 0,54 0,87 1,37 1,81 2,23 2,29 2,76 3,17 9 0 2 9
11
0,12 0,26 0,54 0,87 1,36 1,80 2,20 2,26 2,72 3,11 9 0 0 6
12
0,12 0,25 0,53 0,87 1,36 1,78 2,18 2,24 2,68 3,05 8 9 9 3
13
0,12 0,25 0,53 0,87 1,35 1,77 2,16 2,22 2,65 3,01 8 9 8 0
14
0,12 0,25 0,53 0,86 1,35 1,76 2,14 2,20 2,62 2,98 8 8 7 8
15
0,12 0,25 0,53 0,86 1,34 1,75 2,13 2,19 2,60 2,95 8 8 6 6
16
0,12 0,25 0,53 0,86 1,34 1,75 2,12 2,17 2,58 2,92 8 8 5 5
17
0,12 0,25 0,53 0,86 1,33 1,74 2,11 2,16 2,57 2,90 8 7 4 3
18
0,12 0,25 0,53 0,86 1,33 1,73 2,10 2,15 2,55 2,88 7 7 4 2
19 0,12 0,25 0,53 0,86 1,33 1,73 2,09 2,15 2,54 2,86 239 Created by XMLmind XSL-FO Converter.
Függelék
7
7
3
1
20
0,12 0,25 0,53 0,86 1,33 1,72 2,09 2,14 2,53 2,85 7 7 3 0
21
0,12 0,25 0,53 0,85 1,32 1,72 2,08 2,13 2,52 2,83 7 7 2 9
22
0,12 0,25 0,53 0,85 1,32 1,72 2,07 2,13 2,51 2,82 7 6 2 8
23
0,12 0,25 0,53 0,85 1,32 1,71 2,07 2,12 2,50 2,81 7 6 2 8
24
0,12 0,25 0,53 0,85 1,32 1,71 2,06 2,12 2,49 2,80 7 6 1 7
25
0,12 0,25 0,53 0,85 1,32 1,71 2,06 2,11 2,49 2,79 7 6 1 6
26
0,12 0,25 0,53 0,85 1,31 1,71 2,06 2,11 2,48 2,78 7 6 1 6
27
0,12 0,25 0,53 0,85 1,31 1,70 2,05 2,10 2,47 2,77 7 6 1 5
28
0,12 0,25 0,53 0,85 1,31 1,70 2,05 2,10 2,47 2,76 7 6 0 5
29
0,12 0,25 0,53 0,85 1,31 1,70 2,05 2,10 2,46 2,76 7 6 0 4
30
0,12 0,25 0,53 0,85 1,31 1,70 2,04 2,09 2,46 2,75 7 6 0 4
40
0,12 0,25 0,52 0,85 1,30 1,68 2,02 2,07 2,42 2,70 6 5 9 1
50
0,12 0,25 0,52 0,84 1,30 1,68 2,01 2,06 2,40 2,68 6 5 8 9
100
0,12 0,25 0,52 0,84 1,29 1,66 1,98 2,03 2,36 2,63 6 4 6 5
120
0,12 0,25 0,52 0,84 1,29 1,66 1,98 2,03 2,36 2,62 6 4 6 5
∞
0,12 0,25 0,52 0,84 1,28 1,65 1,96 2,01 2,33 2,58 6 3 4 2
240 Created by XMLmind XSL-FO Converter.
B. függelék - Tárgymutató becslés intervallum∼ pont∼ sokasági arány sokasági értékösszeg sokasági szórásnégyzet sokasági várható érték becslőfüggvény determinációs együttható elégségesség elfogadási tartomány előrejelzés (extrapoláció) elsőfajú hiba erőfüggvény F-próba függetlenségvizsgálat hatásosság hiba elsőfajú ∼határ másodfajú mintavételi nem mintavételi standard hipotézis alternatív null∼ ∼-ellenőrzés ∼vizsgálat idősorelemzés determinisztikus 241 Created by XMLmind XSL-FO Converter.
Tárgymutató
sztochasztikus idősorok összetevői additív multiplikatív illeszkedésvizsgálat becsléses tiszta kiválasztási arány konfidenciaintervallum egyedi becslések paraméterek konzisztencia korrekciós tényező korrelációs együttható lineáris parciális páronkénti rang∼ többszörös korrelációs mátrix kovariancia ∼mátrix kritikus érték kritikus tartomány bal oldali jobb oldali kétoldali legkisebb négyzetek módszere lineáris regresszió másodfajú hiba minta ∼ elemszáma
242 Created by XMLmind XSL-FO Converter.
Tárgymutató ∼jellemző egyszerű véletlen független rétegzett mintaelosztás arányos egyenletes Neyman-féle mozgóátlagolás multikollinearitás ∼ mérőszáma normálegyenletek transzformált periodikus ingadozás pontdiagram próba (teszt) ∼függvény arányra vonatkozó egymintás tegymintás zFkétmintás tkétmintás zχ2szórásra irányuló regresszió analitikus elméleti standard lineáris tapasztalati regressziófüggvény ∼ abszolút hibája
243 Created by XMLmind XSL-FO Converter.
Tárgymutató ∼ relatív hibája analitikus exponenciális hatványkitevős parabolikus tapasztalati regressziós együttható parciális ∼ tesztelése robusztus becslés rugalmassági együttható parciális standard hiba szezonális eltérés szezonindex szignifikanciaszint torzítatlanság aszimptotikus trend 243 analitikus exponenciális lineáris mozgóátlagolású parabolikus polinomiális útdiagram varianciaanalízis ∼-tábla variancia-kovariancia mátrix
244 Created by XMLmind XSL-FO Converter.