Dr. Herman Sándor Dr. Rédey Katalin Statisztika I.
PÉCSI TUDOMÁNYEGYETEM
KTK Közgazdaságtudományi Kar Alapítva: 1970
Minden jog fenntartva. Jelen könyvet vagy annak részleteit a szerző engedélye nélkül bármilyen formában vagy eszközzel reprodukálni tilos.
Statisztika I.
Tartalomjegyzék 1.
Bevezetés............................................................................................................................ 1 1.1. A statisztika fogalma és története............................................................................... 3 1.2. A statisztika legfontosabb fogalmai ........................................................................... 3 1.3. A statisztikai adatok pontossága és megbízhatósága ................................................. 8 1.4. A statisztika intézmény- és információs rendszere .................................................. 10 2. Az adatreprezentáció statisztikai eszközei ....................................................................... 11 2.1. Statisztikai sorok. ..................................................................................................... 11 2.2. Statisztikai táblák ..................................................................................................... 14 2.3. Az ismérvek közötti összefüggések ......................................................................... 16 2.4. Grafikus ábrázolás.................................................................................................... 17 2.5. Elemzés viszonyszámokkal...................................................................................... 23 3. Az ismérvek szerinti leíró elemzés eszközei.................................................................... 25 3.1. A minőségi és területi ismérvek szerinti elemzés eszközei...................................... 25 3.1.1. Struktúra- vizsgálat .......................................................................................... 25 3.1.2. Az asszociációs kapcsolat vizsgálata ............................................................... 27 3.2. A mennyiségi ismérvek szerinti elemzés eszközei .................................................. 30 3.2.1. Középérték- és szóródás-számítás.................................................................... 31 3.2.2. Gyakorisági sorok elemzése............................................................................. 35 3.2.3. A koncentráció mérése ..................................................................................... 44 3.2.4. Csoportosított sokaság adataiból számított átlagok és szórások ...................... 47 3.2.5. A vegyes kapcsolat elemzése ........................................................................... 53 3.2.6. A főátlagok összehasonlítása standardizálással ............................................... 55 3.2.7. A korreláció elemzése ...................................................................................... 62 4. Az időbeli ismérv szerinti elemzés eszközei.................................................................... 70 4.1. Az idősorelemzés egyszerűbb eszközei ................................................................... 70 4.2. Idősorelemzés indexszámok segítségével ................................................................ 75 4.2.1. Árindex............................................................................................................. 77 4.2.2. Volumenindex .................................................................................................. 78 4.3. Az idősorok összetevői............................................................................................. 81 4.3.1. Trendhatás vagy alapirányzat........................................................................... 81 4.3.2. Periodikus ingadozás........................................................................................ 82 4.3.3. Véletlen ingadozás ........................................................................................... 82 4.3.4. Strukturális törés .............................................................................................. 82 4.4. Trendelemzés ........................................................................................................... 84 4.4.1. Mozgóátlagolásos trendelemzés....................................................................... 84 4.4.2. Analitikus trendszámítás .................................................................................. 86 4.5. A szezonalitás elemzése ........................................................................................... 93 4.6. Idősori előrejelzések................................................................................................. 96 4.6.1. Előrejelzések trendfüggvények alapján............................................................ 96 4.6.2. Előrejelzések szezonalitás esetén ..................................................................... 98
1.
Bevezetés
Egy a felsőoktatás számára készített jegyzet megalkotásakor meghatározó fontosságú, hogy a megcélzott felhasználói kör számára milyen jellegű és mélységű ismeretanyag szükséges az adott tárgykörben. Jegyzetünket két célközösségnek szánjuk. Bevezető statisztikai ismeretekkel szeretnénk ellátni a Pécsi Tudományegyetem Közgazdaságtudományi Karára beiratkozott gazdálkodási szakos levelezős hallgatókat. Egyetemünk e jegyzet írásakor több mint 33 ezer beiratkozott hallgatójával, 9 karával a legnagyobb magyar egyetem. Különböző mélységben, de minden fontos tudományág és tudományterület kutatása és oktatása folyik egyetemünkön. A tudományágak többsége valamilyen módon felhasznál statisztikai ismereteket, művelése és alkalmazása során szerepet kell, hogy kapjon a statisztikai gondolkodásmód. Tanszékünk felvállalja a statisztikai oktatásban az integrátor szerepet, és a kiteljesedő tárgykonszolidációs rendszerben meghatározó szerepet szeretne betölteni. Ebben segít a statisztika gazdasági felsőoktatásában szerzett több évtizedes tapasztalatunk, de tudjuk, hogy a többi karon statisztikát vagy statisztikai jellegű tárgyat oktatók segítsége és tapasztalata nélkül e sokrétű és bonyolult kihívásnak nem tudunk megfelelni. A legkülönbözőbb tudományágakban, a tudományos diszciplínák szinte teljes skáláján írt legkülönfélébb jegyzetek egyaránt az adott terület önálló tudomány jellegét hangsúlyozzák. A statisztikusoknak az általunk művelt tudományággal, a statisztikával kapcsolatos filozófiája árnyaltabb. Nem vitatva, hogy a statisztikának mint tudományágnak van önállósága, fontos segédtudomány szerepe is. Ez a körülmény inkább felértékeli, mint leértékeli a statisztikát, és sokrétű alkalmazási lehetősége izgalmas, szép szakterületté teszi. A statisztikai módszerek bemutatásakor a gyakorlati felhasználási vonatkozások, az illusztrációk nem ragadnak le a gazdálkodás, az ökonómia területén, szerepeltettünk demográfiai egészségtudományi, agrárgazdálkodási példákat, eseteket is. A jegyzet írásakor vezérlő elv volt a gyakorlati közelítési mód. Az elméleti levezetésekre, bizonyításokra csak utalások történtek, szakkönyvek, és tudományos publikációk sora adja ezek szilárd megalapozását. Az ismeretanyag elsajátítását képletgyűjtemény és példatár segíti. A képzés jellegéből adódóan kevesebb az előadás és a gyakorlat, a kevés kontaktóra miatt az oktatásmódnál a szöveges, az írásos változatnál is érvényesíthető „verbális” szemlélet volt a meghatározó az ismeretanyag bemutatásakor. A formalizált, képleteken alapuló egzakt matematikai megközelítés az elengedhetetlenül szükséges mértékben van jelen. Jegyzetünk bevezetést jelent a statisztika tudományágába. Szakmai ártalommal magyarázható a szerzők részéről az a feltételezés, hogy a statisztika teljes tudásanyagának fele sem sajátítható el a felsőoktatásban tömegképzésszerűen. Ezt a szintet is a felsőoktatásban tanulóknak csak kis hányada kell, hogy elsajátítsa. Ezen jegyzet a teljes statisztikai tudásanyagoknak – a szerzők szubjektív becslése alapján – a tizedét sem adja át. A szükséges matematikai előképzettség a 4 alapműveletet, a hatvány és logaritmusfogalom ismeretét, egyszerű egyenletek felállításnak és megoldásának készségét és képességét jelenti. Ezeken túlmenően a statisztikával behatóbban foglalkozóknak fontos, hogy a valószínűség számítás alaplogikáját elemi szinten értsék, ráérezzenek a valószínűség fogalmára. Ez az érzék a mintavételen alapuló következtetéses statisztika eszköztárának elsajátításánál fontos. Bevezető jegyzetünkben azonban az e területen megmutatkozó lehetőségeknek csak a felvillantására van mód, egy bemutató fejezet erejéig.
1
Mindezek nem jelentik azt, hogy a statisztikai elemzési eszköztárral megismerkedni kívánóknak nem kell céltudatos munkával e szakterület terminológiáját elsajátítani, alapvető módszereit készség szintjén alkalmazni. Egy új területtel megismerkedni mindig nehéz. Egy tudományág terminológiájának szakszavainak elsajátításakor száraz ismeretanyagon kell átrágnia magát az olvasónak Az alapismeretek megismerése ugyan nem túl izgalmas feladat, de tudásunkhoz képest megkíséreljük befogadhatóvá tenni az elsajátítandó ismeretanyagot, érdeklődést próbálunk kelteni, egy sokoldalúan hasznosítható, szép, bonyolult feladatokat is megoldani tudó módszertani apparátus iránt. E jegyzet megírásánál a PTE KTK Statisztika és Demográfia tanszékének több évtizedes tapasztalatait is felhasználtuk, és támaszkodtunk a nemzetközi és hazai szakirodalomra. Sokat segítettek volt és jelenlegi hallgatóink is. Leendő olvasóink javaslatait, megjegyzéseit és észrevételeit is örömmel hasznosítjuk, kérjük őket, juttassák el ezeket tanszékünkre. Pécs, 2005. január
2
1.1. A statisztika fogalma és története A statisztikai tevékenység az első államok létrejöttekor jelent meg. Ekkor fogalmazódott meg először az az igény, hogy jelentős létszámú populációkról, azok viszonyairól és körülményeiről megbízható információk álljanak rendelkezésünkre. A statisztika görög – latin eredetű szó, és a latin status kifejezés, állapot jelentéssel utal a statisztika állapotfelmérő és – jellemző szerepére. A statisztika a tömegesen előforduló jelenségekre vonatkozó információk egzakt szemléletű összegyűjtésének, leírásának, elemzésének és közlésének tudományos módszertana. Kiemelt hangsúlyt kap a tömegesen szó. A statisztika nem az egyeddel foglalkozik, hanem tömegjelenségeket vizsgál. Az egzakt és tudományos jelzők a statisztikai tevékenység eredményeinek objektivitására és ellenőrzési lehetőségeire utalnak. Az egzaktság és a tudományosság a statisztika története során sokat fejlődött. A kezdetekkor olykor csak igen – nem választ adó, dichotóm szemléletű volt. Van-e elegendő hadrafogható személy és teherhordó állat a hadjárat elindításához? Az írnok jelentése ilyen is lehetett: „Királyom, katonád, mint égen a csillag, teherhordó barmod mint réten a fűszál”- tehát indítható a hadjárat. Később az információ már ilyen: - 35 ezer katona – 11 ezer szállítójármű – 13 harci repülőgép... A bizonyított statisztikai tevékenységnek 5000 éves története van. Egyiptomban a piramisépítésekkel összefüggésben már i.e. 3000-ben végeztek kezdetleges népszámlálásokat. Kínában i.e. 2000-tól folyt statisztikának nevezhető tevékenység. A Biblia is több helyen említ népszámlálásokat. A statisztika módszertanának kimunkálásában, más tudományágakban is ismert tudósok is közreműködtek: Sir W. Petty (1613-1687); Pascal (1623-1662); Laplace (1749-1827); Gauss (1777-1855); Csebisev (1821-1894). Már kifejezetten statisztikusként ismeri a világ R.A. Fischer (1890-1962) M. G. Kendall (1907-1981) és a magyar Wald Ábrahám (1902-1950) nevét. A statisztika művelése hazánkban is szép tradíciókkal rendelkezik. Az un. Dicalis összeírásról, ami alapvetően adóösszeírás volt 1530-tól rendelkezünk forrásokkal. Az 1715-20-as években tartott magyar jobbágy-összeírás, az 1784-es és az 1804-es népösszeírások a mai népszámlálások elődei. Az első a statisztikát tudományos szinten művelő magyar tudós Bél Mátyás volt (1648-1749), legismertebb műve a „Notita Hungariae Novae”. Kiemelkedő jelentőségű alakja a magyar statisztika történetének Fényes Elek (1807-1876) aki 1848-ban megalakította az Országos Statisztikai Hivatalt, amely a szabadságharc leverése után megszűnt. A magyar intézményes statisztikai tevékenységet Keleti Károly (1833-1892) szervezte újjá.
1.2. A statisztika legfontosabb fogalmai A statisztika hosszú történeti fejlődése során kialakította szakszavait, terminus technikusokból álló sajátos szókincsét, terminológiáját. Hatékony műveléséhez a készség szintjén kell elsajátítanunk ezeket a fogalmakat.
3
A statisztikai sokaság, a statisztikai megfigyelés tárgyát képező egyedek összessége. A definíció is tükrözi, hogy a statisztika tömegjelenségekkel foglalkozik. Az egyedek lehetnek személyek, élőlények, tárgyak, képzett egységek. Statisztikai sokaság például: A PTE KTK nappali tagozatára 2004/2005-ös tanév első félévére beiratkozott hallgatók száma. A statisztikai sokaságok két csoportját különböztetjük meg, az álló sokaságot (stock), és a mozgó sokaságot (flow). Az álló sokaságot időpontra, időpillanatra vetítjük (ezt az időpillanatot a szakirodalom eszmei időpontnak nevezi). Ilyen például a magyar lakosságszám 2004. január elsején. Mozgó sokaság a 2004-ben Magyarországon használatba vett lakások száma. Az álló és mozgó minősítés tartalmi minősítés, nem függ az időegység mértékegységétől. A lakosságszám jan. 1. napra definiált és álló sokaság, a 6-os úton Pécs, Rákóczi út 80. előtt egy kiválasztott perc alatt áthaladó gépkocsik száma pedig mozgó sokaság. A sokaság lehet véges vagy végtelen. A statisztika a sokaság számosságát – ha ez meghatározható – N-nel jelöli, pl. 2003-ben Magyarországon a kórházak száma. Egy automata mosógép által ténylegesen végrehajtható mosási programok száma nehezen határozható meg. A gyártó közölheti, hogy az várhatóan 2000 vagy 3000 db, de a statisztika ezt kvázi végtelennek tekinti az N egzakt meghatározásának lehetetlensége miatt. A „hatékonynak ítéli-e meg az ENSZ munkáját” kérdést tetszőleges gyakorisággal, nagyon sok személynek feltehetjük így a megkérdezettek potenciális köre valódi végtelen sokaság. Véges sokaság esetében lehetőségünk van a teljes sokaságot megfigyelni. Ekkor teljeskörű megfigyelést végzünk. Amennyiben a teljeskörű megfigyelés lehetetlen vagy értelmetlen, illetve nem gazdaságos, akkor részleges megfigyelést végzünk. Lehetetlen vagy értelmetlen a megfigyelés akkor, ha például egy késztermék minőségvizsgálata roncsolódással, vagy megsemmisüléssel jár. Nem gazdaságos egy politikai párt támogatottságának teljes körű, választások közötti felmérése. A részleges megfigyelések általában a véletlenszerű, reprezentatívnak nevezett kiválasztással történnek, ezek elméletét és gyakorlatát később tárgyaljuk. Terminológiánk statisztikai ismérvnek nevezi a statisztikai sokaságok egyedeire jellemző tulajdonságokat, jellemzőket. A megfigyelt sokaság elemei az ismérv hordozói, melynek kimenetelei az ismérvváltozatok, a tulajdonságok hordozói. Az ismérveket a szakirodalom a következő négy csoportra bontja: a) b) c) d)
mennyiségi minőségi területi időbeli ismérvek
a) A tulajdonság, mennyiségi egységgel, számértékkel mérhető és jellemezhető. A számértékkel bizonyos műveletek is elvégezhetők. Egy 60 kg-os személynél 6 kilogrammal több és 10 %-kal nehezebb testsúlyú a 66 kg-os személy stb.
4
b) A tulajdonság és változatainak leírása szövegesen (verbálisan) történik. A változatok egzakt leírását gyakran az un. Nómenklatúrába kell foglalni, pl. haláloki nómenklatúra, stb. Nómenklatúra: nemzetközileg elfogadott, egyértelmű szabályokra alapított elnevezési rendszer. A nómenklatúra bontása és jellege függ a vizsgált sokaságtól és az elemzés céljától. Még a leghétköznapibb viszonylatban is különböző lehet a megközelítés. A mindennapi gyakorlatban a női férfi nemhez való tartozást az öltözék és a külső nemi jegyek alapján döntjük el, ennek megfelelően köszönünk stb. A statisztikus a páros személyi számhoz kötődőket a nőkhöz, a páratlanokat a férfiakhoz sorolja. Speciális orvos genetikai megközelítésben az emberiség öt csoportba is sorolható: xx kromoszómakép a női; yx a férfi, xxx a szuper nő, yyx az un. szuper férfi; xxy az un. hermafrodita besorolású. c) Ha a tulajdonság valós vagy képzett területi egységhez köthető, akkor területi ismérvről beszélünk, baranyai személygépkocsi szám, magyarországi GDP, lakosság az Európai Unióban stb. d) Ha a megfigyelések időtartamok vagy időpontok sorozatához köthetők, akkor időbeli ismérv a tulajdonság. Ha időtartamokra vonatkozó adataink vannak, akkor az idősort tartamidősornak, ha az elemzés tárgya időpontokhoz köthető adatok sorozata, akkor állapotidősor az elnevezés. Az ismérvfajtákhoz történő besorolásnak a későbbi elemzési módszerek kiválasztásánál van jelentősége. Egy kódszámmal történő minőségi ismérvváltozat- jelölés csak formailag menynyiségi, az 1-es kóddal jelölt férfiak tulajdonsága nem fele a 2-es kóddal jelölt nőkének. Az elemzés jellege határozza meg a differenciálás mértékét. A minőségi vagy területi ismérvhez történő besorolás nem mindig egyértelmű. A lakosság az állandó lakcím alapján besorolható városi, falusi / esetleg tanyasi / lakosnak. Ez a besorolás, bár egyértelműen köthető területhez, jellegéből adódóan mégis inkább minőségi. A magyar állampolgár inkább területi, a magyar nemzetiségű inkább minőségi ismérvváltozat. A választás nem sorsdöntő, alapvetően nem érinti a későbbi részletes elemzésre kiválasztandó módszerek körét. Az időbeli ismérv formai jegyek alapján könnyen felismerhető. Egy vállalatnál a dolgozók bonthatók úgy is, hogy van vagy nincs idegen nyelvismeretük, ez történhet bevallásos alapon is. Ekkor az ismérvnek két változata van, amit a szakirodalom alternatív ismérvnek nevez. Árnyaltabb és egzaktabb elemzést jelent a: felsőfokú nyelvvizsgával; közép és alapfokú nyelvvizsgával; és a nyelvvizsgával nem rendelkező hármas felbontás. Ha az elemzés a nyelvismeret árnyaltabb szintjeire és a különböző nyelvek megjelölésére is kiterjed, akkor akár kétszámjegyű is lehet az ismérvváltozatok száma. Egy külügyminisztériumban, illetve az oda tartozó külképviseleteken, illetve egy külkereskedelemmel foglalkozó cégnél a fenti bontásnak van létjogosultsága. A statisztika definiál közös és megkülönböztető ismérveket. A közös ismérvek sora határozza meg, hogy egy egyed egy statisztikai sokaságba tartozik. A Pécsi Tudományegyetem (1) Közgazdasági Kara (2) 2003/2004-es tanévre (3) beiratkozott nappali tagozatos (4) hallgatói jogviszonnyal rendelkező (5) másodévfolyamos (6) államilag
5
finanszírozott (7) hallgatói 7 tulajdonságban közösek, ezek a sokaságot alkotó közös ismérvek. Különböznek, illetve különbözhetnek állandó lakhelyük, családi állapotuk, nevük, testmagasságuk, testsúlyuk, stb. alapján. A közös ismérvek alapján definiáljuk, a megkülönböztető ismérvek alapján elemezzük a statisztikai sokaságokat. A mennyiségi változóknál a matematikában definiált folytonos és diszkrét változó is értelmezhető. A tetszőleges pontossággal meghatározható mérés eredményeképpen létrejött érték folytonosnak tekinthető, testmagasság, testsúly, stb. Természetesen a mérhetőség korlátai, a mértékegységek korlátozott választási lehetőségei fennállnak. A kevés, általában a természetes egész számokkal kifejezhető ismérváltozat-értékeket diszkrétnek tekintjük, pl. családok esetében a gyermekszám. A statisztikai adat számlálás, mérés után nyert tapasztalati szám. Fontos kritériuma, hogy térben és időben meghatározott, mértékegysége van. A matematikai szám absztrakt szám, dimenzió nélkül értelmezett. A matematikai 182 leírására elegendő három jel a decimális rendszerben. A magyarországi kórházak száma 2003-ban 182. A statisztikai számnak minőségbeli, térbeli, időbeli, mértékegységbeli dimenziói vannak. Mérési skálák A mérés útján nyert statisztikai adatokat tulajdonságukhoz rendeljük hozzá. A hozzárendelési szabályokat határozzák meg a mérési skálák. Fajtái: a) nominális b) ordinális c) intervallum d) arányskála a) Az elnevezés a latin nomen névből ered. A rendező elv az elnevezés valójában tetszőleges sorrendiségre utal, az értékek felcserélhetők. Ilyen lehet a nemek, a hajszín, az állampolgárság szerinti osztályzás, kategóriába sorolás. b) A szó a latin ordo rend kifejezésből ered. A vizsgált ismérv vátozatainak van egy logikus rangsora, az egymásutániság meghatározott. A köztük lévő különbségeket a skálán azonosnak tekintjük. Ilyen skálák az osztályzatok, vállalati rangsorok toplisták, rendfokozatok, stb. c) Az intervallumskála már kvantitatív értékeket tartalmaz, a skálán a távolságok értelmezhetők, velük matematikai műveletek is elvégezhetők. Fontos tulajdonsága, hogy nem rendelkezik igazi zéró értékkel, a zéró pont nem jelenti az adott tulajdonság hiányát. Ilyen a tengerszint feletti magasság és a hőmérsékletmérésre szolgáló Celsius skála. A hőmérséklet Kelvin skálán mért értékei már nem e skála tagjai, ott a 0 fok a hőmozgás, a kinetikus energia hiányát jelenti. d) Az arányskála igazi kvantitatív skála, a zéró pont „igazi”, értékeivel matematikai művelet végezhető és értelmezető, illetve arányok képezhetők. Példának a testmagasság, testsúly adatait lehet hozni.
6
Adatbázisok Az adatokat az azokat előállító intézmény, hatóság, vállalkozás bizonyos egységes szabályok alapján rendszerezi. Ilyen szabályok vonatkoznak mind a hagyományos nyomtatott, mind az elektronikus adathordozón megjelenő adatbázisokra. A statisztikai adatbázis esetében a következő általánosan használt jelölésrendszer létezik:
(+) – előzetes adat (R) – módosított, revideált adat (-) – a megfigyelt statisztikai jelenség nem fordult elő (.) – az arányszám az esete kis száma miatt reálisan nem határozható meg. (..) – az adat nem ismeretes (…) – adatvédelmi korlátok miatt nem közölhető adat (-; I) – a vonalakkal elválasztott adatok összehasonlíthatósága korlátozott (0;0,0) – az adat, mutatószám értéke olyan kicsi, hogy kerekítve zérust ad (X) – az adat, mutató nem értelmezhető ( ) – a blokkban, cellában az adatot vagy mutatószámot az adatközlő nem értelmezi.
Részletesebb magyarázatot az előzetes adatközlések és adatrevíziók kívánnak. Felgyorsult világunkban nincs mód megvárni a gazdasági év lezárását, és csak utána közölni végleges adatokat. A nemzetgazdaság főbb mutatóiról, a gazdaság teljesítményét kifejező átfogó adatokról (pl.: GDP), az árak alakulásáról (infláció) stb. évközi, előzetes adatok, becslések jelennek meg. Ezek az adatok a teljes feldolgozás után értelemszerűen módosulhatnak. Az un. haláloki statisztikák esetében is gyakori az adatmódosulás. a halált követő első diagnózis a halál okát illetően módosulhat, egy patológiai vizsgálat akár hónapok múltán is felülírhatja az első megállapítást. A statisztikai adatbázisoknak kialakult rendszere van, és az összehasonlíthatóság érdekében csak az élet és a gyakorlat kikényszerítette legszükségesebb változásokat eszközlik az adatbázisokat létrehozók és közzétevők. Az előzetes adatok és az adatrevíziók következtében az időben közölt adatok eltérhetnek egymástól. Értelemszerű, hogy mindig a később keletkezett adatot célszerű elfogadnunk, és felhasználnunk. Demokratizálódó társadalmunkban egyre nagyobb szerepet kap az adatvédelem. Az adatvédelem elsődlegesen a személyiségi jogok tiszteletben tartását jelenti, annak a biztosítását, hogy az állami szerveknek, hatóságoknak ne legyen lehetőségük a modern korunkban létező hatalmas mennyiségű információval való visszaélésre. Az un. hivatalos statisztika által előállított országos és regionális szintű adatbázisok mellett léteznek a gazdasági egységek és intézmények adatbázisai is, ezek is statisztikai jellegű adatbázisoknak tekinthetők. Számos egyedi sajátosságot mutatnak, kialakításuk függ az egységek strukturáltságától, a tevékenységek jellegétől is. Általában szabály, hogy a vezetési szint, a menedzsment valamint a tulajdonosok, illetve szakértőik az egész információs rendszerbe betekinthetnek, az alacsonyabb szinten állók, saját szintjük és kompetenciájuk szerint férnek hozzá az információkhoz. Egy a tájékoztatással foglalkozó részleg, a marketing- munkával foglalkozó egység természetesen sajátos jogosítványokat kaphat. Különösen a versenyszférá-
7
ban vannak erőteljes törekvések az adatvédelemre, megakadályozandó a konkurencia, az ellenérdekelt károkat okozó informáltságát. E kérdéskört más tárgyak részletesen tárgyalják. Látható, hogy az adatbázisok esetében a fejlődés kettévált. A hivatalos statisztika közpénzen előállított adatbázisai az Európai uniós – de az ENSZ elvárásainak megfelelően is egyre inkább térítés és korlátozás nélkül nyilvánosak. Az un. „ipari kémkedés” erősödése miatt az egyedi adatbázisok egyre zártabbak, egyre védettebbek.
1.3. A statisztikai adatok pontossága és megbízhatósága Az adatok pontossága és számíthatósága függ az adatnyerés módjától, a vizsgált sokaság számosságától, a felhasználás jellegétől is. Kis létszámú sokaság esetében az adatot pontosnak tekintjük. A kórházak száma Magyarországon 2003-ban 182. Nagy populáció esetén a mértékegységgel jelezhetjük a pontossági korlátot. A népesség száma Magyarországon 2004. január 1-én 10 117 ezer fő. Akár népszámlálás, akár más népességszám-modellező eljárással nyerjük adatainkat, a számbavétel bizonytalanságai nem engednek meg pontosabb közlést. Származtatott, becsült adatok esetében az adatok nagyságrendjével jelezzük a pontosság korlátait. Az ipari termelés növekedése Magyarországon 2002-ról 2003-ra 106,6 %-os volt. A forma arra utal, hogy az adat információ tartalma a következő: Az ipari termelés legalább 106,55 %, legfeljebb 106,65 %-kal nőtt. A pontosság tehát ± 0,05 %, amit hibakorlátnak is nevezünk, és a teljes eltérés 0,1 %-os. Az eltérés nem tűnik nagynak, de az ipari termelés esetében az abszolút adat, az ipari termelés 0,1 %-a 14,4 milliárd forint, ami a magyar kőolaj és földgáz kitermelés értékének megfeleltethető adat. A statisztikai nyilvántartás nem foglalkozik a nómenklatúra besorolásból eredő bizonytalanságaival. Ha a statisztikai nomenklatúrában a kórháznak megfelelő kódszámmal rendelkezik az egészségügyi intézmény, akkor kórházként vesszük számba. A megjelölt 182-es kórházszám csak statisztikai értelemben pontos, az egészségügyben dolgozó informatikai szakemberek nem tartják pontos adatnak. Bizonytalanságot okoz az orvostudományi egyetemek klinika – intézet rendszere, az összevonások, szétválások esetleg csak a főigazgató személye vagy személyén történő megjelölése, stb. A pontosságot eddig a leíró statisztikai eszköztár alkalmazása kapcsán tárgyaltuk. A mintával dolgozó következtetéses statisztika alkalmazásakor új aspektusok merülnek fel a pontosság vonatkozásában, ennek tárgyalása későbbi fejezetek témája. Az eddigiek alapján megállapítható, hogy általános szabály: adott mértékegységben történő számolás, két tizedes jegyig történő számítás, stb. nem állítható fel, mindig az adott szituációban kell mérlegelnünk. Célszerű a számításokat nagy pontossággal elvégezni, és az eredmény elemzése és közlésekor a megfelelő formával jelezni az adatok pontosságát és megbízhatóságát.
8
A statisztikai adatok lehetnek közvetlenül megfigyelés eredményei is, amelyekhez mérés, számlálás útján jutunk. Ezeket az adatokat abszolút adatoknak nevezzük. Az abszolút adatokból képezhetünk un. származtatott adatokat is. A származtatott adatok az abszolút adatokból alapműveletek (összeadás, osztás, szorzás) segítségével jönnek létre. Egy Kft foglalkoztatottjainak létszáma 2003-ban 230 fő volt, 2004-re ez az adat 253-ra változott. A váltás 23 fő, a növekedés tehát származtatott szám. A két szám hányadosa 1,1-es értéket mutat, tehát 110 %-ra, illetve 10 %-kal nőtt a Kft foglalkoztatottjainak létszáma. Az utóbbi két adat tehát nem közvetlen mérés eredménye, hanem származtatott adat. A statisztikai szám, illetve számok halmaza a jellemzett jelenség bonyolultságától függően három fajta lehet: adat mutatószám modell A statisztikai adatnál összetettebb információt hordoz a statisztikai mutatószám. Ezt az ugyan későbbiekben tárgyalt, de általánosan ismert (számtani) átlag mutatójával jellemezzük. Mindenki tudja értelmezni, hogy egy Kft esetében, ha a 230 dolgozó összesített havi bére, a cég béralapja, havonta 32 millió 200ezer Ft, akkor az átlag bér
32200000 = 140000 230 vagyis 140 ezer Ft. Itt már nem egyszerűen alapművelet útján nyertünk származtatott számot, hanem egy összesítés és osztás alapján kaptunk mutatószámot. A statisztika sokféle - egyszerűbb és bonyolultabb - mutatószámot ismer. A gazdasági-társadalmi jelenségek folyamatok bonyolult, egymással összefüggő, egymásra kölcsönösen ható komplex rendszert alkotnak. Ezeknek leírására, összefüggésrendszerének feltárására alkotta meg a statisztika mellett sok más tudomány terület is a modell fogalmát. Általános értelemben a modell a vizsgált rendszer – folyamat – sokaság belső összefüggéseit, legjellemzőbb sajátosságait kifejező egzaktságra törekvő logikai konstrukció.
A statisztikai modell sajátossága a vizsgálat tárgyával a tömegszerűség és a csak tendenciaszerű összefüggések feltárására is törekvő igény. Ha modellezni kívánjuk egy nagyvállalat jövőbeni nyereségének alakulását, akkor nagyon sok különböző hatás befolyásoló erejét kell számszerűsítenünk, egzaktságra törekedve jellemeznünk. A vállalati eredményt befolyásolja a munkaerő mennyisége, minősége, összetétele, a termelési kapacitások színvonala, hatékonysága, a rendelkezésre álló pénzügyi erőforrások jellemzői, a piaci kereslet alakulása, a makrogazdasági környezet változásai. A hatékony statisztikai modellezés komplex ismeretanyagot, a közgazdaságtudományok összefoglaló ismeretanyagának készségszintű ismeretét követeli meg. Természetesen statisztikai szemléletű modelleket nemcsak közgazdasági – gazdasági tudományterületen, hanem más tudományágak területén is; orvostudomány, szociológia, demográfia, stb. használhatunk. A statisztikai modellekben megjelenő származtatott számadatokat paramétereknek is nevezzük. Látható, hogy az adat mutatószám modell rangsora egyben egy statisztikai tartalommal rendelkező számérték bonyolultsági rangsora is. Az adat közvetlen mérés vagy egy számítási művelet eredménye, a mutatószám több egyszerű számítási művelet eredménye, a modell paraméter összetett matematikai-statisztikai módszer alkalmazásával nyert számérték. 9
Megjelenésében ugyanolyan természetű adat egyaránt besorolható a fenti csoportokba. Illusztráljuk ezt egy multinacionális kiskereskedelemben működő vállalat bérekre vonatkozó adataival: abszolút adat: X.Y. dolgozó havi bruttó bére 2004 októberében 180ezer Ft származtatott adat: X.Y. dolgozó 2004-ben az adóbevallás szerint 2.040ezer Ft bruttó bért kapott. Egy hónapra vetítve ez az érték 170ezer Ft. mutatószám: 130ezer Ft a vállalat egészére vonatkoztatott átlagbér 2004-ben. modellezett érték: A bérekre számos statisztikai szempontból számításba vehető tényező hat: ledolgozott munkaidő, szakképzettség, életkor, a vállalatnál eltöltött idő, beosztás, nem, stb. Ezek a tényezők hatásmechanizmusa statisztikai modellel leírható. X.Y. dolgozó, aki a fenti szempontok szerint jellemezhető, a modell szerint 160ezer Ft – os átlagbérre számíthatna. A tényleges bére ettől eltérhet, hiszen a modell valóság leegyszerűsítése, nem tud kezelni olyan bérekre ható tényezőket, mint a dolgozóval kapcsolatos szimpátia, antipátia, megbízhatósága, fegyelmezettsége, sokoldalúsága, alkuképessége, stb., illetve ezek mértéke.
1.4.
A statisztika intézmény és információs rendszere
A statisztikai szolgálatnak törvényekkel szabályozott intézményrendszere van. Magyarországon a Központi Statisztikai Hivatal (KSH), a kormányzattól független, országos hatáskörű közigazgatási intézmény. A hivatalos statisztikai szolgálat fontos szerve még a sok más feladata mellet a Magyar Nemzeti Bank (MNB) is. Az információk hagyományos publikációs eszközei az évkönyvek, az időszaki kiadványok, és az un. Gyorsjelentések. Átfogó információkat ad a Magyar Statisztikai évkönyv. Ezen kívül tucatnyi tematikus évkönyv is megjelenik. Napjainkban általános a papír formátum mellett az évkönyvek és a kiadványok elektronikus adathordozón való megjelenítése. Az adat- és információnyerés egyre meghatározóbb formája a statisztikai szolgáltatók folyamatosan megújított honlapjairól történő letöltés. Információk gyűjthetők a KSH (www.ksh.hu.), az MNB (www.mnb.hu) honlapjairól az államigazgatás és minisztériumok honlapjai a Miniszterelnöki Hivatal (MEH) honlapján (www.meh.hu) keresztül érhetők el. A magyar statisztikusok – a statisztikát művelők, kutatók, oktatók, főbb felhasználói képviselők – együttesét, a szakmai érdekvédelmi szervként működő évszázados tradíciójú Magyar Statisztikai Társaság fogja össze. A nemzetközi statisztikai szolgálatot az ENSZ működteti. Legfontosabb kiadványa a Statisztikai Évkönyv (Statistical Yearbook), Az ENSZ és szakosított szervezetei számos tematikus évkönyvet jelentetnek meg, honlapjaikon sokrétű adatbázisok találhatók. Az Európai Únió Eurostat néven önálló statisztikai intézményt működtet.
10
2.
Az adatreprezentáció statisztikai eszközei
A statisztikai adatokkal jellemzett statisztikai sokaságbeli egyedeket csoportosítanunk, osztályoznunk kell, hogy megismerjük valamilyen szempont vagy tulajdonság szerinti szerkezetét, struktúráját. E tárgykörben a statisztika a következő fogalmakat használja: Csoportosítás vagy osztályzás: a statisztikai sokaságnak valamilyen ismérv (az ún. csoportképző ismérv) szerinti tagolása, rendszerezése; a sokaságot minőségileg különböző részekre bontjuk. Célja a sokaság szerkezetének (struktúrájának) elemzése. Összehasonlítás: a statisztikai adatok egymás mellé rendelése elemzési célból; annak megállapítása, hogy melyik kisebb vagy nagyobb; mennyivel kisebb vagy nagyobb; hányadrésze vagy hányszorosa az egyik adat a másiknak. Összehasonlíthatók a statisztikai adatok akkor, ha csak olyan okok miatt térnek el egymástól, amelyeknek a szerepét éppen vizsgáljuk.
A csoportosítást valamilyen csoportképző ismérv alapján végezzük el úgy, hogy a következő tulajdonságoknak megfeleljen: teljeskörűség – vagyis a részsokaságok számossága adja ki a teljes sokaság számosságát, illetve minden egyed kerüljön bele egy részsokaságba. egyértelmű besorolhatóság – vagyis minden egyed egy és csak egy csoportba kerülhessen. A csoportosítás kapcsán az alapfogalmaknál megismert statisztikai sokaság fogalmakat a következő jelzőkkel egészítjük ki:
Fősokaság – Részsokaság Alapsokaság – Mintasokaság
Egy 300 fős egyetemi évfolyam (fősokaság) 160 nőből (az egyik részsokaság) és 140 férfiből (a másik részsokaság) áll. Ha vettünk belőle véletlenszerűen 30 fős mintasokaságot, akkor a 300 fős sokaság alapsokaságként szerepelt. Ha rész-egész viszonyt elemezzük (nők illetve férfiak aránya az egészhez) akkor csoportosításról, ha a részeket egymáshoz viszonyítjuk, akkor összehasonlításról beszélünk.
2.1. Statisztikai sorok.
A statisztikai sorok képzésének az elve az ismérvekhez kötődik. A statisztikai sokaság valamilyen ismérv szerinti felsorolását statisztikai sornak nevezzük. Az ismérvek lehetnek mennyiségi, minőségi, területi és időbeli ismérvek. Ebből adódóan értelemszerű, hogy a statisztikai sorok is így oszlanak meg.
11
Mennyiségi sor 2-1. tábla: A munkanélküliek száma a munkakeresés időtartama szerint Magyarországon 2003-ban
Időtartam (hó) Létszám (ezer fő) -1 16 2-3 42 4-6 39 7-11 42 12 15 13-18 28 19-24 18 2543 Összesen 243 Forrás: Magyar Statisztikai Évkönyv 2004
A statisztikai sor valójában két „sor”, az egyik az ismérvértékek felsorolása, a másik a részsokaságok számosságának a sora, amit a statisztika gyakoriságoknak nevez. A statisztikai sorok a következő formai és tartalmi kellékekkel kell, hogy rendelkezzenek. cím: a jellemzett statisztikai sokaság megnevezése közös ismérveivel. oldalrovat: az ismérvváltozatok felsorolása fejrovat: az ismérv megnevezése a gyakoriságok jelölés összesen rovat: csoportosítás esetén forrás mértékegység Minőségi sor
2-2. tábla: Az öngyilkosságok száma családi állapot szerint Magyarországon 2003-ban
Családi állapot Nőtlen, hajadon Házas Elvált Özvegy Ismeretlen Összesen
Gyakoriság (fő) 583 1206 482 530 2 801
Forrás: Magyar Statisztikai Évkönyv KSH 2004
Az ismeretlen rovat – gyakoriságjelzése arra utal, hogy ez évben minden öngyilkost tudtak azonosítani és családi állapotuk is ismert volt. Az ismérvváltozat szerepeltetését az indokolja, hogy a korábbi években volt ilyen eset, 2002-ben például 2 fő.
12
Területi sor
2-3. tábla: Az ismertté vált közvádas bűncselekmények alakulása Dél-Dunántúli régióban megyénkénti bontásban 2003-ban.
Megye Baranya Somogy Tolna Összesen
Bűncselekmény (db) 16 659 16 599 8 415 41 673
Forrás: Magyar Statisztikai Évkönyv KSH 2003
Idősorok
Az idősorok a már tárgyalt álló és mozgó sokasággal összefüggésben lehetnek állapot- és tartam idősorok. Az állapot idősorra hozott példánk a népességszámot elemzi Budapesten. Ilyen időszak esetében vagy év elején (január 1) vagy év közepére számított adatot közölnek 2-4. tábla: A népesség száma Budapesten az 1960-tól 2004-ig tartó időszakban néhány jellemző évben.
Év Népességszám (ezer fő) 1960 1805 1970 2001 1980 2059 1990 2017 2001 1759 2002 1740 2003 1719 2004 1705 Forrás: Magyar Statisztikai Évkönyv 2004
Látható, hogy az idősor – bár az 1960-2004-es időszak elemzését tűzte ki célul, az időszak elejéről csak 10 évenként közöl adatot. Ebben az esetben az elemzőt a főbb tendenciákról így tájékoztatja, a részletesebb, mélyebb elemzés esetén az elemző dönthet úgy, hogy a teljes idősor elemzését végzi el. Egyértelmű, hogy a tábla nem tartalmaz összesen rovatot, hiszen az összesítésnek állapotidősor esetében nincs semmi értelme. Állapot-idősor esetében a statisztikai sokaság sajátos értelmezést nyer. A megfigyelt egyedek összessége kifejezés mögött halmozódás jelentkezik. Egy 1960-tól folyamatosan Budapesten élő személy minden egyes megfigyeléskor szerepel az adatbázisban. A tartam-idősorok időtartamra vonatkozó adatokat jelenítenek meg, és összesítésük a vizsgálat céljától és jellegétől függ.
13
2-5. tábla: A házasságkötések száma havi bontásban Magyarországon 2003-ban:
Hó Január Február Március Április Május Június Július Augusztus Szeptember Október November December Összesen
Szám 1222 1793 3002 2009 6257 4470 5116 8090 4970 2963 2071 2544 45938
Forrás: Demográfiai Évkönyv 2003
A példa segítségével magyarázható az összesítésre vonatkozó „általában” jelző. Az összesen rovat az egész évben, 2003-ban kötött házasságokat mutatja. Értelme volna az első vagy az utolsó három hónap összesítésének is, hiszen általában negyedévekben gondolkodunk. Az első 4 vagy 5 hónap adatának, illetve néhány kiragadott hónap adatának összesítése azonban értelmetlen. 2.2. Statisztikai táblák A statisztikai tábla a statisztikai sorok összefüggő rendszere.
A statisztikai tábla kellékei megegyeznek a statisztikai sor kellékeivel, annyi kiegészítéssel, hogy a fej- és oldalrovat a statisztikai sokaságot csoportosító és leíró ismérvek megnevezését és változatait sorolja fel. A statisztikai tábla legalább 2, legfeljebb 4-5 ismérv szerint bontja a sokaságot. A dimenziószám azt jelzi, hogy hány ismérv szerint bontjuk a sokaságot. Egyszerű tábla
Az egyszerű tábla nem tartalmaz csoportosító ismérvet, tehát nincsenek benne összesen rovatok. 2-6. tábla: Néhány fertőző betegség előfordulása Magyarországon 2000-2003 folyamán (esetszám)
Betegség Májgyulladás Agyhártyagyulladás Tetanusz AIDS
2000 779 316 10 27
2001 651 258 8 20
2002 2003 772 797 225 230 5 4 26 26
Forrás: Magyar Statisztikai Évkönyv 2003
14
A tábla 2 dimenziós 4 idősort és 4 minőségi sort tartalmaz. A két dimenzió arra utal, hogy a betegségek előfordulását egyrészt időben, másrészt, betegség-fajta (minőségi ismérv) szerint mutatja be. Csoportosító tábla
A csoportosító tábla csak egy ismérv szerint tartalmaz összesítő adatokat. 2-7. tábla: Az ipar termelése a Dél-Dunántúl régióban 2000-2002-ben (milliárd Ft)
Megye Baranya Somogy Tolna Régió
2000 247,8 275,2 173,3 696,3
2001 224,1 300,2 191,5 715,8
2002 237,0 331,6 206,9 775,5
Forrás: Területi Statisztikai Évkönyv 2002
A tábla 2 dimenziós 4 idősort és 3 minőségi sort tartalmaz Kombinációs tábla
A kombinációs tábla legalább 2 ismérv szerint csoportosít, legalább 2 fajta összesítés szerepel benne. 2-8. tábla: Egy kft dolgozói havi jövedelmük, végzettségük és laptoppal való rendelkezésük szerint
Jövedelem Euró/hó -1000 1001-2000 2001Összesen
Diplomás V.L.P N.L.P 1 8 3 18 2 26 6
Nem diplomás Össz. V.L.P N.L.P 1 10 15 11 22 9 20 6 32 38 24
Összesen Össz. V.L.P N.L.P 25 10 16 31 30 12 6 24 2 62 64 30
Össz. 26 42 26 94
Megjegyzés: V.L.P – van laptop; N.L.P nincs laptop Forrás: A kft belső információs rendszere
A tábla 3 dimenziós 9 mennyiségi, és 2x12, összesen 24 minőségi sort tartalmaz. A kombinációs táblák szerkesztésekor ügyelnünk kell arra, hogy a tábla áttekinthető legyen, és szerkezete közelítsen a négyzetformához. Ezért van a táblában a legtöbb ismérvváltozatú ismérv az oldalrovatban, és a fejrovatban, az ún. bontásban a kevesebb ismérvváltozatú ismérvek. A statisztikai tábla definíciójában szerepel, hogy statisztikai sorok összefüggő rendszere. A 3 dimenziós kombinációs táblában szereplő 33 statisztikai sor is mutatja a kombinációs tábla sokrétű elemzési lehetőségeit. A kombinációs tábla szerkesztésekor és elemzésekor különösen ügyelnünk kell arra, hogy az összes lehetséges összesítés szerepeljen benne.
15
2.3. Az ismérvek közötti összefüggések
A kombinációs vagy kontingencia táblák gyakorta készülnek abból a célból, hogy a bennük szereplő ismérvek közötti összefüggéseket, kapcsolatokat elemezhessük. Vizsgálható az, hogy az ismérvek között létezik-e összefüggés, vagy sem (ez utóbbi az ún. függetlenség esete). Például ismeretes, hogy a női és férfi autóvásárlók nem ugyanazokat a színeket preferálják. A nők szeretik a világos színeket, a férfiak inkább a sötétet választják. Tehát a nemhez való tartozás és az autó színe nem független egymástól az autóvásárlók körében. Ha egy női vásárlóról van szó, akkor általában a világos színre tippelünk, sokszor eltaláljuk, de többször tévedünk is. Ugyanez mondható el a férfi-vásárlókról is. Az összefüggést sztochasztikus kapcsolatnak nevezzük, mert ha egy egyedről (egy vásárlóról) tudjuk, hogy az egyik ismérv melyik változatához (a női nemhez) tartozik, ebből következtetni tudunk arra, hogy a másik ismérv melyik változatához (világos színű autót vásárol) lesz nagyobb valószínűséggel besorolható. Az ismérvek közötti függetlenség esetén nem tudunk olyan megállapítást tenni, hogy az egyik ismérv valamely változatához tartozó egyedek a másik ismérv szerint általában melyik változathoz tartoznak. Ahogy a vizsgázók testmagasságából, haj- vagy szemszínéből nem lehet következtetni vizsgájuk eredményességére - mivel ezek az ismérvek függetlenek egymástól-, az adott vizsgára történt felkészülésből – nem tökéletesen ugyan, de – becsülhető a vizsga eredménye. Erre a felkészülés és a vizsga eredménye közötti sztochasztikus kapcsolat ad lehetőséget.
A jelenségek (ismérvek, változók) közötti összefüggés-vizsgálat során tehát az alábbi esetekkel találkozhatunk: • függetlenség, a kapcsolat hiánya • sztochasztikus (valószínűségi, tendenciájában érvényesülő) kapcsolat • függvényszerű kapcsolat (determinisztikus, teljes meghatározottságú összefüggés) Ez utóbbira példa: a vásárolt sörösflakonok száma meghatározza az érte fizetendő összeget. Függvényszerű kapcsolat esetén az egyik ismérv valamely változata, a másik ismérvnek csak egy bizonyos változatával járhat együtt. A görög eredetű sztochasztikus jelzővel illetett kapcsolat két végállapota a függetlenség és a teljes meghatározottság. A statisztika eszközeivel a sztochasztikus kapcsolatokat, az ismérvek között tendenciaszerűen, valószínűségi jelleggel érvényesülő összefüggéseket vizsgáljuk, nagymértékben támaszkodva a matematikailag pontosan definiálható függetlenségre. A kapcsolatvizsgálatok kiindulópontját az ok-okozati viszonyok megállapítása jelenti. Ki kell jelölnünk, hogy melyik ismérv a kiváltó ok, és melyik az okozat. Különösen fontossá teszi ezt az a tény, hogy az ismérvek között létezhet úgy is „együtt-ingadozás” - azaz az ismérvek bizonyos változatai gyakrabban járnak együtt, vonzzák egymást, míg más változatok taszítják, hogy ennek magyarázatát nem tudjuk megadni. Lehet, hogy egy közös ok idézi elő ezt a közvetett kapcsolatot, de lehet hogy semmivel nem magyarázható látszólagos, értelmetlen összefüggésről van szó. Gyakran kimutatható egymással össze nem függő jelenségek között, időbeli együttingadozás. Ilyenkor a vizsgált időperiódusban a jelenségek időbeli alakulása hasonló tendenciát mutat. Előfordulnak olyan esetek is, amikor nem lehet megállapítani, hogy melyik változó tekinthető oknak, és melyik okozatnak, hiszen mindkettő magyarázható a másikkal (például a jó zenei és 16
egyben jó idegennyelv- tanulási képesség, illetve ellentettjeinek gyakori előfordulása). Ilyen esetekben célszerű az elemzést mindkét módon, a változók szerepének felcserélésével is elvégezni. A sztochasztikus kapcsolatoknak három fajtáját szokás megkülönböztetni, a bennük szereplő ismérvek típusa szerint. asszociáció: a minőségi (területi) ismérvek kapcsolata Összefügghet a női/férfi nemhez való tartozás a dohányzási szokásokkal, a férfiak inkább dohányoznak. vegyes kapcsolat: minőségi (területi) és mennyiségi ismérv kapcsolata A nemhez való tartozás és a testmagasság között tendenciaszerű összefüggés van. Például, egy egyetemi évfolyamon a férfiak átlagos testmagassága igen nagy valószínűséggel magasabb, mint a nőké. Egy a névsorból véletlenszerűen kiválasztott férfi várhatóan (de nem kizárólagosan) magasabb, mint az ugyanígy kiválasztott nő. korreláció: mennyiségi ismérvek kapcsolata Ilyen összefüggést mutat a testmagasság (centiméterben) és a testsúly (kilogrammban). Magasabb testmérethez várhatóan nagyobb súly tartozik. Csoportosíthatók a sztochasztikus kapcsolatok a bennük szereplő változók száma szerint is. Így beszélhetünk kétváltozós és többváltozós (például, három-, négyváltozós) kapcsolatokról. Jelen anyagunkban csak a kétváltozós összefüggés-vizsgálatok leíró statisztikai módszereivel foglalkozunk. Az összefüggés-vizsgálatok leíró statisztikai módszerei: kontingencia tábla készítése és elemzése viszonyszámokkal kapcsolat-szorossági mérőszámok számítása A kontingencia tábla információt nyújt a kapcsolat meglétéről, és egyben adatbázist is jelenthet, szorossági mérőszámok számításához. A szorossági mérőszámok az ismérvek közötti sztochasztikus kapcsolat intenzitását, erősségét mérik. Ezen mérőszámok legfontosabb tulajdonsága, hogy felvehető értékeinek alsó és felső korlátja van. Nevezetesen, a kapcsolat hiánya esetén 0 értéket, függvényszerű kapcsolat esetén 1 értéket vesz fel. A sztochasztikus kapcsolat minősítését - például gyenge, közepes, szoros- a mérőszám értékének a 0 és 1 intervallumban való elhelyezkedése alapján tesszük meg. Az asszociáció ismertetésére a minőségi ismérv szerinti elemzés, a vegyes kapcsolat és a korreláció ismertetésére a mennyiségi ismérv szerinti elemzés során kerül sor. 2.4. Grafikus ábrázolás
A statisztikai adatok és információk szemléltetését, elsődleges vizsgálatát nagyban segíti a grafikus ábrázolás. Arányok, tendenciák, összefüggések deríthetők fel ezen a módon, segítve az elemzésre leginkább alkalmas módszer kiválasztását. A grafikus ábrázolás eszközei: pontok vonalak körök
17
oszlopok
amelyek:
különbségeket területeket térfogatot
ábrázolhatnak, illetve illusztrálhatnak. Megjelenési módjukat illetően a grafikai eszközök lehetnek:
koordináta rendszeren kívüli koordináta rendszeren belüli térképen alapuló stilizált figurális, piktogram
Nagyon fontos, hogy a grafikus elemzési eszközök esetében is a közlésnek a statisztikai sornál és a statisztikai ábránál már felsorolt kellékei megjelenjenek. A grafikus elemzési eszköztárat a következő példákkal illusztráljuk. A koordinátarendszeren kívüli ábrázolás leggyakoribb eszköze a kördiagram. A 2.1-ben tárgyalt minőségi sort ábrázoljuk kördiagramban. 2-1. ábra: Az öngyilkosságok száma családi állapot szerint Mo.-n 2003-ban Az öngyilkosságok sz áma családi állapot sz e rint Mo.-n 2003-ban 0%
19%
21%
Nőtlen, hajadon Házas Elvált Özvegy
17%
Ismeretlen
43%
Forrás: Magyar Statisztikai Évkönyv, KSH 2004.
A koordinátarendszeren belüli ábrázolásnál a mennyiségi és idősorok esetében gyakran alkalmazunk vonaldiagramot.
18
2-2. ábra: A férfiak és nők 0 éves korban várható élettartama
Forrás: Demográfiai évkönyv 2003 ( 2004)
A koordináta rendszer tengelyein a szemléltetésnek leginkább megfelelő értékeket vesszük fel. Ezért az ábra y tengelye értelemszerűen nem a 0 évtől, hanem az 56. életévtől indul. Szemmel látható, hogy a férfiak közismerten rövidebb várható élettartama az elmúlt több mint fél évszázadban nagyon kedvezőtlenül alakult. Az „erősebb” férfinem ebből a szempontból a „gyengébb” nemhez képest egyre nagyobb hátrányban van. Szintén a mennyiségi és idősoroknál alkalmazzuk az oszlopdiagrammal történő ábrázolási módot. Különösen jól alkalmazható egyidejű csoportosítás összehasonlítására 2-3. ábra: A népesség száma főbb korcsoportok szerint
Forrás: Demográfiai évkönyv 2003, (, 2004)
Látható, hogy a népességszám időbeli alakulását árnyaltan, korcsoportos bontásban is figyelemmel kísérhetjük. Nyilvánvaló, hogy a csökkenő aktív korú népességre egyre kevesebb gyermekkorú és egyre több időskorú jut.
19
A grafikus ábra egésze szemléletesen jeleníti meg a kedvezőtlen demográfiai folyamatokat. Szintén koordinátatengelyek segítségével történik, az un szalagdiagramos ábrázolás. Tipikus ábrázolási területe az un. Korfa. 2-4. ábra: A népesség száma nem és életkor szerint
Forrás: Demográfiai évkönyv 2003
20
A szalagdiagram alkalmas területi összehasonlító elemzésre is. A férfiak már elemzett várható élettartamra vonatkozó adatait egy területi és időbeli összehasonlító egészítjük ki. 2-5. ábra: A férfiak születéskor várható élettartama
Forrás: Demográfiai évkönyv 2003,
21
Az 1970-es és 2002-es adatok összevetése általános javulásról, de hazánk leszakadásáról árulkodik. A térképen alapuló ábrázolások a területi összehasonlító elemzéseket szolgálják. 2-6. ábra: Ezer lakosra jutó állandó belföldi vándorlási különbözet megyénként, 2003
Forrás: Demográfiai évkönyv ,2003
Érdekes következetéseket vonhatunk le az ábrából a vándorlást befolyásoló tényezők kihatásait illetően. Jól látható nyugat és észak előnye, kelettel és déllel szemben. A piktogramos figurális ábrázolás általában tájékoztató jellegű. A grafikus ábrázolás különböző célokat szolgálhat. − elemzési eszköz: ezen alfejezet bevezető mondatban jelzett elsődleges vizsgálat későbbi számszaki, parametrikus elemzéseket alapozhat meg, segítheti az ezek közötti választást. − illusztrációs cél: számszaki, parametrikus elemzési eredmények megjelenítését szolgálja ez esetben a grafikus ábrázolás. − tájékoztatás: fő tendenciák, arányok egyszerű bemutatása a cél.
A célok befolyásolják a grafikus elemzés összetettségét, bonyolultságát is. A nagyon részletes, árnyalt, koordinátarendszerben történő ábrázolástól az elnagyolt figurális ábrázolásig terjed a skála. Az állattenyésztéssel foglalkozó Rt irodaházának folyosóján a kisebb, közepes és nagyobb stilizált szarvasmarha- figura egymásutánisága megnyugtatja a látogatót, az Rt-nél a szarvasmarha állomány szépen gyarapodik.
22
2.5. Elemzés viszonyszámokkal
A statisztikai adatok összehasonlításának alapvetően két eszköze van: − abszolút összehasonlítás − relatív összehasonlítása Az abszolút összehasonlítás olyannyira kézenfekvő, hogy a statisztika nem munkált ki külön jelölésrendszert ábrázolására. A–B=C A – bruttó jövedelem: 2000 euró B – nettó jövedelem: 1600 euró C – a jövedelem adótartama: 400 euró Külön jelölésrendszere van a relatív összehasonlításnak. A viszonyszám két egymással kapcsolatban álló statisztikai adat hányadosa.
V =
A B
ahol: V – a viszonyszám A – a vizsgált adat B – a viszonyítási alap Fajtái:
dinamikus (idősorokból képezzük) megoszlási (rész-egész viszonya) koordinációs (rész-rész viszonya) intenzitási (két egymással egyéb kapcsolatban lévő adat hányadosa)
Az első három viszonyszám típust a későbbi fejezetekben konkrét példákkal illusztráljuk. E fejezetben részletesebben az intenzitási viszonyszámokat mutatjuk be. Az intenzitási viszonyszám sajátossága, hogy a kapcsolatban az adatok egymástól jellegükben különböznek. Ez gyakran abban is megnyilvánul, hogy a viszonyítási alap és a viszonyított adat mértékegysége is eltér egymástól. egy főre jutó évi átlagos húsfogyasztás 70 kg/fő 100 háztartásra jutó személygépkocsi 46 db 10 000 lakosra jutó kórházi ágyak száma 80 db Azonos mértékegységű adatok összehasonlításánál is lehetnek eltérő természetűek az adatok. egy háziorvosra egy körzetben 2000 lakos jut. Az adatok eltérő természete az elemzési cél függvényében nyilvánvaló. Bár a háziorvosok is lakosok, mégsem lenne helyes megoszlási viszonyszámként kezelni az összehasonlítást. Nem lenne szemléletes az ezrelékben mért adat sem. Látható, hogy a viszonyítási alap megfelelő nagyságrendjének megválasztásával ( egy főre, 100 háztartásra, 10 000 lakosra) könnyen értékelhető és összehasonlítható adatokat nyerünk. . Egyes viszonyszámok esetében a viszonyszámok reciproka is értelmezhető. 23
egy háziorvosra 2000 lakos jut, 100 000 lakosra 50 háziorvos jut.
A szakirodalom ezek megkülönböztetésére az „egyenes” és a „fordított” jelzőket használja. Az egyenes növekedése esetén a jelenség kedvezően, a fordított esetén kedvezőtlenül alakuló. Ebben az esetben a 10ezer lakosra jutó háziorvos-szám az egyenes mutatószám. Árnyaltan kell azonban közelítenünk e kérdést. A mezőgazdasági gépi vonóerő-ellátottságot az 1000 hektárra jutó gépi vonóerő motorkapacitásában (kilowatt) mérjük. Ez hazánkban jelenleg 2500 körüli. Ennek növekedése technicista szempontból mindenképpen örvendetes, tehát egyenes viszonyszámnak minősíthető, de ha az agrártechnológiai előírások betartásával, jobb szervezéssel, a feladatok kisebb gép kapacitással is megoldhatók, akkor a minősítés már nem ennyire egyértelmű. A statisztika kimunkálta a nyers és a tisztított intenzitási viszonyszám fogalmát is. Egy adott évben az 1000 női lakosra jutó élve-születések száma 25 fő, vagyis a mutatószám 25 fő/1000 női lakos, az 1000 15 – 49 éves házas nőre jutó élve-születések száma 63 fő. Képletszerűen: A A b = × B b B A nyers mutatószám A/B-vel a születéseket a teljes női lakosságra vetíti. Nyilvánvaló, hogy a kis b-vel jelzett 15 – 49 éves házas női populáció „ szorosabb” kapcsolatban van az A eseménnyel, így értelemszerű az A/b tisztított intenzitási viszonyszám képzése. Egyértelmű, hogy b/B a 15 – 49 éves házas női populáció részarányát, megoszlási viszonyszámát fejezi ki. Napjainkban ez az arány a házasságon kívüli szülések számának emelkedése miatt nő.
24
3.
Az ismérvek szerinti leíró elemzés eszközei
Ebben a fejezetben ismertetésre kerülnek azok a leíró statisztikai módszerek, amelyeket a sokaságoknak a különböző ismérvek – a minőségi és területi, a mennyiségi és az időbeli ismérvek- szerinti elemzésénél a leggyakrabban használunk. A vizsgálatok adatbázisát általában az előző fejezetben megismert statisztikai sorok és táblák képezik. A már megismert egyszerű elemzési eszközökön (csoportosítás és összehasonlítás, illetve viszonyszámok és grafikus ábrázolás) kívül használni fogjuk a viszonyszámok speciális fajtáit, az ún. index-számokat. Alkalmazásra kerül a középérték-, és szóródás-számítás mint a mennyiségi ismérvek szerinti elemzés legfontosabb eszköztára. Egy sokaságot egyidejűleg két vagy több ismérv szerint vizsgálva, lehetőség nyílik az ismérvek közötti összefüggések elemzésére. Az erre szolgáló leíró statisztikai eszközök a kapcsolat-szorossági mérőszámok, melyek közül megismerhetünk az asszociáció, a vegyes és a korrelációs kapcsolatok vizsgálatára alkalmas mérőszámokat. Az idősorok igen gazdag elemzési eszköztárából az egyszerű módszereken kívül (dinamikus viszonyszámok, grafikus ábrázolás, átlagszámítás), sort kerítünk a hagyományosnak tekinthető trend-, és szezonalitás-vizsgálat tárgyalására is. 3.1. A minőségi és területi ismérvek szerinti elemzés eszközei 3.1.1. Struktúra-vizsgálat
A minőségi, illetve területi ismérveket úgy definiáltuk, hogy az ismérvváltozataikat valamilyen szöveges megjelöléssel adjuk meg. Például a nemhez való tartozás ismérvnek a változatai a férfi és a nő, az iskolai végzettségnek az alapfokú, a középfokú, és a felsőfokú végzettség lehetnek az változatai, a területi elhelyezkedés vizsgálható országon belül például megyék vagy régiók szerint stb. Ez utóbbi esetben az ismérv változatait a megyék vagy a régiók felsorolásával adjuk meg. A minőségi ismérvek alapján a sokaságot általában csoportosítani szoktuk, és a területi ismérvek szerinti elemzés is igen gyakran alkalmaz csoportosítást. Mindez természetesen nem jelenti azt, hogy mennyiségi, vagy akár időbeli ismérvek alapján nem lehetséges sokaságok osztályozása. Példaként említhető a népesség életkor szerinti, vagy a termelés havi, illetve negyedéves bontásban történő elemzése. Egy sokaságot valamilyen szempont (ismérv, változó) szerint csoportosítva, vizsgálható a sokaság belső összetétele, azaz struktúrája. Gondoljunk például a népesség nem szerinti, iskolai végzettség szerinti összetételére, kor-struktúrájára, vagy a munkanélküliek megyék, régiók szerinti, összetételére. A struktúra-vizsgálat adatbázisát tehát, a csoportosító sorok jelentik. A vizsgált ismérv szerinti összetételt (struktúrát), az egyes ismérvváltozatokhoz tartozó előfordulások száma, azaz a gyakoriságok mutatják. A legegyszerűbb elemzést az jelenti, ha a gyakoriságokból megoszlási viszonyszámokat, azaz relatív gyakoriságokat számítunk. Az összetétel szemléltetésére alkalmas grafikus ábrázolási módok az osztott kör-, illetve oszlopdiagram.
25
PÉLDA A struktúra-elemzés szemléltetésére nézzük meg Baranya megye lakónépességének életkor és nem szerinti összetételét! 3-1. tábla: Baranya megye lakónépességének életkor és nem szerinti összetétele Életkor év - 14 15 - 34 35 – 54 55 – 74 75 Összesen
A lakónépesség száma fő aránya % 61 994 15,4 116 465 29,0 115 500 28,7 83 449 20,7 24 902 6,2 402 260 100,0
Nem
A lakónépesség száma fő aránya % 191 055 47,5 211 205 52,5 402 260 100,0
Férfi Nő Összesen
Forrás: Statisztikai Évkönyv, 2003 Baranya megye
A struktúra-vizsgálatok igen gyakran struktúra-összehasonlításokat céloznak. Az időbeli öszszehasonlítás egy sokaság valamilyen ismérv szerinti összetételének a megváltozását, a térbeli összehasonlítás pedig, két vagy több sokaság ugyanazon ismérv szerinti összetételének különbözőségét vizsgálja. PÉLDA Egy cég egyik részlegében dolgozókat az alkalmazás minősége szerint csoportosítva, összehasonlítjuk két egymást követő évben az alkalmazottak létszámarányát. Azt vizsgáljuk, hogy változott-e a dolgozók alkalmazás minősége szerinti összetétele. 3-2. tábla: A létszámarány- változás vizsgálata Az alkalmazottak csoportjai
Témavezetők Asszisztensek Kisegítők Összesen
Az alkalmazottak 2002 létszáma fő 5 15 10 30
Változás 2003/2002
2003 aránya % 16,7 50,0 33,3 100,0
létszáma fő 5 17 13 35
aránya % 14,3 48,6 37,1 100,0
100,0 113,3 130,0 116,6
A fenti kétdimenziós tábla, egy minőségi ismérv (az alkalmazás minősége) szerinti csoportosítást és egy időbeli összehasonlítást tartalmaz. A dolgozók összetételét a megoszlási viszonyszámok mutatják mindkét évben. A struktúra változás vizsgálható a megoszlási viszonyszámok egybevetésével, minek alapján megállapítható, hogy a kisegítők aránya növekedett, a témavezetők és az asszisztensek aránya csökkent. Ugyanezt mutatják a dinamikus viszonyszámok is, az alkalmazottak összlétszáma 16,6 %-kal növekedett, ennél jobban, 30 %-kal növekedett a kisegítők száma, az asszisztenseké kevésbé, csak 13,3 %-kal, a témavezetők létszáma változatlan maradt.
26
3.1.2. Az asszociációs kapcsolat vizsgálata
A minőségi (területi) ismérvek közötti sztochasztikus kapcsolatot – mint ismeretes – asszociációnak nevezzük. Ilyen például a nemhez való tartozás és a beosztás, az iskolai végzettség, vagy a szakképzettség és az alkalmazás minősége között lévő összefüggés. Az asszociáció statisztikai elemzésének módszerei: • a kombinációs (kontingencia) tábla szerkesztés és elemzése viszonyszámokkal • kapcsolat-szorossági mérőszámok számítása A kétváltozós asszociáció vizsgálatakor a sokaság egységeit egyidejűleg a két ismérv szerint kombinált módon csoportosítjuk. A kombinált csoportosítás eredménye egy kétdimenziós kontingencia-táblába foglalható. 3-3. tábla: kétdimenziós kontingencia-tábla sémája a gyakoriságokkal
fs1 f.1
fs2 f.2
Σ
… …
f1. f2. …
…
Xs
Σ
Yt f1t f2t …
X1 X2
Y1 f11 f21 …
Az Y ismérvváltozatai Y2 … f12 … f22 …
…
X ismérvváltozatai
fst f.t
fs. n
A tábla belsejében a kétszeres csoportosítás eredményeként kapott gyakoriságok, a tábla szélein, külön-külön, az egyik, illetve a másik ismérv szerinti csoportosítással nyert gyakoriságok találhatók, míg a tábla utolsó rovatában a gyakoriságok összege szerepel, mely a sokaság elemszámát mutatja. A tábla belsejében lévő gyakoriságok elhelyezkedése már szolgáltat bizonyos információkat a sztochasztikus kapcsolat meglétéről. Megállapítható ugyanis, hogy a két ismérv mely változatai járnak gyakrabban együtt („vonzzák egymást”), és melyek fordulnak elő ritkábban („taszítják egymást”). Ugyanez még jobban látszik, ha a tábla gyakoriságaiból megoszlási viszonyszámokat számítunk.
3-4. tábla: Kétdimenziós kontingencia-tábla sémája a relatív gyakoriságokkal
ps1 p.1
ps2 p.2
Σ
… …
p1. p2. …
…
Xs
Σ
Yt p1t p2t …
X1 X2
…
Az Y ismérvváltozatai Y2 … p12 … p22 …
Y1 p11 p21
…
X ismérvváltozatai
pst p.t
ps. 1
27
Egy kétdimenziós kombinációs tábla gyakoriságaiból többféleképpen számíthatunk megoszlási viszonyszámokat. A sztochasztikus kapcsolat vizsgálatához a legcélravezetőbb az, ha az ok szerepét játszó ismérv szerinti csoportokban, az okozat szerinti megoszlást vizsgáljuk. Ha az oknak tekinthető ismérv változatait a tábla oldalrovatában, az okozatnak tekinthetőét a fejrovatban helyezzük el, akkor a tábla sorai fogják mutatni az ok szerinti csoportokban, az okozat szerinti megoszlást. A sztochasztikus kapcsolatot a tábla utolsó, összesen sorában, illetve a felette lévő sorokban szereplő megoszlások összehasonlításával mutathatjuk ki. • • •
Ha az ok szerinti csoportokban (a tábla soraiban) számított megoszlások különböznek egymástól, és ilyenkor természetesen az egész sokaságra jellemző (az összesen sorban szereplő) megoszlástól, akkor megállapítható a sztochasztikus kapcsolat megléte. Ha a tábla minden sorában (és így az összesen sorban is) ugyanolyan lenne a megoszlás, ez a két ismérv függetlenségét jelezné. Ha a táblának csak egyik átlójában találnánk nullától különböző gyakoriságot, és így minden sorban csak egy, 1értékű, illetve 100 % -os megoszlási viszonyszámot, akkor a két ismérv függvényszerű kapcsolatban lenne. Természetesen ez csak olyan táblával reprezentált összefüggések esetén lehetséges, amikor a két ismérv változatainak a száma megegyezik, azaz a kvadratikus a tábla (például 2×2-es, 3×3-as).
A tábla összesen sorát és oszlopát változatlanul hagyva, a tábla belsejében szereplő gyakoriságok helyett, az ismérvek függetlensége esetére feltételezett gyakoriságokat számíthatunk, az alábbi módon: f ij* = n
f i. f . j f i. f . j = n p i. p . j = n n n
f.j f i. = p i. és = p . j a két ismérv szerint külön-külön számított (a tábla szélein szen n replő), megoszlási viszonyszámok. ahol :
A feltételezett gyakoriságok számítása tehát azt jelenti, hogy a sokaságot a peremeloszlások (a tábla szélein szereplő megoszlások) alapján osztjuk szét. Ha a táblát a feltételezett gyakoriságokkal töltjük ki, minden sor megoszlása ugyanolyan lesz, ami megfelel a két ismérv függetlenségének. A sztochasztikus kapcsolat létezését jelzi tehát az, ha a ténylegesen megfigyelt és a függetlenség esetére feltételezett gyakoriságok nem egyeznek meg. Összehasonlításukat a négyzetes kontingencia mutatójával az ún. χ 2 -értékkel végezhetjük el. Képlete: s t (f − f * ) ij ij 2 χ = ∑∑ * f i =1 j=1 ij Ha a tényleges és a feltételezett gyakoriságok megegyeznek, azaz az ismérvek függetlensége esetén, χ 2 = 0 . A χ 2 -értéket felhasználva a kapcsolat szorossága a Cramer-féle asszociációs együtthatóval mérhető. Képlete:
28
C=
χ2 n (s − 1)
ahol :
(s ≤ t )
A Cramer-együttható értéke 0, ha a két ismérv független egymástól, és 1 értéket vesz fel, ha függvényszerű a kapcsolat. Az együttható 0,5 körüli értéke közepes, az ennél kisebb értékei gyenge, a nagyobb értékei szoros kapcsolatot jeleznek. Az együttható előjele mindig pozitív, az asszociációnál egyébként sem lenne jelentése a szorossági mérőszám előjelének. PÉLDA A szakmunkásképzőt és szakiskolát, illetve középiskolát végzett magyarországi foglalkoztatottak megoszlása nemek szerint: 3-5. tábla: A foglalkoztatottak megoszlása iskolatípus és nemek szerint (ezer fő) Nem Férfi Nő Összesen
Szakmunkásképző és szakiskola 876 362 1 238
Középiskola
Összesen
561 704 1 265
1 437 1 066 2 503
Forrás: Magyar Statisztikai Évkönyv 2000
A tábla adatai alapján látható, hogy az iskolatípus és a nemhez való tartozás között van összefüggés, mivel a férfi nemhez való tartozás és a szakmunkásképző és szakiskola ismérvváltozat, illetve a női nemhez való tartozás és a középiskola ismérvváltozat, járnak gyakrabban együtt. Ha kiszámítjuk a nemhez való tartozás, (az ok) szerinti csoportokon belül az iskolatípus (az okozat) szerinti megoszlást, akkor a következő táblában szereplő megoszlási viszonyszámok megerősítik az előző megállapítást. 3-6. tábla: A foglalkoztatottak megoszlása iskolatípus és nemek szerint (%) Nem Férfi Nő Összesen
Szakmunkásképző és szakiskola 61,0 34,0 49,5
Középiskola
Összesen
39,0 66 50,5
100,0 100,0 100,0
A férfiak és nők csoportjában a megoszlási rész-viszonyszámok különböznek egymástól és az összetett megoszlási viszonyszámtól. Míg a férfiak 39 %-a végzett középiskolát, a nőknél ez az arány 66 %, az összes foglalkoztatottnál pedig az előbbiek valamilyen közepes értéke, 50,5 %1. A kapcsolat szorosságának mérésére a Cramer-együtthatót használjuk, ezért a következő táblában az ismérvek függetlensége esetére feltételezett gyakoriságokat számítjuk ki.
( ) *
3-7. tábla: A függetlenség esetére feltételezett gyakoriságok f ij , (ezer fő) Nem Férfi Nő Összesen
Szakmunkásképző és szakiskola 711 528 1 239
Középiskola
Összesen
726 538 1 264
1 437 1 066 2 503
Példaként a férfi szakmunkásképzőt és szakiskolát végzettek feltételezett gyakorisága: 1
A középértékekkel a következő fejezetben foglalkozunk. 29
f i. f . j 1 238 1 437 = 2 503 × × = 711 n n 2 503 2 503
f ij* = n
A következő táblában a χ 2 -érték számítását közöljük: 3-8. tábla: A χ -érték számítása 2
Megnevezés
(f
f ij*
f ij
ij
− f ij*
)
(f
ij
− f ij*
)
2
f ij* Férfi-szakm.isk. Férfi-középisk. Nő-szakm.isk. Nő-középisk. Összesen
876 561 362 704 2 503
711 726 528 538 2503
165 -165 -166 166 -
38,29 37,50 52,19 51,22 179,20
A Cramer-együttható értéke:
C=
χ2 = n (s − 1)
179,20 = 0,267 ≈ 0,3 2 503(2 − 1)
ahol : s = t = 2
A szakmunkásképzőt és szakiskolát, illetve középiskolát végzett magyarországi foglalkoztatottak nemhez való tartozása és a végzettségének megfelelő iskola típusa között, közepesnél gyengébb sztochasztikus kapcsolatot számszerűsítettünk.
3.2. A mennyiségi ismérvek szerinti elemzés eszközei
A mennyiségi ismérveket úgy definiáltuk, hogy az ismérvek változatai számszerűek. A sokaság egyes egyedeit jellemző ismérvváltozatok, számlálás vagy mérés útján megállapított értékek. Vannak olyan mennyiségi ismérvek, amelyek kevés változattal rendelkeznek, (például a családok gyermekszáma, keresőinek száma, lakások szobaszáma), de a mennyiségi ismérvekre általában jellemző, hogy igen sokféle értéket vehetnek fel (például a kereset, jövedelem adatai, a testmagasság, testsúly, életkor). A statisztikai elemzésekben alapvető célunk az információ-tömörítés, összefoglaló, az egész sokaságot jellemző értékek megállapítása. Mennyiségi ismérv szerinti elemzésekben a következő módokon járhatunk el: •
•
Közvetlenül, a felsorolt mennyiségi ismérvértékeket jellemezzük a középérték- és szóródás-számítással. A középérték- és szóródás-számítás, a mennyiségi ismérv szerinti elemzés legfontosabb eszközeit jelenti, de nemcsak a leíró statisztikában használatos, hanem a következtetéses és modellező statisztika módszereiben is központi szerepet kap. Mennyiségi sort képezünk, azaz ún. gyakorisági sorba rendezzük az előforduló mennyiségi ismérvértékeket. Ezután következhet újabb sorok képzése (értékösszegsor, relatív gyakorisági és értékösszeg-sor, kumulált sorok), grafikus ábrázolás, középérték- és szóródás-számítás és a mennyiségi ismérv szerinti eloszlás vizsgálata. Nevezhetjük ezt a vizsgálatot a gyakorisági sorok elemzésének.
30
A módszerek ismertetését kezdjük a középérték- és szóródás-számítással, így ennek birtokában kerülhet sor a gyakorisági sorok elemzésére. 3.2.1. Középérték- és szóródás-számítás Középértéknek az azonos fajta számszerű értékek tömegének közös jellemzőjét nevezzük. A középérték egyetlen értékkel tömören jellemzi a sokaságot a vizsgált mennyiségi ismérv szerint.
Például, ha egy cég 50 dolgozójának kereseti adatai alapján kiszámítjuk az átlagkeresetüket, a kereset szempontjából ez tekinthető közös jellemzőnek. A középértékekkel szemben - hogy azok megfeleljenek a definícióban megfogalmazottaknak - az alábbi követelményeket támasztjuk: • egyértelműen számíthatók és könnyen értelmezhetők legyenek • közepes és tipikus értékek legyenek Az első követelmény nem szorul bővebb magyarázatra, hiszen elvárható, hogy bármelyik középérték, bármilyen adatbázisból ugyanolyan módon, azonos tartalommal kiszámítható legyen. A közepesség azt jelenti, hogy ne a legkisebb vagy a legnagyobb előforduló mennyiségi ismérvértékek közül válasszunk közös jellemzőt, hanem valamilyen középen elhelyezkedőt, míg a tipikusság olyan értéket vár el, amely a sokaságban sokszor fordul elő. Középértékként többféle statisztikai jellemző ismeretes, amelyek természetesen nem egyformán felelnek meg a fenti követelményeknek. A középértékek fajtái: • Számított középértékek (átlagok), a számtani, a harmonikus, a mértani (geometriai) és a négyzetes (kvadratikus) átlag • Helyzeti középértékek, a módusz és a medián
A számított középértékeket az előforduló valamennyi érték felhasználásával, matematikai képlet, formula segítségével számítjuk. Az átlagok közül általánosan a számtani átlag használatos, így a többi átlagfajtával csak akkor fogunk foglalkozni, amikor sor kerül alkalmazásukra. A helyzeti középértékeket az előforduló értékek közül választjuk ki, az értékek elhelyezkedési rendje szerint. A medián használata hasonló a számtani átlaghoz, a módusz alkalmazása azonban inkább a gyakorisági sorok elemzéséhez köthető. A számtani átlag az a szám, melyet az átlagolandó értékek helyébe téve, azok összege változatlan marad. Képlete szerint, a mennyiségi ismérv előforduló értékeinek összegét, az értékek számával osztjuk: 1 n x = ∑ xi n i =1 Az átlagot mindig az x i értékek nagyságrendjében és mértékegységében kapjuk meg. A számítási módból látható, hogy a számtani átlagot akkor célszerű alkalmazni, ha az átlagolandó
31
értékek összege ( ∑ x ) értelmezhető. Például az átlagkereset számításánál a keresetek összege, a béralap értelmezhető. A számtani átlag nevezetes tulajdonságai közül kettőt emelünk ki: 1. Az átlagolandó értékeknek a számtani átlagtól mért algebrai összege zérus, n
∑ (x i =1
i
− x) = 0
2. Az átlagolandó értékeknek a számtani átlagtól mért eltérés-négyzetösszege minimális n
∑ (x i =1
− x ) → min imum 2
i
A számtani átlag egyértelműen számítható és jól értelmezhető, közepes helyet foglal el az előforduló értékek között, de nem biztos, hogy tipikus érték. Számított jellegéből adódóan ugyanis lehet, hogy ilyen érték nem is fordul elő. A medián értékének megállapításához először az n számú x i mennyiségi ismérvértéket rangsorba rendezzük. Ez azt jelenti, hogy indulva az előforduló legkisebb x i értéktől, növekvő sorrendbe rakjuk őket. Hasonlóan - a legnagyobb értéktől kezdve – csökkenő sorrendbe is rendezhetjük az x i értékeket. A medián a rangsorba rendezett ( x i ) mennyiségi ismérvértékek közül a középső érték. Olyan jellemzője a sokaságnak a mennyiségi ismérv szerint, amelyiknél ugyanannyi kisebb, mint nagyobb érték fordul elő. A szó szoros értelmében közepes érték. Meghatározása úgy történik, hogy az n számú mennyiségi ismérvértéket – általában növekvő n +1 –sorrendbe rakva, megkeressük a rangsor -edik tagját. Ha a n páros szám, a „két közép2 ső” értéket átlagoljuk. A mediánnál említjük meg, hogy ismeretesek olyan sokasági jellemzők, amelyeknek az értékét a mediánhoz hasonlóan állapítjuk meg. Ezeket kvantilis értékeknek nevezzük.
A kvantilisek rendszere szerint, a medián számításánál a rangsorolt értékeket két (k=2) részre osztva, az egyetlen (k-1=1 számú) osztópont, a medián. A kvartilisek számításánál, az n számú rangsorolt értéket négy (k=4) egyenlő részre osztjuk, és az így nyert három (k-1=3) osztópontot, alsó- (Q1), középső- (Q2) és felső (Q3) kvartilisnek nevezzük. A középső kvartilis egyben a medián. Az alsó kvartilis az az érték, amelynél az előforduló értékek egynegyede kisebb, háromnegyede nagyobb, míg a felső kvartilis értékénél az értékek háromnegyede kisebb, és egynegyede nagyobb. A nevezetes kvantilisek (k=2, 3, 4, 5, 10, 100) közül, a már említett kvartiliseken (k=4) kívül, a kvintiliseket (k=5), a deciliseket (k=10) és a percentiliseket (k=100) alkalmazzuk leggyakrabban a statisztikai elemzésekben. Ezek értelmezése a kvartiliseknél mondottak szerint történik. A módusz a sokaságban a leggyakrabban előforduló mennyiségi ismérvértéket jelenti. Eszerint, a módusz a vizsgált mennyiségi ismérv tipikus értékét jelenti. A módusz megkeresése úgy történik, hogy az ( x i ) értékek - általában növekvő - rangsora alapján megszámoljuk, hogy a különböző értékek hányszor fordulnak elő. Ha kevés számú különböző érték szerepel a vizsgálatunkban, akkor lehet, hogy egyértelműen kiválasztható közülük a módusz, az az érték amelyhez a legnagyobb gyakoriság tartozik. Előfordulhat azonban, hogy több érték is ugyanannyiszor fordul elő, ilyenkor a módusz nem határozható meg egyértelműen. 32
Ha nagyon sok különböző értéket találunk felsorolva, viszonylag kis gyakorisággal, akkor ebben az esetben a módusz mint az értékek közös jellemzője nem értelmezhető. A középértékek számításánál abból indultunk ki, hogy a mennyiségi ismérvek általában igen sokféle értéket vehetnek fel, és a célunk az, hogy egy olyan közös jellemzőt keressünk, amellyel az egyedi értékek helyettesíthetők. Az, hogy e célunkat hogyan sikerül elérni, nagymértékben függ attól is, hogy a közös jellemző „mögött lévő” értékek mennyire különbözőek. Lehet, hogy körülbelül hasonló nagyságú, egymástól kevéssé eltérő értéket átlagolunk, de előfordulhat, hogy igen jelentős különbségeket sikerül kiegyenlíteni a középérték-számítással. A statisztikai elemzésekben ezt úgy mondjuk, hogy a sokaság vizsgált mennyiségi ismérv szerint kevésbé vagy jobban szóródik. A szóródás a mennyiségi ismérvértékek különbözőségét jelenti. A különbözőség, a felsorolt adatokból ránézésre megállapítható, nagyságának megítélése azonban így csak szubjektív lehet. Az elemzéshez viszont szükségünk van az eltérések egzakt mérésére. Ezt a feladatot a szóródás-számítás segítségével végezhetjük el.
A szóródás mérése elvégezhető úgy, hogy az egyes értékek eltéréseit számítjuk ki egymástól, vagy valamelyik közös jellemzőtől, azaz középértéktől. A szóródási mutatószámok nagy része ilyen eltérésekből határoz meg egy közös jellemzőt, amivel a mennyiségi ismérvértékek különbözőségét méri. A szóródásnak a következő mutatószámai ismeretesek: a szóródás terjedelme, az interkvartilis terjedelem, a kvartilis eltérés, az átlagos eltérés, az átlagos különbség, a szórás és a relatív szórás. A felsorolt mutatószámok közül általánosan a terjedelem, a szórás, illetve relatív szórás mutatója használatos. A szóródás terjedelme – az előforduló legnagyobb és legkisebb érték különbségeként – a mennyiségi ismérvértékek rangsorából könnyen megállapítható, T = x max − x min Kijelöli annak az intervallumnak a nagyságát, amelyben az értékek előfordulnak. A szórás mutatószáma az egyes értékeknek a számtani átlaguktól mért átlagos eltérését jelenti. Ehhez az n számú d x i = x i − x eltérést kell átlagolni, melyek a számtani átlag közepes jellegéből adódóan szükségszerűen pozitív és negatív értékek, és – a számtani átlag ismert tulajdonsága értelmében – algebrai összegük zérus. A különböző előjelű átlagolandó értékek esetén – amikor az előjeleknek nincs jelentősége a vizsgálat szempontjából – az alkalmas átlagfajta a négyzetes átlag. (A négyzetes átlagot úgy számítjuk, hogy az átlagolandó értékek négyzeteinek összegét elosztjuk az értékek számával, és az eredményből négyzetgyököt vonunk.) A számtani átlagtól mért eltéréseknek a szóródás mérésére való alkalmasságát alátámasztja a számtani átlag négyzetes minimum tulajdonsága, az, hogy az négyzetes eltérések értelmében a számtani átlag áll a legközelebb az átlagolandó értékek összességéhez. A szórás képlete:
d2x 1 n 1 n 2 ∑ 2 σx = d xi ∑ (x i − x ) = n ∑ n i =1 n i =1 A szórás értékét is - mint a számtani átlagét - az x i értékek nagyságrendjében és mértékegységében kapjuk meg.
33
A relatív szórás mutatója a szóródást, a szórásnak a számtani átlaghoz viszonyított arányával fejezi ki, amelyet százalékos formában is megadhatunk: Vx =
σx x
A relatív szórás mutatójának jelentőségét a különböző nagyságrendű - és sokszor különböző mértékegységekkel is mért – átlagokkal és szórásokkal jellemzett sokaságok, összehasonlítása adja. PÉLDA Egy cég 50 dolgozójának havi bruttó kereseteit tartalmazza a következő tábla: 3-9. tábla: Fizetési lista Ssz. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Név A. K A. S A. T B. S B. V B. O B. E B. F C. L C. F D. I D. O E. K E. Z É. J F. H F. Á
Fiz. (eFt) Ssz. 152 18 115 19 91 20 79 21 55 22 101 23 102 24 138 25 141 26 215 27 221 28 95 29 126 30 95 31 122 32 58 33 62 34
Fizetési lista Név Fiz. (eFt) G. L 79 G. A 80 H. P 81 H. U 81 J. L 82 J. D 83 K. F 88 K. Z 89 K. O 158 K. A 161 L. V 178 L. D 185 L. R 193 M. I 71 M. S 100 O. G 128 O. Z 67
Ssz. 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Név P. G R. O R. G S. L SZ. D T. L T. G T. R T. J U. É U. P V. R V. K Z. G W. S W. B
Fiz. (eFt) 199 131 101 71 75 78 95 95 116 118 78 90 110 231 142 70
3-10. tábla: A bruttó keresetek rangsora 55 58 62 67 70 71 71 75 78 78
Fizetések (eFt) 79 91 79 95 80 95 81 95 81 95 82 100 83 101 88 101 89 102 90 110
115 116 118 122 126 128 131 138 141 142
152 158 161 178 185 193 199 215 221 231
A számtani átlag számítása:
x=
1 n 5 672 xi = = 113,44 ezer Ft ∑ n i=1 50
34
A medián, a kereseti rangsorban a „két középső” érték egyszerű számtani átlaga:
Me =
95 + 100 = 97,50 ezer Ft 2
A módusz, a kereseti rangsorban a legtöbbször (négyszer) előforduló kereset:
Mo = 95 ezer Ft
A szóródás terjedelme:
T = x max − x min = 231 − 55 = 176 ezer Ft A keresetek szórása és relatív szórása:
σx =
1 n (x i − x )2 = 99 904,5 44,70 ezer Ft ∑ n i =1 50
Vx =
σ x 44,70 = = 0,39 = 39 % x 113,44
A cég dolgozóinak havi bruttó átlagkeresete 113 ezer 440 forint, a dolgozók egyik fele kevesebbet, a másik fele többet keres 97 ezer 500 forintnál, a legtöbben 95 ezer forintot keresnek. A cég dolgozóinak keresetei 176 ezer forintos intervallumban helyezkednek el. Az egyes dolgozók keresete az átlagkeresettől, 113 ezer 440 forinttól, átlagosan 44 ezer 700 forinttal tér el. A relatív szórás alapján ez az átlagos eltérés az átlag 39 %-a.
3.2.2. Gyakorisági sorok elemzése
A gyakorisági sor felsorolja a mennyiségi ismérv előforduló különböző változatait, és mindegyikükhöz hozzárendeli az előfordulásuk számát, azaz a gyakoriságukat. A gyakorisági sor, csoportosító sor, azaz a sokaság megoszlását mutatja a vizsgált mennyiségi ismérv szerint. A gyakoriságok összege a sokaság elemszámát adja meg.
Ismérvváltozat x1 x2 x3
Gyakoriság f1 f2 f3
…
…
3-11. tábla: Gyakorisági sor
xk Összesen:
fk n
A gyakorisági sor képzését az előforduló értékek - általában növekvő – rangsorából kiindulva a legegyszerűbb elvégezni. Ha kevés számú különböző érték fordul elő a sokaságban - mint például a gyermekek száma, a keresők száma a családokban - a gyakorisági sor képzése könynyen elvégezhető. Ha nagyon sokféle előforduló értékkel találkozunk, akkor nincs értelme a különböző értékek felsorolásának, mivel az információ-tömörítést ezzel nem tudjuk elérni. Ilyenkor az értékekből intervallumokat, ún. osztályközöket képezünk, ezek képviselik az értékek egyes csoportjait. Ezután állapítjuk meg az egyes osztályközökhöz tartozó gyakoriságokat. Az ilyen sort osztályközös gyakorisági sornak nevezzük.
35
3-12. tábla: Osztályközös gyakorisági sor
…
Gyakoriság f1 f2 f3
…
Ismérvváltozat x1 min-x1 max x2 min-x2 max x3 min-x3 max xk min-xk max
fk
Összesen:
n
Az osztályközös gyakorisági sor képzésének kulcskérdése, az osztályközök hosszának és számának meghatározása. Kevés számú osztályközbe rendezése a sokaságnak lehet éppen úgy rossz megoldás, mint a túl sok osztályköz alkalmazása. Mindkét esetre igaz lehet, hogy a gyakorisági sor nem mutatja jól, a sokaságra jellemző megoszlást. Elemzéseinkben többféle osztályköz megállapítással próbálkozhatunk, emellett a szakirodalomban találunk ajánlást az osztályközök számának és hosszának a megállapítására2. Általánosan az osztályközök megállapításánál a csoportosítás alapelve szerint járunk el, azaz a célunk az, hogy minőségileg különböző csoportokat (osztályközöket) hozzunk létre. Természetesen - gyakorlati okokból - egyben törekszünk könnyen kezelhető osztályok (kerek számok az osztályhatárok, azonos hosszúságúak az osztályközök) megállapítására. Az előforduló értékeknek az osztályközökbe történő egyértelmű besorolása érdekében az egymást követő osztályközök alsó és felső határát meg kell különböztetni egymástól. Például a települések népességszámánál, az egyik osztályköz terjedhet 4 999 főig, ha az 5 000 fős települést már a következő osztályközbe soroljuk. Ilyenkor a következő osztályköz 5 000 főtől indul. Egy másik megoldás szerint az előző 5 000 főig terjed, a következő 5 001 főtől indul. Utóbbi esetben az 5 000 fős település még az előző osztályközbe tartozik. A mennyiségi sorok képzésénél az egyértelmű besorolás, a szekunder statisztikai adatok felhasználásánál a mennyiségi sorok adatainak értelmezése szempontjából fontos az egymást követő osztályközök határainak a fentiek szerinti megkülönböztetése3. A gyakorisági sor mellett a mennyiségi sorok másik fajtája az értékösszeg-sor. Az értéköszszeg sor, az egyes mennyiségi ismérvértékekhez, illetve az osztályközökhöz az ott előforduló értékek összegét rendeli. Például a családok gyermekszám szerinti elemzésénél annak megállapítása, hogy az egy gyermekes családokban összesen hány gyermek él, a két gyermekesekben mennyi, és így tovább. Vagy például a települések népességszám szerinti vizsgálatánál annak megállapítása, hogy a különböző népességszámú településeken összesen hányan élnek. Ha az egyik osztályköz az 5 ezertől 10 ezer főig terjedő népességszámot jelent, akkor ehhez, azon települések együttes népességszámát rendeljük, amelyek lakosságának száma 5 ezertől 10 ezer főig terjed. Az osztályközös értékösszeg sor esetén két lehetőségünk van: vagy a tényleges vagy a gyakorisági sorból becsült értékösszeg-sort írjuk fel. A tényleges értékösszegsor, az egyedi értékeket felsoroló rangsorból állapítható meg. A gyakorisági sorból kiindulva, az osztályközepek (példánkban 7,5 ezer fő) segítségével, csak az értékösszeg közelítő nagyságának a megállapítására van lehetőségünk. 2
Egy lehetséges megoldás: ahol k = az osztályközök száma, n = az értékek száma, h = az osztályközök hossza, , a legnagyobb, illetve legkisebb előforduló érték 3 Szekunder statisztikáról akkor beszélünk, amikor elemzéseinkhez nem mi végzünk adatgyűjtést, hanem vagy a hivatalos statisztikai szolgálat által közzétett, különböző statisztikai kiadványokból, vagy bármilyen más módon összegyűjtött, és bárki számára hozzáférhető tett adatbázisokból származnak a felhasznált adataink. Természetesen ilyenkor az adatok forrását közölnünk kell. 36
Egy újságos-pavilonban, egy új exkluzív folyóirat értékesítését követték nyomon a megjelenését követő negyedévben. A vizsgált negyedévben a napi eladott mennyiség, 0-tól 6 db-ig fordult elő. Az alábbi tábla, 120 nap eladott mennyiség szerinti megoszlását, a gyakorisági sort, és az értékösszeg-sort is tartalmazza. PÉLDA 3-13. tábla: Az értékesítés vizsgálata Eladott mennyiség db
Napok száma
Az összes eladott mennyiség db
fi
fi x i
xi 0 1 2 3 4 5 6 Összesen
12 21 25 24 21 13 4 120
0 21 50 72 84 65 24 316
Az alábbi tábla a vidéki városok népességszám szerinti megoszlását (osztályközös gyakorisági sort) és a népesség számát (osztályközös értékösszeg sort) tartalmazza. 3-14. tábla: Vidéki városok Magyarországon 2000. január 1. A népesség száma (ezer fő) - 4,9 5,0 - 9,9 10,0 - 49,9 50,0 - 99,9 100,0 Összesen
Városok száma fi 25 70 106 12 8 221
A népesség száma fő 91 027 513 895 2 080 500 749 687 1 141 758 4 576 867
Forrás: Területi Statisztikai Évkönyv
A táblában a tényleges értékösszeg-sor szerepel, azaz például, az 5 ezer főnél kevesebb népességszámú 25 vidéki városban, 91 ezer 27 fő élt 2000. január elsején.
A mennyiségi sorok elemzésének eszközei
A mennyiségi sorok elemzését az alábbi statisztikai módszerekkel végezhetjük:
Viszonyszámok számítása Grafikus ábrázolás Középérték- és szóródás-számítás A gyakorisági eloszlás vizsgálata
A gyakorisági és értékösszeg-sor információtartalmát igen jól kifejezésre juttathatjuk megoszlási viszonyszámok számításával. Az így nyert relatív gyakorisági és értékösszeg sorok, a relatív nagyságokat szemléltetve, a részek és az egész viszonyát fejezik ki.
37
A gyakorisági és értékösszeg-sorból, illetve az ezeknek megfelelő relatív sorokból is számíthatunk kumulált sorokat. A kumulálás halmozott összeadást jelent, melyet úgy számítunk, hogy a legkisebb ismérvértéktől (az első osztályköztől) kiindulva, az egyes ismérvértékekhez (osztályközökhöz) tartozó gyakorisághoz, (vagy az értékösszeghez), hozzáadjuk az előtte lévő értékek (osztályközök) gyakoriságát (értékösszegét). Így az első értékhez (osztályközhöz), az oda tartozó tényleges gyakoriság (értékösszeg), az utolsó értékhez (osztályközhöz) a sokaság teljes elemszáma (a teljes értékösszeg) tartozik. A kumulálást természetesen elvégezhetjük a legnagyobb értéktől (az utolsó osztályköztől) kiindulva is, ezt lefelé (az alacsony értékek felé tartó) kumulálásnak nevezzük. A mennyiségi sorok közül általában a gyakorisági sorok grafikus ábráit szokás elkészíteni. A vízszintes tengelyen az x i mennyiségi ismérvértékeket mérjük fel, a függőleges tengelyen a hozzájuk tartozó gyakoriságokat (vagy a relatív, illetve a kumulált gyakoriságokat) szerepeltetjük. A kevés számú értékkel rendelkező mennyiségi ismérvek esetén, a vízszintes tengelyen felvett x i értékeknél megrajzolt - a függőleges tengellyel párhuzamos - egyenes szakaszokkal készítjük el az ábrát. Az egyenes szakaszok a gyakoriságokkal arányosak, és a végpontjukat egyértelműen megjelöljük. Az osztályközös gyakorisági sorok grafikus ábrázolási módjai, a koordinátarendszerben elhelyezett hisztogram, gyakorisági poligon és gyakorisági görbe. A hisztogram egy olyan speciális oszlopdiagram, melynek oszlopai hézag nélkül illeszkednek egymáshoz. Szerkesztésének feltétele, hogy az osztályközök azonos hosszúságúak legyenek. Amennyiben ez nem teljesül, az egységnyi osztályközökre jutó gyakoriságokat (vagy valamilyen többszörösüket) kell ábrázolni. A gyakorisági poligon, olyan vonaldiagram, amely az osztályközök közepét, (az osztályközepeket) köti össze. Igen nagy (elméleti megfelelője végtelen) sokaság esetén az osztályközök hosszát csökkentve, a poligon „törései” egyre jobban kisimulnak, és a poligon egy folytonos görbébe, (elméleti megfelelőjébe), a gyakorisági görbébe megy át. A középértékek közül a gyakorisági sorok elemzésére a számtani átlagot, a mediánt és a móduszt használjuk. Gyakorisági sor esetén a számtani átlag súlyozott formája használatos, melynek képlete: k
x=
∑f x i =1 k
i
∑f i =1
i
i
=
n 1 k fi x i = ∑ gi xi ∑ n i =1 i =1
ahol : g i = f i n
és
n
∑g i =1
i
= 1,
ahol x i , az előforduló mennyiségi ismérvértékeket, osztályközös gyakorisági sor esetén az osztályközepeket jelenti. Az osztályközepek, az osztályközök alsó és felső határának számtani átlagai. Az átlag számlálójában szereplő teljes értékösszeg ebben az esetben nem az előforduló x i értékek tényleges összegét jelenti, hanem az osztályközepek segítségével becsült (közelítően megállapított) értékösszeget. Ilyenkor olyannak tekintjük a sokaságot, mint amelyikben csak az x i osztályközepeknek megfelelő mennyiségi ismérvértékek fordulnak elő, a gyakoriságoknak megfelelő számban.
38
A súlyozott számtani átlag nagyságát két tényező határozza meg: az átlagolandó értékek (az x i -k) abszolút nagysága, és a súlyarányok (az f i n = g i relatív gyakoriságok). A súlyozás a relatív gyakoriságokkal is elvégezhető, mint ahogy az a súlyozott számtani átlag számításának fenti képletében is szerepel. A helyzeti középértékek meghatározása olyan gyakorisági sorból, mely kevés számú, mennyiségi ismérvértéket sorol fel, könnyen elvégezhető. A medián megkereséséhez, a kumulált gyakorisági sorból indulunk ki. Az az x i érték a medián, amelyikhez tartozó kumulált gyakoriság tartalmazza a medián sorszámát (n/2-t). A módusz az az x i érték, amelyikhez a legnagyobb gyakoriság tartozik. Osztályközös gyakorisági sorból a fenti módon csak azt az osztályközt tudjuk megkeresni, amelyikben a medián található. A medián értéke ezután becslési eljárással határozható meg. A legegyszerűbb „becslést” az jelenti, ha a mediánt tartalmazó osztályköz közepét tekintjük a medián becsült értékének. A módusz meghatározása osztályközös gyakorisági sorból annak az értéknek a megkeresését jelenti, amelyik körül az előforduló értékek sűrűsödnek. Ehhez az szükséges, hogy az osztályközök hossza azonos legyen. Ha ez teljesül, akkor a legnagyobb gyakorisággal rendelkező osztályköz tartalmazza a móduszt. Ha nem azonos hosszúságúak az osztályközök, akkor a móduszt tartalmazó osztályköz az lesz, amelyikhez, az egységnyi osztályközre jutó gyakoriságok közül a maximális gyakoriság tartozik. A móduszt tartalmazó osztályköz ismeretében, becslési eljárással állapítható meg a módusz értéke. A legegyszerűbb becslés – a mediánhoz hasonlóan – a modális osztályköz közepe. A szakirodalomban természetesen megtalálhatók a medián és a módusz becslésére szolgáló eljárások. Gyakorisági sorból a szórás mutatójának kiszámításánál, - a számtani átlaghoz hasonlóan, - a súlyozott formát kell használnunk. Képlete: k
σx =
∑ f (x i =1
i
− x)
2
i
=
k
∑f i =1
1 fi d 2x = ∑ n
∑g d i
2
x
ahol : g i = f i n
és
∑g
i
=1
i
Gyakorisági sorok elemzésénél is rendszeresen használjuk a relatív szórás mutatóját, különösen gyakorisági eloszlások összehasonlításakor. A gyakorisági eloszlások elemzése a gyakorisági görbe alakjának vizsgálatát jelenti. Az empirikus eloszlást jellemző grafikus ábrát, a hisztogramot, illetve gyakorisági poligont, összehasonlítjuk a normális eloszlás gyakorisági görbéjével. Ez az egymóduszú, a móduszra nézve szimmetrikus elméleti eloszlás, központi szerepet tölt be statisztikában. Az összehasonlítás leggyakrabban azt vizsgálja, hogy az empirikus eloszlásunk szimmetrikusnak tekinthető-e, vagy a görbe valamelyik széle felé jobban elnyúlik. Ez utóbbi esetben jobb vagy bal oldali aszimmetriáról beszélünk. A szimmetria kérdéséről a vizsgált gyakorisági sorunk grafikus ábrája alapján véleményt tudunk mondani. A grafikus ábra hiányában a középértékek nagyságrendje tájékoztat erről. Tö-
39
kéletes szimmetria esetén ugyanis a számtani átlag, a medián és a módusz értéke megegyezik. A gyakorlatban természetesen ez csak megközelítőleg igaz. Jobb oldali aszimmetria esetén – az előbbi sorrendben – a módusz értéke a legkisebb, bal oldali aszimmetria esetén pedig a számtani átlagé. Jobb oldali aszimmetriájú eloszlás esetén, a görbe a csúcspontját valamilyen alacsony x i értéknél veszi fel, a magas x i értékek felé haladva a gyakoriságok egyre kisebbek lesznek, a görbe hosszan elnyúlik. Bal oldali aszimmetriánál fordított a helyzet, a görbe a csúcspontját valamilyen magas x i értéknél veszi fel. A szakirodalomban megtalálhatók azok a mutatószámok, amelyek a gyakorisági eloszlások aszimmetriáját tömören jellemezni tudják, azokkal a mutatószámokkal együtt, amelyek az eloszlást egy másik szempontból, a csúcsosság és lapultság szempontjából vizsgálják.
3-1. ábra: Szimmetrikus és aszimmetrikus eloszlások f
Jobb oldali
f
f
Bal oldali
X
X
X
Mo Me x
x Me
Mo
Mo 〈 Me 〈 x
Mo = Me = x
Mo 〉 Me 〉 x
Jobboldali aszimmetria
Szimmetrikus eloszlás
Baloldali aszimmetria
A gyakorisági eloszlások elemzése során olyan esettel is találkozhatunk, amikor egynél több módusza van az empirikus eloszlásnak. Ez jelzi azt, hogy a sokaságunk a vizsgált mennyiségi ismérv szerint heterogén. Az elemzést ilyenkor úgy célszerű folytatni, hogy a sokaságot egy alkalmasan megválasztott ismérv, egy csoportképző ismérv alapján homogén (egynemű) részekre (csoportokra) bontjuk. Az egyes csoportokban külön-külön is el kell végezni a mennyiségi ismérv szerinti - az előzőekben bemutatott- elemzéseket. Először egy olyan gyakorisági sor elemzésére vegyünk példát, amikor kevés számú mennyiségi ismérvérték fordul elő.
40
PÉLDA Folytassuk a gyakorisági sort bemutató példánkat, melyben egy folyóirat értékesítését követték nyomon a megjelenését követő negyedévben. A táblában elhelyeztük a gyakorisági és az értékösszeg-sor mellett a kumulált gyakorisági sor adatait is. 3-15. tábla: Az értékesítés vizsgálatának munkatáblája Eladott mennyiség db
Napok száma
fi
xi 0 1 2 3 4 5 6 Összesen
Az összes eladott mennyiség db
A kumulált gyakoriság f i′
fi x i
12 21 25 24 21 13 4 120
0 21 50 72 84 65 24 316
12 33 58 82 103 116 120 -
3-2. ábra: Napi eladott mennyiség szerinti eloszlás Napi eladott mennyiség szerinti megoszlás 30
napok száma
25 20 15 10 5 0 0
1
2
3
4
5
6
napi eladott mennyiség
Az értékesítés jellemzése középértékek segítségével:
1 k 316 fi xi = = 2,63 darab nap ∑ n i =1 120 A módusz kiválasztása: M 0 = 2 darab nap , mivel a max f i = 25 , és ehhez a gyakorisághoz az x i = 2 darab tartozik. A medián kiválasztása: M e = 3 darab nap , mivel a medián sorszámát, az n 2 = 60 -at az f i′ = 82 -es kumulált gyakoriság tartalmazza. Így a rangsorban a 60. érték az x i = 3 darab . Az alsó és felső kvartilis érték kiválasztása: Q1 = 1 darab nap és Q 3 = 4 darab nap , mivel a sorszámukat, az n 4 = 30 -at az f i′ = 21 -es, a 3 × n 4 = 90 -et az f i′ = 103 -as, kumulált gyakoriság tartalmazza. Így a rangsorban a 30. érték az x i = 1 darab , a 90. érték az x i = 4 darab . A számtani átlag számítása: x =
A folyóiratból naponta átlagosan 2,63 darabot , a vizsgált negyedévben legtöbbször naponta 2 darabot adtak el. Naponta 3 darabnál, ugyanannyiszor adtak el többet, mint kevesebbet. A vizsgált napok háromnegyedében többet, egynegyedében kevesebbet értékesítettek 1 darabnál. A vizsgált napok háromnegyedében kevesebbet, egynegyedében viszont többet értékesítettek 4 darabnál. 41
PÉLDA Az osztályközös gyakorisági sor elemzésének bemutatására, a középérték és szóródás-számításnál megismert példát úgy folytassuk, hogy a cég 50 dolgozójának kereseti adatait rendezzük osztályközös gyakorisági sorba. 3-16. tábla: 50 dolgozó kereseti adatainak osztályközös gyakorisági sora Bruttó kereset ezer Ft
Osztályközepek
A dolgozók száma fő
xi
-80 81-120 121-160 161-200 201Összesen
A becsült értékösszeg
fi x i
fi
60 100 140 180 220 -
13 20 9 5 3 50
Kumulált gyakoriság
f i′
780 2 000 1 260 900 660 5 600
13 33 42 47 50 -
A számtani átlag: k
∑f x
x=
i
i =1 k
∑f i =1
i
=
5 600 = 112 ezer Ft 50
i
A módusz és a medián is a 81-120 ezer forintos osztályközben van, mivel a max f i = 20 , és a medián 25-ös sorszámát a 33-as kumulált gyakoriság tartalmazza. Ezért a módusz és medián legegyszerűbb becslésének is a 100 ezer forintos bruttó kereset tekinthető. 3-17. tábla: A szórás számításához Bruttó kereset ezer Ft
Osztályközepek
A dolgozók száma fő
xi
-80 81-120 121-160 161-200 201Összesen
fi
60 100 140 180 220 -
13 20 9 5 3 50
Az eltérés-négyzetösszeg számítása
f i (x i − x )
2
13 (60-112)2 20 (100-112)2 9 (140-112)2 5 (180-112)2 3 (220-112)2 103200
A szórás számítása. k
σx =
∑ f (x i =1
i
− x)
2
i
=
k
∑f i =1
103 200 = 45,43 ezer Ft 50
i
A cégnél dolgozók bruttó átlagkeresetének a gyakorisági sorból becsült értéke 112 ezer forint, amitől az egyes dolgozók keresete átlagosan 45 ezer 430 forinttal tér el. A tipikus és közepes keresetet is 100 ezer forintra becsültük a gyakorisági sorból.
42
A gyakorisági sor grafikus ábrái, hisztogram és a gyakorisági poligon alapján vizsgálhatjuk a gyakorisági görbe alakját. 3-3. ábra: Hisztogram Hisztogram 25 20
fő
15 10 5 0 -80
81-120 121- 161160 200 osztályközök
200-
A cég dolgozóinak bruttó kereset szerinti eloszlása jobb oldali aszimmetriát mutat, és természetesen a középértékek nagyságrendi relációja is ugyanezt jelzi:
Mo 〈 Me 〈 x
100 ezer Ft ≈ 100 ezer Ft 〈 112 ezer Ft
43
3.2.3. A koncentráció mérése
A mennyiségi sorok és azok relatív, illetve kumulált sorai, információt szolgáltatnak arra vonatkozóan, hogy a teljes értékösszegnek milyen a megoszlása a sokaság egységei között. Ha a teljes értékösszeg megoszlása nem egyenletes, azaz a teljes értékösszeg nagy része a sokaság egységeinek kis részénél összpontosul, relatív koncentrációról beszélünk. Az egyenletes megoszlás az a határeset, amely a koncentráció hiányát jelzi. A másik határeset a legerősebb fokú, az abszolút koncentráció, amikor a teljes értékösszeg egyetlen sokasági egységre jut. Egy sokaságnak a vizsgált mennyiségi ismérv szerinti relatív koncentrációjának a vizsgálatára a következő példákat hozhatjuk: vizsgálható a mezőgazdasági földtulajdonosoknak a földtulajdon nagysága szerinti koncentrációja, a különböző nemzetgazdasági ágakban a foglalkoztatott létszám, a termelési érték szerinti koncentráció, a népesség jövedelem, illetve vagyon szerinti koncentrációja. A relatív koncentráció elemzése során a vizsgált mennyiségi ismérv szerinti relatív gyakorisági és relatív értékösszegsort egy táblában, a koncentrációs táblában elhelyezve, összehasonlítjuk őket. Erősnek tekintjük a koncentrációt, ha a sokaság nagy hányadához a teljes értéköszszeg kis hányada tartozik, és ugyanakkor a sokaság kis hányadánál összpontosul a teljes értékösszeg nagy hányada. PÉLDA A vidéki városok népességszám szerinti koncentrációját elemezzük az alábbi táblák adatai alapján. 3-18. tábla: Vidéki városok Magyarországon 2000. január 1. A népesség száma (ezer fő) - 4,9 5,0 - 9,9 10,0 - 49,9 50,0 - 99,9 100,0 Összesen
Városok száma fi 25 70 106 12 8 221
A népesség száma fő 91 027 513 895 2 080 500 749 687 1 141 758 4 576 867
Forrás: Területi Statisztikai Évkönyv 2000 3-19. tábla: Vidéki városok Magyarországon 2000. január 1.(Koncentrációs tábla) A népesség száma (ezer fő) - 4,9 5,0 - 9,9 10,0 - 49,9 50,0 - 99,9 100,0 Összesen
A városok aránya gi % 11,3 31,7 48,0 5,4 3,6 100,0
A népesség aránya zi % 2,0 11,2 45,5 16,4 24,9 100,0
44
A koncentrációs tábla alapján azt tapasztaljuk, hogy az alacsonyabb népességszámú városoknál (az első három osztályközben) a relatív gyakoriságok rendre nagyobbak a relatív értékösszegeknél. A nagyobb népességszámú városoknál fordított a helyzet. Például, a vidéki városok 11,3 %-a 5 ezer főnél kisebb népességszámú, de ezekben a városokban a népességnek csak 2,0 %-a él. A 100 ezer főnél nagyobb népességű, az összes vidéki városnak csak a 3,6 %át jelentő városokban a népességnek csaknem negyede, 24,9 %-a él. Mindezek a koncentráció meglétére utalnak. A koncentrációs táblában szereplő sorokat kumulálva, a kumulált relatív gyakorisági és a kumulált relatív értékösszegsor felhasználásával elkészíthető az ún. Lorenz-görbe, melyet a relatív koncentráció szemléltetésére a leggyakrabban szoktunk használni. A Lorenz-görbe egy olyan speciális grafikus ábra, amelyet a koordinátarendszerben egy egységnyi oldalú négyzetben szerkesztünk meg. A vízszintes tengelyen a kumulált relatív gyakoriságokat felvéve, ezek függvényében ábrázoljuk a függőleges tengelyen felmért kumulált relatív értékösszegeket. Az így nyert pontokat összekötve, a négyzetnek a zéró pontból megrajzolt átlója alatti háromszögben kapjuk meg a görbét. A görbének az átlótól, illetve a tengelyektől való távolsága jelzi a relatív koncentráció fokát. Az átló közelében lévő görbe gyenge koncentrációt, a négyzet oldalai közelében lévő görbe erős koncentrációt mutat.
PÉLDA
3-20. tábla: Kumulált sorok a Lorenz-görbe szerkesztéséhez A népesség száma (ezer fő)
A városok aránya g i′ %
- 4,9 5,0 - 9,9 10,0 - 49,9 50,0 - 99,9 100,0 Összesen
A népesség aránya z ′i %
11,3 43,0 91,0 96,4 100,0 -
2,0 13,2 58,7 75,1 100,0 -
3-4. ábra: A városok népességszám szerinti koncentrációja: Lorenz-görbe Lorenz-görbe 100 90 80
Kum. rel. ért.
70 60 50 40 30 20 10 0 0
20
40
60
80
100
Kum. rel. gyak.
45
A relatív koncentráció elemzésére alkalmasak a kvantilisek is, nevezetesen a kvantilis eloszlások. Különösen a jövedelem-eloszlások, a jövedelem-egyenlőtlenség vizsgálatánál használatos a kvintilis (k=5) és decilis (k=10) eloszlás. Ilyenkor a mennyiségi ismérv szerint növekvő rangsorba rendezett sokaságot öt, illetve tíz egyenlő részre osztjuk, de nem az osztópontoknak megfelelő kvintilis, illetve decilis értékeket állapítjuk meg, hanem az egyes ötödökhöz, illetve a tizedekhez tartozó értékösszegeket számítjuk ki. Az ezekből számított relatív értékösszegek, a sokaság azonos hányadaihoz (ötödeihez, tizedeihez) tartoznak. Ha a sokaság azonos hányadaihoz, az értékösszegnek is azonos hányadai tartoznak, a koncentráció hiányáról, azaz az értékösszeg egyenlő megoszlásáról beszélünk. Koncentráció esetén, például jövedelemegyenlőtlenség esetén, az alacsonyabb jövedelmű népességtizedek (a népesség 10 %-ai), az összjövedelemből 10 %-nál kevesebbel részesednek, míg a magas jövedelmű népességtizedek 10 %nál többel rendelkeznek. PÉLDA
3-21. tábla: Az egy főre jutó jövedelem nagysága alapján képzett népességtizedek részesedése az összes személyes jövedelemből Népesség1982 1987 1995 tizedek 1. 4,9 4,5 3,3 2. 6,4 6 5,0 3. 7,3 6,9 6,2 4. 8,1 7,7 7,2 5. 8,8 8,5 8,2 6. 9,6 9,4 9,1 7. 10,7 10,5 10,2 8. 11,9 11,8 11,7 9. 13,7 13,8 14,1 10. 18,6 20,9 25,0 Forrás: A lakosság jövedelmi rétegződése KSH 1989 Jövedelemeloszlás Magyarországon 1995 KSH 1998
A jövedelemegyenlőtlenség látható a tábla adatiból, hiszen az alacsony jövedelmű népességtizedek mindegyike esetén a jövedelemből való részesedés kevesebb 10 %-nál, míg az utolsó, magasabb jövedelmű népességtizedek 10 % felett részesednek az összjövedelemből.
46
3.2.4. Csoportosított sokaság adataiból számított átlagok és szórások
A statisztikai elemzések során arra törekszünk, hogy a sokaság egyedeire vonatkozó információkat tömörítve, összefoglaló mutatószámokkal jellemezzük az egész sokaságot valamely ismérv szerint. Ez azt jelenti, hogy a sokaság egyedeinek kisebb különbözőségeitől, eltekintünk, mivel a vizsgálat szempontjából ezeket lényegteleneknek tekintjük. Homogén, egynemű egyedekből álló sokaság esetén ez az eljárás megfelelőnek tekinthető. A gyakorisági eloszlások elemzésénél említettük, hogy léteznek több móduszú empirikus eloszlások. Ez azt jelzi, hogy a sokaságunk a vizsgált mennyiségi ismérv szerint heterogén, azaz különnemű egyedekből áll. A vizsgálatot ilyenkor úgy célszerű folytatni, hogy a sokaságot egy alkalmasan megválasztott ismérv, egy csoportképző ismérv alapján homogén (egynemű) részekre (csoportokra) bontjuk. A csoportosítás igénye szakmai indokok alapján is felmerülhet. Például kereset-elemzésnél gondolhatunk arra, hogy a foglalkoztatottak keresetük szempontjából összetett sokaságot alkotnak, hiszen számos ismérv (például az életkor, a nemhez való tartozás, a szakképzettség, a beosztás) szerint csoportosítva őket, számíthatunk arra, hogy az egyes csoportokba tartozók keresete közelebb áll egymáshoz. Ugyanígy várható, hogy az egyes csoportok között lényeges kereseti különbségeket találunk. A heterogén sokaságra vonatkozóan tehát a következő megállapítást tehetjük: a sokaságon belül olyan csoportok különíthetők el, amelyekre jellemző az, hogy az ugyanazon csoportba tartozó egyedek a vizsgált ismérv szempontjából hasonló sajátosságokkal rendelkeznek (homogének), a csoportok között azonban lényeges különbségek találhatók. Csoportosított, azaz heterogén sokaság adatainak elemzésénél két ismérv szerepel a vizsgálatunkban. Az egyik a csoportosító ismérv, a másik a vizsgált mennyiségi ismérv. Eldöntendő kérdés az, hogy milyen ismérv alapján végezzük el a sokaság csoportosítását. Azt a célunkat, hogy a vizsgált mennyiségi ismérv szerint a csoportok viszonylag homogének legyenek, akkor érjük el, ha a csoportosító ismérv sztochasztikus kapcsolatban van a vizsgált mennyiségi ismérvvel. Az előző példánkban az életkor, a nemhez való tartozás, a szakképzettség, a beosztás, mind kapcsolatban állhatnak a keresettel. A gazdasági, társadalmi jelenségek vizsgálata során különböző csoportosításokat szokás használni. Például az idegenforgalomban, a belföldi és külföldi vendégek megkülönböztetését, a vállalkozásoknál a létszámuk, a háztartásoknál a háztartás tagjainak száma, a háztartásfő foglalkozása, a gyermekek száma szerinti csoportosítást. Csoportosított sokaságok mennyiségi ismérv szerinti elemzésénél a teljes sokaságot és az egyes csoportokat külön-külön is jellemezni kell a már megismert elemzési eszközökkel. Például a háztartások átlagos (egy főre jutó) jövedelmét vizsgálva fontos kimutatni, hogy a különböző háztartás-típusokban (pl. foglalkozás szerint, vagy gyermekszám szerint) vannak-e jövedelmi különbségek, és ha igen, akkor milyen nagyságúak. Úgy is lehet fogalmazni, hogy a csoportosító ismérvnek (foglalkozás, gyermekszám), van-e hatása a jövedelmi különbségek kialakulására. A továbbiakban ilyen és hasonló kérdések megválaszolására is alkalmas, leíró statisztikai módszereket ismerünk meg, a csoportosított adatokból számított részátlagok és főátlag számítását, valamint a szórásnégyzet összetevőkre bontását.
47
Részátlagok és főátlag-számítás
Egy csoportosított sokaságban valamilyen mennyiségi ismérv szerinti elemzést úgy végzünk, hogy minden csoportban -melyeket részsokaságoknak is nevezhetünk - külön-külön, egymástól függetlenül, és a teljes sokaságra vonatkozóan is, számtani átlagot számítunk. Az m számú csoportra bontott sokaság m számú csoportátlagát részátlagoknak, a sokaságra számított átlagot pedig főátlagnak nevezzük. A j-edik csoportra jellemző részátlag ( x j ) és a főátlag ( x ) számítása: n
1 j x j = ∑ x ji n j i =1
ahol:
n
1 m j x = ∑∑ x ji n j=1 i =1
x ji = az x változónak a j-edik csoportban felvett i-edik értéke n j = a j-edik csoport elemeinek száma m= a sokaságon belül a csoportok száma
A számított átlagok közötti összefüggés a következő: a főátlag, a részátlagoknak, a csoportok elemszámával súlyozott számtani átlaga. Képletben: 1 m x = ∑ n jx j n j=1 Az összefüggés alapján megállapítható, hogy a főátlag mindig a legkisebb és a legnagyobb részátlag között foglal helyet, középérték jellegéből adódóan. A főátlag nagyságát két tényező határozza meg: • a részátlagok nagysága és • a sokaság összetétele, azaz a csoportok elemszámának aránya (az n j /n súlyarányok) A szórásnégyzet összetevőkre bontása
Hasonlóan az átlagszámításhoz a szóródás vizsgálata is úgy történik, hogy az egyes csoportokra külön-külön is elvégezzük a szórásszámítást, és a teljes sokaságra vonatkozóan is kiszámítjuk a szórás értékét. Így m számú csoport-szórást ( σ x j -t), és a teljes szórás ( σ x ) mutatójának az értékét határozzuk meg. Általánosan megállapítható, hogy a szórások között nincs közvetlen összefüggés, az mindig a szórásnégyzetek között írható fel. Ha a csoportonkénti szórásnégyzeteket átlagoljuk a részátlagokhoz hasonlóan - természetesen a csoportnagysággal súlyozva -, akkor a csoportokból álló sokaságban csak a csoportokon belüli szóródást tudjuk jellemezni egy mutatóval. Így nyerjük az ún. belső szórásnégyzet (belső variancia) mutatóját. A csoportokból álló sokaságban azonban a részátlagok is különbözhetnek a főátlagtól. Ezen eltérésekből – természetesen a csoportnagysággal súlyozva - egy újabb szórásnégyzet számítható, melyet külső szórásnégyzetnek (külső varianciának) nevezünk. A belső és külső szórásnégyzet adja ki a teljes szórásnégyzetet. A szórásnégyzetek közötti összefüggést, a szórásnégyzet összetevőkre bontásának nevezünk. E szerint a teljes szórásnégyzet a külső szórásnégyzet és a belső szórásnégyzet összegeként írható fel. 48
σ 2x = σ 2xK + σ 2xB A belső szórásnégyzet a csoportonkénti szórásnégyzetek súlyozott átlagaként számítható: 1 m σ 2xB = ∑ n jσ 2xj n j=1 A külső szórásnégyzet a részátlagok főátlagtól való eltérésnégyzeteinek súlyozott átlagaként számítható: σ 2xK =
1 m, 2 n j (x j − x ) ∑ n j=1
Csoportosított sokaságban a vizsgált mennyiségi ismérv szerinti szórás értékelésekor a szórásnégyzetekből gyökvonással származtatott szórásokat használjuk. A teljes szórás
σ x = σ 2xK + σ 2xB , az egyedi x értékeknek a főátlagtól mért átlagos eltérését mutatja. A külső szórás
σ xK =
1 m, 2 n j (x j − x ) , ∑ n j=1
a részátlagok átlagos eltérését mutatja a főátlagtól. A belső szórás
σ xB =
1 m n jσ 2xj , ∑ n j=1
a teljes sokaságon belül, az egyedi x ji értékek átlagos eltérését mutatja a saját csoportjuk részátlagától. A szórásnégyzet összetevőkre bontásaként megismert összefüggés alapvető fontossággal bír a következtetéses és a modellező statisztikában is. Ez indokolja, hogy – bár a matematikai bizonyításokat mellőzzük-, de egy kicsit részletesebben foglalkozunk a fenti összefüggéssel. A szórásnégyzet összetevőkre bontásánál az egyedi x ji értékek mindegyikére érvényes alábbi összefüggésből indulhatunk ki: x ji − x = (x ji − x j ) + (x j − x ) ahol:
x ji = a j-edik csoport i-edik eleménél az x változó megfigyelt értéke x = az x változó átlagos értéke a teljes sokaságban a főátlag
49
x j = a j-edik csoportban az x változó átlagos értéke, a j-edik részátlag Az egyedi értéknek az összes értéket jellemző főátlagtól való eltérését, a teljes eltérést, két tényező magyarázza. Az egyik a belső eltérés, azaz az egyedi értéknek a saját csoportját jellemző részátlagtól való eltérése. A másik a külső eltérés, azaz az illető részátlagnak a főátlagtól való eltérése. A fenti alapösszefüggés bizonyíthatóan fennáll a teljes sokaságra vonatkozó eltérésnégyzetösszegekre is: SS x = SS xK + SS xB , ahol az SS x , az x változó értékeiből számított eltérés-négyzetösszeget jelöl4. Az eltérés-négyzetösszegeket n-nel, a sokasági elemszámmal osztva a szórásnégyzeteket nyerjük: SS x SS xK + SS xB SS xK SS xB = = + n n n n
σ 2x = σ 2xK + σ 2xB Az alábbi táblában nyomon követhetjük a szórásnégyzet összetevőkre bontását: 3-22. tábla: A szórásnégyzet összetevőkre bontása
A szórásnégyzet forrása
Külső
Az eltérés-négyzetösszegek SS x nj
A szórásnégyzetek σ 2x SS σ 2xK = K n
SS xK = ∑∑ (x j − x ) m
2
j=1 i =1
Belső
nj
SS xB = ∑∑ (x ji − x j ) m
σ 2xB =
2
j=1 i =1
Teljes
nj
SS x = ∑∑ (x ji − x ) m
σx =
2
j=1 i =1
SSB n SS n
A fenti táblában szereplő külső eltérés-négyzetösszeg egyszerűsödik, így a külső szórásnégyzet számítására szolgáló képletekben már a következőképpen jelenik meg: nj
2
SS xK = ∑∑ (x j − x ) = ∑ n j (x j − x ) m
j=1 i =1
m
2
j=1
A belső szórásnégyzet számításával kapcsolatban azt jegyezzük meg, hogy a fenti táblában a belső eltérés-négyzetösszeg az alapadatokból történő kiindulás, azaz keletkezés szerint került meghatározásra. A belső szórásnégyzetre és szórásra vonatkozó képlet viszont, az empirikus elemzés szokásos adatbázisából kiindulva, a csoportonkénti szórásnégyzetek felhasználásával végzi el a számításokat. A kétféle számításnak nyilvánvaló az összefüggése: 4
Az SS szimbólum, a ”sum of square” angol elnevezés rövidítéséből származik. 50
nj
SS xB = ∑∑ (x ji − x j ) = ∑ n jσ 2j m
2
j=1 i =1
m
j=1
Ha a sokaság a vizsgált ismérv szerint heterogén, akkor a részátlagok jelentősen különböznek egymástól és természetesen a főátlagtól is. Ilyenkor a teljes szórásnégyzeten belül a külső szórásnégyzet aránya nagy, a belső szórásnégyzet aránya kicsi. Tehát az alacsony belső szórásnégyzet-arány minősíti az adott csoportosítást, jelezve azt, hogy sikerült a homogén részsokaságokra való bontás. Az alacsony belső szórás az egyes csoportokon belüli egyedi, véletlen, a sokaság egésze szempontjából nem lényeges eltéréseket jelzi. A lényeges eltéréseket okozó tényezőt, illetve tényezőket a csoportképző ismérv jól képviseli, és ez mutatkozik meg a magas külső szórásnégyzet–arányban. A σ 2x = σ 2xK + σ 2xB összefüggés mindkét oldalát σ 2x -tel elosztva a külső és belső szórásnégyzet arányát kapjuk meg, amely százalékban is kifejezhető: σ 2xB σ2 1 = xK + σ 2x σ 2x Ebből származtatjuk a szórásnégyzet-hányados típusú mutatószámokat, amelyek a vegyes és korrelációs kapcsolatok elemzésénél használatosak. A vegyes kapcsolatok elemzésénél használatos szórásnégyzet-hányados mutatója: H2 =
σ 2xK σ 2xB = 1 − σ 2x σ 2x
PÉLDA Egy város egyik ingatlanközvetítőjénél a város húsz társasházi lakását kínálták fel eladásra az egyik hónapban. A lakásokat - aszerint, hogy a város melyik részén helyezkednek el – három csoportba sorolták: belvárosi, zöldövezeti és a város szélén, a lakótelep szomszédságában lévő lakások. A kínálati árakra vonatkozó adatokat az alábbi tábla tartalmazza: 3-23. tábla: Eladásra felkínált lakások árai
A lakás helye
Lakótelepi Zöldövezeti Belváros Város összesen
Kínálati árak (millió Ft) (x ji )
A lakások száma (n j )
A kínálati ár (millió Ft) átlaga szórása (x j ) σxj
8,0 12,0 9,0 14,5 11,0 12,5 10,5 14,0 9,5 13,2 12,0 14,5 18,0 22,0 19,0 16,0 20,0 24,0 19,0 22,5 8,0 12,0 9,0 14,5 11,0 12,5 10,5 14,0 9,5 13,2 12,0 14,5 18,0 22,0 19,0 16,0 20,0 24,0 19,0 22,5
10
11,42
2,08
6
16,92
3,22
4
21,38
1,98
20
15,06 (x )
4,66 (σ x )
( )
51
A tábla utolsó két oszlopában először a három csoportban külön-külön számított részátlagok és csoport-szórások találhatók, majd a „város összesen” sorban a húsz áradatból számított főátlag és a teljes szórás. Az összes felkínált lakásra jellemző átlagos kínálati ár, a főátlag, a részátlagok súlyozott átlagaként bemutatva:
x=
10 × 11,42 + 6 × 16,92 + 4 × 21,38 = 15,06 millióFt 20
A belső szórásnégyzet számítása:
σ 2xB =
10 × 2,082 + 6 × 3,22 2 + 4 × 1,982 = 6,0578 20
A külső szórásnégyzet számítása:
10 × (11,42 − 15,06) + 6 × (16.92 − 15,06 ) + (21,38 − 15,06 ) = = 15,6499 20 2
σ
2 xK
2
2
A teljes szórásnégyzet:
σ 2x = 6,0578 + 15,6499 = 21,7077 A szórásnégyzetek aránya:
1=
6,0578 15,6499 + = 0,28 + 0,72 21,7077 21,7077
A szórásnégyzet-hányados:
H 2 = 0,72 A kínálati árak szempontjából az eladásra felkínált lakások heterogénnek tekinthetők, hiszen igen jelentősen különbözik a három csoportban a kínálati ár átlaga. A szórásnégyzet összetevőkre bontásának eredménye azt mutatja, hogy a lakás helye szerinti csoportosítással sikerült a homogén csoportokra való bontás, mivel a teljes szórásnégyzetnek csak 28 %-a a belső szórásnégyzet. A külső szórásnégyzet magas, 72 %-os aránya ugyanezt mutatva egyben jelzi azt, hogy a lakás városon belüli helyének lényeges szerepe van a kínálati árak szóródásában. A szórások értelmezése:
σ x = 21,7077 = 4,66 millióFt
σ xB = 6,0578 = 2,46 millióFt
σ xK = 15,6499 = 3,96 millióFt A teljes szórás szerint a városban az egyes eladásra felkínált lakások árai az átlagos kínálati áruktól, a 15,06 millió Ft-tól átlagosan 4,66 millió Ft-tal térnek el. A belső szórás azt mutatja, hogy az összes felkínált lakáson belül az egyes lakások kínálati ára, a saját területi elhelyezkedés szerinti csoportjának átlagától - a lakótelepinél a 11,42, a zöldövezetinél a 16,92, a belvárosinál a 21,38 millió Ft-tól átlagosan 2,46 millió Ft-tal tér el. A külső szórás azt mutatja, hogy az egyes, területi elhelyezkedés szerinti csoportokban kialakult átlagos kínálati árak a városban eladásra felkínált összes lakás átlagos kínálati árától, a 15,06 millió Ft-tól, átlagosan 3,96 millió Ft-tal térnek el.
52
3.2.5. A vegyes kapcsolat elemzése Vegyes kapcsolatnak – mint ismeretes – egy minőségi (területi) és egy mennyiségi ismérv közötti sztochasztikus kapcsolatot nevezünk. Ilyen kapcsolatok például a nemhez való tartozás, vagy az iskolai végzettség és a kereset, a személygépkocsik típusa, vagy teljesítménykategóriája és ára, a lakás területi elhelyezkedése és ára közötti összefüggések. A vegyes kapcsolat elemzésének ismertetésre kerülő módszerei azt feltételezik, hogy a minőségi (területi) ismérv az ok szerepét játszó X változó, az okozatként szereplő Y változó pedig a mennyiségi ismérv.
A vegyes kapcsolat elemzése is elvégezhető az asszociációnál megismert kontingencia tábla, és a Cramer –együttható segítségével, ha a mennyiségi ismérv kevés változattal rendelkezik, vagy az ismérvértékek osztályközökbe rendezhetők. Ilyenkor a minőségi és mennyiségi ismérv alapján is csoportosítást végzünk, és a kombinációs tábla gyakoriságait használjuk fel a kapcsolat elemzésére, ami természetesen információveszteséget jelent. A vegyes kapcsolatok elemzésénél az ok szerepét játszó minőségi ismérv szerint a sokaságot csoportosítjuk. Az így keletkezett csoportokban, a mennyiségi ismérv előforduló különböző, azaz szóródó értékeit azok átlagával és szórásával jellemezzük. A vegyes kapcsolatok vizsgálatának szokásos adatbázisa tehát a következő: 3-24. tábla: Kétváltozós vegyes kapcsolat adatbázisa A minőségi ismérv (X) változatai
A mennyiségi ismérv (Y) átlaga szórása
2
y2
s2 …
s1
…
y1
…
1
m
ym
sm
Σ
y
s
A kapcsolat meglétét mutatja az, ha a csoportok átlagai, a részátlagok különböznek egymástól, és természetesen az egész sokaságra jellemző - a tábla összesen sorában szereplő – főátlagtól. Amennyiben minden részátlag (és ilyenkor a főátlag is) ugyanakkora, az ismérvek függetlenek egymástól. Függvényszerű kapcsolat esetén, különböznek a csoportátlagok, a determinisztikus összefüggést az mutatja, hogy a csoportátlagok körül nincs szóródás, azaz a valamely csoporthoz való tartozás egyben megadja a mennyiségi ismérvnek az egyetlen felvehető értékét. (A táblában szereplő szórások - az összesen sorban szereplő kivételével – 0 értékűek.) A vegyes kapcsolat szorosságát a szórásnégyzet összetevőkre bontását felhasználó szóráshányados mutatószáma méri: H=
σ yK σy
=
σ 2yK σ 2y
= 1−
σ 2yB σ 2y
53
A szóráshányados értéke 0, ha nincs kapcsolat, és 1 az értéke, ha függvényszerű kapcsolatról van szó. A szorossági mutató négyzete ún. determinációs együtthatóként értelmezhető, melyet általában százalékos formában szokás megadni. A szórásnégyzet-hányados (H2) megmutatja, hogy a csoportosító minőségi ismérv szerinti hovatartozás, a mennyiségi ismérv szóródásának hány százalékát magyarázza. PÉLDA Egy város egyik ingatlanközvetítőjénél az eladásra felkínált lakások városon belüli helye és a lakások kínálati ára közötti összefüggés-vizsgálathoz, az előzőleg már megismert adatokat az alábbi tábla tartalmazza: 3-25. tábla: Eladásra felkínált lakások árai
( )
A lakás helye
A kínálati ár (millió Ft)
A lakások száma n j
( )
Lakótelepi Zöldövezeti Belváros Város összesen
10 6 4 20
( )
szórása σ y j
átlaga y j 11,42 16,92 21,38 15,06
2,08 3,22 1,98 4,66
(σ y )
(y )
A külső és belső szórásnégyzet számítása:
10 × (11,42 − 15,06) + 6 × (16.92 − 15,06) + (21,38 − 15,06 ) = = 15,6499 20 2
σ yK 2
σ 2yB =
2
2
10 × 2,08 2 + 6 × 3,22 2 + 4 ×1,98 2 = 6,0578 20
A teljes szórásnégyzet:
σ 2y = 4,66 2
vagy,
σ 2y = 15,6499 + 6,0578 = 21,7077
A sztochasztikus kapcsolat szorosságát a szóráshányados mutatójával mérjük:
H=
σ 2yK σ 2y
σ yB 6,0578 15,6499 = 0,8491 = = 0,7209 = 0,8491 vagy, H = 1 − 2 = 1 − 21,7077 21,7077 σy 2
A lakások városon belüli helye és a lakások kínálati ára között szoros sztochasztikus összefüggést állapíthatunk meg. A szórásnégyzet-hányados mutatójának értéke:
H 2 = 0,7209 A lakások városon belüli helye a lakások kínálati árának szóródását 72,1 %-ban magyarázza.
54
3.2.6. A főátlagok összehasonlítása standardizálással
A csoportosított sokaság adatainak elemzésénél láttuk, hogy a főátlag nagyságát két tényező határozza meg: • a részátlagok nagysága és • a sokaság összetétele, azaz a csoportok súlyaránya A főátlag: x=
ahol:
1 1 m n jx j = ∑ n jx j ∑ n n j=1
x = az x változó átlagos értéke a teljes sokaságban a főátlag x j = a j-edik csoportban az x változó átlagos értéke a j-edik részátlag n j = a j-edik csoport elemeinek száma m= a sokaságon belül a csoportok száma
Amikor ugyanazon csoportosított sokaság két különböző időszakra vonatkozó főátlagát hasonlítjuk össze, akkor arra a kérdésre keressük a választ, hogy hogyan változott a főátlag. Feladatunk tehát két főátlag időbeli összehasonlítása. A két főátlag: 1 1 n j1 x j1 x0 = ∑ ∑ n j0 x j0 n1 n0 ahol a 0 és 1 jelölés az összehasonlítandó időszakokat (bázis és tárgy időszak) különbözteti meg. x1 =
A főátlag megváltozásában is két tényező játszik szerepet: • megváltoznak a részátlagok, és • megváltozik a sokaság összetétele, az egyes részsokaságok súlyaránya Azt a statisztikai módszert, amelyik a fenti két tényező hatásának a kimutatására szolgál standardizálásnak nevezzük. A standardizálás módszerének két klasszikus alkalmazási területe a bérek, keresetek és a halálozási arányszámok elemzése5. Az átlagkeresetek növekedése általában nem azonos mértékű a foglalkoztatottak iskolai végzettség, szakképzettség, nemhez való tartozás, beosztás és egy sor más ismérv szerinti csoportjában. A foglalkoztatottak összetétele is időről időre megváltozhat, így szükséges az átlagkereset változását előidéző tényezők hatását egymástól elkülöníteni. Főátlagok összehasonlítása a feladatunk abban az esetben is, amikor gazdasági társaságok vagy akár a nemzetgazdaság különböző ágazataiban foglalkoztatottakat hasonlítjuk össze, átlagkeresetük szempontjából. Ilyenkor, a főátlagok térbeli összehasonlításával, az átlagkeresetek különbözőségét és annak okait vizsgáljuk.
5
Ez utóbbi vizsgálatára fejlesztette ki a standardizálás módszerét Kőrössy József magyar statisztikus. 55
A halálozási arányszámok vizsgálatához néhány megjegyzést kell fűznünk. A halálozások és a népesség számát életkor szerinti csoportosításban vizsgálva a halálozási arányszámokat úgy számítjuk, hogy a halálozások számát a népesség számához viszonyítjuk, és az eredményt általában ezrelékben fejezzük ki. Ilyenkor csoportosított sokaság adataiból intenzitási viszonyszámokat számítunk, mégpedig az életkor szerinti csoportokban részviszonyszámokat, a teljes népességre vonatkozóan ún. összetett viszonyszámot. A standardizálás módszere főátlagok és összetett intenzitási viszonyszámok összehasonlítására egyformán alkalmas. A számtani átlagnak és az intenzitási viszonyszámnak ugyanis vannak hasonlatosságai. Tudjuk, hogy az intenzitási viszonyszám két különböző, de egymással valamilyen kapcsolatban lévő adat hányadosát jelenti. A számtani átlag is értelmezhető intenzitási viszonyszámként, amikor a sokaságra jellemző értékösszeg és a sokasági elemszám hányadosaként számítjuk ki. Például nem kell ismernünk az egyes dolgozók keresetét ahhoz, hogy az átlagkeresetüket kiszámítsuk, ha ismerjük a kifizetésre kerülő béralapot és a dolgozók létszámát. Természetesen az átlaggal jellemzett jelenségek vizsgálatakor szükségszerű az, hogy az értékösszegnek legyen tárgyi értelme. Például az átlagkeresetnél a béralap, a fajlagos anyagfelhasználásnál, az összes anyagfelhasználás, a termésátlagnál a teljes termésmennyiség - mind értelmezhető statisztikai adatok. Láthatjuk, hogy a standardizálás módszerét a főátlagok és az összetett intenzitási viszonyszámok, időbeli és térbeli összehasonlítására is használhatjuk, teljesen analóg módon. Ezért a továbbiakban csak a főátlagok időbeli összehasonlításán keresztül mutatjuk be a standardizálás módszerét. Az összehasonlítás eredménye – mint tudjuk – kifejezhető az összehasonlított adatok különbségeként és hányadosaként is. Ez a két eljárás teljesen egyenértékű eredményt szolgáltat, így azt részesítjük előnyben, amelyik könnyebben értelmezhető eredményt ad. A térbeli összehasonlítások eredménye általában különbségként könnyebben értelmezhető, míg az időbeli öszszehasonlításokra mindkét eljárás megfelelő lehet. Az összehasonlítandó főátlagok különbségét (K) és hányadosát (I) a standardizálás módszerével két részre bontjuk: K = K ′ + K ′′ I = I′ × I′′ A K ′ és az I′ a részátlagok megváltozásának, míg a K ′′ és az I′′ az összetétel-változás hatását mutatja. A különbségek között összegszerű (additív), az indexek között szorzatszerű (multiplikatív) összefüggés áll fenn. Az összehasonlítandó főátlagok hányadosát indexszámnak, röviden indexnek hívjuk. Időbeli összehasonlítás esetén az indexszám tulajdonképpen az összehasonlító viszonyszám egyik fajtájának, a dinamikus viszonyszámnak a számítását jelenti, melyet összetett jelenségek vizsgálatára használunk. Az indexszámokat általánosságban úgy definiálhatjuk, mint az összetett összehasonlító viszonyszámok olyan speciális fajtáját, amely alkalmas az összetett jelenségek együttes átlagos változásának (különbözőségének) a kimutatására. A standardizálás módszere a két tényleges főátlagon kívül ún. standardizált főátlagokat számít, a részátlagok súlyozott számtani átlagaként. A standardizált főátlagokat úgy számítjuk, hogy a főátlagok megváltozását előidéző két tényező egyike szempontjából összehasonlíthatóvá tesszük őket. A standardizálás lépései szerint: • A részátlagok megváltozásának a hatását mutató standardizált főátlagokat a két időszak tényleges részátlagai, és standard (mindkét főátlag számításánál azonos) sokasági összetétellel számítjuk 56
•
Az összetétel-változás hatását mutató standardizált főátlagokat a két időszakra jellemző tényleges összetétellel, de standard (mindkét főátlag számításánál azonos) részátlagokkal számítjuk A következő táblázatban a standardizáláshoz szükséges főátlagok képleteit foglaljuk össze. A táblázatban a standard adatsorokat a következőképpen választottuk meg: • A részátlagok megváltozásának hatását mutató főátlagok számításánál standardnak, a tárgy időszaki (1-sel jelölt) összetételt ( n j1 n 1 súlyarányokat) használjuk •
Az összetétel-változás hatását mutató főátlagok számításánál standardnak a bázis időszaki (0-val jelölt) részátlagokat ( x 0 adatokat) használjuk 3-26. tábla: A standardizáláshoz szükséges főátlagok
Főátlagok
Az összehasonlítandó időszakok (területi egységek) 0 1 1 1 x0 = n j0 x j0 x1 = ∑ ∑ n j1x j1 n0 n1
Tényleges főátlagok A részátlagok megváltozásának hatását mutató főátlagok
x ′0 =
1 ∑ n j1 x j0 n1
x 1′ =
1 n1
Az összetétel változás hatását mutató főátlagok
x ′0′ =
1 ∑ n j0 x j0 n0
x 1′′ =
1 ∑ n j1 x j0 n1
∑ n 1x 1 j
j
A standard adatsorokat többféleképpen választhatjuk meg (például valamelyik időszak tényleges adatsorát, átlagolt adatsorokat, a vizsgálaton kívüli más adatsort is). Fontos szem előtt tartani azonban azt, hogy a standardizálás két lépésében célszerű az ellenkező időszakból választani a standard adatsorokat, mert így a különbségek és az indexek között meglévő összefüggések teljesülnek. Vegyük észre, hogy ha az összehasonlítandó időszakok tényleges adatsorait használjuk standard adatsorokként, nem kell hat különböző főátlagot számítani. A két tényleges főátlagon kívül, egy standardizált főátlag számításával, a különbség-felbontás, illetve a standardizáláson alapuló indexszámítás is elvégezhető. ( x 1′ = x 1 x 1′′ = x ′0 x ′0′ = x 0 ) A standardizálás menete: • A két összehasonlítandó főátlag különbségének (K), illetve hányadosának (I) a számítása: K = x1 − x 0
I=
x1 x0
A K különbség megmutatja, hogy mennyivel változott (növekedett vagy csökkent) a főátlag (a főátlag nagyságrendjében és mértékegységében) a bázis időszakról a tárgy időszakra. Az I főátlag-index, (százalékban kifejezve) azt mutatja, hogy hány százalékkal változott (növekedett vagy csökkent) a főátlag az egyik időszakról a másikra. •
A K ′ különbség és az I′ részátlag-index számítása:
57
x 1′ x ′0 A K ′ különbség a részátlagok átlagos megváltozását mutatva kifejezi azt, hogy a részátlagok megváltozása mennyiben járult hozzá a főátlagok változásához. Az I′ részátlag-index azt mutatja, hogy a részátlagok megváltozása önmagában hány százalékkal növelte vagy csökkentette a főátlagot. K ′ = x 1′ − x ′0
•
I′ =
A K ′′ különbség és az I′′ összetételhatás-indexének a számítása:
x 1′′ x ′0′ K ′′ különbség azt mutatja meg, hogy az összetétel változás önmagában mennyivel növelte vagy csökkentette a két főátlag különbségét. Az I′′ összetételhatás-indexe mutatja azt, hogy a sokaság összetételének (a sokaságot alkotó csoportok súlyarányának) a változásának következtében hány százalékkal változott a főátlag. K ′′ = x 1′′ − x ′0′
I′′ =
PÉLDA Egy cég egyik részlegének létszám és kereseti adatai két egymást követő évben az alábbiak szerint alakultak: 3-27. tábla: egy cég egyik részlegének létszám és kereseti adatai Az alkalmazottak csoportjai Témavezetők Asszisztensek Kisegítők Összesen
2002 Létszám fő 5 15 10 30
2003 Átlagkereset ezer Ft 230 120 80 125
Létszám fő 5 17 13 35
Átlagkereset ezer Ft 250 125 128 128
Az átlagkereset változás 2003/2002 % ezer Ft 108,7 20 104,2 5 106,3 5 102,4 3
Az átlagkereset változását mutató utolsó oszlop adatai alapján megállapítható, hogy egész részlegre jellemző 2,4 %-os átlagkereset-növekedésnél mindhárom dolgozói csoportban magasabb volt az átlagkereset növekedése. A standardizálás módszerével kimutathatjuk, a 2,4 %-os átlagkeresetnövekedés két összetevőjét. A standardizálás módszerének bemutatása érdekében először egy részletes - a főátlagoknak a lépésenkénti kiszámítását is tartalmazó – megoldást közlünk. A két tényleges főátlag hányadosa - amit főátlag-indexnek nevezünk - és a főátlagok különbsége: (a főátlagokat a részátlagok súlyozott átlagaként számítva)
5 × 250 + 17 ×125 + 13 × 85 5 × 230 + 15 ×120 + 10 × 80 128 ÷ = = 102,4 % 35 30 125 K = 128 − 125 = 3 ezer Ft I=
A részátlagok megváltozásának a hatását mutató részátlag-index és különbség számítása (standardnak a 2003-as összetételt választva):
58
5 × 250 + 17 × 125 + 13 × 85 5 × 230 + 17 ×120 + 13 × 80 128 = = 105,8 % ÷ 35 35 121 5 × 230 + 17 ×120 + 13 × 80 K = 128 − 121 = 7 ezer Ft ahol : x ′0 = = 120,857 ≈ 121 35
I′ =
Az összetétel megváltozásának a hatását mutató összetétel-hatás indexe és különbség számítása (standardnak a 2002-es átlagkereseteket választva):
5 × 230 + 17 × 120 + 13 × 80 5 × 230 + 15 ×120 + 10 × 80 121 ÷ = = 96,8 % 35 30 125 K = 121 − 125 = −4 ezer Ft I′′ =
Ugyanezt a megoldást most úgy mutatjuk be, hogy a kiinduló táblában szereplő két tényleges főátlagon kívül csak egy standardizált főátlagot számítunk, és ezeket rendszerezzük az alábbi összefoglaló táblában. A vizsgált cég részlegében a 2002-es évi standardizált átlagkereset (standardnak a 2003-as összetételt választva):
x ′0 =
5 × 230 + 17 × 120 + 13 × 80 = 120,857 ≈ 121 ezer Ft 35
3-28. tábla: A standardizálás adatainak összefoglaló táblázata
Megnevezés
Tényleges x Standardizált x ′ Standardizált x ′′
2002 2003 főátlagok ezer Ft
125 121 125
128 128 121
K ezer Ft
I %
3 7 -4
102,4 105,8 96,8
A standardizáláson alapuló indexek és különbségek összefüggése:
I = I′ × I′′ 1,024 = 1,058 × 0,968
K = K ′ + K ′′ 3 ezer Ft = 7 ezer Ft − 4 ezer Ft
A vizsgált cég részlegében az átlagkereset 2002-ről 2003-ra 2,4 %-kal, illetve 3 ezer Ft-tal növekedett. A részátlag-index alapján megállapítható, hogy az alkalmazottak átlagkeresete átlagosan 5,8 %-kal, illetve 7 ezer Ft-tal növekedett. (Ez a változás a kiinduló tábla utolsó oszlopában lévő, az egyes alkalmazotti csoportokra jellemző változások átlaga.) Ez úgy is értelmezhető, hogy csak az alkalmazotti csoportok átlagkereset-növekedése önmagában 5,8 %-kal, illetve 7 ezer Ft-tal növelte a részlegben dolgozók átlagkeresetét. Az összetételhatás-indexe azt mutatja, hogy csak az alkalmazotti csoportok létszám-összetételének változása, önmagában 3,2 %-kal (100,0-96,8 %-kal), illetve 4 ezer Ft-tal csökkentette volna a cég részlegében az átlagkeresetet. A létszámösszetétel-változás csökkentette az átlagkeresetet, mivel a létszámarány a legalacsonyabb átlagkeresetű alkalmazottak, a kisegítők javára tolódott el.
Az összetétel-változást, - amellyel már foglalkoztunk a struktúra összehasonlításoknál az előző fejezetben - vizsgáljuk meg egy kicsit részletesebben. Ehhez az említett fejezetből újra közöljük a létszámváltozásra vonatkozó táblát.
59
3-29. tábla: A létszámarány változás vizsgálata Az alkalmazottak csoportjai
Az alkalmazottak 2002 létszáma fő 5 15 10 30
Témavezetők Asszisztensek Kisegítők Összesen
Változás 2003/2002
2003 aránya % 16,7 50,0 33,3 100,0
létszáma fő 5 17 13 35
aránya % 14,3 48,6 37,1 100,0
100,0 113,3 130,0 116,6
Az összetétel-változás, a megoszlási viszonyszámokon kívül, vizsgálható a dinamikus viszonyszámok segítségével. A fenti táblában a dinamikus viszonyszámokat csoportosított adatokból számítottuk úgy, hogy a csoportokra külön-külön és az egész sokaságra vonatkozóan is kiszámítottuk az időbeli változást mutató dinamikus viszonyszámokat. Az egyes csoportokra számított viszonyszámokat, részviszonyszámoknak, az egész sokaságra vonatkozót, összetett viszonyszámnak nevezzük. Az összetett viszonyszám a részviszonyszámok súlyozott átlaga, így mindig a legkisebb és a legnagyobb részviszonyszám között foglal helyet. A dinamikus viszonyszámok alapján megállapítható, hogy az összes alkalmazott létszáma növekedett, méghozzá úgy, hogy az asszisztenseké és a kisegítőké is növekedett, a témavezetőké pedig változatlan maradt. Az összetett viszonyszámnál nagyobb részviszonyszám azt jelzi, hogy az illető csoport javára módosult a struktúra. Példánkban, 130,0 % 〉 116,6 % ,azaz a kisegítők aránya növekedett. Az összetett viszonyszámnál kisebb részviszonyszám pedig azt jelzi, hogy az illető csoport rovására módosult a struktúra. Példánkban, 113,3 és 100,0 % 〈 116,6 % , tehát az asszisztensek és a témavezetők létszámaránya csökkent. PÉLDA 3-30. tábla: „A” és „B” ország halandósági viszonyainak összehasonlítása
Korcsoport, év
-9 10-29 30-49 50-69 70Összesen
A népesség száma, ezer fő „A” ország „B” ország 800 1 680 2 080 4 200 2 400 5 320 1 920 2 100 800 700 8 000 14 000
A halálozások száma, fő „A” ország „B” ország 1 680 640 2 940 1 040 27 660 10 080 32 550 24 900 77 140 71 680 108 400 141 970
3-31. tábla: A halálozási arányszámok és a népesség összetétele
Korcsoport, év
-9 10-29 30-49 50-69 70Összesen
A halálozási arányszámok ‰ „A” ország 0,8 0,5 4,2 13,0 89,6 13,55
„B” ország 1,0 0,7 5,2 15,5 110,2 10,14
Különbség -0,2 -0,2 -1,0 -2,5 -20,6 3,41
A népesség kormegoszlása, % „A” ország „B” ország 10 12 26 30 30 38 24 15 10 5 100 100
A halálozási arányszámok különbsége: 60
K A − B = 13,55 − 10,14 = 3,41 „A” ország halálozási arányszáma 3,41 ‰-ponttal magasabb „B” országénál, holott „A” ország minden korcsoportjában alacsonyabbak a halálozási arányszámok. Ez azzal magyarázható, hogy a különbségben két tényező együttes hatása jelentkezik. A korcsoportonkénti arányszámok különbözősége hatásának a kimutatásához számítsuk ki, „B” ország halálozási arányszámát az „A” ország korösszetételével:
x ′B =
800 × 1,0 + 2080 × 0,7 + 2400 × 5,2 + 1920 × 15,5 + 800 × 110,2 = 16,58 8000
A korcsoportonkénti arányszámok különbözőségének hatása:
K ′A − B = 13,55 − 16,58 = −3,03
Ha standard (az „A” ország) korösszetételével számítjuk ki mindkét ország halálozási arányszámát, akkor „A” ország arányszáma 3,03 ‰-ponttal alacsonyabb, mint „B” országé. Tehát „A” országban, az alacsonyabb korcsoportonkénti arányszámok hatására mutatkozik 3,03 ‰-ponttal alacsonyabb halálozási arányszám a „B” országhoz képest. A két ország korösszetétel különbözőségének a hatása:
K ′A′ − B = 16,58 − 10,14 = 6,44
Az „A” országnak a „kedvezőtlenebb” korösszetétele (az idősebb népesség magasabb, a fiatalabb népesség alacsonyabb aránya) miatt, „A” ország halálozási arányszáma 6,44 ‰-ponttal magasabb, mint „B” országé.
61
3.2.7. A korreláció elemzése
Korrelációnak - mint tudjuk - a mennyiségi ismérvek (változók) közötti sztochasztikus kapcsolatot nevezzük. Például korrelációs kapcsolat a testmagasság és testsúly, a munkaviszonyban töltött idő és a kereset, a jövedelem és a kiadás közötti összefüggés. Az ok-okozati összefüggés szerint az okként szereplő változót X-szel, az okozatot Y-nal jelöljük. A korrelációs kapcsolatok vizsgálata esetén is alkalmazható a kombinációs (kontingencia) tábla és a Cramer-féle szorossági mérőszám, ha a mennyiségi ismérvek kevés számú diszkrét változattal rendelkeznek (például lakások szobaszáma, gyermekek, aktív keresők száma a háztartásokban), vagy a folytonos mennyiségi ismérvértékek osztályközökbe sorolhatók (például életkor, jövedelem, árak). Természetesen feltétel az is, hogy kellően nagyszámú adatbázis álljon rendelkezésünkre. Ha korreláció vizsgálatára használjuk az említett módszereket, akkor információ-veszteséggel kell számolnunk. Elemzésünkben ugyanis, az ismérvváltozatok számszerű értékei helyett, csak az azok alapján képzett csoportokhoz tartozó gyakoriságokat használjuk fel. PÉLDA 3-32. tábla: Házasságkötés a házasulók életkora szerint Baranya megyében, 2003 A férfi életkora, év 18-19 20-24 25-29 30-39 40-49 50-59 60Összesen
-17 5 5 4 1 1 16
18-19 7 31 16 5 1 1 61
20-24
A nő életkora, év 25-29 30-39
40-49
50-59
4 2 161 63 12 1 267 356 63 3 67 215 160 12 4 22 62 64 7 1 3 16 29 18 1 8 20 504 661 314 116 46 Forrás: Statisztikai Évkönyv, 2003 Baranya megye
603 13 16
Összesen 18 273 709 460 161 71 42 1734
A házasságkötéseknél a férfi és a nő életkora közötti kapcsolatot mutatják a fenti tábla belsejében elhelyezkedő gyakoriságok. A tábla egyik átlójában sűrűsödnek az előfordulások, mivel a házasságkötések a hasonló életkorúak között gyakoriak. A tábla szélei felé haladva az előfordulások ritkulnak, az egyre szélsőségesebb életkori különbségek miatt. A férfi és női életkor-osztályközöket csak csoportosításra használva az asszociáció szorossági mutatóját használhatjuk a fenti kapcsolat értékelésére. A Cramer-együtthatóval C = 0,561 értéket kaptunk, azaz a házasságkötéseknél a férfi és a nő életkora között közepesnél erősebb sztochasztikus kapcsolatot számszerűsítettünk.
A korrelációs kapcsolatok vizsgálata esetén is alkalmazható a szóráshányados típusú szorossági mérőszám. Ilyenkor, az okként szereplő X változó szerint csoportosítva a megfigyelt sokaság egyedeit, az okozatként szereplő Y változó számszerű értékeire alkalmazzuk a szórásnégyzet összetevőkre bontását. Ebben az esetben az X változó számszerű értékeiben rejlő információt nem használjuk ki.
62
PÉLDA 3-33. tábla: Házasságkötés a házasulók életkora szerint A férfi életkora, év 18-19 20-24 25-29 30-39 40-49 50-59 60Összesen
A nő életkorának átlaga, év szórása, év 19,8 3,1 23,3 4,1 25,6 4,0 29,2 5,2 37,8 7,8 44,2 9,7 55,2 7,7 28,8 8,4
A nő életkora, év -17 18-19 20-24 25-29 30-39 40-49 50-59 60Összesen
A férfi életkorának átlaga, év szórása, év 24,3 6,8 24,8 6,2 26,5 4,4 29,6 5,2 35,6 7,7 46,9 8,1 56,6 8,8 62,6 3,9 31,8 9,5
Mivel a házasulók életkora kölcsönösen befolyásolja egymást, a szorosság-mérésre a szóráshányados mutatóját az ok –okozati összefüggés felcserélésével is elvégeztük. A férfiak életkor szerinti csoportjaiban a női életkor szórásnégyzetének összetevőkre bontása:
σ 2K = 43,9456 σ 2B = 27,3993 σ 2 = 71,3449 A nők életkor szerinti csoportjaiban a férfi életkor szórásnégyzetének összetevőkre bontása:
σ 2K = 55,1897 σ 2B = 35,0340 σ 2 = 90,2237 A számított szóráshányadosok értéke:
H=
43,9456 = 0,6159 = 0,7848 71,3449
H=
55,1897 = 0,6117 = 0,7821 90,2237
A házasulók életkora között szoros kapcsolat mutatható ki, a mindkét irányú ok-okozati összefüggés feltételezésével is. A szóráshányadosok értéke szinte azonos, ez azonban nem szükségszerű. Általánosságban elmondható, hogy a változók felcserélésével számított szóráshányadosok különböző értéket vesznek fel.
A speciálisan korrelációs mérőszámok mindkét mennyiségi ismérv, azaz az X és Y változó számszerűségében rejlő információkat igyekszenek kihasználni. A megfelelő szorossági mérőszám kiválasztásához azonban további információra van szükségünk, Ez az információ a korreláció természetére vonatkozik, azaz arra, hogy az X változó (az ok), milyen törvényszerűség szerint fejti ki a hatását az Y változóra (okozatra). Ennek a feladatnak a megoldásához olyan adatbázisra van szükségünk, amely a sokaság minden egyes egyedére vonatkozóan megadja az X és Y változó megfigyelt értékeit, az XY érték-párokat. A kétváltozós korrelációs kapcsolat adatbázisa:
63
A sokaság egyedei 1 2
X változó x1 x2
Y változó y1 y2
…
…
…
3-34. tábla: Kétváltozós korrelációs kapcsolat adatbázisa
n
xn
yn
A korreláció természete szerint a változók között az alábbi kapcsolatok értelmezhetők: monoton kapcsolat, mely lehet pozitív vagy negatív irányú nem-monoton kapcsolat Pozitív kapcsolat esetén azon sokasági egyedeknél, ahol az X változó (ok) nagyobb értéket vesz fel, ott az Y változó (okozat) is általában nagyobb értékkel rendelkezik, és fordítva: alacsony X értékhez az esetek zömében alacsony Y érték tartozik. Negatív kapcsolat esetén azon sokasági egyedeknél, ahol az X változó (ok) nagyobb értéket vesz fel, ott az Y változó (okozat) általában kisebb értékkel rendelkezik, és fordítva: alacsony X értékhez az esetek zömében magas Y érték tartozik.
A monoton kapcsolatok közül kitüntetett szerepe van a lineáris kapcsolatnak. A kapcsolatot az jellemzi, hogy az X változó (az ok) egységnyi változása az Y változóban (az okozatban) az esetek zömében azonos irányú, megközelítően konstans mértékű változást okoz. A korreláció természetének leírásával a regresszió-számítás foglalkozik. A regresszió-számítás segítségével olyan f(X) függvényt nyerünk, amelynek f(Xi) helyettesítési értéke jól használhat Yi becslésére. Lineáris korreláció esetén az X és Y változó közötti összefüggés természete egy lineáris regresszió-függvénnyel írható le. A korreláció természetét a legegyszerűbben az XY érték-pároknak pontdiagram formájában történő ábrázolásával szemléltethetjük. Nézzük először a monoton kapcsolatokat!
3-5. ábra: Monoton kapcsolatok Pozitív lineáris kapcsolat
Negatív lineáris kapcsolat
64
Negatív nem lineáris kapcsolat
Pozitív nem lineáris kapcsolat
A pontdiagramba rajzolt görbékkel a regresszió-függvényt szemléltetjük. A nem monoton kapcsolatok szemléltetésére nézzük meg az alábbi ábrákat! Az ábrák alapján megállapítható, hogy X és Y között létezik összefüggés, a kapcsolat iránya azonban nem állapítható meg. Az X változó függvényében Y változó alakulása leírható valamilyen nem lineáris függvénnyel (esetünkben polinóm függvénnyel). A regresszió-számítás szolgáltat a fenti – és általánosan a nem lineáris - kapcsolatok szorosságának mérésére alkalmas mutatószámokat. Regresszió-számítás hiányában, a nem monoton kapcsolatok esetén a vegyes kapcsolatnál megismert szóráshányados típusú mutatószámok használhatók a korreláció mérésére, természetesen információveszteséggel. A korrelációs kapcsolatokat bemutató ábrákat zárjuk a korreláció „szélső eseteit”, bemutató ábrákkal, azaz a függetlenség és a függvényszerű kapcsolat szemléltetésével. 3-6. ábra: Függvényszerű kapcsolat és függetlenség Függvényszerű kapcsolat
Függetlenség
Korreláció hiánya esetén az Y értékek a vízszintes tengely mentén, az Y minimális és maximális értékei által határolt sávban szóródnak, az X változó értékeitől függetlenül. Függvényszerű kapcsolat esetén az X változó adott értékéhez az Y változónak minden esetben egy meghatározott értéke tartozik. Esetünkben az összefüggést egy lineáris függvény írja le: Y=A+BX, ahol A és B a függvény paraméterei. A paraméterek értékének ismeretében X bármely értékéhez Y értékei egyértelműen meghatározható.
65
Tananyagunkban a következő korrelációs mérőszámokkal foglalkozunk: • •
a lineáris korrelációs együtthatóval, mely a monoton kapcsolatok közül a lineáris kapcsolatok szorosságának mérésére alkalmas és a Spearman-féle rangkorrelációs együtthatóval, mely általánosan használható a monoton kapcsolatok szorosságának mérésére.
A rangkorrelációs együtthatók alkalmazásának igen fontos területe – a monoton kapcsolatokon kívül – a nehezen mérhető jelenségek közötti összefüggés-vizsgálat. Például képességek, készségek, piac, illetve versenyképesség mind olyan jellemzők, amelyek esetében a vizsgált tulajdonságot csak a megfigyelt egyedek rangsorolásával tudjuk megadni.
A lineáris korrelációs együttható számítása
A lineáris korrelációs együttható számítása az X és Y változók együttingadozását jellemző ún. kovariancia mérőszáma (C) és a változók szórásai segítségével történik. Képlete: C r= σxσy ahol :C =
1 n ∑ (x i − x )(y i − y ) = n i =1
∑ dxd y n
3-35. tábla: A lineáris korrelációs együttható számításának adatbázisa: dxidyi
d2xi
d2yi
dy1
dx1dy1
d2x1
d2y1
dy2
dx2dy2
d2x2
d2y2
Y
1
x1
y1
dx1
2
x2
y2
dx2
…
…
…
…
…
…
…
dyi=yi- y
X
…
dxi=xi- x
A sokaság egyedei
n
xn
yn
dxn
dyn
dxndyn
d2xn
d2yn
n
Összeg
∑xi
Átlag
∑x
n
∑yi
i =1
n Az átlagos érték jelölése
x
—
i =1
n
i =1
n
—
∑dx dy
—
∑ dx dy
∑y i =1
i
—
∑d x
i
i
i =1
n
n y
i
2
i =1
n
n
i
i =1
n
—
—
C
n
i
∑d i =1
n
σ
2 x
n
∑d y 2
i
2
i
i =1
xi
n
∑d i =1
2
yi
n
σ y2
A fenti tábla alapján az alábbiakat állapíthatjuk meg:
66
pozitív korreláció esetén az átlagnál nagyobb (kisebb) X értékekhez általában az átlagnál nagyobb (kisebb) Y értékek tartoznak, így a d x és d y értékpárok általában azonos előjelűek, szorzatuk általában pozitív negatív korreláció esetén az átlagnál nagyobb (kisebb) X értékekhez általában az átlagnál kisebb (nagyobb) Y értékek tartoznak, így a d x és d y értékpárok általában kü-
lönböző előjelűek, szorzatuk általában negatív A kovariancia mutatója a d x d y eltérés-szorzatok számtani átlaga, melynek előjele tájékoztat a kapcsolat irányáról. Bizonyítható, hogy függetlenség esetén C=0 és így r=0 függvényszerű kapcsolat esetén C = σ x σ y és így r = 1 A lineáris korrelációs együttható a [-1;1] intervallumban veszi fel az értékeit, abszolút értéke 0 és 1 között található, nagyobb abszolút értéke szorosabb kapcsolatot jelez. PÉLDA Egy egyetemi tanulócsoport a szorgalmi időszakban az egyik tantárgyból 100 pontot szerezhet dolgozatok, beszámolók és gyakorlati munkák eredményeként. A vizsgaidőszakban egy 100 pontos dolgozatot kell megírni. Vizsgáljuk meg, hogy a szorgalmi és a vizsgaidőszakban nyújtott teljesítmény között milyen szoros a kapcsolat! A grafikus ábra alapján feltételezhető a változók közötti lineáris kapcsolat. A kapcsolat-vizsgálat adatbázisát és a szükséges számításokat az alábbi tábla tartalmazza: 3-36. tábla: A szorgalmi és vizsgaidőszak teljesítménye közötti lineáris korrelációs együttható számítása A hallgató sorszáma 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. Összeg Átlag Szórás
Az elért pontszám a szorgalmi időa vizsgaidőszakban y i szakban x i 82 89 81 65 82 82 47 29 73 59 61 83 76 92 71 71 73 50 97 88 61 78 91 90 95 94 55 39 53 44 88 87 61 74 72 57 74 63 73 80 1 414 1 466 71 73 19 14
dx i 18 -6 11 -42 -12 12 21 0 -21 17 7 19 23 -32 -27 16 3 -14 -8 9
dyi 9 8 9 -26 0 -12 3 -2 0 24 -12 18 22 -18 -20 15 -12 -1 1 0
dx i dyi 162 -48 99 1092 0 -144 63 0 0 408 -84 342 506 576 540 240 -36 14 -8 0 3 722 186,1
67
A lineáris korrelációs együttható számítása:
r=
C 186,1 = = 0,6996 ≈ 0,7 σ x σ y 19 × 14
r 2 = 0,4894 ≈ 0,49
A szorgalmi és vizsgaidőszak teljesítménye közötti kapcsolat szorosnak mondható, a szorgalmi időszak teljesítménye megközelítően 50 %-ban befolyásolja a vizsgaidőszak teljesítményét.
A rangkorrelációs együttható számítása
A rangkorrelációs együttható számításához X és Y változó szerint is rangsoroljuk a sokaság egyedeit. Így 1-től n-ig terjedő, pozitív egész számokat tartalmazó két rangszámsort nyerünk. A két rangszámsorból lineáris korrelációs együtthatót számítva a Spearman-féle rangkorrelációs együtthatót kapjuk. A mutató – a változók tényleges értékei helyett- csak a változók sorrendiségében rejlő információkat használja ki. Képlete: n
ρ = 1−
6 ∑ d i2
i =1 ahol : d i = R x − R y a rangszámpárok különbsége n n2 −1 A mutató minden olyan tulajdonsággal rendelkezik, mint a lineáris korrelációs együttható, azaz [-1;1] intervallumban veszi fel az értékeit, abszolút értéke 0 és 1 között található, nagyobb abszolút értéke szorosabb kapcsolatot jelez.
(
)
Pozitív kapcsolat esetén a két változó szerinti sorrend az esetek zömében azonos vagy közel azonos, negatív kapcsolat esetén a két rangszámsor ellentétesen alakul.
68
PÉLDA Az ország 19 megyéjére és a fővárosra vonatkozó 2002 évi adatok alapján, az egy főre jutó GDP és az ezer lakosra jutó személygépkocsi állomány közötti összefüggést vizsgáljuk. A grafikus ábra alapján megállapítható, hogy nem lineáris a változók közötti összefüggés. 3-37. tábla: Rangkorrelációs együttható számítása
Az egy főre jutó GDP ezer Ft (x)
Megye Budapest Pest Fejér Komárom-Esztergom Veszprém Győr-Moson-Sopron Vas Zala Baranya Somogy Tolna Borsod-Abaúj-Zemplén Heves Nógrád Hajdú-Bihar Jász-Nagykun-Szolnok Szabolcs-Szatmár-Bereg Bács-Kiskun Békés Csongrád
Az ezer lakosra jutó személygépkocsi-szám (y)
Rx
Ry
di = R x − R y
1 1 355 3494 2 6 314 1452 8,5 4 273 1551 8,5 5 273 1525 7 8 274 1307 3,5 2 287 1938 6 3 278 1626 5 7 285 1428 11 11 264 1225 12 15 261 1115 10 9 265 1291 20 17 199 1025 14 12 254 1209 16 19 232 897 17,5 13 226 1206 19 16 208 1112 17,5 20 226 891 3,5 14 287 1116 15 18 222 1021 13 10 250 1269 Forrás: Statisztikai Évkönyv 2003 Baranya megye
0 4 -4,5 -3,5 1 -1,5 -3 2 0 3 -1 -3 -2 3 -4,5 -3 2,5 10,5 3 -3
d i2 0 16 20,25 12,25 1 2,25 9 4 0 9 1 9 4 9 20,25 9 6,25 110,25 9 9
A rangkorrelációs együttható számítása: n
ρ = 1−
6 ∑ d i2 i =1 2
n (n − 1)
= 1−
6 × 260,5 = 0,8045 20(20 2 − 1)
ρ 2 = 0,6472
A rangkorrelációs együttható alapján erős sztochasztikus kapcsolatot mértünk, az ország megyéinek az egy főre jutó GDP-je és az ezer lakosra jutó személygépkocsi állomány között. Az egy főre jutó GDP mintegy 65 %-ban magyarázza a megyék személygépkocsi állományának különbözőségét.
69
4.
Az időbeli ismérv szerinti elemzés eszközei
A számszerűsíthető társadalmi-gazdasági jelenségek statisztikai elemzése során nagy jelentősége van az időbeli összehasonlításnak, a különböző időpontokban, illetve időszakokban mért értékek összevetésének. A 2.1 fejezetben a statisztikai sorok között már definiáltuk az idősort. A megfigyelt idősori értékeket tapasztalati idősornak nevezzük, és a továbbiakban yt-vel (t=1,2,....,n) jelöljük6. Az idősorelemzésnek két fő megközelítési módja ismert. A determinisztikus idősorelemzés abból a feltételezésből indul ki, hogy az idősort tartós hosszú távú tendencia (trend), tartósan ható szabályos jól modellezhető hullámmozgások (szezonalitás) határozzák meg és ezektől eseti-egyedi eltérítő hatást eredményez a véletlen. A determinisztikus7 jelzőt itt más értelmezésben használjuk, mint a sztochasztikus kapcsolatoknál megismert függetlenség, sztochasztikus függőség, determinisztikus meghatározottság hármas összefüggését. Tehát az idő múlása és az idősori realizált értékek között összefüggést vélelmezünk. A sztochasztikus idősorelemzés abból a feltételezésből indul ki, hogy az aktuális idősori értékeket korábban realizálódott értékei és a véletlen hatás alakítja ki, a determinisztikus modellezés feltételezte hosszú távú tendencia befolyásoló szerepe ebben a megkülönböztetésben közvetlenül nem jelenik meg. A továbbiakban részletesebben a determinisztikus modellezéssel foglalkozunk. Ennek két indoka van: történetileg ez alakult ki előbb, és felhasználhatóságát nem kérdőjelezi meg a sztochasztikus megközelítés kimunkálása és elterjedése, a determinisztikus elemzés és a regressziószámítás később tárgyalt ismeretanyaga - kiegészítve a sztochasztikus elemzés alapjainak bemutatásával - kellő alapismeretet nyújt a sztochasztikus modellezés szakirodalomból önképzéssel történő elsajátításához. 4.1. Az idősorelemzés egyszerűbb eszközei
A tapasztalati idősor, mint az elemzés adatbázisa, már egyszerű rátekintéssel elárul valamit a vizsgált jelenség időbeli alakulásáról. Az idősorok grafikus megjelenítése - koordinátarendszerben vagy azon kívül - szemléletesebbé teszi a tendenciákat, így segítve az elemzést. Az egyszerűbb elemzési eszközök közé sorolhatók a dinamikus viszonyszámok (lásd 2. fejezet). Dinamikus viszonyszámok
Kétfajta dinamikus viszonyszámot képezhetünk az idősorokból. A bázisviszonyszám esetében egy konstanssal, legtöbbször az első megfigyeléssel osztunk. bi =
yi yo
ahol yi az idősori értékeket jelöli. 6A 7A
t a latin tempus szóból származik. latin determinatio (be)határolás szóból ered. 70
y 0 , y1 ,..., y i ,..., y n ahol n a megfigyelések száma. A láncviszonyszám esetében a megfigyelést megelőző idősori érték az osztó. bi =
yi y i −1
4-1. tábla: A mezőgazdasági terület Magyarországon 1000 hektárban 1990-2003 folyamán
Év
yt
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
6473 6460 6136 6129 6122 6179 6186 6195 6193 6186 5854 5865 5867 5865
Bázisviszonyszám Láncviszonyszám 1990 = 100 % Előző év = 100 % 100,0 99,8 99,8 94,8 95,0 94,7 99,9 94,6 99,9 95,5 100,9 95,6 100,1 95,7 100,1 95,7 100,0 95,6 99,9 90,4 94,6 90,6 100,2 90,6 100,0 90,6 100,0
A dinamikus viszonyszámok képleteinek vizsgálatakor könnyen belátható, és ezt a számpélda oszlopai is megvilágítják, hogy a kétfajta dinamikus viszonyszám egymásból is képezhető. Jelöljük ki az m-edik időszakot. Belátható, hogy a bázisviszonyszámokból osztással láncviszonyszámot nyerhetünk: bm = lm bm −1 Értelemszerű, hogy a bázisviszonyszámok arányai ugyanazok, mint az alapadatokéi, hiszen az alapadatok oszlopát egy konstans számmal, a bázisértékkel osztottuk végig. Könnyű belátni azt is, hogy az m-edik időszak bázisviszonyszáma a kezdeti megfigyeléstől m-ig tartó láncviszonyszám szorzataként is adódik: y y y1 y 2 y 3 × × × ... × m = m y 0 y1 y 2 y m −1 y 0
A kétfajta viszonyszám egymásból történő kiszámíthatósága azt is sugallja, hogy felesleges kétfajta dinamikus viszonyszámokat képezni, ugyanazt az információt hordozzák. Elegendő lenne a bázisviszonyszámos elemzés, hiszen a bázisviszonyszámokra nézve látható és minősíthető az évről évre történő változás is. Két ellenérv is szól ezen állítás ellen: a láncviszonyszám esetében közvetlenül, relatív formában is megjelenik a változás 71
szemléletes, markáns elkülönülést jelent a számpéldában látszólag egyenletes csökkenést mutató adatsornál azon 7 év megjelenítése, ahol nem volt csökkenés. Ezt a viszonyszám 1-es vagy 1-nél nagyobb értékével jelzi.
Dinamikus átlagok
Az egyszerűbb elemzési eszközök további csoportját alkotják az idősorelemzés területén alkalmazható átlagok. Az 1. fejezetben megismerkedtünk az álló- és mozgó sokaság fogalmával, illetve az ezekhez kötődő állapot és tartamidősorral. Ha egy időszakra vonatkozó tartamidősor átlagos értékére vagyunk kíváncsiak, akkor fenntartások nélkül alkalmazható az egyszerű számtani átlag: n
yt =
∑y
t
t =1
n
PÉLDA Vizsgáljuk meg a magyarországi tehéntej-felvásárlás havi átlagos értékét 2003-ban! 4-2. tábla: Tehéntej-felvásárlás (millió liter) adatai 2003-ban
Hónap
yt
Január Február Március Április Május Június Július Augusztus Szeptember Október November December
136 125 150 141 143 141 139 141 122 145 114 149
Forrás: Statisztikai Havi Közlemények 2003.
yt =
1646 = 137,66 ≈ 138 12
Tehát a havi átlagos tehéntej-felvásárlás Magyarországon 2003-ban 138 millió liter volt.
Ha a hónapok eltérő hosszát a számítás során érvényesíteni szeretnénk, akkor - az idősor természetétől függően - a hónapok napjainak vagy munkanapjainak számával súlyozott átlagszámítást végezhetnénk el. A súlyozás módosító ereje csekély, gyakorlati jelentősége nem túl nagy, ezért ritkán alkalmazzuk. Abban az esetben, ha idősorunk időpontokhoz köthető állapotot fejez ki, vagyis állapotidősort elemzünk, az úgynevezett kronologikus átlagot célszerű használni:
72
yt
k
y1 y + y 2 +... + y n −1 + n 2 = 2 n −1
Vegyük példának egy olyan idősort amelynek adatai az egyes negyedévek első napjára vonatkoznak. Könnyű belátni, hogy az I. negyedévhez rendelt adat valójában az elmúlt év november 15-től a tárgyév február 14-ig jellemzi leginkább az idősort, a II. negyedévi adat pedig február 15-től május 15-ig stb. Hogy egy adott évről teljes képet kapjunk a következő év I. negyedévének az adatait is figyelembe kell vennünk, hogy a tárgyév IV. negyedévének második felét is hatékonyan jellemezzük. A fentiekből következik, hogy egy előre meghatározott időszak korrekt jellemzéséhez egy további, a vizsgált időszakon kívüli megfigyelés szükséges, de az első és utolsó megfigyelés csak fél súllyal szerepel. Például egy negyedévekkel jellemzett teljes év megfigyeléséhez az következő év első negyedévének adata is szükséges. PÉLDA Vizsgáljuk meg, hány főt foglalkoztattak hazánkban 2003-ban a vegyiparban! (Az adatok a hónap első napjára vonatkoznak.) 4-3. tábla: A vegyiparban foglalkoztatottak száma(ezer fő) 2003-ban
Hónap
Yt
Január Február Március Április Május Június Július Augusztus Szeptember Október November December Január (2004)
11,7 11,1 11,7 11,8 11,3 10,8 11,4 9,4 11,9 12,1 11,3 11,5 11,6
Forrás: Statisztikai Havi Közlemények 2003.
yt
k
11,7 11,6 + 11,1 + ... + 11,5 + 2 = 135,95 = 11,329 ≈ 11,33 = 2 12 12
Megállapíthatjuk, hogy 2003-ban a vegyiparban az átlagos foglalkoztatott létszám 11 330 fő. Ezen átlagformának is létezik az időszakok hosszával súlyozott változata, de igen ritkán használatos.
Az átlagszámítást felhasználhatjuk az időszakról időszakra, illetve időpontról időpontra történő változások tömör leírására is. Ezek átlagos értéke jellemzi a növekedés vagy csökkenés mértékét az egész vizsgált időszakban. Ha feltételezhető, hogy a változások az időszakban abszolút nagyságukat tekintve állandóságot mutatnak, akkor az átlagos abszolút változás mutatóját célszerű számszerűsítenünk, amely az y t - y t -1 változások egyszerű számtani átlaga:
73
n
D=
∑D
t
t =2
n −1
=
( y2 − y1 ) + ( y3 − y2 ) +... + ( y n − y n −1 ) y n − y1 = n −1 n −1
ahol D t = y t − y t −1 a változások abszolút nagysága PÉLDA
Vizsgáljuk meg hazánk művelt mezőgazdasági területének átlagos abszolút változás mutatóját az 1976-2000-es idősoron! 4-4. tábla: A művelt mezőgazdasági terület (ezer hektár) alakulása 1976-2000.
Év
yt
1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
6757 6730 6698 6651 6627 6601 6582 6571 6555 6540 6524 6511 6497 6484 6473 6460 6136 6129 6122 6179 6185 6195 6193 6186 5854
Dt -27 -32 -47 -24 -26 -19 -11 -16 -15 -16 -13 -14 -13 -11 -13 -24 -7 -7 57 6 10 -2 -7 -332
Forrás: Statisztikai Évkönyv 2003
D=
5854 − 6757 − 903 = −37,625 ≈ −37,6 = 25 − 1 24
Elmondhatjuk tehát, hogy hazánkban a mezőgazdaságilag művelt terület 1976-2000 folyamán évente átlagosan 37.600 hektárral csökkent. (1992-től a belterületi kerteket nem veszi számba az adatfelvétel.)
Gyakran előfordul, hogy az egymást követő megfigyelések hányadosai mutatnak viszonylagos állandóságot. Ekkor az átlagos relatív változás mutatóját célszerű számszerűsíteni, ami nem más, mint az l t =
y t +1 láncviszonyszámok mértani átlaga: yt
74
l = n −1
n −1
∏l t =1
t
= n −1
y2 y3 y y ... n = n −1 n y 1 y 2 y n −1 y1
PÉLDA Vizsgáljuk meg hazánkban a távbeszélő fővonalak számának 1983-1999-es idősorát! 4-5. tábla: A távbeszélő fővonalak száma (ezer db) 1983-1999.
Év
yt
1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
676 705 739 770 813 858 916 996 1129 1292 1498 1785 2157 2651 3095 3385 3609
l = 16
lt
1,043 1,048 1,042 1,056 1,055 1,068 1,087 1,134 1,144 1,159 1,192 1,208 1,229 1,167 1,094 1,066
3609 16 = 5,3388 = 1,11 676
Az átlagos relatív változó mutatója alapján azt mondhatjuk, hogy a vizsgált időszakban a távbeszélő fővonalak száma évről évre átlagosan 11 %-kal nőtt.
4.2. Idősorelemzés indexszámok segítségével
A statisztika az ún. klasszikus indexszámítást munkálta ki az értéki adatok időbeli összehasonlító elemzésére. A közgazdaságtudományok más diszciplínáitól eltérően a statisztika az értéket a következőképpen definiálja: érték = mennyiség x ár Fenti kategóriák latin eredetű jelölésrendszerrel (v – valor, érték; q – quantum, mennyiség; p- pretium, ár) a következő összefüggést adják v = q. p Az érték megjelölés jelenthet a számvitelben árbevételt, termelési értéket a kereskedelemben árrést, forgalmat stb. Időbeli változásukat az előző fejezetben megismert dinamikus viszonyszámokkal jellemezhetjük.
75
iq =
q1 q0
ip =
p1 p0
v1 q1 p1 = v0 q0 p0
iv =
ahol 0 jelzi a bázisidőszakot, 1 jelzi, az ún. tárgyidőszakot. Az iq a volumenváltozást kifejező dinamikus viszonyszám, elterjedt elnevezése egyedi volumenindex; az ip az árváltozást fejezi ki, elterjedt elnevezése egyedi árindex; az iv az értékváltozást fejezi ki, szokásos elnevezése egyedi értékindex. Az elterjedt elnevezés nem következetes, hiszen valójában viszonyszámot nevez el indexnek. Az index a közvetlenül nem összehasonlítható adatok összetett összehasonlító viszonyszáma. Ha több termék vagy szolgáltatás összesített hasonló szemléletű adataira vagyunk kíváncsiak, akkor aggregálást, vagyis értékben való összesítést végzünk, amelynek eredményeit aggregátumoknak nevezünk. Az aggregálás során a termékek értékadatait állítjuk elő az árak és a mennyiségek szorzataként, majd ezeket összegezzük. A n
∑q i =1
0
p0
a bázisidőszaki aggregátumot, a n
∑q p i =1
1
1
a tárgyidőszaki aggregátumot jelzi n termékre vonatkozó összesítés alapján. Ezek időbeli összehasonlítása adja az értékindexet ∑ q1 p1 Iv = ∑ q0 p0 ami már valóban index, hiszen összetett változást, a mennyiségek és az árak együttes módosító hatását fejezi ki, amely az értékváltozásban realizálódik. Az összesítés során a jövőben a futóindex jelzést elhagyjuk. Az értéki összehasonlítás során a termékek kiválasztásánál van valamilyen rendező elv. Az n termék lehet egy vállalat vagy gazdasági egység összes terméke vagy egy jól körülhatárolható termékcsoportja, homogén termékcsoport a gyártás, a forgalmazás, a felhasználás szempontjából stb.
76
PÉLDA Egy pékség kétfajta péksüteményt szállít egy óvodának. Egy adott héten kedden árat emel. Az adatok a 4. táblázatban találhatók 4-6. tábla: Pékség áremelése
Termék
Nagykifli Kiskifli
Egységár (eurocent) po p1 Hétfő Kedd 50 55 20 24
Mennyiség (db) qo q1 Hétfő Kedd 100 95 120 108
Egyedi index (%) ip
iq
110 120
95 90
4-7. tábla: Az aggregátumok (Euró)
Termék Nagykifli Kiskifli Összesen
qo po 50,00 24,00 74,00
q1 p1 52,25 25,92 78,17
q1 p0 47,50 21,60 69,10
q0 p1 55,00 28,80 83,80
iv % 104,5 108,0 -
qo po – bázisidőszaki aggregátum, 74 euró a hétfőn péksüteményekért fizetett összeg. q1 p1 – tárgyidőszaki aggregátum, 78 euró 17 cent a kedden fizetett összeg q1 po – fiktív aggregátum, a keddi vásárolt mennyiség értéke hétfői árakon qo p1 – fiktív aggregátum, a hétfői vásárlás értéke keddi árakon.
Iv =
∑q ∑q
1
p1
0
p0
=
95 * 55 + 108 * 24 78,17 = = 1,056 100 * 50 + 120 * 20 74,00
Iv = 105,6 % - A péksütemény forgalma – összesített értéke – hétfőről keddre együttesen átlagosan 5,6 %-kal nőtt.
Az összesítésnél nem használtuk ki azt, hogy a termékek mennyiségi egysége egyaránt db. Az összesítés különböző mennyiségi egységű termékek együttesére is elvégezhető az aggregátumok segítségével, összesíteni lehet például db; m2; kg; folyóméter, stb. egységekkel rendelkező termékhalmazt is. Az értéki változást számítási módjából adódóan az árak és a mennyiség változásai együttesen okozzák. Célszerűnek látszik e két hatást elkülönítve számszerűsíteni. 4.2.1. Árindex
Az árindex több termék együttes átlagos árváltozását fejezi ki. Képzésének két fajtája van. ∑ q1 p1 I (p1) = ∑ q1 p 0 Ebben az esetben súlyként a tárgyidőszaki (1)-es jelzésű mennyiségi adatokat használtunk fel. Az ilyen típusú árindexeket a szakirodalom Paasche- árindexnek nevezi. 77
Példánkban:
78,17 = 1,131 → 113,1% 69,10
I 1p =
Létezik az árindexnek a bázisidőszaki (0)-s jelzésű mennyiségi adatokkal súlyozott változata is. Ezt Laspeyres-árindexnek nevezzük. I p( 0) =
∑q ∑q
0
p1
0
p0
Példánkban:
I 0p =
83,80 = 1,132 → 113,2% 74,00
Összefoglalásul megállapítható, hogy példánkban a péksütemények ára együttesen átlagosan Paasche szemléletben 13,1 %-os, Laspeyres szemléletben 13,2 %-os növekedést mutat. Ez más megközelítésben azt mutatja, hogy az értékváltozás árváltozás indukálta része 13, 2 %-os, illetve 13, 1 %-os átlagos növekedést mutat, ennyivel kellett volna az óvodának többet fizetni változatlan mennyiségű péksüteményért.
4.2.2. Volumenindex
A mennyiségi változást a már említett Laspeyres szemléletben az I q( 0) =
∑q ∑q
1
p0
0
p0
formula fejezi ki. Ennek az indexnek is létezik Paasche szemléletű változata: I q(1) =
∑q ∑q
1
p1
0
p0
Vegyük észre, hogy az ár és volumenindexek egyfajta szimmetriát követnek, azonos logika alapján épülnek fel, ahol a o; és 1;-es jelzés különbözik, az határozza meg az ár vagy volumenindex jelleget, az egyforma jelzésű q és p adatok a súlyozás jellegét határozzák meg. Példánkban
I q0 =
69,10 = 0,934 → 93,4% 74,00
illetve
I q1 =
78,17 = 0,93 → 93,3% 83,80
78
-os értékek a vásárolt volumen átlagos 6,6 %-os, illetve 6,7 %-os csökkenését mutatják bázis –, illetve tárgyidőszaki ársúlyozással.
Az ár- és volumenindexek eddig tárgyalt formái az ún. aggregát formák, az elemzések elvégezhetők az ún. átlagforma alkalmazásával is. Ebben az esetben a kiindulást az egyedi indexek jelentik. Könnyű belátni, hogy I p(1) =
∑q p ∑q p 1
1
1
0
∑ q p ×i ∑q p 1
=
0
1
p
=
0
∑q p ∑ q p ÷i 1
1
1
1
p
Illetve I p( 0 ) =
∑q ∑q
0
p1
0
p0
=
∑q p ×i ∑q p 0
0
0
0
p
=
∑q p ∑q p ÷i 0
0
1
1
p
azonosságok fennállnak. Példánkban az
I 1p =
78,17 78,17 = = 1,131 →113,1% 52,25 25,92 47,50 + 21,06 + 1,10 1,20
formában is meghatározható. Hasonló logikával képezhető az
I q0 =
50,00 × 0,95 + 24,00 × 0,9 69,10 = = 0,934 → 93,4% 74,00 74,00
Látható, hogy az árindex esetében az egyedi árindex értékek 110 % és 120 % súlyozott átlagát (113,1 %), míg a volumenindex esetében a 95 % és a 90 % súlyozott átlagát (93,4 %) nyertük. Az ár- és volumenindexek már tárgyalt szimmetriája miatt hasonló szemléletű elemzést a fiktív árbevételekkel és a volumenindexre is elvégezhetünk. A változatok teljessége a képletgyűjteményben < > található. Az ár- és volumenindexek szorzata értékindexet ad. Belátható azonban, hogy a képzési formából adódóan az I v = I 1p × I q0
∑q p ∑q p 1
1
0
0
=
∑q p × ∑q p ∑q p ∑q p 1
1
1
0
1
0
0
0
illetve az
79
I v = I p0 × I q1
∑q p ∑q p 1
0
1
=
0
∑q ∑q
0
p1
0 p0
×
∑q p ∑q p 1
1
0
1
azonosságok adódnak. Példánkban
1,056 = 1,131 × 0,934 78,17 78,17 69,10 = × 74,00 69,10 74,00
Vagyis a Laspeyres- és a Paasche-indexek szorzata adja az értékindexet.
Létezik a két alapforma mértani átlagaként számított keresztezett forma mind az ár, mind a volumenindex esetében, az úgynevezett Fisher-index I pF = I 1p × I p0 I qF = I q0 × I q1
Ennek az indexnek a használata akkor indokolt, ha a bázisidőszaki és tárgyidőszaki index értéke jelentősen eltér egymástól. Jelentős eltérés előfordulhat időbeli összehasonlításkor is. Sokkal gyakoribb az eltérés, ha az itt bemutatott módszereket a részletesen nem tárgyalt területi összehasonlításban vizsgáljuk. Ebben az esetben a tárgyév és bázisév helyett A és B terület (ország, régió, vállalati adatbázis) információival számolunk. Két terület összehasonlításakor az árak és a mennyiség arányai sokkal nagyobb mértékben eltérhetnek egymástól., hiszen időbeli összehasonlításnál egy év eltelte általában az ár és mennyiségi arányokban jelentősebb, illetve szélsőséges átrendeződést nem eredményez. Példánkban
I pF = 1,131 × 1,132 = 1,1315 I qF = 0,934 × 0,933 = 0,9335 I pF × I qF = 1,1315 × 0,9335 = 1,056
A tárgyalt indexek nemcsak két időszak összehasonlítását teszik lehetővé. A vizsgálódás tetszőleges számú időszak elemzését is szolgálhatja. Ekkor a bázis és láncviszonyszámok tárgyalásakor megismert összefüggéseket is felhasználva indexsorokat nyerünk. A két időszak összehasonlításakor megismert érték-, ár-, volumenindexek több időszakra vetítve ugyanúgy értelmezhetők.
80
Mind volumen-, mind árindexsornál léteznek állandó és változó súlyú, bázis és lánc szemléletű, bázis és tárgyidőszaki súlyozású indexsorok, ezeket a szakirodalom részletesen tárgyalja.
4.3. Az idősorok összetevői
Az idősor eddigi tárgyalásakor annak a megfigyelésről megfigyelésre történő változására koncentráltunk. A gyakorlatban azonban olyan elemzési célok is felmerülnek, melyek árnyaltabb, összetettebb elemzést kívánnak. E kérdéskört egy gyakorlati problémával vezetjük elő, amit e fejezet később általánosítani fog. Ha egy mérsékelt égövi országban, ahol 10 éven keresztül egyenletes gazdasági fejlődés volt, és a sörfogyasztásnak vannak hagyományai; akkor a fogyasztást természetes mértékegységben mérve az adatok ábrázolásakor a következő sajátosságokat figyelhetjük meg. Amennyiben negyedévenként van adatbázisunk, és adatainkat egy koordinátarendszerben ábrázoljuk, akkor a 10 év egészében megfigyelhető egy emelkedő tendencia. Észrevehető azonban, hogy az őszi-téli időszak adatai rendre alacsonyabbak, a tavaszi, nyári értékek rendre magasabbak. Ez azzal magyarázható, hogy a sör fogyasztása hőmérsékletfüggő, illetve az inkább nyáron kivett szabadságokkal is összefüggésbe hozható. Megfigyelhetjük azt is, hogy a visszaesés és többletfogyasztás nem szabályosan következik be. Egy adott negyedévet befolyásolják eseti véletlenszerű hatások is: időjárás, a sör árának alakulása stb. A sörfogyasztásos példánkban az emelkedő tendenciát (amely más idősorok esetén lehet stagnálás és csökkenés) alaptendenciának, alapirányzatnak, idegen szóval trendnek nevezzük. (Ebből ered a mai argóban a trendi kifejezés: „nagyon trendi a ruhád”, ami annyit jelent, hogy követi az aktuális divatirányzatot). A példánkban a negyedévek az idények, más szóval szezonok. A sörnek nyáron van erős szezonja. Más, például havi bontásos idősor esetén a hónapok az idények. Ezek az idények a perióduson, példánkban az éven belül szabályosan követik egymást, szabályos hullámmozgást mutatnak. Példánkban a 10 év 10 periódust, a 4 negyed 4 szezont jelent. Ha idősorunk havi bontásos, akkor 10 periódusos 12 idényes idősorként kezelnénk. ^
Egy idősori megfigyelés y értéke tehát függ az alapirányzattól, amit a továbbiakban y -tel jelölünk. Legyen s a szezonalitás jelzése, és v-vel jelöljük a véletlen hatásokat. Az összetett idősor tehát a következő összefüggésként definiálható:
) y = f ( y, s, v) , mely szerint az idősori érték a zárójelben szereplő három tényező függvénye. Ez tehát a szezonalítást tartalmazó idősor leírásának egy alapmodellje, a fejezetben két konkrét megvalósulási formáját fogjuk bemutatni. Az idősorok vizsgálatánál a következő hatásokat célszerű elkülöníteni: 4.3.1. Trendhatás vagy alapirányzat
A trendhatás olyan, az idősort befolyásoló főbb hatások eredőjeként határozottan jelentkező tendencia, amely a vizsgált időszakban állandóan érvényesül, és stabilitást mutat. Ha az adott időintervallumon becsült tendenciát ki akarjuk terjeszteni a vizsgált intervallum határain kívülre, ezt csak azzal a feltételezéssel tehetjük, hogy ott is érvényesül ez a stabilitás.
81
4.3.2. Periodikus ingadozás
A szisztematikusan jelentkező hullámmozgással modellezhető hatásokat nevezzük igy. Az állandó periódushosszú hullámzást mutató idősorok esetében a periódushossz szinte kizárólagosan egy év, vagy ennél rövidebb, akkor a jelenséget szezonalitásnak nevezzük. Az elnevezés hagyományosan a negyedéves és havi bontásos idősorokra vonatkozik, de használhatjuk a héten belüli napi bontású és a napon belüli órabontású idősorokra is. Ezen hullámmozgások összetetten is jelentkezhetnek, pl. a külkereskedelmi forgalom, a közlekedés, az elektromos energiafogyasztás stb. idősorain. A változó periódushosszú ingadozások köré sorolható a konjunkturális ingadozás, bár utóbbi részhalmaza előzőnek, szinonimaként is kezelhető, hiszen a változó periódushosszú ingadozások vizsgálati módszerei döntően a konjunktúrahatás területén születtek. E terület elemzési lehetőségeit a prognosztika elnevezésű diszciplína tárgyalja 4.3.3. Véletlen ingadozás
A véletlen ingadozás alatt sok kisebb jelentőségű, egyedi, esetenként befolyásoló tényező együttes hatásának eredőjét értjük. 4.3.4. Strukturális törés
Strukturális töréseknek nevezzük az olyan egyszeri, jelentős tendenciaváltozásokat, melyek oly számottevően befolyásolják az adott időszak alakulását, hogy külön vizsgálatot igényelnek. Strukturális törés megléte esetén fontos cél a létrehozó ok vagy okok feltárása, a hatás vagy hatások tovagyűrűzésének, esetleges „elhalásának" elemzése. Ha a strukturális törések száma és jelentősége nagy, akkor a tárgyalt determinisztikus idősori megközelítési mód hatékonysága megkérdőjelezhető. Ha a szezonális hullámmozgás kitérései, amplitúdói abszolút értelemben vagy relatív (a trendhez viszonyítva) értelemben állandóságot mutatnak, akkor állandó szezonalitásról, ellenkező esetben változó szezonalitásról beszélünk. A változó szezonalitás elemzését tananyagunk nem tárgyalja. Az állandó szezonalitás modellezésének két alapformája ismeretes. Az additív modell: * y ij = yˆ ij + s *j + vij ahol: yij = a megfigyelt idősor értéke yˆ ij = a trendérték sj* = a szezonális eltérés vij* = a véletlen hatás i = 1,2,....,n= a periódusok (pl. évek) száma j = 1,2,....,m= a perióduson belüli időszakok, azaz a szezonok (pl. hónapok, negyedévek) száma Az additív modellt az alábbi ábra szemlélteti:
82
4-1. ábra: Az additív modell Y
^
y trend ij
a 1
a 1 a
1
a 2
a 2
h
ahol:
a 2
h
t
h
idő
h = a hullámhossz a1 = a periódusonkénti legnagyobb értéknél mért amplitúdó a2 = a periódusonkénti legkisebb értéknél mért amplitúdó
Ha az idősor értékei a 4-1. ábrán vázolt hullám-formával jól jellemezhetők, akkor additív modellről beszélhetünk. Mivel a szezonális eltérések az adott időpontokhoz tartozó amplitúm
dók átlagértékének megfeleltethetők, könnyű belátni, hogy
∑s
* j
= 0.
j =1
A multiplikatív modell:
y ij = yˆ ij × s j × v ij ahol:
a már ismert jelölések mellett sj - a j-edik szezonhoz tartozó szezonális komponens, a szezonindex
A multiplikatív modellt az alábbi módon szemléltethetjük: y$ij
83
4-2. ábra: A multiplikatív modell Y
^
yij
a3
trend
a2 a1
y^1
y^2
h
y^3
h
h
t idő
a1 a2 a3 = = igaz, és a megfelelő szezonoknál yˆ1 yˆ 2 yˆ 3 jelentkező hasonló hányadosok szintén állandóságot mutatnak. Multiplikatív modell esetén a Akkor beszélünk multiplikatív modellről, ha m
∑s szezonindexre vonatkozó követelmény:
j=1
m
j
= 1.
Összefoglalóan megállapítható, hogy a szezonalitás eltérítő hatása a megfelelő szezonoknál additív modellben abszolút állandóságot, multiplikatív modellben a trendhez mért relatív állandóságot mutat. A két modell közötti választásnál segíthet: a vizsgált jelenséggel kapcsolatos szakmai ismeretanyag és a grafikus ábrázolás.
4.4. Trendelemzés
Az alaptendencia számszerűsítésének két alapvető módszere terjedt el. 1. Az ún. mozgóátlagolásos eljárás a számtani átlagszámítás speciális idősori alkalmazása. 2. Az analitikus trendszámítás analitikus függvénnyel írja le a vizsgált jelenség tartós tendenciáját, a függvény paramétereit a tapasztalati idősorból becsüli. 4.4.1. Mozgóátlagolásos trendelemzés
A mozgóátlagolásos technika alkalmazásánál vesszük az idősor első k számú értékét, majd ezeket összegezzük. Az összeget k értékével osztjuk, és az így kapott számértéket az összeget szolgáltató időszak középső elemének megfeleltetjük. A következő lépés az előzőek olyan módon történő ismétlése, hogy az első összegzendő tagot elhagyjuk, és helyette az idősor következő megfigyelését vesszük, és újra elvégezzük az átlagolást. Ezt a műveletet addig végezzük, míg az utolsó idősori értéket is felhasználjuk.
84
Ha k páros, akkor az összeget szolgáltató időszak közepe két átlagolt érték közé esik. Ez esetben egy ismételt k=2-es mozgóátlagolást, más néven centrírozást végzünk, így a kétszeri eltolódás miatt az y t és yˆ t értékek már egymásnak megfelelhetők. Az átlagolt értékek jelentik az idősornak az alapirányzat szerint várható értékeit, röviden az yˆ t trendértékeket. PÉLDA A következő számpélda a mozgóátlagolásos eljárást mutatja be. Állítsuk elő k=4-es mozgóátlagolásos módszerrel egy nagyáruház 1997-2004-es összforgalmának trendértékeit! 4-8. tábla: Egy nagyáruház 1997-2004-es összforgalmának adatai (ezer Ft) negyedéves bontásban
I.
Év
96.323 119.019 136.559 158.449 176.904 176.757 202.205 247.441
1997 1998 1999 2000 2001 2002 2003 2004
II.
III. Negyedév
IV.
119.029 138.625 160.600 182.098 188.501 189.941 198.541 261.689
156.040 172.903 210.812 227.863 235.614 250.006 261.029 307.951
110.081 130.557 139.963 158.870 190.627 190.243 191.694 226.908
4-9. tábla: Részlet a mozgóátlagolás munkatáblájából
Sorszám
1. 2. 3. 4. 5. 6. . . .
Megfigyelés
4 tagú átlag
96.323 110.081 119.029 156.040 129.019 130.557 . . .
120.368 128.542 133.661 . . . .
Centrírozott Érték 124.455 131.101 . . . . .
Első 4 tagú átlag = (96.323+110.081+119.029+156.040)/4 = 120.368 Első centrírozott érték = (120.368+128.542)/2 = 124.455 A mozgóátlagolás végeredményét mutatja a következő tábla:
4-10. tábla: A mozgóátlagolásos trendértékek egy nagyáruház összforgalmi adataira
Év
I.
II.
III. Negyedév
IV.
85
1997 1998 1999 2000 2001 2002 2003 2004
136.111 149.769 174.870 195.173 197.959 209.536 241.373
140.668 157.255 179.689 196.943 199.938 211.989 255.132
124.455 143.723 164.725 184.127 197.893 204.918 219.022 -
131.102 145.847 169.819 190.403 197.827 208.280 229.078 -
Külön megfontolást kíván a mozgóátlagolás k tagszámának meghatározása. Minél nagyobb k értéke, annál biztosabban felszínre kerül a feltárni kívánt alaptendencia, annál eredményesebb a véletlen hatás kiszűrése. Korlátozó tényező viszont a számpéldában is észlelhető rövidülés. A szezonalitást is tartalmazó idősoroknál a k megválasztásánál még egy szempontot figyelembe kell venni. Nevezetesen azt, hogy a k tagszám megegyezzen a szezonok számával, vagy az m-nek egész számú többszöröse kell, hogy legyen a szezonhatás kiszűrése érdekében. Ellenkező esetben a gyenge, illetve az erős idények rendre nagyobb súlyt kapnak az összegképzésben, így egy zavaró hullámzást visznek be az yˆ t idősorába. Fentiek miatt a negyedéves idősorok lehetséges k tagszáma 4, 8, 12,..., a havi bontású idősorok esetén pedig 12, illetve 24,... 4-3. ábra: Egy áruház forgalmi adatai 1997-2004 között és a mozgóátlagolású trendadatok 350
Forgalom (eFt)
300 250 200 150 100 50
I. II. III. IV. I. II. III. IV. I. II. III. IV. I. II. III. IV. I. II. III. IV. I. II. III. IV. I. II. III. IV. I. II. III. IV.
0 1997
1998
1999
2000
2001
2002
2003
2004
Idő
A bemutatott mozgóátlagolásos módszer súlyozatlannak tekinthető alapmódszer, hiszen az y t idősori értékek az átlagolás során egyforma jelentőséggel szerepelnek. Megjegyzendő azonban, hogy a páros k-érték esetén alkalmazott centrírozás egyfajta súlyozásként is felfogható.
4.4.2. Analitikus trendszámítás
Az analitikus trendszámítás esetében a vizsgált jelenség megfigyelt értékei yt, és az idő hatását kifejező t, természetes egész számokból álló változó közötti kapcsolatot modellezzük.
86
A klasszikus legkisebb négyzetek módszere (KLNM)
A trend paramétereinek becslése lineáris esetben nem más, mint az alábbi egyenes együtthatóinak meghatározása: ∧
(4-1)
y i = b0 + b1t i
ahol: bo – az egyenes tengelymetszete b1 – az egyenes iránytangense t = 1,2, …, n – változó jeleníti meg az idő múlását A módszer a következő gondolatmenetre épül. Tudjuk, hogy az t és Y változóra vonatkozóan n számú megfigyeléssel n adatpárral rendelkezünk. Ezek az értékpárok a síkban n pontot határoznak meg. Önként adódik az a kérdés, hogy melyik az egyenes, amelyik ezekhez a pontokhoz legjobban illeszkedik? A probléma megválaszolását segíti az alábbi ábra. 4-4. ábra: A klasszikus legkisebb négyzetek módszerének elve
Y
yˆ = b0 + b1 * t
yi
ei
b1
1
ŷi
b0 t
Válasszunk ki egy tetszőleges ti értéket és keressük meg a hozzá rendelhető idősori becsült és ∧
tényleges értékeket! Az y i és y i adatok általában eltérnek egymástól, amit ei-vel jelölünk. Vegyük észre, hogy ez a különbség a véletlentag. A véletlen előjele egyaránt lehet pozitív, illetve negatív, attól függően, hogy a tényleges értéket reprezentáló pont az egyenes felett vagy az egyenes alatt helyezkedik el. A feladat egy olyan egyenes meghatározása, amely a legjobban illeszkedik a ponthalmazhoz. Logikus, hogy az ei különbségek abszolút értéke annál kisebb, minél közelebb van az egyenes a megfigyelt értékekhez. Vizsgálatunk szempontjából a pontoktól való eltérés iránya érdektelen, csupán a nagysága fontos. Kézenfekvő megoldásnak tűnik, ha az ei négyzetekkel dolgozunk a továbbiakban, ezáltal a hibákat „súlyozva" vesszük figyelembe. Mivel a valamennyi megfigyelt értékhez legjobban illeszkedő egyenest keressük, az eltérések négyzetösszegének minimuma mellett nyerjük a legjobb megoldást. 87
n
n
i =1
i =1
∑ ei2 = ∑ ( yi − yˆ i ) → min 2
A fenti összefüggést alakítsuk át a (4-1) felhasználásával! Mivel ti és yi idősori értékek adottak, a négyzetösszeg a függvény megválasztásától függ, azaz a négyzetösszeg kizárólag b0 és b1 függvénye. n
f (b0 , b1 ) = ∑ ( y i − b0 − b1t i )
2
(4-2)
i =1
A klasszikus legkisebb négyzetek módszerének logikája szerint a lineáris trendfüggvényt azzal az egyenessel becsüljük, amelyre nézve a négyzetösszeg minimális. Tulajdonképpen egy többváltozós szélsőérték-számítási feladat megoldásával juthatunk a keresett függvényhez. A (4-2) függvénynek csak akkor lehet szélső értéke, ha ott mindkét parciális derivált nulla. Esetünkben a szélső érték minimum, mivel a második derivált pozitív. A parciális deriváltak b0 és b1 szerint: n ∂f = −2∑ ( y i − b0 − b1t i ) ∂b0 i =1 (4-3) n ∂f = −2∑ ( y i − b0 − b1t i )t i ∂b1 i =1 Ha a fenti parciális deriváltakat egyenlővé tesszük nullával, és célszerűen átalakítjuk, a paraméterek kiszámítására az alábbi ún. normálegyenleteket nyerjük: n
n
∑ yi = b0 n + b1 ∑ t i i =1
i =1
n
∑t y i =1
i
i
n
n
i =1
i =1
= b0 ∑ t i + b1 ∑ t
(4-4) 2
Ezek, és a belőlük származtatható formulák tulajdonképpen a paraméterekre vonatkozó becslőfüggvények. Mivel az ti és yi, valamint a szükséges összegek, keresztszorzatok összegei és négyzetösszegek ismertek, a normálegyenletek kétismeretlenes első fokú egyenletrendszert alkotnak, ahol az ismeretlenek (b0, b1) a regressziós együtthatók pontbecslései. A paraméterek becslése egy másik megközelítésből is felírható: _
b1
_
∑ (t − t )( y − y) = ∑ d d = ∑d ∑ (t − t ) t
t
_
2
_
y
2 t
_
b0 = y − b1 t ahol:
_
t - a t időtényező (t=1,2,3,…n) _
y - az idősor értékeinek számtani átlaga
88
Az alkalmazható függvénytípusokból néhány: 1. Lineáris trendfüggvény yˆ t = b0 + b1t 2. Exponenciális trendfüggvény t yˆ t = b0 b1 3. Másodfokú polinom yˆ t = b0 + b1t + b2 t 2 Nézzük a fenti függvénytípusok alkalmazásának néhány indokát! 1. Akkor alkalmazzuk a lineáris formulát, ha feltételezhető, hogy egységnyi időváltozás hatására, a vizsgált folyamat változása, növekedése vagy csökkenése, az elemzett időtávon abszolút értelemben megközelítően állandó. 2. Általában a közép- és hosszú távú gazdasági és társadalmi folyamatok jellemzésének alapmodellje. Akkor alkalmazzuk, ha feltételezhető, hogy egységnyi időváltozás hatására a folyamat változása relatíve állandó, azaz a vizsgált időszakban a megfigyelések az előző értékhez képest rendre megközelítően azonos százalékos növekedést vagy csökkenést mutatnak. 3. Amennyiben az idősorban tendencia-váltás tapasztalható, vagyis növekedésből csökkenésbe (vagy fordítva) megy át, akár ismétlődően is, az idősor gyakran jól modellezhető p-ed fokú polinommal. Értelemszerű, hogy a fokszám növelése egyre jobb illesztést ad, de megállapítható, hogy p>3 fokszám alkalmazása már igen nehezen indokolható. Az elő és második trendtípus egyenletes növekedést abszolút vagy relatív értelemben jellemez. A harmadik tipikusan a másodfokú polinommal az ún. termékéletgörbének a leírását adja. Egy konkrét termék termelési és értékesítési volumene alakul így időben. A VW Bora a kategóriaelődjét a Ventót fokozatosan váltotta le. Bevezetéskor még csak a háromajtós változat volt kapható, a Ventót akciózva árusították. Termelése egyenletesen fut fel, de utódja hasonló módon váltja majd, mint a Bora elődjét.
Egy konkrét termék / pl. a WV Bora típusú gépkocsi /életgörbét mutat, de egy típustól független tartós fogyasztási cikk / az előző példát folytatva általában a személygépkocsi/ esetében más görbetípusok alkalmasak a forgalom leírására. Legjellemzőbb példák azok a termékek, amelyek használata háztartáshoz kötődik. Ilyen az automatamosógép. Az automata-mosógép forgalmazása megjelenésekor exponenciálisan futott fel. Korlátot jelent magyarországi forgalmazásakor a háztartások száma. Ha 4 millió háztartás van, és 10 %-nak nincs igénye és lehetősége mosógépet venni; akkor 6 éves átlagos mosógép-élettartam mellett 3,6 millió / 6 = 600 ezer mosógép adható el átlagosan évente, ha használata általánossá vált.
Az ilyen típusú görbék a telítődési görbék. A statisztika sokfajta nemlineáris görbetípust kimunkált, az olvasó ezekre a szakirodalomban találhat példákat. A lineáris trend becslése
A cél az
yˆ t = b0 + b1t függvény paramétereinek becslése, amelyet a legkisebb négyzetek módszerével végezzünk.
89
Az úgynevezett normálegyenletek a már bemutatott két egyenletet adják: ∑ yt = b0 n + b1 ∑ t
∑ ty
t
= b0 ∑ t + b1 ∑ t 2
A két egyenletből megkapjuk a bo és b1 paramétereket. A bo paraméter a t = 0 időpontban modellezett alapirányzati idősor értéket mutatja. A b1 paraméter az időpontról időpontra, illetve időszakról időszakra mért átlagos abszolút változást számszerűsíti. PÉLDA A lineáris trend becslését a hazánkra vonatkozó művelt mezőgazdasági terület 1976-2000-es idősorán mutatjuk be. 4-11. tábla: A művelt mezőgazdasági terület (ezer hektár) 1976-2000
Év
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
yt
yˆ t
6757 6730 6698 6651 6627 6601 6582 6571 6555 6540 6524 6511 6497 6484 6473 6460 6136 6129 6122 6179 6185 6195 6193 6186 5854
5992 5962 5932 5901 5871 5841 5810 5780 5749 5719 5689 5658 5628 5598 5567 5537 5507 5476 5446 5415 5385 5355 5324 5294 5264
A normálegyenletek megoldásához szükséges számítási eredmények: n = 25, t = 325, t 2 = 5. 525
∑y
∑
t
= 160.440
∑
∑ ty
t
= 2.046.241
160.440 = b 0 25 + b1 325 2.046.241 = b 0 325 + b1 5.525
90
A becsült trendegyenlet:
yˆ t = 6.022,79 − 30,37t A b0 paraméter szerint a fenti lineáris trendfüggvény a magyar mezőgazdasági művelt termőterületre 1975-ben 6.022 ezer hektárt becsül. A bl paraméter értelmezése: A trendbecslés alapján a magyar mezőgazdasági művelt termőterület 1976-2000 között, évről-évre átlagosan 30370 hektárral csökkent. 4-5. ábra: A művelt mezőgazdasági terület 1976-2000. között és az illesztett lineáris trend 7 000 6 800 Művelt mg. terület (eHa)
6 600 6 400 6 200 6 000 5 800 5 600 5 400
2 000
1 999
1 998
1 997
1 996
1 995
1 994
1 993
1 992
1 991
1 990
1 989
1 988
1 987
1 986
1 985
1 984
1 983
1 982
1 981
1 980
1 979
1 978
1 977
1 976
5 200
Év
Az exponenciális trend becslése
Ebben az esetben célunk az t yˆ t = b0 b1
függvény paraméterének becslése. Az egyenletet logaritmizálva8 lineáris alakra hozhatjuk: ln yˆ t = ln b0 + t ln b1 legyen
ln b0 = B0
és
ln b1 = B1
Így ln yˆ t = B0 + B1t A formula már becsülhető a megismert legkisebb négyzetek módszerével. A normálegyenletek a következőképpen módosulnak: ∑ ln yt = B0 n + B1 ∑ t
∑ t ln y
8Természetesen
t
= B0 ∑ t + B1 ∑ t 2
bármilyen alapú logaritmus használható, de itt a természetes alapút alkalmazzuk 91
A bo paraméter a t = 0 időpontban modellezett alapirányzati idősor értéket mutatja. A b1 paraméter az időpontról időpontra mért átlagos relatív változást számszerűsíti. PÉLDA Az exponenciális trend becslését a távbeszélő fővonalak száma magyarországi 1983-1999-es idősorán mutatjuk be: 4-12. tábla: A távbeszélő fővonalak száma (ezer fő) 1983-1999.
Év 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
yt
t
n = 17,
∑ ln y
546 611 683 765 856 958 1073 1201 1344 1504 1684 1885 2109 2361 2643 2958 3311
676 705 739 770 813 858 916 996 1129 1292 1498 1785 2157 2651 3095 3385 3609
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
t
yˆ t
∑ t = 153, ∑ t = 1. 785, = 122,41, ∑ t ln y = 1148 2
t
122,41 = 17B 0 + 153B1 1148 = 153B 0 + 1.785B1 B0 = 6,189
B1 = 0,1127 bo = 487,36 b1 = 1,1193 Az exponenciális trendfüggvény:
yˆ t = 487,36 × 1,1193t A bo paraméter értelmezése: Az 1982-re becsült alapirányzat érték, azaz a távbeszélő fővonalak becsült száma 487.360 db. A b1 paraméter értelmezése: A trendbecslés alapján a távbeszélő fővonalak száma évről évre átlagosan 1,119 szeresére, 111,9 %-ra nő, azaz átlagosan 11,9 %-kal növekszik.
92
4-6. ábra: A távbeszélő fővonalak száma (ezer db) száma 1983-1999. között és az illesztett exponenciális trend.
3 500 3 000 2 500 2 000 1 500 1 000 500 1 999
1 998
1 997
1 996
1 995
1 994
1 993
1 992
1 991
1 990
1 989
1 988
1 987
1 986
1 985
1 984
0 1 983
Távbeszélő vonalak sz. (ezer db)
4 000
Év
A fenti ábrában az alapirányzatot a szaggatott vonal, az idősort a folyamatos vonal jelzi. 4.5. A szezonalitás elemzése
A gazdasági-társadalmi folyamatok alakulásában gyakran tapasztalunk szabályos ingadozásokat. Havi és negyedéves bontású idősoroknál tapasztalható, hogy egyes negyedévekben, illetve hónapokban az alaptendenciához viszonyított szisztematikus visszaesés, más negyedévekben, illetve hónapokban rendszeres kiugrás tapasztalható. A szezonalitás létrejöttében meghatározó szerepe van bizonyos természeti jelenségeknek. Ilyen a Föld forgása, meghatározott körforgása a Nap körül, amely a napi, havi, évszakonkénti szezonalitásnak fő okozója. Alapvetően éghajlati tényezőkön keresztül fejti ki hatását, elsősorban a hőmérséklet és a megvilágítottság megváltozása révén. A fentiek összefüggésében alakultak ki olyan társadalmi gazdasági életben megfigyelt jelenségek, amelyek szintén szezonalitást okoznak. A társadalmi szokások, hagyományok, az ünnepek, a divat jelentős hullámzásokat hoz létre a kereskedelemben, a közlekedésben, a postaforgalomban, a hírközlésben, az áramfogyasztásban stb. Nyilvánvaló, hogy a szezonalitás mind a munkaerő, mind a lekötött eszközök kapacitáskihasználtságának vonatkozásában káros jelenség. Nagyon fontos tehát modellezése, hogy mértékének megismerése után a káros hatások eredményeivel szembesüljünk. A szezontényező meghatározásának klasszikus módszere
A bemutatásra kerülő, a gyakorlatban leginkább elterjedt szezonindex-számítási módszer feltételezi az előzőekben ismertetett trendszámítási módszerek valamelyikével a trendértékek előzetes számszerűsítését. A módszer lényege: •
a trendhatás leválasztása,
•
a véletlen hatás kiszűrése.
93
A multiplikatív modell esetében
y ij = yˆ ij × s j × v ij a szezonindexek számszerűsítése a következőképpen történik: 1 n y ij sj = ∑ n i =1 yˆ ij A fenti szezonindexeket ún. nyers szezonindexeknek nevezzük, amelyek tulajdonképpen az y ij alapirányzattól megtisztított értékek szezononkénti egyszerű számtani átlagai9. yˆ ij Könnyen belátható, hogy sj értékek átlagának nagysága együtthatós formában 1, százalékos formában 100 %. Az idősor rövidsége, és az alapirányzat számszerűsítésénél adódó kisebb pontatlanság miatt előfordulhat, hogy az átlag nem pontosan adja a szezonalitás definíciójának megfelelő elméleti értéket. Ekkor az sj értékeket saját átlagukkal m
s=
∑s
j
j=1
m rendre elosztva, az elméleti elvárásnak megfelelő értékeket kapjuk. Amennyiben ez kerekítéssel elérhető, a korrekciótól eltekinthetünk. Az elméleti elvárásnak megfelelő értékeket tisztított szezonindexeknek nevezzük.
9Amennyiben
a trendértékeket mozgóátlagolás segítségével határoztuk meg, vagy bármely más okból az idősor értékeinek sorozata hiányos, akkor előfordulhat, hogy nem rendelkezünk minden megfigyelésre vonatkozóan, becsült, illetve tényleges idősori értékkel. Ekkor értelemszerűen annyi taggal osztunk, ahány alapirányzattól tisztított érték a rendelkezésünkre áll, ez esetben az osztó tag kisebb n-nél. 94
PÉLDA Vizsgáljuk meg, hogyan érvényesül a szezonhatás a nagyáruház 1997-2004-es negyedéves bontású összforgalmi idősorában! Az alapadatok 4-8. táblában, a mozgóátlagolásos trendértékek a 4-10. táblában találhatók. A 4-12. táblában az alapirányzattól tisztított értékeket képezzük. 4-13. tábla: A szezonindex-számítás munkatáblája egy nagyáruház összforgalmi idősorában
I.
Év 1997 1998 1999 2000 2001 2002 2003 2004 Átlag sj
II.
III.
IV.
negyedév 0,94789 0,91206 0,90639 0,90639 0,89289 0,96501 1,02513 0,93649 0,93695
0,92812 0,89003 0,88414 0,96793 0,95151 0,90426 0,88937 0,91648 0,91692
0,95640 0,96452 0,97495 0,98898 0,95253 0,92691 0,90648 0,95297 0,95343
1,19022 1,18551 1,24138 1,19673 1,19101 1,20033 1,13947 1,19209 1,19267
Az átlag-sorban a nyers szezonindexek találhatók, amelyeket korrigálva saját átlagukkal (0,99995) nyerjük az sj-vel jelölt korrigált szezonindexeket. Az átlagszám igen közel esik 1-hez, ami a korrekciót tulajdonképpen nem is indokolja, a művelet itt illusztrációs célokat szolgál, mivel egy kiskereskedelmi egységnél elegendő a százalékos pontosság is. Az első negyedév kerekített 94 %-os szezonindexe úgy értelmezhető, hogy a szezonhatás 6 %-kal téríti el az idősor értékét a trendtől lefelé. A második és harmadik negyedévben az elmaradás 8, illetve 5 %os. Mindezek a negyedik negyedévi mintegy 19 %-os többletforgalomban kompenzálódnak.
Az additív modell esetében * y ij = yˆ ij + s *j + vij
a szezonhatásnak szezonális eltérés az elnevezése. Számszerűsítése az 1 n ∗ s j = ∑ yij − yˆ ij n i =1 formulával történik. Itt is ellenőriznünk kell, hogy a kapott nyers szezonális eltérésnek nevezett értékek megfelelm
nek-e a
∑s
∗ j
= 0 feltételnek. Ha ez nem teljesül, akkor képezzük az s∗j értékek átlagát,
j=1
1 m ∗ ∑sj m j =1 amit az s∗j értékekből rendre levonva biztosítjuk a fenti feltétel teljesülését. Gyakran előfordul, hogy kerekítéssel is elérhetjük célunkat. s∗ =
Ha a szükséges korrekció jelentős mértékű, akkor az alkalmazott módszer kiválasztásánál / trendtípus, additív, multiplikatív modell/ is követhettünk el hibát.
95
PÉLDA Additív modellt feltételezve az előző példa adatbázisán végezzük el a szezonális eltérések számítását is! Adatainkat a 4-8. tábla és a 4-10. tábla millió Ft-ra kerekített értékeiből nyertük, amelyek az alapirányzattól additív módon ( y ij − yˆ ij ) tisztított értékek. 4-14. tábla: A szezonális eltérések számításainak munkatáblája a nagyáruházi példán (millió Ft)
Év 1997 1998 1999 2000 2001 2002 2003 2004 Átlag
s∗j
I.
II.
-7 -13 -17 -18 -21 -8 6 -11,14 -10,89
-10 -17 -21 -6 -10 -20 -28 -16,00 -15,75
III.
IV.
negyedév -5 -5 -4 -2 -9 -15 -20 -8,57 -8,32
25 27 41 38 38 42 32 34,71 34,96
A nyers szezonális eltérések (átlagok) átlaga -0,25, amelyet rendre levonva a nyers szezonális eltérésekből a korrigált szezonális eltéréseket kapjuk. A szezonális eltérés például az I. negyedévben úgy értelmezhető, hogy mintegy 11 millió forinttal csökkenti, ugyanakkor a IV. negyedévben mintegy 35 millió forinttal növeli várhatóan a szezonhatás az áruház forgalmát a trendhez képest.
4.6. Idősori előrejelzések
Az idősorelemzés alapvetően kettős, de egymással szoros összefüggésben lévő célt tűz ki maga elé. Az egyik a múlt feltárása, tömör jellemzése. E célt szolgálják a már megismert egyszerűbb eszközök, a trendszámítás és a szezonalitás vizsgálatának módszerei. A mozgó átlagolásos trend adatsora is jellemzi a vizsgált idősor múltbeli értékeit. A múlt megismeréséből származó ismereteink közvetve segítik az idősori elemzések másik céljának elérését, a jövő megismerését. A múltbeli tendenciák előrevetítése alapul szolgálhat a vizsgált folyamatok jövőbeni értékeinek hatékony becsléséhez. 4.6.1. Előrejelzések trendfüggvények alapján
Ebben az alfejezetben az átlagos változás mutatószámai és a már megismert trendfüggvények alapján történő előrejelzéseket foglaljuk össze. Az előrejelzések esetén mindenkor feltételezzük az elemzési időszakra megállapított alapirányzat változatlanságát. Az átlagos abszolút változás mutatója ( D )alapján az előrebecslés a következő képletekkel végezhető el: yˆ D (n +1) = y1 + n × D = y n + D
96
A 4.1 fejezetben bemutatott példában az átlagos abszolút változás mutatójára D = -37,6-as értéket kaptunk. Az 2001-re vonatkozó előrejelzés:
yˆ D = 6.757 + 25(− 37,6) = 5.854 − 37,6 ≈ 5.816 ezer hektár
A lineáris trendfüggvény alapján az előrebecslés az alábbi módon végezhető:
yˆ lin (n+1) = b0 + b1 (n + 1) = yˆ n + b1 A 4.4.2. fejezetben szereplő példában a lineáris trendre vonatkozóan a következő egyenletet kaptuk:
yˆ t = 6.022,79 − 30,37t Az 2001-re vonatkozó előrejelzés :
yˆ lin = 6.022,79 − 30,37 × 26 = 6.022,79 − 789,62 ≈ 5.233 ezer hektár Az előző két eredményt összevetve megállapíthatjuk, hogy jelentősen eltérnek egymástól.
Egyértelmű hatékonysági rangsort — azon túl, hogy a trendbecslés hatékonyabb módszer a D mutatónál, hiszen minden egyes megfigyelést bevon a vizsgálatba — nem állíthatunk fel, így csak az adott idősor alapos, szakmai ismeretekkel kiegészített elemzése adhat választ arra, mi a végső állásfoglalásunk az előrebecslést illetően. Célszerű az előrejelzéseket szakmai kontroll alá venni, és ha szükséges, akár felülbírálni. Inkább értékes kiinduló adatbázist, mintsem megfellebbezhetetlen végeredményt jelentenek ezek a becslések. Folytassuk az előrejelzések tárgyalását az exponenciális trendbecslés és az átlagos relatív változás összehasonlító elemzésével. Mivel a módszer a relatív változás állandóságát vélelmezi, így értelemszerű összevethetőségük. Az előrebecslés az átlagos relatív változás mutatója ( l ) a következő képlettel végezhető el: yˆ l (n +1) = y1 × l n = y n × l Az előzőekben vizsgált távbeszélő fővonalak száma adatsorán, 2000-re előrebecslésünk a következő: yˆ 1 = 676 × 1,1117 = 100 × 5,8951 = 3985 ezer fő
Az exponenciális trendfüggvény alapján az előrebecslés a következő képlettel végezhető el: yˆ exp (n+1) = b0 b1n+1 = yˆ n b1 A vizsgált idősoron a 4.4.2. fejezetben az exponenciális trendre vonatkozóan a következő egyenletet kaptuk:
yˆ t = 487,36 − 1,119 t az előrejelzett érték 2000-re
yˆ exp = 487,36 × 1,11918 = 487,36 × 7,567 ≈ 3688 ezer db
A kétféle előrejelzés eltér egymástól. Általánosságban megállapítható, hogy a trendelőrebecslés hatékonyabbnak tekinthető, hiszen az összes megfigyelést bevonja a vizsgálatba.
97
4.6.2. Előrejelzések szezonalitás esetén
Vizsgáljuk meg, hogyan alakul az előrejelzés a szezonális hullámzást mutató idősorok esetén. Természetesen az alapirányzat változatlansága mellett feltételezzük a szezonalitás változatlanságát is az előrejelzési időszakban. Az előrejelzés multiplikatív modell esetén a j-edik szezonra: yˆ lin × s j = yˆ multipl illetve additív modell esetén a j-edik szezonra * yˆ lin + s j = yˆ addit’v PÉLDA A 4.4 fejezetben megismert nagyáruházi forgalom elemzését most egészítsük ki egy lineáris trendbecsléssel. A hatásos előrejelzés érdekében ugyanis előre kell becsülnünk a következő év negyedéves bontású forgalmi értékeit, és tananyagunkban nem tárgyalunk olyan eljárást, amelyik mozgóátlagolással előre tud becsülni. A trendegyenlet becslésénél a következő eredményeket kaptuk (adatok ezúttal millió Ft-ban).
∑ t =528, ∑ y = 5.927 ∑ ty = 109.907, ∑ t = 278.784, ∑ y = 34.774.609 n = 32,
t
2
2
t
t
ezekbőz: b0 = 107,6452 ≈ 107 millió tehát,
b1 = 4,6446 ≈ 4,64 millió yˆ t = 107 + 4,64 × t
Az 2005-es trend-előrejelzés tehát: t ylin I.n.év 33 261 II.n.év 34 266 III.n.év 35 271 IV.n.év 36 275 A 4.5 fejezetben kapott szezonindexek rendre 94 %; 92 %; 95 %; és 119 %; a szezonális eltérések pedig -11, -16, -8, 35 millió forint. Az előrejelzés például 2005. I. negyedévére a szezonindexszel
yˆ multipl = 261 × 0,94 = 245 millió Ft , illetve a szezonális eltéréssel
yˆ additív = 261 − 0,94 = 250 millió Ft .
Az 2005. évre előrejelzett értékek (millió Ft): Negyedév ymultipl. I. 245 II. 245 III. 257 IV. 327 A kétfajta előrejelzés eltér egymástól. Megállapíthatjuk, hogy modell erősebbre becsüli, mint az additív.
yadditív 250 250 263 310 a szezonális hullámzást a multiplikatív
98
Az előrejelzések tárgyalásakor csak felvillantani kívántuk a rendelkezésre álló módszertani apparátus néhány praktikusan alkalmazható eljárását, az érdeklődő a szakirodalomban talál további ismeretanyagot e témakörben.
99
100