Írták: Balázsiné Farkas Katalin 3., 4. fejezet Erdélyi Zsuzsanna 2., 8. fejezet Dr. Kardos Zoltánné 5., 6., 7. fejezet Dr. Vargáné Dugonics Rita 1. fejezet
Szakmai lektorok: Balázsiné Farkas Katalin 1., 5., 8. fejezet Erdélyi Zsuzsanna 3., 4., 7. fejezet Dr. Kardos Zoltánné 3., 4. fejezet Dr. Vargáné Dugonics Rita 2., 5., 6. fejezet
Szerkesztő: Bedi Anikó
Tervezőszerkesztő: Szabó Mihály
Készült az Európai Bizottság támogatásával a HU/00/B/F/PP-136037 számú projekt keretében
© 2003 ISBN: 963 553 419 1 Felelős kiadó dr. Sediviné Balassa Ildikó a SZÁMALK Szakközépiskola igazgatója
Minden jog fenntartva. A jelen szerzői jogvédelem alatt álló anyag egyetlen részét sem lehet semmilyen formában reprodukálni vagy felhasználni a szerzői és a felhasználói jog tulajdonosának együttes írásbeli engedélye nélkül. Ez a korlátozás vonatkozik minden mechanikus (ideértve a fénymásolást is), vagy elektronikus eszközön való rögzítésre és bármilyen információtároló és lehívó rendszerre vagy hangfelvételre is.
A munka bármelyik részének másolásához szükséges engedélykéréseket a következő címre kell küldeni: SZÁMALK Szakközépiskola – Budapest, Frangepán u. 56.
TARTALOM
TARTALOM
3
TISZTELT OLVASÓ!
7
1. A STATISZTIKA ALAPKÉRDÉSE
8
1.1. Bevezetés a statisztika fogalomrendszerébe 1.1.1. A statisztika fogalma, szerepe 1.1.2. A statisztika története 1.1.3. A statisztika törvényi szabályozása, intézményi háttere 1.1.4. A statisztikai tevékenység alapműveletei 1.1.5. Statisztikai alapfogalmak (sokaság, ismérv, adat)
8 8 9 11 12 14
1.2. Az információsűrítés egyszerűbb módszerei 1.2.1. A sokaság megadása 1.2.2. Adatok rendezése (csoportosítás, összehasonlítás) 1.2.3. Statisztikai sorok 1.2.4. Statisztikai táblák 1.2.5. Grafikus ábrázolás
18 18 19 21 24 27
1.3. Ellenőrző kérdések
31
2. VISZONYSZÁMOK
32
2.1. A statisztikai adatok összehasonlítása 2.1.1. Összehasonlítás különbségképzéssel 2.1.2. Összehasonlítás hányadosképzéssel
32 32 32
2.2. A viszonyszámokról általában
33
2.3. A csoportosító sorok vizsgálatára használt viszonyszámok: a megoszlási és a koordinációs viszonyszám A megoszlási viszonyszám A koordinációs viszonyszám A megoszlási és a koordinációs viszonyszám összefüggése
34 34 36 37
2.4. Az idősorok vizsgálatának eszköze: a dinamikus viszonyszám 2.4.1. A bázisviszonyszám 2.4.2. A láncviszonyszám 2.4.3. Összefüggés a bázis- és a láncviszonyszámok között 2.4.4. Áttérés új bázisra adott bázisviszonyszámsorban
38 39 40 41 43
2.5. Területi összehasonlító viszonyszámok
43
2.6. Leíró sorok vizsgálata intenzitási viszonyszámokkal 2.6.1. Az intenzitási viszonyszám fogalma, fajtái 2.6.2. Egyenes és fordított intenzitási viszonyszám 2.6.3. Nyers és tisztított intenzitási viszonyszám
45 45 45 46
2.7. A viszonyszámok további viszonyításának lehetőségei
48
2.8. Ellenőrző kérdések
50 3
3. AZ INFORMÁCIÓSŰRÍTÉS MÓDSZEREI MENNYISÉGI SOROK ESETÉN
51
3.1. A mennyiségi sorok elemzése 3.1.1. A mennyiségi ismérvek típusai 3.1.2. Osztályközök 3.1.3. Gyakorisági és értékösszegsorok
51 51 51 52
3.2. Kvantilis értékek
55
3.3. Grafikus ábrázolás 3.3.1. Hisztogram 3.3.2. Gyakorisági poligon
57 57 60
3.4. A koncentráció elemzése
60
3.4. Ellenőrző kérdések
65
4. AZ INFORMÁCIÓSŰRÍTÉS TOVÁBBI MÓDSZEREI MENNYISÉGI ISMÉRV ESETÉN
66
4.1. A középértékekről általában
66
4.2. Számított középértékek (átlagok) 4.2.1. Számtani (aritmetikai) átlag 4.2.2. Harmonikus átlag 4.2.3. Viszonyszámok átlagolása 4.2.4 Mértani (geometriai) átlag 4.2.5. Négyzetes (quadratikus) átlag 4.2.6. Összefüggés a számított középértékek között
67 67 70 71 73 74 75
4.3. Helyzeti középértékek 4.3.1. Módusz 4.3.2. Medián
75 75 76
4.4. A szóródás jellemzése 4.4.1. A szóródás terjedelme 4.4.2. Interkvartilis terjedelem 4.4.3. Átlagos eltérés 4.5.4. Szórás 4.4.5. Relatív szórás (szóródási együttható) 4.4.6. A szórásnégyzet összetevőkre bontása
77 78 78 79 81 82 83
4.6. Ellenőrző kérdések
85
5. ÖSSZETETT SOKASÁG ÖSSZEHASONLÍTÁSA STANDARDIZÁLÁSSAL, INDEXSZÁMÍTÁSSAL
86
5.1. STANDARDIZÁLÁS, KÜLÖNBSÉGKÉPZÉS ÉS INDEXSZÁMÍTÁS
86
5.2. ÖSSZETETT INTENZITÁSI VISZONYSZÁMOK (FŐÁTLAGOK) ÖSSZEHASONLÍTÁSA 5.2.1. Összetett intenzitási viszonyszámok (főátlagok) képzése, tulajdonságai 5.2.2. Összetett intenzitási viszonyszámok (főátlagok) különbségeinek elemzése 5.2.3. Összetett intenzitási viszonyszámokból számolt indexek, főátlagindexkör
87 87 88 91
5.3. Érték típusú adatok összehasonlítása, értékindexkör 5.3.1. Az értékek képzése, összetevői
97 97 4
5.3.2 Az érték-, volumen- és árindexszámítás 5.3.3. Értékek (aggregátumok) különbségei 5.4. Ellenőrző kérdések 6. AZ ISMÉRVEK KÖZÖTTI KAPCSOLATOK ELEMZÉSE
98 101 106 107
6.1. Az ismérvek közötti kapcsolatok fajtái 6.1.1. Függvényszerű (funkcionális) kapcsolat 6.1.2. Sztochasztikus kapcsolat
107 107 108
6.2. A sztochasztikus kapcsolatok elemzésének egyszerű eszközei 6.2.1. Elemzés csoportosítással 6.2.2. Kapcsolatok elemzése viszonyszámokkal 6.2.3. Az átlagszámítás alkalmazása a kapcsolatok vizsgálatában 6.2.4. Sztochasztikus kapcsolat grafikus ábrázolása
109 109 110 112 112
6.3. A sztochasztikus kapcsolatok szorosságának mérőszámai 6.3.1. Az asszociáció szorossága 6.3.2. Sorrendi skálán mért (ordinális) jellemzők közötti kapcsolat vizsgálata 6.3.3. A vegyes kapcsolatok szorosságának mérése
114 114 116 118
6.4. Korrelációs kapcsolatok vizsgálata
120
6.5. Ellenőrző kérdések
123
7. IDŐSOROK ELEMZÉSE
124
7.1. Az idősorok elemzésének egyszerűbb módszerei 7.1.1. Viszonyszámok, indexek, ábrázolás 7.1.2. Idősorokból történő átlagszámítás
124 124 125
7.2. Az idősorok összetevőinek vizsgálata
128
7.3. Trendszámítás 7.3.1. Mozgóátlagolású trendszámítás 7.3.2. Analitikus trendszámítás 7.3.3. Lineáris trendszámítás
130 130 132 133
7.4. A szezonális hullámzás mérése 7.4.1. A szezonalitás mérése trendmentes idősorokban 7.4.2. A szezonalitás mérése trend jelenléte esetén 7.4.3. Ciklikus hullámzás, a véletlen tényezők hatása
135 135 136 139
7.5. Az idősorokból végzett előrejelzések 7.5.1 Előrejelzés egyszerűbb módszerrel 7.5.2. Előrejelzés analitikus trendszámítással
139 140 140
7.6. Ellenőrző kérdések
142
8. AZ INFORMÁCIÓSZERZÉS STATISZTIKAI ALAPJAI
143
8.1. Az adatfelvétel tervezése és szervezése
143
8.2. A kérdőív tervezésének általános szempontjai 8.2.1. A kérdőív típusai 8.2.2. A kérdések csoportosítási lehetőségei 8.2.3. A kérdésekkel kapcsolatos tartalmi és formai követelmények
145 145 145 146 5
8.3. A kérdőíves felmérések feldolgozása
146
8.4. A statisztikai megfigyelések fajtái
146
8.5. Mintavétel és becslés 8.5.1. A számtani átlag és az értékösszeg becslése 8.5.2. A megoszlási viszonyszám becslése
150 152 154
8.7. Ellenőrző kérdések
156
Felhasznált irodalom és forrásmunkák jegyzéke
157
6
TISZTELT OLVASÓ! Az Általános statisztika jegyzet, amelyet a kezében tart elsősorban az akkreditált iskolai rendszerű felsőfokú szakképzés (AIFSZ) keretében az Informatikai statisztikus és gazdasági tervező szakon tanuló diákok számára készült, az Európai Bizottság támogatásával. Tartalmát tekintve azonban ajánljuk minden olyan képzésben résztvevő diák számára, aki most ismerkedik a statisztika alapjaival, fogalomrendszerével, alapvető módszereivel, a jegyzet célja szerint ezekkel ismerteti meg a hallgatót/tanulót. Az Olvasó a történeti áttekintés után megismerkedhet a statisztika alapfogalmaival, majd a legismertebb módszer, a viszonyszámszámítás után az információsűrítés tipikus eszközeit sajátíthatja el. A jegyzet foglalkozik az indexszámítással, az ismérvek közötti kapcsolat szorosságának vizsgálatával, kitér az idősorok alapvető elemzési lehetőségeire, illetve betekintést nyújt az információszerzés statisztikai módszereibe. A jegyzet példatár készült, amely minden egyes fejezetéhez tartalmaz feladatokat, amelyek feldolgozzák a teljes ismeretanyagot naprakész, általában valós adatokat felhasználva. Az ismeretek elsajátításához és begyakorlásához ezen a szinten csupán zsebszámológép szükséges. A tankönyvben az egyes statisztikai számításokat mintapéldákon keresztül mutatjuk meg. Mivel a statisztikai problémák megoldásában gyakran hívjuk segítségül az Excel táblázatkezelő programot, a tankönyv mellékleteként megjelent „Mintafeladatok az Általános Statisztika jegyzethez – Feladatmegoldások Excelben” című elektronikus tananyagban azt is bemutatjuk, hogy a mintapéldák feladatai miképpen oldhatók meg Excel segítségével. (Azon példafeladatok mellett, amelyek Excel-megoldását e mellékletben megtalálja, a nyomtatott jegyzetben Excel ikon szerpel.) A feladatleírásokban lépésről lépésre vezetjük végig az egyes statisztikai feladatok megoldásán. Az útmutatást követve Excelben is megoldhatja a feladatokat. Mindenképpen javasoljuk ezen feladatok feldolgozását a tanulás során, hiszen ennek a tudásnak nagy hasznát veszi majd munkájában, a gyakorlatban. A tankönyvben a következő jelölésekkel találkozik majd: Nagyon fontos, a tárgykör elsajátításának elengedhetetlen feltételeként meghatározott tudás- vagy készségtartalom, amit feltétlenül meg kell tanulnia.
Ellenőrző, önellenőrző kérdések Kiegészítő ismeretanyag
Mintafeladat Excelben A tanuláshoz ezúton kívánunk sok sikert ! A szerzők
7
1. A STATISZTIKA ALAPKÉRDÉSE Tananyagunk első fejezetében a statisztika alapfogalmait ismertetjük. Ebben a fejezetben rakjuk le azokat az alapokat, amelyekre építve haladunk a tananyag további részeiben. Először értelmezzük a statisztika szó különböző jelentéseit, majd meghatározzuk a statisztika tárgyát. Egy rövid nemzetközi és magyar statisztikatörténet után a statisztika törvényi hátterével és intézményi rendszerével foglalkozunk. Ezután áttekintjük a statisztika alapműveleteit. A következő rész fontos, a későbbiekben alapul szolgáló fogalmak definiálásával és magyarázatával kezdődik. Példákon keresztül mutatjuk be a sokaság, ismérv és mérési skálák fogalmát. Ezután az információsűrítés egyszerűbb eszközeiről, a sokaság rendezésének módjairól szólunk. Részletesen foglalkozunk a statisztikai sorokkal és a statisztikai táblákkal. Végezetül a grafikus ábrázolás általános kérdéseit tárgyaljuk. 1.1. BEVEZETÉS A STATISZTIKA FOGALOMRENDSZERÉBE A bennünket körülvevő világban zajló társadalmi és a gazdasági jelenségek megismeréséhez és megértéséhez, a környezetünkben történő tájékozódáshoz nagyon sok információra van szükségünk. Napjainkban a felénk áramló információ mennyiségével nincs is probléma, szinte a bőség zavarával küzdünk. Ezt a sok információt azonban valamiképpen fel kell dolgoznunk: értelmeznünk kell, a döntésekhez elő kell készítenünk és átalakítás után továbbítanunk kell. Ebben a munkában nyújt segítséget a statisztika, lehetővé téve az információ számszerűsítését, tömörebb, egyértelműbb formában történő megjelenítését. Természetesen számszerű információ előállítása nemcsak statisztikai módszerekkel történhet, de a statisztikának ebben a munkában kitüntetett szerepe van. 1.1.1. A STATISZTIKA FOGALMA, SZEREPE A STATISZTIKA szó egymással szoros összefüggésben levő négy jelentést takar: 1. Első jelentése ahhoz a GYAKORLATI TEVÉKENYSÉGHEZ kapcsolódik, amelynek eredményeképpen statisztikai adatokhoz jutunk. Ilyen értelemben mondhatjuk például, hogy a statisztika vizsgálja a nemzetgazdaság teljesítményét. 2. A statisztika szó jelenti a kapott ADATOK ÖSSZESSÉGET is. Maradva az előző példánál: a hírekben adatokat hallhattunk a nemzetgazdaság teljesítményének alakulásáról. 3. Jelöli a MÓDSZERTANT: a statisztika rendelkezik a nemzetgazdaság teljesítményének mérésére alkalmas módszerekkel. 4. Végül mint INTÉZMÉNYRENDSZER is értelmezhető: a nemzetgazdaság teljesítményének méréséhez szükséges adatokat a Központi Statisztikai Hivatal gyűjtötte össze. Az előzőekből az is kitűnik, hogy a statisztika elmélet és gyakorlat is egyben. Határtudománynak tekinthető, mert módszereit nagyon sok esetben alkalmazhatjuk a természet-, a társadalom- és a gazdaságtudományokban. A teljesség igénye nélkül néhány terület: népességstatisztika, gazdaságstatisztika, ágazati statisztika. Tananyagunk befejező részében részletesen foglalkozunk egy-egy alkalmazási területtel. A statisztikának az egyes tudományterületekkel határosan önálló ágai alakultak ki, így beszélhetünk például szociometriáról, ökonometriáról, biometriáról stb. A statisztika tudományának forrásai a XVII. századi német államtudomány és az angol politikai aritmetika voltak. A XIX. században fejlődött leíró jellegű tudományból matematikai (valószínűség-számítási) alapokon nyugvó módszertani tudománnyá. 8
A STATISZTIKAI MÓDSZERTANON belül megkülönböztetjük a leíró statisztikát, a következtetéses statisztikát és a döntéselméletet. A LEÍRÓ STATISZTIKA egyszerűbb eljárásokat foglal magában, ilyenek az adatok gyűjtése, rendezése, feldolgozása és megjelenítése. A KÖVETKEZTETÉSES STATISZTIKA általában minták alapján dolgozik, olyan esetekben, amikor nem ismert a vizsgált sokaság valamennyi egysége. Komoly matematikai alapokon nyugszik. A DÖNTÉSELMÉLET abban segít, hogy több lehetséges megoldás közül ki tudjuk választani az optimálisnak tűnő változatot. A STATISZTIKA TÁRGYÁT a tömegesen előforduló társadalmi-gazdasági jelenségek alkotják. Feladata ezen jelenségek egyedeire vonatkozóan az adatok mérése, gyűjtése, feldolgozása, elemzése és közlése, ennek alapján a vizsgált jelenség egészének tömör, számszerű jellemzése. 1.1.2. A STATISZTIKA TÖRTÉNETE A legtöbb tudományterület esetén a történeti ismertetés úgy kezdődik, hogy „már az ókorban is…”. Ez alól a statisztika sem kivétel. A statisztika története a központi hatalmak megjelenésével kezdődik. Nagyon valószínű, hogy maga a statisztika szó a latin állam (status) szóból ered. Időszámításunk előtt több mint kétezer évvel már gyűjtöttek adatokat Kínában a föld minőségéről, mennyiségéről és a mezőgazdasági művelésről. A népesség számbavétele nagyon fontos feladat volt az ókori államokban is, hiszen az adók kivetéséhez, a hadseregek megszervezéséhez elengedhetetlen volt a népesség számának ismerete. Az ókori Rómában például ötévenként szerveztek népszámlálást. Ugyanilyen fontos szerepe volt a földterületek nyilvántartásának is. A feudalizmus időszakában elsősorban leltározó jellegű adatgyűjtés folyt a földbirtokról. Nagy lendületet adott a statisztika fejlődésének a kapitalizmus kialakulása. A hangsúly a társadalmi-gazdasági jelenségek vizsgálatára tevődött át, létrehozták a statisztikai hivatalokat. A statisztika jelentősége napjainkban egyre fokozódik, többek között azért is, mert a demokrácia egyik fontos pillére a társadalom tagjainak pontos tájékoztatása. A statisztika használata ma igen széleskörű, beletartozik a vállalkozások belső információs rendszere, a nemzetgazdaság teljesítményének mérése, a gazdasági-politikai döntések előkészítése, nemzetközi összehasonlítások végzése, az ország külgazdasági kapcsolatainak jellemzése. Statisztika Magyarországon A statisztika hazai művelői közül elsőként BÉL MÁTYÁS nevét kell megemlítenünk, aki a magyar statisztikai gyakorlat úttörője volt. Bél Mátyás 1684. március 24-én Ocsován született. Iskoláit Losoncon, Besztercebányán és Pozsonyban végezte. 1704-től 1707-ig Halléban tanult, 1707-ben Besztercebányán káplán, 1714-től 1719-ig a pozsonyi líceum igazgatója, utána evangélikus lelkész. Korának kiemelkedő, sokoldalú tudósaként foglalkozott nyelvészettel, történelemmel, földrajzzal és mezőgazdasággal. Leghíresebb, ma is forrásértékű munkája, a Notitia Hungariae novae historicogeographica (Bécs, 1735―42) tíz megye leírását tartalmazza Mikovény Sámuel térképeivel. Nevéhez fűződik az első rendszeresen megjelenő magyarországi hírlap, a Nova Posoniensis című latin nyelvű újság szerkesztése. Pozsonyban halt meg 1749. augusztus 29-én. (A szerk.)
Magyarországon az ELSŐ NÉPSZÁMLÁLÁST II. József rendelte el a XVIII. század végén. Ez sajnos nem lehetett teljes körű, mert a nemesek nem hagyták összeírni magukat, sértve érezvén nemesi előjogaikat. Az első teljes körű népszámlálást 1869-ben tartották Magyarországon. A népszámlálások napjainkban 10 évenként ismétlődnek. 9
A XIX. században több kiváló statisztikus dolgozott Magyarországon. Közülük FÉNYES ELEK, KELETI KÁROLY és KŐRÖSY JÓZSEF voltak a legkiemelkedőbbek. Fényes Elek 1807. július 7-én született a Bihar megyei Csokaj községben. A debreceni kollégium diákja, majd Nagyváradon bölcsész, Pozsonyban jogász. 1929-ben doktorált. Ügyvédi oklevelet szerzett. Jól jövedelmező ügyvédi állását feladta és a tudomány felé fordult. Első nagy műve, a hazai statisztika első jelentős alkotása, 1836-ban jelent meg: Magyarország és a hozzácsatolt részek mostani állapotja statisztikai és geográfiai tekintetben. 1840-ben az Akadémia nagydíja volt a jutalma. Ekkor költözött családi birtokáról Pestre. A második és egyben legismertebb műve a Magyarország statisztikája. Ez is „nagydíjas” alkotás. 1844―48 között több jelentős művet írt magyarul és németül. (Magyarország gazdatiszti névtára, Magyarország leírása, Statistik des Königreches Ungarn). Fényes Elek a reformnemzedék tagja, Kossuth, Eötvös, Deák kortársa volt. Alkotó munkásságának állomásai: az MTA levelező tagsága; az Ipartestületi Hetilap Szerkesztése. Jelentős közjogi méltóságokat töltött be az 1848-as forradalomban (belügyminisztériumi osztálytanácsos). Szemere Bertalan megbízta az Országos Statisztikai Hivatal megszervezésével. Később a forradalmi vésztörvényszék pesti elnökének nevezték ki. Gróf Széchenyi a „magyar Maratnak” nevezte. A forradalom bukása után bíróság elé állították, de felmentették, ezt követően folytatatta tudományos tevékenységét. 1851ben készült el a Magyarország geográfiai szótára, amelyben minden falu és puszta körülményesen leiratik című munkája. 1858 óta az MTA rendes tagja. Lelkesedése és életereje azonban már nem a régi. Még nagyszámú cikket írt a statisztikáról, jelentős a levelezése is e tárgyban, de további nagy művet már nem írt. A leíró statisztikát alkalmazó iskola követője. Utolsó éveiben a Fővárosi Statisztikai Hivatalban dolgozott. Így vallott életéről: „… ha csak egy téglát is hordtam a közjó roppant épületéhez, polgári kötelességemet, szűk körömhöz képest, eléggé teljesítettem.” 1876. július 23-án halt meg Újpesten. Keleti (Klette) Károly 1833. július 18-án született német polgári családban. Nevét 1862-ben változtatta Keletire. 1848-ban gyermekfejjel honvéd tüzér lett és 1849-ben, a fegyverletétel után a fogságból megszökve visszatért a szülői házhoz, majd jogot hallgatott Pozsonyban. Az 1850-es évek végén Pestre költözött, ahol Eötvös rábízta a Politikai Hetilap című újságjának szerkesztését. 1862-ben megalakult Magyar Földhitel Intézet tisztviselője, majd rövidesen tanácsjegyzője. 1867-ben, mint Földmívelés-, Ipar- és Kereskedelemügyi Minisztérium osztálytanácsosa megszervezte a Statisztikai Osztályt. Kidolgozta a statisztika elvi és módszertani kérdéseit. Két tanfolyamot szervezett, amelyen az ország különböző részeiből összesen ötszázan vettek részt. Ezzel megteremtette a széles körű adatfeltárás lehetőségét, melynek középpontjában a mezőgazdaság állott. 1871-ben megalakult az önálló Statisztikai Hivatal, mely csak személyi ügyekben kapcsolódott korábbi minisztériumához. Kinevezése során szembe került Fényes Elekkel, akit mint a magyar statisztika úttörőjét nagyra becsült. 1868-ban a Magyar Tudományos Akadémia levelező, 1875-ben rendes, 1890-ben igazgató tagjává választotta. A Természettudományi Társulat elnöke. 1869-ben Hunfalvy Jánossal együtt részt vett a hágai Nemzetközi Statisztikai Kongresszuson. Az 1872-ben Szentpéterváron rendezett kongresszus úgy határozott, hogy a következőt 1876-ban Budapesten tartsák meg, és ugyanakkor Keletit az egyik alelnöknek választották meg. Az 1873. évi bécsi és az 1878. évi párizsi világkiállításon képviselte Magyarországot. Haláláig a Magyar Statisztikai Hivatal igazgatója volt. Több nyelven, főleg franciául és németül megjelent munkái a magyar viszonyok megismerését tették lehetővé a külföld számára. Főként a társadalmi problémák vizsgálatával, az élelmiszer-fogyasztás mérésével és az életszínvonal vizsgálatával foglalkozott. Műveit ma is idézik a külföldi irodalomban. 1892. május 30-án halt meg, Budapesten. Kőrösy József (1844―1906). Származása, régi neve miatt a szlávok, német nyelvű munkáiért a németek vallják magukénak. Szűk anyagi körülményei nem tették lehetővé, hogy gimnáziumi tanulmányainak befejezése után egyetemre jelentkezzen. Hivatalnok lett az Első Magyar Általános Biztosító Társaságnál. Munkája elismeréséül a kereskedelmi miniszter 1867-ben kinevezte az Országos Statisztikai Tanács tagjává. 25 évesen megválasztották a Statisztikai Hivatal igazgatójának, amelynek egyik alapítója volt. 1872-ben németül is megjelent munkájában nyíltan és őszintén feltárta a főváros nyomorúságát, lakosság körében dúló járványokat, az elviselhetetlen lakáshelyzetet, a csatornázás hiányát. 1873-ban néhány segítőtársával együtt kezdeményezte és a budapesti népszámlálást. A 70-es évek végén végzett tudományos munkája elismeréseképpen a Magyar Tudományos Akadémia levelező tagjává választotta. Az Akadémián kívül számos külföldi tudományos egyesület is kitüntette levelező vagy tiszteletbeli tagsággal. Nevéhez fűződik többek között az első budapesti járványkórház felállítása, az iskolaköteles gyermekek összeírása, a népszámlálások szervezése, a Fővárosi Statisztikai Hivatal könyvtárának alapítása. A magyar statisztika hírnevét öregbítették francia és angol nyelven kiadott tudományos művei. Egész életében harcolt a hamisítás ellen, a statisztika tudományos pontosságáért. (A szerk.)
10
1.1.3. A STATISZTIKA TÖRVÉNYI SZABÁLYOZÁSA, INTÉZMÉNYI HÁTTERE A statisztikai tevékenység törvényi szabályozása A statisztikai tevékenység teljes körét a Statisztikáról szóló 1993. évi XLVI. törvény szabályozza, amelyet 1993. április 27-én fogadott el a magyar Parlament. A törvény végrehajtásáról a 170/1993. számú Kormányrendelet rendelkezik. A szabályozás területén fontos szerepet tölt be a személyes adatok védelméről és a közérdekű adatok nyilvánosságáról szóló 1992. évi LXIII. törvény, ezzel a törvénnyel összhangban készült el a statisztikai törvény. Felkészülve az Európai Közösségekhez való csatlakozásra az 1999. évi CVIII. törvény foglalkozik az Európai Közösségek statisztikai rendszerének, az EUROSTAT-nak és a hazai statisztikai rendszer harmonizációjával. A statisztikai törvény a statisztika céljának megfogalmazásával kezdődik: „A statisztika feladata és célja, hogy valósághű, tárgyilagos képet adjon a társadalom, a gazdaság, a tulajdonviszonyok, a környezet állapotáról és változásairól az államhatalmi és a közigazgatási szervek, valamint a társadalom szervei és tagjai számára. A cél elérése érdekében e törvény ― összhangban a személyes adatok védelméről és a közérdekű adatok nyilvánosságáról szóló 1992. évi LXIII. törvénnyel ― az adatok statisztikai módszerekkel történő felvételét, feldolgozását, tárolását, átadását, átvételét, elemzését, szolgáltatását, közlését, valamint közzétételét (a továbbiakban : statisztikai tevékenység) szabályozza.” A két törvénnyel kapcsolatban mindenképpen szólnunk kell az információszabadság kérdéséről. Az információszabadság két ellentétes, de egymást kiegészítő törekvés eredője. Napjainkban, az információáramlás technikai hátterének nagyfokú fejlődésével összhangban, egyre nagyobb a társadalom tagjainak igénye arra, hogy az életüket befolyásoló eseményekről a valóságnak megfelelően, gyorsan és korlátozás nélkül értesüljenek, és ezekkel a dolgokkal kapcsolatban szabadon nyilváníthassák ki véleményüket. Másrészt viszont elvárják, hogy a személyükre vonatkozó információkkal saját maguk rendelkezhessenek. Az információszabadság a magyar jogban állampolgári jog, ezt az Alkotmány mondja ki és az adatvédelmi törvény szabályozza az Európa Tanács ajánlásainak figyelembevételével. A nemzetközi statisztikai tevékenységet az ENSZ Statisztikai Bizottsága koordinálja, melynek működnek területi szervei is. Az Európai Unió szintén rendelkezik statisztikai szolgálattal. A statisztikai tevékenység intézményi háttere A statisztikai törvény meghatározza a hivatalos statisztikai szolgálat intézményeit. Ezek a következők: ― Központi Statisztikai Hivatal és Megyei Igazgatóságai; ― minisztériumok; ― Országos Igazságszolgáltatási Tanács Hivatala; ― Legfőbb Ügyészség; ― Magyar Nemzeti Bank; ― Gazdasági Versenyhivatal; ― Országos Műszaki Fejlesztési Bizottság; ― Állami Bankfelügyelet. Ezek közül természetesen a legjelentősebb a Központi Statisztikai Hivatal (KSH), amely a kormány közvetlen felügyelete alá tartozó, szakmailag önálló, politikailag semleges, országos hatáskörű közigazgatási szerv. A KSH hangolja össze és szakmailag irányítja a különböző helyeken végzett statisztikai tevékenységeket. Nemcsak a saját maga által összegyűjtött adatokkal dolgozik, hanem a más szervek által átadott adatokat is felhasználja és beépíti a tájékoztatásokba. 11
1.1.4. A STATISZTIKAI TEVÉKENYSÉG ALAPMŰVELETEI A statisztikai szolgálat valósítja meg a statisztikai tevékenység alapműveleteit, melyek a statisztikai törvényből származó idézetben részletesen olvashatók. Ezek az alapműveleteket összefoglalva az alábbiak: ― adatok statisztikai módszerekkel történő felvétele, feldolgozása, tárolása; ― adatok átadása, átvétele; ― elemzések készítése; ― adatok, elemzések szolgáltatása, közlése, közzététele. Vizsgáljuk meg részletesebben a fentiekből a legfontosabbakat! Adatfelvétel, adatgyűjtés A statisztikai törvény kimondja, hogy statisztikai adatgyűjtést adatszolgáltatási kötelezettség előírásával vagy önkéntes adatszolgáltatás alapján lehet végrehajtani. Az adatszolgáltatási kötelezettséggel járó statisztikai adatgyűjtéseket ― kivéve a törvényben elrendelteket ― a hivatalos statisztikai szolgálat országos statisztikai adatgyűjtési programja tartalmazza. A program tervezetét a hivatalos statisztikai szolgálathoz tartozó szervek javaslatai alapján a KSH állítja össze, az Országos Statisztikai Tanács pedig véleményezi. Nagyon fontos az adatgyűjtések összehangolása, hiszen a párhuzamos adatgyűjtés megterhelné az adatszolgáltatókat. Az adatgyűjtés koordinációja az Országos Statisztikai Adatgyűjtési Program (OSAP) keretében valósul meg. Az adatgyűjtés igen jelentős fázisa a statisztikai munkának, Az adathoz jutás folyamata című fejezetben részletesen ismertetjük a témához kapcsolódó tudnivalókat. Itt csak egy, de mindenki által jól ismert példát szeretnénk hozni az adatfelvételre. Ez a tízévenként megismétlődő népszámlálás. A népszámlálás teljes körű adatfelvétel, minden magyar állampolgár adatszolgáltatásra kötelezett. Az adatfelvétel kérdezőbiztosok segítségével történik, mindenkiről egyéni kérdőívet töltenek ki. A kérdőívek feldolgozás után nagyon sok fontos információhoz jutunk, amelyek segítik a nemzetgazdasági szintű elemzési és tervezési munkát. Néhány gondolat erejéig foglalkozzunk az adatgyűjtés technológiai korszerűsítésének kérdéseivel! A KSH kísérleti jelleggel megkezdte a kérdőívek elektronikus úton történő gyűjtését. Jelenleg 44 kérdőív áll rendelkezésre letölthető formában. Ezek a kérdőívek vagy Word vagy Excel programokkal tölthetők ki. Ma még ki kell nyomtatni ezeket a kérdőíveket, alá kell írni őket és postai úton kell visszaküldeni, de a digitális aláírás problémájának megoldása után lehetővé válik az elektronikus úton történő visszaküldés is. A számítástechnika fejlődésével lehetővé vált az EDI (Electronic Data Interchange ― elektronikus adatcsere) alkalmazása a gazdasági életben is. A EDI szabványosított üzenetváltást jelent, ami két számítógéprendszer között előzetesen egyeztetett üzenettovábbító szabvány szerint megy végbe, strukturált adatokat bocsátva egymás rendelkezésére. A KSH-ban az adatgyűjtés korszerűsítésének másik jelentős lépése a webEDI kísérleti adatszolgáltatás. Ez még csak pár adatszolgáltató számára elérhető. Ezzel az eljárással internetes összeköttetéssel, hitelesített és titkosított módon, papír nélkül teljesíthető az adatszolgáltatás. A KSH-adatgyűjtő rendszerében öt éve terjedt el az OCR-technika (Optical Character Reading ― optikai karakterleolvasás), amely lapolvasók és hozzájuk tartozó karakterfelismerő programok segítségével gyorsabbá teszi az adatbevitelt. Érdekes területnek tűnik a telefonos adatszolgáltatás automatizálása. Ez azon alapul, hogy a hívó a kapcsolat megteremtése után további számjegyek beütésével közölhet adatot az automatával, de nem kizárt ― a jelenlegi mobiltelefonokhoz hasonlóan ― rövid szövegek megadása sem. 12
Adatfeldolgozás Az adatfeldolgozás témakörével ebben a fejezetben nem foglalkozunk, mert tananyagunk további részeiben ez lesz a fő témánk. Adatközlés, tájékoztatás A statisztikai tájékoztatás az alábbi területek felé irányul: ― törvényhozó- és végrehajtó hatalom; ― üzleti szféra; ― társadalmi-, szakmai és civil szervezetek; ― kutatás; ― tömegtájékoztatás, közvélemény. A statisztikai célt szolgáló adat nyilvánosságra hozható: ― az adatszolgáltató beleegyezésével, vagy ― ha az adat közérdekű. Az adatszolgáltatók beleegyezése nélkül csak összegzett adatok hozhatók nyilvánosságra, amelyekből nem lehet következtetni magára az adatszolgáltatóra. A statisztikával kapcsolatos tájékoztatás egyik legfontosabb eszköze az 1984. óta évenként megjelenő Magyar Statisztikai Évkönyv. E mellett ugyancsak évenként jelenik meg a Magyar Statisztikai Zsebkönyv, havonta pedig a Statisztikai Havi Közlemények. Ezeken kívül jelentősek a társadalmi és gazdasági jelenségeket és folyamatokat ismertető területi évkönyvek, időszakos kiadványok. Szakmai szempontból nagyon jelentős a KSH havi folyóirata a Statisztikai Szemle. Az informatika fejlődésével párhuzamosan egyre nagyobb szerepet kapnak a tájékoztatásban is a különböző elektronikus médiumok. Sok kiadvány már CD-lemezen is kapható, és egyre nő az interneten elérhető adatállományok száma is, bár ezek nagyobb része nem ingyenes. (Ezekről tananyagunk üzleti statisztikával foglalkozó részében részletesen lesz szó) A magyar statisztikai információs rendszer Az előző alfejezetben megismert statisztikai alapműveletek végrehajtása statisztikai információs rendszerek segítségével történik. Ezek közül az egyik legfontosabb az OSTAR (Országos Statisztikai Rendszer), a KSH által kialakított és működtetett makroszintű információs rendszer. Mint minden nyílt információs rendszer, az OSTAR is információkat vesz fel a környezetéből, ezeket feldolgozza, majd közli. Az OSTAR esetében a környezetből származó adatokat a statisztikai módszertani követelmények szerint dolgozzák fel és alakítják át, és statisztikai információk formájában bocsátják ki. Az OSTAR-nak, mint integrációs rendszernek több összetevője van: ― intézmények és azok erőforrásai; ― adatgyűjtések és -feldolgozások; ― adatállományok; ― technikai és infrastrukturális háttér. A rendszer elemeinek tekintendők továbbá a statisztikában használatos fogalmak, a statisztikai osztályozások és a regiszterek. Ezeket szabványként kell alkalmazni, minden területen azonos tartalommal, azonos értelmezéssel. Adatszolgáltatók
Adatgyűjtési rendszer
Adatbázisrendszer
Tájékoztatási rendszer
Adatfelhasználók
Az OSTAR leegyszerűsített sémája
13
Az információs rendszerbe belépő adatokból megfelelő módszerek és szabványok alkalmazásával mutatószámok készülnek, ezek a rendszer végtermékei (outputjai). A gondosan megtervezett, szakmailag egyeztetett, állandóan fejlesztett mutatószámkészlet elvileg átfogja a teljes társadalmi és gazdasági életet. A rendszer bemeneti oldala az ADATGYŰJTÉSI RENDSZER. Az egész statisztikai rendszer meghatározó része az adatbázis-rendszer, melynek tartalma a következő: ― az adatvagyon (metadata); ― az adatdokumentáció; ― az adatok mozgatását és kezelését végző szoftverek és eszközök. Az adatbázis-rendszer automatizált módon, számítástechnikai eszközök és programok segítségével tárolja a begyűjtött és mutatókká, információkká átalakított adatokat, kielégítve a megőrzés, a könnyű és gyors hozzáférési lehetőség biztosításának szempontjait. A statisztikai információs rendszer működésének mozgató rugója a felhasználói igény. A statisztikai tevékenység eredményei; az adatok és mutatószámok ― rendszeresen vagy esetenként megjelenő ― adattárakban, tájékoztatókban, kiadványokban jelennek meg (tájékoztatási rendszerelem). A fenti sémában az adatszolgáltatók és adatfelhasználók jelentik a rendszer környezetét. A hatékony statisztikai rendszer alapvető értékei a legitimitás és a hitelesség. A legitimitás annak széleskörű elismerése, hogy a rendszer az ország, az egész társadalom, benne a gazdasági szereplők és az egyének érdekében tevékenykedik. A hitelesség feltétele az, hogy a statisztikák megfelelő módszertanon alapuljanak, és messze kerüljék el a politikai részrehajlás látszatát. A statisztika csak ez esetben tudja a rendszer működéséhez a támogató környezetet kialakítani. 1.1.5. STATISZTIKAI ALAPFOGALMAK (SOKASÁG, ISMÉRV, ADAT) A statisztikai sokaság A statisztikai sokaságot az őt alkotó egységekkel szoktuk megadni és jellemezni. A vizsgálat tárgyát képező egységek összességét, halmazát STATISZTIKAI SOKASÁGNAK nevezzük. Statisztikai sokaságot alkotott például Magyarország népessége 2001. január 1-jén. Ebben az esetben a sokaság egységei az ország lakosai. A statisztikai sokaságot többféleképpen lehet csoportosítani, így létezik: ― álló sokaság és mozgó sokaság; ― diszkrét sokaság és folytonos sokaság; ― véges és végtelen sokaság. Az ÁLLÓ SOKASÁG időpontra voMagyarország népessége és natkozó, a MOZGÓ SOKASÁG időtartamaz élveszületések száma 1994. és 1997. között ra vonatkozó adatokból áll. Az álló A népesség száma sokaság mindig valamilyen állapotot Élveszületések Év január 1-jén fejez ki, a mozgó sokaság pedig foszáma (ezer fő) lyamatot. Az álló sokaságra gyakran illik az „állomány” vagy a „készlet” 1994 10 277 115 598 megjelölés. Egységei általában em1995 10 246 112 054 berek, tárgyak. A szakirodalomban 1996 10 212 105 272 gyakran használják a „stock” (kész1997 10 174 100 350 let, állomány) angol szót az álló soForrás: Magyar Statisztikai Évkönyv, 1997 kaság jellegű jelenségek megjelölé1.1. táblázat sére. 14
A mozgó sokaság mindig eseményekből, folyamatokból áll. Ilyen jellegű folyamatok például a termelés, a forgalom, a fogyasztás. Ezek megjelölésére gyakran használják a „flow” (áramlás) angol szót. Álló sokaságot alkot például a népesség egy adott időpillanatban, mozgó sokaságot pedig a születések egy adott időszakban. A statisztikai sokaság nem mindig egyértelműen elkülönülő egységekből áll, hanem olyan tömeg is képezheti a sokaságot, amelynek egységei önkényesen határozhatók meg. A DISZKRÉT SOKASÁG egységei jól elkülöníthetők, a FOLYTONOS SOKASÁG egységeinek elkülönítése önkényesen oldható meg. Diszkrét sokaságra példa lehetne a népesség, folytonos sokaságra pedig a sörtermelés egy adott országban. A VÉGES SOKASÁG egységei megszámlálhatók, például egy tanulócsoport véges sokaságot alkot, hiszen pontosan megszámlálható, hogy hány tagból áll. A VÉGTELEN SOKASÁG egységeinek száma végtelen. Ilyen lehet például egy azonos körülmények között tetszőlegesen sokszor megismételhető kísérlet eredményeinek halmaza. A sokaságot mindig egyértelműen körül kell határolni. Pontosan meg kell adni tartalmi, térbeli és időbeli jellemzőit. A sokaság egységeivel kapcsolatban beszélhetünk megfigyelési egységről és számbavételi egységről. A MEGFIGYELÉSI EGYSÉGRE vonatkozóan végezzük az adatgyűjtést, a rá vonatkozó kérdést viszont a SZÁMBAVÉTELI EGYSÉGNEK tesszük fel. Népszámlálás esetében például a megfigyelési egység és a számbavételi egység legtöbbször egybeesik, mert akire vonatkozik a kérdés, annak tesszük fel. Állatszámláláskor viszont eltér a két egység. Egy megfigyelési egység például egy sertés, de a számbavételi egység a gazdája. A statisztikai sokaságok típusai A sokaság definíciója
Megfigyelési egység
Számbavételi egység
A sokaság típusa
A magyar népesség 2001. január 1-jén
egy személy
a megfigyelt személy
diszkrét, álló, véges
A születések száma Magyarországon 2000-ben
egy újszülött
orvosok vagy önkormányzatok
diszkrét, mozgó, véges
A magyar búzatermelés 2000-ben
egy egységnyi megtermelt búza (pl. egy tonnányi)
a termelő
folytonos, mozgó, véges
A 2001. évi lehetséges sörtermelés Magyarországon
egy lehetséges termelési eredmény
a termelő
folytonos, mozgó, végtelen
1.2. táblázat
Ismérvek A sokaság egységeit a tulajdonságaikkal jellemezhetjük. Az egy sokasághoz tartozó egységeknek vannak közös tulajdonságaik ― ez alapján alkotnak egy sokaságot ― és vannak megkülönböztető tulajdonságaik. A statisztikai vizsgálatok során bennünket ezek a megkülönböztető tulajdonságok érdekelnek jobban, mert a sokaság jellemzése a megkülönböztető tulajdonságok vizsgálatával történhet. A sokaságot jellemző tulajdonságokat ISMÉRVEKNEK nevezzük, amelyek lehetnek: ― közös ismérvek; ― megkülönböztető ismérvek. 15
Például 2001. január 1-jén, a magyar népesség által alkotott sokaság közös ismérvei a magyar állampolgárság, és az időpont. Ezek az ismérvek, amelyek alapján egy sokaságba (a magyar népességbe) sorolhatók a sokaság egységei (a népszámláláskor összeírt személyek). Megkülönböztető ismérvek a nem, a lakhely, a születési dátum, az iskolai végzettség stb. Az ismérvek által hordozott információ jellege szerint a következő ISMÉRVFAJTÁKAT különböztetjük meg: ― minőségi; ― mennyiségi; ― területi; ― időbeli. MINŐSÉGI ISMÉRV esetén a sokaság egységeit minőségi megjelöléssel látjuk el. A minőségi ismérv változatai a sokaság egységeit verbálisan jellemzik. Például minőségi megjelölés a hajszín. MENNYISÉGI ISMÉRV esetén a sokaság egységeit számszerűleg kifejezhető tulajdonsággal jellemezzük. A mennyiségi ismérv valamilyen számlálás vagy mérés eredményét rendeli hozzá a sokaság egységeihez. példa erre a testmagasság. TERÜLETI ISMÉRVRŐL akkor beszélünk, ha a sokaság jellemzése földrajzi megjelöléshez kapcsolható tulajdonság szerint történik, például egy hallgatói csoport tagjainak lakhely szerinti megkülönböztetése. IDŐBELI ISMÉRVNÉL a sokaság egységeinek megjelölése időpontra vagy időtartamra vonatkozik, például születési dátum szerinti megkülönböztetés. Nagyon fontos, hogy az ismérvfajtákat megismerjük és meg tudjuk különböztetni, mert a későbbiekben a statisztikai sorok képzése a különböző ismérvfajták alapján történik. Az ismérvek különböző változatokban fordulnak elő, mennyiségi ismérvek esetében az ismérvváltozatokat ISMÉRVÉRTÉKEKNEK is hívhatjuk. Ezek alapján történik az adatrendezés, ahogy a későbbiekben látni fogjuk. Mennyiségi ismérv például az egy dolgozatra kapható érdemjegy, ennek az ismérvváltozatai: 1, 2, 3, 4, 5. Ezeket a jegyeket nevezhetnénk ismérvértékeknek is, mivel mennyiségi ismérvről van szó. A két változattal rendelkező ismérveket ALTERNATÍV ISMÉRVEKNEK nevezzük. Ezen ismérvek megkülönböztetése azért lényeges, mert van a statisztikának néhány olyan módszere, amely kimondottan alternatív ismérvek esetében használható. Tipikusan alternatív ismérv a nem, hiszen csak két ismérvváltozata van, a férfi és a nő. Több ismérvváltozattal rendelkező ismérvek is átalakíthatók alternatív ismérvre. Például az életkor több ismérvváltozattal rendelkező mennyiségi ismérv, de ha azt mondjuk, hogy a 60 évnél fiatalabbakat, illetve a 60 évnél idősebbeket vizsgáljuk, akkor alternatív ismérvvé alakítottuk át az életkort. Az ismérveket a fajta mellett MÉRÉSI SZINT (MÉRÉSI SKÁLA) szerint is rendszerezhetjük. A statisztikának alapmódszere a számlálás, a mérés. Ahhoz, hogy mérni tudjuk a különböző ismérvekhez tartozó ismérvváltozatokat, bizonyos szabályok betartása mellett egy eredetileg nem mennyiségi ismérv lehetséges változatai is számértékké alakíthatók, kódolhatók. Így bármely tulajdonság észlelése és szám formájában történő rögzítése mérésnek számít. A számadatok közötti rendezhetőség és a közöttük levő mennyiségi viszony alapján 4 féle mérési szintet, mérési skálát különböztetünk meg: ― nominális skála; ― ordinális skála; ― intervallum skála; ― arányskála. A legegyszerűbb és legkevésbé informatív a NOMINÁLIS (NÉVLEGES) MÉRÉSI SKÁLA. Ez a mérési szint csak az egységekhez rendelt értékek egyező vagy különböző voltát engedi az 16
egység tulajdonságaként elfogadni. Az adatokat nem lehet egymással összehasonlítani, nincs értelme a különbség és a hányados képzésnek. Mértékegység nélküli adatokról van szó. Ha például a megyékhez kódszámot rendelünk és az egyik ember a 2-es kódszámú, a másik a 11-es kódszámú megyében lakik, akkor azt a következtetést tudjuk csak levonni, hogy különböző megyében laknak. Az ORDINÁLIS (SORRENDI) SKÁLA esetében már nemcsak a skálaérték azonos vagy különböző volta, hanem azok sorrendisége is az egységek között fennálló viszonyt írja le. A hozzárendelt számértékek nagyságának nincs jelentősége, csupán a sorrendet határozzák meg, bizonyos rendezést tesznek lehetővé. Itt sincs értelme a sorszámokkal matematikai műveleteket végezni, és itt is mértékegység nélküli adatokról van szó. A különböző versenyek eredményét mérhetjük például ordinális mérési skálán. Az INTERVALLUMSKÁLA (KÜLÖNBSÉGSKÁLA) esetében már értelmezhető két adat különbsége, de hányadosuk még nem. Itt tehát már választ tudunk adni a „mennyivel nagyobb?” kérdésre is. Ennek a skálának van mértékegysége. A skála kezdőpontja a 0 pont, azonban ennek kijelölése önkényes, valamilyen konvención alapszik. Így lehetetlenné válik a skálaértékek egymás közti arányának meghatározása. Jellegzetes példa a hőmérséklet mérésére szolgáló skála, vagy az időszámítás kezdetének meghatározása. A leginformatívabb típus az ARÁNYSKÁLA. E skála esetében a kezdőpont egyértelműen adott és rögzített, ennek következtében már bármely két skálaérték egymáshoz viszonyított aránya is kiszámítható a különbség mellett. Az itt mért adatoknak természetesen van mértékegységük. Ilyen típusú jellemzők például a termelési adatok, az életkor stb. Az ismérvfajták és a mérési szintek között összefüggés állapítható meg. Területi ismérv esetében nominális skála a jellemző. Minőségi ismérv esetében szintén a nominális skála jellemző, de előfordulhat ordinális skála is. Az időismérvet már említettük az intervallum skála kapcsán. A mennyiségi ismérveket pedig általában arány skálán mérjük. Mérési skálák típusai Sokaság
Statisztikaoktatás hallgatói 2001. március 1-jén a Keszthelyi Georgikon Karon
Egy konkrét egység
Kiss Virág
Ismérv
Lehetséges ismérvváltozat
Ismérvfajta
Mérési skála
születési hely Zalaegerszeg
területi
nominális
születési idő
1981. 11. 05.
időbeli
intervallum
életkor
20 év
mennyiségi
arány
nem
nő
minőségi
nominális
1.3. táblázat
A számlálás, mérés eredményeképpen STATISZTIKAI ADATHOZ jutunk. Nem elég azonban közölnünk a kapott számértéket, hanem minden esetben tartalmi, időbeli és térbeli ismérveket kell rendelni hozzá. Statisztikai adat keletkezhet még úgy is, hogy az elsődlegesen kapott abszolút adatokkal valamilyen matematikai műveletet végzünk. Így SZÁRMAZTATOTT ADATHOZ, vagy más néven MUTATÓKHOZ jutunk. A statisztikai adatokkal szemben szigorú minőségi követelményeket állítunk fel, ezek: ― a pontosság; ― a gazdaságosság; ― a gyorsaság. Általában egyszerre nem elégíthető ki mindhárom követelmény maximálisan. 17
Pontosság Nagy értékű adatok esetében sokszor szükséges kerekíteni. A kerekítésből adódó pontatlanságot hibának nevezzük. A hiba lehet abszolút vagy relatív. Az ABSZOLÚT HIBA a szignifikáns számjegyből következik. A SZIGNIFIKÁNS SZÁMJEGY a megadott nagyságrenddel, illetve mértékegységgel egyezik meg, a még megbízható utolsó számjegyet jelenti. Ha a szignifikáns számjegy százas nagyságrendű, akkor az abszolút hiba 50, ennyivel lehet kevesebb vagy több az adat a valóságban a közöltnél. A RELATÍV HIBA az abszolút hiba és a megadott adat hányadosa. Egy gyakorlati példán keresztül vizsgáljuk meg a pontosság fogalmát! Magyarország népessége 1997. január 1-jén 10 170 ezer fő volt. Ebben az esetben a szignifikáns számjegy az ezres. Az ezresnél kisebb helyi értékű számokat már nincs értelme megadni, mert valószínűleg nem pontosak. Ha a szignifikáns számjegy ezres, akkor az abszolút hiba 500 (1000:2). Ez azt jelenti, hogy az általunk pontosan nem ismert népességszám a 10 170 000–500 és 10 170 000+500 számok által határolt intervallumon belül van. A relatív hiba: (500:10 170 000)·1000 = 0,0491 ezrelék. A statisztikai adatközlésben legtöbbször nincs semmilyen módon megadva a közölt adatok pontossága, ami helytelen gyakorlat. 1.2. AZ INFORMÁCIÓSŰRÍTÉS EGYSZERŰBB MÓDSZEREI Az első fejezetben már utaltunk rá, hogy a statisztika a tömegesen előforduló jelenségekkel ― statisztikai szóhasználattal: sokaságokkal ― foglalkozik. Ebből következik, hogy a statisztikai vizsgálatok során a rendelkezésre álló információt sűrítenünk kell. A nagyszámú adat sokszor kevesebbet mond, mint a megfelelő módszerrel sűrített, de a lényegre rámutató, kevesebb adat. Ebben a fejezetben ilyen egyszerűbb adatsűrítési módszerekkel foglalkozunk. Az információsűrítéssel kapcsolatos ismereteinket tovább bővítjük a 2., illetve a 3. fejezetekben, ahol kimondottan mennyiségi ismérvek esetében alkalmazható módszerekkel dolgozunk majd. 1.2.1. A SOKASÁG MEGADÁSA A sokaság megadása történhet a sokaság nagyságának megállapításával, valamint a sokaság lajstromával. A sokaság nagyságának meghatározása Ez a módszer tulajdonképpen nem információsűrítésen alapul, de jellegében mégis ehhez a témakörhöz tartozik. A SOKASÁG NAGYSÁGÁNAK MEGADÁSA a sokaság jellemzésének legegyszerűbb módszere. Ez a sokaság egységeinek megszámlálását jelenti. A sokaságok típusainak meghatározásakor különbséget tettünk az álló és a mozgó sokaság között. E két, eltérő típusú sokaság egységeinek megszámlálása is különböző. Az álló sokaságnak egy meghatározott időpontban érdemes megállapítani a nagyságát, mivel állandóan változik. A mozgó sokaság nagyságának megadása egy időtartamra vonatkozik. Ha a sokaság elemei nem különülnek el egymástól, akkor nem a sokaság elemszámával, hanem összegük megadásával jellemezzük a sokaságot. Például a népességcsoportok összfogyasztása vagy összes jövedelme. Problémát jelenthet, ha a sokaság elemeinek száma, mennyisége nem összegezhető. Ez akkor fordulhat elő például, ha a sokaság egységei nem azonos mértékegységben adottak. Ekkor meg kell határozni valamilyen közös tulajdonságot és ez alapján kell elvégezni az összesítést. Ezt a műveletet AGGREGÁLÁSNAK hívjuk. Megoldás lehet az eltérő mértékegy18
A 100 ezer főnél több lakossal rendelkező magyar városok népessége 1998. január 1-jén Város
Népesség (fő)
Budapest 1 861 383 Debrecen 206 882 Győr 127 297 Kecskemét 105 215 Miskolc 175 744 Nyíregyháza 112 998 Pécs 159 632 Szeged 160 091 Székesfehérvár 106 217 Forrás: Magyar Statisztikai Évkönyv, 1997 1.4. táblázat (lajstrom)
A 100 ezer főnél több lakossal rendelkező magyar városok népessége 1998. január 1-jén, népesség szerint csökkenő sorrendben Város
Népesség (fő)
Budapest 1 861 383 Debrecen 206 882 Miskolc 175 744 Szeged 160 091 Pécs 159 632 Győr 127 297 Nyíregyháza 112 998 Székesfehérvár 106 217 Kecskemét 105 215 Forrás: Magyar Statisztikai Évkönyv, 1997 1.5. táblázat (rangsor)
ség problémájára, hogy az összehasonlítandó mennyiségeket valamilyen közös mértékegységbe átszámoljuk. Például az élelmiszerek energiatartalmát Joule-ban szokás megadni, az átszámítás után összeadható vagy összehasonlítható a vizsgált élelmiszerek energiatartalma. A gyakorlatban legtöbbször az árak segítségével történik a számbavétel. Egy bolt forgalmát például két egymás utáni évben elég nehéz lenne összehasonlítani úgy, hogy az eladott, nagyon sokféle termék mennyiségét számláljuk össze. Ehelyett megadhatjuk a két év forgalmát értékben (pl. forintban), ezzel biztosítva az összehasonlíthatóságot. Ez az eljárás sem problémamentes, gondoljunk az infláció torzító hatására. A sokaság megadásának másik módja a lajstrom készítése. Használata akkor lehetséges, ha ismerjük a sokaság valamennyi egységét és az egységek száma nem túl nagy. A sokaság valamennyi egységének felsorolása és jellemzése egy vagy több ismérv szerint LAJSTROMOT alkot. A számítógépek megjelenésével és kapacitásuk növekedésével egyre terjedelmesebb lajstromokat készíthetünk. Az alábbi táblázatban felsorolt városok például lajstromot alkotnak. Ha a lajstromban szereplő egyedeket növekvő vagy csökkenő sorrendbe rendezzük valamilyen mennyiségi ismérv értéke szerint, akkor RANGSORRÓL beszélünk. A sorba rendezés egy ismérv szerint történik, de más ismérveket is meg lehet jeleníteni. 1.2.2. ADATOK RENDEZÉSE (CSOPORTOSÍTÁS, ÖSSZEHASONLÍTÁS) A megfigyelt, de rendezetlen adathalmazról kevés információt tudunk mondani. Ahhoz, hogy vizsgálni, elemezni tudjuk az adatainkat, rendeznünk kell őket. A rendezésnek a statisztikában két alapvető módszere ismert: a csoportosítás (más néven osztályozás) és az összehasonlítás. A CSOPORTOSÍTÁS a sokaság valamely ismérv szerinti tagolását jelenti, míg az ÖSSZEHASONLÍTÁS a statisztikai adatok egymás mellé történő rendelése. A csoportosítás és az összehasonlítás során statisztikai sorokat készítünk. Csoportosítás A sokaságot minőségileg különböző csoportokra osztjuk azért, hogy szerkezetét és felépítését vizsgálni tudjuk. A csoportosításnak ki kell elégítenie a homogenitás, az átfedésmentesség és a teljesség feltételeit. Ez azt jelenti, hogy a vizsgált ismérv szerint egymáshoz tartozó egyedeknek egy csoportba, az eltérőeknek pedig külön csoportba kell kerülniük. Minden egyes egyedet egyértelműen be kell tudnunk sorolni egy csoportba, azaz egy egyed egy és csak egy csoportban kerülhet. A homogenitás pedig azt jelenti, hogy a sokaság valamely szempont szerint azonos osztályba sorolt egységei jobban hasonlítsa19
nak egymáshoz, mint a sokaság más osztályba sorolt egységei. A csoportosítás a csoportképző ismérv alapján történik. Minden ismérvnek ismérvváltozatai vannak, a csoportosítás során a sokaság egyedeit hozzárendeljük az ismérvváltozatokhoz. A csoportosítás menete: ― a csoportképző ismérv kiválasztása; ― az ismérv változatainak felsorolása; ― az egyes ismérvváltozatokhoz tartozó egyedek számának összeszámlálása, azaz a gyakoriságok megadása. Nézzünk egy egyszerű példát a csoportosításra! Egy munkahelyen kimutatást szeretnének készíteni a dolgozókról, mégpedig a dolgozói állományt a legmagasabb iskolai végzettség szerint kívánják vizsgálni. Egyik lehetőség lenne, hogy felsorolják egymás után az összes dolgozó nevét és végzettségét. Ennél azonban sokkal többet mond, ha készítenek egy egyszerű kimutatást, amelyben a lehetséges iskolai végzettségeket sorolják fel (8 általános, gimnázium stb.) és az egyes végzettségek mellé odaírják, hogy hány dolgozó tartozik az illető csoportba. Ebben az esetben a csoportképző ismérv a végzettség, az ismérv változatai a lehetséges végzettségek, a gyakoriság pedig a végzettségek mellé írt dolgozói létszám. A mennyiségi ismérvek szerinti csoportosítással kapcsolatos kérdésekkel a harmadik fejezetben foglalkozunk részletesebben. A statisztikai gyakorlatban nagyon sokszor fordulnak elő ismétlődő csoportosítások. A rendszeresen használt ismérvváltozatokat NOMENKLATÚRÁKNAK nevezzük. Ilyen például a TEÁOR (Tevékenységek Egységes Ágazati Osztályozási Rendszere), a FEOR (Foglalkozások Egységes Osztályozási Rendszere) vagy a Vámtarifaszám (VTSZ). A nomenklatúrákról részletesebben az Üzleti statisztika tantárgy keretein belül hallunk. Összehasonlítás Az adatrendezés esetében az összehasonlítás a statisztikai adatok egymás mellé rendelését jelenti, elemzés céljából. Az összehasonlítás lényege az összegyűjtött, rendezetlen adathalmaz területileg illetve időbelileg összetartozó adatainak együttes felsorolása. Fontos az összehasonlíthatóság feltételének megteremtése. TÉRBELI ÖSSZEHASONLÍTÁS
IDŐBELI ÖSSZEHASONLÍTÁS
Néhány külföldi ország turistáinak tartózkodási ideje Magyarországon 1998-ban
Budapest népessége január 1-jén
Megnevezés
Tartózkodási idő (ezer éjszaka)
Ausztria 652 Belgium 111 Franciaország 202 Lengyelország 476 Németország 4313 Olaszország 380 Szlovákia 73 USA 458 Forrás: Turizmus, 1998 Időszaki Tájékoztató 1.6. táblázat
Év
Népesség (fő)
1980 2 059 347 1990 2 016 774 1998 1 861 383 Forrás: Magyar Statisztikai Évkönyv, 1997 1.7. táblázat
A továbbiakban vizsgáljuk meg részletesebben a csoportosítás, illetve az összehasonlítás során keletkezett statisztikai sorokat! 20
1.2.3. STATISZTIKAI SOROK Statisztikai sornak nevezzük a statisztikai adatok egy ismérv szerinti tömör jellemzését. A statisztikai sorok csoportosítás eredményeként vagy összehasonlítás céljából keletkeznek; vagy abszolút, vagy származtatott adatokat tartalmaznak. Mivel a csoportosítás és az összehasonlítás alapjául szolgáló ismérvek fajtája többféle lehet, a statisztikai soroknak is különböző típusai vannak. A statisztikai sorok típusainak meghatározásakor először azt vizsgáljuk, hogy azonos vagy különbözőfajta adatokból áll-e a sor. Az azonos fajta adatokból álló sorokat az ismérvtípusok szerint különböztetjük meg. Így beszélhetünk csoportosító és összehasonlító sorokról, illetve mennyiségi, minőségi, területi vagy idősorokról. A különbözőfajta adatokból álló sorokat leíró soroknak nevezzük. Csoportosító sorok A csoportosító sorok a sokaságon belül a részek nagyságát határozzák meg. A csoportosító sorokhoz mindig tartozik összesen adat. Csoportosító sor esetében van értelme az adatok összegzésének, mivel az összegzett adat információt hordoz. A csoportosító sorok fontos fajtája a gyakorisági sor, melyben azt adjuk meg, hogy a sokaság hány egysége veszi fel az egyes ismérvváltozatokat. A csoportosító sor ismérvének előfordulási gyakoriságát a következő képlettel adhatjuk meg:1 k
f1 + f 2 + K + f k = ∑ f i i =1
A csoportosítás általános formája Csoportosító ismérv változatai, értékei
x1 x2 x3 … xk Összesen:
Gyakoriság (osztályok)
f1 f2 f3 … fk n
ahol: n ═ a sokaság egyedeinek a száma, x ═ a csoportosítás alapját jelentő ismérv (leggyakrabban mennyiségi ismérv), k ═ a csoportosító ismérv változatainak a száma, xi ═ ismérvváltozatok, fi ═ az ismérvváltozatokhoz rendelhető gyakoriság.
Gyakorisági sor alakítható ki például azokból az érdemjegyekből, amelyeket egy osztály tanulói kaphatnak egy dolgozatírás után. A vizsgált sokaságot esetünkben az osztály tanulói alkotják, ők a sokaság egységei. Tételezzük fel, hogy 23 tanuló jár az osztályba, a sokaság egységeinek a száma tehát 23. A csoportosítás alapját képező ismérv a dolgozatra kapott osztályzat. A csoportosító ismérv változatainak száma 5, az ismérvváltozatok: 1, 2, 3, 4, 5. Az ismérvváltozatokhoz rendelt gyakoriságokat úgy kapjuk meg, hogy rendre összeszámoljuk, hány darab 5-ös, 4-es, 3-as, 2-es és 1-es érdemjegyet kaptak a tanulók dolgozatírás után. A képletben a Σ (szumma) jel a matematikában megszokott módon az összegzés rövidítésére szolgál, esetünkben azt szimbolizálja, hogy az f1, f2, ... fk elemeket összeadjuk. Az f1, f2, ... fk elemekre általánosan fi jelöléssel hivatkozunk, ahol i-t futóindexnek hívjuk. A Σ alatt és felett jelezni szoktuk, hogy ez a futóindex milyen kezdő és milyen végső értéket vesz fel. 1
21
A gyakorisági sorokról többet tudhatunk meg a 3. fejezetben. A csoportosító sorok legtöbbször menynyiségi vagy minőségi sorok, de nem kizárt, hogy területi vagy idősor képez csoportosító sort. Példa lehetne erre Magyarország népességének felsorolása megyénként. Mivel megyéket hasonlítunk össze, területi sort alkotnak az adatok, de ebben az esetben csoportosításról is szó van. Értelmezhető az „összesen” adat is, ez az ország teljes népességét adja meg. IDŐSOR A balesetet szenvedett személyek száma Zala megyében 2000-ben Hónapok Január Február Március Április Május Június Július Augusztus Szeptember Október November December
Balesetet szenvedettek száma (fő) 53 36 44 51 89 78 82 89 83 56 55 63 779
Összesen Forrás: Zala Megyei Statisztikai Tájékoztató, 2001/1. 1.9. táblázat A nyilvántartott munkanélküliek száma a legmagasabb iskolai végzettség szerint 1997. január 1-jén Legmagasabb iskolai végzettség
Ezer fő
8 általánosnál kevesebb 15,4 8 általános 127,4 Szakmunkásképző 120,2 Szakiskola 4,6 Gimnázium 30,4 Szakközépiskola 40,9 Főiskola 7,0 Egyetem 2,9 Összesen 348,8 Forrás: Magyar Statisztikai Évkönyv, 1997 1.10. táblázat
GYAKORISÁGI SOR A dolgozatok száma érdemjegyek szerint Érdemjegy (ismérvváltozatok)
Dolgozatok száma (db)*
1
2
2
3
3
4
4
6
5
8
Összesen 23 *Az ismérvváltozatokhoz rendelt gyakoriságok 1.8 táblázat
Az 1.9. táblázatban szereplő adatok összegzésének azért van értelme ― annak ellenére, hogy idősorról van szó ―, mert az összesített adat az egész évben balesetet szenvedettek számát adja meg Zala megyében. MENNYISÉGI SOROK Mennyiségi sorok esetén az ismérvek sorrendbe rakható számértéket, azaz mennyiségi ismérvet vesznek fel, az ismérvváltozatok sorrendje általában kötött. A vizsgált jelenségek nagy része menynyiségi ismérvekkel írható le, mégpedig általában nagy tömegű mennyiségi adattal. Ez a nagy adatmennyiség önmagában nem tekinthető át és nem elemezhető, ezért szükség van az adatok összefogására, tömörítésére. Mennyiségi ismérvekkel leírható jelenségek esetében az adatrendezésnek két módjával foglalkozunk, ezek: ― gyakorisági sorok és értékösszegsorok képzése; ― kvantilis értékek meghatározása. (Ezeket a témaköröket is a 3. fejezetben ismertetjük részletesebben.) MINŐSÉGI SOROK Minőségi sorok esetében a sokaság összetételébe, szerkezetébe tudunk betekinteni a minőségi ismérvek alapján való csoportosítás eredményeképpen. Az ismérvváltozatok sorrendje legtöbbször szabadon választható. (A minőségi sorra példa: 1.10. táblázat.) 22
Összehasonlító sorok Az összehasonlító sorok azonos fajta, azonos mértékegységben megadott adatokból állnak. Ezek az adatok azonban vagy nem adhatók össze, vagy az összeadásnak nincs értelme. Formailag megközelítve a dolgot, azt mondhatjuk, hogy az összehasonlító sorok nem tartalmaznak összegzett adatot. A csoportosító soroknál is végezhetünk adott esetben összehasonlítást, de az összehasonlító sorok készítésénél az összehasonlítás az elsődleges cél. Az összehasonlító sorok vagy idősorok, vagy területi sorok. IDŐSOROK Az idősorok a vizsgált jelenségek időbeli alakulását, dinamikáját mutatják. Az idősorokat dinamikus soroknak is szoktuk nevezni. Mivel a vizsgált sokaság álló, illetve mozgó sokaság lehet, ezért az idősorok között megkülönböztetünk állapot- és tartamidősorokat. ÁLLAPOTIDŐSORRÓL akkor beszélünk, amikor a vizsgált jelenséget egy meghatározott időpontban érdemes vizsgálni. A TARTAMIDŐSORRAL egy jelenség meghatározott időegységre vonatkozó jellemzőit adjuk meg. Például az 1.1 táblázatban az 1994. és 1997. közötti népességszám állapotidősort alkot, egy adott időpontban, január elsején vizsgáltuk a népességet. Az élveszületések száma tartamTerületi sor idősort alkot, egy időtartamra, egy évre vonatkoznak az adatok. A kétágyas, fürdőszobás szállodai szobák napi átlagárai 1998 júliusában Az idősorok a statisztikának nagyon fontos területét alkotják, Üdülőkörzet Napi átlagár (Ft) ezért az elemzésükhöz szükséges módszerekkel a későbbiekben több Budapest 18 471 helyen is foglalkozunk. Balaton-part 7 499 Dunakanyar
6 867
Velencei-tó
4 618
Mátra—Bükk
6 077
Sopron—Kőszegalja 9 377 Forrás: Turizmus 1998, Időszaki tájékoztató, KSH 1.11. táblázat
TERÜLETI SOROK Sok olyan jelenség van, amelynek elemzéséhez területi (földrajzi) vizsgálódás szükséges. A TERÜLETI SOROK egy-egy jelenség térbeli, általában földrajzi, területi eloszlását jellemzik.
Leíró sorok A különbözőfajta, de egymással logikailag összefüggő adatokat tartalmazó sorokat LEÍRÓ SORNAK nevezzük. Ezek a sorok a többi statisztikai sortól jelentősen eltérnek, hiszen a leíró sort alkotó adatok különböző fajtájúak, megadásuk általában eltérő mértékegységekben történik. A leíró sorokat egyszerű felsorolásnak tekinthetjük, az adatokban annyi a közös, hogy egy meghatározott egységet jellemeznek. Általában gazdasági-társadalmi egységek jellemzőinek felsorolásával állítjuk elő őket. Leíró sorhoz jutunk például, ha felsoroljuk egy adott ország néhány jellemzőjét: népsűrűségét, területét, az egy év alatt megtermelt GDP-jét, autópályáinak hosszát, a sörtermelésének nagyságát stb. Összefoglalásképpen tekintsük át a statisztikai sorok csoportosítását!
23
STATISZTIKAI SOROK CSOPORTOSÍTÁSA STATISZTIKAI SOROK
Azonosfajta adatokat tartalmaz
Különbözőfajta adatakat tartalmaz
A keletkezés módja szerint Csoportosító sorok
Összehasonlító sorok
Az ismérv fajtája szerint Minőségi
Mennyiségi
Idő
Területi
1.2.4. STATISZTIKAI TÁBLÁK A statisztikai sorok képzésénél a sokaságot egy ismérv szerint csoportosítottuk. Gyakran előfordul azonban a több ismérv szerinti csoportosítás is, ezt KOMBINATÍV CSOPORTOSÍTÁSNAK nevezzük. A kombinatív csoportosítás eredményét legtöbbször statisztikai táblázatokba (táblákba) foglaljuk. A STATISZTIKAI TÁBLA nem más, mint a statisztikai sorok összefüggő rendszere. A statisztikai tábla formai szempontból három részből áll. Az OSZLOP a tábla függőleges része, A SOR a tábla vízszintes része, A ROVAT pedig a sor és az oszlop találkozása. A szöveget is tartalmazó rovatok szintén háromfélék lehetnek. A FEJROVAT a tábla első sorában helyezkedik el, az OLDALROVAT a sorok előtt, az első oszlopban található, az ÖSSZEGROVAT pedig a sorok és az oszlopok adatainak összegzését tartalmazza. A statisztikai tábláknak szigorú FORMAI KÖVETELMÉNYEKNEK kell megfelelniük: ― A táblák legyenek ÁTTEKINTHETŐK, rendezettek. ― A tábláknak mindig kell CÍMET adnunk, amely tömören megfogalmazza a tábla tartalmát, vagyis megnevezi a sokaságot. ― Meg kell adnunk továbbá, hogy a tábla mely IDŐPONTRA, illetve IDŐSZAKRA vonatkozik. ― Ha a tábla összes adata ugyanabban a MÉRTÉKEGYSÉGBEN adott, akkor a mértékegységet szerepeltethetjük a címben. Ha többféle mértékegységben adottak az egyes adatok, akkor a megfelelő oszlopokban vagy sorokban kell megadni a mértékegységet. ― Mindig jeleznünk kell, hogy a statisztikai táblában szereplő adatoknak mi a FORRÁSUK. Ahol szükséges, ott magyarázó szöveggel kell ellátni a tábla adatait. A táblában ÜRES ROVAT nem maradhat, így a táblaszerkesztés szabályaihoz tartoznak még a következők: ― nemcsak akkor jelölünk 0-val egy adatot, ha az ténylegesen annyi, hanem akkor is, ha arányaiban nagyon kicsi az értéke, 24
― amennyiben nincs adat (nem létezik) akkor helyére ― jelet teszünk, azaz a rovatot kihúzzuk, ― ha nincs információnk az adatra vonatkozóan, akkor ? vagy … áll az adat helyén, azaz kipontozzuk a rovatot. Ha valamilyen okból a többitől eltérő adat kerül a táblába, akkor ahhoz megjegyzést kell fűznünk a lábjegyzetben. A statisztikai táblákat több szempont szerint osztályozhatjuk: ― a tábla rendeltetése alapján; ― a tábla dimenziószáma alapján; ― a táblába foglalt sorok jellege, a csoportosítás szerepe alapján. A tábla rendeltetése Aszerint, hogy a statisztikai munka mely szakaszában és milyen rendeltetéssel készültek, az alábbi táblákat különböztetjük meg: ― feldolgozási tábla; ― munkatábla; ― közlési tábla. A FELDOLGOZÁSI TÁBLÁT az adatok feldolgozása közben állítjuk össze. A MUNKATÁBLÁBAN a feldolgozás közben számításokat végzünk. A KÖZLÉSI TÁBLA pedig a statisztikai munka végső eredményét tartalmazza. A közlési táblában hozzuk nyilvánosságra az eredményeket. Nézzünk egy példát! Tételezzük fel, hogy egy munkahelyen 20-an dolgoznak és rendelkezésünkre áll a dolgozók névsora. Kimutatást szeretnénk készíteni a dolgozók nem szerinti megoszlásáról. (A névsor alapján eldönthető a nemük). A feldolgozás során az alábbi táblák készülnek: FELDOLGOZÁSI TÁBLA Nem
Előfordulás
MUNKATÁBLA Létszám (fő)
Nő Férfi Összesen
15 5 20
Nem Nő Férfi Összesen
Létszám (fő)
Nemenkénti arány
15 5 20
15 : 20 = 0,75 5 : 20 = 0,25 20 : 20 = 1
KÖZLÉSI TÁBLA Létszám (fő)
Létszám megoszlása (%)
Férfi Nő
15 5
75,0 25,0
Összesen
20
100,0
Nem
Különböző rendeltetésű statisztikai táblák 1.12. táblázat
A tábla dimenziószáma A statisztikai táblák sok esetben csak két statisztikai sort tartalmaznak, de készíthetünk olyan táblát is, amely kettőnél több statisztikai sort tartalmaz. A táblát alkotó statisztikai sorok száma azt mutatja meg, hogy hány ismérv szerint vizsgáltuk egyszerre a sokaságot. A statisztikai tábla DIMENZIÓSZÁMÁNAK nevezzük azt a számot, amely jelzi, hogy a tábla egy-egy adata hány sorhoz tartozik. A táblák áttekinthetősége miatt általában kétdimenziós statisztikai táblákkal dolgozunk. A háromdimenziósnál magasabb dimenziószámú tábla már nehezen értelmezhető, ezért használata nem ajánlott. 25
A csoportosítás szerepe A csoportosítás szerepe szerint történő osztályozásnál a statisztikai táblák további három típusát különböztetjük meg: ― egyszerű tábla; ― csoportosító tábla; ― kombinációs tábla. Az egyszerű táblák nem tartalmaznak csoportosítást, azaz csak összehasonlító és leíró sorok szerepelnek bennük. A csoportosító táblákban található legalább egy csoportosító sor. A kombinációs táblák kombinált csoportosítást tartalmaznak, legalább két csoportosító sort találunk bennük. Ez utóbbit kereszttáblának vagy kontingenciatáblának is nevezzük, ezekkel még foglalkozunk a későbbiekben. EGYSZERŰ TÁBLA Megnevezés
1999
2000
Vagyonérték (millió Ft) 16 18 Termelési érték (millió Ft) 122 125 Átlagos létszám (fő) 23 30 Egy vállalkozás adatai 1999-ben és 2000-ben 1.13. táblázat
A tábla vízszintesen összehasonlító idősorokat, függőlegesen leíró sorokat tartalmaz. Sem vízszintesen, sem függőlegesen nincs értelme az adatok összegzésének.
CSOPORTOSÍTÓ TÁBLA Megnevezés Eladási forgalom (millió Ft) Kifizetett bér (millió Ft)
I. negyedév
II. negyedév
12
14
1,2
Ledolgozott munkaórák (munkaóra)
2640
1,2 2700
III. negyedév IV. negyedév 11 1,3 2810
15 1,4 2400
Összesen (egész év) 52 5,1 10 550
Egy kereskedelmi vállalkozás adatai 1.14. táblázat
A tábla vízszintes sorai tartamidősorok, így összegezhetők, függőleges sorai viszont leíró sorok, ezek nem összegezhetők. KOMBINÁCIÓS TÁBLA Megnevezés Férfi ruházat Női ruházat Gyermekruházat
I. félév
II. félév
Összesen (egész év)
11 18 7
15 23 5
26 41 12
Összesen 36 43 79 Egy áruház konfekcióosztályának forgalma (millió Ft) 1.15. táblázat
A tábla vízszintes sorai itt is tartamidősorok, összegezhetők. Függőlegesen minőségi sorokat tartalmaz, melyek szintén összegezhetők.
A következő példa egy kissé bonyolultabb táblát mutat be. Ez a táblázat egy közlési tábla lesz, amely háromdimenziós és kombinációs. Segítségével egy tanulócsoport számítógép-használati szokásait vizsgáltuk. A három ismérv, ami szerint a vizsgálatot végeztük: a nem (ismérvváltozatai: fiú, lány); számítógép-birtoklás (ismérvváltozatai: van saját gépe, nincs saját gépe); használati cél (ismérvváltozatai: csak tanulásra használja, csak játékra használja, tanulásra és játékra is használja). 26
Számítógép használata a Keszthelyi Gazdasági Szakközépiskola 1. osztályos tanulói körében 2001. február 1-jén Használat módja Csak tanulásra használja Csak játékra használja Tanulásra és játékra is használja
A 0
Fiú B 1
A 3
Lány B 4
C 1
1
1
17
1
Mindösszesen A B C 3 5 8
C 7
2
0
0
0
1
1
2
18
6
1
7
23
2
25
8
35
18 3 21 9 5 14 27 Összesen Forrás: Saját felmérés. A = saját számítógépe van, B = nincs saját számítógépe, C = összesen
A táblában található mindhárom statisztikai sor minőségi sor, a sorok adatai összegezhetők. 1.2.5. GRAFIKUS ÁBRÁZOLÁS A statisztikai elemzés egyik legelterjedtebb formája az adatok GRAFIKUS ÁBRÁZOLÁSA, amely a táblázatok készítése mellett a feldolgozott és rendszerezett adatok bemutatásának leggyakrabban alkalmazott módja. A napjainkban ismert és használatos táblázatkezelő és statisztikai elemző programok a lehetőségek széles körét tárják elénk a grafikus ábrázolás területén. Könnyen és gyorsan elsajátíthatóak e programok kezelése, az eredmény látványos, jól értelmezhető. A grafikus ábrázolás segítségével kiemelhetjük a fontosnak tartott dolgokat, felhívhatjuk a figyelmet a lényegesebb összefüggésekre, közérthetőbbé tehetjük közlendőnket. Az emberek nagy része vizuális beállítottságú, könnyebben értelmezi a grafikusan ábrázolt összefüggéseket. A grafikus ábrázolás segítségével azok számára is értelmezhetővé tesszük az összefüggéseket, akik nem értenek a statisztikához. Az előzőekből következik, hogy mindenképpen ajánlatos a statisztikai elemző munkában a grafikus ábrázolási lehetőségeket maximálisan kihasználni. Grafikusan csak több adatot érdemes ábrázolni, egy adat önmagában nem mond semmit. A grafikus ábrázolás során az adatok közötti arányokat érzékeltetjük, nem pedig az abszolút nagyságukat. Általában az ábrázolni kívánt adatok jellege és a köztük fennálló összefüggés természete dönti el, hogy a grafikus ábrázolás céljára milyen ábratípust választunk. E fejezetben csupán általános áttekintést szeretnénk adni az ábrázolási lehetőségekről. A tananyag következő részeiben az egyes témák tárgyalásánál részletesen ismertetjük majd az adott témákhoz kapcsolódó grafikus ábrázolási módszereket. A grafikus ábrázolás történhet: ― koordináta-rendszerben; ― koordináta-rendszeren kívül mértani alakzatok formájában; ― térképeken; ― figurális ábrázolással. Ábrázolás koordináta-rendszerben Legtöbbször derékszögű koordináta-rendszerrel dolgozunk. Az ábráink lehetnek két- vagy háromdimenziósak. Általában olyan statisztikai sorok ábrázolásánál választjuk a koordináta-rendszeren belüli ábrázolást, amelyeknél függvényszerű összefüggést mutat a jelenség, vagyis az összehasonlítás alapjául szolgáló ismérv változatai számszerűek. Természetesen minőségi ismérvek esetén is lehetséges a koordináta-rendszerben történő ábrázolás. Mivel ebben az esetben azonban nem beszélhetünk függvényszerű kapcsolatról, az ábrázolási módok is mások lesznek, például választhatunk oszlopdiagramot. Az ismérvek típusától függően az ábrázoláskor diszkrét, illetve folytonos értékeket vehetünk fel a tengelyekre. 27
A koordináta-rendszerben az ábrázolás történhet: ― pontdiagram; ― vonaldiagram; ― oszlopdiagram; ― szalagdiagram segítségével. A szalagdiagram egyik speciális, érdekes alkalmazása a KORFA (KORPIRAMIS). A korfát a népességstatisztikában használják. A lakosság koronkénti és nemenkénti megoszlását mutatja be adott időpontban, adott országban. A vízszintes tengelyen bal oldalt a férfiak, jobb oldalt a nők aránya %-ban, a függőleges tengelyen a korcsoportok szerepelnek. A korfa alakja alapján demográfiai típusok különböztethetők meg:
― növekvő népesség korfája: széles alapú, fölfelé gyorsan keskenyedő korfa, a fiatal korcsoportok magas (a gyermekkorúak 40-50%), az idősebbek alacsony (24%) aránya jellemzi. A legszegényebb, mezőgazdasági jellegű országokra jellemző, ahol magas a születési és a hallozási arány is és alacsony a várható élettartam (pl. India, Kína, számos afrikai ország).
― stagnáló népesség korfája: méhkas alakú, a fiatalok (gyermekkorúak: 2025%) és a középkorúak aránya magas és közel azonos, csak az idősebb korosztályoknál (10-15%) keskenyedik el a korfa. Egyenletesen nő a népesség száma és várható élettartama (pl. USA, Ausztrália).
― fogyó népesség korfája: keskeny alapú, fölfelé kissé szélesedő korfa, a fiatalok aránya csökken (gyermekkorúak: 15-20%), a várható élettartam hosszú, az idősek aránya nő (15-20%), eléri, majd meghaladja a fiatalok arányát. Gyorsan öregedik a népesség, a létszám stabilizálódik, majd csökken (pl. Svájc, Dánia, Németország, Olaszország, Magyarország). A születéskor várható élettartam a világnépesség egészét tekintve nő. A nők átlagélettartama általában magasabb, mint a férfiaké. A nemek aránya általában kiegyenlített (1000 férfira 900-1150 nő jut a világ különböző országaiban). Általában a világon kicsit több fiú születik (52%), mint lány (48%), ezért a fiatalabb korosztályoknál férfitöbblet mutatkozik, de mivel a nők halandósága idősebb korban alacsonyabb, mint a férfiaké, ezért az idősebb korcsoportoknál általában nőtöbblet mutatkozik. (A szerk.)
Az 1.1. ábrán látható korfa Magyarország népességét ábrázolja 1997. január 1-jén. Zárt, ismétlődő ciklusokat tartalmazó jelenségek ábrázolására használható a poláris koordináta-rendszerben elkészíthető ún. SUGÁRDIAGRAM. A poláris koordinátarendszerben a jobb oldali vízszintes sugár a koordinátatengely, az ábrázolandó adatnak megfelelő pont egyik koordinátája a tengellyel bezárt szög, a másik koordinátája a hálózat középpontjától mért távolság. Erre a diagramtípusra az idősorokkal foglalkozó részében láthatunk példát.
Forrás: Magyar Statisztikai Zsebkönyv 1996, KSH 1.1. ábra
28
Magyarország népességváltozásának ábrázolása a korfával 1.2. ábra
A DIAGRAMOK KÉSZÍTÉSÉNEK ÁLTALÁNOS SZABÁLYAI A statisztikai táblákhoz hasonlóan a diagramok készítésénél is ügyelnünk kell a FORMAI ELŐÍRÁSOK betartására. Meg kell adnunk a CÍMET, ami röviden ki kell hogy fejezze, mire vonatkozik az ábra, mit ábrázol. A koordináta-rendszeren belüli ábrázolásnál a fentieken kívül még egyéb formai dolgokra is ügyelnünk kell: ― A koordináta-rendszerben a SKÁLÁT beosztásnak, léptéknek is szoktuk nevezni. A rajta elhelyezkedő, beosztást jelző pontoknak, vonalaknak egymástól való távolságai lehetnek egyenlők vagy különbözők. Egyenletes skála esetén az egységül választott szakasz hossza a lépték. ― Fontosak a TENGELYFELIRATOK, A JELMAGYARÁZATOK, az esetleges további magyarázatok, az adatok MÉRTÉKEGYSÉGE. ― Fel kell tüntetnünk a diagramon ábrázolt ADATOK FORRÁSÁT is. Kerülni kell a bonyolult, túlzsúfolt ábrázolást. Ábrázolás koordináta-rendszeren kívül, mértani ábrákkal Leggyakrabban alkalmazott mértani eleme a kör. A kör nemcsak az arányok bemutatására alkalmas, hanem a jelenség belső összetételét, szerkezetét is vizsgálhatjuk segítségével. Általában megoszlási viszonyszámok esetében alkalmazzuk. A kördiagram háromdimenziós megfelelője a tortadiagram. Ezekkel az ábrázolási módokkal a viszonyszámok grafikus ábrázolásánál foglalkozunk részletesebben. Ábrázolás térképeken A területi sorok esetében használatos. Ilyenkor képet kapunk a vizsgált jelenség földrajzi elhelyezkedéséről is. Az itt ábrázolt területi egységek általában teljes egészet alkotnak, például az adatok egy megyére vagy egy országra vonatkoznak. Ezeket az ábratípusokat 29
Az egy főre jutó bruttó hazai termék (GDP) megyénként, 1988 (folyó áron, ezer forint)
Statisztikai adatok ábrázolása térképen 1.3 ábra
kartogramnak is nevezzük. Úgy készítjük, hogy az ábra alapját képező térképet felosztjuk olyan kisebb területi egységekre, amelyekre az adatok vonatkoznak, és az ábrázolandó adatok nagyságát az egyes részek színezésével vagy árnyékolásával szemléltetjük. Figurális ábrázolás vagy piktogramkészítés Ekkor a témához kapcsolódó figurális elemek nagyságának vagy darabszámának megjelenítésével mutatjuk be a vizsgált jelenséget. Leggyakrabban területi vagy időbeli összefüggések összehasonlításánál alkalmazzuk. Egyes európai országok kenyérgabona-termelése (búza, rozs) 1963-ban
Statisztikai adatok figurális ábrázolása 1.4 ábra
30
1.3. ELLENŐRZŐ KÉRDÉSEK 1. Milyen jelentéseket takar a statisztika szó? 2. Mi a különbség a leíró és a következtetéses statisztika között? 3. Mi a statisztika? 4. Milyen területeken alkalmazták a statisztikát az ókorban? 5. Nevezzen meg néhány kiemelkedő magyar statisztikust! 6. Melyik törvény szabályozza a magyar statisztikai tevékenység teljes körét? 7. Melyek a hivatalos statisztikai szolgálat intézményei? 8. Melyek a statisztikai tevékenység alapműveletei? 9. Mi az OSAP szerepe? 10. Melyek az adatgyűjtés korszerűsítésének főbb területei? 11. Milyen részekből áll az OSTAR? 12. Soroljon fel néhány rendszeresen megjelenő statisztikai kiadványt! 13. Mit értünk statisztikai sokaság alatt? 14. Hogyan csoportosíthatók a statisztikai sokaságok? 15. Mi a különbség a megfigyelési és a számbavételi egység között? 16. Mit nevezünk ismérvnek? 17. Milyen ismérvfajtákat ismer? 18. Mi az ismérvváltozat és az ismérvérték? 19. Mely ismérveket nevezzük alternatív ismérveknek? 20. Jellemezze az egyes mérési skálákat! 21. Milyen minőségi követelményeket fogalmazhatunk meg a statisztikai adatokkal szemben? 22. Miért van szükség információsűrítésre? 23. Mit jelent az aggregálás? 24. Milyen lehetőségeink vannak a sokaság adatainak rendezésére? 25. Hogyan történik az adatok csoportosítása? 26. Mi a nomenklatúra? Soroljon fel néhányat! 27. Milyen ismérvek esetében alkalmazzuk az összehasonlítást? 28. Mi a lajstrom? 29. Mi a rangsor? 30. Jellemezze a csoportosító sorokat! 31. Jellemezze az összehasonlító sorokat! 32. Jellemezze a minőségi sorokat! 33. Jellemezze a mennyiségi sorokat! 34. Jellemezze az idősorokat! 35. Jellemezze a területi sorokat! 36. Jellemezze a leíró sorokat! 37. Mi a statisztikai tábla? 38. Hogyan csoportosíthatók a statisztikai táblák? 39. Mit nevezünk a statisztikai tábla dimenziószámának? 40. Milyen formai követelményeknek kell megfelelniük a statisztikai tábláknak? 41. Milyen módokon történhet a grafikus ábrázolás? 42. A koordináta-rendszerben történő ábrázoláskor milyen diagramok használhatók? 43. Mi a korfa? 44. Mikor használjuk a sugárdiagramot? 45. Mit értünk figurális ábrázolás alatt?
31
2. VISZONYSZÁMOK Mint már az előző fejezetben láttuk, a statisztikai munka óriási adathalmaz létrehozását, rendszerezését, feldolgozását, elemzését és a vizsgálatok eredményének közlését jelenti. Ebben a nagy munkában a vizsgált sokaság csoportosítása, az adatok statisztikai sorokba, statisztikai táblákba történő rendezése csak az első lépés, használható-hasznosítható információk nyeréséhez az adatok további feldolgozása szükséges. Az adatok feldolgozására a statisztika egész „arzenált” hozott létre, amely az adatfeldolgozáshoz szükséges módszerek széles körét tartalmazza, az egyszerűbbektől a legbonyolultabbakig. Ennek a fejezetnek célja egy ilyen, viszonylag egyszerűbb módszeregyüttes — a viszonyszámok — bemutatása, amely egyszerűsége ellenére a statisztikai vizsgálódás elengedhetetlen eszköze. A viszonyszámokkal a statisztikai adatok összehasonlítását végezzük, ez nélkülözhetetlen a statisztikai munkában, hiszen egy adat önmagában, anélkül, hogy egy másik hasonló adattal öszszevetnénk, „nem sokat mond”. Többféle viszonyszámról lesz majd szó, érdemes azonban már most leszögezni: fontos a megfelelő viszonyszám megfelelő helyen történő használata. 2.1. A STATISZTIKAI ADATOK ÖSSZEHASONLÍTÁSA Mint már említettük, egy adat önmagában nem sok információt hordoz. Például, ha tudjuk, hogy egy országban a havi átlagkereset 1000 garas, ebből nem tudunk következtetni az ország lakosságának életszínvonalára. A garas ugyan átszámítható forintra, így a havi 1000 garas összevethető a hazai havi átlagkeresettel, de így sem jutunk sokkal több információhoz, ehhez ismerni kellene az illető ország árviszonyait, továbbá a fogyasztói szokásokat és az azokat befolyásoló társadalmi, földrajzi, kulturális és egyéb tényezőket. Mindebből kiderül, hogy az adatok összehasonlításánál nagyon körültekintően kell eljárnunk. Két statisztikai adat összehasonlítása kétféleképpen történhet: a két adat különbségének, illetve hányadosának képzésével. 2.1.1. ÖSSZEHASONLÍTÁS KÜLÖNBSÉGKÉPZÉSSEL Az nyilvánvaló, hogy ez az összehasonlítás csak azonos mértékegységben kifejezett adatok esetében lehetséges, a helyzet azonban ennél bonyolultabb. Vegyünk egy példát! Két személy — A és B — jó munkája elismeréseként béremelést kapott, mindkettőjük bére 10 ezer forinttal lett magasabb. Ez csak látszólag „ugyanaz”, hiszen könnyű belátni, hogy „boldogságszintjük” távolról sem azonos, ha A-nak ezt megelőzően 40 ezer Ft, B-nek 100 ezer Ft volt a bére. A különbségképzéssel történő összehasonlítás azért nem jellemzi kielégítően a változást (eltérést), mert FÜGGETLEN A VISZONYÍTÁSI ALAPTÓL. 2.1.2. ÖSSZEHASONLÍTÁS HÁNYADOSKÉPZÉSSEL Bizonyos esetekben a különbségképzés is „érdekes” következtetésekhez vezethet. Például igen jól hangzik, hogy X úr egyéni vállalkozó alkalmazottainak száma előző évhez képest duplájára nőtt, de ha megtudjuk, hogy az előző évben egyetlen alkalmazottal dolgozott, akkor ezt már egészen másképpen értelmezzük. Mi tehát a teendő, melyik módszert válaszszuk? Válasz: az adott helyzettől, körülményektől függ. A statisztikus feladata, hogy tapasztalata alapján döntsön, hogy egyik vagy másik módszert, netán a kettőt együtt alkalmazza. Végül is A és B úr esetét így is megfogalmazhatjuk, igen körültekintően: A úr és B 32
úr egységesen 10 ezer Ft béremelést kapott, ez A úr esetében 25, B úr esetében 10 százalékos növekedést jelentett. 2.2. A VISZONYSZÁMOKRÓL ÁLTALÁBAN Az előző példánkban említett 25, illetve 10 százalékos növekedést két adat hányadosának kiszámításával nyertük, azaz viszonyszámot számítottunk. Ennek 100% fölötti része maga a növekedési ütem. Ez a két személyt tekintve: A úr esetében:
50 000 · 100 = 125,0% 40 000
B úr esetében:
110 000 · 100 = 110,0% 100 000
A VISZONYSZÁM két, egymással valamilyen kapcsolatban álló statisztikai adat hányadosa. Az az adat, amelyiket a másikhoz hasonlítjuk, a számlálóba kerül, és összehasonlítandó vagy VISZONYÍTANDÓ ADATNAK nevezzük, a másik az összehasonlítás alapja vagy VISZONYÍTÁSI ALAP, ez kerül a nevezőbe. Ennek megfelelően: Viszonyszám =
Viszonyítandó adat vagy általánosan: A V= Viszonyítási alap B
Mivel itt két adat hányadosáról van szó, az összehasonlítás különböző típusú, különböző mértékegységekben kifejezett adatok esetében is elvégezhető. Természetesen — a matematika szabályainak megfelelően — amennyiben a fenti képletben szereplő három adat közül bármely kettő ismert, az ismeretlen harmadik kiszámítható. Így előfordulhat, hogy maga a viszonyszám ismert és a viszonyítandó adatot, vagy a viszonyítási alapot kell kiszámítanunk. A viszonyszámok mértékegysége attól függ, hogy a két összehasonlított adat azonos vagy különböző mértékegységben van-e kifejezve. Nézzünk egy példát arra az esetre, amikor mindkét adat AZONOS MÉRTÉKEGYSÉGBEN van kifejezve! Hazánk tehergépkocsi-állománya 1990-ben 222 061 darab, 1999-ben 322 068 darab volt. Kérdés: hogyan változott a tehergépkocsi-állomány 1990-ről 1999-re? A válasz — a megfelelő viszonyszám kiszámítása után — több formában is megadható. EGYÜTTHATÓS FORMA: Tehát az 1999-es tehergépkocsi-állomány az 1990-esnek 1,4503-szorosa. V=
A 322 068 = = 1,4503 B 222 061
V=
A · 100 = 145,0% B
SZÁZALÉKOS FORMA: Az eredmény kétféleképpen értelmezhető: ― az 1999-es tehergépkocsi-állomány az 1990-es állomány 145 százaléka; az 1999-es tehergépkocsi-állomány az 1990-es állománynál 45%-kal nagyobb, vagy a tehergépkocsi-állomány 1990-ről 1999-re 45%-kal növekedett.
33
EZRELÉKES FORMA: Jelölése vagy kiírással, vagy az ‰ jellel történik. Ezt a formát akkor alkalmazzuk, amikor a viszonyítás tárgya és alapja között nagyon nagy nagyságrendi eltérés van (például a demográfiában használatos arányszámoknál). KÉT FONTOS SZABÁLY 1. Számításaink eredményét általában százalékos vagy ezrelékes formában közöljük, számolni viszont — praktikus okokból — az együtthatós formával szoktunk. 2. Az együtthatós formában kifejezett viszonyszám értékét négy tizedesnyi, a százalékos formában megadottat viszont egy tizedesnyi pontossággal adjuk meg. Indokolt esetben ettől eltérhetünk. Ha a két összehasonlítandó adat KÜLÖNBÖZŐ MÉRTÉKEGYSÉGBEN van kifejezve, a viszonyszámnak ÖSSZETETT MÉRTÉKEGYSÉGE lesz (Ft/fő, darab/fő, kg/darab stb.). A gyakorlatban többféle viszonyszámot használunk, ezeket a következőképpen csoportosíthatjuk: Megoszlási Koordinációs VISZONYSZÁM
Összehasonlító
Területi Bázis Időbeli Lánc
Intenzitási Teljesítmény
Az egyes viszonyszámfajtákat jól meghatározott esetekben, azaz bizonyos statisztikai sorok vizsgálatára használhatjuk. A viszonyszámokat a továbbiakban a segítségükkel vizsgálható statisztikai sorokhoz rendelve tárgyaljuk. 2.3. A CSOPORTOSÍTÓ SOROK VIZSGÁLATÁRA HASZNÁLT VISZONYSZÁMOK: A MEGOSZLÁSI ÉS A KOORDINÁCIÓS VISZONYSZÁM Mint már az első fejezetben láttuk, a statisztikai adatok rendezésének egyik lehetséges módja a csoportosítás, ami azt jelenti, hogy a heterogén fősokaságot valamilyen ismérv szerint viszonylag homogén részsokaságokra bontjuk. A továbbiakban a következő jelöléseket használjuk: ― a fősokaság (egész) adata: ae ― a részsokaságok adatai: ar1, ar2, …, arn Mind a megoszlási, mind a koordinációs viszonyszám a csoportosító statisztikai sorok SZERKEZETÉNEK, ÖSSZETÉTELÉNEK VIZSGÁLATÁRA alkalmas. A MEGOSZLÁSI VISZONYSZÁM A MEGOSZLÁSI VISZONYSZÁMOK a statisztikai sokaságok egyes részeinek az egészhez mért arányát fejezik ki. Képletben kifejezve: Vm =
a r A statisztikai sokaság egy részére vonatkozó adat = ae A statisztikai sokaság egészére vonatkozó adat 34
Nyilvánvaló, hogy a megoszlási viszonyszám értéke nem lehet nagyobb, mint 1 (100%), és hogy az ugyanazon statisztikai sokaságra vonatkozó megoszlási viszonyszámok összege 1 (100%). A megoszlási viszonyszámok minden további nélkül összeadhatók. Példa Magyarország népessége 2000. január 1-jén 10 044 ezer fő, ebből 4 792 ezer fő férfi, 5 252 ezer fő nő volt. Megoszlási viszonyszámokkal jellemezzük a népesség nemek szerinti öszszetételét! Megoszlási viszonyszámok: Férfiak aránya:
4 792 = 0,4771 = 47,7% 10 044
Nők aránya:
5 252 = 0,5228 = 52,3% 10 044
Összesen:
100,0%
Alternatív ismérvek esetén — mint példánkban is — az egyik részsokaság arányát kifejező megoszlási viszonyszám ismeretében a másik kiszámítható: Nők aránya:
100,0% – 47,7% = 52,3%
A megoszlási viszonyszám értékes eszköz a statisztikai vizsgálatban, hiszen számtalan esetben több, különböző Magyarország népessége a település jellege szerint nagyságú statisztikai soka2000. január 1-jén ság szerkezetét kell vizsgálni. Ezt az abszolút ada1980 2000 Településjelleg tok nem teszik lehetővé, a (ezer fő) (%) (ezer fő) (%) megoszlási viszonyszámok Budapest 2 060 19,2 1 815 18,1 azonban híven tükrözik a Többi város 3 642 34,0 4 556 45,3 sokaságok összetételét, Község 5 008 46,8 3 673 36,6 mivel elvonatkoztatnak az Összesen 10 710 100,0 10 044 100,0 adatok abszolút nagyságától. 2.1. táblázat Az abszolút adatokból azonnal látszik, hogy a Magyarország népessége a település jellege szerint vizsgált 20 év alatt a népes1980. január 1-jén, kördiagramon ábrázolva ség csökkent, de hogy ez milyen változást hozott a népesség településjelleg Budapest szerinti megoszlásában, az 19% csak a megoszlási viszonyKözség számokból derül ki: vala47% melyest csökkent a BudaTöbbi város pesten lakók, erőteljeseb34% ben a községekben élők részaránya. A megoszlási viszonyszámok grafikus megjelenítésére kördiagra2.1. ábra
35
mot vagy osztott oszlopdiagramot használhatunk. Magyarország népessége a település jellege szerint 2000. január 1-jén, osztott oszlopdiagramon ábrázolva 100% 90%
Budapest
18,1
19,2
80%
Többi város
70% 60%
34
Község
45,4
50% 40% 30% 20%
46,8
36,6
10% 0%
1980.
Évek
2000. 2.2. ábra
A KOORDINÁCIÓS VISZONYSZÁM A KOORDINÁCIÓS VISZONYSZÁMOK — a megoszlási viszonyszámokhoz hasonlóan — a statisztikai sokaság szerkezetét mutatják. De míg az utóbbiak a részek arányát fejezi ki az egészhez viszonyítva, addig a koordinációs viszonyszámok a sokaság két részének egymáshoz viszonyított arányát mutatják. A koordinációs viszonyszám valamilyen csoportosító sor egyik részadatának egy másik részadathoz történő viszonyítását tesz lehetővé. Megmutatja, hogy az egyik részsokaság egy egységére a másik részsokaság hány egysége jut. Képletben kifejezve: Vk =
a r1 ar2
vagy
Vk =
ar2 a r1
Értelemszerűen a viszonyszám számlálója és nevezője felcserélhető, ebből adódóan alternatív ismérv esetén az egyik koordinációs viszonyszám ismeretében a másik kiszámítható, hiszen ezek egymás reciprokai. Maradva az előző pontban bemutatott példa adatainál, két koordinációs viszonyszám számítható: 1000 férfira jutó nők száma =
5252 nők száma = ·1000 = 1096 fő férfiak száma 4792
1000 nőre jutó férfiak száma =
férfiak száma 4792 = ·1000 = 912 fő nők száma 5252
36
A kiszámított koordinációs viszonyszámok is jelzik a hazánk népességét jellemző nőtöbbletet. A MEGOSZLÁSI ÉS A KOORDINÁCIÓS VISZONYSZÁM ÖSSZEFÜGGÉSE A megoszlási és a koordinációs viszonyszámok között matematikai összefüggés van, így az abszolút adatok hiányában egyik a másikból kiszámítható, azzal a megjegyzéssel, hogy megoszlási viszonyszámokat koordinációs viszonyszámokból kiszámítani csak alternatív ismérv esetén lehetséges. Koordinációs viszonyszám számítása megoszlási viszonyszámokból Ismertek a megoszlási viszonyszámok: a r1 ar2 és ae ae Mivel mindkét tört nevezőjében a fősokaság adata található, a két viszonyszám hányadosát képezve ez egyszerűsödik, így éppen a keresett koordinációs viszonyszámot (számokat) kapjuk. Tehát: Vm1 a r1 a r 2 a r1 a e a r1 = = = = Vk · : Vm 2 a e a e ae ar2 ar2 vagyis Vk =
Vm1 Vm 2
Példa 2000. január 1-jén Magyarország népességének 47,7%-a férfi volt. Számítsuk ki a népesség nemek szerinti összetételét jellemző koordinációs viszonyszámokat! Megoszlási viszonyszámok: Férfiak aránya: 47,7% Nők aránya: 52,3% Koordinációs viszonyszámok: 52,3 1000 férfira jutó nők száma: · 1000 = 1096 fő 47,7 1000 nőre jutó férfiak száma:
47,7 · 1000 = 912 fő 52,3
Megoszlási viszonyszám számítása koordinációs viszonyszámokból Ismertek a koordinációs viszonyszámok: a r1 ar2
és
ar2 a r1
Ha az egyik koordinációs viszonyszámhoz hozzáadunk 1-et, éppen a megoszlási viszonyszám reciprokát kapjuk: a a +a a r1 1 + 1 = r1 r 2 = e = ar2 ar2 a r 2 Vm ebből következik, hogy: Vm1 =
1 a r1 +1 ar2
37
illetve: Vm 2 = 1 − Vm1 vagyis: Vm 2 =
a r1 ar2 a r1 +1 ar2
Példa 2000. január 1-jén Magyarországon 1000 férfira 1096 nő jutott. Megoszlási viszonyszámokkal jellemezzük a népesség nemek szerinti összetételét! Megoszlási viszonyszámok: nők aránya: 1096 = 0,5229 = 52,3% 1096 + 1000 férfiak aránya: 1000 = 0,4770 = 47,7% 1096 + 1000
2.4. AZ IDŐSOROK VIZSGÁLATÁNAK ESZKÖZE: A DINAMIKUS VISZONYSZÁM Az adatok időbeli összehasonlításának óriási szerepe van a statisztikában, hiszen amellett, hogy a múlt gyakran szolgál tanulságokkal a jelen számára, a múltban és a jelenben ott rejlenek a jövő csírái is, ezért a múltban történtek vizsgálatával, az ott tapasztalt tendenciák felismerésével sokszor a jövő felé is fordulunk. Két időszak adatának hányadosát képezve DINAMIKUS VISZONYSZÁMOT nyerünk. Az összehasonlítás alapjául vett időszakot BÁZISIDŐSZAKNAK, azt az időszakot pedig, amely az összehasonlítás tárgya, beszámolási vagy TÁRGYIDŐSZAKNAK nevezzük. Két időszakot feltételezve, a következő jelöléseket alkalmazzuk: a0 = a bázisidőszak adata, a1 = a tárgyidőszak adata. Ezek szerint a dinamikus viszonyszám felírható a következő általános formában: Vd =
a1 beszámolási (tárgy) időszak/időpont adata = a0 bázisidőszak/időpont adata
Az idősorok vizsgálatánál körültekintően kell megválasztani a bázisidőszakot. Két tagból álló idősor esetén ez egyszerű, ilyenkor mindig a korábbi időszak adatához viszonyítunk, tehát ez lesz a bázisidőszak. Többtagú idősor esetén két lehetőségünk van: 1. Az idősor minden adatát ugyanannak az időszaknak/időpontnak az adatához viszonyítjuk (jelölése: Vdb). 2. Az idősor egyes adatait a közvetlenül megelőző ismert időszak vagy időpont adatával hasonlítjuk össze (jelölése: Vdl) Az első esetben bázisviszonyszámokat, a második esetben láncviszonyszámokat számítunk, illetve bázis- és láncviszonyszám-sorokat kapunk. 38
2.4.1. A BÁZISVISZONYSZÁM Azokat a dinamikus viszonyszámokat, amelyeknél a viszonyítás alapja állandó, azaz az idősor minden egyes adatát ugyanahhoz az adathoz viszonyítjuk, BÁZISVISZONYSZÁMNAK nevezzük. A bázis kiválasztásánál körültekintően kell eljárni, hiszen attól függően, hogy melyik időszak/időpont adatát tekintjük bázisnak, a viszonyszámok értéke más és más lesz. Egy helytelenül megválasztott bázis irreális következtetésekhez vezethet, ezért például kerülni kell a véletlennek tekinthető, kimagaslóan magas vagy éppen alacsony értéket mutató időszakokat. Az állandó bázis legtöbbször az idősor legelső adata. Az idősor adatait jelöljük: a0, a1, a2,…,an (Az idősorok adatait szokás yi-vel is jelölni.) A definíció alapján ezekből az adatokból megannyi bázisviszonyszám írható fel. Bázisviszonyszámok: a 0 a1 a 2 a , , , K, n a0 a0 a0 a0 Példa A 2.1. táblázat nem csak Magyarország lignittermelésének adatait tartalmazza, hanem a bázisviszonyszámok kiszámítási módját is. A táblázat bázisviszonyszámai azt fejezik ki, hogy az egyes években mennyi volt a változás (növekedés vagy csökkenés) a bázisként választott évhez, 1992-höz képest. Például látható, hogy az 1997-es termelés 15,8%-kal, az 1999-es pedig 9,6%-kal haladta meg az 1992. évit. Fontos információk ezek, azonban nem derül ki, hogyan változott a lignitBázisviszonyszámok számítása termelés az egyes években. Ehhez az információhoz láncviszonyszámLignittermelés Bázisviszonyszámok (1992=100%) Évek (ezer tonna) ok számításával juthatunk. Együtthatós formában %-ban Egyelőre azonban maradjunk a 1992 7020 7020:7020 = 1,0000 100,0 bázisviszonyszámoknál! A statiszti1993 5052 5052:7020 = 0,7196 72,0 kai adatok időbeli összehasonlításá1994 6727 6727:7020 = 0,9582 95,8 nál fontos szabály, hogy csak köz1995 7153 7153:7020 = 1,0189 101,9 gazdasági szempontból azonos jel1996 7575 7575:7020 = z1,0790 107,9 legű és azonos hosszúságú időszak1997 8132 8132:7020 = 1,1584 115,8 ok adatát szabad összehasonlítani. 1998 7610 7610:7020 = 1,0840 108,4 Az nyilvánvaló, hogy egyhavi ada1999 7696 7696:7020 = 1,0962 109,6 tot nem hasonlíthatunk össze egy 2.2. táblázat éves adattal, de az sem szerencsés, ha az egyes évek búzatermelését Vonaldiagram egy aszályos év termeléséhez, vagy Vdb A lignittermelés alakulása Magyarországon (%) egy sikeres év ipari termelését egy 150 háborús év termeléséhez viszonyítjuk. Hasonlóképpen óvatosnak kell 100 lenni, például olyan termékek eseté- 50 ben is, amelyeknek termelésé0 ben/fogyasz-tásában valamiféle 1992 1993 1994 1995 1996 1997 1998 1999 szezonalítás fedezhető fel. Értelmetlen dolog például a decemberi 2.3. ábra szaloncukor-értékesítést a novemberihez vagy a januárihoz viszonyítani. Ilyen esetekben az egyes hónapok adatát az előző évek ugyanazon havi adatához viszonyítjuk. 39
Vdb (%)
Oszlopdiagram A lignittermelés alakulása Magyarországon
140 120 100 80 60 40 20 0 1992. 1993. 1994. 1995. 1996. 1997. 1998. 1999. 2.4. ábra
A bázisviszonyszám-sor grafikus megjelenítése vonal- vagy oszlopdiagrammal történhet.
2.4.2. A LÁNCVISZONYSZÁM A láncviszonyszám a dinamikus viszonyszámnak az a fajtája, amelyet úgy nyerünk, hogy minden időszak/időpont adatát a közvetlenül megelőző ismert időszak/időpont adatához viszonyítjuk. Ha az idősor adatai: a0, a1, a2, …, an, akkor a definíció alapján a következő láncviszonyszámok írhatók fel: a1 a 2 a 3 a , , , ..., n a 0 a1 a 2 a n −1 Figyeljük meg a következőket: ― Mivel minden adatot a közvetlenül megelőző időszak adatához hasonlítottunk, változó bázissal dolgoztunk. ― Az idősor tagjai — az első és az utolsó kivételével — kétféle összefüggésben szerepelnek: ugyanaz az adat az egyik viszonyszám nevezőjében és a következő viszonyszám számlálójában jelenik meg. A viszonyszámok láncszerűen kapcsolódnak, innen az elnevezésük. Ennek a tulajdonságnak még jelentősége lesz a továbbiakban. ― Az első időszakra/időpontra nem tudunk láncviszonyszáLáncviszonyszámok számítása mot számítani, hiszen ehhez Láncviszonyszámok Lignittermelés (előző év=100%) ismerni kellene az ezt megÉvek (ezer tonna) együtthatós formában %-ban előző időszakot/időpontot. 1992 7020 ― ― Vagyis egy n tagú idősorból 1993 5052 5052:7020 = 0,7196 72,0 n–1 láncviszonyszám szá1994 6727 6727:5052 = 1,3315 133,2 mítható. Példa A 2.3. táblázat nem csak Magyarország lignittermelésének adatait tartalmazza, hanem a láncviszonyszámok kiszámítási módját is.
1995 1996 1997 1998 1999
7153 7575 8132 7610 7696
7153:6727 = 1,0633 7575:7153 = 1,0589 8132:7575 = 1,0735 7610:8132 = 0,9358 7696:7610 = 1,0113
106,3 105,9 107,4 93,6 101,1
2.3 táblázat
40
Oszlopdiagram
Milyen információkat hordoznak a láncviszonyszámok? Képet adnak az időbeli változás üteméről, vagyis a termelés változásáról az egyes években. 40 Látható, hogy a lignittermelés üteme 20 eléggé rendszertelen. A változás ütemét a láncviszonyszám 100%-tól való elté0 rése adja. Ez az eltérés lehet pozitív –20 vagy negatív irányú is. Így például 1993. 1994. 1995. 1996. 1997. 1998. 1999. –40 1996-ban ez +5,9% volt, 1988-ban pedig –6,4%. A lignittermelés változása az előző évhez képest (%) A láncviszonyszámsorokat ritkábban 2.5. ábra ábrázoljuk, a vonaldiagram használata semmiképpen sem ajánlatos. Ehelyett oszlopdiagramot készítünk, amely azonban nem a viszonyszámokat, hanem a növekedési/csökkenési ütemeket jeleníti meg. a növekedés-csökkenés ütemének szemléltetésére
2.4.3. ÖSSZEFÜGGÉS A BÁZIS- ÉS A LÁNCVISZONYSZÁMOK KÖZÖTT A bázis- és a láncviszonyszámok között MATEMATIKAI ÖSSZEFÜGGÉS van, így abszolút adatok hiányában a bázisviszonyszámokból kiszámíthatók a láncviszonyszámok és fordítva. Láncviszonyszámok kiszámítása bázisviszonyszámokból Az összefüggések jobb megértése céljából — a szokásos jelöléseket alkalmazva ― írjuk fel a lánc- és a bázisviszonyszámokat! Ezek szerint: Ismertek a bázisviszonyszámok: a 0 a1 a 2 a , , , ..., n a0 a0 a0 a0 Kiszámítandók a láncviszonyszámok: a1 a 2 a 3 a , , , ..., n a 0 a1 a 2 a n −1 Belátható, hogy a bázisviszonyszámsor őrzi az eredeti adatsor arányait, hiszen a bázisviszonyszámokat úgy kaptuk, hogy valamennyi adatot elosztottuk ugyanazzal a számmal. Ebből az következik, hogy a bázisviszonyszámokból ugyanúgy számíthatjuk ki a láncviszonyszámokat, akárcsak az eredeti adatokból. Tehát a bázisviszonyszámok hányadosai megadják a láncviszonyszámokat, vagyis a bázisviszonyszámsor első adata: a1 ; a0 ebből következően a láncviszonyszámok: a 2 a 2 a1 = : , a1 a 0 a 0
a3 a3 a2 = : , ..., és így tovább . a2 a0 a0
Bizonyítás: Vdl k =
a k a k −1 a k a 0 a : = · = k a0 a0 a 0 a k −1 a k −1 41
Példa Láncviszonyszámok számítása bázisviszonyszámok alapján Évek
Lignittermelés 1992=100%
1992 1993 1994 1995 1996 1997 1998 1999
100,0 72,0 95,8 101,9 107,9 115,8 108,4 109,6
Láncviszonyszámok együtthatós formában ― 72,0:100,0 = 0,72 95,8: 72,0 = 1,3305 101,9: 95,8 = 1,0636 107,9:101,9 = 1,0588 115,8:107,9 = 1,0732 108,4:115,8 = 0,9360 109,6:108,4 = 1,0110
%-ban ― 72,0 133,1 106,4 105,9 107,3 93,6 101,1
2.4 táblázat
Bázisviszonyszámok kiszámítása láncviszonyszámokból Ismertek a láncviszonyszámok: a1 a 2 a 3 a , , , ..., n a 0 a1 a 2 a n −1 Kiszámítandók a bázisviszonyszámok: a 0 a1 a 2 a , , , ..., n a0 a0 a0 a0 Ez a módszer azon alapul, hogy a láncviszonyszámok, mint a nevük is mutatja, láncot alkotnak, ezért ha azokat összeszorozzuk, egyszerűsítéseket végezhetünk és eredményül bázisviszonyszámokat kapunk. Tehát a láncviszonyszámok szorzatai a bázisviszonyszámokat adják. Vagyis: a0 = 100,0% a0
a1 = a láncviszonyszámsor első adata a0
Ebből következően a bázisviszonyszámok: a 2 a1 a 2 = · a 0 a 0 a1 a 3 a1 a 2 a 3 a 2 a 3 · · · = = a 0 a 0 a1 a 2 a 0 a 2
és így tovább.
Bizonyítás: Vdb k =
a1 a 2 a a · · ... · k = k a 0 a1 a k −1 a 0
Kövessük most a számítások menetét az előbbi konkrét példán! 42
Példa Bázisviszonyszámok számítása láncviszonyszámok alapján Évek
Lignittermelés előző év = 100%
1992 1993 1994 1995 1996 1997 1998 1999
― 72,0 133,1 106,4 105,9 107,3 93,6 101,1
Bázisviszonyszám együtthatós formában
0,72·1,331 = 0,9583 0,72·1,331·1,064 = 1,0196 0,72·1,331·1,064·1,059 = 1,0799 0,72·1,331·…·1,073 = 1,1586 0,72·1,331·…·0,936 = 1,0844 0,72·1,331·…·1,011 = 1,0964
%-ban 100,0 72,0 95,8 102,0 108,0 115,9 108,4 109,6
2.5. táblázat
Megfigyelhetjük, hogy az itt bemutatott módszerekkel kiszámított bázis- és láncviszonyszámok a tizedesek szintjén kis mértékben eltérhetnek az eredeti adatokból számítottaktól, de ennek a gyakorlatban nincs jelentősége. 2.4.4. ÁTTÉRÉS ÚJ BÁZISRA ADOTT BÁZISVISZONYSZÁMSORBAN A gyakorlatban előfordulhat, hogy csak egy bázisviszonyszámsor áll rendelkezésünkre, de ennek viszonyítási alapja nem felel meg elemzési célunknak. A megoldás kézenfekvő: át kell térni új bázisra. A bázis változtatása egyszerű: úgy kell tekinteni a meglévő bázisviszonyszámsort, mintha abszolút adatokat tartalmazna, és ennek megfelelően kiszámítani az új bázisviszonyszámokat. Példa Tekintsük a már jól ismert bázisviszonyszámsort, és térjünk át 1994-es bázisra! Áttérés új bázisra Évek
Lignittermelés 1992=100%
1992 1993 1994 1995 1996 1997 1998 1999
100,0 72,0 95,8 101,9 107,9 115,8 108,4 109,6
Új bázis 1994=100% együtthatós formában 100,0:95,8 = 1,0438 72,0:95,8 = 0,7515 95,8:95,8 = 1,0000 101,9:95,8 = 1,0636 107,9:95,8 = 1,1263 115,8:95,8 = 1,2087 108,4:95,8 = 1,1315 109,6:95,8 = 1,1440
%-ban 104,4 75,2 100,0 106,4 112,6 120,9 113,2 114,4
2.6. táblázat
2.5. TERÜLETI ÖSSZEHASONLÍTÓ VISZONYSZÁMOK A gyakorlatban sokszor igény mutatkozik két vagy több területegységre vonatkozó, azonos tartalmú statisztikai adat összehasonlítására. Ennek eszköze a területi összehasonlító viszonyszám. Legtöbbször országok közötti összehasonlítást végzünk. Ha két adatról van szó, bármelyiket tekinthetjük viszonyítási alapnak, az elemzésben azonban ezt következetesen szem előtt kell tartanunk. 43
Példa 1998-ban a munkanélküliek száma Magyarországon 313 ezer fő, Ausztriában 212 ezer fő volt. A fentiek alapján két területi összehasonlító viszonyszám számítható:
Vt1 =
a H 313 = = 1,4764 = 147,6% a A 212
Tehát Magyarországon a munkanélküliek száma 47,6%-kal magasabb, mint Ausztriában.
Vt 2 =
a A 212 = = 0,6773 = 67,7% a H 313
Vagyis az osztrák munkanélküliek száma 32,3%-kal marad el a magyar munkanélküliek számától. Nyilvánvaló, hogy a két viszonyszám ugyanazt az információt hordozza, valamint az is, hogy ebből a munkanélküliség tényleges mértékére nem következhetünk, ehhez újabb viszonyításokra lenne szükség. A számítások alapjául szolgáló területi sorok is (az idősorokhoz hasonlóan) általában kettőnél több tagúak, ennek megfelelően területi összehasonlító viszonyszámsorokat szoktunk képezni, melyek problematikája a bázisviszonyszámsorokéhoz hasonló. A bázis kiválasztása itt is mérlegelést igényel, el kell kerülni az olyan területi egység bázisul választását, amelynek adata szélsőséges az összehasonlítandó területi egységek összességében. Példa Vizsgáljuk meg a személyi számítógéppel való ellátottságot területi összehasonlító viszonyszámokkal néhány kiemelt európai ország 1997. évi adatai alapján! (A viszonyszámok grafikus megjelenítésére oszlopdiagramot használunk.)
83 db
169,4
Görögország
45 db
91,8
Magyarország
49 db
100,0
Szlovákia
242 db
493,9
Szlovénia
189 db
385,7
Forrás: Magyar statisztikai zsebkönyv, 1999. 2.7. táblázat
Szlovénia
Csehország
Szlovákia
430,6
Magyarország
211 db
Görögország
Ausztria
600,0% 500,0% 400,0% 300,0% 200,0% 100,0% 0,0%
Csehország
Ország
Ezer lakosra jutó személyiszámítógépállomány
Ezer lakosra jutó személyi számítógép-állomány néhány kiemelt országban
Ausztria
Személyiszámítógép-ellátottság néhány európai országban, 1997.
Területi összehasonlító viszonyszámok ábrázolása oszlopdiagramon 2.6. ábra
44
2.6. LEÍRÓ SOROK VIZSGÁLATA INTENZITÁSI VISZONYSZÁMOKKAL 2.6.1. AZ INTENZITÁSI VISZONYSZÁM FOGALMA, FAJTÁI Az intenzitási viszonyszám két különböző, a legtöbbször különböző mértékegységben kifejezett adat hányadosa, amely megmutatja, hogy az egyik sokaság egy egységére a másik sokaság hány egysége jut. A definícióból következik, hogy az intenzitási viszonyszám a leíró sorok vizsgálatának nélkülözhetetlen eszköze. Az intenzitási viszonyszámoknak gyakran a reciproka is értelmezhető, vagyis: A B V= vagy V= B A Az intenzitási viszonyszámoknak több fajtája van: ― sűrűségi, ellátottsági mutatók (pl. népsűrűség, 1000 tanulóra jutó pedagógusok száma, 100 km2-re jutó települések száma stb.); ― arányszámok, amelyeket főleg a népességstatisztikában használnak, és ezrelékes formában szokás megadni (pl. születési, halálozási, válási arányszám stb.); ― átlag jellegű mutatók (pl. átlagbér stb.); ― hatékonysági mutatók (pl. termelékenység stb.). A statisztikai munkában nagyon sok intenzitási viszonyszámot használunk, ezek nagy mértékben kötődnek a társadalmi-gazdasági élet egyes konkrét területeihez. Íme néhány — a gazdasági, illetve a népességstatisztikában leggyakrabban használt — intenzitási viszonyszám, kiszámítási módjával és mértékegységével együtt: Intenzitási viszonyszám Termésátlag A munka termelékenysége Átlagbér Bérhányad Költségszínvonal Fajlagos anyagfelhasználás Önköltség (darabköltség) Születési arányszám Halálozási arányszám
Kiszámítási mód termelés termőterület termelés (eladási forgalom) létszám összes elszámolt bér létszám összes elszámolt bér termelési érték (eladási forgalom) összes termelési (forgalmi) érték termelési érték (eladási forgalom) felhasznált anyagmennyiség termelt mennyiség összes termelési költség termelt mennyiség élveszületések száma ·1000 népesség átlagos száma halálozások száma ·1000 népesség átlagos száma
Mértékegység t/ha (tonna/hektár) Ft/fő vagy db/fő Ft/fő % (százalék) % (százalék) pl. m/darab pl. Ft/darab ‰ (ezrelék) ‰ (ezrelék)
2.8. táblázat
2.6.2. EGYENES ÉS FORDÍTOTT INTENZITÁSI VISZONYSZÁM Mint láttuk, az intenzitási viszonyszám esetében a viszonyszám számlálója és nevezője általában felcserélhető, vagyis két adatból így két viszonyszám is képezhető. Ezek közül az egyiket egyenes, a másikat fordított intenzitási viszonyszámnak nevezzük. 45
Azt a mutatót, amely a vizsgált jelenséggel azonos irányba mozog, EGYENES amelynek mozgása pedig ezzel ellentétes, FORDÍTOTT MUTATÓNAK nevezzük.
MUTATÓNAK,
Példa A fentiek illusztrálása céljából vizsgáljuk a munka hatékonyságát! A munka hatékonyságát kifejező intenzitási viszonyszámok a munka termelékenysége, illetve ennek reciproka, a munkaigényesség. termelés (eladási forgalom) (pl. M Ft/fő vagy tonna/fő) A munka termelékenysége = létszám létszám (pl . fő/M Ft vagy fő/tonna) termelés (eladási forgalom) A fentiek alapján nyilvánvaló, hogy ez esetben a termelékenység az egyenes mutató, hiszen, ha nő a munka hatékonysága, a termelékenység is nő, valamint az is, hogy a munkaigényesség fordított mutató, hiszen ennek csökkenése a munka hatékonyságának növekedését jelzi. Értelemszerűen a két mutató szorzata 1, így egyik ismeretében a másik kiszámítható. Az elemzéskor nagyon figyelni kell arra, hogy egyenes vagy fordított mutatóval állunk szemben, mert például a munka hatékonyságának vizsgálatakor a termelékenység növekedését pozitívan, a munkaigényesség növekedését pedig negatívan értelmezzük. Munkaigényesség =
2.6.3. NYERS ÉS TISZTÍTOTT INTENZITÁSI VISZONYSZÁM Mint láttuk, az intenzitási viszonyszám két különnemű adat hányadosa, és azt fejezi ki, hogy az egyik sokaság egy elemére a másik sokaság hány eleme jut. A statisztikai munka során gyakran előfordul, hogy az az adat, amelyet viszonyítunk, a viszonyítási alapnak nem teljes egészével áll szoros kapcsolatban, hanem annak csak egy részével. Ezt a részt a továbbiakban TISZTÍTOTT RÉSZSOKASÁGNAK nevezzük. Ilyen esetben kétféle intenzitási viszonyszámot számíthatunk: ― a nevezőbe a teljes viszonyítási alap, vagy ― a nevezőbe a viszonyítási alap meghatározott része, azaz a tisztított részsokaság adata kerül. Az első esetben nyers, a másodikban tisztított intenzitási viszonyszámot kapunk. Példa A tisztított és a nyers intenzitási viszonyszámok problematikájának megértése céljából számítsuk ki a születési arányszámot hazánkban 1999-re, ismerve a következő adatokat: A tábla adataiból kiszámíthatjuk az 1000 lakosra jutó élve születések számát: A születési arányszám kiszámításához szükséges adatok Megnevezés
Érték
Népesség (évközépi adat, ezer fő)
10 068
Nők száma (évközépi adat, ezer fő)
5 263
Szülőképes korú nők száma (évközépi adat, ezer fő)
2 541
Szülőképes korú nők aránya a népességen belül (%) Élve születések száma (fő) Forrás: Magyar statisztikai zsebkönyv, 1998, 1999 2.8. táblázat
25,2 94 639
94 639:10 068 = 9,4 De érezzük, hogy ez a szám nem tükrözi igazán a valóságot, hiszen a születések száma nem a teljes népesség nagyságától, hanem azon belül a nők számától függ. Ezért a nevezőben szereplő sokaságot (az ország népessége) „megtisztítjuk”, így most a viszonyszám nevezőjébe a nők száma kerül: 46
94 639 1000 nőre jutó élveszületések száma = élveszületések száma · 1000 = = 18,0 nők száma 5263 Ez már közelebb jár a valósághoz, de további „tisztítás” szükséges, hiszen a születések száma leginkább az úgynevezett szülőképes korú nők számától (15―49 év között) függ. Ilyenformán újabb intenzitási viszonyszámot kapunk: 94 639 = 37,2 1000 szülőképes korú nőre jutó élveszületések száma = 2541 A statisztikai gyakorlatban az első és a harmadik mutatót számítják, az 1000 lakosra jutó élve születések számát NYERS, az 1000 szülőképes nőre jutó élve születések számát pedig TISZTÍTOTT SZÜLETÉSI ARÁNYSZÁMNAK nevezzük. Általánosítsuk számításainkat! Az ismert jelölések mellett jel öljük b-vel a tisztított részsokaság adatát, így a nyers és a tisztított intenzitási viszonyszám a következőképpen írható fel: Nyers intenzitási viszonyszám:
Vi nyers =
A B
A b A nyers és a tisztított intenzitási viszonyszám közötti matematikai összefüggés a következő: Tisztított intenzitási viszonyszám:
Vi tisztított =
A A b = · B b B Vagyis: nyers Vi = tisztított Vi · tisztított részsokasága aránya a teljes sokaságon belül Ellenőrizzük az összefüggést számítással: 9,4 = 37,2·0,252 Az alapesetből kiindulva, ha például a részsokaság abszolút számban nem áll rendelkezésre, csupán ennek aránya a teljes sokaságon belül, a nyers viszonyszámból megkaphatjuk a tisztítottat, ha a nyers viszonyszámot elosztjuk a részsokaság százalékos arányával: A A b = : b B B vagyis: tisztított Vi = nyers Vi : tisztított részsokaság aránya Hasonlóképpen, a tisztított részsokaság aránya kiszámítható a nyers és a tisztított viszonyszámokból: b A A = : B B b vagyis: tisztított részsokaság részaránya = nyers Vi : tisztított Vi 47
A népességstatisztikán kívül más területeken is használnak tisztított intenzitási viszonyszámokat. Ezek jellemző alkalmazási területe például a munka hatékonyságának vizsgálata. A termelő cégeknél különbséget tesznek az egy dolgozóra, illetve az egy fizikai dolgozóra jutó termelési érték között, a kereskedelemben pedig számítanak egy dolgozóra, illetve egy eladóra jutó forgalmat. 2.7. A VISZONYSZÁMOK TOVÁBBI VISZONYÍTÁSÁNAK LEHETŐSÉGEI A statisztikai elemzés során gyakran felmerül annak szükségessége, hogy a már kiszámított viszonyszámokból további viszonyszámokat képezzünk. Már láttuk, hogy adott esetben két bázisviszonyszámból láncviszonyszám, megoszlási viszonyszámból koordinációs viszonyszám számítható és fordítva. Hasonló lehetőségek mutatkoznak az intenzitási viszonyszámok esetében is (lásd: tisztított és nyers viszonyszámok összefüggése). Ezen túlmenően más lehetőségek is vannak, például ismeretes, hogy: A munka termelékenysége =
termelés (eladási forgalom) létszám
(Ft/fő)
és Átlagbér =
összes elszámolt bér létszám
(Ft/fő)
Belátható, hogy a két mutató megfelelő viszonyításával egy újabb intenzitási viszonyszámot nyerünk, a bérhányadot: összes elszámolt bér Bérhányad = termelés (eladási forgalom) vagy: Bérhányad =
átlagbér termelékenység
Ehhez hasonló összefüggést mutatunk be számszerűen az alábbiakban közlekedésstatisztikai példán keresztül. Példa A vasúti személyszállítással kapcsolatos adatok Magyarországon 1998-ban: 91 T = az ország területe (1000 km2) N = népesség (1000 fő) 10 114 V = vasútvonalak hossza (km) 7 873 U = vasúton szállított utasok száma (1000 fő) 156 973 K = utaskilométer (millió km) 8 884 A leíró sorokból kiszámítható intenzitási viszonyszámok: V/T = 1000 km2-re jutó vasútvonal 86,5 km/1000 km2 U/N = egy lakosra jutó utazás 15,5 utazás/fő K/N = egy lakosra jutó utaskilométer 878,4 km/fő K/U = egy utazásra jutó utaskilométer 56,6 km/utazás A következő összefüggés ismerhető fel: U K K · = N U N 48
Az így kapott összefüggésből kiszámítható, például az egy lakosra jutó utazás az egy lakosra jutó utaskilométer és az egy utazásra jutó utaskilométer hányadosaként is. Ellenőrizzük ezt számítással! U K K 878,4 = : = = 15,5 utazás/fő N N U 56,6 A leggyakoribb eset azonban az, amikor a (főleg intenzitási) viszonyszámokból dinamikus viszonyszámokat számítunk. Jegyezzük meg a következő egyszerű szabályt! Ha: V=
V (A) A , akkor Vd (V) = d B Vd (B)
Vizsgáljuk meg ezt az összefüggést! Tehát: Vd (V) =
Vd (A) A1 B1 A1 B 0 A1 A 0 V1 = = = = : · : Vd (B) A 0 B 0 A 0 B1 B1 B 0 V0
Ebből következik, hogy egy viszonyszám dinamikáját kétféleképpen határozhatjuk meg: ― a két viszonyszám hányadosaként: V1/V0; ― a számláló és a nevező dinamikus viszonyszámának hányadosaként: Vd(A)/Vd(B). Lássunk erre egy számpéldát! Vizsgáljuk meg Magyarország lakásállományának és laksűrűségének változását az alábbi tábla adatai alapján 1990-ről 2000-re! Magyarország lakásállománya és laksűrűsége Megnevezés Népesség (ezer fő) — A Lakások száma (ezer) — B 100 lakásra jutó népesség (fő) — V
1990
2000
Vd (%)
10 375
10 044
96,8
3853
4 061
105,4
269
247
91,8
Forrás: Magyar statisztikai zsebkönyv, 1999 2.9. táblázat
Látható, hogy a népesség 3,2%-os csökkenésével párhuzamosan a vizsgált időszakban 5,4%-kal növekedett a lakások száma, e két tényező együttes hatásaként a laksűrűség 8,2%-kal csökkent. Ezt kétféleképpen is kiszámíthatjuk: 1) A két viszonyszám hányadosaként: V1 247 = = 91,8% V0 269 2) A számláló és a nevező dinamikus viszonyszámának hányadosaként: Vd (A) 96,8 = = 91,8% Vd (B) 105,4
49
2.8. ELLENŐRZŐ KÉRDÉSEK 1. Milyen műveletekkel végezhető el két statisztikai adat összehasonlítása? 2. Mit nevezünk viszonyszámnak? 3. Milyen formákban adható meg egy viszonyszám? 4. Csoportosítsa a viszonyszámokat! 5. Definiálja és hasonlítsa össze a megoszlási és a koordinációs viszonyszámot! 6. Milyen összefüggés van a megoszlási és a koordinációs viszonyszám között? 7. Milyen grafikus ábrát használ a megoszlási viszonyszámok ábrázolására? 8. Mit nevezünk dinamikus viszonyszámnak és mi az alkalmazási területe? 9. Nevezze meg a dinamikus viszonyszám fajtáit és ismertesse számításuk módját! 10. Milyen összefüggés áll fenn a bázis- és a láncviszonyszámok között? 11. Adott bázisviszonyszámsorból hogyan térünk át új bázisra? 12. Milyen grafikus ábrák használhatók a dinamikusviszonyszám-sorok megjelenítésére? 13. Jellemezze az intenzitási viszonyszámokat! 14. Soroljon fel legalább öt, a gazdasági statisztikában használt intenzitási viszonyszámot, ismertesse ezek számítási képletét! 15. Definiálja az egyenes és a fordított intenzitási viszonyszámot, mutassa be ezek összefüggését! 16. Határozza meg a nyers és a tisztított intenzitási viszonyszámot, mondjon példákat! 17. Milyen összefüggés van a nyers és a tisztított intenzitási viszonyszám között? 18. Mutassa be az intenzitási viszonyszám dinamikájának két számítási módját! 19. Mit nevezünk területi összehasonlító viszonyszámnak? 20. Milyen grafikus ábrát használna egy területi összehasonlító viszonyszámsor megjelenítésére?
50
3. AZ INFORMÁCIÓSŰRÍTÉS MÓDSZEREI MENNYISÉGI SOROK ESETÉN 3.1. A MENNYISÉGI SOROK ELEMZÉSE A statisztika eszköztára a mennyiségi ismérvek elemzésére sokkal bővebb, mint a minőségi ismérvek körére. A mennyiségi sorokban az ismérvváltozatok (ismérvértékek) is számszerűek. A felvétel eredményeként egymástól többé-kevésbé eltérő nagyságú számszerű értékek tömegét kapjuk. A mennyiségi ismérv értékeinek különbözőségét szóródásnak nevezzük. A matematikai elemzés szélesebb lehetőségeket biztosít a számokkal leírt jelenségek vizsgálatára. Az első fejezetben tárgyaltakra építve a mennyiségi sorok statisztikai feldolgozására újabb módszereket mutatunk be. A statisztikai feldolgozás menetének első lépése az osztályozás. 3.1.1. A MENNYISÉGI ISMÉRVEK TÍPUSAI Megkülönböztethetünk diszkrét és folytonos mennyiségi ismérveket: 1. A DISZKRÉT MENNYISÉGI ISMÉRVEK elkülönített, konkrét számokból állnak: ― ha kevés ismérvváltozatról van szó, lehetőség van mindet felsorolni (pl. vizsgaeredmények: 1, 2, 3, 4, 5); ― a ritkábban előforduló értékek egy csoportba összevonhatók (pl. lakások szobaszám szerinti csoportosítása: 1, 2, 3, 4 és több). 2. A FOLYTONOS MENNYISÉGI ISMÉRVEK értékei a mérés pontosságától, mértékegységétől függően bizonyos korlátok között bármilyen értéket felvehetnek (pl. hazánkban a lakások alapterülete vagy a telkek mérete). 3.1.2. OSZTÁLYKÖZÖK Folytonos mennyiségi ismérv szerinti osztályozás esetén osztályközökre való bontást alkalmazunk. Ugyanez az eljárás, ha diszkrét mennyiségi ismérvekről van szó, de nagyon sok az ismérvértékek száma (pl. társas vállalkozások létszámnagyság szerinti vizsgálata). A módszer alkalmazása során technikai egyest alkalmazunk, melyet a további számításaink során figyelmen kívül hagyunk. Kis értékű diszkrét ismérvértékek esetében az osztályhatárok egybeesése nem engedhető meg. Például társas vállalkozások alkalmazotti létszámnagyság (fő) szerint besorolhatók az következő osztályközökbe: 1―10 11―50 51―100 Nagy értékekkel rendelkező diszkrét ismérveknél és folytonos ismérvek esetén ettől a technikai egyestől el lehet tekinteni. Például városok lakosságszám szerinti besorolása (fő): ―100 000 100 000―200 000 200 000―400 000 400 000― Valamennyi mennyiségi ismérv értékeinek osztályközökre bontásakor a legfontosabb feladat az OSZTÁLYKÖZÖK SZÁMÁNAK, HOSSZÚSÁGÁNAK MEGHATÁROZÁSA. 51
Az INTERVALLUMOK SZÁMÁNAK meghatározására az egyik lehetséges mód a következő képlet alkalmazása: k 2 >n
ahol: k = az osztályközök száma; n = az elemek száma. Azt a LEGKISEBB K ÉRTÉKET kell megkeresni, amelynél éppen teljesül a fenti összefüggés. Az osztályközök számának ismeretében közelítőleg kiszámítható az OSZTÁLYKÖZÖK HOSSZÚSÁGA is. Ennek meghatározására a következő képlet alkalmazható: h=
x max − x min k
ahol: h = az osztályköz hosszúsága; k = az osztályközök száma; xmax = a legnagyobb ismérvérték; xmin = a legkisebb ismérvérték. Egyszerűsíti a számításokat, ha egyformahosszúságú osztályközöket képzünk és a határoló értékek kerek számok. Az osztályköz hosszának megválasztásakor fontos szempont, hogy a sokaság megoszlásában mutatkozó szabályszerűség érvényesüljön. Általában 15–20 értékköznél többet nem célszerű képezni. Mind a túl nagy, mind a túl kicsi osztályközválasztás elmossa a lényeget. Gyakran láthatunk példát nem egyenlő hosszúságú osztályközökre. Ilyen esetben, ha egyenlő osztályközöket választanánk, bizonyos közbülső osztályközöknél nem lenne vagy csak elenyésző nagyságú a hozzá tartozó gyakoriság. Az osztályközök megállapítása előtt célszerű RANGSORBA RENDEZNI az ismérvértékeket. Emlékeztetve az első fejezetben tanultakra: a rangsor a mennyiségi ismérv összes előforduló értékeinek növekvő (csökkenő) sorrendben történő felsorolása. A rangsorból kiindulva az egyes osztályközök határai közé eső értékeket megszámlálva GYAKORISÁGI SORHOZ jutunk. (Az osztályközök hosszától függően egy rangsorból többféle gyakorisági sor is képezhető.) 3.1.3. GYAKORISÁGI ÉS ÉRTÉKÖSSZEGSOROK A mennyiségi ismérv szerinti vizsgálat eredményeit kétféleképpen is feldolgozhatjuk: ― osztályozhatjuk, ekkor GYAKORISÁGI SOROKAT (fi) képezünk; ― a mennyiségi ismérv értékeit összegezhetjük a sokaság egészére és a sokaság csoportjaira egyaránt. Ekkor ÉRTÉKÖSSZEGSORHOZ (si) jutunk. Az értékösszegsor a vizsgált mennyiségi ismérv értékeinek az egyes osztályközökön belüli összegeit tartalmazza. Számítása: fi · x i = si ahol: xi = az ismérvérték; fi = az ismérvértékhez tartozó gyakoriság; si = az ismérvértékhez tartozó összeg. Az értékösszegsor nem bír mindig statisztikai tartalommal. (Pl. Magyarország lakossága korcsoport szerinti bontásban). 52
Az OSZTÁLYKÖZÉP az osztályköz alsó és felső határának egyszerű számtani átlaga. (A technikai egyestől a számításnál eltekintünk.) Ha osztályközös gyakorisági sor áll rendelkezésünkre, akkor a pontos értékösszegsor nem állítható elő. Megfelelő becslést kapunk, ha az egyes osztályközöket az osztályközépsőkkel helyettesítjük. Példa Pályakezdő diplomások havi kereset szerinti megoszlása egy nagyvállalatnál Kereset (E Ft) 80–100 101–200 201–300 301–400 Összesen
Létszám (fi) Osztályközép (xi) Értékösszeg (si) (fő) (E Ft) (E Ft) 5 13 2 1
90 150 250 350
450 1950 500 350
21
—
3250
Nyitott osztályköz esetén — ha egyéb szempontok nem jönnek szóba — a hiányzó alsó vagy felső határ helyett becsült értéket veszünk figyelembe. (Általában feltételezzük hogy a nyitott osztályköz hossza egyenlő a szomszédos osztályköz hosszával.)
3.1. táblázat
Példa A mennyiségi sorok kumulálhatók. A FELFELÉ KUMULÁLT GYAKORISÁGI SOR (fi’) kifejezi, hogy Kereset Létszám (fi) Osztályközép (xi) Értékösszeg (si) az adott és annál kisebb értékek (fő) (E Ft) (E Ft) (E Ft) együttesen legfeljebb milyen gya–100 5 50 250 korisággal fordulnak elő. Képzé101–200 13 150 1950 se: az eredeti gyakoriságokat rendre 201–300 2 250 500 halmozva a kisebb ismérvértékektől 301– 1 350 350 kezdve összeadjuk. Összesen 21 — 3050 Képezhető LEFELÉ KUMULÁLT GYAKORISÁGI SOR (fi”) is, mely 3.2. táblázat megmutatja, hogy az adott érték és az annál nagyobb értékek együttesen legalább hányszor fordulnak elő. Pályakezdő diplomások havi kereset szerinti megoszlása egy nagyvállalatnál
Példa 1920-ban született nők életkora a nyugdíjba vonulás idején egy városban Életkor a nyugdíjba vonulás idején
Nyugdíjasok száma (fő) (fi)
Felfelé kumulált gyakorisági sor (fi’)
Lefelé kumulált gyakorisági sor (fi”)
—45 46—55 56—65 66—75 76—
13 846 351 42 6
13 859 1210 1252 1258
1258 1245 399 48 6
Összesen
1258
—
—
3.3. táblázat
53
Az adatokat értelmezve láthatjuk például, hogy: ― a városban az 1920-ban született nők közül 351-en 56-65 éves koruk között mentek nyugdíjba; ― a városban az adott korosztályban 1 210 fő 66 éves kora előtt ment nyugdíjba; ― a városban az 1920-ban született nők közül 399-en 55 éves korukon túl is aktív keresők voltak. Ugyanígy képezhető és értelmezhető a KUMULÁLT ÉRTÉKÖSSZEGSOR (si’) is. Gyakran az arányok érzékeltetésére az abszolút gyakoriságok, értékösszegek helyett alkalmasabb A RELATÍV GYAKORISÁGOK (gi), vagy RELATÍV ÉRTÉKÖSSZEGEK (zi) képzése. A relatív gyakoriságok számítása: gi =
fi
∑f
i
A relatív értékösszegek számítása: zi =
si ∑ si
A statisztikai elemzést elősegíti, és egy később tárgyalt módszer alapadata lesz a KUMULÁLT RELATÍV GYAKORISÁGI SOR (gi’) és A KUMULÁLT RELATÍV ÉRTÉKÖSSZEGSOR (zi’). Példa 1) Készítsen: ― kumulált gyakorisági sort; ― relatív gyakorisági sort; ― kumulált relatív gyakorisági sort; ― értékösszegsort; ― kumulált értékösszegsort; ― relatív értékösszegsort; ― kumulált relatív értékösszegsort! 2) Szövegesen értelmezze minden oszlop második sorának adatát!
A közúti balesetek alakulása egy városban a sérültek száma szerint 2000-ben Közúti balesetben sérültek száma (fő)
Balesetek száma
1 2 3 4 és több
1370 2080 510 40
Összesen
4000 3.4. táblázat
Megoldás
Közúti balesetben sérültek száma (fő)
Balesetek száma
Kumulált gyakorisági sor
Relatív gyakorisági sor (%)
Kumulált relatív gyakorisági sor (%)
Értékösszegsor (fő)
Kumulált értékösszegsor (fő)
Relatív értékösszegsor (%)
Kumulált relatív értékösszegsor (%)
A közúti balesetek alakulása egy városban a sérültek száma szerint 2000-ben
(xi)
(fi)
(fi’)
(gi)
(gi’)
(si)
(si’)
(zi)
(zi’)
1
1370
1370
34,2
34,2
1370
1370
19,0
19,0
2
2080
3450
52,0
86,2
4160
5530
57,6
76,6
3
510
3960
12,8
99,0
1530
7060
21,2
97,8
4 és több
40
4000
1,0
100,0
160
7220
2,2
100,0
Összesen
4 000
—
100,0
—
7 220
—
100,0
—
3.5. táblázat
54
A kapott eredményeket az alábbiak szerint értelmezhetjük: ― 2080 olyan baleset történt a városban, melyben két személy sérült meg; ― 3450 olyan baleset történt a városban, amely egy vagy két személyi sérüléssel járt; ― a balesetek 52,0%-ában két személy sérült meg; ― a balesetek 86,2%-a olyan, amelyben egy vagy két személy sérült meg; ― a két személyi sérüléssel járó balesetekben összesen 4 160 fő sérült meg; ― 5530-an sérültek meg olyan balesetben, ahol egy vagy két sérült volt; ― a sérültek 57,6%-a olyan balesetben sérült meg, ahol ketten sérültek meg; ― a sérültek 76,6%-a olyan balesetben sérült meg, ahol maximum ketten sérültek. 3.2. KVANTILIS ÉRTÉKEK Az információk — az eddig ismertetett módszereken túl — tovább tömöríthetők. Megkereshető pl. az az érték, amelynél az összes előforduló értékek fele, egyharmada, egynegyede stb. kisebb. Vagyis a rangsorba rendezett sokaságot 1, 2, 3, …, k egyenlő részre oszthatjuk, és megállapíthatjuk az osztópontoknak megfelelő ismérvértékeket. KVANTILIS ÉRTÉKEKNEK azokat az értékeket nevezzük, amelyeknél az összes előforduló 1 2 k−1 j j érték ; ; ...; röviden -ad része kisebb, illetve 1− -ad része nagyobb. k k k k k Ez tulajdonképpen azt jelenti, hogy egyenlő számú (arányú) gyakoriságokat tartalmazó részekre bontjuk a sokaságot. A kvantilis értékeknek néhány esetben konkrét elnevezése van, amelyeket a 3.6. táblázat foglal össze. Nevezetes kvantilis értékek
A j-edik kvantilis érték sorszámának megállapítása a következő képlet alapján történhet: j(n + 1) k ahol: k = a csoportok száma; j = hányadik osztópontot keresem (j=1, 2, …, k–1); n = a megfigyelt sokaság elemszáma.
k
Elnevezés
Jele
2
Medián
Me
3
Tercilis
Tj
4
Kvartilis
Qj
5
Kvintilis
Kj
Decilis
Dj
Percentilis
Pj
10 100
3.6. táblázat
A medián esetén a sorszám megállapításának képlete: 1(n + 1) n + 1 = 2 2 Például a harmadik kvartilis sorszáma a rangsorban 11 elem esetén: 3(11 + 1) = 9. tag 4 Ez azt fejezi ki, hogy a 9. tag értékénél az elemek 75%-a kisebb, 25%-a pedig nagyobb. 55
Példa Határozza meg, és értelmezze a medián, az alsó kvartilis, és a felső kvartilis értékét! A medián kiszámítása Me sorszáma: n + 1 55 + 1 = = 28. elem 2 2 Me = 3 (közepes) A sokaság 28. tagja 3-as (közepes). Tehát a sokaság fele hármast vagy ennél rosszabb, a másik fele ennél jobb eredményt ért el.
A harmadik évfolyam eredménye matematika tantárgyból, egy középiskolában Érdemjegyek
Gyakoriság (fő)
1 2 3 4 5 Összesen
2 12 14 14 13 55
Kumulált gyakoriság (fő) 2 14 28 42 55 ―
3.7. táblázat
Az alsó kvartilis kiszámítása Az alsó kvartilis értelemszerűen az első osztópont ismérvértéke: n + 1 56 = = 14. elem 4 4 Q1 = 2 (elégséges) Tehát az évfolyam tanulóinak 25%-a kettes vagy rosszabb, 75%-a hármast vagy jobb eredményt ért el. Q1 sorszáma =
A felső kvartilis kiszámítása A felső kvartilis a harmadik osztópont ismérvértéke: Q 3 sorszáma =
3(55 + 1) = 42. elem 4
Q3=4 (jó) A sokaság 42. eleme jó. Tehát az évfolyam tanulóinak háromnegyede ennél rosszabbat, vagy ezt az eredményt, egynegyede jeles eredményt ért el. A medián sorszáma páros tagszámú rangsor esetén törtszám 0,5-re végződik. Ilyenkor a meghatározást INTERPOLÁLÁSSAL végezzük. A két középső tag egyszerű számtani átlagát tekintjük mediánnak. A többi kvantilis esetében is ezt a módszert alkalmazzuk, ha a sorszám nem egész szám. Példa Egy 12 fős tanulócsoport magasság szerinti rangsora (cm): 154, 156, 157, 161, 163, 165, 167, 169, 170, 172, 175, 180. 12 + 1 M e sorszáma = = 6,5 2 6. elem = 165 cm 7. elem = 167 cm Ezek egyszerű számtani átlaga = 166 cm Me = 166 cm 12 + 1 Q1 sorszáma = = 3,25 4 3. elem = 157 cm 4. elem = 161 cm 56
A két érték különbsége 4 cm, ennek arányos része: 4 cm·0,25 = 1 cm. A 3. elem értékéhez hozzáadva az arányos részt: Q1 = 157 + 1 = 158,0 cm 3 ⋅ (12 + 1) Q 3 sorszáma = = 9,75 4 9. elem = 170 cm 10. elem = 172 cm Különbségük 2 cm. ennek arányos része 2 cm·0,75 = 1,5 cm. A 9. elemhez hozzáadva az arányos részt: Q3 = 170 + 1,5 = 171,5 cm. A kvantilisek között könnyen megállapítható az alábbi összefüggés: Me=Q2=D5=P50 3.3. GRAFIKUS ÁBRÁZOLÁS A gyakorisági sorok vizsgálatát a kapott eredmények grafikus megjelenítése teszi teljessé. Emlékeztetőül, a grafikus ábrázolás céljai lehetnek: ― szemléltetés; ― népszerűsítés; ― elemzés elősegítése; ― összefüggések feltárása. A továbbiakban a gyakorisági sorok grafikus ábrázolására leggyakrabban használt két eszközét mutatjuk be, a hisztogramot és a gyakorisági poligont. 3.3.1. HISZTOGRAM A gyakorisági sor adatait általában olyan oszlopdiagram segítségével ábrázoljuk, amelynek oszlopai hézag nélkül egymás mellé illeszkednek. A grafikus ábráknak ezt a típusát HISZTOGRAMNAK nevezzük. A hisztogram arányokat érzékeltet. Az egyes oszlopok területeinek aránya mutatja a gyakoriságok arányát. A grafikus ábra elkészíthető gyakorisági sorból (fi, fi’, fi”) és relatív gyakorisági sorból (gi, gi’) egyaránt. Példa 1920-ban született nők életkora a nyugdíjba vonulás idején egy városban Életkor a nyugdíjba vonulás idején
Nyugdíjasok száma (fő) (fi)
Felfelé kumulált gyakorisági sor (fi’)
Lefelé kumulált gyakorisági sor (fi”)
—45 46—55 56—65 66—75 76—
13 846 351 42 6
13 859 1210 1252 1258
1258 1245 399 48 6
Összesen
1258
—
—
3.8. táblázat
57
A 3.1.3. Gyakorisági sorok alfejezetben már tárgyalt és elemzett feladat grafikus ábrái a következő képet mutatják: fő 900 800 700 600 500 400 300 200 100 0 ―45
46―55
56―65
66―75
76―
életkor
3.1. ábra
Felfelé kumulált gyakorisági sor hisztogramja
fő 1400 1200 1000 800 600 400 200 0 ―45
46―55
56―65
66―75
76―
életkor
3.2. ábra
Lefelé kumulált gyakorisági sor hisztogramja
fő 1400 1200 1000 800 600 400 200 0 ―45
46―55
76―
életkor
3.3. ábra
58
A relatív gyakorisági sorokból készített hisztogramok ugyanilyen képet mutatnak. Diszkrét értékeknél és egyenlő hosszúságú osztályközökkel rendelkező gyakorisági sor esetén az egyes oszlopok magasságát a gyakorisággal arányosan állapítjuk meg. Nem egyenlő hosszúságú osztályközös gyakorisági sor esetén is törekednünk kell arra, hogy az EGYES OSZLOPOK TERÜLETEI A GYAKORISÁGOK ARÁNYÁT SZEMLÉLTESSÉK. Ezért az eltérő hosszúságú osztályközök gyakoriságait át kell számítanunk az azonos hosszúságú osztályközöknek megfelelően. Az átszámítás képlete: h f i* = e f i ht ahol: fi* = az új korrigált gyakoriság; he = az új osztályköz hossza; ht = a régi (tényleges) osztályköz hossza; fi = a régi (tényleges) osztályközhöz tartozó gyakoriság. Példa Az alma egységára Budapest piacain 2001. június 12-én Egységár (Ft/kg) —60 61—70 71—80 81—90 91—100 101—120 121—150 151—200 201—300
Piaci árusok száma
Összesen
A korrigált gyakoriságok kiszámításának menete az utolsó négy intervallum esetében: he legyen 10!
Gyakoriság Korrigált (fi) gyakoriság (fi*) 13 24 40 45 61 63 40 60 100 446 3.9. táblázat
f i* =
13 24 40 45 61 32 13 12 10
he fi ht
10 ⋅ 63 ~ 32 20 10 f 7* = ⋅ 40 ~ 13 30
f 6* =
10 ⋅ 60 = 12 50 10 f 9* = ⋅ 100 = 10 100
f 8* =
―
Az alma piaci árának eloszlása (hisztogram nem egyenlő osztályközökkel)
10 55 75 95 110 135
175
250 3.4. ábra
Egységár Ft/kg
59
3.3.2. GYAKORISÁGI POLIGON A GYAKORISÁGI POLIGON olyan vonaldiagram, amelynek használata főként folytonos ismérv esetén indokolt. Egyenlő hosszúságú osztályközökre készíthető. Készítésének menete a következő: az osztályközök közepénél felmérjük a gyakoriságot, és az így kapott pontokat összekötjük. A két szélső gyakoriságot az x tengellyel kötjük össze, a szélső osztályIsmérvértékek közt megelőző, illetve az utolsót követő (képzeletbeli) osztályköz közepénél. Hisztogram és poligon egybevetése A kumulált gyakorisági sorok görbéjét 3.5. ábra OGIVÁNAK nevezzük.
Gyakoriságok
Gyakorisági poligon
3.4. A KONCENTRÁCIÓ ELEMZÉSE Valamely sokaság egy mennyiségi ismérv szerinti elemzése során vizsgálható az értéköszszeg koncentrációja. Azt a jelenséget, hogy — az ismérvértékek különbözősége következtében — a kisebb ismérvértékű egységekhez az értékösszeg kisebb hányada tartozik (zi), mint amilyen ezen egységeknek a sokaság egészében elfoglalt részaránya (gi) (vagyis gi>zi), a nagyobb ismérvértékű egységeknél pedig fordított a helyzet (zi>gi) KONCENTRÁCIÓNAK nevezzük. Az elemzéshez a gyakorisági sorból (fi) relatív gyakorisági sort (gi), az értékösszegsorból (si) relatív értékösszegsort (zi) kell képezni. Nagyfokú a koncentráció, ha a sokaság nagy hányada az értékösszegnek csak igen kicsi hányadát mondhatja magáénak, ugyanakkor a másik póluson a sokaság egészen kis hányadához az értékösszeg igen nagy hányada tartozik. A viszonyszámok puszta szembeállításánál hatékonyabb eszköz az elemzésre a LORENZ-GÖRBE készítése. A Lorenz-görbe a zi’ értékeket a gi’ értékek függvényében ábrázolja. Felrajzolásához kumulált relatív gyakorisági sor (gi’) és kumulált relatív értékösszegsor (zi’) képzése szükséges. Minden ismérvértéknél gi’>zi’, kivétel az utolsó, ahol mindkettő 100%. A Lorenz-görbe elkészítésének menete: Lorenz-görbe z' (%) 1) Egy négyzetbe behúzzuk a nullából kiinduló 100 45o-os átlót. 80 2) Az x-tengelyre a gi’, az y-tengelyre a zi’ értékeit mérjük fel. 60 3) Az így kapott pontokat összekötve jutunk a Lorenz-görbéhez. 40 4) A görbe minél távolabb esik az átlótól, annál 20 nagyobb mértékű a koncentráció. A Lorenz-görbe főbb alkalmazási lehetőségei: g' (%) 0 ― koncentráció mértékének meghatározása, 0 20 40 60 80 100 ― különböző jelenségek koncentrációjának ösz3.6. ábra szehasonlítása, ― azonos jelenség koncentrációjának térbeni vagy időbeni összehasonlítása. 60
Példa Működő társas vállalkozások létszámnagyság szerint 1997-ben Magyarországon
1) Alkalmazza és foglalja táblázatba az információsűrítés eddig tanult módszereit! 2) Állapítsa meg a működő társas vállalkozások létszámnagyság szerinti koncentrációját!
Létszám (fő)
Vállalkozások száma (fi)
—10
246 623
11—20
9 591
21—50
7 257
51—300
4 795
300 felett
921
Összesen
269 187 3.10. táblázat
Relatív érték-összegsor (%)
Kumulált relatív értékösszegsor (%) 43,1
95,2
143 865 1 376 980
5,0
48,1
2,7
97,9
253 995 1 630 975
8,9
57,0
268 266
1,8
99,7
839 125 2 470 100
29,3
86,3
269 187
0,3
100,0
391 425 2 861 525
13,7
100,0
100,0
―
xi
fi
fi’
gi
gi’
si
—10
5
246 623
246 623
91,6
91,6
11—20
15
9 591
256 214
3,6
21—50
35
7 257
263 471
51—300
175
4 795
300―
425
921
Összesen
―
269 187
Létszám (fő)
Értékösszegsor (fő)
43,1
Kumulált relatív gyakorisági sor (%)
1 233 115 1 233 115
Relatív gyakorisági sor (%)
zi’
Kumulált gyakorisági sor
zi
Vállalkozások száma
si’
Osztályközép
Kumulált értékösszegsor (fő)
Megoldás:
―
100,0
―
2 861 525
―
3.11. táblázat
Szöveges értékelés: 1) A koncentráció igen erős: a vállalkozások 95,2%-a 20 fő alatti létszámmal működik, mégis az összes dolgozói létszámnak csupán a 48,1%-a dolgozik olyan vállalkozásban, amely maximum 20 főt foglalkoztat. 2) Ugyan a vállalkozások csupán 1,8%-a olyan, amely 50-300 fő közötti létszámot foglalkoztat, mégis a társas vállalkozásoknál dolgozók 29,3%-a ilyen létszámú vállalkozásnál dolgozik. A koncentráció vizsgálatánál gyakran használunk kvantiliseket. 61
Példa 1) Készítsen Lorenz-görbét és értékelje szövegesen! 2) Határozza meg az egyes tizedek részesedését teljes egyenlőség és teljes egyenlőtlenség (teljes koncentráció, koncentráció teljes hiánya) esetén! 3) Ábrázolja a szélsőséges esetek Lorenz-görbéit is!
A keresetek szerinti tizedekre vonatkozó adatok az egyik foglalkozási ágban Foglalkoztatottak tizedei
Összkeresetből való részesedés (%)
1
1,3
2
3,2
3
1,0
4
9,5
5
8,0
6
11,0
7
12,0
8
13,5
9
16,5
10
24,0 3.12. táblázat
Megoldás: A keresetek szerinti tizedekre vonatkozó adatok az egyik foglalkozási ágban Foglalkoztatottak tizedeiből kumulált relatív gyakorisági sor (%) (gi’)
Összkeresetből való kumulált részesedés (%) (zi’)
Kumulált részesedés teljes egyenlőség esetén (%) (zi’)
Kumulált részesedés teljes egyenlőtlenség esetén (%) (zi’)
10,0
1,3
10,0
0,0
20,0
4,5
20,0
0,0
30,0
5,5
30,0
0,0
40,0
15,0
40,0
0,0
50,0
23,0
50,0
0,0
60,0
34,0
60,0
0,0
70,0
46,0
70,0
0,0
80,0
59,5
80,0
0,0
90,0
76,0
90,0
0,0
100,0
100,0
100,0
100,0
3.13. táblázat
A Lorenz-görbe főbb alkalmazási lehetőségei: ― a koncentráció mértékének meghatározása; ― különböző jelenségek koncentrációjának összehasonlítása; ― azonos jelenség koncentrációjának térbeni vagy időbeni összehasonlítása.
62
A foglalkoztatottak kereset szerinti koncentrációja 100,0
z' (%)
80,0 60,0 40,0 20,0 g' (%)
0,0 0,0
20,0
40,0
60,0
80,0
100,0
3.7. ábra
Lorenz-görbe a koncentráció teljes hiánya esetén
Lorenz-görbe teljes koncentráció esetén
z' (%)
100,0 80,0
80,0
60,0
60,0
40,0
40,0
20,0
20,0
0,0 0,0
g' (%) 20,0
z' (%)
100,0
40,0
60,0
80,0
100,0
0,0 0,0
g' (%) 20,0
3.8. ábra
40,0
60,0
80,0
100,0
3.9. ábra
Összefoglaló feladat Rangsor egy vállalat dolgozóinak béréről (Ft): 21 000
32 500
44 500
52 000
22 000
35 000
45 000
66 000
22 500
38 500
45 000
68 500
28 000
41 000
48 000
71 000
30 000
43 000
49 000
80 000
1) Elemezze a dolgozók bérét az információsűrítés eddig tanult módszereivel! 2) Készítsen grafikus ábrát!
63
Megoldás:
Béradatok (E Ft)
Osztályközép (E Ft)
A dolgozók bérének elemzése az információsűrítés eddig tanult módszereivel
fi (fő)
20—30
25
5
5
25,0
25,0
125
125
14,2
14,2
31—40
35
3
8
15,0
40,0
105
230
11,9
26,1
41―50
45
7
15
35,0
75,0
315
545
35,8
61,9
51―60
55
1
16
5,0
80,0
55
600
6,3
68,2
61—70
65
2
18
10,0
90,0
130
730
14,8
83,0
71—80
75
2
20
10,0
100,0
150
880
17,0
100,0
Összesen
―
20
―
100,0
―
880
―
100,0
―
fi’ (fő)
gi (%)
gi’ (%)
si (eFt)
si’ (eFt)
zi (%)
zi (%)
3.14. táblázat Dolgozók béreloszlásának hisztogramja fő 8 6 4 2 0
E Ft 25
35
45
55
65
75
3.10. ábra Lorenz-görbe 100
z' (%)
80 60 40 20 0
g' (%) 0
20
40
60
80
100
3.11. ábra
64
3.4. ELLENŐRZŐ KÉRDÉSEK 1. Határozza meg a folytonos ismérv fogalmát! 2. Definiálja a diszkrét ismérv fogalmát! 3. Ismertesse az osztályköz fogalmát, képzésének szabályait! 4. Mi a rangsor fogalma? 5. Milyen típusai vannak a gyakorisági soroknak, hogyan képezzük azokat? 6. Mit tud az értékösszegsorokról? 7. Melyek az osztályközép meghatározásának szabályai? 8. Ismertesse a kvantilis értékek fogalmát! 9. Hogyan történik a kvantilis érték sorszámának megállapítása, mi a képlet tartalma? 10. Jellemezzen néhány konkrét kvantilis értéket (jele, elnevezése, értelmezése)! 11. Melyek a hisztogram jellemzői? 12. Beszéljen a korrigált gyakoriság alkalmazásának körülményeiről, meghatározásának módszeréről! 13. Melyek a gyakorisági poligon tulajdonságai, hogyan ábrázoljuk? 14. Definiálja a koncentráció fogalmát, értelmezze! Melyek az alkalmazási területei? 15. Ismertesse a Lorenz-görbe tartalmát, az ábra elkészítésének szabályait!
65
4. AZ INFORMÁCIÓSŰRÍTÉS TOVÁBBI MÓDSZEREI MENNYISÉGI ISMÉRV ESETÉN Eddig a mennyiségi ismérveket a gyakorisági sorokkal jellemeztük. Ha általában tömörítve is, de minden információt közöltünk a mennyiségi ismérv szerinti eloszlásról. Az információsűrítés során gyakran még a soroknál is tömörebb jellemzésre van szükség. Ezt a célt szolgálják a KÖZÉPÉRTÉKEK, melyek a sokaságot egyetlen közös átlagos értékkel jellemzik. Ez az információsűrítés szélsőséges esete, hiszen egyetlen számban tömörítjük össze ismereteinket. Így azonban egy sor információt elvesztünk, és csak egy általunk fontosnak tekintett szempontot emelünk ki. Ezért heterogén sokaság jellemzésére kevésbé alkalmas a középérték, mint homogén sokaság esetében. Heterogén sokaság esetében célszerű viszonylag homogén csoportokat képezni, és az elemzést csoportonként végezni. Szükség van az átlag pontosságának, jóságának vizsgálatára is. A középértékek megbízhatóságának mérésére az egyik (általunk tárgyalt) lehetőség a szóródásvizsgálat. Szóródásvizsgálatot már az előző fejezetben is végeztünk (gyakorisági sorok, hisztogramok elemzése). A középértékek esetében azonban a sokaság szóródását is egyetlen számmal jellemezzük. 4.1. A KÖZÉPÉRTÉKEKRŐL ÁLTALÁBAN Ha bizonyos jelenségekre vonatkozóan rendelkezünk azonos típusú adatokkal, és valamilyen szabály vagy képlet alkalmazásával kiválasztunk egy átlagos, közepes értéket, amely jellemzi a teljes vizsgált sokaságot, középértéket képzünk. Az azonos fajta, de értékben különböző számszerű adatok tömör, közös jellemezőjét KÖZÉPÉRTÉKNEK nevezzük. Az átlagos értékek kiválasztása elsősorban tömörségük miatt népszerű módszer. A középértékekkel szemben támasztott követelmények: ― a középérték az előforduló legkisebb és legnagyobb érték között helyezkedjen el: xmin < középérték < xmax, kivétel: a helyzeti középértékek körében a tipikus érték lehet valamilyen szélső érték is; ― a középérték jól jellemezze a sokaságot, vagyis az előforduló értékek zöméhez közel álljon; ― a középérték egyértelműen legyen definiálva, jól kezelhető matematikai képlettel meghatározható legyen; ― könnyen értelmezhető legyen; ― a kiugró szélső értékekre lehetőleg ne legyen érzékeny. A középértékek két fő csoportját különböztetjük meg: ― a számított középértékek (átlagok) és ― a helyzeti középértékek. Az ÁTLAGOKAT valamilyen képlet alapján, számítás útján határozzuk meg. Az átlag kiszámításánál minden egyes átlagolandó értéket figyelembe veszünk. Fajtái: xa ― számtani átlag ― harmonikus átlag x h xg ― mértani átlag ― négyzetes átlag x q 66
A HELYZETI KÖZÉPÉRTÉKHEZ nem képlet (számítás), hanem számlálás útján jutunk. Nagysága nem függ minden egyes átlagolandó értéktől. A gyakorisági sorban elfoglalt helye, gyakorisága alapján nevezzük középértéknek. Fajtái: ― módusz Mo ― medián Me A továbbiakban részletesen megismerkedünk e középértékekkel. 4.2. SZÁMÍTOTT KÖZÉPÉRTÉKEK (ÁTLAGOK) 4.2.1. SZÁMTANI (ARITMETIKAI) ÁTLAG A SZÁMTANI ÁTLAG az a szám, amellyel az egyes átlagolandó értékeket helyettesítve, ezek összege változatlan marad. Ez a leggyakrabban használt és legegyszerűbb átlagszámítási módszer. Jele: x a Képlettel kifejezve: x 1 + x 2 + … + x n −1 + x n = x a + x a + ... x a + x a x 1 + x 2 + … + x n −1 + x n = nx a rendezve: x 1 + x 2 + ... + x n −1 + x n = xa n n
xa =
∑x i =1
i
n
Ezt az összefüggést EGYSZERŰ SZÁMTANI ÁTLAGNAK nevezzük. Számításánál minden átlagolandó érték egyszeres súllyal szerepel. Az egyszerű számtani átlag alkalmazásának feltétele: ― az átlagolandó értékek összegének van tárgyi értelme (pl. az egyéni bérek összege az összes kifizetendő bért adja egy vállalatnál); vagy ― más átlagfajta alkalmazása nem indokolt és a számtani átlag alkalmazása a legegyszerűbb. (Pl. a tantárgyi átlag kiszámítása, ahol az egyes érdemjegyek összegének ugyan nincs tárgyi értelme, de mégis az egyes tantárgyi eredmények összegét a tantárgyak számával elosztva a számtani átlagformát alkalmazzuk.) Példa Határozza meg a vállalat dolgozóinak átlagos életkorát! Egy vállalat tizenöt dolgozójának életkorára vonatkozó adatok Sorszám
Életkor
Sorszám
Életkor
Sorszám
1. 2. 3. 4. 5.
35 27 46 38 40
6. 7. 8. 9. 10.
42 51 60 50 30
11. 12. 13. 14. 15.
4.1. táblázat
Megoldás: n
Életkor 32 33 39 30 32
xa =
∑x i =1
i
n
x a = 35 + 27 + ... + 30 + 32 = 39 év
A vállalat dolgozóinak átlagéletkora 39 év. 67
Súlyozott számtani átlag Ha gyakorisági sor formájában áll rendelkezésünkre az egyes ismérvértékekhez tartozó előfordulás, akkor az átlagot súlyozott formában számítjuk. Az egyes ismérvértékek itt nem egyszeres súllyal szerepelnek, hanem a hozzájuk tartozó gyakorisággal. Képlete: k
f x + f x +K+ fk xk xa = 1 1 2 2 = f1 + f 2 + K + f k
∑f x i =1 k
i
∑f i =1
i
i
ahol: k
∑f i =1
i
=n
Példa Egy magyar családban átlagosan hány gyerek élt 1990 január 1-jén? A magyar családok megoszlása gyerekszám szerint 1990 január 1-jén Gyermekek száma (xi)
Családok száma (ezer) (fi)
0 1 2 3 4 és több
992 954 761 148 40
Összesen
2895
Megoldás: k
xa =
∑f x i =1 k
i
∑f i =1
xa =
i
i
992 ⋅ 0 + 954 ⋅ 1 + 761 ⋅ 2 + 148 ⋅ 3 + 40 ⋅ 4 = 1,06 2895
Egy átlagos magyar családban egy gyermek él.
4.2. táblázat
Ha osztályközös gyakorisági sor áll rendelkezésünkre, akkor az átlagolandó értékek az osztályközepek lesznek. Mivel az egyedi értékeket az osztályközepekkel helyettesítjük, az így számított átlag csak közelítő értéket ad az egyedi értékekből számított átlaghoz képest. Példa Határozza meg az eladó panellakások átlagárát! Az EXPRESS újság egyik számában Megoldás: a hirdetett panellakások megoszlása Az eladott panellakások átlagárának meghatározása hirdetési ár alapján Osztályközép Értékösszeg Eladási ár Lakások száma Eladási ár Lakások száma (M Ft) (M Ft) (M Ft) (fi) (M Ft) (xi) (fixi) —3,0 3,1—5,0 5,1—7,0 7,1—9,0 9,1— Összesen 4.3. táblázat
12 8 24 10 3 57
—3,0 3,1—5,0 5,1—7,0 7,1—9,0 9,1— Összesen
2 4 6 8 10 — 4.4. táblázat
12 8 24 10 3 57
24 32 144 80 30 310
68
12 ⋅ 2 + 8 ⋅ 4 + 24 ⋅ 6 + 10 ⋅ 8 + 3 ⋅ 10 310 = = 5,4 M Ft 57 57 Tehát egy adott napon, az EXPRESS újságban hirdetett eladó panellakások átlagára 5,4 millió Ft volt. Ha az egyes ismérvértékekhez tartozó relatív gyakorisági sor (gi) az adott, akkor a relatív gyakoriságokkal súlyozva számítjuk ki az átlagot: xa =
x a = g1 ⋅ x 1 + g 2 ⋅ x 2 + ... + g k ⋅ x k k
x a = ∑ gi xi i =1
Példa Egy akkreditált képzésben részt vevő osztály Mennyi lett a szakmai vizsga átlaga az osztályban? hallgatóinak megoszlása a szakmai vizsga eredménye alapján 2000 júniusában Megoldás: Eredmények
Tanulók részaránya (%)
(xi) 1 2 3 4 5 Összesen 4.5. táblázat
k
x a = ∑ gi x i
(gi)
i =1
4,0 8,0 11,0 42,0 35,0
x a = 0,35 ⋅ 5 + 0,42 ⋅ 4 + 0,11 ⋅ 3 + 0,08 ⋅ 2 + 0,04 ⋅ 1 = 3,96 A szakmai vizsga átlaga 3,96 lett. (A relatív gyakoriságokkal együtthatós formában dolgozunk, így a relatív gyakoriságok összege 1 lesz.)
100,0
A számtani átlag tulajdonságai 1) Az átlagtól való eltérések algebrai összege nulla:
∑ (x − x ) = 0 i
a
2) Ha az egyedi értékeknek az átlagtól mért eltérését négyzetre emeljük, ezen eltérések négyzetösszege minimális lesz. Ezt a számtani átlag négyzetes minimum tulajdonságának nevezzük:
∑ (x − x )
2
i
a
→ minimum
3) Ha a súlyadatokat egy konstans (állandó) számmal osztjuk (vagy szorozzuk), ez nem befolyásolja a számtani átlag nagyságát. (Pl. ha a gyakorisági sor minden tagját (fi) a vizsgált sokaság elemszámával (Σfi) osztjuk, akkor relatív gyakorisági sort kapunk (gi). A két gyakorisági sorból számított átlag megegyezik egymással.) 4) A súlyozott számtani átlag nagysága két tényezőtől függ: ― az átlagolandó értékek abszolút nagyságától; ― a súlyok viszonylagos nagyságától (a súlyarányoktól). A számtani átlag és az intenzitási viszonyszámok kapcsolata Számtani átlag =
ismérvértékek összege elemszám 69
Ez az összefüggés sokszor intenzitási viszonyszámként is felfogható, hiszen két különböző mértékegységű adatot hasonlítunk össze. A kiinduló adatok illetve a közöttük fennálló kapcsolat alapján három esetet különböztetünk meg: 1. Egyértelműen számtani átlagról beszélünk, ha ismerjük az egyedi átlagolandó értékeket, de azok összegének nincs tárgyi értelme. (Pl. Az egyes emberek életkora, testsúlya, magassága az átlagolandó érték ― hiszen ekkor sem az életkorokat összeadva, sem a testsúlyokat összegezve, sem pedig a magasságadatokat összeadva nem jutunk értelmes adathoz). 2. Ha az egyedi átlagolandó értékekből indultunk ki, és ezeknek külön-külön és összegezve is van tárgyi értelmük, akkor számtani átlagról és intenzitási viszonyszámról egyaránt beszélhetünk. (Pl. egy áruházban az egyes osztályok napi forgalmi adatai az egyedi átlagolandó értékek, az összes osztály forgalmának összege pedig az áruház napi forgalma.) 3. Ha a számláló elvben tekinthető az egyedi értékek összegének, de az egyedi értékek megállapítására nincsen mód, akkor intenzitási viszonyszámról beszélhetünk. (Pl. népsűrűség vizsgálatánál a számlálóban a népesség áll, de még sem tudjuk minden egyes négyzetkilométerre megállapítani a népességet. Vagy például a termelékenység vizsgálatakor az összes termelési teljesítmény szerepel a számlálóban, de az nem bontható az egyes munkások egyedi termelési teljesítményeire.) 4.2.2. HARMONIKUS ÁTLAG A harmonikus átlag az a szám, amelyet az egyes átlagolandó értékek helyébe téve, azok reciprokainak összege nem változik. Jele: x h Képlettel kifejezve: n 1 1 =n⋅ ∑ xh i =1 x i egyszerűsítve: n xh = n 1 ∑ i =1 x i Ezt az összefüggést egyszerű harmonikus átlagnak nevezzük, ahol minden átlagolandó érték egyszeres súllyal szerepel. Alkalmazására akkor van mód, ha az átlagolandó értékek reciprokait összeadva, azok összegének van tárgyi értelme. Példa Egy kertet A munkás 3 óra alatt, B munkás 4 óra alatt, C munkás 6 óra alatt ás fel. Mennyi idő alatt ásná fel egy átlagos képességű munkás? Megoldás: Az átlagolandó értékek a 3; 4; 6 óra. Ezek reciprokainak van tárgyi értelme, hiszen 1 óra alatt A munkás a munka 1/3-ával, B munkás az ¼-ével, C munkás pedig az 1/6-ával készül el. Egy 1 1 1 4 + 3+ 2 + 3 óra alatt a kertásás + + = = -ével készülnek el együtt. 3 4 6 12 4 Tehát az átlagolandó értékek reciprokait összegezve statisztikailag értelmes eredményhez jutunk. 70
A harmonikus átlag képletébe behelyettesítve: xh =
n n
1
∑x i =1
i
=
3 = 4 óra 1 1 1 + + 3 4 6
Egy átlagos munkás 4 óra alatt ásná fel a kertet. A HARMONIKUS ÁTLAG SÚLYOZOTT FORMÁBAN is számítható. Ekkor az átlagolandó értékeket a hozzájuk tartozó gyakorisággal (súlyokkal) vesszük számításba. xh =
f1 + f 2 + ... + f k f1 f 2 f + + ... + k x1 x 2 xk k
xh =
∑f i =1 k
i
fi
∑x i =1
i
Példa Az előző példa egy kicsit átalakítva: egy húszfős brigádban a kertet 12 ember 3 óra alatt, 6 ember 4 óra alatt és 2 ember 6 óra alatt ásná fel. A brigád egy átlagos dolgozója mennyi idő alatt ásná fel a kertet? k
xh =
∑f i =1 k
fi
∑x i =1
xh =
i
i
12 + 6 + 2 = 3,43 óra 12 6 2 + + 3 4 6
Megoldás: Egy átlagos munkás a brigádban 3,43 óra alatt ássa fel a kertet. 4.2.3. VISZONYSZÁMOK ÁTLAGOLÁSA Ha egy sokaságot egy ismérv szerint részekre bontunk, részsokaságokat kapunk. A részsokaságokat önmagukban is jellemezni lehet átlagokkal vagy viszonyszámokkal. A részsokaságokat jellemző viszonyszámokat RÉSZVISZONYSZÁMOKNAK, az átlagokat RÉSZÁTLAGOKNAK nevezzük. A viszonyszám alapképlete: Vi =
Ai Bi
Az összetett viszonyszám (átlagos viszonyszám) kiszámítása háromféle formában történhet, attól függően, hogy Ai, Bi, Vi adatai közül melyik kettő adott. 71
1) Alapforma (aggregát forma): Adott: Ai és Bi n
V=
∑A
i
∑B
i
i =1 n
i =1
Példa Mennyi az áruház egy főre jutó átlagos forgalma?
Egy áruház napi forgalmi és létszámadatai Áruházi osztályok
Eladói létszám (fő) (Bi) 10 8 7
Forgalom (E Ft) (Ai) 23 000 16 000 21 000
Női Férfi Gyermek
ΣAi=60 000
Összesen
ΣBi=25
Megoldás: V=
∑A ∑B
i i
=
60 000 = 2400 E Ft 25
Az áruház egy főre jutó átlagos forgalma 2400 E Ft/fő.
4.6. táblázat
2) Adottak a részviszonyszámok (Vi) és a viszonyszám kiszámításához szükséges tört nevezői (Bi), amelyek súlyszámként szerepelnek a viszonyszám átlagolásánál. Mivel a súlyszám és az átlagolandó érték szorzatának van tárgyi értelme (Bi·Vi = Ai), SZÁMTANI ÁTLAGFORMÁT alkalmazunk. n
∑ Bi ⋅ Vi
V = i=1 n
∑ Bi
i =1
Az eredeti számtani átlag jelöléseit használva: ahol: Vi = xi n
k
xa =
∑ fix i
=
i =1 k
∑f i =1
∑x i =1
i
n
i
Bi = fi Példa Mennyi az áruház egy főre jutó átlagos forgalma?
Egy áruház napi forgalmi és létszámadatai Áruházi Eladói osztályok létszám (fő)
Egy főre jutó forgalom (E Ft/fő)
Női Férfi Gyermek
(Bi) 10 8 7
(Vi) 2300 2000 3000
Összesen
ΣBi=25
V = ...
Megoldás:
V=
∑B ⋅ V ∑B i
i
i
=
10 ⋅ 2300 + 8 ⋅ 2000 + 7 ⋅ 3000 = 2400 E Ft/fő 25
4.7. táblázat
72
3) Adottak a részviszonyszámok (Vi) és a kiszámításukhoz szükséges tört számlálói (Ai). Ez utóbbiak a viszonyszám átlagolásánál súlyszámként szerepelnek. Mivel a súlyszám A és az átlagolandó értékek hányadosának van tárgyi értelme i = Bi , a viszonyszám Vi átlagolása harmonikus átlagformával történik. k
V=
∑A i =1 k
i
Ai
∑V i =1
i
Az eredeti számtani átlag képlet jelöléseit használva: k
xh =
∑f i =1 k
i
fi
∑x i =1
i
ahol: Vi = xi Ai = fi Példa: Mennyi az áruház egy főre jutó átlagos forgalma?
Egy áruház napi forgalmi és létszámadatai Áruházi osztályok
Forgalom (E Ft) (Ai)
Gyermek
23 000 16 000 21 000
Összesen
ΣAi=60 000
Női Férfi
Egy főre jutó forgalom (E Ft/fő) (Vi) 2300 2000 3000
Megoldás: k
V=
∑A i =1 k
i
Ai
∑V i =1
i
=
60 000 = 2400 E Ft/fő 23 000 16 000 21 000 + + 2300 2000 3000
4.8. táblázat
4.2.4 MÉRTANI (GEOMETRIAI) ÁTLAG A MÉRTANI ÁTLAG az a szám, amelyet az átlagolandó értékek helyébe téve azok szorzata változatlan marad. Jele: x g Képlettel kifejezve: x 1 ⋅ x 2 ⋅ ... ⋅ x n = x g ⋅ x g ⋅ ... ⋅ x g n
∏x
i
= x gn
i =1
Rendezve: xg =
n
n
∏x
i
i =1
Ha az átlagolandó értékek különböző számban fordulnak elő, a mértani átlag kiszámítására a súlyozott formájú képletet alkalmazzuk. k
x g = ∑ i x 1f1 ⋅ x f22 ⋅ ... ⋅ x fkk = ∑ fi ∏ x if i f
i =1
73
A mértani átlag akkor alkalmazható, ha az átlagolandó értékek szorzatának van értelme, ha az átlagolandó értékek viszonylagos nagysága bír jelentőséggel. Ezért pl. a viszonyszámok esetében van értelme a mértani átlag alkalmazásának. Tipikus felhasználási területe a dinamikus viszonyszámok átlagolása. Ezt részletesen az Idősorok elemzése átlagok segítségével című fejezet tárgyalja, ezért itt csak egy egyszerű példán mutatjuk be a mértani átlag alkalmazási lehetőségét: Példa A fogyasztói árindex alakulása Magyarországon az utóbbi néhány évben Évek
Előző év = 100% (Vl)
1989 1990 1991 1992 1993 1994 1995 1996 1997 1998
117,0 128,9 135,0 123,0 122,5 118,8 128,2 123,6 118,3 114,3 4.9. táblázat
Ha arra vagyunk kíváncsiak, hogy 1988-tól 1998-ig mennyit nőtt az árszínvonal, akkor a láncviszonyszámok szorzatát kell képeznünk: 1,17 ⋅ 1,289 ⋅ 1,35 ⋅ ... ⋅ 1,143 = 7,8085 = 780,9% Vagyis az árak 680,9%-kal nőttek 1988 és 1998 között. Ha viszont arra vagyunk kíváncsiak, hogy 1988 és 1998 között az árszínvonal évi átlagos növekedése mekkora volt, akkor mértani átlagot kell számolnunk. xg = n
n
∏x
=n
i
i =1
∏V
l
= 10 7,809 = 1,2281 = 122,8%
Évente átlagosan 22,8%-kal emelkedtek az árak Magyarországon 1988 és 1998 között.
4.2.5. NÉGYZETES (QUADRATIKUS) ÁTLAG A négyzetes átlag az a szám, amellyel az átlagolandó értékeket helyettesítve azok négyzetösszege nem változik. Jele: x q Képlettel kifejezve: x 12 + x 22 + ... + x 2n = x q2 + x q2 + ... + x q2 n
∑x i =1 n
∑x i =1
n
2 i
2 i
= n ⋅ x q2
= x q2
ebből: n
xq =
∑x i =1
2 i
n A négyzetes átlag súlyozott formában a következő képlet alapján számítható: k
xq =
∑f i =1
2
i
⋅xi
k
∑f i =1
i
74
Alkalmazása akkor célszerű, ha az adatok különbözőségét akarjuk hangsúlyozni, eltekintve az adatok előjelétől. A négyzetre emelés megszünteti az előjel jelentőségét, és felnagyítja az adatok közötti különbségeket. A négyzetes átlag alkalmazására a szóródás vizsgálatánál látunk példát. 4.2.6. ÖSSZEFÜGGÉS A SZÁMÍTOTT KÖZÉPÉRTÉKEK KÖZÖTT Az egyes átlagok matematikai tulajdonságai alapján megállapítható, hogy ugyanazokból a számokból számított átlagfajták eredménye eltérő lesz. Felállítható az átlagfajták nagyságrendi viszonya: x h ≤ x g ≤ x a ≤ x q Az egyenlőség akkor áll fenn, ha valamennyi átlagolandó érték megegyezik. Minél nagyobb az adatok különbözősége, annál jelentősebb az átlagok eredményei között az eltérés. Példa Számítsuk ki a 2; 5; 6 számokból a tanult átlagokat! Megoldás: 2+5+6 x g = 3 2 ⋅ 5 ⋅ 6 = 3,91 xa = = 4,33 3 2 2 + 52 + 6 2 3 = = 4,65 xq xh = = 3,46 1 1 1 3 + + 2 5 6 Valóban, az egyes átlagfajták alkalmazásával eltérő eredményeket kaptunk. Az összefüggésnek megfelelően alakult az átlagok nagyságrendi relációja is:
xh ≤ xg ≤ xa ≤ xq 3,46 < 3,91 < 4,33 < 4,65 A nagyságrendbeli különbségeket az átlagok elemzése során célszerű figyelembe venni. 4.3. HELYZETI KÖZÉPÉRTÉKEK 4.3.1. MÓDUSZ A MÓDUSZ ― diszkrét ismérvekkel rendelkező mennyiségi sor esetén ― a sokaság leggyakoribb, tipikus értéke, amely körül a sokaság elemei tömörülnek. A módusz latin szó, jelentése divatos, sűrűn előforduló. Jele: Mo Ha a sokaság csak kevés ismérvértéket vesz fel, akkor a módusz a gyakorisági sorból ránézésre megállapítható. Ekkor ténylegesen a leggyakrabban előforduló érték a módusz. Példa Ránézésre leolvasható, hogy a legnagyobb gyakoriság 2710 fő, azaz a Mo = 3. A legtöbb óvodás 3 éves korban lép óvodába. Ha sok ismérvérték áll rendelkezésünkre, a módusz meghatározása bonyolultabb. (Pl. egy hónapban a Budapesten eladott háromszobás lakások eladási ár szerinti vizsgálata, ahol feltehetőleg szinte minden lakás más-más áron kelt el.) Ilyen esetben osztályközös gyakorisági sort kell képezni. Ez alapján tudjuk megbecsülni a módusz értékét. Ekkor
Egy városban az óvodások életkora óvodába lépésükkor egy adott évben Életkor
Óvodások száma (fő)
3
2710
4
1434
5x
856
Összesen
5000
4.10. táblázat
75
nyers móduszt kapunk. A leggyakoribb osztályköz közepét tekintjük módusznak. (Létezik módszer a módusz intervallumon belüli pontosabb becslésére is, de ezzel tananyagunkban nem foglalkozunk.) Fontos, hogy a becslést egyenlő hosszúságú osztályközökre alkalmazzuk! Eltérő hoszszúságú osztályközök esetén ― a hisztogram készítésénél tárgyalt módon ― korrigált gyakoriságokkal kell dolgoznunk. Példa Látszólag a 18 vonat a legnagyobb gyakoriság, de figyelembe kell venni, hogy nem azonos hosszúságú osztályközök állnak a rendelVonatok száma Korrigált (fi) gyakoriság (fi *) kezésünkre. Alkalmaznunk kell a korrigált gyakoriságokat. Így azonos hosszúságú osz12 12 tályközökre átszámítva a gyakoriságokat azt 13 13 tapasztaljuk, hogy az adott napon a késő vo4 4 natoknál a legtipikusabb késéi idő (13 eset18 9 ben) a 11–20 perces intervallum, tehát annak 12 12 osztályközepét megállapítva Mo = 15 perc. 59 ― Egy gyakorisági sornak egyszerre több 4.11. táblázat módusza is lehet.
Egy cudar téli napon egy város pályaudvarára érkező vonatok késési idejük szerint Késési idő (perc) 0–10 11–20 21–30 31–50 51–60 Összesen
Példa Határozzuk meg a móduszt! Megoldás: Ennek a mennyiségi sornak két módusza van. Ugyanannyi 42-es mint 43-as cipőt adtak el az adott napon: Méret Eladott pár Mo1 = 42 38 4 Mo2 = 43 39 6 A kereskedelemben fontos szerepe van a módusz 40 10 megállapításának, hiszen a különböző méretekből az 41 9 áruházak nem rendelnek egyforma mennyiséget. Vannak 42 26 tipikus méretek, amelyekből sokkal több fogy, mint az 43 26 extra méretekből. (Pl. a férfinadrág legtipikusabb mérete: 44 5 48–50, női cipőből a leggyakoribb a 37–38-as méret, a férfi45 4 ak többsége 42–43-as cipőt hord stb. Magyarországon. Egy Összesen 90 termék napi piaci árának megállapításánál is a tipikus árra 4.12. táblázat vagyunk kíváncsiak, tehát móduszt számítunk.) Természetesen számtani átlagot is lehetne számítani ezekre az adatokra, de ez a szélső, kiugró értékeket is figyelembe venné, így nem adna választ a leggyakrabban használt méret kérdésére. A módusz fontos jellemzője, hogy nagyságát a szélső értékek nem befolyásolják. Egy férfi cipőboltban eladott cipők méretük alapján egy adott napon
4.3.2. MEDIÁN A mediánt mint a kvantilisek egyik fajtáját már ismerjük. A MEDIÁN a szó legszorosabb értelmében közepes érték, hiszen a mennyiségi ismérvnek az a középen elhelyezkedő értéke, amelyiknél ugyanannyi kisebb, mint amennyi nagyobb érték fordul elő. Jele: Me
76
A 3. fejezetben a medián sorszámának meghatározását már tárgyaltuk páratlan és páros tagszám esetén egyaránt. Ha osztályközös gyakorisági sor áll rendelkezésünkre, a medián (és így az összes kvantilis) értékének meghatározása (becslése) az alábbi módszer alapján történik. Példa Egy csoport tagjainak magasság szerinti eloszlása Határozzuk meg a mediánt! Megoldás: Kumulált gyakoriság Testmagasság (cm) Létszám (fő) (fő) A medián a rangsor 60. eleme (osztályközös gyakorisági sor ese150―160 40 40 tén az n-hez az 1-et nem szükséges 161―170 50 90 hozzáadni). A 60. elem ― amint az 171―180 30 120 a kumulált gyakorisági sorból leolÖsszesen 120 ― vasható ― a 161―170-es inter4.13. táblázat vallumban található. Ebbe az osztályközbe 50 fő tartozik. Ezt az 50 főt rangsorba állítva közülük a 60–40 = 20. elem lenne a teljes rangsor 60. eleme. Feltételezve, hogy az intervallumon belül az értékek elhelyezkedése egyenletes, az osz20 tályköz hosszának 2/5-öd részét, 10 ⋅ = 4 azaz cm-t az alsó határhoz hozzáadva, a 50 mediánra megfelelő becslést kapunk: 20 ⋅ 10 = 164 cm 50 A becslés annál pontosabb, minél kisebb osztályközöket használunk. Me = 160 +
ÖSSZEFOGLALVA AZ EDDIGIEKET: egy adott sokaságból sokszor átlagot, móduszt és mediánt egyaránt lehet számolni. Mindhárom mérőszám értelmes információt tartalmaz. De mindhárom középérték másként jellemzi az ismérv közepes értékeit, általában eltérő eredményt ad. Hogy mikor melyiket érdemes használni, az attól függ, hogy milyen kérdésre keressük a választ. Ha az egy gyakoriságra jutó ismérvérték meghatározása a cél, akkor az átlagformát alkalmazzuk. Ha a leggyakrabban előforduló értéket keressük, a módusz meghatározása a célszerű, míg a medián használatára akkor van szükség, ha a közepes értékhez képest a többi érték helyét is jellemezni akarjuk. 4.4. A SZÓRÓDÁS JELLEMZÉSE A középértékek vizsgálata során a sokaság közös jellemzőjét kerestük. A lényeget kiemelve, a sokaságot egyetlen számmal próbáltuk jellemezni. A következőkben azokat a tényezőket vizsgáljuk, amelyek az átlagtól való eltérést alakítják ki. Ez a szóródás vizsgálatával történik. A szóródásvizsgálat fontosságát mutatjuk be a következő egyszerű példán: Egy 200 000 Ft-os megbízás díjazásának elosztására kétféle esetet vizsgáltunk: I. eset: A vállalkozó részesedése 10 000 Ft, B vállalkozó részesedése 190 000 Ft x a = 100 000 Ft II. eset: A vállalkozó részesedése 99 900 Ft B vállalkozó részesedése 100 100 Ft x a = 100 000 Ft 77
Az átlag mindkét esetben megegyezik, mégis egyértelmű, hogy csak a második esetben jellemzi jól a sokaságot. SZÓRÓDÁSON a mennyiségi ismérvek értékeinek különbözőségét értjük. A szóródás egyrészt kifejezésre jut abban, hogy az egyes értékek egymástól különböznek, másrészt abban, hogy valamely középértéktől (általában számtani átlagtól) eltérnek. A szóródás mutatószámai is e kétféle értelmezés valamelyikén alapulnak. Minden mutató közös tulajdonsága, hogy a szóródás hiányát (ekkor minden ismérvérték egyenlő) 0-val, meglétét egy 0-tól eltérő számmal jelzi. A legfontosabb szóródási mutatószámok a következők: ― terjedelem; ― interkvartilis terjedelem; ― átlagos eltérés; ― szórás; ― relatív szórás. Későbbi tanulmányaink során találkozunk egyéb szóródási mutatókkal, így pl. az átlagos különbség mutatójával (Gini), illetve a koncentrációs együtthatóval. 4.4.1. A SZÓRÓDÁS TERJEDELME A terjedelem az előforduló legnagyobb és legkisebb érték különbsége. Értéke megadja azt az intervallumot, melyben az adatok szóródnak. Jele: R (az angol Range szóból) Képlete: R = xmax ― xmin Példa Egy kisvállalat 6 dolgozójának havi fizetései a következők (Ft): 28 000; 46 000; 58 000; 61 000; 143 000; 270 000 Számoljuk ki a terjedelmet! Megoldás: R = xmax ― xmin R = 270 000–28 000 = 242 000 Ft A havi fizetések a kisvállalatnál 242 000 Ft-os intervallumban szóródnak. Terjedelem csak az EGYEDI ADATOKBÓL SZÁMÍTHATÓ, osztályközös gyakorisági sor esetén a legkisebb és legnagyobb értéket nem ismerjük. Előnye, hogy kiszámítása és értelmezése egyszerű, hátránya, hogy csupán a két szélső értéket veszi figyelembe. Elképzelhető, hogy ezek az értékek a sokaság egészére nem jellemző, kiugró értékek. 4.4.2. INTERKVARTILIS TERJEDELEM Az interkvartilis terjedelem a felső és az alsó kvartilis különbsége. Megmutatja azt az intervallumot, amelyben az összes érték középső 50%-a szóródik. Jele: TQ Képlete: TQ = Q3–Q1 Példa Egy kisvállalat 6 dolgozójának havi fizetése a következő (Ft): 28 000; 46 000; 58 000; 61 000; 143 000; 270 000 Számítsuk ki az interkvartilis terjedelmet! Megoldás: Q1 sorszáma:
6 +1 = 1,75 4
78
Az első és második tag különbsége: 46 000–28 000 = 18 000 Ft, ennek arányos része: 18 000 · 0,75 = 13 500 Ft Q1 = 28 000 + 13 500 = 41 500 Ft 3(6 + 1) Q3 sorszáma: = 5,25 4 Az ötödik és hatodik elem különbsége: 270 000–143 000 = 127 000 Ft, ennek arányos része: 127 000 · 0,25 = 31 750 Ft. Q3 = 143 000 + 31 750 = 174 750 Ft TQ = Q3–Q1 = 174 750–41 500 = 133 250 Ft A sokaság középső 50%-a 133 250 Ft nagyságú intervallumban helyezkedik el. 4.4.3. ÁTLAGOS ELTÉRÉS Az átlagos eltérés az egyes értékek és azok számtani átlaga közötti eltérések abszolút értékeinek számtani átlaga. Jele: δ (görög delta) Az egyes értékek átlagtól való eltérései a szóródást fejezik ki. Ha ebből számítunk számtani átlagot, az a szóródás mértékeként is használható. Problémát jelent a számtani át-
(x i − x ) = 0 tulajdonsága. Ha azonban figyelmen kívül hagyjuk az eltérések irányát, valag gyis az eltérések abszolút értékét vesszük figyelembe, az így kapott eredmény már a szóródás mértékét fejezi ki. A számtani átlagtól való eltérés jelölése:
∑
di = xi − x Az átlagos eltérés képlete: Példa Egy kisvállalat 6 dolgozójának havi fizetése a következő (Ft): δ=
x 1 − x + x 2 − x + ... + x n − x n n
δ=
∑ x −x i
i =1
n n
δ=
∑d i =1
i
n 28 000; 46 000; 58 000; 61 000; 143 000; 270 000 Számoljuk ki az átlagos eltérést!
Megoldás: Az egyes keresetek az átlagkeresettől átlagosan 70 300 Ft-tal térnek el.
x = 101 000 Ft δ=
28 − 101 + 46 − 101 + 58 − 101 + 61 − 101 + 143 − 101 + 270 − 101 6
= 70,3 E Ft 79
Ha gyakorisági sor áll a rendelkezésünkre, akkor az átlagos eltérés kiszámításánál az egyes eltéréseket a hozzájuk tartozó gyakoriságokkal súlyozzuk. Képlete: k
fi di f1 x 1 − x + f 2 x 2 − x + ... + f k x k − x f1 d1 + f 2 d 2 + .. + f k d k ∑ = i 1 δ = = k = f1 + f 2 + ... + f k f1 + f 2 + .. + f k ∑fi i =1
Példa A 4.2.1. Számtani átlag c. alfejezetben már találkoztunk a következő feladattal: Számítsuk ki az átlagos eltérést!
Az EXPRESS újság egyik számában a hirdetett panellakások megoszlása hirdetési ár alapján Eladási ár Lakások száma (mFt) —3,0 3,1—5,0 5,1—7,0 7,1—9,0 9,1— Összesen
Megoldás: Az átlagos eltérés kiszámításának menetét az alábbi táblázat mutatja. (Az egyszerűség kedvéért itt szerepeltetünk a tábla utolsó két oszlopában olyan adatokat, amelyek a szóródás további mutatószámaihoz szükségesek.)
12 8 24 10 3 57
4.14. táblázat
Az átlagos eltérés kiszámítása Osztályközép (xi)
Hirdetett lakások száma (fi)
―3,0
2
12
―3,4
40,8
11,56
138,7
3,1―5,0
4
8
―1,4
11,2
1,96
15,7
5,1―7,0
6
24
0,6
14,4
0,36
8,6
7,1―9,0
8
10
2,6
26,0
6,76
67,6
10
3
4,6
13,8
21,16
63,5
Eladási ár (M Ft)
9,1―
di = x i − x
f i di
k
Összesen
―
57
∑f d
―
i
i
= 106,2
i =1
f id 2i
d i2
k
―
∑f d
2 i i
= 294,1
i =1
4.15. táblázat
x = 5,4 MFt k
δ=
∑f i =1
i
di
k
∑f i =1
=
106,2 = 1,86 57
i
Az egyes hirdetett panellakások árai az átlagártól átlagosan 1,86 M Ft-tal térnek el. 80
4.5.4. SZÓRÁS A szórás az átlagtól való eltérések négyzetes átlaga. Jele: σ (görög betű, szigma) Ez a szóródás leggyakrabban használt mutatószáma. A szórás is arra ad választ, hogy az ismérvértékek mennyire térnek el az átlagtól. Ebben az esetben is a szóródás átlagos mutatószámát határozzuk meg, de az eltérések abszolút értéke helyett az eltérések négyzetével dolgozunk. Képlete: σ=
(x 1 − x )2 + (x 2 − x )2 + ... + (x n − x )2 n n
σ=
∑ (x − x )
2
i
i =1
n
Itt tulajdonké ppen a középértékek egyik fajtáját, az x q - t számítjuk . A négyzetes átlag alkal-
mazása mellett szól a számtani átlag négyzetes minimum tulajdonsága, mely szerint az egyedi értékeknek a számtani átlagtól mért eltéréseinek négyzetösszege a legkisebb. Más szóval elmondható, hogy „négyzetes értelemben” a számtani átlag az a középérték, amely az egyes átlagolandó értékekhez legközelebb áll. Példa Egy kisvállalat 6 dolgozójának havi fizetése a következő (Ft): 28 000; 46 000; 58 000; 61 000; 143 000; 270 000 Számoljuk ki a szórást! Megoldás: x = 101 000 Ft n
σ= σ=
∑ (x − x )
2
i
i =1
n
(28 − 101)2 + (46 − 101)2 + (58 − 101)2 + (61 − 101)2 + (143 − 101)2 + (270 − 101)2
= 83,79 E Ft 6 Az egyes keresetek az átlagkeresettől átlagosan 83 790 Ft-tal térnek el. A szórás mutatójának alkalmazására elsősorban a valószínűség-számításon alapuló módszerek esetén van szükség. Bizonyos matematikai-statisztikai összefüggések csak a szórás felhasználásával mutathatók ki. Ha az elemzés nem lép túl a szóródás vizsgálatán, akkor a könnyebben kiszámítható átlagos eltérés is megfelelő eredményt adhat. Gyakorisági sor esetén a szórásképlet súlyozott formáját használjuk:
f1 (x 1 − x ) + f 2 (x 2 − x ) + ... + f k (x k − x ) f1 + f 2 + ... + f k 2
σ=
k
σ=
2
∑ f (x − x ) i =1
k
2
i
i
k
∑f i =1
i
2
=
∑f d i =1 k
i
∑f i =1
2 i
i
81
Példa Az EXPRESS újságban hirdetett panellakásokra vonatkozó feladatra visszatérve: k
σ=
∑f d i =1 k
i
∑f i =1
2 i
=
294,1 = 2,27 M Ft 57
i
Az átlagártól az egyes hirdetett panellakások árai átlagosan 2,27 M Ft-tal térnek el. (A mutató kiszámításának részeredményeit a 4.15. összefoglaló táblázat utolsó két oszlopa tartalmazza.) Bizonyos számítások céljára a szórás négyzetét használjuk. Ennek elnevezése: VARIANCIA. Jele: σ2 A variancia alkalmazását a 4.5.6.-os alfejezetben mutatjuk be. 4.4.5. RELATÍV SZÓRÁS (SZÓRÓDÁSI EGYÜTTHATÓ) Az eddig ismertetett mutatószámok az ismérvértékekkel egyező mértékegységben fejezték ki a szóródást. Mindegyik mutató az adott sokaságra vonatkozóan mutatta ki a szóródás mértékét. Sokszor azonban szükség van arra, hogy a szóródás relatív nagyságát is elemezzük. Az elemzés során általában a szórást viszonyítjuk az átlaghoz. Ennek eszköze a relatív szórás. Jele: V Képlete: V =
σ (%) x
A relatív szórás alkalmazásával az
ELTÉRŐ NAGYSÁGRENDEKBŐL ÉS A KÜLÖNBÖZŐ
MÉRTÉKEGYSÉGEKBŐL ADÓDÓ PROBLÉMÁK MEGSZÜNTETHETŐK.
A különböző sokaságok
szóródása így összehasonlíthatóvá válik. A relatív szórás segítségével megállapítható, hogy a vizsgált sokaság mennyire homogén. Ha a relatív szórás: 10% alatt van, állandó, homogén sokaságról beszélünk; 10―20% közötti, közepes heterogenitás jellemzi a sokaságot; 20―30% közötti, a heterogenitás erős; 30% feletti, szélsőséges ingadozás jellemzi a sokaságot. Példa Egy kisvállalat 6 dolgozójának havi fizetése a következő (Ft): 28 000; 46 000; 58 000; 61 000; 143 000; 270 000 Számítsuk ki a relatív szórást! Megoldás: x = 101 000 Ft σ = 83 793 Ft 83 793 V= = 0,829 6 = 83,0% 101 000 A szórás az átlag 83,0%-a. 82
Példa Az EXPRESS újságban hirdetett panellakásokról szóló feladat adatait tekintve, számítsuk ki a relatív szórást! Megoldás: x = 5,4 M Ft σ = 2,27 M Ft V=
2,27 = 42,0% 5,4
A szórás az átlag 42%-a. Mindkét eredmény a sokaság erős heterogenitását mutatja. 4.4.6. A SZÓRÁSNÉGYZET ÖSSZETEVŐKRE BONTÁSA A középérték csak viszonylag homogén sokaság esetén jellemzi jól a sokaságot. Heterogén sokaság esetén a sokaság elemeit ― a heterogenitást okozó tényező alapján ― csoportosítani kell. A csoportosítás során a fősokaságból részsokaságokat képezünk és a főátlag mellett részátlagokat számítunk, majd ezeket elemezzük. Az elemzés során a szóródást háromféleképpen értelmezhetjük: ― TELJES ELTÉRÉS. Eddig is alkalmazott mutatószám. Az egyedi értékeknek a főátlagtól való eltérését mutatja. Jele: σ T2 ― KÜLSŐ ELTÉRÉS. A részsokaságokat jellemző részátlagok főátlagtól való eltérését fejezik ki. A csoportosításnak a vizsgált ismérvre gyakorolt hatását mutatja be. Jele: σ 2K ― BELSŐ ELTÉRÉS. Kifejezi a egyedi értékek eltérését a saját részátlaguktól. A csoportosító ismérven kívüli egyéb tényezők hatása jelenik meg értékében. Jele: σ 2B Az eltérések között fennálló matematikai összefüggés A VARIANCIA ALAPTÉTELE: σ T2 = σ 2K + σ 2B A variancia alaptételével a sztochasztikus kapcsolatok szorosságának mérőszámai között találkozunk. Az alkalmazását egy egyszerű példán mutatjuk be. Példa Egy kisvállalat dolgozóinak adatai 2000. január 1-jén Név Kereset (Ft) A. Rozália B. Ágnes F. Anna G. Lajos S. Béla Sz. Elemér T. Elek V. Gáspár
40 000 41 000 75 000 85 000 140 000 153 000 210 000 320 000
A dolgozók kereseteit nézve heterogén sokaságról van szó. Célszerű nem szerinti részsokaságokra bontani a fősokaságot, és külön vizsgálni a részsokaságokra vonatkozó részátlagokat és a szóródás mutatóit: fősokaságokra: x = 133 000 Ft/fő nőkre vonatkozó:
x = 52 000 Ft/fő
férfiakra vonatkozó: x = 181 600 Ft/fő
4.16. táblázat
83
σ T2 =
(40 000 − 133 000)2 + (41 000 − 133 000)2 + ... + (320 000 − 133 000)2
= 8016 8 2 2 3(52 000 − 133 000) + 5(181 600 − 133 000) σ 2K = = 3 936,6 8 3 ⋅ 264,7 + 5 ⋅ 6368 σ 2B = = 4 079,4 8 A belső szórásnégyzet az egyes csoportok belső szórásnégyzetének súlyozott számtani 2 2 2 ( 85 000 − 181 600) + (140 000 − 181 600 ) + ... + (320 000 − 181 600 ) =
= 6368 5 (40 000 − 52 000)2 + (41 000 − 52 000)2 + (75 000 − 52 000)2 = 264,7 σ 2Bnő = 3 átlaga. Ezért a teljes sokaságra vonatkozó belső szórásnégyzet meghatározásához különkülön férfiakra és nőkre vonatkozóan kiszámítottuk a belső szórásnégyzeteket. A VARIANCIA ALAPTÉTELE szerint: σ
2 Bffi
σ T2 = σ 2K + σ 2B 8016 = 3 936,6 + 4 079,4 A kapott eredmények rövid értelmezése: σ T2 Megmutatja az egyes dolgozók fizetésének eltérését a fősokaságra vonatkozó átlagtól. Ez magában foglalja az összes tényező hatását. 2 σ K A nemek szerinti csoportosításból eredő hatást fejezi ki. A részsokaságokon belüli eltéréseket mutatja be. A nemek szerinti csoportosításon kíσ 2B vüli egyéb tényezők (pl. életkor, végzettség stb.) hatása jelenik meg.
84
4.6. ELLENŐRZŐ KÉRDÉSEK 1. Mit értünk középérték alatt? 2. Melyek a középértékekkel szemben támasztott követelmények? 3. Sorolja fel a középértékek típusait, fő jellemzőjüket! 4. Definiálja a számtani átlagot, ismertesse típusait! 5. Melyek a számtani átlag tulajdonságai? 6. A számtani átlag és az intenzitási viszonyszám között milyen kapcsolat áll fenn? 7. Mi a harmonikus átlag definíciója, melyek a fajtái? 8. Melyek a viszonyszámok átlagolásának módozatai? 9. Határozza meg a mértani átlag fogalmát! 10. Definiálja a négyzetes átlagot! 11. Milyen összefüggés állítható fel a számított középértékek között? 12. Mit nevezünk módusznak? 13. Melyek a módusz főbb alkalmazási területei? 14. Mit értünk szóródáson? 15. Sorolja fel a szóródás mutatószámait! 16. Mit nevezünk terjedelemnek, számításának milyen előnyeit és hátrányait ismeri? 17. Mi az interkvartilis terjedelem, hogyan határozzuk meg az értékét? 18. Mit nevezünk átlagos eltérésnek? 19. Határozza meg a szórás fogalmát, alkalmazásának jelentőségét, kiszámítási módjait! 20. Mi a relatív szórás jelentősége, mennyiben különbözik a szóródás más mutatóitól? 21. Ismertesse a variancia alaptételét!
85
5. ÖSSZETETT SOKASÁG ÖSSZEHASONLÍTÁSA STANDARDIZÁLÁSSAL, INDEXSZÁMÍTÁSSAL
Ez a fejezet összetett jelenségek összehasonlítására alkalmazható eljárásokat mutat be. Az összehasonlítás legelemibb eszközeiként eddigi tanulmányaink során a viszonyszámokat ismertük meg, amelyeket általában természetes mértékegységű egyedi adatokból számoltunk ki. A tanult viszonyszámok közül az 5. fejezet szempontjából különös jelentőséggel bírnak a dinamikus és a területi összehasonlító viszonyszámok, elsősorban módszertani szempontból. Olyan viszonyszámokat is megismertünk, amelyek két különnemű adat öszszevetésével egy adott jelenség színvonalát kifejező ún. intenzitási viszonyszámként jöttek létre. E viszonyszámok egy részénél jól kivehető az átlagjelleg. Ebben a fejezetben a viszonyszámokon túlmenően nagymértékben fogunk támaszkodni azokra az ismeretekre is, amelyeket az átlagokkal kapcsolatban a korábbiakban tanultunk. Mint látni fogjuk, az átlag, illetve az átlagolás alapadatként és módszerként is szerepelni fog. Mennyivel megyünk túl a korábbi módszertani ismereteken? Két vonatkozásban: ― egyrészt abban, hogy a vizsgálat tárgyát ez esetben összetett, heterogén, azaz különnemű adatokból álló jelenség fogja képezni, úgy is fogalmazhatunk, hogy a VIZSGÁLAT TÁRGYÁT RÉSZSOKASÁGOKBÓL ÁLLÓ FŐSOKASÁG KÉPEZI; ― másrészt tovább megyünk abban a tekintetben, hogy az összehasonlítások során nem állunk meg a tényhelyzet rögzítésénél, hanem a feltárt eltérések okait is tisztázzuk. A fejezet két módszert (indexkört) tartalmaz, a két indexkörnek azonos az elméleti és logikai alapja. Az eltérés közöttük a vizsgálat konkrét tárgyában és ebből adódóan az adattípusban van. Az 5. fejezeten belül az első alfejezet a módszertani alapokat tisztázza, a második és harmadik alfejezet pedig a két vizsgálati területtel kapcsolatos alkalmazásokat ismerteti. 5.1. STANDARDIZÁLÁS, KÜLÖNBSÉGKÉPZÉS ÉS INDEXSZÁMÍTÁS A különböző minőségű részekből álló heterogén sokaság alakulását több tényező határozza meg. Természetesen adódik a kérdés, hogy a jelenség kimenetelére milyen hatást gyakorolnak egyedileg, elkülönítetten az egyes tényezők. Ugyanezt a megválaszolandó kérdést tehetjük fel akkor is, ha a szóban forgó sokaságot összevetjük egy másik sokasággal azzal a céllal, hogy megállapítsuk a közöttük lévő eltérést. Két heterogén sokaság valamely összetett jellemzője közötti eltérést kétféle szempontból lehet vizsgálni. SZÁMSZERŰSÍTHETJÜK KOMPLEXEN, együttesen az összes tényezők hatását kifejező (valóságos) eltérést és EGYEDILEG, az egyes összetevők okozta ELTÉRÉSEKET. Ekkor az összehasonlítás során arra kell törekednünk, hogy az adatok csak olyan tényező tekintetében különbözzenek egymástól, amelyik szerepét ki akarjuk mutatni. Ezt teszi lehetővé a standardizálás módszere. A STANDARDIZÁLÁS olyan eljárás, amellyel az összetett jelenségek eltérését tényezőkre bonthatjuk. Ennek során az összetett jelenséget az egyik tényező vonatkozásában különbözővé, a másik (vagy a többi) tényező szempontjából azonossá (standarddá) tesszük. Eredményként az eltérésben annak a tényezőnek az egyedi hatását kapjuk meg, amely szempontjából a jelenségeket különbözővé tettük. Az összehasonlítás során két megoldással lehet élni. Végezhetjük abszolút megközelítéssel, azaz különbségek képzésével és relatív módon, vagyis hányadosokkal az egybeve86
tést. A mértékegységgel rendelkező különbségek számszerűsítik azt, hogy az egyik jelenség mennyivel több vagy kevesebb a másiknál az összes tényező együttes, illetve elkülönítetten az egyes tényezők hatásaként. A hányadosok képzésével jutunk el az indexekhez. Az INDEXSZÁM közvetlenül nem összesíthető, de bizonyos szempontból együvé tartozó adatokból számolt összetett összehasonlító viszonyszám, amelyet általában százalékosan értelmezünk. A különbségképzést és az indexszámítást időbeni és területi összehasonlító vizsgálatoknál alkalmazzák a társadalmi-gazdasági élet számos területén. Szakmai szempontból az alkalmazási területek két részre különíthetők el. Vizsgálhatjuk a: ― társadalmi-gazdasági jelenségek színvonalának (pl. termelékenység, önköltség, kereseti színvonal stb.) eltéréseit; ― gazdasági jelenségek (termelés, forgalom, fogyasztás stb.) érték-, ár-, és mennyiségi viszonylatainak eltéréseit. A két alkalmazási területnek más-más adattípus felel meg és a módszertani elnevezés is kétféle. Az első esetben a vizsgálati terület adatbázisát intenzitási viszonyszámok képezik, a módszert a statisztika az Összetett intenzitási viszonyszámok (főátlagok) összehasonlítása címen szerepelteti. A második elemzési területnél Ft-ban (nemzeti valutában) kifejezett gazdasági értékek (abszolút számok) szerepelnek, mögöttük árak és mennyiségek húzódnak meg, a leggyakoribb módszertani elnevezés itt az Érték-, ár- és volumenindexszámítás. Az egyes módszereket a következőkben ebben a sorrendben ismertetjük. 5.2. ÖSSZETETT INTENZITÁSI VISZONYSZÁMOK (FŐÁTLAGOK) ÖSSZEHASONLÍTÁSA 5.2.1. ÖSSZETETT INTENZITÁSI VISZONYSZÁMOK (FŐÁTLAGOK) KÉPZÉSE, TULAJDONSÁGAI
Ismert, hogy az intenzitási viszonyszámok között jelentős azok köre, amelyek átlagjelleggel rendelkeznek. Az elnevezések is utalnak erre, beszélhetünk pl. kereseti színvonalról és átlagkeresetről, illetve termelési színvonalról és átlagtermelésről is. Ez a magyarázata annak, hogy e témában mind a viszonyszám, mind az átlag megnevezés és jelölés egyaránt használatos. Heterogén sokaság vizsgálatáról lévén szó, részsokaságok esetében a részintenzitási viszonyszámok (részátlagok), a fősokaságra vonatkozóan pedig az összetett intenzitási viszonyszám (főátlag) elnevezést fogjuk használni. Mint tudjuk, a részsokaságokra való elkülönítés, azaz a csoportosítás egy külső tényező, általában a heterogenitást kiváltó ok szerint történik. Jelölésére jegyzetünkben a viszonyszámszimbólumokat alkalmazzuk. A címben foglaltakról vannak előtanulmányaink. Az intenzitási viszonyszám két egymással összefüggő, különböző fajta adat hányadosa, az ismert formula szerint: V = A/B. Milyen további ismereteink vannak még? Tudjuk, hogy egy összetett viszonyszám kiszámítására három megoldás ismert: ― az aggregátforma; ― a súlyozott számtani átlag; ― a súlyozott harmonikus átlag. A három módszerhez tartozó formulákat és számítási példákat a 4.2.3. fejezet mutatta be, ahol a mintapéldák intenzitási viszonyszámokra vonatkoztak. Azt, hogy a formulák közül melyiket alkalmazzuk a célszerűség, illetve az dönti el, hogy milyen súlyadatokkal rendelkezünk. Ha súlyként a viszonyszám számlálója ismert, akkor a harmonikus, ha a nevezője, akkor a számtani átlagot alkalmazzuk. A standardizálás, illetve az indexszámítás 87
során a gyakorlat általában előnyben részesíti a súlyozott számtani átlaggal történő számítást, ezért a későbbiekben a standardizálást ezen formák alapján fogjuk levezetni. Mi határozza meg a főátlag (az összetett intenzitási viszonyszám) nagyságát! Az átlagszámításra vonatkozó ismeretanyagból tudjuk, hogy a súlyozott átlag értékében két tényező hatása számszerűsödik: AZ ÁTLAGOLANDÓ ADATOK NAGYSÁGA és A SÚLYARÁNYOK, VAGYIS A SOKASÁG ÖSSZETÉTELE. Összetett sokaság esetén az átlagolandó értékeket a részátlagok (részviszonyszámok) jelentik, a súlyokat a részviszonyszámok számlálója vagy nevezője. Itt jegyezzük meg, hogy a tapasztalati súlyszámok helyett relatív gyakoriságokat, vagyis megoszlási viszonyszámokat is lehet alkalmazni. Tehát rögzíthetjük, hogy a főátlag (összetett viszonyszám) nagyságát két tényező alakítja: ― a részátlagok (részviszonyszámok) nagysága; ― a teljes sokaság összetétele, azaz a részsokaságok arányai. Eljutottunk azokhoz az összetevőkhöz, amelyek két összehasonlított főátlag eltérését okozzák. Mint ahogy az 5.1. fejezetben szó volt róla, az eltérést együttesen és komponensenként is meg tudjuk mérni. Hogy ezt miként tesszük, kiderül a következő fejezetekből. 5.2.2. ÖSSZETETT INTENZITÁSI VISZONYSZÁMOK (FŐÁTLAGOK) KÜLÖNBSÉGEINEK ELEMZÉSE
Az elemzés lényege, hogy az összetett viszonyszámok különbségét felbontjuk két részre: az egyik részt a két fő sokaság azonos jellegű csoportjaihoz tartozó részviszonyszámok közötti eltérések magyarázzák, a másik részt pedig a két fő sokaság eltérő összetétele. E különbségeket együttes, részhatás- és összetételhatás-különbségnek fogjuk nevezni. Együttes különbség K = V1 − V0 K=
∑B V − ∑B V ∑B ∑B 1
1
0
1
0
1
Az 1-es futóindex időbeli összehasonlításoknál tárgyidőszaki, a 0 futóindex bázisidőszaki vonatkozású. Területi elemzésnél 1-sel általában a nagyobb számértékű összetett viszonyszámmal bíró sokaság adatait jelöljük. Különbségfelbontás K = K’ + K” K a teljes különbség, a K’ a részhatáskülönbség, a K” pedig az összetételhatás különbség. A K’ és a K” különbségeket a standardizálás módszerével állapítjuk meg. A részszínvonal eltérések okozta különbség (K’) megállapításánál olyan összetett viszonyszámok különbségét kell képezni, amelyek mindkét sokaságra azonosnak vett, azaz standard súlyokkal kerültek megállapításra. A formula: Részhatáskülönbség K' =
∑B V − ∑B V ∑B ∑B S
1
S
S
0
S
ahol: BS = standard súlyadatsor Azzal, hogy az arányokat azonosnak vettük, kiiktattuk az arányeltérések hatását, a különbségben ezután csak a részviszonyszámok, a részszínvonalak eltérése játszik szerepet. 88
Az összetételben megnyilvánuló eltérés hatását K”-vel úgy tudjuk számszerűsíteni, hogy azonos, standard részviszonyszámok alapján számolt összetett viszonyszámokkal dolgozunk. A következők azt támasztják alá, hogy a K” kizárólag a B képviselte súlyarányok eltéréseinek hatását méri. Összetételhatás-különbség K" =
∑B V − ∑B V ∑B ∑B 1
S
0
1
S
0
ahol: Vs = standard részviszonyszámsor Felvetődik a kérdés, mit válasszunk standardizált adatsornak? A különbség-felbontási formula csak abban az esetben érvényesül, ha a standard súlyadatok megválasztásánál a következőképpen járunk el: 1) Az egyik megoldás, hogy „keresztbe” súlyozunk, azaz az egyik komponenskülönbségnél az egyik (az 1-gyel jelölt), a másik komponensnél a másik (a 0-val jelölt) sokaság megfelelő adatát tekintjük standardnak: a) K’ esetében Bs = B1 jelölése: K’1 ekkor K” esetében Vs = V0 jelölése: K”0; b) K’ esetében Bs = B0 jelölése: K’0 ekkor K” esetében Vs = V1 jelölése: K”1; 2) A másik eljárás, ha standard adatsorként átlagokat alkalmazunk: BS =
B1 + B 2 2
VS =
V1 + V2 2
és
Az elemzéseknél általában a keresztbe súlyozás, azon belül az 1.a) szerinti megoldás a gyakoribb, ekkor a konkrét formulák: K'1 =
∑B V ∑B 1
1
−
1
K'0 =
0
1
1
0
= V1 − VS
és
1
∑B V ∑B 1
∑B V ∑B
−
∑B V ∑B 0
0
= VS − V0
0
A K’ és K” különbségek formuláiban szereplő nem valós, vagyis fiktív összetett viszonyszámok konkrétan egyik sokaságra sem vonatkoztathatók. Ezeket a szakirodalom standardizált összetett viszonyszámnak (főátlagnak ) nevezi. Visszatérve a K = K’ + K” összefüggéshez, HA AZONOS ELŐJELŰEK A KÜLÖNBSÉGEK, az összefüggés alapján további számítások végezhetők. Kézenfekvő eljárás, hogy MEGNÉZZÜK a rész/egész viszonyokat, vagyis azt, hogy a teljes különbség kialakulásában a részek milyen arányban vettek részt, MILYEN MÉRTÉKBEN DETERMINÁLTÁK AZ EGYES KOMPONENSEK A TELJES KÜLÖNBSÉG NAGYSÁGÁT. Így képezhető: RÉSZHATÁS-DETERMINÁCIÓ K' ⋅ 100 K
89
ÖSSZETÉTELHATÁS-DETERMINÁCIÓ K" ⋅ 100 K ÖSSZEFÜGGÉSÜK K' K" ⋅ 100 + ⋅ 100 = 100 K K Példa Két gazdasági szervezetet hasonlítunk össze a foglalkoztatottak 2001. évi kereseti színvonala szempontjából állománycsoportok szerint (5.1. táblázat). Azt fogjuk megvizsgálni, hogy a kereseti színvonalbeli különbség mennyiben tudható be egyrészt annak, hogy eltérés van az állománycsoportok kereseti színvonalában, másrészt annak, hogy eltérő az állománycsoportok aránya a két szervezetben. A bruttó havi kereseti és létszámadatok „A” és „B” gazdasági szervezetben (2001) „A” gazdasági szervezet (0) Állománycsoport
„B” gazdasági szervezet (1)
Átlagkereset (e Ft)
Létszám (fő)
Átlagkereset (e Ft)
Létszám (fő)
V0
B0
V1
B1
Fizikai Szellemi Együtt
95,4
200
105,2
155
150,4
50
165,0
85
V0
250
V1
240
5.1. táblázat
A számításokhoz a következő összetett intenzitási viszonyszámokat határozzuk meg:
∑B V ∑B ∑B V = ∑B ∑B V = ∑B
VS =
1
0
=
155 ⋅ 95,4 + 85 ⋅150,4 = 114,9 ezer Ft/fő 240
1
=
155 ⋅105,2 + 85 ⋅165 = 126,4 ezer Ft/fő 240
=
155 ⋅ 95,4 + 85 ⋅150,4 = 114,9 ezer Ft/fő 240
1
V1
1
1
VS
1
0
1
Az, hogy a 0 és 1 - es jelölést melyik gazdasági szervezet kapta, V0 és V1 kiszámítása után dőlt el. Teljes keresetkülönbség: K = V1 − V0 = 126,4 − 106,4 = 20 ezer Ft/fő Részhatáskülönbség: K1' = V1 − Vs = 126,4 − 114,9 = 11,5 ezer Ft/fő Összetételhatás-különbség: K "0 = Vs − V0 = 114,9 − 106,4 = 8,5 ezer Ft/fő Különbségek összefüggése: K = K1' + K "0
20 = 11,5 + 8,5 90
Determinációk: K' 11,5 ⋅ 100 = 57,5% K 20
és
K" 8,5 ⋅ 100 = = 42,5% K 20 Következtetések: A „B” gazdasági szervezetben az átlagkereset 20 ezer Ft-tal több mint az „A”-ban. Ebben a különbségben az állománycsoportonkénti kereseti színvonalak és arányok eltérése egyaránt kifejeződik. Ha csak a fizikai és a szellemi kategóriák átlagainak eltérését vesszük figyelembe ― vagyis azonos állomány-összetétellel számolunk ― 11 500 Ft többletet állapíthatunk meg szervezeti szinten a kereseti színvonalban. A két gazdasági szervezetben eltérő a két állománycsoport aránya is, ennek köszönhetően 8500 Ft-tal volt több a „B” szervezetben az egy főre jutó kereset. Ennek hátterében az áll, hogy e szervezetben a másik céghez képest nagyobb arányt képviselnek a magasabb keresettel rendelkező szellemi foglalkozásúak. A „B” szervezetben a magasabb kereseti színvonalat 57,5%-ban magyarázza az a tény, hogy az állománycsoportok átlagában nagyobb a kereset, és 42,5%-ban az, hogy a „B” gazdasági szervezetben magasabb a nagyobb keresetű szellemi foglalkozásúak aránya. 5.2.3. ÖSSZETETT INTENZITÁSI VISZONYSZÁMOKBÓL SZÁMOLT INDEXEK, FŐÁTLAGINDEXKÖR
A korábbiakban kifejtettek szerint, ha az összetett viszonyszámokból hányadosokat képezünk, indexekhez jutunk. Az indexképzés a különbségfelbontás logikáját követi, három index számítására van tehát lehetőség. Ezeket ÖSSZHATÁS-, RÉSZHATÁS- ÉS ÖSSZETÉTELHATÁS-INDEXNEK nevezzük. A szakirodalom ezt az indexkört többféle elnevezéssel illeti.2 Korábban utaltunk arra, hogy a összetett viszonyszámok (főátlagok) relatív viszonyítását rendszerint időbeli (dinamikus) összehasonlításokra alkalmazzák, a továbbiakban a témát erre vonatkozóan fejtjük ki. Az indexek ebben az esetben változást fejeznek ki, az értelmezés során a hányadost 100-zal szorozzuk és a dinamikus viszonyszámoknál megszokott módon értelmezzük. Összhatásindex (főátlagindex) A FŐÁTLAGINDEX a valóságos, tényleges összetett viszonyszámok hányadosa, amely a vizsgált jelenség együttes, átlagos színvonalának változását fejezi ki. Képlete:
∑B V ∑B = ∑B V ∑B 1
I=
V1 V0
1
1
0
0
0
2
főátlagindexkör (főátlag-, részátlag- és összetételindex), standardizáláson alapuló indexszámítás (változó állományú, változatlan állományú és arány-eltolódási index)
91
Átalakítva:
∑B V ∑B V = ∑B ∑B
∑B V ∑B I= ∑B V ∑B 1
1
1
0
1
1
0
0
1
0
0
0
∑A ∑A = ∑B ∑B
1 0
1
mivel : ∑ B ⋅ V = ∑ A
0
A fentiek szerint tehát az együttes színvonalváltozás úgy is kiszámítható, hogy a fősokaságra vonatkozó számláló dinamikus viszonyszámát osztjuk a nevező dinamikus viszonyszámával. A gyakorlati vizsgálatoknál a számláló sok esetben valamilyen gazdasági érték (valor), így az átalakított formula rendkívül informatív, a számlálója értékváltozást jelez (értékindex, lásd később az 5.3.2. részben). Az átalakított formuláról a statisztikai tan7ulmányok során még fogunk hallani. Az összhatásindex nagyságában mindkét összetevő, tehát a részszínvonalak és az arányok változásának hatása is számszerűsödik. Azt a változást regisztrálja, amely a valóságban bekövetkezett. Részhatásindex (részátlagindex) Ezen index csak az egyik összetevő, a részviszonyszámok (részátlagok) változásait méri változatlan (standard) összetétel mellett. A gyakorlat ― ahogy erről szó volt ― előnyben részesíti a tárgyidőszak súlyadatainak (B1) standardként való figyelembevételét. Képlete:
∑B V ∑B = ∑B V ∑B 1
I1
1
1
1
0
=
∑B V ∑B V 1
1
1
0
1
V1 VS A részhatásindex a részszínvonalak átlagos változását fejezi ki, tehát az egyedi, vagyis a részviszonyszám-változások átlagának tekintendő. Jól jegyezzük meg, a „részek” változásainak átlaga nem egyenlő az „egész” változásával, csak abban az esetben, ha az összetétel a valóságban nem változott. Egyébként a részszínvonal-változásokat kifejező mutatókat egyedi részviszonyszámindexeknek (részátlag) nevezzük. Jelölése esetünkben: I1 =
i v (vagy i x ) Képlete: iv = V1 : V0 A részhatásindex a részszínvonal-változások (egyedi indexek) adataiból átlagformában is kiszámítható. (Ugyanúgy, mint az összetett viszonyszámok esetében, de ott az egyedi viszonyszámok, vagyis a V-k átlagolásáról volt szó, itt pedig az egyedi viszonyszámok változásait mérő iv -k átlagolásáról.) Láttuk, hogy az alkalmazandó átlag típusát a súlyismeret dönti el: ha a számláló ismert, akkor súlyként harmonikus, ha a nevező, akkor számtani átlag alkalmazása indokolt. A számláló, illetve nevező értelmezése a BV = A kifejezéseket tartalmazó egyszerűsített indexformulához kapcsolódik. Praktikus okokból a harmonikus átlag alkalmazása jön inkább szóba, miután a B1V0-ák, mint fiktív értékek a gyakorlatban nem fordulnak elő. 92
Részhatásindex, átlagforma
∑A = ∑B V ∑A :i ∑B V :i ∑B V = ∑B V = V ∑B V :V ∑B V 1
I1' =
1
1
I1'
v
1
1
1
1
1
1
1
vagyis :
v
1
1
1
1
0
0
Összetételhatás-index (arányeltolódási index) Az összetételindex a fősokaság szerkezetében bekövetkezett módosulás egyedi hatását méri az együttes színvonalváltozásban. Ezt mint ismeretes úgy érjük el, ha rögzített részviszonyszámokkal dolgozunk. Emlékezzünk rá, hogy a különbség felbontása során a két öszszetevő hatásának elkülönített mérésénél a standardizálás váltakozva történt. Mivel a részhatásindex számításánál a tárgyidőszaki súlyozású forma terjedt el, a gyakorlati alkalmazású arány-eltolódási index képlete a következő:
∑B V ∑B = ∑B V ∑B 1
I "0
0
1
0
0
0
Vs V0 Az összetételhatás-index azt mutatja meg, hogy miként változott volna a teljes színvonal, ha csupán az arányok tolódtak volna el. Az arányokat az intenzitási viszonyszám nevezője jelenti, tehát az arányváltozás konkretizálása erre vonatkozik. A struktúramódosulás vonatkozásában további megállapításokra is van lehetőség. Nevezetesen arra, hogy megvizsgáljuk, vajon a módosulás a magasabb vagy az alacsonyabb színvonalú (azaz a nagyobb vagy kisebb viszonyszámú) részsokaság javára következett-e be? Mit kell ehhez figyelembe venni? Ha az I">1, akkor az összetétel-változás NÖVELŐ hatást gyakorolt az együttes színvonalra. Könnyű belátni, hogy ekkor a magasabb színvonalú (nagyobb értékű) részek aránya nőtt meg a struktúrában. Az indexkör másik két tagja közötti reláció ekkor: I>I' Ha az I"<1, akkor az összetétel-változásnak CSÖKKENTŐ volt a hatása, amely mögött az alacsonyabb színvonalú részek javára történő arányeltolódás húzódik meg. A fő- és részhatásindex nagyságrendi viszonya: I
93
Megismerve az indexszámítás lényegét, nézzük meg az alkalmazást egy konkrét példán, amely egy gyakori közgazdasági alkalmazási területre, a termelékenység vizsgálatára vonatkozik egy kereskedelmi cégnél, ahol a termelékenységet az egy főre jutó forgalommal mérjük. Példa Egy vállalkozás termelékenységi és létszámadatai két év azonos időszakaiban Bázisidőszak Létszám (fő) Forgalom/fő (M Ft) B0 V0
Telephely
Tárgyidőszak Létszám (fő) Forgalom/fő (M Ft) B1 V1
I.
100
10,2
95
13,8
II.
80
16,6
90
20,5
180
V0
185
V1
Együtt
5.2. táblázat
Számítások:
ΣB ⋅V ΣB ⋅V ΣB ⋅V 0
0
= 2348 M Ft
1
1
= 3156 M Ft
1
0
= 2463 M Ft
V 0 = 13,04 M Ft/fő V 1 = 17,06 M Ft/fő VS = 13,31 M Ft/fő Összhatásindex (főátlagindex): I=
V1 = 17,06 = 1,3082 V0 13,04
∑B V ∑B V I= ∑B ∑B 1
1
0
0
1 0
3156 = 2348 = 1,344 1 = 1,3077 185 1,0278 180
Részhatásindex (részátlagindex): V 17,06 I1' = 1 = = 1,2817 VS 13,31
∑B V ∑B V 1
1
1
0
=
vagy:
130,8%
vagy :
3156 = 1,2814 128,1% 2463
Összetételhatásindex (arányeltolódási index): V 13,31 I "0 = S = = 1,0207 102,1% V0 13,04 Az I "0 a három index közötti összefüggésből is kiszámítható: I "0 = I : I1' = 1,3082 :1,281 = 1,0212 102,1% Értelmezés: A vállalkozásban a forgalom színvonala (az egy főre jutó forgalom értéke) a tárgyidőszakban 30,8%-kal nőtt a bázisidőszakhoz képest (I), ez az együttes átlagos változás a két 94
telephely forgalmi színvonalának és a telephelyek létszámmal kifejezett arányainak változását egyaránt kifejezi. Az átalakított indexképlet alapján a forgalmi színvonal változását más oldalról is értelmezhetjük; nevezetesen, hogy az egy főre jutó forgalom értékének 30,8%-os növekedése a forgalom értékének 34,4%-os, a létszám 2,8%-os emelkedése mellett következett be. A vállalkozás két gazdasági egységének átlagában az egy főre jutó forgalom értéke 28,1%-kal haladta meg az előző évi színvonalat (I'), feltételezve, hogy a létszámarányok nem változtak. Ez a növekedés az első telephelyen végbement 35,3%-os (13,8/10,2=1,353) és a második telephelyen bekövetkezett 23,5%-os (20,5/16,6=1,235) forgalmi színvonal növekedés átlaga. Az összetétel-változás, vagyis a létszámarányok módosulása önmagában 2,1%-os forgalmiszínvonal-emelkedést eredményezett. A növelő hatás annak tudható be, hogy a létszámarány a magasabb forgalmi színvonalú rész javára tolódott el. Az 5.2. táblából látható, hogy ez a II. telephely. Kiszámítva a két időszakra vonatkozó létszámarányokat e telephelyen meggyőződhetünk az aránynövekedésről. A bázisidőszaki arány ugyanis a 80/180 viszonyából adódóan 44,4%-ot, a tárgyidőszakban pedig 95/185 alapján 48,6%-ot tesz ki. A következő Példa az átlagformájú indexszámítást mutatja be egy kft. adatai alapján. Példa A termelésre vonatkozó adatok egy kft.-ben Megnevezés
A termelés értéke a tárgyidőszakban (millió Ft) A1
Az egy főre jutó termelés tárgy/bázis (%) i = V 1 / V0
I. részleg
123,5
108,3
II. részleg
144,0
100,0
Kft.
267,5
....
5.3. táblázat
Részhatásindex: I1' =
∑A A ∑ V /V 1 1
1
0
=
267,5 = 1,0366 103,7% 123,5 144 + 1,083 1,000
Következtetés: A két részleg átlagában az egy főre jutó termelés, azaz a termelékenység 3,7%-kal nőtt. (A táblázatban megadott adatokból további információ meghatározására nincs mód.) Indexszámítás az átlagárak összehasonlítására A bemutatott indexkör speciális alkalmazási területe az átlagárak összehasonlítása. Mi statisztikailag az átlagár? Az átlagár fogalma olyan termékcsoporthoz kötődik, ahol a mennyiségek összeadhatók. Beszélhetünk egy termék különböző választékai vonatkozásában átlagárról vagy különböző értékesítési körülmények melletti átlagárról. Az átlagár tehát egyedi egységárak átlaga, amelyet részviszonyszámokból képzett öszszetett viszonyszámként is értelmezhetünk. Ily módon a főátlagindexkör alkalmazásával az átlagárak változásában az egyedi árak változásán kívül az összetétel-módosulásból adódó hatás is kimutatható. Az átlagár változása és az árak átlagos változása (az ún. „tiszta” árváltozás) két különböző fogalom. A továbbiakban ismerkedjünk meg egy átlagárváltozást elemző példával! 95
Példa Üdítőitalok forgalmi adatai egy élelmiszerüzletben két év azonos hónapjában 2001. augusztus hó (0)
2002. augusztus hó (1)
Eladott mennyiség (ezer doboz) B0
A forgalmi érték (ezer Ft) A0
Eladott mennyiség (ezer doboz) B1
Forgalmi érték (ezer Ft) A1
I. II. III.
20 12 18
3 600 2 400 5 400
40 10 20
8 000 2 200 6 300
Összes
50
11 400
70
16 500
Ital fajták
5.4. táblázat
A megadott adatokból a következőképpen lehet az indexeket kiszámítani: Átlagárak: V0 =
V1 =
∑A ∑B ∑A ∑B
0
=
11 400 = 228 Ft/doboz 50
=
16 500 = 235,7 Ft/doboz 70
0
1
1
Összhatásindex: I=
V1 235,7 = = 1,034 103,4% V0 228
I=
∑A : ∑B ∑A ∑B
Másképpen:
Részhatásindex: ∑ B1V1 = I1' = ∑ B1V0 =
1
1
0
0
=
16 500 70 1,447 : = = 1,034 11 400 50 1,4
16 500 16 500 = = 3600 2400 5400 (40 ⋅180) + (10 ⋅ 200) + (20 ⋅ 300) + 10 + 20 40 20 12 18
16 500 = 1,0855 108,6% 15 200
Összetételhatás-index számítása az indexösszefüggés alapján: I "0 = I : I1' = 1,034:1,0855 = 0,9526 95,3% Következtetések: Az italok átlagára 2002 augusztus hónapjában 3,4%-kal volt magasabb, mint az előző év azonos hónapjában. (A forgalom értéke 44,7%-kal, az összes eladott mennyiség 40%-kal nőtt.) A három italfajta ára ugyanakkor átlagosan 8,6%-os növekedést mutatott, tehát az átlagos áremelkedés nagyobb volt, mint az átlagár-növekedés. Az értékesítési szerkezet megváltozása csökkentően hatott az átlagárra, az aránymódosulás 4,7%-os átlagárcsökkenést vont maga után. Ez azt jelenti, hogy a szerkezet az olcsóbb italfajták javára tolódott el. Ez az I. termék, ugyanis a bázisidőszaki 40%-os értékesítési aránya (20:50) a tárgyidőszakra 57%-ra emelkedett (40/70). 96
5.3. ÉRTÉK TÍPUSÚ ADATOK ÖSSZEHASONLÍTÁSA, ÉRTÉKINDEXKÖR 5.3.1. AZ ÉRTÉKEK KÉPZÉSE, ÖSSZETEVŐI A termékek egyedi számbavétele elsődlegesen mennyiségi vonatkozásban ― darabban, tonnában, literben stb. ― történik. A termelt, forgalmazott, felhasznált, fogyasztott menynyiséget q-val, az egységárat p-vel jelölve, adott termék értékét a v = q ⋅ p szorzattal adjuk meg, ahol a q a quantum, a p a prix és a v a valor szavakból származik. Az elemzések során dinamikus viszonyszámok alkalmazásával vizsgálhatjuk például termékenként a mennyiség, az egységár és az érték változását, ezeket EHELYÜTT EGYEDI INDEXEKNEK nevezzük, és adott i termékre vonatkozóan a következők szerint jelöljük: Egyedi volumenindex iq =
q1 q0
iP =
p1 p0
iV =
q 1 p1 q0p0
Egyedi árindex
Egyedi értékindex
Az indexek között fennálló összefüggés i V = iq ⋅i P =
q 1 p1 q 1 p1 ⋅ = q0 p0 q0 p0
A gazdasági folyamatokhoz sokféle termék, jószág kötődik. A termékek sokszínűsége, minőségileg eltérő volta nem teszi lehetővé a természetes mértékegységben való összesítésüket. Erről a sokaság megadását tárgyaló 1.2.1. fejezetben már történt említés. Volt szó arról, hogy rendelkezésre állnak különböző egyenértékek (pl. az élelmiszereknél a Joulban kifejezett energiatartalom), amelyek felhasználásával bizonyos termékeket lehet aggregálni. A jószágok legszélesebb értelemben vett összesítése azonban csak az árak segítségével képzett értékben lehetséges. Így jutunk el az összesített aggregátumhoz (a továbbiakban aggregátum), amely n számú, különböző fajta termék együttes értékét adja meg: n
n
i =1
i =1
∑ v1 = ∑ g1 pi Az együttes értékek összehasonlításával sok hasznos információhoz jutunk. Mivel az érték két tényezőből, az árból és a mennyiségből álló kategória, az érték esetében két szempontú összehasonlításra kínálkozik lehetőség. Vizsgálhatjuk együttesen és különkülön tényezőnként a hatásokat, ez utóbbira alkalmazható a standardizálás módszere. Öszszességében az értékek összehasonlításával tehát három fajta „értékkülönbözőséget” lehet értelmezni, a tényleges (a valós) mellett olyan további kettőt, amelyekben a mennyiségek, illetve az egységárak eltérésének hatása számszerűsödik. Az érték-összehasonlítások leggyakrabban időbeli változások megítélését szolgálják, a módszertani kifejtést a továbbiakban erre vonatkoztatjuk, de az üzleti statisztikában területi 97
összehasonlításokról is lesz majd szó. Mint tudjuk, az összevetést abszolút és relatív módon lehet elvégezni, kezdjük ez utóbbival az ismerkedést. Az együttes értékek relatív összehasonlításának, azaz két összérték hányadosának eredménye az indexszám. A gazdasági értékek változását három index alapján lehet értékelni: az érték-, a volumen- és az árindex alapján, ezek az értékindexkör tagjai. A két komponensindex (volumen és ár) többféle formában képezhető, ahogy ezt a későbbiekben bemutatjuk. 5.3.2 AZ ÉRTÉK-, VOLUMEN- ÉS ÁRINDEXSZÁMÍTÁS Indexszámítás aggregát formában A gyakorlati alkalmazás egyszerű eseteként említett előző példában egy tárgyidőszakra vonatkozó értékösszeget hasonlítunk egy bázisidőszak hasonló jószágkörben értelmezett értékéhez. A jelölés a szokásos; a tárgyidőszak adatait 1-es, a bázisidőszakhoz tartozókat 0 futóindex különbözteti meg a következőképpen: q1i, p1i, illetve q0i, p0i3. Ezeket foglalja magában a számítások alapját képező adattáblázat, amelyből meghatározzuk az indexek képzéséhez szükséges egyedi és összértékeket, aggregátumokat. Értékindex A termékek összességére vonatkozóan az értékek együttes átlagos változását az értékindex fejezi ki a következők szerint: ∑ q 1p1 = ∑ v1 Iv = ∑ q0p0 ∑ v0 A formula egyértelműen mutatja, hogy az értékindexben mindkét értékalkotó komponens változása számszerűsödik, tehát az index a gyakorlatban bekövetkezett valós (tényleges) változásról informál. Volumenindex Feltehetjük azt a kérdést, miként változott (volna) az érték a bázisidőszakkal azonos tárgyidőszaki árak esetén, azaz csak a mennyiségek változása milyen értékváltozást jelentett. E kérdésre a választ a volumenindex-számítás adja meg. Az általános indexformula a következő: ahol: ∑ q1 p S Iq = ∑ q 0 pS s = standard (azonos) árakat jelent. A Laspeyres-féle volumenindex Az indexben súlyként szereplő változatlan árak kérdésében többféle megoldás kínálkozik. Alkalmazhatók a bázisidőszak árai, így jutunk a bázisidőszak-súlyozású ― szerzője után LASPEYRES-FÉLE ― volumenindexhez. I 0q =
∑q p ∑q p 1
0
0
0
3
Mivel az indexformulákban szereplő szumma jelölés magától értetődően i=1…n-ig terjedő adatokra vonatkozik, a továbbiakban az i jelöléstől, valamint az összegzés határainak megadásától eltekintünk.
98
A Paasche-féle volumenindex Kézenfekvő megoldásnak kínálkozik a tárgyidőszaki árak szerepeltetése is, az eredmény a tárgyidőszak-súlyozású ― Paasche-féle ― volumenindex. ∑ q 1 p1 I1q = ∑ q 0 p1 A kétféle súlyozású index természetesen nem ad azonos eredményt, a köztük lévő eltérést az árarányok tárgy- és bázisidőszaki különbözősége határozza meg. Minél nagyobb ez az eltérés, annál jobban különbözik egymástól a két indexérték. A Fischer-féle volumenindex A probléma megoldására a mértani átlag formájú ún. Fisher-féle index alkalmazható: I qF = I 0q ⋅ I1q A volumenindex a termelés, a forgalom, a fogyasztás során felhasznált anyagok volumenének átlagos változását adja meg. Úgy is fogalmazhatunk: ha az árak nem változtak volna, a volumenindex által jelzett mértékű értékváltozás következett volna be. Árindex Az értékek másik összetevői az egységárak, az értékváltozásban közrejátszó egyedi (elkülönített) hatásukat az árindex fejezi ki. Az értékindexből kiinduló számolásnál most a mennyiségeket vesszük azonosnak, standardnak. A volumenindexnél megismert eljárások szerint bázis- és tárgysúlyozású árindexek egyaránt képezhetők, ezekből pedig a Fisher-index. IP =
∑q ∑q
p1
S
p0
∑q p ∑q p ∑q p = ∑q p
I 0P = I1P
S
0
1
0
0
1 1
1
0
I FP = I 0P ⋅ I1P Az árindex egy adott termékköre vonatkozó átlagos árszínvonal-változást fejezi ki. Azt az értékváltozást számszerűsíti, amely csak az árak változásának tudható be. A „miként változott volna az érték, ha csak az árakban következett volna be változás, a mennyiségekben nem” típusú kérdésre ad választ. Az indexek számításához felhasznált aggregátumok a következő négy változatban fordulnak elő: ― bázisidőszaki érték bázisáron: ∑ q 0 p 0 ― tárgyidőszaki érték folyóáron: ∑ q1p1 ― tárgyidőszaki érték bázisáron:
∑q p ∑q p 1
0
0 1 ― bázisidőszaki érték folyóáron: Az első sorban szereplő két értékösszeg tényleges érték, míg a harmadik és negyedik q⋅p-k gyakorlati szempontból fiktív értékeknek tekintendők. Sajátos értelmezéssel és megfelelő szereppel rendelkeznek a gazdasági elemzésekben.
99
Indexszámítás átlagformában Az indexek mint összetett viszonyszámok az egyedi viszonyszámok átlagai. Ennek megfelelően értelmeztük az előzőekben azokat az értékek, a volumenek és az egységárak együttes átlagos változásainak mérőszámaiként. Kézenfekvő tehát, hogy az egyedi változások adatainak (viszonyszámok, ahogy itt nevezzük: egyedi indexek) átlagolásával is eljutunk az indexszámokig. Korábbi ismereteink szerint a viszonyszámok esetében a nevezőt vagy a számlálót súlyként alkalmazva súlyozott számtani, illetve harmonikus formában végezzük el az átlagolást. A gyakorlati alkalmazás során az számít, hogy a súlyok vonatkozásában konkrétan mit ismerünk. A súlyok szerepét egyedi aggregátumok töltik be, ennek oka az, hogy közvetlenül csak értékek összegezhetők, továbbá az átlagokra jellemző műveletekkel ebben az esetben jutunk tartalmilag értelmezhető kifejezésekhez. (Az átlagszámításnál mindkettőt elvárjuk.) Az átlagformájú indexszámítást a három index esetében a következő módon végezhetjük el. Indexszámítás
Volumenindex
Átlagolandó adatok xi (egyedi indexek)
iq =
Súlyismeret fi (aggregátumok)
Az alkalmazandó átlag
q0p0
Számtani
q1 p1
Harmonikus
I 0q =
∑ q p ⋅i ∑q p 0
0
0
q1 q0
I1q =
q
0
∑q p ∑q p : i 1 1
1 1
q0p0 Árindex
ip =
Számtani
∑ q p ⋅i ∑q p ∑q p = ∑q p : i
I 0p =
0 0
Harmonikus
I1p
1 1
1 1
q0p0 iv =
p
0 0
p1 p0
q1 p1
Értékindex
q
Számtani
Iv =
∑ q p ⋅i ∑q p 0 0
p
v
0 0
q 1 p1 q0p0
q1 p1
Harmonikus
Iv =
∑q p ∑q p : i 1 1
1 1
v
ÁLTALÁNOSÍTHATÓ SZABÁLY: Az egyedi indexek és a bázisidőszaki egyedi aggregátumok (q0p0 értékek) súlyismeretében súlyozott számtani átlaggal jutunk az indexszámhoz, ezek az értékek a Laspeyres típusú volumen- és árindex nevezőjében szerepelnek. Ha tárgyidőszaki aggregátumokat ismerünk, a harmonikus átlag alkalmazása indokolt, amely a Paasche-féle formulához vezet.4 A q⋅p aggregátumok helyett természetesen megoszlási viszonyszámok is alkalmazhatók. 4
Elvileg lehetséges a q1p0 és q0p1 aggregátumok súlyként való alkalmazása is, mivel azonban ezek fiktív, közvetlenül nem megfigyelhető értékek, kicsi a jelentősége a gyakorlatban való alkalmazásuknak.
100
Érdemes felhívni a figyelmet arra, hogy a súlyokról kétféle értelmezésben beszélünk az indexszámításban: a közvetlen formák esetében a volumenindexnél az egységárak (p-k), az árindexnél a mennyiségek (q-k) töltik be a (változatlan) súlyok szerepét. Az átlagformában az értékekre vonatkozik ugyanez a szerepkör. Indexösszefüggések, indexpróbák Az érték a mennyiség és az ár szorzatából adódik. A szorzatszerű összefüggés a változásokra is érvényes, egyedileg ugyanúgy, mint egy egész termékkörre vonatkozóan. Ez utóbbi változásokat ― ahogy bemutattuk ― az indexek fejezik ki. Ezek összefüggése: I V = I 0q ⋅ I1P
vagy
I V = I1q ⋅ I 0P
továbbá
I V = I qF ⋅ I FP A tényezőpróbának is nevezett fenti összefüggések azonban csak úgy mutathatók ki, ha a volumen- és az árindex különböző súlyozású. A Fisher-formulák szorzata is kiadja az értékindexet, egyéb esetekben a szorzatösszefüggés csupán közelítő jellegű. Az indexek közötti összefüggésből az következik, hogy két index ismeretében a harmadik minden nehézség nélkül kiszámítható. Ez gyakorlati szempontból ― ahogy ezt később látni fogjuk – nagy jelentőséggel bíró lehetőség. További indexpróbaként említjük meg az átlagpróbának nevezett azon összefüggést, amely feltételként előírja, hogy az indexeknek a megfelelő egyedi indexek átlagát kell kiadniuk. 5.3.3. ÉRTÉKEK (AGGREGÁTUMOK) KÜLÖNBSÉGEI Az érték-összehasonlítás másik lehetősége az eltérés abszolút módon való kifejezése, vagyis a különbségképzés. Az aggregátumokból a következő három különbség képezhető: Értékkülönbség K V = ∑ q 1 p1 − q 0 p 0 Volumenváltozások okozta értékkülönbségek K 0q = ∑ q1p 0 − ∑ q 0 p 0 K 1q = ∑ q1p1 − ∑ q 0 p1 Kq =
K 0q + K 1q 2
Árváltozások okozta értékkülönbségek K 0p = ∑ q 0 p1 − ∑ q 0 p 0 K 1p = ∑ q 1 p1 − ∑ q 1 p 0 Kp =
K 0p + K1p 2 101
Nem kell különösebben indokolni a különbségek között a következő konkrét formákban fennálló összefüggést: K V = K 0q + K 1p K V = K 1q + K 0p
K V = Kq + KP Az összegszerű összefüggések alapján kínálkozik a determináció5 számításának lehetősége. Volumenváltozások befolyásoló hatása Kq ⋅ 100 KV
Árváltozások befolyásoló hatása KP ⋅100 KV Az alkalmazás logikai feltétele, hogy az érték két tényezőjének együttes változása azonos irányú legyen. Ha az egyik tényező ― pl. az ár ― együttesen növekedést mutat, a másik ― a mennyiség ― pedig csökkenést, értelmetlen lenne determinációt számolni. Az indexszámítást egy élelmiszeripari vállalkozás példáján kísérjük figyelemmel. Példa Egy vállalkozás termelésének 2000. és 2002. évi adatai 2000 Termék
2002
Mértékegység
Mennyiség qo
Egységár (ezer Ft) po
Mennyiség q1
Egységár (ezer Ft) p1
Ételecet
ezer liter
56
220
61
210
Sűrítmény
tonna
20
430
30
400
Konzerv
ezer db
192
185
190
240
Az indexszámításhoz szükséges aggregátumok munkatáblája q0⋅p0
q1⋅p1
q0⋅p1
q1⋅p0
56 ⋅ 220 = 12 320
61 ⋅ 210 = 12 810
56 ⋅ 210 = 11 760
61 ⋅ 220 = 13 420
8 600
12 000
8 000
12 900
Konzerv
35 520
45 600
46 080
35 150
Együtt
56 440
70 410
65 840
61 470
Termék Ételecet Sűrítmény
5.5. táblázat
Értékindex: IV =
∑q p ∑q p
1 1
0
5
0
=
70 410 = 1,247 124,7% 56 440
Néhány szinonima: befolyásolás, magyarázat, közrehatás, szerep
102
Volumenindexek: I 0q =
I1q =
∑q p ∑q p 1
0
0
0
∑q p ∑q p
1 1
=
61 470 = 1,089 = 108,9% 56 440
=
70 410 = 1,069 = 106,9% 65 840
0 1
I qF = 1,089 ⋅1,069 = 1,079 107,9% Árindexek:
∑q p ∑q p ∑q p = ∑q p
I 0p =
0 1
0
I1p
=
65 840 = 1,166 116,6% 56 440
=
70 410 1,145 114,5% 61 470
0
1 1
1 0
I Fp = 1,166 ⋅1,145 = 1,155 115,5% A három index közötti számszerű összefüggés: I V = I 0q ⋅ I1P = 1,089 ⋅1,145 = 1,247 I V = I1q ⋅ I 0P = 1,068 ⋅1,166 = 1,247 I V = I qF ⋅ I FP = 1,079 ⋅1,155 = 1,2462 Értékkülönbség: K V = 70 410 − 56 440 = 13 970 E Ft Volumenváltozások okozta értékkülönbségek: K 0q = 61 470 − 56 440 = 5030 E Ft K 1q = 70 410 − 65 840 = 4570 E Ft 5030 + 4570 = 4800 E Ft 2 Árváltozások okozta értékkülönbségek: Kq =
K 0p = 65 840 − 56 440 = 9400 E Ft K 1p = 70 410 − 61 470 = 8940 E Ft Kp =
9400 + 8940 = 9170 E Ft 2
Különbségek összefüggése: K V = K 0q + K 1p = 5030 + 8940 = 13 970 K V = K 1q + K 0p = 4570 + 9400 = 13 970 K V = K q + K P = 4800 + 9170 = 13 970 103
Determinációszámítás: ― volumenváltozások befolyásoló hatása: 4800 ⋅100 = 34,4% 13 970 ― árváltozások befolyásoló hatása: 9170 ⋅100 = 65,6% 13 970 Következtetések: A termelés értéke 2002-ben együttesen 24,7%-kal, azaz 13 970 000 Ft-tal nőtt 2000-hez képest (IV és KV). Ez a növekedés mind az árak, mind a mennyiségek változásainak hatását számszerűsíti. A termékek mennyisége átlagosan 7,9% - kal emelkedett (I qF ). Ha nem következett volna be árváltozás, a termelés értékének növekedése ennyi százalékot tett volna ki. A volumennövekedés 4 800 000 Ft értéket képviselt (K q ). Ha csak az árak változtak volna, és a mennyiségek nem, a termelés értéke nem 24,7%kal, hanem 15,5% - kal (I Fp ) emelkedett volna . (Az árak egyébként szélsőségesen változtak.) Az árak átlagos növekedése 9 170 000 Ft többlettermelési értéket jelentett (K p ). A termelési érték növekedésében az árak emelkedésének volt nagyobb szerepe, 65,6%ban játszott közre ez a tényező, a mennyiségek növekedése pedig 34,4%-ban (ár- és volumen-determinációk). A következőkben bemutatjuk az átlagformában történő indexszámítást. Példaként szerepeljen most az árindexszámítás! Példa Egy vállalkozás termelésének adatai Termelés értéke Termékek
Bázisidőszak q0p0
Tárgyidőszak q1p1
12 320 8 600 35 520 56 440
12 810 12 000 45 600 70 410
Ételecet Sűrítmény Konzerv Együtt
Árváltozás ip = p1/p0 0,9545 0,9302 1,2973
Az árindexhez szükséges számítások q0p0 ⋅ ip = qop1
q1p1 : ip = q1p0
12 320 ⋅ 0,9545 = 11 760 8 000 46 080
12 810 : 0,9545 = 13 420 12 900 35 150
65 840
61 470
Termékek Ételecet Sűrítmény Konzerv Együtt
5.6. táblázat
Az árindexek számítása
∑ q p ⋅i ∑q p ∑q p = ∑q p : i
I 0P = I1P
0
0
0
P
65 840 = 1,166 56 440
=
70 410 = 1,145 61 470
0
1 1
1 1
=
P
104
I FP = 1,1666 ⋅1,145 = 1,155 115,5 % Tehát az árak együttesen átlagosan 15,5%-kal voltak magasabbak 2002-ben, mint 2000ben. E mögött az átlagos növekedés mögött a következő változások állnak: az ételecet ára 4,5%-kal, a sűrítmény ára 7%-kal volt alacsonyabb 2002-ben a bázisidőszakhoz képest. A harmadik terméknél jelentős (29,4%) árnövekedés következett be. Rész- és főindexek Az indexszámítás során a vizsgált termékek, árucikkek, jószágok sokfélesége maga után vonja a csoportosítás szükségességét, illetve lehetőségét. Nagyobb sokaságok statisztikai vizsgálata során általános elvárás a csoportosítás, így van ez az indexszámításnál is. A csoportokra számított indexeket RÉSZINDEXEKNEK tekintjük, a csoportok összességére, a fősokaságra képzett indexet pedig FŐINDEXNEK. Ez analóg a részviszonyszámok és az öszszetett viszonyszámok értelmezésével; a témánál maradva megfelel az egyedi indexek és az indexszám összefüggésének. A főindex képzésének technikája tehát ugyanaz, mint az öszszetett viszonyszámoké, számolhatunk aggregátformával, ekkor a csoportonként összeadott értékek hányadosa az index, vagy átlagszámítással, a részindexeket tekintve átlagolandó értékeknek. Ez elég gyakori megoldás a gazdaságstatisztika gyakorlatában. Így épülnek fel a hierarchikus ― alcsoportokra, csoportokra, főcsoportokra tagolódó ― osztályozások indexrendszerei, ez részletesen az üzleti statisztika tantárgy keretében kerül kifejtésre. Az eddig ismertetett indexszámítás során két időszak ― tárgy- és bázis- ― adatait hasonlítottuk egymáshoz. Az indexekkel történő elemzés a gyakorlatban általában több időszakot fog át, az elemzéshez ekkor indexsorokat képezünk. Ezekkel szintén az üzleti statiszta tantárgy keretében fogunk foglalkozni.
105
5.4. ELLENŐRZŐ KÉRDÉSEK 1. Milyen korábban tanult statisztikai ismeretekre támaszkodtunk az ötödik fejezetben és milyen új szempontok érvényesültek? 2. Milyen módjait ismeri az összetett intenzitási viszonyszámok összehasonlításának és ebben miként lehet a standardizálást alkalmazni? 3. Az összetett intenzitási viszonyszámok (főátlagok) számítását milyen módokon végezheti el, mikor melyik kerül alkalmazásra? 4. Hogyan lehet az összetett intenzitási viszonyszámok (főátlagok) különbségét felbontani, és milyen következtetések vonhatók le a felbontás eredményeiből? 5. Hogyan lehet kiszámítani és értelmezni a főátlagindexkör tagjait? 6. Melyek a legfontosabb gyakorlati felhasználási területei a főátlagindexkörnek? 7. Hányféle szempontból vizsgálhatjuk a gazdasági értékek változását? 8. Milyen módon számíthatók ki a volumen- és árindex aggregát formái, és ezek milyen összefüggések szerint adják ki az értékindexet? 9. Milyen információk (adatok) alapján lehet az érték-, volumen- és árindexet átlagformában számítani? 10. Hányféle értelmezésben beszélhetünk súlyozásról az értékindexkörön belül? 11. Két időszak összehasonlítása esetén milyen aggregátumok képezhetők, és milyen értelmezésű különbségeket lehet belőlük meghatározni? 12. Melyek az indexformula-választás gyakorlati szempontjai az értékindexkörben?
106
6. AZ ISMÉRVEK KÖZÖTTI KAPCSOLATOK ELEMZÉSE Az eddigiek során döntően azokkal a módszerekkel foglalkoztunk, amelyek a sokaságnak egy ismérv szerinti vizsgálatát jelentették, általában ehhez különböző típusú sorokat alkalmaztunk (2., 3., 4. fejezet). További elemzési lehetőség ― s az előzőhöz képest ez összetett eset ― a statisztikai sokaság két vagy több ismérv szerinti vizsgálata. E megközelítés közelebb áll a valós helyzethez, s gazdagabb információszerzési lehetőséget is kínál. Már az első téma tanulmányozása során meggyőződhettünk arról, hogy a statisztikai sokasági egységek nem csupán egy, hanem több tulajdonsággal is rendelkeznek, vagyis egyszerre több ismérvvel is jellemezhetők és ezek a jellemzések összekapcsolhatók. Az ismérvek az esetek többségében ugyanis nem függetlenek egymástól, hanem meghatározott kapcsolat van közöttük. Természetes törekvés, hogy a statisztikai megismerés során információkat szeretnénk kapni ezekről a kapcsolatokról, azok jellegéről, szorosságáról, törvényszerűségeiről stb. A statisztika módszertani eszköztárában az ismérvek közötti összefüggések kibontására számos eljárás áll rendelkezésre. Vannak köztük egyszerűbb, leíró jellegű és bonyolultabb, komoly matematikai hátteret igénylő módszerek. Az alkalmazott módszer több tényezőtől függ. Meg kell fontolnunk, megelégszünk-e egyszerűbb, felszínesebb információkkal, vagy szeretnénk egzaktabb következtetéseket is megfogalmazni. Értékes információkat adhat az egyszerűbb módszerek alkalmazása is. Ráadásul ekkor kisebb a veszélye annak, hogy a módszerek nem hozzáértő alkalmazása miatt hamis következtetésekre jutunk. Ebben a fejezetben először az ismérvek közötti kapcsolatok fajtáival foglalkozunk. Ezt követően áttekintjük az egyszerűbb vizsgálati módszereket. Szerencsére ezeknek az alapjait már a korábbi fejezetekből ismerjük. Elsősorban a csoportosításra fogunk támaszkodni, de a kapcsolatok feltárására a viszonyszámokat és az átlagokat is igénybe vesszük. Meggyőződhetünk arról, hogy jó eszköznek bizonyul az ábrázolás is. A fejezet további részei olyan eljárásokat tartalmaznak, amelyek már továbbmennek a kapcsolat fennállásának megállapításán, a verbális következtetéseken. Megismerünk néhány összefüggés-szorossági mérőszámot, majd fogalmi szinten megemlítjük a regressziószámítás módszerét. Az ismertetett vizsgálati módszerek elsősorban két ismérv közötti kapcsolat feltárására vonatkoznak, a több ismérv közötti kapcsolatokra csak utalást teszünk. 6.1. AZ ISMÉRVEK KÖZÖTTI KAPCSOLATOK FAJTÁI Bevezetőként nézzük meg azt az esetet, amikor két ismérv között semmiféle összefüggés nincs, tehát azok függetlenek egymástól. A kapcsolat teljes hiánya állapítható meg például a hajszín és a testmagasság között. Gyakoribb eset az, hogy egy sokaság két ismérve között van kapcsolat. Az összefüggések alapvetően kétfélék lehetnek: ― függvényszerű (funkcionális); ― sztochasztikus. 6.1.1. FÜGGVÉNYSZERŰ (FUNKCIONÁLIS) KAPCSOLAT Amikor a sokasági egységek vonatkozásában az egyik ismérv szerinti hovatartozás egyértelműen eldönti azt, hogy adott egység a másik ismérv melyik változatához tartozik, FÜGGVÉNYSZERŰ (FUNKCIONÁLIS) KAPCSOLATOKNAK hívjuk. Az elnevezés onnan ered, 107
hogy az összetartozást formulával (képlettel) írhatjuk le. Például egy fix kamatozású befektetésnél, a befektetett pénzmennyiség és a kamatösszeg között ilyen típusú az összefüggés. Ha például 2 millió Ft-ot egy évre befektetünk 10%-os éves kamatláb mellett, a kamatösszeg 2 000 000⋅ 0,1 = 200 000 Ft, 4 millió esetében 4 000 000 ⋅ 0,1 = 400 000 Ft. A befektetett pénzösszeg nagysága és a kamatösszeg közötti összefüggést leíró függvény általános jelöléssel a következő: y = 0,1 ⋅ x ahol: y = kamatösszeg; x = befektetett pénzmennyiség. A statisztika vizsgálati körét nem az ilyen kapcsolatok teszik ki, hiszen a függvény általában eleve adott, az ilyen kapcsolatokról a továbbiakban nincs mit megtudni. 6.1.2. SZTOCHASZTIKUS KAPCSOLAT Az ismérvek közötti kapcsolatok másik fajtáját a statisztika kitüntetett vizsgálati területnek tekinti, amelyet sztochasztikus kapcsolatnak nevezünk. A sztochasztikus kapcsolat valószínű érvényű, más szóval tendenciaszerű. Ez azt jelenti, hogy az egyik ismérvhez való tartozás nem dönti el egyértelműen a másikhoz való tartozást, hatással van rá, de rajta kívül más tényezők is befolyást gyakorolnak a hovatartozásra. Példaként említhetjük a fizikai munkavállalók esetében a szakképzettség és a kereseti színvonal közötti sztochasztikus összefüggést. Nem mondhatjuk egyértelműen azt, hogy a képzetlenek mindig kevesebbet keresnek. Úgy fogalmazhatunk, hogy van összefüggés a szakképesítés és a keresetek nagysága között. Az a tendencia figyelhető meg, hogy a magasabb képzettségi szint nagyobb keresettel jár együtt. A keresetek nagyságát a szakképzettségen kívül még számos más tényező befolyásolja, mint például a munka nehézségi foka, a munkában eltöltött idő, a munkaerő-piaci körülmények stb. A sztochasztikus összefüggés tehát ÁTMENET A KAPCSOLAT HIÁNYA ÉS A FÜGGVÉNYSZERŰ KAPCSOLAT KÖZÖTT. Egyáltalán nem mindegy, hogy egy adott sztochasztikus kapcsolat melyik szélsőséghez esik közel. Más a megítélés, ha az összefüggés hiánya közelében helyezkedik el, s más, ha a függvényszerű összefüggéshez áll közel. Ez indokolja a statisztika azon törekvését, hogy megmérje, a kapcsolat erőssége hol helyezkedik el a két szélső érték között. Erre szolgálnak A KAPCSOLATSZOROSSÁGI MÉRŐSZÁMOK. A statisztikai elemzés eredményességének feltétele a vizsgált jelenség (statisztikai sokaság) természetére vonatkozó közgazdasági, biológiai stb. szakismeret, ezt az elvárást az összefüggések elemzésénél különösen fontos hangsúlyozni. A szakmai megfontolások alapján lehet a vizsgált összefüggés jellegét tisztázni, amely főleg a bonyolultabb eljárások alkalmazásánál fontos kérdés. A sztochasztikus kapcsolatok jellege A következő típusok fordulnak elő: ― oksági kapcsolat; ― kölcsönhatás; ― látszólagos kapcsolat. OKSÁGI KAPCSOLAT Gyakori az ok-okozati összefüggés, amikor egyértelműen eldönthető, hogy melyik ismérv alakulása (ok) vonja maga után a másikét (okozat). Nyilvánvaló, hogy a szakképzettség és a keresetek kapcsolata ilyen jellegű. Öröklődés okán ilyen természetű az apák és a fiúk testmagassága közötti összefüggés, de vehetjük a családok jövedelmét és húsfogyasztását is Példaként. 108
KÖLCSÖNHATÁS Ekkor vagy mindkét ismérv lehet egyben ok és okozat is, vagy a szóban forgó ismérvek egyiknek sem tekinthetők. A kölcsönös kapcsolatra jó Példa a termékek esetében az ár és a kereslet közötti összefüggés. Fogalmazhatunk úgy, hogy az árak hatással vannak a keresletre, de az a megállapítás is helyénvaló, miszerint a kereslet is kihat az árak alakulására. (Megjegyezzük, hogy a nevezett két ismérv közötti kapcsolatba más ismérvek hatása is belejátszik.) LÁTSZÓLAGOS KAPCSOLAT Ez a kapcsolat tulajdonképpen nem igazi (közvetlen) összefüggés. Ilyen esetekben a vizsgált két ismérv között csak azért mutatkozhat összefüggés, mert mindegyiket a háttérből egy harmadik tényező irányítja, amit LÁTENS TÉNYEZŐNEK nevezünk. Ez a háttérből jövő hatás a két ismérv együtt haladásában nyilvánul meg: úgy tűnik, mintha az egyik ismérv közvetlenül felelős lenne a másik ismérv alakulásáért. Különleges esetet jelent az, amikor a közvetítő ismérv az idő, ekkor idősorokkal állunk szemben, amelyek alakulásában a párhuzamosságot rendkívül körültekintő szakmai elemzés alapján lehet csak összefüggésként értékelni. Sztochasztikus kapcsolatok a mérési szint és az ismérvek fajtája szerint A sztochasztikus kapcsolatokat abból a szempontból is megkülönböztethetjük, hogy azok milyen mérési szintű, milyen fajtájú ismérvek között állnak fenn. E szempontból négy eset különböztethető meg: ― ASSZOCIÁCIÓ, amely minősítéses (nominális) jellemzők, legtöbbször minőségi ismérvek között áll fenn (pl. a nembeli ismérv és a beosztás közötti kapcsolat); ― RANGKORRELÁCIÓS KAPCSOLAT, ahol mindkét változót sorrendi (ordinális) skálán mérjük; ― VEGYES KAPCSOLAT, amely minősítéses ismérv és mennyiségi (arányskálán mért) ismérv között fordul elő (pl. a szakképzettség és a kereset nagysága közötti összefüggés); ― KORRELÁCIÓ, amely két mennyiségi ismérv kapcsolatát jelenti. (Erre számos Példa hozható, pl. a költségek nagysága és a termelési érték kapcsolata.) A továbbiakban sorra vesszük azokat az elemzési módszereket, amelyekkel a sztochasztikus kapcsolatok vizsgálhatók. Az ismertetést az egyszerűbb módszerekkel kezdjük. 6.2. A SZTOCHASZTIKUS KAPCSOLATOK ELEMZÉSÉNEK EGYSZERŰ ESZKÖZEI 6.2.1. ELEMZÉS CSOPORTOSÍTÁSSAL A statisztikai sokaság két vagy több ismérv szerinti elemzése ― mint amilyen az összefüggés-vizsgálat is ― általában kombinációs táblába rendezett adatokból indul ki. A kombinációs táblák két vagy több dimenzióban tartalmaznak csoportosító sorokat, a kétdimenzióst KONTINGENCIATÁBLÁKNAK nevezzük. Ahogy ismert, a tábla fej- és oldalrovataiban a két ismérv lehetséges kimeneteleit, vagyis változatait tüntetjük fel, a táblamező rekeszeiben (celláiban) pedig a gyakoriságokat. A belső gyakoriságok mindkét ismérv szerint értelmezhetők, a fej- és oldalrovat szerinti összetartozó (együtt-előfordulási) eseteket számszerűsítik. A kontingencia tábla (lásd 6.1 és 6.2. táblázatok) összesítő sorait és oszlopait peremgyakoriságoknak vagy elsőrendű gyakoriságoknak nevezzük, az összes megfigyelések száma, a fősokaság elemszáma (N) alul az utolsó cellában van. 109
Ha egy ilyen táblázatot sorrendi, intervallum- vagy arányskálán mért ismérvekből állítunk össze úgy, hogy az ismérvváltozatoknak a bal legfelső rekeszből induló felsorolását sor és oszlop irányban egyaránt meghatározott rend szerint végezzük, akkor a gyakoriságok táblamezőben való elhelyezkedéséből képet kaphatunk a feltételezett kapcsolat fennállásáról. Nézzünk rögtön egy mintapéldát, hogy jobban megértsük, miről van szó. Példa A fizikai munkavállalók megoszlása egy vállalatnál a havi keresetek és a szakképzettség szerint, 2001. január (fő) Állománycsoportok
Kereset, (ezer Ft/fő)
Segédmunkás
Betanított munkás
Szakmunkás
―60 60,1―80 80,1―100 100,1―
10 13 4 ―
3 14 14 3
― 2 16 12
13 29 34 15
Összesen
27
34
30
91
Összesen
6.1. táblázat
Következtetések: A 6.1. táblázat adatai alapján számítások nélkül is tehetünk megállapításokat a feltételezett kapcsolat fennállásáról. Látható, hogy a segédmunkásoknál az alacsonyabb kereseti kategóriákban van nagy gyakoriság, míg a szakmunkások esetében a magasabb kereseti kategóriákban. Szakmunkás és alacsony kereset, valamint segédmunkás és legmagasabb kereset nem jár együtt. Kivehető a táblázatból, hogy a gyakoriságok a bal felső sarokból a jobb alsóba tartó átló körüli cellákban mutatnak bizonyos tömörülést. Ez azt jelzi, hogy a kvalifikáció fokozódásával a kereseti színvonal is nő, tehát a fennállás mellett a kapcsolat irányáról is lehet információt megfogalmazni. Könnyű belátni, hogy ellenkező irányú átló mentén való gyakoriságtömörülés negatív kapcsolat fennállását valószínűsíti. 6.2.2. KAPCSOLATOK ELEMZÉSE VISZONYSZÁMOKKAL A sztochasztikus kapcsolatok vizsgálatának alapját ez esetben is a kombinációs táblák jelentik. Annyival megyünk túl az előző pontban ismertetett eljárásnál, hogy most a gyakoriságokból viszonyszámokat számolunk és ezeket vetjük egybe. Az összehasonlításokból következtetünk arra, hogy két ismérv független-e egymástól, vagy van valami kapcsolat közöttük. A viszonyszámok, amelyekkel dolgozunk legtöbbször megoszlási viszonyszámok, azaz relatív gyakoriságok. Korábban láttuk, hogy egy táblázat adataiból háromféle variációban lehet megoszlási viszonyszámokat számolni: ― kiszámíthatjuk az egyes adatok fősokaságon belüli arányait; ― számolhatunk a sorösszegekkel mint 100 százalékokkal; ― képezhetjük az oszlopösszegeken mint 100 százalékon belüli arányokat. Az utóbbi két variáció csak az egyik ismérv szerinti viszonyítást jelenti a másik ismérv egyes csoportjaiban, valamint az egész sokaságon belül, mostani vizsgálatunk szempontjából csak ezek érdekesek. Nézzünk egy példát ezen számításokra, vizsgálatunk a legegyszerűbb esetre, két alternatív ismérv kapcsolatára vonatkozik. 110
Példa A gazdasági aktivitás és a nemek szerinti összefüggést vizsgáljuk egy megyében a munkaképes-korú népesség körében. A két ismérv szerinti megoszlást ― a tapasztalati gyakoriságokkal kifejezve ― a 6.2. táblázat foglalja magában. A táblázatot követi egy a) és egy b) jelű tábla, amelyek százalékos megoszlásokat tartalmaznak (megoszlási viszonyszámokat), ahogy a címekben olvasható, a gazdasági aktivitás, illetve a nem szerint. Egy megye munkaképes korú népessége a gazdasági aktivitás és nemek szerint, 2003. év elején (ezer fő) Megnevezés
Férfi
Nő
Összesen
Gazdaságilag aktív Gazdaságilag nem aktív
160 40
140 65
300 105
Összesen
200
205
405
a) A férfiak és nők megoszlása a gazdasági aktivitás szerint (%) Megnevezés Gazdaságilag aktív Gazdaságilag nem aktív Összesen
Férfi
Nő
Összesen
80,0 20,0 100,0
68,3 31,7 100,0
74,1 25,9 100,0
b) Nemek szerinti megoszlás a gazdasági aktivitás csoportjaiban (%) Megnevezés Gazdaságilag aktív Gazdaságilag nem aktív Összesen
Férfi
Nő
Összesen
53,3 38,1 49,4
46,7 61,9 50,6
100,0 100,0 100,0
6.2. táblázat
Következtetések: Az a) táblázat szerint a férfiak és a nők csoportjában a gazdasági aktivitás arányai mások, mint az egész munkaképes korú népességen belül. A gazdaságilag aktívak, valamint az inaktívak csoportjaiban (b) táblázat) a nemek megoszlása, vagyis a férfiak és nők aránya is eltér kissé a fősokaságra vonatkozó arányszámoktól. Mindez arra enged következtetni, hogy van összefüggés a két ismérv között, vagyis az a tény, hogy valaki gazdaságilag aktív-e, függ a nemhez való tartozásától (is). Fogalmazzuk meg általánosságban, hogy mikor valószínűsíthetjük a kapcsolat fennállását! Ha az egyik ismérv szerinti csoportokban a másik ismérv szerinti megoszlás eltér a sokaság egészére vonatkozó arányszámoktól, megállapíthatjuk, hogy a szóban forgó ismérvek között sztochasztikus kapcsolat áll fenn. A táblázatokra vonatkoztatva: ekkor a belső relatív gyakoriságok eltérnek a peremgyakoriságoktól. A megoszlási viszonyszámok szerepéről elmondottak érvényesek más viszonyszámokra is, tehát lehet általánosítani. Ezek szerint a következőket állapíthatjuk meg: Ha a részviszonyszámok eltérnek az összetett viszonyszámoktól ez azt jelenti, hogy összefüggés van az egyik, a csoportosító ismérv és a másik, azaz a viszonyítás alapjául szolgáló ismérv között. A viszonyszámok közül a koordinációs viszonyszámok is alkalmasak arra, hogy velük összefüggéseket tárjunk fel. Mint ismeretes, a koordinációs viszonyszámok leggyakrabban alternatív ismérvek két változatának egymáshoz viszonyított adatai. Mintapéldánk is két ilyen ismérvet tartalmaz, mutassuk be tehát a kapcsolatvizsgálatban e viszonyszám szere111
pét is. A 6.2. a) tábla adataiból a következő módokon számolhatunk koordinációs viszonyszámokat: Nemek
100 gazdaságilag aktívra jutó nem aktív népesség
Férfiak Nők
25 46
Együttesen
35
és
Aktivitási csoportok
1000 nőre jutó férfi
Gazdaságilag aktív Gazdaságilag nem aktív
1143 615
Együttesen
976
Ha nem lenne kapcsolat a két ismérv között, ugyanannyi nem aktív lakos jutna az aktív népességre a férfiak és a nők körében is, mint a népesség egészében, továbbá azonos lenne az 1000 nőre jutó férfiak száma a két aktivitási csoportban és a lakosságban. 6.2.3. AZ ÁTLAGSZÁMÍTÁS ALKALMAZÁSA A KAPCSOLATOK VIZSGÁLATÁBAN Ha a sokasági ismérvek közül legalább az egyik arányskálán mért mennyiségi ismérv, ALKALMAZHATJUK A CSOPORTÁTLAGOK MÓDSZERÉT. Az eljárás lényege az, hogy csoportosítást végzünk az egyik ismérv szerint, majd a csoportokba betagolt adatoknak kiszámítjuk a másik ismérv szerinti átlagait. Ezek után megnézzük, hogy számértéküket tekintve különböznek-e a csoportátlagok egymástól. Ha azonosak, akkor a csoportosító ismérvnek nincs hatása a vizsgált mennyiségi ismérvre, de ha igen, nyilvánvaló az összefüggés. Ezen eljárás illusztrálására alkalmazhatjuk a szakképzettség és a kereset összefüggésére előzőleg bemutatott 6.1. példát. A szakképzettség szerinti csoportokban kigyűjtjük a dolgozók munkabéreit és kiszámítjuk azok átlagait (lásd 6.3. táblázat). Példa Egy vállalat fizikai dolgozóinak kereseti átlagai a szakképzettség szerint, 2001. január Szakképzettség szerinti csoportok
A csoport létszáma (fő)
A csoport bérösszege* (E Ft)
A csoport kereseti átlaga (E Ft/fő)
Segédmunkások Betanított munkások
27 34
1491 2765
55,22 81,32
Szakmunkások 30 2952 * Egyedi adatok és nem az osztályközepek alapján számolva
98,40
6.3. táblázat
A csoportátlagok különbözőségét a 6.3. táblában nem nehéz észrevenni, sőt azt sem, hogy a csoportosító ismérv változatainak sorrendje által jelzett szakképzettségi szint emelkedése maga után vonja a keresetek (átlagának) növekedését. Mindez pozitív irányú kapcsolat fennállására utal. A csoportátlagmódszert akkor is lehet alkalmazni, ha mindkét ismérvünk mennyiségi típusú. Ilyenkor a csoportosító ismérv vonatkozásában is számolhatunk csoportátlagokat. Majd a két ismérv szerint összetartozó átlagokat egymás mellé állítjuk, hogy megnézzük, együtt-haladnak-e, s ha igen, van-e ebben valamilyen felismerhető tendencia. 6.2.4. SZTOCHASZTIKUS KAPCSOLAT GRAFIKUS ÁBRÁZOLÁSA A kapcsolatok grafikus megjelenítésére elsősorban két ismérv esetén szokott sor kerülni. Az alkalmazott ábra megválasztása a kapcsolatban szereplő ismérvektől függ. Asszociációs és vegyes kapcsolatok ábrázolására SZTEREOGRAMOT alkalmazhatunk. Ilyen a következő ábra, amelyet a 6.1. táblázat adataiból készítettünk az Excel diagramvarázslójával. 112
Látható, hogy az oszlopok magassága nem egyenletes, sűrűsödés figyelhető meg bizonyos ismérvváltozat-pároknál. Mindez sejtetni engedi a vizsgált ismérvek között fennálló összefüggést. Két mennyiségi ismérv esetében lehetőség van arra, hogy a megfigyelt ismérvértékeinket derékszögű koordináta-rendszerben ábrázoljuk. Vezessük be az ismérvekre a változó fogalmát: ― az egyik ismérvet FÜGGETLEN VÁLTOZÓNAK nevezzük, s az erre vonatkozó megfigyelési értékeinket x-szel jelöljük, ― a másik ismérv A FÜGGŐ VÁLTOZÓ y jelöléssel. A sokaság minden egységére vannak x 6.1. ábra és y-ra vonatkozó megfigyeléseink, ezek a változó-párok. Mint összetartozó értékpárok a koordináta-rendszerben egy-egy ponttal fejezhetők ki. Ha minden egységet ily módon megjelenítünk, akkor kapjuk az ún. PONTDIAGRAMOT. (A pontokat nem kötjük össze: egyrészt sok adat esetén nem is lehet, másrészt ez ellentmondana a sokasági egységek függetlenségének.) A 6.2. ábrában feltüntettünk néhány pontdiagramot, amelyek lehetővé teszik, hogy megállapításokat tegyünk az összefüggésekről. Az ilyen pontdiagramok alapján négy kérdést szoktunk megvizsgálni: 1. Van-e valamilyen összeKét ismérv kapcsolatának függés az ismérvek között? különböző eseteit bemutató pontdiagramok 2. Milyen irányú az összefüga) A kapcsolat hiánya b) Függvényszerű kapcsolat gés: egyirányú (pozitív) y vagy ellentétes-e (negatív)? 10 3. Mennyire szoros a kapcso8 lat az ismérvek között? y 2,5 4. Milyen változással követi 6 2,3 az egyik ismérv a másik 4 2,1 változását? 1,9 2 A kérdések megválaszolásá- 1,7 x x 0 hoz a pontfelhő, ponthalmaz vo- 1,5 0 5 10 0 5 10 nulási irányát, szórtságát, alakját c) Sztochasztikus kapcsolat d) Sztochasztikus kapcsolat figyeljük meg. Az a) ábra a fügy getlenség állapotát szemlélteti. y Mint látjuk, ilyen esetben a pon- 7 6 tok egy vízszintes egyenes men- 6 5 tén szóródnak, jelezve azt, hogy 5 4 az x ismérv növekedésére az y 4 3 ismérv értékei semmiféle reagá- 3 2 lást nem mutatnak, csak a vélet- 2 1 lenek hatására ingadoznak. A b) 1 x x 0 0 ábra a másik szélsőséget példáz0 5 10 0 5 10 za: a pontok egy emelkedő egyenesen helyezkednek el. 6.2. ábra Egy cég fizikai dolgozóinak megoszlása a havi kereset és a szakképzettség szerint egy adott időszakban (sztereogram)
113
6.3. A SZTOCHASZTIKUS KAPCSOLATOK SZOROSSÁGÁNAK MÉRŐSZÁMAI Az összefüggések vizsgálata során felmerül annak az igénye, hogy megmérjük, hol helyezkedik el a vizsgált kapcsolat a függetlenség és a függvényszerű kapcsolat között. A két szélső eset közötti távolságot célszerű 0-tól 1-ig terjedő határértékek között 1 egységként számításba venni, ahol a 0 jelenti a kapcsolat teljes hiányát, az 1 pedig a függvényszerű kapcsolat esetét. Most már csak arra van szükség, hogy olyan mérőszámot alakítsunk ki, amely e két érték közé esik és tömören, egy számmal jellemzi a vizsgált sztochasztikus kapcsolatot. Az így nyert mutatót az összefüggés szorosságának megítélésére alkalmazzuk. A szorossági mutatók abszolút számértéke alapján a következő irányszámokat használjuk a kapcsolat szorosságának megállapításához: ― 0,4 alatt: laza összefüggés; ― 0,41–0,7: közepes szorosságú kapcsolat; ― 0,71–0,9: szoros összefüggés; ― 0,91 felett: igen szoros kapcsolat. Az egyes kategóriákhoz tartozó megállapításokat tovább finomíthatjuk a „gyenge” és „erős” fogalmakkal attól függően, hogy a kategória alsó vagy felső határához van-e közelebb a mutató. Több szorossági mérőszám előjellel is rendelkezik, amely a kapcsolat irányát jelzi. A statisztikai módszertan számos kapcsolatszorossági mérőszámot alakított ki, könyvünkben elsősorban az egyszerűbb mérőszámokkal foglalkozunk, ismertetésükre a sztochasztikus összefüggéstípusok szerint kerül sor. 6.3.1. AZ ASSZOCIÁCIÓ SZOROSSÁGA Az előzőekben említettük, hogy a nominális mérési szintű (minőségi és területi) ismérvek közötti kapcsolatokat ASSZOCIÁCIÓNAK nevezzük. Az asszociáció szorosságának mérésére alkalmazott mutatók képzésénél a már korábban megismert kombinációs táblából indulunk ki, amelyet e témában kontingenciatáblának hívunk (lásd 6.4. tábla). A TÁBLAMEZŐ CELLÁIBAN vannak az összetartozó (kétdimenziós) gyakoriságok. Általános jelölésük fij, ezek az „A” ismérv szempontjából az i-edik, a „B” vonatkozásában a j-edik ismérvváltozat-kombináció gyakoriságát jelentik. A kontingenciatábla sémája Az (A) ismérv változatai (i = 1 … s)
A (B) ismérv változatai (j = 1) ... t
Összesen
B1
B2
.
Bj
.
Bt
A1
f11
f12
.
f1j
.
f1t
f1 .
A2
f21
f22
.
f2j
.
f2t
f2 .
.
.
.
.
.
.
.
.
Ai
fi1
fi2
.
fij
.
fit
fi .
.
.
.
.
.
.
.
.
AS
fS1
fS2
.
fSj
.
fSt
fS .
Összeg
f .1
f .2
.
f .j
.
f .t
N
6.4. tábla
A viszonyszámokkal kapcsolatban megfogalmaztuk azt a szabályt (6.2.2. fejezet), hogy függetlenség esetén az egyik ismérv szerinti csoportokban a másik ismérv változataihoz tartozó részarányok megegyeznek a fősokaságbeli arányokkal. 114
Az első oszlop példáján: f11 f1. = f .1 N Az első sor példáján: f1.11 f .1 = f1. N A bemutatott elv alapján ki lehet számolni azt, hogy a két ismérv változatainak kombinációihoz (a táblamező celláihoz) mekkora gyakoriságok tartoznak, ha nincs közöttük semmilyen összefüggés. A függetlenség esetén várható (elméleti) gyakoriságok számítása a következő: az első cellában:
f11* =
f .1 ⋅ f1. N
általánosítva: f ij* =
f. j ⋅ f i.
N Tehát a táblamező gyakoriságait úgy számítjuk ki, hogy a hozzátartozó peremgyakoriságokat összeszorozzuk és azt a fősokaság elemszámával osztjuk. Könnyű belátni a következőket. Ha a kiszámított ― azaz a függetlenség esetén várt ― gyakoriságoktól a tényleges (tapasztalati) gyakoriságok eltérnek, akkor fennáll a kapcsolat a két ismérv között. Minél nagyobbak az eltérések, annál szorosabb az összefüggés. Kézenfekvő tehát, hogy a szorossági mérőszámokat ezen eltérésekből számítsuk ki. Egy olyan együtthatóra van szükségünk, amely összefoglalóan jellemzi az eltéréseket. Az aszszociációk szorosságának mérésére alkalmazott ún. kontingencia-együtthatók ebből indulnak ki. A mérőszámok mindegyike tartalmazza a NÉGYZETES KONTINGENCIÁT, amelyet χ2tel (Khi-négyzettel) jelölünk. Formulája a következő: χ =∑ 2
(f
ij
− f ij*
)
2
f ij*
ahol: f ij = a tényleges gyakoriságok; f ij* = a várható gyakoriságok . Asszociációs együtthatók Az asszociációs együtthatókat a χ2 alapján számítjuk ki. CSUPROV-FÉLE EGYÜTTHATÓ: T=
χ2 N (s − 1)(t − 1)
ahol: s = az egyik; t = a másik ismérv változatainak száma.* *
Az s a kisebb változatszám
115
A T együtthatónak van egy komoly hátránya. A maximális 1 értéket csak akkor veszi fel, ha a változatok száma azonos a két ismérvnél (s = t). Ha olyan ismérvek között keressük a kapcsolatot, amelyeknél a változatok számában eltérés tapasztalható, alkalmazhatjuk a következő asszociációs mérőszámot: CRAMER-FÉLE EGYÜTTHATÓ: C=
χ2 N(s − 1)
ahol: s ≤ t A mérőszám mindig 0 és 1 között veszi fel értékét, a gyökjelet általában nem szokták előjellel ellátni. Az együttható azt mutatja meg, hogy két ismérv független-e egymástól vagy sem. A következőkben egy mintapéldában megnézzük az ismertetett mutatók számítását és a kapott eredményekből levonható következtetéseket. Példa A gazdasági aktivitás és a nemek szerinti eloszlás egy lakossági mintában, 2001 eleje (fő) Megnevezés Gazdaságilag aktív Gazdaságilag inaktív
Férfi
Nő
Összes
160 40
140 65
300 105 405
Összesen 200 Megjegyzés: ezek tapasztalati gyakoriságok fij –k
205 *
Elméleti gyakoriságok számítása ― fij -ok Megnevezés Gazdaságilag aktív Gazdaságilag inaktív
Férfiak
Nők
Összes
(200 · 300) : 405 = 148,1 (200 · 105) : 405 = 51,9
(205 · 300) : 405 = 151,9 (205 · 105) : 405 = 53,1
300 105
200
205
405
Összesen
6.5. táblázat
χ =∑ 2
(f ij − f ji* ) 2 f i*
= [(160 − 148,1)2 : 148,1] + K + [(65 − 53,1)2 : 53,1] = 7,225
T=
χ2 7,225 = = 0,134 N (s − 1)(t − 1) 405 (2 − 1)(2 − 1)
C=
χ2 7,225 = = 0,134 N(s − 1) 405(s − 1)
Következtetés: A kiszámított Csuprov- és Cramer-féle asszociációs mérőszámok értéke megegyezik (s = t). A számérték alapján azt a következtetést vonhatjuk le, hogy igen gyenge az összefüggés a nemhez való tartozás és a gazdasági aktivitás között. 6.3.2. SORRENDI SKÁLÁN MÉRT (ORDINÁLIS) JELLEMZŐK KÖZÖTTI KAPCSOLAT VIZSGÁLATA
Emlékezzünk vissza az 1. fejezetben ismertetett mérési szintekről elmondottakra. Ha a sokasági egységeket egy vizsgált tulajdonság (ismérv) szerint nem tudjuk mennyiségileg megmérni, de rangsorba állításra van lehetőségünk, ordinális mérési szintről van szó. Ha 116
egy sokaság két ilyen ismérvét rangsorszámokkal látjuk el, akkor az egységekhez tartozó rangszámok összevetésével fényt deríthetünk arra, hogy van-e kapcsolat a két szóban forgó ismérv között. Ez a lényege annak az eljárásnak, amelyet RANGKORRELÁCIÓ-SZÁMÍTÁSNAK nevezünk. A statisztikusok többféle rangkorrelációs együtthatót dolgoztak ki, a leggyakoribb alkalmazású az ún. SPEARMAN-FÉLE ρ (ró) együttható, a következő formulával: 6 ⋅ ∑ D2 ρ = 1− 3 n −n ahol: D = az egységek rangszámainak különbsége. A mutató értéke mínusz 1 és plusz 1 között veszi fel értékét. Ha a két ismérv szerinti rangsor teljesen azonos, akkor a mutató +1, ha fordítottan alakul, akkor –1 értékű. Természetesen ritkán adódik az a helyzet, hogy a párba állított rangszámok teljesen megegyeznek. Legtöbbször nem teljesen haladnak együtt, azaz sztochasztikus kapcsolat van a rangsorolási szempontok (ismérvek) között. Ha az együtt járás teljesen rendszertelen, semmiféle kapcsolatról nem beszélhetünk. A rangkorrelációs vizsgálat elsősorban minősítési feladatokhoz kötődik. Ilyen alkalmazás lehet például az, ha több terméket két tulajdonság szerint rangsorolunk, és azt akarjuk megtudni, hogy a két tulajdonság között van-e összefüggés. Lehet pl. bormintákat minősíteni színre és zamatra, majd vizsgálni az e két jellemző közötti összefüggést. A hús színe és omlóssága között is indokolható lehet a kapcsolatkeresés. Van olyan gyakorlati feladat is – s ez egy más típusú eset – amikor több termék minősítését két bíráló végzi és az a kérdés, hogy azonosan ítélik-e meg a termékeket. Ha igen, akkor megnyugtató módon lehet a termékek végső rangsorolását elvégezni. A következőkben bemutatott Példa erre az második esetre vonatkozik. Példa Két bíráló (X és Y) 10 termék minősítésénél a következő rangszámokat adta a termékeknek Termékek Bírálók
A
B
C
D
E
F
G
H
I
J
5 4
8 9
10 10
7 8
6 5
1 1
–1 1
0 0
–1 1
1 1
Rangsorszámok X Y
2 3
3 1
1 2
4 6
9 7
–1 1
2 4
–1 1
–2 2 4 4 6.6. táblázat
Számítás D D2
∑D
2
=18
A rangkorrelációs együttható: 6 ⋅ ∑ D2 6 ⋅18 6 ⋅18 ρ = 1− 3 = = 1− = 0,89 n −n 1000 − 10 1000 − 10 Következtetés: Az együttható értéke szoros kapcsolatra enged következtetni, tehát a bírálók minősítése közel azonos megítélés szerint történt. Ezek után a termékek végső rangsorolását el lehet végezni a rangsorszámok összegzése alapján. A rangsorolási módszer természetesen vegyes kapcsolatok elemzésénél is alkalmazható. Ekkor az egyik ismérv ordinális változó, a másik pedig mennyiségi ismérv. Ez utóbbinál a rangsorolás minden nehézség nélkül, automatikusan megoldható. 117
6.3.3. A VEGYES KAPCSOLATOK SZOROSSÁGÁNAK MÉRÉSE Ha a kapcsolatban lévő ismérvek közül az egyik minőségi (vagy területi), a másik pedig mennyiségi ismérv, vegyes kapcsolatról beszélünk. Az ilyen összefüggések vizsgálatára a 6.2.3. fejezetben már megismertünk egy kapcsolatvizsgálati módszert, az ún. csoportátlagok módszerét. Említettük, hogy a csoportátlagok azonossága függetlenségre utal, míg különbözőségüket annak tudhatjuk be, hogy hatással van rájuk a csoportképző (a másik) ismérv. Ebben a fejezetben ennél tovább megyünk és konstruálunk egy mérőszámot, amely a bevezetőben ismertetett jegyekkel rendelkezik. A vizsgálat lényege a különbözőségmérés, ezt az eljárást már ismerjük szóródásvizsgálat néven. A 4. fejezetben volt erről szó, az ott ismertetettek közül jelen esetben A SZÓRÁSNÉGYZET (VARIANCIA) FELBONTÁSÁNAK MÓDSZERÉRE kell támaszkodnunk. Idézzük fel az ott tanultakat! A szórásnégyzet felbontás alaptétele szerint a teljes szórásnégyzet = a külső szórásnégyzet és a belső szórásnégyzet összegével: σ T2 = σ 2K + σ 2B A külső szórásnégyzetben a részátlagok eltérése – tehát a csoportosításból adódó különbözőség ― fejeződik ki, míg a belső szórásnégyzetben az egyéb (véletlen) tényezők okozta eltérések hatása számszerűsödik. A képletek: σK =
σ=
σB =
∑ (x − X)
2
j
N
∑ (x − x ) i
j
N
∑n σ j
2
vagy
2 j
N
ahol: nj = csoportonkénti elemszám;
x j = csoportátlagok; N = ∑ n j = összes elemszám;
x i = egyenkénti adatok; X = főátlag; σ 2j = csoportszó rásnégyzetek. A külső szórást a részátlagok főátlagtól vett eltéréseinek súlyozott négyzetes átlagaként számítjuk ki, míg a belső szórást kétféleképpen is számolhatjuk: ― az egyes adatoknak a saját csoportátlaguktól vett eltéréseinek négyzetes átlagaként; és ― a csoportszórások súlyozott négyzetes átlagaként. Ez utóbbinak azért van jelentősége, mert az alapadatokat sokszor nem ismerjük, csak a csoportokra vonatkozó alapstatisztikák (átlagok és szórások) állnak rendelkezésre. A külső szórásnégyzet akkor vesz fel 0 értéket, ha minden részátlag egyenlő, ekkor a másik (csoportképző) ismérv semmilyen hatást nem gyakorol a vizsgált mennyiségi ismérvre. Minél jobban különböznek a részátlagok a főátlagtól, annál nagyobb a befolyása a csoportképző ismérvnek, annál szorosabb a közöttük lévő összefüggés. Ezt a befolyásolást az ún. KÜLSŐ SZÓRÁSNÉGYZET-HÁNYADOSSAL lehet kifejezni. 118
Formulája: σ 2K σ T2 Négyzetgyöke a korrelációs hányados: σ 2K σ K = σ T2 σ T
H=
Példa Egy terméket három technológiával lehet előállítani. Azt kívánjuk megtudni, hogy van-e összefüggés a technológiai megoldás és a termelékenység között. A technológia a minőségi, a termelékenység pedig a mennyiségi ismérv. A megfigyeléseket és a számításokat a 6.7. táblázat tartalmazza. Technológiánkénti termelékenységi adatok és az összefüggés-vizsgálathoz szükséges számítások (munkaóra/db)
(
)
2
9,2
(8,4–9,2)2 (9,6–9,2)2 (10,3–9,2)2 (8,5–9,2)2 (9,2–9,2)2
5 · 0,500
5·(9,2–9,79)2
11,74
(10,3–11,74)2 (10,9–11,74)2 (13,0–11,74)2 (10,4–11,74)2 (14,1–11,74)2
5 · 2,346
5·(11,74–9,79)2
8,2 9,3 8,2 7,3 9,1
8,42
(8,2–8,42)2 (9,3–8,422 (8,2–8,42)2 (7,3–8,42)2 (9,1–8,42)2
5 · 0,518
5·(8,42–9,79)2
146,8
29,36
16,82
16,82
30,14
„A” technológia 1 2 3 4 5
8,4 9,6 10,3 8,5 9,2
Összeg (főátlag)
(x − x )
n j xj−X
xi
„B” technológia 1 2 3 4 5 „C” technológia 1 2 3 4 5
xj
n j σ 2j
Technológiák
10,3 10,9 13,0 10,4 14,1
2
i
j
6.7. táblázat
σ
2 K
∑ n (x − X ) =
σ
2 B
∑ (x − x ) =
2
j
j
N
2
i
N
σ 2K + σ 2B = σ 2T
j
=
30,14 = 2,01 15
∑n σ = j
2 j
N
=
16,82 = 1,12 15
2,01 + 1,12 = 3,13
σ T2 = 3,13
σ 2K 2,01 = = 0,801 H= 2 3,13 σT 119
Következtetések: Megállapíthatjuk tehát, hogy szoros kapcsolat van az „A”, „B” és „C” szerinti technológiai megoldások és a termelékenység között. A négyzetgyökvonás nélküli formának is van önálló jelentése, ezt a szakirodalom külsőszórás-négyzethányadosnak nevezi, s százalékosan, mint determinációs együtthatót értelmezi. Példánkban ennek értéke 64,1%, ami azt jelenti, hogy a termelékenységben jelentkező differenciáltságot a technológiai megoldás különbözősége 64,1%-ban magyarázza, az egyéb tényezők szerepe 35,9%. 6.4. KORRELÁCIÓS KAPCSOLATOK VIZSGÁLATA A 6.1. fejezetben már említettük, hogy a mennyiségi ismérvek közötti összefüggés típusát nevezzük KORRELÁCIÓNAK. Azt is megtanultuk, hogy a mennyiségi ismérvek jelentik a legmagasabb színű mérést. Ebből logikusan következik, hogy ezen ismérvek kapcsolatát egzaktabban tudjuk kifejezni, mint az előző fejezetekben szereplő adattípusokét. Nyilván az eljárás is bonyolultabb lesz, de megéri a fáradságot a többletinformációért. A vegyes kapcsolatok vizsgálatánál bevezettük a mennyiségi ismérvre a változó fogalmát. E fejezetben két változóval fogunk találkozni, jelölésük és elnevezésük a következő: ― x változó → tényező- vagy magyarázó változó, ― y változó → eredményváltozó. Ok-okozati összefüggéseknél az okot tekintjük x-nek, az okozatot pedig y-nak. Kölcsönhatások elemzésénél a vizsgálati célkitűzés az irányadó. A mennyiségi ismérvek esetében a kapcsolat fennállásának vizsgálatán és a kapcsolat szorosságának mérésén kívül lehetőségünk van a kapcsolatban mutatkozó törvényszerűség feltárására is. A SZOROSSÁG és a TÖRVÉNYSZERŰSÉG, a kapcsolatvizsgálat két szempontja, két oldala a mennyiségi ismérvek esetében. A mennyiségi ismérvek kapcsolatának szorosságát (erősségét, intenzitását) mérő módszert nevezzük KORRELÁCIÓSZÁMÍTÁSNAK. A törvényszerűség vizsgálatára szolgáló eljárás a REGRESSZIÓSZÁMÍTÁS. Ennek során a változók egymásra gyakorolt hatását függvénnyel írjuk le, amelyet a sztochasztikus törvényszerűség matematikai modelljének tekintünk. (Utóbbival tananyagunkban nem foglalkozunk, csak a korrelációszámítással.) A következő részben bemutatott szorossági mérőszámokat lineáris (egyenes vonalú) összefüggések esetén alkalmazzuk, vagyis akkor, amikor az x jelenség egységnyi változását az y azonos mértékű változással követi. Két korrelációs mérőszámot mutatunk be, mindkettőnél azonos a módszer, a meghatározás a változók átlagtól való eltéréseinek megállapításán alapul. A különbség az, hogy az egyik esetben csak az előjelekkel dolgozunk, a másik mérőszámnál a számértékekkel is. ELŐJEL-KORRELÁCIÓS EGYÜTTHATÓ: re =
p− q n
ahol: p = a pozitív; q = a negatív eltéréspárok előjelszorzatainak száma. Az eljárás azon a meggondoláson alapul, miszerint ha két változó között összefüggés van ― pl. pozitív ―, akkor az egyik változó átlag alatti értékei a másik változó ugyancsak átlag alatti értékeivel járnak együtt, az átlag feletti értékek pedig a másiknál is átlag felettiekkel. Negatív kapcsolat esetén ellentétes irányú az együtt haladás. Az együtt járást az átlageltérések előjeleinek összeszorzásával teremtjük meg. Nézzük ezt egy gyakorlati példán! 120
Példa Egy cég reklámtevékenységének és forgalmának havi adatai és az attól való eltérések, 2001 Hónapok
Reklámkiadás (M Ft) x
Termékforgalom (M Ft) y
x− x előjelei
y− y előjelei
január február március április május június július augusztus szeptember október november december
8 7 4 3 5 4 5 7 3 5 9 6
20 16 15 14 19 12 18 24 16 22 28 25
+ + – – – – – + – – + +
+ – – – – – – + – + + +
Átlag
5,5
19,1
(x − x)(y − y) előjelei
+ – + + + + + + + – + +
p = 10, q = 2 6.8. táblázat
Az előjel-korrelációs együttható számítása: p− q 8 = = + 0,67 n 12 Tehát jó közepes pozitív összefüggés állapítható meg a reklámkiadások és a termék forgalmi értéke között. Az előjel-korreláció fogyatékossága, hogy az eltérések számértékeit nem veszi figyelembe. Pedig nem lehet közömbös, hogy mekkorák ezek az eltérések. Ezt a hátrányt küszöböli ki a következő mérőszám a korrelációs együttható. re =
KORRELÁCIÓS EGYÜTTHATÓ A korrelációs együttható (r) kidolgozása PEARSON nevéhez fűződik. A mutató fő része A PÁRONKÉNTI ÁTLAGTÓL VETT ELTÉRÉSEK SZORZATÖSSZEGE, melynek jelölése: ∑ dx dy Ez az összeg nemcsak az eltérésektől, hanem az adataink nagyságrendi viszonyaitól és a megfigyelések elemszámától is függ, semmiképp sem esik az elvárt |0–1| értékközbe. Ha elosztjuk a szorzatösszeget az elemszámmal és a változók szórásának szorzatával, akkor a kifejezés már eleget tesz ennek a követelménynek. Kiszámítási formulái: r= vagy átalakítás után: r=
∑d
x
dy
n⋅ σ x σ y
∑d d ∑d ∑d x
2 x
y
2 y
A korrelációs együttható előjellel rendelkezik, amely a számláló, vagyis az eltérésszorzatösszeg előjelétől függ. Értelemszerűen a + előjel pozitív, a – pedig negatív kapcsolatot jelez. Elhelyezkedése: − 1 ≤ r ≤ +1 121
Példa Számítsuk ki ezt a mérőszámot a 6.8. táblázat adataiból! A szükséges számításokat a 6.9. táblázat tartalmazza. Számítások a korrelációs együtthatóhoz a reklámköltség és a forgalmi érték összefüggésének példájában
dx
dy
dxdy
d 2x
d 2y
január
2,5
0,9
2,25
6,25
0,81
február
1,5
–3,1
–4,65
2,25
9,61
március
–1,5
–4,1
6,15
2,25
16,81
⋅
⋅
⋅
⋅
⋅
0,5
5,9
2,95
0,25
34,81
75,50 6.9. táblázat
41,00
260,92
Hónapok
⋅ december Összesen
A korrelációs együttható: r=
Σd x d y Σd 2x Σd 2y
=
75,5 = + 0,73 41 ⋅ 260,92
A korrelációs mérőszámból determinációs együttható számolható: D = r2 ⋅ 100 Következtetések: Szorosnak ítélhetjük az összefüggést a reklámkiadások és a termékforgalom között, a reklámkiadás növekedése maga után vonja a bevételek növekedését. A D azt mutatja meg, hogy az x 53,3%-ban befolyásolja (magyarázza) az y változó alakulását, az egyéb, általunk nem vizsgált tényezők szerepe 46,7%. Fentiekben két változó kapcsolatát elemeztük, de elemzésünket kiterjeszthetjük több változóra is. Például háztartásokban vizsgálhatjuk egy termék fogyasztását (Y) a termék árával (x1) és a háztartások jövedelmével (x2) összefüggésben. A kapcsolat szorosságát páronként és együttesen is vizsgálhatjuk, ennek részletezése azonban meghaladja a szakra, a statisztikai módszertan vonatkozásában érvényben lévő képesítési követelményeket.
122
6.5. ELLENŐRZŐ KÉRDÉSEK 1. Mi a különbség a függvényszerű és a sztochasztikus kapcsolatok között? 2. Milyen jellegű lehet a sztochasztikus kapcsolat? 3. Hogyan szolgálja a csoportosítás a kapcsolatok elemzését? 4. Mi a viszonyszámok szerepe a kapcsolatok vizsgálatában? 5. Hogyan lehet az átlagszámítást az összefüggések vizsgálatára felhasználni? 6. Milyen célt szolgál az ábrázolás a kapcsolatok jellemzőinek feltárásában? 7. Mi jellemző az asszociációs kapcsolatok mérőszámaira? 8. Milyen ismérvek sztochasztikus kapcsolatát vizsgálhatjuk rangkorrelációs együtthatóval és milyen konkrét feladatokra alkalmazzuk ezeket? 9. A vegyes kapcsolatok szorosságának vizsgálata milyen módszeren alapul? 10. Mi a korrelációszámítás lényege? Milyen mérőszámokkal mérhető a korrelációs kapcsolat szorossága?
123
7. IDŐSOROK ELEMZÉSE A dinamika, vagyis az időbeli változások vizsgálata minden területen kiemelt jelentőségű. Az időbeli változásokat regisztráló idősorokat általában több tényező együttes eredményének tekintjük. Az idősorok megismerésére alkalmazott módszereket megkülönböztetjük aszerint, hogy együttesen kezelik-e a tényezőket, avagy elkülönítik hatásukat az idősoron belül. Az elsőként említett megközelítés során már korábban megismert módszereket alkalmazhatunk. Ezek olyan egyszerűbb idősor-elemzési módszerek, amelyek segítségével átfogó képet kaphatunk az idősorokról, megismerhetjük viselkedésüket, az időbeli változások főbb jellegzetességeit. A második megközelítésben tovább megyünk az időbeli változások leírásán, és az idősorok alakulásában az összetevők hatását is vizsgáljuk. Nyilvánvaló, hogy ezen vizsgálatokra bonyolultabb módszereket kell alkalmaznunk. Szerencsére a segítségükkel levonható következtetések is gazdagabbak az egyszerűbb módszerek adta lehetőségeknél. A hetedik fejezet első része az egyszerűbb elemzési módszerek áttekintését tartalmazza, ez részben ismerős lesz az előző fejezetekből. A második részben részletesen foglalkozunk az idősorok összetevőivel: a trendszámítással és a periodikus ingadozások mérésével (determinisztikus idősorvizsgálat). Megemlítjük, hogy a statisztikai módszertanban több idősorelemző módszer is ismert, ezekkel az egyetemi szintű statisztikai kurzusok programjában szereplő eljárásokkal tananyagunkban nem foglalkozunk. 7.1. AZ IDŐSOROK ELEMZÉSÉNEK EGYSZERŰBB MÓDSZEREI 7.1.1. VISZONYSZÁMOK, INDEXEK, ÁBRÁZOLÁS Az idősorokról jegyzet első fejezetében olvashattunk először. Az ott leírtakból tudjuk: ha egy sokaság valamilyen tulajdonságát különböző időpontokban, időszakokban figyeljük meg, a kapott adatok idősort alkotnak. A megfigyelési sorozat általában egyenlő időközökre vonatkozik. A mérési időpontokra a t = 1, 2, 3, … n jelöléseket alkalmazzuk, az egyes t értékekhez tartozó megfigyelési sorozatot pedig y1, y2, y3 … yn jelölésekkel látjuk el. Ahogy említettük, az átfogó idősorvizsgálathoz a már korábban megismert módszertani eszköztárból válogathatunk. Alkalmazhatjuk: ― a viszonyszámokat; ― a grafikus ábrázolást; ― az átlagokat; ― az indexeket. A viszonyszámok közül a DINAMIKUS VISZONYSZÁMOK jönnek szóba az időbeli változások jellemzésére. Mint tanultuk, ezek a viszonyszámok a százalékos változásokat adják meg egy rögzített időponthoz vagy időszakhoz képest (bázis), illetve az előző megfigyelési időkhöz (lánc) képest. Az ide vonatkozó részletes ismeretek a 2.4. fejezetben találhatók. Volt szó arról is, hogy az idősorokat különböző ábrákkal vizuálisan is megjeleníthetjük, s erre a célra legtöbbször grafikont alkalmazunk, de hasznosak lehetnek az oszlopdiagramok is. Az ábrák sokkal szemléletesebben mutatják a változási irányokat, mértékeket, mint maguk a puszta idősorok. Az eddigiekben nem volt szó viszont az idényszerű változások speciális ábrájáról, a poláris görbéről vagy POLÁRIS DIAGRAMRÓL. (Az Excel diagramvarázslójában az ábra neve sugárdiagram.) A poláris koordináta-rendszerben való ábrázolásnál az időt a külső körkerületen, a mennyiségi léptéket egy sugáron szerepeltetjük, ezt mutatja a következő ábra: 124
A hazánkba látogató külföldiek számának alakulása a 2000. év egyes hónapjaiban (ezer fő)
december november
október
január 5000 4000 3000
február március
2000 1000 0
április
szeptember
május
augusztus
június július 7.1. ábra
Minél alaktalanabb a diagram, annál nagyobb a havi ingadozás. Látható, hogy február hónapban látogatnak hazánkba a legkevesebben (1,6 millió fő körül), augusztus a csúcshónap, több mint 4 millió fővel. 7.1.2. IDŐSOROKBÓL TÖRTÉNŐ ÁTLAGSZÁMÍTÁS Átlagos állomány Az átlagokat kétféle megközelítéssel lehet alkalmazni az idősorelemzésben. Az egyik felhasználás STATIKUS SZEMPONTÚ, ekkor egy adott időszakra vonatkozó átlagértéket számítunk ki. Az egyik gyakorlati eset az idősor egyik típusához, az állapotidősorhoz igazodik. Mint arról már volt szó, ez az idősor állományi jellegű adatokból áll (készlet, munkaerő, tőkeállomány stb.). Ebben az esetben jön szóba az ÁTLAGOS ÁLLOMÁNYNAGYSÁG kiszámítása, erre szolgál a kronologikus átlag. A KRONOLOGIKUS ÁTLAG az egyenlő időközű adatok esetén olyan speciális számtani átlagnak tekintendő, ahol az első és az utolsó adat súlya 1/2, a közbülsőké pedig 1. Az átlagoláshoz eggyel több adat kell, mint az átlagolandó időszakok száma. Ha például egy adott év első negyedévének viszonylatában hó eleji adatokat átlagolunk, akkor negyedik adatként a következő negyedév első hónapjának induló adatára is szükség van. Ez utóbbi egyben a vizsgált első negyedév végének adata is, s mint ilyen, lezárja az átlagolt időszakot. E példában negyedéves viszonylatú havi átlagot számolunk a következő eljárás szerint. Első lépésben az első negyedév három hónapjának átlagait határozzuk meg: y1 + y 2 2 y +y = 2 3 2
y jan . =
y febr .
y márc . =
y3 + y4 2 125
Következő lépésben a havi átlagok átlagolásával a kérdéses negyedévi átlagot számítjuk ki: y1 + y 2 + y 2 + y 3 + y 3 + y 4 y1 y1 + y 2 y 2 + y 3 y 3 + y 4 y + + + y2 + y3 + 4 2 2 2 2 2 = = 2 y I . n . év = 3 3 3 Mint látjuk, a számítás egy lépésre egyszerűsödik, a havi átlagok kiszámítását el lehet hagyni. A fenti utolsó formula általánosításával adódik a kronologikus átlag képlete: y1 y + y2 + K + n 2 y= 2 n−1 Látjuk, hogy a felhasznált adatok száma az átlagolt időszak tagjainak száma + 1. Időegységre jutó átlagos érték Abszolút számokból álló tartamidősorok esetében egyszerű számtani átlaggal számítjuk a fenti értéket, vagyis összeadjuk az y-okat és elosztjuk n-nel. Ha az átlagolandó értékek viszonyszámok, súlyozott számtani vagy harmonikus átlagot alkalmazunk, attól függően, hogy mi a súlyismeret (lásd korábban). A következő példában bemutatjuk az idősorokból történő átlagszámítás mindkét (átlagos állomány, időegységre jutó átlagos érték) esetét egy gazdálkodó szervezet 2001. évi adatai alapján. Példa Egy gazdálkodó szervezet létszám- és árbevétel adatai Negyedév Létszám Árbevétel Negyedév eleje (fő) (M Ft) 2001. I.
32
2001. I.
160
II.
42
II.
320
III.
50
III.
450
IV.
38
IV.
280
2002. I.
36 7.1. tábla
Határozzuk meg a 2001. évre vonatkozó átlagos negyedévi létszámot és árbevételt! A negyedévi átlagos létszám: y1 y 36 32 + y2 + ⋅⋅ + n + 42 + 50 + 38 + 2 = 2 2 = 41 fő y= 2 n−1 4 A negyedévi átlagos árbevétel: y=
∑y n
i
=
160 + 320 + 450 + 280 = 302,5 M Ft 4
Átlagos változás Az időbeli alakulások vizsgálata során gyakran tesszük fel a kérdést, milyen átlagos változást mutat a jelenség a vizsgált időszak alatt. E kérdésfeltevésnek csak abban az esetben van értelme, ha a jelenség a vizsgált időszak alatt végig azonos irányban változik: vagy növekedik, vagy csökken. A változást két megközelítésben is vizsgálhatjuk. Abszolút számmal adhatjuk meg a változás átlagos mértékét, százalékos kifejezésű relatív számmal pedig a változás átlagos ütemét. AZ ÁTLAGOS VÁLTOZÁSI MÉRTÉK Az egymást követő időszakok különbségeinek számtani átlagával egyenlő. A különbségeket di-vel jelöljük, számuk n–1. A következő öttagú idősorra mutatjuk be a számítást. Jele: d 126
Példa
∑ (y − y
)
y 2 − y1 + y 3 − y 2 + y 4 − y 3 + y 5 − y 4 n−1 n−1 1 y1 ― Mivel a + és – előjellel is előforduló y2, y3, és y4 kiejtik 2 y2 y2–y1 egymást: y −y 3 y3 y3–y2 d= 5 1 n−1 4 y4 y4–y3 Látható, ha rendre kiszámítjuk az egymást követő 5 y5 y5–y4 időszakok különbségeit és azokat összeadjuk (számtani átlag számlálója), azt tapasztaljuk, hogy az összeg yn–y1 különbséggel egyenlő. Az általános képlet tehát: ti
yi
di = yt–yt–1
d=
t
d=
t −1
=
y n − y1 n−1
Az átlagos változási ütem Az egymást követő időszakok relatív változásainak ― a jól ismert láncviszonyszámoknak ― a mértani átlaggal történő átlagolása. A szorzással kapcsolatos mértani átlag alkalmazásának az a logikai alapja, hogy tárgyi értelme a láncviszonyszámok szorzatának van és nem az összegének. Jele: l Képlete: l = n l 2 ⋅ l 3 Kl n Ismert, hogy l 2 ⋅ l 3 Kl n = B n , amely az utolsó időszak bázisviszonyszáma, s általában az idősor legutolsó és legelső adatának hányadosaként adódik. Így az átlagos relatív változást kifejező gyakorlati képlet: y I = n −1 n y1 A mértani átlagot százalékosan fejezzük ki. Kiszámítása akkor indokolt, ha az egyik időszakról a másikra a jelenség megközelítően azonos ütemben nő vagy csökken. Az átlagos változások megállapítását a következő Példa alapján mutatjuk be, amelyben a megtakarítások havi átlagos változását kívánjuk megállapítani a magyar háztartásokban. Példa A magyar háztartások értékpapírban történő megtakarításai egy adott évben (milliárd Ft) Az időszak végén
Értékpapír (Mrd Ft)
Az időszak végén
Értékpapír (Mrd Ft)
január
576,4
július
659,6
február
597,4
augusztus
669,7
március
610,6
szeptember
680,8
április
620,2
október
697,0
május
632,8
november
713,1
június
647,3
december
720,2
7.2. táblázat
Átlagos növekedési mérték: d=
y n − y1 720,2 − 576,4 = = 13,07 Mrd Ft n−1 11
127
Átlagos növekedési ütem: d = n −1
yn 720,2 = 11 = 1,0204 2,04% y1 576,4
A vizsgált időszakban az értékpapír-megtakarítás havi átlagos növekedése 13,07 milliárd Ft-ot, illetve 2,04%-ot tett ki. 7.2. AZ IDŐSOROK ÖSSZETEVŐINEK VIZSGÁLATA Az előző fejezetben tárgyalt módszereknél az idősor adatait együttesen kezeltük. A következőkben mélyebbre ható vizsgálatokat végzünk, és szemügyre vesszük az idősort alakító komponenseket is. Az idősorokat általában három tényező eredőjének tekintjük, ezek: ― az alapirányzat; ― a periodikus hullámzás: szezonalitás és ciklusosság; ― a véletlen ingadozás. A három komponensre a következők jellemzőek: Az alapirányzat vagy TREND hosszú távon ható tartós alaptendencia, az időbeli alakulás legfontosabb komponense, a változás fő iránya. A trend mögött több meghatározó tényező állhat. A gazdasági jelenségek mozgásában alapvető szerepük van a közgazdasági törvényeknek és a vizsgált jelenséggel összefüggő egyéb speciális körülményeknek. Ha megváltoznak a törvényszerűségek, illetve azok a feltételek, amelyek között e törvények hatnak, más fejlődési irányzat veszi kezdetét. A PERIODIKUS HULLÁMZÁS a trendre rárakódó, az egyes periódusokon belül rendszeresen, vagy kevésbé rendszeresen visszatérő ingadozás. Két megnyilvánulása van: ― az állandó hosszúságú perióduson belül szabályosan ismétlődő rövid távú szezonális ingadozás, ― a változó periódus hosszúságú, kevésbé rendszeresen jelentkező, hosszú távú ciklikus ingadozás. Jellegzetes SZEZONÁLIS HULLÁMZÁST tartalmaznak az idegenforgalomra, a kereskedelemre, az építőipari termelésre vonatkozó idősorok, illetve a mezőgazdasági jelenségek alakulásában is gyakran jelentkezik az idényszerűség. A szezonális eltéréseket sok esetben az évszakok hatása okozza, de szerepet játszhatnak társadalmi szokások és hagyományok is. A CIKLIKUS INGADOZÁST csak hosszabb idősor esetén lehet tanulmányozni. Ez a hullámzás tartósan jelentkezik a trend fölött vagy alatt. A periódushossz, amely alatt a hullámhegy és hullámvölgy „levonul” nem állandó, nagyságát csak hozzávetőlegesen lehet megadni. A periodikus hullámzás e kategóriájára elsősorban a gazdasági életben jelentkező konjunktúraciklus a jellemző. A gazdasági ciklushatások mellett kimutathatók bizonyos meteorológiai ciklusok, amelyek kihatnak a mezőgazdasági jelenségek alakulására is. A VÉLETLEN INGADOZÁS szabálytalan, rendszertelen hullámzást jelent, e zavaró hatást igen sok, egyenként nem jelentős tényező eredményezheti, amelyek hatásukban összegződhetnek, de ki is olthatják egymást. Az egyes idősorok természetesen nem tartalmaznak minden összetevőt. Vannak olyan idősorok, amelyekben nem észlelhető semmiféle határozott változási irány, azaz hiányzik belőlük a trendhatás, ezeket stacionárius idősoroknak nevezzük. Ezekben csak valamilyen hullámzás jelentkezik. Ha éves adatokat tartalmazó idősorunk van, értelemszerűen nem jelentkezhet benne szezonalitás, de ciklushatást sem tudunk kimutatni egy olyan idősorból, amely csak 8-10 adatból áll. 128
Az egyes komponensekre a statisztikai módszertan a következő jelöléseket alkalmazza: ˆ 6 ― trend: Y ― szezonális hullámzás: S ― ciklikus ingadozás: C ― véletlen hatás: V Az idősor összetevői két módon kapcsolódhatnak egymáshoz: ― összegszerűen, additívan; ― szorzatos, multiplikatív formában. AZ ADDITÍV FORMA KÉPLETE: ˆ + S+ C+ V Y=Y A MULTIPLIKATÍV FORMA KÉPLETE: ˆ ⋅ S⋅ C⋅ V Y=Y Az idősor vizsgálata során általában rövidebb idősorokkal szoktunk dolgozni, olyanokkal, amelyeknél ciklushatással viszonylag ritkán kell számolni. A gyakorlatban általában a következő idősorformulákkal találkozhatunk: IDÉNYEKET IS TARTALMAZÓ ADATOK:7 ˆ + S+ V Y=Y ˆ ⋅ S⋅ V Y=Y ÉVES ADATOK: ˆ+V Y=Y ˆ ⋅V Y=Y TRENDMENTES IDŐSOROK:8 Felmerülhet a kérdés, hogy additív vagy multiplikatív modellel van-e dolgunk. Ez elsősorban a periodikus hullámzás mérésénél, illetve a véletlen hatás meghatározásánál lehet lényeges. A kérdés eldöntésében segíthet az idősor ábrája. Additív idősort tételezünk fel, ha a hullámok a vizsgált időszakban közel azonos nagyságúak, és multiplikatív típust, ha a hullámok az idő folyamán egyre nagyobbakká válnak, vagy éppen csillapodnak. A DEKOMPOZÍCIÓS IDŐSORELEMZÉS lényege, hogy az idősort felbontjuk komponenseire, elkülönítjük az összetevők egyedi hatását. Ezáltal lehetővé válik, hogy a tényezőket egyedileg, külön-külön tanulmányozhassuk. Az elkülönítés elvi alapja az idősor megtisztítása a többi tényezőtől. Azaz ha az egyik komponens hatását akarjuk mérni (pl. az alaptendenciáét), akkor a többi összetevő, így a periodikus és a véletlen ingadozások hatását ki kell szűrni az idősorból. Ha viszont a periodikus ingadozás mérése a cél, mentesíteni kell az idősort a trendtől és a véletlen hatásoktól. Az, hogy a trend és a szezonális hullámzás esetén ez az eljárás hogyan megy végbe, kiderül a következő fejezetekből. 6
Ejtsd: y becsült. Nem minden idényeket tartalmazó idősorban jelentkezik szezonhatás. 8 Az idősor rövid vagy hosszabb távon stagnálást mutat. 7
129
7.3. TRENDSZÁMÍTÁS Az idősorelemzés kiemelt feladatát képezi az alaptendencia megismerése. Ahhoz, hogy tisztán lássuk a trendhatást, el kell tekintenünk a többi idősor-összetevőtől. Az előbbiekben kifejtettekből világosan kitűnt, hogy a trenden kívüli tényezők eltérítő, hullámzó hatást fejtenek ki. E tényezők kiszűrése az idősor kisimítását jelenti. A trendszámítás feladata tehát az idősor kiegyenlítése, a hullámzások lecsillapítása. Ez lehetővé teszi, hogy tisztán lássuk a trendvonalat. A trendszámítás során tehát a trendet egy kisimított geometriai vonallal írjuk le. Két fő módszer ismeretes: a MOZGÓ ÁTLAGOLÁS és az ANALITIKUS TRENDSZÁMÍTÁS. 7.3.1. MOZGÓÁTLAGOLÁSÚ TRENDSZÁMÍTÁS Az átlagszámítás azáltal, hogy eltünteti az adatok közötti különbségeket, kiválóan alkalmas arra, hogy a hullámzást e módszerrel kiküszöböljük. Nem egy átlagot számolunk, hanem láncolatosan tovahaladó átlagolást végzünk, ezért nevezzük a módszert mozgóátlagolásnak. Az átlag számtani átlag típusú. Az eljárás lefolyása a következő: 1) Eső lépésként eldöntjük, hogy hány taggal célszerű az átlagolást végezni. (A tagszámot k-val jelöljük.) 2) Kiszámítjuk az első k adat átlagát, ez lesz az első trendérték, amelyet az átlagolt időszak közepéhez, vagyis a (k+1):2-edik időismérvhez rendelünk. 3) Elhagyjuk az első idősoradatot és vesszük helyette a következőt. Ismét kiszámítjuk a k tagú mozgóátlagot, amit ugyancsak az átlagolt időszak közepéhez igazítunk. 4) Ezt az eljárást folytatjuk addig, amíg nem érünk az idősor végére. ˆ - ket, mint a kiegyenlített idősor Ezáltal előállítottuk a trendértékek sorozatát, tehát az Y tagjait. Mindezeket három tagú mozgóátlag esetén (k = 3) a következő táblázat mutatja be. Három tagú mozgóátlagok számításának sémája Időismérvek ti
Az idősor adatai yi
Mozgóátlagok (trendértékek) ˆ Y
1
y1
―
2
y2
(y 1 + y 2 + y3 ): 3 = y^ 2
3
y3
(y 2 + y 3 + y 4 ) ⋅ 3 = yˆ 3
.
.
n–2
yn–2
(y n −3 + y n −2 + y n −1 ) ⋅ 3 = yˆ n − 2
n–1
yn–1
(y n −2 + y n −1 + y n ) ⋅ 3 = yˆ n −1
n
yn
.
― 7.3. táblázat
A táblázatból kitűnik, hogy a t1-hez és a tn-hez nem tartozik trendérték, vagyis lerövidül az idősor. Ez a módszer egyik hátránya. Minél több taggal végezzük el a mozgóátlagolást, annál rövidebb lesz a kiegyenlített idősor. Ha k páratlan, akkor (k–1)-gyel, ha páros, akkor k taggal kevesebb az új idősor. A páros tagú mozgóátlagolásnál felmerül egy probléma, nevezetesen az, hogy nem tudjuk konkrét időismérvhez rendelni a mozgóátlagokat. A megoldás a CENTÍROZÁS, ami két lépésben végzett mozgóátlagolást jelent. Rövidebb úton is eljuthatunk a végső mozgóátlagokhoz, mégpedig a (k+1) taggal végzett kronologikus átlagolás műveletével. Ha a 130
mozgóátlag tagszámát 4-nek választjuk, akkor a számítható első-, a t3-hoz és a második, a t4-hez tartozó trendérték kiszámítása a következők szerint történik: y y1 + y 2 + y3 + y 4 + 5 2 yˆ 3 = 2 4 y y2 + y3 + y 4 + y5 + 6 2 stb . yˆ 4 = 2 4 Nézzük meg, milyen szempontokat mérlegelünk a MOZGÓÁTLAG TAGSZÁMÁNAK MEGVÁLASZTÁSÁNÁL. Mint említettük az átlagszámítás művelete révén érjük el az ingadozások kisimítását. A véletlen ingadozásokról elmondható, annál jobban ki tudjuk e hatásokat iktatni, minél nagyobb tagszámmal dolgozunk. (Emlékezzünk vissza, sajnos ez esetben egyre rövidebb lesz a kiegyenlített idősor.) Nem ilyen egyszerű a helyzet a szezonalitás kiküszöbölésénél. A periodikus ingadozás hatásának kikapcsolását a mozgóátlag tagszámának megfelelő megválasztásával érjük el. Úgy kell a k-t megállapítani, hogy az átfogjon egy ― az idényekből álló ― teljes periódust. Konkrétan ez azt jelenti, hogy a k egyezzen meg egy periódus idényeinek számával vagy annak többszörösével. A mozgóátlagolás előnye, hogy gyors, kevés számolást és komolyabb előzetes meggondolásokat igénylő eljárás. Hátránya viszont, hogy a trendről csak verbális megállapításokat fogalmazhatunk meg az ábra alapján, és nem kapunk számszerű információkat. A másik hátrány a már említett lerövidülés. Nézzük meg a mozgóátlagolású trendszámítást, amely idényhatással is számol! Példa Egy gazdálkodó szervezet árbevételének negyedévenkénti adatai (1996–2000) Év
Negyedév
Árbevétel (M Ft) yi
Mozgóátlagok k=4yˆi
1996.
I. II. III. IV.
72 69 65 75
― ― 71,0* 72,6**
1997.
I. II. III. IV.
78 76 74 84
74,6 76,9 78,8 80,0
1998.
I. II. III. IV.
84 80 82 90
81,5 83,2 84,8 86,4
1999.
I. II. III. IV.
90 87 86 94
87,8 88,8 90,0 91,4
2000.
I. II. III. IV.
96 92 94 100
93,0 94,8 ― ―
Összesen
1668 7.4. táblázat
131
*
72 78 + 69 + 65 + 75 + 2 2 = 71,0 4
**
69 76 + 65 + 75 + 78 + 2 2 = 72,6 kronologikus átlag 4 Ha megnézzük a 7.2. ábrát, Az eredeti és a mozgóátlagolással kiegyenlített ahol az eredeti és a mozgóátlagoidősorok grafikonja M Ft lással kiegyenlített idősorok grafi- 130 Az árbevétel alakulása konjai láthatók, megállapíthatjuk, hogy az árbevétel alaptendenciája végig növekvő volt. A kisimítással majdnem egyenest kaptunk, kö- 90 vetkezésképpen a negyedévi változások közel azonos mértékűek 50 voltak. A mozgóátlagolás módszerét II. IV. III. IV. III. I. 1999 I. 1996 legtöbbször közvetett céllal, a töbmozgóátlag eredeti bi komponens hatásának mérésé7.2. ábra nél alkalmazzuk. Ha például a periodikus hullámzást akarjuk mérni, akkor szükségünk van a trendértékekre, hogy a trendhatástól mentesíteni tudjuk az idősort. Mozgóátlagolással e feladat viszonylag gyorsan megoldható. Erről a fejezet további részében meg is győződhetünk. A mozgóátlag alkalmazását több esetben társítjuk a másik trendeljárással, az analitikus trendszámítással. 7.3.2. ANALITIKUS TRENDSZÁMÍTÁS A trendelemzés analitikus módszere bonyolultabb, több számolást igényel, ugyanakkor egzaktabb és több következtetési lehetőséget biztosít, mint a mozgóátlagolás. A jelenségek előrejelzésében is eredményesebben alkalmazható. Az analitikus trendelemzés során az idősor alapirányzatát valamilyen matematikai függvénnyel fejezzük ki. Ezt az analitikusan meghatározott függvényt tekintjük a fejlődési tendencia matematikai modelljének. Ha az idősorokat ábrázoljuk, láthatjuk, hogy az egyes grafikonok zegzugos vonala mögött különböző függvénytípusok sejthetők. A trendszámítás első lépése tehát az, hogy megpróbáljuk eldönteni, milyen függvénytípussal célszerű jellemezni a vizsgált idősor alaptendenciáját. A társadalmi-gazdasági jelenségek trendjének leírásához a következő függvénytípusok közül lehet válogatni: ― lineáris; ― exponenciális; ― hiperbolikus; ― parabolák; ― logisztikus függvény. Annak eldöntésében, hogy a felsoroltak közül adott esetben melyik függvényt válasszuk a trend leírására, a LEGSZOROSABB ILLESZKEDÉS elvére támaszkodunk. Ez matematikai képlettel leírva: ∑ (Y− Yˆ) 2 → minimális 132
Ha azt látjuk, hogy az idősorban az egymást követő időszakok közötti változások mértéke közel azonos nagyságú, lineáris függvény illesztése jön szóba. Jegyzetünkben csak ezzel foglalkozunk. 7.3.3. LINEÁRIS TRENDSZÁMÍTÁS Az egyenes egyenlete az yˆ = b 0 + b1 t formában írható fel . A b0 és b1 paramétereket kell meghatároznunk ahhoz, hogy az idősorra jellemző konkrét trendegyenes egyenletét megkapjuk. Ez a legkisebb négyzetek elvén alapul, a matematikai háttér bemutatásától eltekintünk és csak a megoldáshoz alkalmazható normálegyenleteket mutatjuk be:
Σy = n⋅b0 + b1⋅Σt Σt⋅y = b0⋅Σt + b1Σt2 A paraméterszámítás során nem az eredeti t időismérvekkel, hanem ún. kódolt t értékekkel dolgozunk. Ugyanis, ha a megfigyelési időpontok (évek, negyedévek, hónapok stb.) távolsága azonos, számolhatunk az eredeti t-k helyett bármilyen egységnyi távolságra levő t sorozattal. A kódolás általában kétféleképpen történhet: ― az egyik fajta kódolásnál a t = 1, 2, … n sorozatot alkalmazzuk; ― a másik megoldásnál a Σt = 0 feltételt elégítjük ki.9 A
Σt = 0 feltételt kielégítő kódolás megoldása páratlan és páros tagszámú idősornál a következő: Időszak
1995
1996
1997
1998
1999
2000
2001
ti
–3
–2
–1
0
1
2
3
Ha n páratlan:
Ha n páros: ti –5 –3 –1 1 3 5 Vegyük észre, hogy páros tagú idősor esetében a t sorozat tagjai között két egységnyi eltérés van, ez a további számolásokat nem befolyásolja, az értelmezésnél viszont tekintetbe kell venni. Ha a Σt = 0, akkor a normálegyenletek a következőképpen egyszerűsödnek:
Σy = n⋅b0 Σ t·y = b1Σt2
Az első egyenletből közvetlenül kifejezhető a b0 , a másodikból a b1 paraméter:
∑ b0 = n
b1 =
y
∑ t⋅ y ∑t 2
A paraméterek értékeinek meghatározásával előállítottuk a trendegyenletet, amelyből a t értékek behelyettesítésével kiszámíthatjuk a trendfüggvény értékeit, az yˆ trendértékeket. A trendszámítás eredményeiből különböző következtetéseket fogalmazhatunk meg. Elsősorban a PARAMÉTEREK ÉRTELMEZÉSÉRE van lehetőség, de információt hordoznak a TRENDÉRTÉKEK is. Ez utóbbiak azt adják meg, miként alakult volna adott t időpontban az idősor adata a többi komponens hatása nélkül. 9
A számítógépes programok az első eljárásra épülnek.
133
A LINEÁRIS TRENDFÜGGVÉNY b0 PARAMÉTERÉNEK információja a kódolási megoldástól függ. Ha a t sorozat 1-től n-ig terjed (t = 1, 2, … n), a b0 paraméter a t = 0 időponthoz, vagyis a vizsgált idősort közvetlenül megelőző időismérvhez tartozó trendértéket jelenti. Ha a
Σt=0 megoldású kódolást választottuk, a b0 értékét a vizsgált idősor átlagaként értelmezzük. A b1 PARAMÉTER az egy időegység alatti átlagos változás mértékét adja meg. A plusz előjel növekedést, a mínusz előjel pedig csökkenést jelez. A b1 kétszeresét értelmezzük páros tagú idősornál, ha a kódolásra a második eljárást alkalmaztuk. A b1 tartalma megegyezik a korábban megismert d mutatóval, de annál pontosabb. Példa Egy szolgáltató ágazatban az alkalmazottak létszámának alakulása egy megyében Kódolt t értékek
t2
t⋅y
Év
Létszám (fő) Yt
t = 1…n
Σt = 0
t=1…n
Σt=0
1995
205
1
–3
1⋅205 = 205
–3⋅205 = –615
1
9
1996
240
2
–2
.
–480
4
4
1997
250
3
–1
.
–250
9
1
1998
278
4
0
.
0
16
0
1999
302
5
1
.
302
25
1
2000
340
6
2
.
680
36
4
2001
355
7
3
.
1065
49
9
Összes
1970
0
8582
702
140
28
t=1…n
Σt=0
7.5. táblázat
A paraméterek becslése a) t = 1 … n KÓDOLÁS ESETÉN: Normálegyenletek
Σ y = n b0 + b 1 Σ t Σty = b0 Σt + b1 Σt2
A normálegyenletek a behelyettesítés után 1970 = 7 b0 + 28 b1 8582 = 28 b0 + 140 b1
Az egyenletrendszer megoldása: b0 = 181,1 b1 = 25,07 Trendegyenlet: yˆ = 181,1 + 25,1 t b) Σt = 0 KÓDOLÁS ESETÉN: b0 = b1 =
∑ y = 281,4
n ∑t⋅y
∑t
2
=
702 = 25,1 28
Trendegyenlet: yˆ = 281,4 + 25,1 t 134
Trendértékek yˆ- k számítása (első és utolsó) : yˆ1 = 181,1 + (25,1⋅ 1) = 206,2 (206 fő)
vagy
281,4+(25,1⋅–3) = 206,1 (206 fő)
és
yˆ 7 = 181,1 + (25,1⋅ 7) = 356,8 (357 fő)
vagy
281,4 + (25,1 ⋅ 3 ) = 356,7 (357 fő) Következtetések: 1) A b0 paraméter jelentése: ― t = 1, 2 … n kódolásnál: az alkalmazottak 1994 évre becsült létszáma 181 fő.
― Σt = 0 kódolás esetén: az éves átlaglétszám 1995―2001 között 281 fő-t tett ki. 2) A b1 paraméter jelentése: az alkalmazottak létszáma a vizsgált időszak alatt évente átlagosan 25 fővel növekedett.
7.4. A SZEZONÁLIS HULLÁMZÁS MÉRÉSE A szezonális hatás általában az egyes évek azonos idényeiben mindig azonos irányban téríti el az adatokat a trendtől. Ez az állandó szezonalitás. Az eltérítő hatás lehet pozitív (hullámhegy) és lehet negatív (hullámvölgy). E hatások egy perióduson, azaz éven belül kiegyenlítik egymást. Vannak olyan jelenségek, ahol a hullámhegyek, hullámvölgyek nem mindig ugyanabban az idényben, hanem bizonyos eltolódással jelentkeznek. Ez a változó szezonalitás. Mivel a gyakorlati életben inkább az állandó szezonalitás fordul elő, a továbbiakban csak ezzel foglalkozunk. Az idényszerűség mint idősor-összetevő hatásának számszerűsítése a már ismert módon történik: ki kell küszöbölni a többi komponens hatását az idősorból. Az idényhatás mérésének eredményeként olyan mutatókat kapunk, amelyek idényenként (negyedévenként, havonként stb.) mutatják az eltérítő szezonális hatást. Ha az idősorunk negyedévekből áll, akkor 4, ha hónapokból, akkor 12 ilyen mérőszámot lehet számítani. Attól függően, hogy a vizsgált idősor additív vagy multiplikatív típusú-e, a szezonalitás mutatói abszolút és relatív számok lehetnek. Additív idősornál a szezonhatást értelemszerűen abszolút számokkal lehet kifejezni, ezeket a mutatókat szezonális eltéréseknek nevezzük. A multiplikatív idősorokban jelentkező szezonhatást a százalékos értelmezésű szezonindexek fejezik ki. 7.4.1. A SZEZONALITÁS MÉRÉSE TRENDMENTES IDŐSOROKBAN Viszonylag egyszerű a helyzet, ha az idősor nem tartalmaz trendet (Y = S+V) Ekkor a trendtől való mentesítés feladata nem merül fel, az idősorból csak a véletlenek hatását kell kiiktatni. A véletlenek okozta rendszertelen ingadozás kiküszöbölésére kézenfekvő megoldást kínál az átlagszámítás. Az eljárás a következő: 1. Az idősorban az azonos idényekhez tartozó adatokat átlagoljuk, ezek lesznek a véletlenhatástól megtisztított idényátlagok y j (-k). 2. Kiszámítjuk az egész idősorra vonatkozó (fő)átlagot (Y ), majd az idényátlagokat a főátlaghoz viszonyítjuk Additív idősornál a viszonyítás kivonás (y j − Y ), eredményül a szezonális eltéréseket kapjuk. Multiplikatív idősoroknál osztást végzünk, az (y j /Y) hányadosok lesznek a szezonindexek. 135
Példa Egy kereskedelmi egység munkavállalói létszámának alakulása (fő) Év
1. negyedév
2. negyedév
3. negyedév
4. negyedév
Összesen
1999
25
32
54
29
140
2000
21
34
50
33
138
2001
26
36
52
28
142
Összes
72
102
156
90
420
24 (y1 )
34 (y 2 )
52 (y 3 )
30 (y 4 )
35 (Y)
Átlag (y i )
7.6. tábla
A szezonalitás mérőszámai: Szezonális eltérések
fő
Szezonindexek
Sze1
24–35 = –11
Szi1
24 : 35 = 0,686
% 68,6
Sze2
34–35 = – 1
Szi2
34 : 35 = 0,971
97,1
Sze3
52–35 = 17
Szi3
52 : 35 = 1,486
148,6
Sze4
30–35 = – 5
Szi4
30 : 35 = 0,857
85,7
Összesen:
0
Összesen:
4,000
Átlag:
0
Átlag:
1,000
Egy éven belül a lefelé és felfelé ható eltérések kiegyenlítődnek. Az egy periódusra (évre) vonatkozó szezonális eltérések összege és átlaga is 0. Adott gyakorlati feladatnál jelentkezhet ettől némi eltérés. Ekkor korrekciót hajtunk végre, a kapott szezonáliseltérésátlagot levonjuk az egyes szezonális eltérésekből. A multiplikatív modellből nyert szezonindexek 1 körül alakulnak, amelyeket százalékos formában szokás megadni és értelmezni. A szezonindexeknél a helyes átlag 1, a korrekciót itt osztással végezzük el. E példában erre nem volt szükség. Következtetések: A számítási eredmények szerint az első, második és negyedik negyedévben olyan hatások érvényesültek, amelyek lefelé térítették el az idősor adatait az idényátlagtól, a harmadik idényben pedig felfelé. Ebben a negyedévben 17 fővel, illetve 48,6%-kal több főt foglalkoztattak, mint a 3 év alatti negyedévi átlag. (A többi mérőszámra a kevesebb jelző vonatkozik.) 7.4.2. A SZEZONALITÁS MÉRÉSE TREND JELENLÉTE ESETÉN Ha az idősor valamilyen határozott változási alapirányzatot, azaz trendet is jelez a szezonaˆ + S+ V), litás mérésénél a trendet is ki kell szűrni. A trendtől való mentesítés után (Y = Y már csak a véletlenek hatását kell leválasztani az idősorból, erre bevált módszer az átlagolás. A lépések: 1. Meghatározzuk a trendértékeket (mozgóátlagolással vagy trendfüggvények segítségével), majd az idősormodell átrendezésének megfelelően kiszűrjük a trendet. ADDITÍV MODELLNÉL ˆ + S+ V átrendezésével kapjuk az Y − Y ˆ = S+ V kifejezést, ahol a trendértéAz Y = Y kek levonása után a jobb oldalon már csak az idényszerűség és a véletlen hatások jelentkeznek. 136
MULTIPLIKATÍV MODELLNÉL Az Y = Y^⋅ S ⋅V átrendezése után az Y/Y^ = S⋅ V alakot kapjuk, itt osztással mentesítünk a trendhatástól. A jobb oldal itt is a mérendő S komponenst és a még kiküszöbölendő véletlent tartalmazza. ˆ , illetve Y/Y ˆ - eket szezo2. A trendhatást már nem tartalmazó adatokat, vagyis az Y− Y nonként egyszerű számtani átlaggal átlagoljuk, ezzel választjuk le a véletlenek hatását. Az előzőekből következik, hogy az additív modellnél az idősor eredeti mértékegységével megegyező szezonális eltérésekhez jutunk, míg a multiplikatív modellből származó mérőszám a már ugyancsak isme-rt szezonindex. A szezonális hullámzás mérőszámainak jelentése: A SZEZONÁLIS ELTÉRÉS azt mutatja meg, hogy adott j idényben az idősor adata a szezonhatás következtében átlagosan milyen mértékben tér el (több vagy kevesebb) a trendértéktől. A szezonindex ezt az eltérést százalékban adja meg. Mint látjuk, ez esetben az eltérést a trendhez képest értelmezzük, eltérően a trendmentes idősorból számolt szezonális mérőszámoktól, ahol a jelentés az idényátlagtól való eltérés. Itt is érvényes, hogy a szezonális eltérések egy perióduson belül kiegyenlítik egymást. A kétféle szezonális mérőszám számítását az egyszerűség kedvéért azonos Példa alapján mutatjuk be, jóllehet tudjuk, hogy egy konkrét vizsgálatnál az idősor additív vagy multiplikatív jellege dönti el, hogy szezonális eltéréseket vagy szezonindexeket számolunk-e. Példa Egy gazdálkodó szervezet árbevételének negyedévenkénti adatai (1996―2000) Év 1996
Negyedév
I. II. III. IV. 1997 I. II. III. IV. 1998 I. II. III. IV. 1999 I. II. III. IV. 2000 I. II. III. IV. * lásd 7.4. táblázatot
Árbevétel (M Ft) y
Mozgóátlag* yˆ
72 69 65 75 78 76 74 84 84 80 82 90 90 87 86 94 96 92 94 100
71,0 72,6 74,6 76,9 78,8 80,0 81,5 83,2 84,8 86,4 87,8 88,8 90,0 91,4 93 94,8
Mentesítés a trendtől
y − yˆ
–6,0 2,4 3,4 –0,9 –4,8 4,0 2,5 –3,2 –2,8 3,6 2,2 –1,8 –4,0 2,6 3,0 –2,8
y/yˆ
0,915 1,033 1,046 0,988 0,939 1,050 1,031 0,961 0,967 1,061 1,025 0,980 0,956 1,028 1,032 0,970
7. 7. táblázat
137
Szezonális eltérések (M Ft): 3,4 + 2,5 + 2,2 + 3 Sze1 = = 2,78 4 Sze 2 =
− 0,9 − 3,2 − 1,8 − 2,8 = − 2,18 4
Sze 3 =
− 6 − 4,8 − 2,8 − 4 = − 4,40 4
2,4 + 4 + 3,6 + 2,6 = 3,15 4 Szezonindexek (%): Sze 4 =
Sz1 =
1,046 + 1,031 + 1,025 + 1,032 = 1,0335 103,4 4
Szi 2 =
0,988 + 0,961 + 098 + 097 = 0,9747 97,5 4
Szi 3 =
0,915 + 0,939 + 0,967 + 0,956 = 0,9442 94,4 4
1,033 + 1,05 + 1,061 + 1,028 = 1,043 104,3 4 Példánkban a szezonális eltérések összege: (2,78 + (–2,18) + (–4,4)+3,15) = –0,65, az átlag –0,16, ezzel kell korrekciót végezni: I. negyedév: 2,78–(–0,16) = 2,94 II. negyedév: –2,18–(–0,16) = –2,02 III. negyedév: –4,4–(–0,16) = –4,24 IV. negyedév: 3,15–(–0,16) = 3,31 Ellenőrzés: [2,94+(–2,02 +(–4,24)+3,31] : 4 = –0,0025 (gyakorlatilag 0) A szezonindexek esetében (1,034+0,975+0,944+1,043):4 = 0,99885 átlagértéket kapunk, az első negyedévre osztással a korrigálás: 1,034/0,999 = 1,03519. Nincs érdemi eltérés, a korrekciótól eltekinthetünk. Szi 4 =
Következtetések: A szezonalitás mérőszámai alapján levonhatjuk azt a következtetést, hogy az árbevétel alakulása szempontjából az első és a negyedik negyedév olyan idény, amikor több az árbevétel, mint amit a trend alapján várnánk. A második és harmadik negyedévben ugyanakkor csökkentően hatott a szezonhatás. Az idényekben jelentkező rendszeres eltérítő hatás következtében az első negyedévben 2,94 millió Ft-tal, illetve 3,5%-kal több, a második negyedévben pedig 2,02 millió Ft-tal, illetve 2,5%-kal kevesebb volt átlagosan az árbevétel az alaptendencia szerinti értéknél. (A harmadik és negyedik idény mérőszámai hasonlóan értelmezhetők.) A szezonindexek számításának nem csak abban van jelentősége, hogy információkat nyújtanak a szezonhatásról. Sok esetben arra használják e mérőszámokat, hogy segítségükkel megtisztítsák az idősorokat a szezonális hullámzástól. Ez az eljárás a szezonális kiigazítás, amelyet az Y–Szej, illetve az Y/Szij műveletekkel lehet elvégezni. Az idényszerűséget jellemző mérőszámok ismerete az időbeli alakulás előrevetítésében is szerepet játszik (lásd később). 138
A trend és a trendet eltérítő véletlen hatások
Szezonális kiigazítás (y–Sze) Év
A szezonálisan kiigazított árbevétel alakulása 110
1996
M Ft
90
Árbevétel (M Ft) yt
y–Sze
I.
72
72–2,9 = 69,1
II.
69
69–(–1,8) = 70,8
III.
65
65–(–4,0) = 69,0
IV.
75
75–2,9 = 72,1
Negyedév
. .
70
. .
50 I. 1996
IV.
III.
II.
eredeti
7.3. ábra
I. 1999
IV.
szez.kiig.
III.
2000
I.
96
96–2,9 = 93,1
II.
92
92–(–1,8) = 93,8
III.
94
94–(–4,0) = 98,0
IV.
100 7.8. táblázat
100–2,9 = 97,1
A 7.3. ábrán a vastag grafikon az emelkedő trendet és a trendet kisebb nagyobb mértékben rendszertelenül eltérítő véletlen hatásokat egyesíti. 7.4.3. CIKLIKUS HULLÁMZÁS, A VÉLETLEN TÉNYEZŐK HATÁSA Ahogy a fejezet elején ismertettük, az ökológiai, de főleg a gazdasági jelenségek hosszabb távú alakulásában szabálytalanul jelentkező, hullámhegyekből és hullámvölgyekből álló ciklushullámok is gyakran megfigyelhetők. Ezen hullámzások ugyancsak a trendre rakódnak rá, tartósan fölötte és alatta húzódnak, változó kilengéseket mutatva. A csúcsok és mélypontok időbeni jelentkezésében ― eltérően az idényszerűségtől – csak megközelítő jelleggel érvényesül bizonyos szabályszerűség. Ezért a ciklushatás kimutatására a szezonális eltéréshez, illetve a szezonindexhez hasonló mérőszám bemutatására az idősorelemzés e módszerén belül nincs lehetőség. A ciklikus hullámzást grafikus módszerrel tanulmányozhatjuk. A többi komponenstől (trend, szezonális és véletlen hullámzások) megtisztított idősort ábrázolva fogalmazunk meg következtetéseket a ciklusok körülbelüli hosszáról, a ciklikusságra vonatkozóan a jelen állapotáról, s becsléseket a jövőbeni alakulásról. A többi komponens kiiktatására a mozgóátlagolás és az analitikus trend együttes alkalmazása szolgál. A véletlen komponens hatását maradéktagként határozhatjuk meg: ˆ –S = V; ― additív idősor esetében Y– Y ˆ ·S) = V megoldással. ― multiplikatív típusnál Y/( Y Ezek abszolút és relatív vonatkozásban mutatják az adott időismérvben jelentkező véletlen tényezők eltérítő hatását. 7.5. AZ IDŐSOROKBÓL VÉGZETT ELŐREJELZÉSEK Ha megismerjük egy idősor múltbeli alakulásának jellegzetességeit, az információkat felhasználhatjuk arra, hogy a jövőben várható időbeli alakulásról hozzávetőleges képet kapjunk. Ezt az előretekintést nevezzük előrejelzésnek, extrapolációnak. 139
A jó ELŐREJELZÉS feltétele az, hogy gondosan megvizsgáljuk, vajon a feltárt változási alapirányzatok és ingadozások a jövőben is folytatódnak-e. Ehhez szakmai információk szükségesek. Ha a vizsgálódás eredményeként úgy tűnik, hogy a komponensek a jövőben is várhatóan hasonlóan fognak viselkedni, mint amit az elmúlt időszakra végzett idősorelemzéssel tapasztaltunk, akkor az előző fejezetekben megismert módszerekkel viszonylag egyszerűen lehet előrejelzéseket végezni. 7.5.1 ELŐREJELZÉS EGYSZERŰBB MÓDSZERREL A továbbiakban először nézzük meg, hogy a 7.1 fejezetben ismertetett egyszerűbb módszer segítségével miként lehet extrapolációt végezni. A hivatkozott fejezetben bemutatott módszerek tulajdonképpen két adatra támaszkodva adták meg az idősor átlagos változási mértékét (d), illetve ütemét (l). Ennek előrevetítése a következő formula alapján történik: Lineáris változás feltételezésével: y extr = y n ⋅ l k Exponenciális változás feltételezésével: y extr = y n + k⋅ d ahol: k = az időszakok száma a vizsgált utolsó és az előrejelzett időismérv között. Példa Végezzünk előrejelzést 2003 első negyedévére egy korábbi példában vizsgált cég negyedéves árbevételeinek 1996 és 2000 közötti adatai alapján. Az első (72 M Ft) és utolsó (100 M Ft) adatból számolva az átlagos változásokat: d = 1,47 l = 1,017 az előrejelzésnél k = 9. Megoldás:
y extr = y n ⋅ l k = 100 ⋅1,017 9 = 116,38 M Ft y extr = y n + k⋅ d = 100 + 9 ⋅14,7 = 113,23 M Ft 7.5.2. ELŐREJELZÉS ANALITIKUS TRENDSZÁMÍTÁSSAL Az analitikus trendszámítás egzaktabb előrejelzést biztosít, természetesen csak akkor, ha a trendvonal jól illeszkedik. A trendextrapoláció nem jelent mást, mint egy trendértékszámítást, amelyet az előrevetített időszakra vonatkozóan állapítunk meg. Ez a trendegyenletbe való kódolt textr behelyettesítésével történik. Megállapításánál az idősor utolsó kódolt t értékéből (tn) indulunk ki, ehhez adjuk hozzá az előrejelzett időszakok számát, ez lesz az előrejelzett időszakhoz tartozó t érték (textr.). Példa Végezzünk előrejelzést a 7.7. tábla adataira illesztett yˆ = 67,3 + 1,535 t trendfüggvény alapján 2003 első negyedévére! tn = 20 textr. = 20+9 = 29 140
Megoldás: yˆ extr . = 67,3 + 1,535 ⋅ 29 = 111,8 M Ft A szezonalitás figyelembevétele Az extrapolációban a szezonális mérőszámok is szerepet kaphatnak, ha feltételezzük, hogy a hullámzás a jövőben is ugyanúgy jelentkezik. Ennek figyelembevétele úgy megy végbe, hogy az EXTRAPOLÁLT TRENDÉRTÉKET ELTÉRÍTJÜK (növeljük vagy csökkentjük) az adott idényre jellemző hullámzás szerint. Az eljárás formulája a következő: ADDITÍV IDŐSOR: y extr = yˆ extr + Sz e MULTIPLIKATÍV IDŐSOR: y extr = yˆ extr ⋅Sz i Példánkban az I. negyedévre meghatározott szezonalitást is figyelembe véve: 111,8 + 2,94 = 114,74 M Ft-ot valószínűsítünk. A statisztikai módszertan az előrejelzésre számos eljárást dolgozott ki, a fontosabb módszerekről az irodalomjegyzékben felsorolt művekből lehet tájékozódni.
141
7.6. ELLENŐRZŐ KÉRDÉSEK 1. Milyen egyszerű idősor-vizsgálati módszereket ismer, mire és hogyan lehet azokat alkalmazni? 2. Az átlagszámítás milyen megközelítésben vesz részt az idősorok elemzésében? 3. Mi a lényege a determinisztikus idősorvizsgálatnak? 4. Melyek az idősor főbb komponensei és mik a jellemzőik? 5. A mozgóátlagolásos trendszámításnak mi a lényege, mire alkalmas a módszer? 6. Mi az analitikus trendszámítás? 7. A lineáris trendszámítás milyen lépésekből áll? 8. A lineáris trendszámítás eredményeit hogyan értelmezzük? 9. Hogyan történik a szezonalitás mérése trendmentes idősorból? 10. Szezonális eltérések és szezonindexek meghatározását hogyan végezzük trenddel rendelkező idősorokban? 11. Hogyan értelmezzük a szezonalitás mérőszámait és mire alkalmazhatók? 12. Milyen módszerekkel történhet az előrejelzések készítése?
142
8. AZ INFORMÁCIÓSZERZÉS STATISZTIKAI ALAPJAI A gazdasági-társadalmi élet egyetlen területe sem nélkülözheti a naprakész, pontos információkat, amelyek nélkül döntéseink csak esetlegesek lehetnek, beláthatatlan következményekkel a jövőt illetően. Nyilvánvaló, hogy megfelelő információk birtokában komoly esélyünk van jó döntéseket hozni, míg ugyanezt elérni hiányos vagy éppen pontatlan információk alapján majdnem lehetetlen. Az elmúlt évszázad második felében a statisztikai információ, a statisztikai adattömeg ugrásszerűen megnövekedett, ez egyrészt a társadalmigazdasági jelenségek egyre összetettebbé válásával, másrészt a számítástechnika eddig soha nem tapasztalt fejlődésével magyarázható. A különböző területeken dolgozó szakemberek a szükséges információkat több forrásból szerezhetik be. Ilyen megközelítésben az adatok kétfélék lehetnek: belső és külső adatok. BELSŐ ADATOK például egy vállalat esetében az üzleti működésre, a termelésre, az értékesítésre, a költségekre, az alkalmazottak számára, ezek bérére stb. vonatkozó adatok, amelyeket a vállalat belső informatikai rendszere tartalmaz, és amelyeknek kiemelkedő fontossága van az operatív döntések meghozatalában. A vállalat ― miközben ezer meg ezer szállal kapcsolódik természeti, piaci és jogi környezetéhez ― döntéseiben nem nélkülözheti a KÜLSŐ ADATOKAT sem, amelyeket meglévő adatforrásokból, a hivatalos statisztikai szolgálat, illetve gazdaságelemző, kutató intézetek kiadványaiból, elemző anyagaiból merítheti. Természetesen lehetősége van arra is, hogy erre szakosodott cégekkel végeztessen adatgyűjtést. A statisztikai elemzések kiindulópontját képező alapadatokat a statisztikai megfigyeléssel vagy más szóval ADATFELVÉTELLEL nyerjük, amelynek során a statisztikai sokaság egységeire, azok ismérveire vonatkozóan gyűjtünk adatokat. 8.1. AZ ADATFELVÉTEL TERVEZÉSE ÉS SZERVEZÉSE Az információk az adatfelvétel során lépnek be a statisztikai információs rendszerbe, ezért az adatfelvétel előzetes megtervezése, szervezése elsődleges feladat. A helytelenül szervezett adatgyűjtés csak rossz adatokat eredményezhet, függetlenül a kérdezőbiztos és az adatszolgáltató hozzáállásától. Ezen adatok tárolása, feldolgozása fölösleges költségeket okoz, közlésük pedig kifejezetten káros lehet. Tekintsük át a továbbiakban az adatfelvétel tervezésének, szervezésének és lebonyolításának néhány kérdését ! A STATISZTIKAI ADATFELVÉTEL a következő szakaszokból áll: ― a felvétel céljának meghatározása; ― outputtervezés; ― a célsokaság kiválasztása; ― kérdőívtervezés; ― próbafelvétel; ― az adatgyűjtés szervezése és a kérdőívek lekérdezése; ― adat-előkészítés; ― feldolgozás, elemzés; ― kiadványkészítés (közzététel). A felvétel céljának meghatározása Ebben a ― talán legfontosabb ― szakaszban meg kell határozni, hogy mire irányul a megfigyelés. A cél meghatározásakor körültekintően kell eljárni, azt egyértelműen meg kell 143
határozni és pontosan körülhatárolni. Tisztázni kell a közvetlen és a közvetett igényeket, vizsgálni kell az adatfelvétel költségvonzatait. Erre egyébként az adatfelvétel folyamata közben állandóan figyelni kell, hiszen a költségeknek arányban kell lenniük a nyert információk értékével. Outputtervezés Az outputtervezés a felhasználói igényeknek megfelelő adattartalom összeállítása az alkalmazott módszertan függvényében. Az elemzési szempontoknak megfelelően hiánytalanul és átfedésmentesen kell tartalmaznia az összes feldolgozandó információt. Ebben a szakaszban a következő feladatokat végezzük el: ― eldöntjük, hogy konkrétan mi a vizsgálatunk végső célja (azaz milyen kérdéseket válaszolunk meg: mely időpontokra/időszakokra vonatkozó adatokat gyűjtünk); ― tisztázzuk az elemzési szempontokat, melynek alapján vázoljuk azt a mutatórendszert, amellyel a vizsgált jelenséget jellemezni akarjuk; ― azonosítjuk a fellelhető adatok elérhetőségét (nomenklatúrák, regiszterek); ― meghatározzuk a begyűjtendő adatokat, azok tartalmát részletesen leírjuk; ― elemzési vázlatot, azaz tábla- és grafikonterveket készítünk (azért, hogy a végcél nagyon is konkrét legyen, az adatfelvétel folyamán mindvégig szem előtt tudjuk tartani azt). A célsokaság kiválasztása Ez egy rendkívül fontos szakasz az adatfelvétel tervezésében. Olyan fontos kérdésekben kell döntenünk, mint: 1. Mi legyen az alapsokaság? 2. Milyen legyen a megfigyelés (teljes körű vagy részleges)? 3. Hogyan történjen az adatgyűjtés? (lajstromos vagy egyedi, illetve kikérdezéses, önszámlálós, telefonos vagy elektronikus)? Kérdőívtervezés Ezzel a kérdéssel részletesen foglalkozunk a továbbiakban. Próbafelvétel Célja az összeállított kérdőív tesztelése, esetleges hibáinak feltárása, illetve ezek alapján a szükséges korrekciók elvégzése a kérdőív véglegesítése előtt. Az adatgyűjtés szervezése és a kérdőívek lekérdezése Ebben a szakaszban történik a véglegesített kérdőívek és kitöltési útmutatók sokszorosítása, expediálása, a kérdezőbiztosok felkészítése, útmutatásokkal történő ellátása, a kérdőívek lekérdezése. Adat-előkészítés A cél a kérdőívek adatainak rögzítése, ellenőrzése és javítása, a teljesség ellenőrzése. Ebben a szakaszban történik a logikai összefüggések és kódértékek ellenőrzése, számszaki összefüggések vizsgálata, az adatnagyság valószínűségének ellenőrzése. A folyamat záró szakaszában történik a kapott adatok FELDOLGOZÁSA, ELEMZÉSE, amelyek általában valamilyen kiadvány formájában kerülnek KÖZZÉTÉTELRE.
144
8.2. A KÉRDŐÍV TERVEZÉSÉNEK ÁLTALÁNOS SZEMPONTJAI A kérdőív több kérdésből álló kérdéscsomag, amelyet ugyanolyan formában több személynek (megkérdezetteknek) is feltesznek. Funkciója kettős: egyrészt megismerteti az adatszolgáltatóval az adatszolgáltatási kötelezettséget, másrészt adathordozó. A kitöltési útmutatóval, a jegyzékekkel, segédletekkel, esetleg a felkérőlevéllel együtt a kérdőív az adatszolgáltatói dokumentáció része, amely minden adatfelvételnek kötelező tartozéka. A kérdőív megjelenési formáját tekintve lehet papírra nyomtatott vagy mágneses adathordozón (flopin) megjelenő. A kérdőív összeállítása kulcsjelentőségű, hiszen az egész adatfelvétel eredményességét teheti kockára egy nem megfelelően összeállított kérdőív. 8.2.1. A KÉRDŐÍV TÍPUSAI A kérdőívek két alapvető típus az egyéni és a lajstromos kérdőív. Az EGYÉNI KÉRDŐÍV egyetlen számbavételi egység adatait tartalmazza (ilyen például a népszámláláskor használt kérdőív). A LAJSTROMOS KÉRDŐÍV tulajdonképpen egy táblázat, amelynek minden sora egy-egy megfigyelési egység adatait tartalmazza, vagyis a lajstrom több egység egyidejű megfigyelésére alkalmas. 8.2.2. A KÉRDÉSEK CSOPORTOSÍTÁSI LEHETŐSÉGEI A kérdőív összeállításánál számos probléma merül fel, ezek zöme éppen a kérdések megfogalmazásával kapcsolatos. A kérdéseket több szempont szerint csoportosíthatjuk: Aszerint, hogy a kérdésekre adottak-e a válaszlehetőségek (pl. igen, nem) vagy sem, beszélhetünk ZÁRT ÉS NYÍLT kérdésekről. A ZÁRT KÉRDÉSEK előnye, hogy a válaszok könnyen értékelhetők, hátrányuk pedig az, hogy nem tesznek lehetővé árnyalt véleménynyilvánítást, ráadásul a lehetséges válaszok közül fontos válaszlehetőségek ki is maradhatnak. A NYÍLT KÉRDÉSEK esetében nem fogalmaznak meg lehetséges válaszokat, így széles teret engednek a válaszadónak, hogy véleményét kinyilvánítsa. Az ilyen kérdések feldolgozása viszont nehézkes, éppen a válaszok egyedisége miatt. Előfordulhat az is, hogy nem rajzolódnak ki a tendenciák, tehát a kérdésekre adott válaszok alapján nem tudunk helyes következtetéseket levonni. A kérdések megfogalmazásának módja szerint vannak DIREKT ÉS INDIREKT kérdések. A DIREKT KÉRDÉSEK egyértelmű állásfoglalást várnak el a válaszadótól. Olyan esetekben azonban, amikor a kérdés jellege miatt az emberek nem szívesen válaszolnának rá, célszerű a kérdést kerülő úton feltenni, azaz INDIREKT KÉRDÉSEKET megfogalmazni. Nem célszerű például egy ilyen kérdés használata: „Szokott-e Ön kukázni?” Ehelyett jobb kérdés: „Mit gondol Ön, lakóhelyén a lakosság hány százaléka él alkalomszerűen kukázásból?” Az eddigieken kívül fontosak még az ISMÉTLŐDŐ ÉS ELLENŐRZŐ kérdések. Az ismétlődő kérdések célja egyrészt az ellenőrzés (hasonló tartalmú kérdésre nem született-e teljesen ellentétes értelmű válasz), másrészt a válaszadó elszántságának megállapítása. Például a válaszadó arra a kérdésre: „Szokott-e Ön napilapot olvasni?” Nemmel válaszolt, majd később, amikor a felsorolt napilapok közül kellett kiválasztania az általa rendszeresen olvasottat, megjelölte az egyiket. Az ellenőrző kérdések célja kifejezetten az, hogy kiszűrje a hibás, ellentmondásos válaszokat. (Ilyen lehet például az életkorra, majd később a születési évre vonatkozó kérdés.) 145
8.2.3. A KÉRDÉSEKKEL KAPCSOLATOS TARTALMI ÉS FORMAI KÖVETELMÉNYEK Az alapvető elvárás a kérdésekkel kapcsolatban az, hogy a megkérdezettek válaszoljanak rá. Ezért célszerű betartani az alábbi szabályokat: ― A kérdések legyenek egyszerűek, egyértelműek, világosak, kerüljük az idegen szavak használatát! ― A kérdések ne legyenek tapintatlanok, agresszívek! ― Foglaljuk a kérdéseket logikai, tematikai egységekbe! ― A lehetséges válaszok legyenek egyértelműek, zárt kérdések esetén a válaszok tegyék lehetővé az árnyalt véleménynyilvánítást! ― Külső alakját tekintve a kérdőív legyen áttekinthető, tartalmazza az összes szükséges információt! ― A kérdések ne befolyásolják a válaszadást (ne sugallják az „elvárt” választ)! 8.3. A KÉRDŐÍVES FELMÉRÉSEK FELDOLGOZÁSA Az adatfelvétel során nagyszámú kérdőív birtokába jutunk, melyek óriási mennyiségű adathalmazt tartalmaznak (gondoljunk csak a népszámlálásra!). A munka dandárja csak ezután következik, a nyert adatokat fel kell dolgozni. A kérdőívek feldolgozása három lépésben történik: ― ellenőrzés; ― kódolás; ― elemzés. Az ELLENŐRZÉS egyaránt jelent formai és tartalmi ellenőrzést. Formailag akkor nem megfelelő egy kérdőív, ha túl sok a megválaszolatlan kérdés. Ez káros, mert így a minta torzulhat, utólagos korrekcióra lehet szükség. A tartalmi ellenőrzés a válaszok számszerű és logikai ellenőrzését jelenti. A KÓDOLÁS igen fontos momentuma a kérdőívek feldolgozásának. Az adatokat legtöbbször számítógépre viszik, ezért a válaszokat „le kell fordítani” egy, a gép által ismert nyelvre. A kódolás a kérdésekre adott válaszok rendszerint számokkal történő rögzítését jelenti. A kérdőív gyakran úgy készül, hogy a kérdésekre adható válaszok eleve kódoltak (zárt kérdések), nyílt kérdések esetén a kódolást utólag végzik el. A kérdőíves felmérés során nyert adatokat végső soron ELEMEZNI kell. Az elemzés lehet: ― EGYDIMENZIÓS (az elemzés egyetlen ismérv alapján történik, tehát valójában statisztikai sorokat vizsgálunk); ― KÉTDIMENZIÓS (ilyenkor statisztikai táblákat vizsgálunk, így bonyolultabb elemzésekre is lehetőség van). A kérdőíves felmérésekkel nyert adatok elemzésére az eszközök széles skálája áll a statisztikus rendelkezésére, ezek közül a módszerek közül sokat és sokfélét megismertünk már tanulmányaink során: viszonyszámok, középértékek, indexszámítás, sztochasztikus kapcsolatok vizsgálatának módszerei, grafikus ábrázolás stb. 8.4. A STATISZTIKAI MEGFIGYELÉSEK FAJTÁI A statisztikai megfigyelések több szempont szerint is csoportosíthatók: A MEGFIGYELÉS GYAKORISÁGA szerint a statisztikai megfigyelés lehet: ― folyamatos; ― időszakos; ― egyszeri (alkalom szerinti). 146
Folyamatos megfigyelés Rendszeresen vezetett nyilvántartásokon alapján a beszámolási egységek szabályos időközönként statisztikai beszámoló jelentéseket készítenek. Ily módon a kapott adatok a megfigyelt jelenségeket folyamatukban tükrözik. A folyamatos megfigyelést a nemzetgazdaság minden területén alkalmazzák (a gazdasági szervezeteken kívül például a demográfiában, az oktatás és az egészségügy területén stb.) Időszakos megfigyelés Olyan esetekben használják, amikor a vizsgált jelenséget nem jellemzik hirtelen változások, vagy amikor a folyamatos megfigyelés valamilyen (anyagi vagy technikai) akadályba ütközik. Jó Példa erre a népszámlálás. Noha a népesség számában, életkorában, foglalkozásában állandó mozgás van, és ennek ismerete rendkívül fontos, a népszámlálást magas munka- és költségigényessége miatt a legtöbb országban, így Magyarországon is csak tízévenként hajtják végre. Hasonlóképpen időszakos megfigyeléssel történik az egyes gazdasági ágak készleteinek, tárgyieszköz-állományának számbavétele. Egyszeri (alkalom szerinti) megfigyelés Ezek a megfigyelések gyakran valamilyen egyéni/egyedi igényt hivatottak kielégíteni, ilyen megfigyeléseket végeznek például a piackutatási, illetve a közvélemény-kutatási intézetek. AZ ADATGYŰJTÉS MÓDJA szerint az adatfelvétel történhet: ― önszámlálással; ― kikérdezéssel. AZ ÖNSZÁMLÁLÁSOS ADATFELVÉTELNÉL a számbavételi egység maga tölti ki a kérdőívet és juttatja el az adatgyűjtőnek, rendszerint postán (de lehet telefonon vagy elektronikus úton is). A KIKÉRDEZÉSES MÓDSZERNÉL a megkérdezendőket számláló (kérdező) biztos keresi fel, ő teszi fel a kérdéseket, a válaszokat is ő rögzíti. A kikérdezéses módszer értelemszerűen költségesebb az önszámlálásosnál, de bizonyos esetekben a vizsgálat bonyolultsága, a kérdések speciális volta elkerülhetetlenné teszi e módszer alkalmazását. A MEGFIGYELÉS KÖRE SZERINT ― azaz aszerint, hogy a vizsgálat a jelenség vagy statisztikai sokaság milyen körére terjed ki ― az adatfelvétel, a statisztikai megfigyelés lehet: ― teljes körű megfigyelés; ― részleges megfigyelés. TELJES KÖRŰ MEGFIGYELÉS esetén a sokaság egészét vizsgáljuk, annak valamennyi egyedére vonatkozóan gyűjtünk adatokat. Ilyen például a népszámlálás. Természetéből adódóan roppant munka- és költségigényes módszer, ugyanakkor az így nyerhető információkról nem mondhatunk le. RÉSZLEGES MEGFIGYELÉS esetén a statisztikai sokaság egésze helyett annak csak egy bizonyos részét vizsgáljuk. A részleges megfigyelés két fontos fajtája A REPREZENTATÍV MEGFIGYELÉS (ezzel a továbbiakban részletesen foglalkozunk) és A STATISZTIKAI MONOGRÁFIA, amely egy jellemző, tipikus vagy éppenséggel különleges egység részletes statisztikai vizsgálatát, leírását jelenti. Ezt a megfigyelést számos tudomány területén alkalmazzák, például történelmi, földrajzi, szociológiai stb. kutatásokban. A REPREZENTATÍV MEGFIGYELÉS a részleges megfigyelés egyik fajtája. Az alapsokaság helyett annak csak egy részét (részsokaság, minta) vizsgáljuk, azzal a céllal, hogy az itt tapasztaltakat az analógia elve alapján az egész sokaságra kiterjesszük, azaz becsüljük az
147
alapsokaság paramétereit. A cél tehát most is az egész sokaság jellemzőinek megismerése, a minta maga nem lényeges. A reprezentatív megfigyelést több tényező is indokolhatja: Vannak esetek, amikor A TELJES KÖRŰ MEGFIGYELÉS LEHETETLEN. Például a termékek minőségvizsgálatánál használt egyes tesztelési módszerek a termékek megsemmisülésével járnak. Ilyenkor úgynevezett szúrópróbát végeznek, és a kapott eredmények alapján következtetnek a teljes mennyiség minőségi színvonalára. Mint láttuk, a teljes körű megfigyelés IGEN MUNKA- ÉS KÖLTSÉGIGÉNYES, amely ráfordítás nem minden esetben arányos az így szerezhető információk értékével. A részleges megfigyelés ― úgy tűnhet ― kevésbé pontos információkat szolgáltat, természetéből adódóan. Ez azonban nincs így. A statisztikának megvannak az eszközei, hogy a reprezentatív megfigyelésekből adódó hibákat ― amelyeket mintavételi hibáknak nevezünk ― számszerűsíteni tudja. Így ezekkel számolni lehet, sőt a mintaelemszám növelésével és más módszerekkel csökkenthetők. Ezek a hibák abból adódnak, hogy nem a teljes sokaságot figyeljük meg, csak annak egy részét. Ráadásul ezeket a megfigyeléseket alapos szakmai előkészítés előzi meg, a végrehajtásban magasan kvalifikált szakemberek vesznek részt, ami csak növeli az így nyert információk megbízhatóságát. A reprezentatív eljárás a valószínűség-számításon alapul, és igen szigorú szabályai vannak. Csakis ezen szabályok maradéktalan betartása esetén lehetnek az alapsokasági jellemzőkre vonatkozó becsléseink helyesek. A reprezentatív megfigyelés első lépése a vizsgálandó részsokaság, azaz a minta kiválasztása. Alapvető követelmény, hogy a minta jól képviselje ― más szóval jól reprezentálja ― az alapsokaságot, ami azt jelenti, hogy szerkezete a fősokaság szerkezetét, annak arányait tükrözze. Az ilyen mintát REPREZENTATÍV MINTÁNAK nevezzük. A mintavételi eljárások típusai: ― véletlenen alapuló; ― nem véletlenen alapuló mintavételi eljárások. Véletlenen alapuló mintavételi eljárások A véletlenen alapuló minták felelnek meg leginkább a fent felsorolt követelményeknek, azaz ezeket valóban reprezentatív mintáknak tekinthetjük, feltéve, hogy az alapsokaság minden egyes egységének biztosítottuk az azonos esélyt a mintába való bekerüléshez. Ebből következik, hogy e módszer alkalmazásának alapvető feltétele az alapsokaság ismerete, amelyből a továbbiakban véletlenszerűen választjuk ki a minta elemeit. A VÉLETLEN KIVÁLASZTÁS olyan kiválasztási eljárás, melynek során ismert vagy meghatározható az alapsokaság elemeinek a mintába kerülési esélye. A mintavételi hiba számítása csak véletlen minta esetén lehetséges. A véletlen minta kiválasztása többféle módon is történhet: sorsolással, véletlen számtáblázatokkal és főleg számítógép segítségével, az úgynevezett véletlenszám-generátorok alkalmazásával. A statisztikai gyakorlatban több véletlen mintavételi módszert alkalmaznak. Ezek közül a leggyakoribbak a következők: EGYSZERŰ VÉLETLEN MINTA lényege, hogy az alapsokaságból véletlenszerűen emeljük ki a minta elemeit. Két vállfaja ismeretes: VISSZATEVÉSES EGYSZERŰ VÉLETLEN MINTAVÉTEL az alapsokaságból véletlenszerűen kiemelt elemeket visszahelyezzük az alapsokaságba, ezután kerül sor az újabb mintaelem véletlenszerű kiemelésére. Ez azt jelenti, hogy egy elem akár többször is bekerülhet a mintába, viszont ezzel biztosítjuk az egyes elemek azonos bekerülési esélyét, valamint a mintaelemek függetlenségét. Ezt a mintavételi módszert a gyakorlatban ritkán használják, így leginkább elméleti jelentősége van. 148
Gyakrabban alkalmazzák ― így tankönyvünkben is ezt részletezzük ― A VISSZATEVÉS az alapsokaságból kiemelt elemeket nem helyezzük vissza. Ezzel kizárjuk annak lehetőségét, hogy egy elem többször is bekerüljön a mintába, viszont az így nyert mintaelemek nem függetlenek egymástól, hiszen a mintába való bekerülés esélye az egyes alapsokasági elemeknél nem azonos. RÉTEGZETT MINTA úgy keletkezik, hogy az alapsokaságot egy csoportképző ismérv szerint átfedésmentes, az egész sokaságot lefedő, viszonylag homogén csoportokra (rétegekre) bontjuk, majd ezekből egyszerű véletlen mintát veszünk. A kiválasztás kétféle módon történhet: ― arányos vagy ― nem arányos rétegzéssel. Ezek részletesebb bemutatására később visszatérünk. ÖSSZEFOGLALVA: a véletlen minta vitathatatlan előnye, hogy biztosítja a reprezentativitást, tehát ezek alapján bátran vonhatunk le következtetéseket az alapsokaságra nézve. Legnagyobb hátránya az, hogy ezen módszerek alkalmazásánál előfeltétel, hogy legyen egy teljes körű listánk a vizsgált egységekről, sőt a rétegzett mintavételnél szükséges ismerni az alapsokaság összetételét is. Ha ezen információk nem állnak rendelkezésre, ezek megszerzése hosszadalmas és költséges lehet. Ilyen esetekben más mintavételi eljárásokat használnak. NÉLKÜLI EGYSZERŰ VÉLETLEN MINTAVÉTEL MÓDSZERÉT:
Nem véletlenen alapuló mintavételi eljárások A nem véletlen mintavételi módokat a gyakorlatban gyakran használják, különösképpen a piac- és a közvélemény-kutatás területén. Ennek oka e módszerek egyszerűségében és olcsóságában keresendő. E tulajdonságok valóban igen előnyösek, de tudni kell, hogy az így keletkező minták nem biztos, hogy reprezentatívak, a mintavételi hiba nagysága nem jellemezhető. Ennek megfelelően a minta tulajdonságai alapján csak fenntartásokkal lehet következtetni az alapsokaság jellemzőire. Néhány ilyen módszer: ― szisztematikus kiválasztás; ― kvóta szerinti kiválasztás; ― koncentrált kiválasztás; ― önkényes kiválasztás; ― hólabda-kiválasztás. A SZISZTEMATIKUS KIVÁLASZTÁS átmenet a véletlen és a nem véletlen módszer között. Lényege az, hogy a lajstrom minden k-adik elemét vesszük be a mintába, ezt figyeljük meg. Amennyiben az elemek sorrendje a lajstromban véletlenszerű volt, a minta véletlennek tekinthető, de ebben nem lehetünk bizonyosak. Akkor használjuk, amikor a sokaságról igen kevés információnk van, így minden előzetes feltevés (pl. rétegzés) torzíthatja a mintavételt. A KVÓTA SZERINTI KIVÁLASZTÁS során előre meghatározzák, hogy milyen összetételű mintára van szükség, ennek megfelelően kvótákat állapítanak meg, amelyekhez a kérdezőbiztosoknak a megkérdezettek kiválasztása során tartaniuk kell magukat. Ezek a kvóták lehetővé teszik, hogy bizonyos ismérvek szerint a minta összetétele valóban megegyezzen az alapsokaság összetételével, más ismérvek szerint viszont lényegesen eltérhet attól, ami komoly torzításokat eredményezhet. A kvótákat betartva, az elemek kiválasztása már a kérdezőbiztos dolga, ez gyakran ötletszerűen történik. A KONCENTRÁLT KIVÁLASZTÁS egyáltalán nem véletlenen alapuló módszer. A mintába azok az elemek kerülnek be, amelyek sokkal jellemzőbbek a sokaságra, mint más elemek. Például a fogyasztói árindex számításánál nem veszik figyelembe az összes létező termé149
ket, hanem csak az úgynevezett reprezentánsokat, vagyis azokat a termékeket és szolgáltatásokat, amelyeknek a fogyasztásban a legnagyobb súlyuk van (fogyasztói kosár). AZ ÖNKÉNYES KIVÁLASZTÁS módszerénél sem játszik szerepet a véletlen. A minta kiválasztásában a vizsgálatot végző személy tapasztalatára, előzetes megfigyeléseire támaszkodhat, így jelöli ki azokat az elemeket, amelyeket a vizsgálat szempontjából lényegeseknek tart, ezek kerülnek a mintába. A HÓLABDA KIVÁLASZTÁST akkor használják, amikor az alapsokaság elemei nem ismertek, így az eddig ismertetett módszerekkel nem elérhetőek. Ilyenkor kiindulnak egy ismert elemtől (személytől) és a tőle kapott információk alapján jutnak el a következő elemhez és így tovább. 8.5. MINTAVÉTEL ÉS BECSLÉS Mint láttuk, a minta a részleges megfigyelés alapvető eszköze. A közvetlen vizsgálatok, adatgyűjtések a mintára vonatkoznak, a cél azonban az alapsokaságra vonatkozó következtetések levonása, annak jellemzőinek megismerése becslés útján. A BECSLÉS tehát a sokaság egy jellemzőjének mintából való meghatározása, általában az analógia elve alapján. Ez azt jelenti, hogy a mintából a sokaságban használatos számítási móddal megegyező módon nyerjük a becslést. Leggyakoribb az átlag, az értékösszeg, az arány és a szórás becslése. A becslés kétféleképpen történhet: ― pontbecsléssel, amikor az alapsokasági paramétert egy értékkel becsüljük, vagy ― intervallumbecsléssel, amikor egy előre meghatározott megbízhatósággal egy intervallumot adunk az alapsokasági paraméterre. Az intervallumbecslés a matematikai statisztika körébe tartozik, ezért a továbbiakban csak a pontbecsléssel foglalkozunk. Feltételezzük, hogy a mintát minden esetben visszatevés nélküli véletlen módszerrel nyertük. Példa Egy vállalatnál egy bizonyos termék előállítását 6 dolgozó végzi. Megadott napon teljesítményük 20, 22, 18, 19, 27, 26 darab volt. A dolgozók átlagos napi teljesítményét véletlen minta segítségével szándékozzák megbecsülni. (Megjegyezzük, hogy ez a Példa pusztán bemutató jellegű, ilyen kis számosságú alapsokaságnál értelmetlen a minta alapján történő vizsgálódás. Jegyezzük meg azonban, hogy a felsorolt adatok alapján az alapsokaságra vonatkozó tényleges átlagos teljesítmény 22 darab/fő volt, amely adatot a valóságban nem ismerjük, hiszen célunk éppen ennek becslése.) Megoldás: Fontos döntés a mintaelemszám megválasztása. Példánkban a kételemű minta mellett döntöttek, így a hat elem közül véletlenszerűen kiemeltek két elemet, ezek képezik a mintát. Ez a minta csak egy a több, lehetséges minták közül. Érdemes megjegyezni, hogy egy N elemű alapsokaságból nyerhető n elemű minták száma meghatározható a következő képlet segítségével: N N(N − 1)(N − 2)K(N − n + 1) = 1⋅ 2 ⋅ 3⋅K⋅ n n 150
Az előbbi alapján az alapsokaság 6 eleméből: 6 = 6 egyelemű 1 6⋅5 = 15 kételemű 1⋅ 2 6⋅5⋅ 4 = 20 háromelemű 1⋅ 2 ⋅ 3 6 ⋅5⋅ 4 ⋅3⋅ 2 = 6 ötelemű 1⋅ 2 ⋅ 3 ⋅ 4 ⋅ 5 6 ⋅ 5 ⋅ 4 ⋅ 3 ⋅ 2 ⋅1 = 1 hatelemű minta nyerhető 1⋅ 2 ⋅ 3 ⋅ 4 ⋅ 5 ⋅ 6 Mivel kételemű minta mellett döntöttek, a lehetséges minták a következők: (20, 22) (20, 18) (20, 19) (20, 27) (20, 26) (22, 18) (22, 19) (22, 27) (22, 26) (18, 19) (18, 27) (18, 26) (19, 27) (19, 26) (27, 26). A mintákból számított mintaátlagok rendre a következők: 21,0; 19,0; 19,5; 23,5; 23,0; 20,0; 20,5; 24,5; 24,0; 18,5; 22,5; 22,0; 23,0; 22,5; 26,5. Mivel a mintavétel véletlenül történik, bármelyik fenti mintának ugyanakkora a valószínűsége. A valóságban egyetlen mintát veszünk, és annak alapján végezzük el a becslést, így ugyanakkora az esélyünk, hogy az alapsokasági átlagos teljesítményt 18,5 (a legkisebb mintaátlag), vagy éppen 26,5 darab/főre becsüljük (a legnagyobb mintaátlag). Ez azonban lényeges különbség! Emlékezzünk rá, hogy az alapsokasági átlagos teljesítmény 22 darab/fő, „kis szerencsével” kihúzhatjuk a (18, 26) mintát is, amelynek mintaátlaga éppen az alapsokasági átlaggal egyenlő. Ismételten felhívjuk a figyelmet arra, hogy az alapsokasági átlag nem ismert! Mi jogosít fel akkor minket, hogy egy véletlen minta alapján következtessünk az alapsokaság paramétereire, példánkban átlagára? Az, hogy a mintaátlagok átlaga az alapsokasági átlaggal egyenlő, azaz a mintaátlagok az alapsokaság körül mozognak. A becslésnél alapvető követelmény a pontosság és a megbízhatóság. A becslés pontossága fokozható a mintaelemszám növelésével. A mintaátlagok alakulása a mintaelemszám változtatásával Minta-elemszám
Lehetséges minták száma
Lehetséges legkisebb mintaátlag
Lehetséges legnagyobb mintaátlag
1 2 3 4 5 6
6 15 20 15 6 1
18,00 18,50 19,00 19,75 21,00 22,00
27,00 26,50 25,00 23,75 22,80 22,00
8.1. táblázat
Látható, hogy a mintaelemszám növelésével az az intervallum, amelybe az egyes mintaátlagok esnek, szűkülnek, így egyre nagyobb az esélyünk arra, hogy a véletlenszerűen kiválasztott minta alapján kellőképpen pontosan becsülhessük az alapsokasági átlagot. Fontos tudni azonban, hogy a mintaelemszám növelése jelentős többletköltségeket okozhat, ezért ezt a lehetőséget meg kell fontolni. 151
A becslés pontosságát úgy is fokozhatjuk, ha az alapsokaságot eleve homogén részsokaságokra bontjuk, majd ezekből veszünk véletlen mintát, azaz rétegzett mintavételt végzünk. 8.5.1. A SZÁMTANI ÁTLAG ÉS AZ ÉRTÉKÖSSZEG BECSLÉSE Vezessük be a következő jelöléseket: N = az alapsokaság elemeinek száma; Xi = az alapsokaság elemeinek valamely mennyiségi jellemzője; n = a minta elemszáma; xi = a minta elemeinek valamely mennyiségi jellemzője. Ezek alapján az alapsokasági átlag: N
∑ Xi X1 + X 2 + K + X N i = 1 = X= N N A mintaátlag, aminek alapján az alapsokasági átlagot becsüljük. ni Ni = n N Rétegzett mintavétel alkalmazásakor két eset lehetséges: 1) ARÁNYOS RÉTEGZÉS esetén az alapsokaságot k homogén csoportra osztjuk, majd ezekből véletlenszerűen választjuk ki a mintát, oly módon, hogy a minta összetétele azonos legyen az alapsokaság összetételével, azaz: ni Ni = n N 2) NEM ARÁNYOS RÉTEGZÉS esetén az alapsokaságot k homogén rétegre bontjuk, majd ezekből veszünk véletlen mintát, de úgy, hogy a minta összetétele eltér az alapsokaságétól, azaz bizonyos tétegeket túl-, másokat alulreprezentálunk. Ily módon: ni Ni ≠ n N Példa Egy megye lakóinak 65%-a városban, 30%-a községekben, 5%-a egyéb településtípusban lakik. Az egy főre jutó húsfogyasztás becslése céljából 200 elemű rétegzett mintát vettek. A felvétel feltételeit és eredményeit tartalmazza az alábbi táblázat arányos rétegzés esetén. Egy megye lakóinak húsfogyasztása településtípusonként Településtípus
A megye lakosságának megoszlása (Ni/N) (%)
A minta megoszlása A minta megoszlá- Éves átlagos hús(ni) (fő) sa) (ni/n) (%) fogyasztás (kg/fő)
Város
65,0
130
65,0
89,2
Község
30,0
60
30,0
74,3
Egyéb
5,0
10
5,0
70,1
100,0
200
100,0
Összesen
…
8.2. táblázat
Becsüljük meg az egy főre jutó átlagos fogyasztást a vizsgált megyében! Becsüljük meg az összes éves húsfogyasztást a megyében, ha tudjuk, hogy a vizsgált időszakban a népesség átlagos száma 810 ezer fő volt! 152
Megoldás: Mivel a minta megoszlása azonos az alapsokaság megoszlásával: ni Ni = n N arányos rétegzéssel állunk szemben. Ilyenkor az átlag becslésénél mindegy, hogy a mintaátlagok mellett a minta vagy az eredeti sokaság súlyait használjuk. Vagyis: k k N n X = ∑ i ⋅ x i = ∑ i ⋅ x i = 0,65 ⋅ 89,2 + 0,30 ⋅ 74,3 + 0,05 ⋅ 70,1 = 83,775 kg/fő i =1 N i =1 n (A k a rétegek számát jelöli, ez esetünkben 3.) Tehát a szóban forgó megyében a vizsgált időszakban az átlagos húsfogyasztás becsült értéke 83,775 kg/fő volt. Itt a relatív súlyokkal dolgoztunk. Amennyiben az abszolút súlyokkal számolunk, akkor: k
∑ Ni ⋅ xi
k
∑n
i
⋅ xi
130 ⋅ 89,2 + 60 ⋅ 74,3 + 10 ⋅ 70,1 = 67 857,75 ezer kg N n 200 A feladat második pontja az értékösszeg becslésére vonatkozik: X=
i =1
=
i =1
=
k
X=
∑N ⋅X i =1
i
N
i
3
→ ∑ N i ⋅ X i = N⋅ X i = 810 ⋅ 83,775 = 67 857,75 ezer kg i =1
vagyis becsléseink szerint a megye összes húsfogyasztása a vizsgált évben 67857,75 ezer kg volt. Példa Tekintsük most a fenti példát, de úgy, hogy a mintában a községekben lakókat túlreprezentálták, a városi lakosokat pedig alulreprezentálták. Azaz a községben lakók mintabeli súlya nagyobb, a városi lakosok súlya kisebb, mint az eredeti sokaságban. (Általában a nagyobb szóródású rétegeket szokás felül-, a vizsgált ismérv szerint homogénebb réteget alulreprezentálni.) Az így lezajlott adatgyűjtés feltételeit, illetve eredményeit a következő táblában közöljük: Egy megye lakóinak húsfogyasztása településtípusonként Településtípus A megye lakosságának A minta megoszlása A minta megoszlása) Éves átlagos húsfomegoszlása (Ni/N) (%) (ni) (fő) (ni/n) (%) gyasztás (kg/fő) Város
65,0
110
55,0
91,2
Község
30,0
80
40,0
75,4
Egyéb
5,0
10
5,0
69,9
100,0
200
100,0
Összesen
8.3. táblázat
1) Becsüljük meg az egy főre jutó átlagos húsfogyasztást a vizsgált megyében! 2) Becsüljük meg az összes éves húsfogyasztást a megyében, ha tudjuk, hogy a vizsgált időszakban a népesség átlagos száma 810 ezer fő volt! Megoldás: Látható, hogy itt nem arányos rétegzésről van szó, hiszen a minta megoszlása eltér az alapsokaság megoszlásától: n i Ni ≠ n N 153
Az átlag becslésénél nagyon fontos tudnivaló, hogy most a súlyok az eredeti sokaság súlyai, nem pedig a mintáé. Ennek oka az, amit már korábban is hangsúlyoztunk: maga a minta nem érdekes, az csak a megismerés eszköze, amiről valóban meg akarunk tudni valamit, az az alapsokaság. Ennek megfelelően az egy főre jutó átlagos húsfogyasztás a megyében: 3
X=
∑N ⋅x i
i =1
N
i
az abszolút súlyok ismeretében, vagy példánkban:
3
NI ⋅ x i = 0,65 ⋅ 91,2 + 0,30 ⋅ 75,4 + 0,05 ⋅ 69,9 = 85,395 kg/fő I =1 N
X=∑
Ami a megye összes húsfogyasztását illeti, ennek becsült értéke: 3
∑N i =1
i
⋅ X i = N⋅ X = 810 ⋅ 85,395 = 69 170 ezer kg
8.5.2. A MEGOSZLÁSI VISZONYSZÁM BECSLÉSE Példa Köztudomású, hogy hazánk népességének egészségi állapota messze nem kielégítő. A szakemberek nem győzik hangsúlyozni a szűrővizsgálatok fontosságát, amelyek nagy része ingyenes. Egy felmérés annak becslését tűzte ki céljául, hogy a felnőtt népesség hány százaléka vett részt tüdőszűrésen az elmúlt két évben. Egy 200 elemű, nemek szerint rétegzett mintát vettek a felnőtt népesség köréből. A férfiak 62,2%-a, a nők 73,4%-a élt a szűrés lehetőségével. A részvételi arány becslése az alapsokaságra vonatko zóan attól függ, hogy arányos vagy nem arányos rétegzéssel történt a mintavétel. Jelölések: Vmi = az alapsokaság i-edik rétegére vonatkozó megoszlási viszonyszám (relatívgyakoriság), vmi = a minta i-edik rétegére vonatkozó megoszlási viszonyszám (relatív gyakoriság), k = a rétegek száma (példánkban k = 2). Ha a minta arányos rétegzéssel készült: A felnőtt népesség részvételi aránya tüdőszűrésen, nemenként Megnevezés
A felnőtt népesség megoszlása (%)
Részvételi arány (%)
az országban
a mintában
Férfi
49,1
46,8
62,2
Nő
50,9
52,8
73,4
100,0
100,0
…
Összesen
8.4. táblázat k
k Ni n ⋅ v mi = ∑ i ⋅ v mi = 0,468 ⋅ 62,2 + 0,528 ⋅ 73,4 = 67,9% i =1 N i =1 n
Vm = ∑
Arányos rétegzésről lévén szó, mindegy tehát, hogy az alapsokaság vagy a minta súlyaival dolgozunk. 154
Ha a minta nem arányos rétegzéssel készült: A felnőtt népesség részvételi aránya tüdőszűrésen, nemenként Megnevezés
A felnőtt népesség megoszlása (%)
Részvételi arány (%)
az országban
a mintában
Férfi
46,8
40,0
63,4
Nő
52,8
60,0
75,1
100,0
100,0
Összesen
8.5. táblázat
Ilyen esetben természetesen az alapsokaság súlyaival számolunk, ahogy azt az átlagbecslésnél is tettük: k N Vm = ∑ i ⋅ v mi = 0,468 ⋅ 63,4 + 0,528 ⋅ 75,1 = 69,3% i =1 N Tehát a felnőtt lakosság kb. 30%-a nem vett részt a szűrésen az elmúlt két évben. A helyzet valóban aggasztó, különösképpen ha arra gondolunk, hogy ez bizony több, mint 2,5 millió főt jelent! Ha egy csoportosítás esetén csak egyetlen csoport megoszlását emeljük ki ― ahogyan azt tettük ebben a példában is (a szűrésen részt vettek aránya) ― akkor ARÁNYBECSLÉSRŐL beszélünk.
155
8.7. ELLENŐRZŐ KÉRDÉSEK 1. Milyen szempontok szerint csoportosíthatjuk a statisztikai adatfelvételeket ? 2. Mi a teljes körű és a részleges megfigyelés lényege, sorolja fel ezek előnyeit és hátrányait? 3. Csoportosítsa a mintavételi eljárásokat ! 4. Sorolja fel és jellemezze a véletlenen alapuló mintavételi eljárásokat ! 5. Sorolja fel és jellemezze a nem véletlenen alapuló mintavételi eljárásokat ! 6. Mit nevezünk becslésnek ? 7. Milyen elvárásokat támasztunk a becslésekkel szemben? 8. Hányféle becslést ismer és mit jelentenek ezek? 9. Milyen módszerekkel növelhető a becslés pontossága? 10. Melyek a statisztikai adatfelvétel szakaszai? 11. Mit nevezünk kérdőívnek és melyek tervezésének főbb szempontjai? 12. Melyek a kérdőíves felmérések feldolgozásának szakaszai? 13. Hogyan történik a számtani átlag becslése egyszerű véletlen minta esetén? 14. Hogyan történik a számtani átlag becslése arányos és nem arányos rétegzett mintavétel esetén? 15. Mi az aránybecslés lényege és hogyan történik?
156
FELHASZNÁLT IRODALOM ÉS FORRÁSMUNKÁK JEGYZÉKE BALOGH M.: Statisztikai ismeretek. Perfekt, Budapest, 1998. BÁNSZEGI K. dr.: Az információszabadság érvényesülése a statisztikában. Statisztikai Szemle, 1996. március. HORVÁTH G.-né dr.: Alkalmazott statisztika I., Külkereskedelmi Főiskola, Budapest, 1995. HUNYADI L.―MUNDRUCZÓ Gy., VITA L.: Statisztika. Aula Kiadó, Budapest, 1996. HUNYADI L.―MUNDRUCZÓ Gy.―VITA L.: Statisztika. Aula kiadó, Budapest, 1997. JUHÁSZ Gy.-né dr.―VEITZ G.: Példatár és feladatgyűjtemény az Általános statisztika című tankönyvhöz. Nemzeti Tankönyvkiadó, Budapest, 1992. KARDOS Z.-né dr.: Statisztikai módszerek alkalmazása. Veszprémi Egyetem Georgikon Mg. Tud. Kar, Keszthely, 2001. Jegyzet. KARDOS Z.-né dr.: Statisztikai módszerek gazdasági alkalmazásai. Pannon Agrártudományi Egyetem, Georgikon Mg. Tud. Kar, Keszthely, 1995. Jegyzet. KARDOS Z.-né dr.―DR. VARGÁNÉ: Alkalmazott statisztika. KAA―Talentum Kft., Budapest, 1997. KARDOS Zoltánné: Statisztikai módszerek alkalmazása. Kari jegyzet, Keszthely, 2001. KARDOS Zoltánné―VARGÁNÉ DUGONICS Rita: Alkalmazott statisztika. Keszthelyi Akadémia Alapítvány―Talentum Kft., 1997 KERÉKGYÁRTÓ Gy.-né―MUNDRUCZÓ Gy―SUGÁR András: Statisztikai módszerek és alkalmazásuk. Aula Kiadó, Budapest, 2001. KERÉKGYÁRTÓ Gy.-né―MUNDRUCZÓ Gy: Statisztikai módszerek a gazdasági elemzésben. I. köt., Aula Kiadó, Budapest, 1994. KOLTAI T.: Az adatgyűjtés technológiai korszerűsítése. Statisztikai Szemle, 2000. július. KORPÁS A.-né dr.: Általános statisztikai I. Nemzeti Tankönyvkiadó, Budapest, 1996. KÖVES P.―PÁRNICZKY G.: Általános Statisztika I. kötet. Közgazdasági és Jogi Könyvkiadó, Budapest, 1981. KÖVES P.―PÁRNICZKY G.: Általános statisztika I. és II. kötet. Közgazdasági és Jogi Könyvkiadó, Budapest, 1981. KUN István: Gazdasági statisztika. LSI Oktatóközpont, Bp. 1998. 63―88 o. Magyarország Nemzeti Számlái. 1996–1998. Központi Statisztikai Hivatal, Budapest. Mezőgazdasági Statisztikai Évkönyv, 1999. Központi Statisztikai Hivatal, Budapest. NYITRAI F.-né dr.: Általános statisztikai. Központi Statisztikai Hivatal, Budapest, 1996. NYITRAI F.-né: Gazdaságstatisztika. Központi Statisztikai Hivatal, Budapest, 1996. RÓTH J.-né dr.―DR. SUGÁR A. Általános statisztikai. Tankönyvkiadó, Budapest, 1992. Statisztikai Havi Közlemények, 2001/1―2. Központi Statisztikai Hivatal, Budapest. SZABÓ L. dr.: Az általános statisztikai alapjai. Modern Üzleti Tudományok Főiskolája, Tatabánya, 1993. SZARVAS B.―SUGÁR A.: Példatár a Statisztika c. tankönyvhöz. Aula, Budapest, 1999. A termelékenység alakulása Magyarországon nemzetközi összehasonlításban, Központi Statisztikai Hivatal, Budapest, 1999. www.euroinfo.hu www.ksh.hu
157