BEVEZETÉS AZ SPSS ALAPJAIBA
(Belső használatra)
1
TARTALOMJEGYZÉK 1.
Statisztikai alapfogalmak .............................................................................................................1 1.1.
Sokaság ................................................................................................................................4
1.2.
Ismérvek és mérési skálák....................................................................................................6
1.3.
Statisztikai sorok ..................................................................................................................7
2.
SPSS alapfogalmak ......................................................................................................................9
3.
Alapvető statisztikai elemzési módszerek..................................................................................12 3.1.
A statisztikai adatok grafikus ábrázolása ...........................................................................12
3.1.1.
Oszlopdiagram (GRAPH – BAR)..................................................................................13
3.1.2.
Vonaldiagram (GRAPH – LINE) ..................................................................................18
3.1.3.
Területdiagram (GRAPH – AREA) ...............................................................................19
3.1.4.
Kördiagram (GRAPH – PIE).........................................................................................20
3.1.5.
High –Low diagram (GRAPH – HIGH-LOW)................................................................21
3.1.6.
Pareto diagram (GRAPH – PARETO) ............................................................................22
3.1.7.
Pontdiagram (GRAPH – SCATTER) ..............................................................................23
3.1.8.
Hisztogram (GRAPH – HISTOGRAM) ...........................................................................25
3.1.9.
Leveles- ábra (Analyze – Descritive Statistics - Explore) .........................................26
3.1.10.
Box-plot (Analyze – Descritive Statistics - Explore).................................................27
3.1.11.
Normal Q-Q-plot (Analyze – Descritive Statistics - Explore)...................................28
3.2.
Középértékek .....................................................................................................................29
3.2.1.
Számított középértékek ..............................................................................................30
3.2.2.
Helyzeti középértékek................................................................................................32
3.3.
Változékonyság..................................................................................................................33
3.3.1.
A szóródás terjedelme................................................................................................33
3.3.2.
Kvantilis értékek ........................................................................................................33
3.3.3.
Középeltérés...............................................................................................................35
3.3.4.
Abszolút átlageltérés ..................................................................................................35
3.3.5.
Variancia ....................................................................................................................35
3.3.6.
Szórás .........................................................................................................................35
3.3.7.
Relatív szórás vagy variációs koefficiens ..................................................................36
3.3.8.
Átlagos különbség......................................................................................................36
3.3.9.
A momentumok .........................................................................................................37
3.4.
Alakmutatók.......................................................................................................................37 2
4.
3.4.1.
Aszimmetria ...............................................................................................................38
3.4.2.
Lapultság, csúcsosság ................................................................................................39
3.5.
A szélsőséges adatok kezelése ...........................................................................................39
3.6.
Koncentráció elemzése ......................................................................................................40
Leíró statisztika az SPSS-ben ....................................................................................................41 4.1.
4.1.1.
FREQUENCIES ..............................................................................................................42
4.1.2.
Descriptive .................................................................................................................46
4.1.3.
Explore .......................................................................................................................46
4.2. 5.
Analyze/Descriptiv Statistics .............................................................................................41
Súlyozott számítások előkészítése .....................................................................................47
Példák az SPSS alkalmazására...................................................................................................49 5.1.
Megoszlás vizsgálata..........................................................................................................49
5.2.
Egy mennyiségi ismérv kategóriákra bontása....................................................................54
5.3.
Az adatok előkészítése súlyozott számításokhoz...............................................................56
5.4.
A búza termésátlagok alakulása a vizsgált gazdaságokban ...............................................57
5.5.
Az erőgépek eloszlásának vizsgálata .................................................................................58
5.6.
A fajlagos erőgép ellátottság elemzése ..............................................................................60
5.7.
Az erőgépek átlagéletkorának elemzése ............................................................................63
Felhasznált irodalom ..........................................................................................................................67
3
1. Statisztikai alapfogalmak A statisztikai módszerek helyes alkalmazásának feltétele a megszerzett információk helyes értelmezése. Ehhez szükség van a statisztikai alapfogalmak pontos ismeretére. A különböző statisztikai programcsomagok, így az SPSS is lehetővé teszi számunkra a jelenségek gyors és sokoldalú vizsgálatát, azonban ne feledjük, hogy bármely program csak az általunk megadott információk alapján végzi el a különféle számításokat. Ha az információkat hamisan közöljük az SPSS-el, a kimeneti adataink is hamisak lesznek. Fentiek alapján tekintsük át a legfontosabb statisztikai alapfogalmakat, és ezek SPSS értelmezését.
1.1.Sokaság A vizsgálat tárgyát képező tömegjelenségeket a statisztikában sokaságnak nevezzük. A sokaságot nagyszámú egyed alkotja, amelyeket a sokaság egyedeinek nevezzük. A sokaság egyedei között vannak olyanok, amelyek bizonyos tulajdonságok, lényegbeli jegyek tekintetében egymással megegyeznek, más szempontból viszont eltérhetnek egymástól. Az egyedeknek a hasonlósága illetve megegyezősége adja meg számunkra a sokaság egyöntetűségét, homogenitását, míg a különböző jegyek alapján meghatározott eltérő jelleg a sokaság heterogenitását. A sokaság egyedei lehetnek valóságos egységek, amelyeket a felvételezés időpontjában valóságosan tudunk mérni, számlálni, és lehetnek úgynevezett nem valóságos egységek, események, amelyek egy adott időtartam alatt bekövetkezett változást, teljesítményt, történést tükröznek. A sokaságokat több szempont alapján csoportosíthatjuk: Attól függően, hogy valóságos egységekből vagy eseményekből épül fel a sokaság, megkülönböztethetünk ún. álló sokaságot és mozgó sokaságot. Az álló sokaság vagy állapot sokaság valóságos egységekből áll, a sokaság egységeinek egy adott időpontban fennálló állapotát rögzíti. Angol kifejezéssel mondják ezt stock, állomány jellegű sokaságnak is. A mozgó sokaságot események alkotják, amelyek egy adott időtartam alatt következnek be. Ezt angol kifejezéssel flow, áramlás jellegű sokaságnak is nevezzük. A sokaságokat úgy is csoportosíthatjuk, hogy gyakorlatilag számbavehető egységekből, vagy nem számba vehető egységekből állnak. Ennek alapján különböztethetünk meg véges és végtelen sokaságot. Harmadik csoportosítási módunk, amikor a sokaság ténylegesen meglévő egységekből – valóságos sokaság-, vagy valamely esemény egységeinek a lehetséges értékeinek összeségéből épül fel a sokaság – elméleti sokaság. Teljes sokaságról beszélünk akkor, ha a körülhatárolt sokaság minden egységét tartalmazza a sokaság, ha a teljes statisztikai sokaság egységeinek bizonyos szempontból kiválasztott része található meg a sokaságban, akkor mintasokaságról beszélünk. Amikor sokaság egységei valamilyen alapvető tulajdonság tekintetében azonosak, pl. egy vállalat dolgozói, ezt fősokaságnak nevezzük. Ezen belül különböző tulajdonságok alapján változatokat képezhetünk, pl. szellemi és fizikai dolgozók. A fősokaság így képzett részeit részsokaságoknak nevezzük. 4
A sokaság egyedei, egységei viszonylag jól elkülöníthetők egymástól, és ezeknek az egységeknek a jellemzői határozzák meg azt, hogy milyen típusú lesz valamely sokaság. Az alapfogalmakat és a leíró statisztikai számításainkat bemutató adatbázisban 57 mezőgazdasági vállalkozás, termeléssel, termőhelyi adottságokkal és gazdálkodással kapcsolatos adatai találhatók meg. Ebből az adatbázisból mutatunk most be egy kivonatot, megnézzük, hogy milyen jellegű a sokaság, a későbbiekben az ismérvek és mérési szintek alapján meghatározzuk a változótípusokat, és a mérési szinteknek megfelelő leíró statisztikai elemzéseket végzünk.
1. Táblázat Mezőgazdasági vállalkozások adatai (kivonat) 2002. 12. 31. Gazdaság
Tájegység
1 Hajdúság 2 B-A-Z megye SzabolcsSzatmár-Bereg 3 megye 5 Hajdúság 7 Dél-Alföld 8 B-A-Z megye Szabolcs9 Szatmár-Bereg megye
. . .
0 625
3144 1758
19600 9050
4 1
HízóértékeErőgépek Sertés sítés száma db 2002ben t 28,9 18 0 397 29,3 10 0 0
45 0 0 0
4268 3235,52 1322 1414
9100 18500 11530 13500
1 4 2 1
25,8 28,9 31,9 25,9
22 19 4 6
2624 950 662 532
397 14,5 90,84 51
0
1300
16100
3
28,9
7
928
189
. . .
. . .
Saját terület ha
. . .
. . .
. . .
Bérelt terület ha
Bérleti díj Ft/ha
Földkategória
. . .
. . .
Maximum hőmérséklet 0 C
. . .
. . .
Az 1. táblázat alapján képzett sokaságok egységeit a pontosan elkülöníthető mezőgazdasági vállalkozások képezik. Nézzünk példákat a különböző sokaságokra: • A mezőgazdasági vállalkozások tulajdonában lévő erőgépek 2002. 12. 31-én elnevezésű sokaság diszkrét, álló, véges sokaságnak tekinthető. • A hízósertés értékesítése a 2002. évben folytonos, mozgó és véges sokaság. • A mezőgazdasági vállalkozások által bérelt terület nagysága 2002. 12. 31-én folytonos, álló, véges sokaságot képez. A sokaság elemeinek a száma 57 darab, amelyek a teljes sokaság egy bizonyos szempontból kiválasztott részét képezik, ezért az előbb említett valamennyi sokaság mintasokaság is egyben. A sokaságok csoportosításánál nem említettük, de nem hagyhatjuk figyelmen kívül, hogy nagyon sokszor különböző minőségű, gyakran eltérő mértékegységű, de valamilyen okból együtt vizsgálni kívánt jelenségek, jószágok, termékek összességének együttes vizsgálatára van szükség. Ebben az esetben az összehasonlíthatóságot leggyakrabban az érték meghatározásával érhetjük el, de esetleg más fajta egységeket is használhatunk az összevetés megteremtéséhez. Az ilyen sokaságokat aggregált sokaságoknak nevezzük, amely folytonos és diszkrét is. Az aggregált sokaság képzésének módja: n
n
i =1
i =1
A = ∑ qi p i = ∑ v i qi az i-edik minőségű termék mennyisége adott mértékegységben p i az i-edik minőségű termék egységára v i az i-edik termék azon egységeinek összértéke, melyek az aggregált sokaságba tartoznak. 5
Természetesen az aggregált sokaság képzésénél nemcsak az egységárat, hanem valamilyen más alkalmasan megválasztott egységet is használhatunk, így pl. a normálhektárt, vagy a számosállatot is.
1.2. Ismérvek és mérési skálák A statisztikai vizsgálat egzaktságának előfeltétele a vizsgálat tárgyát képező sokaság pontos körülhatárolása. A sokaság egyedeinek közös tulajdonságai az ismérvek. Az egységek jellemzéséhez három alapvető kérdésre kell válaszolnunk: MI? HOL? MIKOR? A tartalmi, térbeli és időbeli közös tulajdonságok megválaszolása után válik a sokaság egészének pontos körülhatárolása félreérthetetlenné. A statisztikai ismérvek tárgyi, térbeli és időbeli ismérvek lehetnek: • Tárgyi ismérvek: A tárgyi ismérvek a sokaság egyedeit jellemző minőségi vagy mennyiségi tulajdonságok. o Minőségi ismérvek: a sokaság egységeit csak verbálisan, fogalmilag különítik el egymástól, kvalitatív vagy fokozati különbségeket jelentenek. Általában ide tartoznak a csak két változattal rendelkező alternatív ismérvek is. o Mennyiségi ismérvek: a sokaság egységeit valamilyen számlálás vagy mérés alapján jellemzik.
• •
A mennyiségi ismérveket tovább is csoportosíthatjuk: Folytonos ismérvek: olyan mérhető ismérvek, amelyek bizonyos határokon belül bármilyen valós szám értékeit felvehetik. Diszkrét ismérvek: olyan számlálható ismérvek, amelyek értéke csak egész szám lehet. Időbeli ismérvek: a sokaság egységeit időbeli alakulásának alapján különíti el. Változatai lehetnek időpontok és időtartamok. Térbeli ismérvek: az egységek térbeli elhelyezésére szolgáló rendezőelvek. Változataik lehetnek területi, közigazgatási stb. egységek.
A számítógépes adatfeldolgozás könnyítése, és adataink rendszerezése érdekében bármely, nem mennyiségi ismérvváltozat számértékké alakítható, kódolható. Természetesen az ily módon nyert számértékek értékelésénél figyelembe kell vennünk azt, hogy ez milyen módon jellemző a sokaság értékeire. A mérési szintek, vagy mérési skálák arról adnak felvilágosítást, hogy milyenek a sokaság egységeihez tartozó számértékek tulajdonságai. Mérési skálák: • Névleges (nominális) mérési szint: a legegyszerűbb és legkevésbé informatív mérési skála, kizárólag az egységekhez rendelt számértékeknek mértékegysége nincs, azok egyező vagy különböző voltát engedi meg jellemző tulajdonságként elfogadni, a kódszámok közötti különbségek és arányok nem értelmezhetők. Nominális mérési szintű ismérvek lehetnek a területi és minőségi ismérvek. • Sorrendi (ordinális) mérési szint: a skálaértékek egyezősége vagy különbözősége mellett az értékek sorrendiségét is figyelembe vehetjük. A skálaértékek bármilyen mértékegység nélküli számot felvehetnek, hisz itt nem maga a számérték jelent számunkra információt, hanem azok sorrendje. Az elemzések során elsősorban olyan műveleteket végezhetünk el az ilyen típusú adatokkal, amelyek az értékek sorrendiségére épülnek. A gyakorlatban azonban gyakran előfordul, hogy átlagolást, különbségképzést folytatunk az ordinális mérési szintű számértékekkel. Sorrendi skálán mérhető ismérvek lehetnek a minőségi ismérvek. • Különbségi (intervallum) mérési szint: valós méréseken alapuló skálaértékekről van szó, itt már a mennyivel több, illetve mennyivel kevesebb kérdésre is választ kapunk. Az interval6
•
lum mérési szintű adatoknak már mértékegységük is van. A skála kezdőpontjának megválasztása azonban önkényes, így ha ugyanazt a tulajdonságot egy másik önkényesen megválasztott kezdőpont alapján és más beosztással mérjük, ugyanannak a tulajdonságnak a két skála alapján meghatározott aránya már nem egyértelmű, csak a különbsége. Különbségi skálán mérhetőek a mennyiségi ismérvek, és az időbeli ismérvek. Arányskála: a legtöbb információt adja. A skála kezdőpontja egyértelműen meghatározott, a különbségen kívül az értékek aránya is egyértelműen meghatározható. Arányskálán mérhetők a mennyiségi ismérvek.
Amikor az SPSS adatbázisunkban a változók tulajdonságait megadjuk, rögzítenünk kell azok mérési szintjét is a MEASURE tulajdonságban. Az SPSS háromféle mérési szintet különböztet meg, a nominális (NOMINAL), az ordinális (ORDINAL) és különbségi/arány (SCALE) skálákat. 1. ábra Az SPSS mérési skálái
Most nézzünk példákat az 1. táblázat alapján különböző ismérvekre és mérési szintekre: A sokaságunk: Mezőgazdasági vállalkozások 2002. 12. 31-én. A sokaság egysége: 1. számú mezőgazdasági vállalkozás
2. Táblázat Ismérvek és mérési szintek Ismérv Tájegység Saját terület ha Földkategória Erőgépek száma
Változat Hajdúság 0 4 18 hőmérséklet 28,9
Maximum 0 C Hízóértékesítés ben t
2002-
397
Ismérvfajta Térbeli Mennyiségi/folytonos Minőségi Mennyiségi/diszkrét Mennyiségi/folytonos
Mérési szint Nominális/nominal Arány/scale Ordinális/ordinal Arány/scale Intervallum/scale
Mennyiségi/folytonos
Arány/scale
A mérési szintek meghatározásánál figyeljünk arra, ha más alkalmazásból importáljuk az adatbázisunkat, a mérési szinteket esetleg újra kell definiálnunk, mert pl. az *.xls kiterjesztésű fájlok esetén az SPSS minden, az Excelben számformátumban bevitt változónak SCALE mérési szintet ad.
1.3.Statisztikai sorok A statisztikai adatok valamilyen szempontok szerint felsorolását, rendezett halmazát statisztikai soroknak nevezzük. Minden statisztikai sor két egymással összefüggő felsorolást tartalmaz, amely általában csoportosítás, összehasonlítás útján jön létre. Az ilyen statisztikai sorokat valódi soroknak nevezzük. 7
A másik eset az, hogy a statisztikai sor nem csoportosítás vagy összehasonlítás útján jön létre, hanem egyszerűen felsorakoztatjuk egymás után az egyazon jelenségre, gazdasági egységre vonatkozó többféle sokaság különnemű adatait (Pl. egy mezőgazdasági vállalkozás adatainak felsorolása). Az ilyen statisztikai sorokat nem valódi, leíró soroknak nevezzük. A valódi sorok a készítésükhöz felhasznált ismérvek alapján minőségi, mennyiségi, területi és idősorok lehetnek. •
Minőségi sorok
A minőségi sorok a sokaság olyan tárgyi ismérv szerinti megoszlását mutatják, amelyek változatai csak fogalmilag határolhatók le egymástól. A fősokaság részsokaság szerinti összetételéről, szerkezéről nyújt számunkra információt. •
Mennyiségi sorok
A mennyiségi sorok a sokaság olyan tárgyi ismérv szerinti megoszlását mutatják, amelyek változatait számszerűen fejezzük ki. Folytonos mennyiségi ismérvek esetén illetve nagyszámú ismérvértékkel rendelkező diszkrét menynyiségi ismérveknél osztályközökre bontást használunk. Az osztályközös mennyiségi sor jellemzői: Az egyes osztályok alsó és felső határai Az osztályintervallum hossza (i) Az egyes osztályok alsó és felső határainak átlaga, az osztályközép (ui) A mennyiségi sorok típusai: o Gyakorisági sor: megmutatja, hogy mennyi egy meghatározott ismérvérték (osztályköz) előfordulásának száma (fi) o Értékösszeg sor: megmutatja, hogy mennyi egy meghatározott ismérvértékhez (osztályközhöz) tartozó ismérvértékek összege (si) •
Területi sorok: valamely statisztikai sokaság területi egység szerinti megoszlását mutatják be.
• Idősorok Az idősorok a sokaság alakulását az idő függvényében, időbeli változásában, mozgásában mutatják be. Az állósokaság időbeli változását mutatják be az állapot idősorok, amelyek ismérvváltozatai időpontok. Az állapot idősorok készítése mindig összehasonlítási célzatú. A mozgó sokaság időbeli változásait a tartam idősorok mutatják be. A tartam idősor ismérvváltozatai időtartamok. Az időtartamhoz kötött értékekkel a mennyiségi ismérvéknél/arányskála elvégezhető elemzések többsége végrehajtható.
8
2. SPSS alapfogalmak Az SPSS megnyitásakor a következő ablak jelenik meg: 2. ábra A nyitóablak több lehetőséget kínál fel részünkre: A RUN THE TUTORIAL kijelölése esetén egy oktatóprogram indul el. A TYPE IN DATA az adatbázis ablakot nyitja meg, és gépeléssel vihetjük be adatainkat. A RUN AN EXISTING QUERY egy lekérdezést nyit meg. A CREATE NEW QUERY USING DATABASE WIZZARD segítségével új lekérdezést készíthetünk. Az OPEN AN EXISTING DATA SOURCE kiválasztásával, egy létező adatbázis nyitható meg. Az SPSS adatbázis kiterjesztése: *.sav, míg az elkészített OUTPUT fájloké *.spo.
Nézzük meg egy SPSS adatbázis felépítését: 3. ábra
Az SPSS-ben két megjelenítési formát találunk, a DATA VIEW: adat-, és VARIABLE VIEW: változó megjelenítést. A 2. ábrán a DATA VIEW ablakban vagyunk. Adatainkat oszloponként ábrázoljuk. Az egyes oszlopok megnevezése VARIABLE: változók, a sorok az esetek, CASES. Úgy is fogalmazhatunk, hogy az egyes sorokban a sokaság egy elemének jellemzőit soroljuk fel. Tehát a CASES a sokaság egy elemét mutatja, a VARIABLE 9
az ismérveket jelenti. A 4. ábra az SPSS VARIABLE VIEW ablakát mutatja: 4. ábra A VARIABLE VIEW nézet
Itt adhatjuk meg a változók (ismérvek) paramétereit. NAME: a változó nevének megadásakor figyeljünk rá, hogy a maximális karakterszám 6, és nem tartalmazhat operátorokat, és írásjeleket. A TYPE oszlopban adjuk meg a változó formátumát, ami lehet szám (NUMERIC), szöveg (STRING), és ezen kívül dátum, pénzügyi és egyéb formátumok. A WITH tulajdonsággal adjuk meg a változó karakterszámát, ez számoknál maximum 40, szövegnél maximum 255. A DECIMAL segítségével, határozzuk meg a megjelenített tizedesek számát. Mint láttuk, a NAME a karakterszám korlátai miatt meglehetősen szűkre szabottak az elnevezési lehetőségeink. Ezt oldja fel a LABEL, ahol 255 karakter hoszszúságban jellemezhetjük az ismérvet, és a LABEL jelenik meg az eredménytáblázatokban is. A VALUES segítségével a nominális és az ordinális ismérveknek címet adhatunk, 5. ábra Értékek címkézése az SPSS-ben érték
szöveg
pl. a kérdőív egyik skálázó kérdésére kapott információk 1-5 közötti értékek, amely skálaértékekhez valamilyen címkét rendelhetünk, vagy például a férfiak kódszáma 1, a nőké 2, és a kódszámokhoz elnevezéseket rendelünk.
A MISSING tulajdonságnál határozzuk meg azokat a feltételeket, amelyek alapján bizonyos ismérvértékeket kizárunk az elemzésből. A COLUMN oszlopban határozzuk meg az adatok DATA VIEW nézetben látható oszlopszélességét. Az ALIGN az ismérvértékek cellában való jobbra, balra, vagy középre igazítását szolgálja. A MEASURE tulajdonsággal állítjuk be a változó mérési szintjét. Amennyiben az SPSS-be közvetlenül gépeljük be az adatainkat, először célszerű a Variable View ablakban megadni a változókat (ismérveket), és ezután a Data View nézetre váltva beírni az egyes ismérvekhez tartozó értékeket. Az SPSS lehetővé teszi, hogy más adatbázis kezelő és táblázatkezelő programokban rögzített adatokat is feldolgozhassunk. Minta adatbázisunkat Excel táblázatkezelő programban rögzítettük. Az azonos egységekhez tartozó információkat vagy sorokban, vagy oszlopokban gépelhetjük be az Excelben. Az SPSS-ben történő elemzéseknél csak soronként vihetjük be az adatokat. 10
Nézzük meg, hogyan nyitjuk meg az adatbázisunkat. A kiinduló fájl neve: adat.xls. Az adat.xls megnyitásához kattintsunk a FILE/OPEN menüparancsra, miután több választási lehetőség jelenik meg, amelyek közül válasszuk a DATA pontot: 6. ábra
Az adat.xls megnyitásához kattintsunk a FILE/OPEN menüparancsra, miután több választási lehetőség jelenik meg, amelyek közül válasszuk a DATA pontot:
A Data kiválasztása után kinyíló ablakban kiválasztjuk az adatbázis típusát. 7. ábra Alapértelmezésben természetesen mindig az SPSS *.sav formátumát kapjuk, de mint a lenyíló listán is látható lehetőségeink meglehetősen nagyok. Most a *.xls fájl kiterjesztést jelöljük ki, és ezután láthatóvá válnak Excel fáljaink. Kiválasztjuk az adat.xls-t, és a megnyitás parancsra kattintunk.
11
8. ábra A Worksheet ablakban kiválasztjuk a munkafüzet megfelelő munkalapját, és megadjuk az adatbázist tartalmazó cellahivatkozást. Ha bejelöljük a READ VARIBLE NAMES FROM THE FIRST ROW OF DATA opciót, az Excel adatbázisunk első sorát az SPSS változóneveknek fogja tekinteni. Az OK billentyű lenyomása után megnyílik az SPSS VARIABLE VIEW ablaka, ahol az egyes változók tulajdonságait még módosíthatjuk. Erre azért is szükségünk lehet, mert a konvertáláskor minden, az Excelben számként bevitt adatunk Scale mérési szintű lesz, függetlenül attól, hogy az esetleg csak valamely területnek a kódja – tehát nominális -, vagy ordinális skálájú. Amikor menteni szeretnénk adatainkat, az SPSS automatikusan a *.sav adatbázis formátumot ajánlja fel, de mást is választhatunk.
3. Alapvető statisztikai elemzési módszerek Az alapvető statisztikai elemzési módszerek közül elsősorban azokkal foglalkozunk, amelyek az SPSS programcsomagban is szerepelnek. Ezért a jegyzetben nem foglalkozunk a viszonyszámokkal és az indexszámítással.
3.1. A statisztikai adatok grafikus ábrázolása Adataink gyors, szemléletes áttekintését teszi lehetővé a grafikus ábrázolás. Az SPSS bőséges kínálatot nyújt a felhasználó számára az adatok grafikus megjelenítésére. A grafikus ábrázolás elvégezhető a GRAPHS menüponton belül az alkalmas típus kiválasztásával, de az elemzések elvégzésekor is felkínál több grafikus ábrázolási lehetőséget. Ebben a fejezetben a GRAPHS menüpont lehetőségeit tekintjük végig, foglalkozunk az oszlopdiagram, a vonaldiagram, a kördiagram, területdiagram, High-Low diagram, Pareto-diagram, és pontdiagram készítésével, és minden típusra bemutatunk egy vagy több mintát is. Néhány diagramtípust, a hisztogramot, a boxplot diagramot, a steam and leaf ábrát a leíró statisztikai módszereknél tekintünk át. A grafikonok közül az oszlopdiagram készítésével foglakozunk a legtöbbet, itt tekintjük át – a teljesség igénye nélkül – a diagram készítés menetét, a különböző lehetőséget. A többi diagramnál inkább csak az eltérésekre figyelünk.
12
9. ábra A GRAPS menüpont A GRAPHS-GALLERY menüponton belül összefoglaló segítséget kaphatunk az SPSS összes feltüntetett grafikon típusáról, de bármely kiválasztott ábrázolási mód esetén a HELP gombra kattin-tás után azonnali információt kaphatunk a teendőkről.
3.1.1. Oszlopdiagram (GRAPH – BAR) Kvalitatív változók gyakorisági eloszlásának ábrázolását végezzük el az oszlopdiagrammal. A diagram vízszintes tengelyén az osztályok, függőleges tengelyén az abszolút vagy relatív gyakoriságokat ábrázoljuk. A diagram elkészítésekor 3 esetből választhatunk: SIMPLE: Adatsort ábrázolhatunk egy szempont szerint csoportosítva, többet úgy, hogy a változókon belül csoportképző ismérvet nem adhatunk meg CLUSTERED: Adatsort ábrázolhatunk egy elsődleges és egy másodlagos szempont szerint csoportosítva. STACKED: több adatsort ábrázolunk egymásra halmozva egy oszlopon belül A megjeleníteni kívánt adatcsoportokat is megadjuk: SUMMARISE FOR GROUP OF CASES: a megadott csoportok szerint SUMMARISE OF SEPARATE VARIABLES: a kiválasztott változók szerint VALUES OF INDIVIDUAL CASES: minden értéket külön megjelenítünk 10. ábra Az oszlopdiagram alaptípusának kiválasztása
A kívánt diagramtípust a DEFINE parancsgombra történő kattintással tudjuk kiválasztani. Ezután, attól függően, hogy milyen típusú oszlopdiagramot kívánunk létrehozni, a változók, csoportosító mezők, formátum és egyéb beállításokra szolgáló ablak jelenik meg. Nézzük meg először a SIMPLE- SUMMARISE FOR GROUP OF CASES beállítás után megjelenő képernyő ablakát, és az ebben megtalálható funkciókat: A képernyő baloldalán az adatbázisunk változói vannak felsorolva. Legelőször a kategória tengely (CATEGORY AXIS) változóját kell megadni. Ez valamilyen nominális mérési szintű változó az esetek többségében, de bizonyos esetekben lehet diszkrét mennyiségi is13
mérv is. A BARS REPRESENT boxban határozhatjuk meg, hogy melyik változót ábrázoljuk, illetve azt, hogy a változó értékeinek összegét, átlagát, minimális értékét stb. akarjuk megjeleníteni az egyes kategóriákon belül. Az N OF CASES, CUM. N OF CASES, % OF CASES, CUM. % OF CASES jelölőgombok bármelyike az egyes kategóriák abszolút gyakoriságát (N OF CASES, CUM. N OF CASES) és relatív gyakoriságát (% OF CASES, CUM. % OF CASES ) számolja egyszerű illetve, halmozott összesítéssel. 11. ábra Abban az esetben, ha az OTHER SUMMARY FUNCTION jelö-
lőgombot választjuk, lehetőségünk nyílik arra, hogy ne a gyakoriságot, hanem valamelyik változót jelenítsük meg az értéktengelyen. A TITLES parancsgombbal megnyíló ablakban írhatjuk be, és formázhatjuk a grafikon címét. Csak miután valamennyi, a grafikon elkészítéséhez szükséges információt megadtuk, válik számunkra elérhetővé az OK parancsgomb, és miután erre rákattintottunk, kerül a kimeneti (OUTPUT) táblára a diagramunk. 12. ábra A
Change Summary parancsgomra kattintás után megjelenik a Summary Function ablak, ahol lehetőségünk nyílik arra, hogy befolyásoljuk a kategóriánként megjelenő változóértékeket:
14
MEAN OF VALUES: MEDIAN OF VALUES: MODE OF VALUES: NUMBER OF CASES: SUM OF VALUES: STANDARD DEVIATION: VARIANCE: MINIMUM VALUE: MAXIMUM VALUE: CUMMULATIV SUM:
Átlag Medián Módusz Gyakoriság Értékösszeg Standard szórás Korrigált szórásnégyzet Minimális érték Maximális érték Halmozott értékösszeg
A következő boxban lehetőségünk nyílik egy általunk kiválasztott érték alatti vagy feletti értékeire statisztikát kérni és ezt megjeleníteni. 13. ábra
15
Nézzünk néhány példát az előzőekben bemutatott technikákra: • A vizsgálatba vont gazdaságok számának bemutatása tájegységenként Beállítás: SIMPLE- SUMMARISE FOR GROUP OF CASES- N OF CASES 14. ábra A vizsgálatba bevont gazdaságok száma
Gazdaságok száma
tájegységenként 20
10
0
ye eg
eg m B z-S Sz g sá dú aj
H
m
ld lfö
b yé
-A él
Eg
D
r
Z A-
ha Bi
B-
ye
Tájegység
A vizsgálatba bevont gazdaságok vetésterülete SIMPLE -VALUES OF INDIVIDUAL CASES 15. ábra A búza vetésterületének alakulása gazdaságonként 3000
2000
1000
56
51
46
41
36
31
26
21
16
11
6
0 1
Búza vetésterület ha
•
Gazdaság kódja
16
•
Átlagos búza vetésterület a vizsgált gazdaságokban tájegységenként SIMPLE- SUMMARISE FOR GROUP OF CASES-OTHER FUNCTION
16. ábra Átlagos búza vetésterület tájegységenként 1200
Átlagos terület ha
1000 800 600 400 200 0
ye eg
eg m B z-S Sz g sá dú aj
H
m
ld lfö
b yé
r
-A él
ha
Z A-
Eg
D
Bi
B-
ye
Tájegység
Most nézzük meg, hogyan készíthetünk oszlopdiagramot a GRAPH- BAR– CLUSTERED-SUMMARIES FOR GROUPS OF CASES opcióval. A DEFINE parancsikonra kattintás után az alábbi képernyőt látjuk: 17. ábra Látható,
hogy a SIMPLE módhoz képest egy új lehetőség is megjelent, a DEFINE CLUSTERS BY, ide kerül a másodlagos csoportképző változó, esetünkben a földkategóriák. A beállítási lehetőségeink itt is hasonlóak az előzőekhez.
17
Példa: A búza termésátlagának alakulása tájegységenként és földkategóriánként SIMPLE- SUMMARISE FOR GROUP OF CASES-OTHER FUNCTION 18. ábra A búza termésátlagok alakulása
t/ha
tájegységenként és földkategóriánként
Kategória
6,5 6,0
1
5,5
2
5,0
3
4,5
4 4,0
5
3,5
6
3,0
ye eg m
ye eg
g sá dú aj
ld lfö
m
B z-S Sz
H
-A él
b yé Eg
D
Z
r ha Bi
AB-
Tájegység
3.1.2. Vonaldiagram (GRAPH – LINE) Ha adataink között értelmezhető átmenet az értékpontokat vonallal összeköthetjük. Az így kialakított vonaldiagram a vizsgált jelenség menetéről, időbeli alakulásáról ad információt. Az SPSS több lehetőséget is felkínál a vonaldiagramok készítésére: 19. ábra
Egy adatsor ábrázolására a SIMPLE, több adatsor ábrázolására a MULTIPLE, több adatsor összetartozó elemei közötti különbség szemléltetésére a DROP-LINE opciót választhatjuk. A vonalgrafikon készítésénél az oszlopdiagramnál már leírtak szerint határozzuk meg a kategória tengelyhez és az értéktengelyhez tartozó változókat, és az SPSS CHART EDITOR segítségével formázhatjuk tovább grafikonunkat . Példa a vonaldiagramra:
18
20. ábra A szarvasmarha állomány alakulása Magyarországon
Value Szarvasmarha 1000 db
1993-2002 1100
1000
900
800 700 1993
1995
1997
1999
2001
Év Forrás: KSH
3.1.3. Területdiagram (GRAPH – AREA) A területdiagram vagy több görbe alatti terület megjelenítését szolgálja. A vonaldiagramnál már leírt esetekben használhatjuk adatsoraink szemléltetésére. 21. ábra Két alapvető opció áll rendelkezésünkre a grafikon elkészítése során a SIMPLE és a STACKED. A SIMPLE opció egy adatsor ábrázolására, a STACKED több adatsor halmozott ábrázolására alkalmas. Az alábbi példában egy STACKED, halmozott ábrázolást láthatunk. Megjegyzendő, hogy a halmozott területi diagramm két esetben használható: • Vagy összetartozó, aggregált adatok együttes ábrázolását teszi lehetővé, esetünkben az aggregátumokat az egyes ágazatok árbevételei jelentik. • Vagy egynemű adatsorok ábrázolására használjuk, pl. több tejtermelési csoport termelésének egyidejű bemutatása stb. Egy példa a területdiagramra:
19
22. ábra Az árbevétel alakulása a vizsgált gazdaságban
eFt
2000-2002 100000
80000
60000
Egyéb tevékenység
40000
Növénytermesztés 20000 0 2000
Szarvasmarha Sertés 2001
2002
Évek
3.1.4. Kördiagram (GRAPH – PIE) A kördiagrammal olyan adatsorok mutathatók be, amelyek egy sokaság eloszlását mutatják be. Egy kördiagramban mindig csak egy adatsor ábrázolható. A csoportosítás módja szerint három opció közül választhatunk: 23. ábra
SUMMARISE FOR GROUP OF CASES: egy változó értékein belül kategorizáljuk, összesítjük az adatokat, és az összesített adatokat jelenítjük meg kategóriánként. SUMMARISE OF SEPARATE VARIABLES: a kiválasztott változók összesítjük, és az összesített adatok megoszlását mutatjuk be. VALUES OF INDIVIDUAL CASES: minden értéket külön megjelenítünk Példák a kördiagramra:
20
24. ábra A hízóértékesítés alakulása a vizsgált gazdaságban (darab/év) 2000-2002
2002
2000 260
245
261 2001
25. ábra Az árbevétel megoszlása az ágazatok között a vizsgált gazdaságban 2000-2002 közötti összesített adatok alapján
Egyéb 3% Sertés 39% Növénytermesztés 50%
Szarvasmarha 8%
3.1.5. High –Low diagram (GRAPH – HIGH-LOW) Érték párok, vagy érték hármasok ábrázolására tudjuk felhasználni ezt a grafikon típust. Különösen alkalmas például tőzsdei árfolyamadatok ábrázolására. Lehetőségünk van egy és több változóból 21
egyidejűleg teljes adatsorok, illetve valamilyen szempont szerint csoportosított adatok megjelenítésére. 26. ábra
Példa a High-Low diagram alkalmazására. 27. ábra Kukorica 2004. májusi határidős árak
Ft/tonna
2003.december hónapban 45000 44000 43000 42000 Max. eladási ajánlat
41000
Min. vételi ajánlat
40000
Elszámolóár 03 8/ /1 3 12 6/0 /1 3 12 2/0 /1 3 12 0/0 /1 3 12 8/0 /0 3 12 3/0 /0 3 12 2/0 /0 12
Dátum Forrás:BÁT
3.1.6. Pareto diagram (GRAPH – PARETO) Bizonyos gazdasági folyamatok gyors elemzésére használhatjuk a Pareto-diagramot. Az elv lényege, hogy egy sokaságon belül az egyes elemek relatív súlya eltérő. A Pareto-diagramban a nagyság szerint csökkenő sorrendbe rendezett elemek kumulált relatív gyakoriságát ábrázoljuk. Segítségével könnyen kiválaszthatók azok a tényezők, amelyek az adott gazdasági folyamatot leginkább befolyá-
22
solják. Leggyakrabban nagyszámú költségelem súlyainak meghatározásában, illetve a logisztikai tervezésben használatos. Példa a Pareto-diagram alkalmazására: 28. ábra Az alapanyagon kívüli költségek
100 500000000 80
Százalék
CuSum FT
Pareto diagramja 600000000
400000000 60 300000000 40
200000000
20
100000000 0
0 6 5 9 4 19 13 11 24 17 22 2 20
Költségtétel kódja
3.1.7. Pontdiagram (GRAPH – SCATTER) E diagram segítségével két vagy három dimenzióban változópárok, vagy változóhármasok halmaza jeleníthető meg.
29. ábra
A pontdiagram segítségével két vagy három változó közötti összefüggés grafikus ábrázolását végezhetjük el, és információt kaphatunk az összefüggés jellegéről is. Példáinkban a vizsgált gazdaságok hektáronkénti aranykorona értékét, és a hektáronkénti búzatermés átlagot állítottuk párba. A „pontfelhő” alapján a két tényező lineáris kapcsolatára következtethetünk, a magasabb aranykorona értéhez magasabb termésátlagok társulnak. Az összefüggés vizsgálatokkal, a változók közötti kapcsolatok törvényszerűségeinek feltárásával majd a későbbiekben foglalkozunk. Példák a megjelenítésre:
23
30. ábra Az aranyakorona érték és a termésátlagok közötti összefüggés bemutatása
Termés (búza) t/ha
a vizsgált gazdaságokban 7 6 5 4 3 2 0
10
20
30
40
50
AK/ha
Az SPSS lehetőséget nyújt számunkra, hogy adatainkat megfelelőképpen csoportosítsuk, mint ez a 27. ábrán is látható. 31. ábra Az aranykorona érték és a termésátlagok közötti összefüggés bemutatása
Termés t/ha
tájegységenként 7 Sz-Sz-B megye
6
Hajdúság
5
Egyéb 4
Dél-Alföld
3
Bihar
2
B-A-Z megye 0
10
20
30
40
50
AK/ha Cases weighted by V9
A 28. ábrán a 27. ábra információi találhatók meg, csak mátrix (SCATTERPLOT-MATRIX) elrendezésben.
24
32. ábra
Az aranykorona érték és a termésátlagok közötti összefüggés bemutatása tájegységenként
Búzaterület ha Sz-Sz-B megye Hajdúság Egyéb Földminőség AK/ha
Dél-Alföld Bihar B-A-Z megye
Cases weighted by V9
3.1.8. Hisztogram (GRAPH – HISTOGRAM) A kvantitatív változók gyakorisági eloszlásának ábrázolására szolgál nagyobb adatmennyiség esetén a hisztogram. A hisztrogram vízszintes tengelyén az értékosztályokat, függőleges tengelyén az egyes osztályokhoz tartozó gyakoriságokat ábrázoljuk. Ha az oszlopok tetejét egy görbe vonallal összekötjük, a sokaság eloszlásáról kaphatunk képet. A GRAPH menüponton belül a HISTOGRAM alpont kiválasztása után az alábbi ablak nyílik meg: 33. ábra
Legelőször is kiválasztjuk az ábrázolni kívánt - arány skálán mérhető – változót és a segítségével áthelyezzük a VARIABLE mezőbe. A DISPLAY NORMAL CURVE jelölő négyzet beikszelésével eloszlási görbét is kérhetünk A TITLES parancsgombra kattintva beírhatjuk a diagram címét, illetve lábjegyzetet (FOOTNOTE) is fűzhetünk hozzá. Példa a hisztogramra: 25
34. ábra
Az egy hektárra jutó erőgépek számának megoszlása a vizsgált gazdaságokban 20
10
Std. Dev = ,17 Mean = ,46 N = 56,00
0
db/100 ha
3.1.9. Leveles- ábra (Analyze – Descritive Statistics - Explore) Az ezután következő diagramok közül néhányat a Graph menüpontból is meg lehet határozni, azonban ezek mindegyike az exploratív elemzések eszköze, ezért általában egyéb statisztikai számításokkal együtt jelenítjük meg őket, a grafikus ábrázolással mintegy megkönnyítve későbbi döntéseinket. Ebben a pontban csak a diagramok elkészítését mutatjuk be, az Explore paranccsal elvégezhető statisztikai elemzésekre majd a későbbiekben térünk ki. Ezek közül az első a Stem & Leaf diagram, ahol egy függőleges szárra (Stem) merőlegesen ábrázoljuk a megfigyelések utolsó számjegyeit (Leaf). A leveles-ábrát csak ordinális skálán mért változók ábrázolására használhatjuk. Első lépésben kiválasztjuk az ANALYZE – DESCRITIVE STATISTICS – EXPLORE menüpontot, ahol a következő ablak nyílik meg: 35. ábra
Kiválasztjuk az ábrázolni kívánt változót, és a segítségével áthelyezzük a DEPENDENT LIST ablakba. Ha tényezőkre akarjuk bontani a változót, válasszuk ki azt az adatsort, amely alapján ezt el szeretnénk végezni, és az előzőek szerint helyezzük át a változót a FACTOR LIST ablakba. A LABEL CASES BY segítségével az extrém értékeket a kiválasztott 26
faktorokon belül a kiválasztott változó felhasználásával további bontásban szemléltethetjük. A bal alsó sarokban található DISPLAY mezőben választhatjuk ki, hogy milyen megjelenítést szeretnénk az SPSS Viewer-ben. BOTH: Statisztikák és diagramok együtt, STATISTICS: csak statisztikák, PLOTS: csak diagramok megjelenítését szeretnénk. A jobb oldalon az alsó sorban látható parancsok közül válasszuk a Plots parancsbillentyűt, és a következő ablak jelenik meg: 36. ábra
A stem&leaf ábra elkészítéséhez kattintsunk a Descriptive ablakból a Stem-and-leaf négyzetére, majd Continue. Az OK billentyű lenyomása után megkapjuk a Leveles-ábrát.
Erőgépek átlagos életkora év Stem-and-Leaf Plot Frequency
Stem &
3,00 0 5,00 0 7,00 0 10,00 0 19,00 0 8,00 1 3,00 1 1,00 1 1,00 Extremes Stem width: Each leaf:
. . . . . . . .
Leaf 000 23333 4455555 6666677777 8888888889999999999 00111111 222 4 (>=17)
10,0 1 case(s)
A Frequency oszlopban található az osztályok gyakorisága, a Stem width értéke 10, ami azt jelenti, hogy a 0-val kezdődő értékek 10 alattiak, az egyel kezdődőek 10 felettiek. Látható, hogy a kialakított csoportok 2 évet ölelnek fel. Pl. a második sorban a 2 és 3 év előfordulásai láthatóak. Látható, hogy a leveles-ábra a hisztogramhoz hasonlóan az értékek eloszlásáról szolgáltat információt.
3.1.10.
Box-plot (Analyze – Descritive Statistics - Explore)
A box-plot ábra is a változók elhelyezkedését szemlélteti, amikor is a változók 50 %-át egy „dobozba zárjuk”. A box-plot készítésének menete a változók megadásáig megegyezik a Stem&Leaf ábra készítésével, azonban itt a bal felső sarokban található BOX-PLOTS mező beállításaira kell figyelnünk:
27
37. ábra
A NONE beállítás beállítás esetén nem készül ábra, míg a FACTOR LEVELS TOGETHER esetén egy változón belül tényezőkre bontunk, akkor annyi ábra készül ahány tényezőnk van, a DEPENDENTS TOGETHER beállítás akkor érvényes, ha több változót vizsgálunk egyszerre.
Példa a box-plot ábrára: 38. ábra Az erőgépek átlagos életkorának
Év
dobozábrája 20 23
10
0
-10 N=
57
A doboz alja az alsó kvartilist (Q1), a doboz teteje a felső kvartilist (Q3) jelöli. Ebből adódik, hogy a doboz mérete egyenlő az interkvartilis terjedelemmel (iQ), azaz a változóértékek „középső” 50 %-át foglalja magába. A fel és le vonalak hossza az interkvartilis terjedelem 1,5-szerese( 1,5iQ). Az ezen kívül eső értékek az outlierek, jelölésük „o”. A 3 iQ-nál távolabb eső értékek az ún. extrémek, jelölésük: „*”.
3.1.11.
Normal Q-Q-plot (Analyze – Descritive Statistics - Explore)
Ez a diagramtípus grafikus normalitás vizsgálatra alkalmas. E diagramtípus megjelenítéséhez, a már megismert EXPLORE-PLOTS ablakban rá kell kattintanunk a NORMALITY PLOTS WITH TESTS jelölőnégyzetre.
28
39. ábra
Az ábra vízszintes tengelyén a változót, a függőleges tengelyen a standard normális eloszlás változóját ábrázoljuk.
40. ábra Erőgépek átlagos életkora év Normal Q-Q Plot 3
2
Expected Normal
1
0
-1 -2 -10
0
10
20
Év
A normalitási feltevés akkor igazolódik be, ha pontok nem térnek el az egyenestől, ami esetünkben igaz.
3.2.Középértékek A középértékek a vizsgált statisztikai sokaságot egy olyan számmal jellemzik, amely mindenkor a sokaság centrumában helyezkedik el. A fősokasági középértékek mellett a különböző részsokaságra jellemző középértékeket is meghatározhatjuk, így lehetővé válik azok általános jellemzőinek összehasonlítása. A középértékek egyik csoportja a számított középértékek, amelyek • Matematikai számítás eredményei és ezáltal • Az értéksor elemeivel matematikai összefüggésben állnak 29
•
Az elemek értéknagyságának a centrumában állnak.
A másik csoportot a helyzeti középértékek képezik, amelyeket • Az elemek értéknagyság szerint rendezett sorából • Matematikai számítás nélkül jelölünk ki, és • A kijelölés az adatok sorszámához vagy gyakoriságához kötődik.
3.2.1. Számított középértékek 3.2.1.1.
Számtani átlag
A számtani átlag az észlelési adatok olyan középértéke, melyet az adatok helyébe helyettesítve az adatsor összege változatlan marad. Súlyozatlan formában számoljuk, ha az átlagolandó értékek gyakorisága megegyezik, ha a gyakoriság különböző súlyozott formában számoljuk. n
∑ xi
Egyszerű számtani átlag:
X a = i =1 n n
Súlyozott számtani átlag:
Xa =
∑ f i xi
i =1 n
∑ fi
i =1
A gyakorlatban gyakran az átlagolandó értékek száma igen nagy ekkor osztályozással osztályközös gyakorisági sorokat képezünk, az osztályokba sorolt adatokat az osztályközéppel (ui) jellemezzük. Ekkor a súlyozott számítás a következőképp történik: n
Xa =
∑ f i ui
i =1 n
∑ fi
i =1
A gyakoriságot nemcsak abszolút számokkal, hanem a relatív gyakorisággal (gi) is kifejezhetjük: n
X a = ∑ g i ui i =1
A számtani átlag: • érzékeny a kiugró értékekre • nem mindig tipikus érték • a sor legkisebb és legnagyobb eleme között helyezkedik el • az átlagtól vett eltérések előjel szerinti összege 0
30
3.2.1.2.
Kronológikus átlag
A kronológikus átlag az állapot idősor adataiból számított speciális számtani átlag. Számításának alapja, hogy két szomszédos időpontban mért állományok átlaga az időszak átlagát adja. A teljes időtartamra vonatkozó átlag az időszakok átlagának az átlagolásával határozható meg: x x1 + x 2 + x 3 + K + x n −1 + n 2 Xk = 2 n −1
3.2.1.3.
Harmonikus átlag
A harmonikus átlagot olyan intenzitási viszonyszámok átlagának meghatározására használjuk, amelyek fordított arányt tükröznek. A harmonikus átlag esetén azt az értéket keressük, amelynek reciprokát az eredeti adatok helyére írva, egyenlő az eredeti adatok reciprokértékeinek összegével. Egyszerű harmonikus átlag: X h =
n n 1 ∑ i =1 x i
n
Súlyozott harmonikus átlag: X h =
∑ fi
i =1 n
∑ fi
i =1
3.2.1.4.
1 xi
Mértani átlag
A mértani átlag az időbeli, dinamikus folyamatok változási ütemének átlagát adja. Számítását leggyakrabban a dinamikus viszonyszámok segítségével végezzük el. Egyszerű mértani átlag:
X g = n Πx i
Súlyozott mértani átlag:
Xg =
n
3.2.1.5.
∑ fi
i =1
Πx if i
Négyzetes átlag
A négyzetes átlag meghatározásánál azt a számot keressük, amelyet az eredeti adatokat helyettesítve az adatsor négyzetösszege változatlan marad. n
Egyszerű négyzetes átlag:
Xq =
2
∑ xi
i =1
n
31
n
Súlyozott négyzetes átlag:
Xq =
2 ∑ f i xi
i =1 n
∑ fi
i =1
A négyzetes átlagot önálló formában nem használjuk, általában az átlagtól vett eltérések átlagos távolságának meghatározására használjuk. Mindig a vizsgálat célja, az elemezni kívánt jelenség tulajdonságai határozzák meg, hogy milyen típus átlagot számolunk. Ugyanabból a sokaságból számított különböző átlagok nagysága eltér egymástól:
Xh < Xg < Xa < Xq
3.2.2. Helyzeti középértékek A gyakorlatban nem mindig az átlagok a legalkalmasabbak a sorok jellemzésére, hanem az olyan mutatók, amelyek helyzetük révén jellemzik a statisztikai sort, vagy a sorszámuk miatt, vagy pedig a legnagyobb gyakoriság centrumában helyezkednek el. Az ilyen középértékeket helyzeti középértéknek nevezzük.
3.2.2.1.
Medián
A medián a sorba rendezett adatsor közepén elhelyezkedő középérték, amelynél az összes előforduló ismérvérték fele kisebb, fele nagyobb. N +1 -ik elemének az értéke. Ha az értéksor páratlan számú adatból A medián a rangsorolt adatok 2 áll a medián a középső adat értéke, ha páros, akkor a két középső szám számtani átlagának az értéke. Ha a jelenség nagyszámú megfigyelésből áll a medián, mint felező érték az értékek eloszlásának megítélésében játszik fontos szerepet. Sok adat esetén célszerű azokat osztályba sorolni. Ebben az esetben a medián meghatározásának módja:
Me = me x 0
n +1 − ∑ f ime −1 2 ⋅i f me
ahol
me x 0
a mediánt tartalmazó osztály alsó határa
∑ f ime−1
a gyakoriságok kumulált összege a mediánt tartalmazó osztályig
f me i
a mediánt tartalmazó osztály gyakorisága az osztályközök nagysága
32
3.2.2.2.
Módusz
A módusz a tipikus ismérvérték, diszkrét ismérv esetén a módusz a leggyakrabban előforduló ismérvérték, folytonos ismérv esetén a gyakorisági görbe maximumhelye. Előfordul, hogy az értéksor gyakorisága közel azonos, ilyenkor a sornak kifejezett módusza. Vannak olyan statisztikai sorok, amelyeknek két módusza van (U vagy M alakú sorok). A csoportosító ismérvekkel történő részsokaságokra történő bontással általában a több móduszból eredő problémák megszüntethetők. Osztályközös gyakorisági sorok esetén meg kell keresnünk a legnagyobb gyakoriságú osztályt, ez lesz a modális köz. A modális köz arányos osztásával határozhatjuk meg a móduszt: Mo = mo x 0 +
mo x 0 f mo f mo −1 f mo +1 i
( f mo
f mo − f mo −1 ⋅ i ahol − f mo −1) + ( f mo + f mo +1)
a modális köz alsó határa a móduszt tartalmazó osztályköz gyakorisága a modális közt megelőző osztály gyakorisága a modális közt követő osztály gyakorisága az osztályközök nagysága
3.3.Változékonyság A középértékek a sokaság elemeinek értéknagyságbeli különbségeit eltakarják. A változékonyság az azonos tulajdonságú, de eltérő értéknagyságú adatok egymástól vagy középértéktől való különbözőségét méri.
3.3.1. A szóródás terjedelme A szóródás terjedelme a statisztikai sor legnagyobb és legkisebb eleme közötti különbség, azt mutatja meg, hogy a középérték milyen alsó és felső határérték között helyezkedik el. i = x max − x min Minél heterogénebb a sokaság annál rosszabbul jellemzi a terjedelem, amit leginkább homogén sokaságok jellemzésére használhatunk.
3.3.2. Kvantilis értékek A gyakorisági sorok esetén a megfigyelt sokaság egységeiből képezünk egyenlő vagy nem egyenlő osztályközű statisztikai sort. Ebben az esetben az egyes osztályközök gyakoriságai általában különböznek egymástól. A megfigyelt sokaságot azonban úgy is felbonthatjuk osztályokra, hogy az egyes osztályközökben a megfigyelések száma egyenlő legyen. Ha k számú osztályt szeretnénk képezni, akkor az osztópontok száma k − 1 lesz. Az osztópontokat k-ad rendű kvantiliseknek nevezzük, ahol
33
k ≥ 2 . Az i − edik k − ad rendű kvantililis az a szám, amelynél az összes előforduló ismérvérték i i − ad része kisebb, 1 − − ad része nagyobb. k k A gyakorlatban nevezetes kvantilis értékeket szoktunk meghatározni, így a mediánt – a medián meghatározásával a helyzeti középértékeknél részletesen foglalkoztunk, a kvartilist – itt a sokaságot 4 egyenlő gyakoriságú részre osztjuk, a kvintilist – 5 egyenlő rész, a decilist – 10 egyenlő rész, és a percentilist – 100 egyenlő részre osztjuk a sokaságot. A kvantilis értékek számítása a szélsőséges értékek kezelése miatt fontos számunkra, a szóródás terjedelmének meghatározásánál feltárt problémát korrigálja. 2.3.2.1. Kvartilis eltérés
A kvartilis eltérés számításánál előbb a kvantiliseknél ismertetett módon meghatározzuk az osztópontok sorszámát, majd az azokhoz tartozó kvartilis értékeket. n +1 4 n +1 • Középső kvartilis (medián): nQ 2 = 2 3(n + 1) • Felső kvartilis: nQ3 = 4 A fenti sorszámokhoz tartozó értékek adják a kvartilisek értékét.
•
Alsó kvartilis:
nQ1 =
Gyakorisági soroknál a meghatározás módja: Q −1
nQi − ∑ fi i =1
Qi = Qx 0 +
fQ
⋅ i ahol
Qi Qx0
az i-edik kvartilis értéke a kvartilis adatsorszámának megfelelő adat alsó határa
nQi
az i-edik kvartilis adat sorszáma
Q −1
∑ fi a kvartilis tartalmazó osztályig terjedő halmozott gyakoriságok összege
i =1
fQ i
a kvartilis tartalmazó osztály gyakorisága az osztályközök nagysága
A kvartilis értékek meghatározása után határozható meg az interkvartilis terjedelem: iQ = Q3 − Q1 Mint látható az interkvartilis terjedelem a statisztikai sor értékeinek középső 50 %-át foglalja magába, az első negyed alatti (25%) és feletti (25%) értékek kívül esnek a mértékadó kvartiliseken. A kvartilis eltérés az interkvartilis terjedelem fele: Q − Q1 Qe = 3 2
34
3.3.3. Középeltérés A középeltérés a statisztikai sor elemeinek a mediántól vett eltérései abszolút értékének az átlaga: n
∑ ( xi − Me)
Egyszerű formában: Mee = i =1
n
n
∑ f i ( xi − Me)
Súlyozott formában: Mee =
i =1
n
∑ fi
i =1
3.3.4. Abszolút átlageltérés Az abszolút átlageltérés a statisztikai sor elemeinek a számtani átlagtól vett eltérései abszolút értékeinek az átlaga: n
∑ ( xi − X )
Egyszerű formában: Ae =
i =1
n n
∑ f i ( xi − X )
Súlyozott formában: Ae =
i =1
n
∑ fi
i =1
Az abszolút átlageltérés azt mutatja meg, hogy az egyes imérvértékek átlagosan mennyivel térnek el a számtani átlagtól.
3.3.5. Variancia A variancia vagy szórásnégyzet a sokaság elemeinek számtani átlagtól vett eltérések nényzetösszegéből számított átlag: n
∑ ( xi − X ) 2
Egyszerű formában: S 2 = i =1
n
n
∑ f i ( xi − X ) 2
Súlyozott formában: S 2 = i =1
n
∑ fi
i =1
A szórásnégyzet fontos szerepet tölt be a sokaság változékonyságának az elemzésében. Segítségével feltárhatók a változékonyság tényezőnkénti összetevői. Az ilyen jellegű vizsgálatokkal a variancianalízis foglakozik.
3.3.6. Szórás A szórás a legfontosabb szóródási mutató, amelyet a varianciából számítunk négyzetgyökvonással. 35
n
∑ ( xi − X ) 2
Egyszerű formában: S =
i =1
n n
∑ f i ( xi − X ) 2
Súlyozott formában: S = i =1
n
∑ fi
i =1
Jelentése hasonló az abszolút átlageltéréshez, azonban lényeges különbség, hogy ennek számításakor a sokasági értékek és a számtani átlag különbségeinek négyzetösszegét számoljuk, és a négyzetre emeléssel a szélsőséges értékek abszolút értelemben vett nagyságát is jobban hangsúlyozzuk. A négyzetgyökvonással az összehasonlíthatóság érdekében az eredeti mértékegységhez térünk vissza. Abból adódóan, hogy az átlagtól vett eltéréseket jobban hangsúlyozzuk, azon eset kivételével, amikor Ae = 0 és így S =0, mindig S > Ae áll fenn.
3.3.7. Relatív szórás vagy variációs koefficiens Az elemzés során szükséges lehet: • Különböző vagy azonos tulajdonságú • Különböző szórású, de azonos átlagú • Különböző átlagú, de azonos szórású sokaságok összehasonlítása. A szórás abszolút értékű mutatója erre kevéssé alkalmas, sokkal alkalmasabb erre az ismérvértékek átlagtól vett átlagos relatív eltérése, amit relatív szórásnak, vagy variációs koefficiensnek nevezünk.
S X Értéke egy dimenzió nélküli szám, amit százalékos formában is kifejezhetünk. A számtani átlag annál inkább jellemzi az ismérvértékeket, minél kisebb a relatív szórás mértéke.
Számítása:
V=
3.3.8. Átlagos különbség Az eddig megismert szóródási mutatók számítása során vagy két nevezetes érték közötti terjedelmet, vagy valamilyen középértéktől való átlagos eltérést vizsgáltunk. Az átlagos különbség meghatározásánál a minden lehetséges módon párba állított ismérvértékek abszolút különbségeiből számítunk átlagot. Számítása:
∑ ∑ (xi − x j ) n n
Súlyozatlan esetben: G =
i =1 j =1
n2
36
∑ ∑ f i f j (xi − x j ) k k
Súlyozott esetben:
G=
i =1 j =1
n2 A G (Gini) mutató az mutatja meg, hogy az adott ismérv értékei átlagosan mennyire különböznek egymástól. Az átlagos különbség mutatóját a koncentráció elemzéséhez kapcsolódik igen szorosan.
3.3.9. A momentumok A momentumok a különféle átlagok és a szórásnégyzet általánosításának tekinthetők, ahol nem a középértéktől vett eltéréseket vesszük alapul, hanem az ismérvértékek és egy tetszőleges állandó szám különbözetét. Ezen eltérések hatványait átlagoljuk. d i ( A) = xi − A
A momentum súlyozatlan esetben: n
∑ ( xi − A) r
M r ( A) = i =1
n
n
∑ d ir ( A)
= i =1
n
Súlyozott esetben: k
∑ f i ( xi − A) r
M r ( A) = i =1
n
n
∑ f i d ir ( A)
= i =1
n
A fenti képletekkel meghatározott mennyiségeket x ismérv, vagy a gyakorisági eloszlás A körüli redik momentumainak nevezzük. A=0 esetben az általános képletek r-edik momentumokat adnak, amelyek jelölése Mr. A = X esetén az úgynevezett r-edik centrális momentumokhoz jutunk. A momentumok gyakorlati fontosságát az adja, hogy jól felhasználhatók a gyakorisági eloszlások alakjának jellemzésére, mint azt a későbbiekben látni fogjuk.
3.4.Alakmutatók Az alakmutatók arra adnak választ, hogy a gyakorisági eloszlások milyen tekintetben és milyen mértékben térnek el a normális eloszlás gyakorisági görbéjétől. Az alakmutatók számításának csak akkor van értelme, ha a gyakorisági eloszlásunk egymóduszú. Ha egynél több módusz van, akkor az elemzést a sokaság részekre bontásával kell folytatnunk. Az alábbi ábrán az egymóduszú gyakorisági eloszlások a normális gyakorisági görbétől való lehetséges eltérései láthatóak.
37
41. ábra Normál eloszlás, aszimmetria és csúcsosság Csúcsos Baloldali aszimmetria
Lapult
Normál
Jobb oldali aszimmetria
3.4.1. Aszimmetria Az eloszlás akkor tekinthető szimmetrikusnak, ha fennáll az X = Mo = Me . Abban az esetben, ha Mo < Me < X baloldali aszimmetriáról, ha X > Me > Mo jobboldali aszimmetriáról beszélünk. Az aszimmetria mérésére többféle mutatószám használatos: •
Pearson-féle mutatószám: X − Mo S A mutatószám egy dimenzió nélküli szám, ami baloldali aszimmetriánál pozitív, jobboldalinál negatív. A mutató értéknagysága a gyakorlatban -1 és +1 közé eső érték. 0 értéknél szimmetriáról van szó, 0.5 felett erős aszimmetriáról, az előjel pedig a ferdeség irányát mutatja meg. AP =
A Pearson-féle mutatószámot meghatározhatjuk arra a gyakorlati megfigyelésre támaszkodva is, hogy enyhén aszimmetrikus gyakorisági eloszlások esetén a medián az átlagtól az átlag és a módusz közötti teljes távolság harmadával balra, vagy jobbra esik. Ennek alapján az aszimmetria mutató:
AP = •
3( X − Me) S
A számítógépes programcsomagokban az asszimmetria mérőszáma a harmadik centrális momentum meghatározásán alapszik. n
∑ f i ( xi − X ) 3
M 3 ( X ) = i =1
n
∑ fi
i =1
38
Az aszimmetria mutatószáma:
α3 =
M3(X )
S3 A negatív érték baloldali aszimmetriát, a pozitív jobboldalit, a 0 pedig szimmetrikus eloszlást jelez. Hátránya ennek a mutatónak, hogy nem adható meg az aszimmetria mértékére alsó és felső határ, és nagyon érzékenyen reagál az eloszlás alakjának kismértékű változására is.
3.4.2. Lapultság, csúcsosság A csúcsosság meghatározása a negyedik centrális momentum felhasználásával történik. A negyedik centrális momentumot a következőképpen határozhatjuk meg: n
∑ f i ( xi − X ) 4
M 4 ( X ) = i =1
n
∑ fi
i =1
A negyedik centrális momentum értéke 0 várható érték és 1 szórás esetén 3, ennek alapján a csúcsosság meghatározása: M 4( X ) α4 = −3 S4 A mutató pozitív értéke a normális eloszlásnál csúcsosabb, negatív értéke lapultabb, a 0 értéke a normális eloszlással azonos csúcsosságú eloszlást mutat.
3.5.A szélsőséges adatok kezelése Valamely tulajdonság értékének nagyságát az egyéb ismérvek értéknagyságának rendkívül változatos kombinációi határozhatják meg. Ebből adódóan a kiválasztott tulajdonság értékei nagy mértékű változékonyságot mutatnak. Az átlagok igen érzékenyek az adatsor értéknagyságára, és ebből adódóan a szóródási mutatók is. Sok esetben jellemzőbb képet kapunk a sokaságról az extrém értékek bizonyos hányadát elhagyva. Nézzük meg, hogy az extrém adatok kezelésének milyen eszközei vannak:
Nyesett átlag: a nagyság szerint sorba rendezett megfigyelések két végén az értékekből 5-5 %-ot elhagyunk, és így számítjuk ki az átlagot. Könnyen belátható, hogy szimmetrikus eloszlás esetén a hagyományosan számolt, és a nyesett átlag közel megegyezik. Balra ferde eloszlás esetén a nyesett átlag nagyobb, míg jobbra ferde eloszlás esetén a nyesett átlag kisebb a számított átlagnál. Box-plot: ebben az esetben az interkvartilis terjedelem (iQ) határait (Q1 és Q3) csökkentjük illetve növeljük, és szélsőséges adatként kezeljük az e határokon túli értékeket: o Enyhe outlierek meghatározása: Q1 − 1,5iQ Q1 + 1,5iQ
39
o Extrém outlierek meghatározása: Q1 − 3iQ Q1 + 3iQ
Az átlagoktól távol eső megfigyelések súlyozása M-esztimátorok segítségével: ekkor nem hagyjuk el a szélső értékeket, csak a távolság növekedésével csökkenő súlyokat adunk nekik.
3.6.Koncentráció elemzése A koncentráció is az eloszlások mértékére ad információt. A koncentráció statisztikai elemzésénél egy adott sokaság gyakorisági és értékösszeg eloszlását hasonlítjuk össze. Az értékösszeg kevés számú egységre való összpontosulását koncentrációnak nevezzük. •
•
Az abszolút koncentráció - az egységek abszolút nagysága - jellemezhető: o Az egységek számával, amikor azt vizsgáljuk, hogy a teljes értékösszeg hány egységhez tartozik. o A számtani átlaggal, mekkora az egységek átlagos nagysága. A relatív koncentráció az egységek nagyságának különbözőségét, szóródást jelenti. A relatív koncentráció elemzésének eszközei: o Kvantilis eloszlás, melyről a korábbiakban már írtunk. o Koncentrációs táblázat: A vizsgált sokaságot mennyiségi ismérv (koncentrációs ismérv) szerint csoportosítjuk, meghatározzuk az egyes csoportokba tartozó egységek relatív gyakoriságát és relatív értékösszegét A csoportosítás után képet kapunk a koncentrációs ismérv eloszlásáról, öszszehasonlíthatjuk nagyság kategóriánként a sokaságból és az értékösszegből való részesedéseket. Elkészítjük a kumulált relatív gyakoriság és értékösszeg sort is, amelynek révén kategóriánként összesítve nyerünk képet a koncentrációról. o Lorenz-görbe: egy egységoldalú négyzetben elhelyezkedő ábra, amelyben a vízszintes tengelyen a kumulált relatív gyakoriságokat, a függőleges tengelyen a kumulált relatív értékösszeget ábrázoljuk. A kumulált adatokat a koncentrációs táblázatból nyerjük. Lorenz-görbe
40
42. ábra Lorenz-görbe
Minél nagyobb fokú a koncentráció, a görbe és a négyzetátló által bezárt terület nagysága annál nagyobb. o Koncentrációs együttható: ha a Lorenz-görbénél a görbe és a négyzetátló közötti területet, a négyzet felét képező háromszög területéhez viszonyítjuk, 0 és egy közötti számot kapunk. A koncentrációs együttható is egy 0 és 1 közötti érték, amit az átlagos különbség alapján határozható meg, a következő összefüggéssel: G Ke = 2X Minél közelebb esik az egyhez az együttható értéke, a koncentráció annál magasabb fokú.
4. Leíró statisztika az SPSS-ben A leíró statisztikák készítésekor az SPSS-ben háromféle eljárás közül választhatunk. A leíró statisztika készítésekor középértéket, vagy/és szóródási mutatókat számolunk, bemutatjuk az eloszlás alakját numerikus és grafikus eszközökkel. A leíró statisztikai elemzések után szükség lehet a mérési skálák transzformációjára, extrém adatok feltárására is. Ezek a vizsgálatok előzik meg a további elemzéseseket (pl. többváltozós adatelemzés, hipotézis vizsgálatok stb.). A leíró statisztikák készítése az SPSS-ben az ANALYZE menüpont DESCRIPTIV STATISTICS alpontjában található. Az alábbiakban végig követjük az egyes menüpontokat, majd esetpéldákon keresztül bemutatjuk az elemzés folyamatát.
4.1.Analyze/Descriptiv Statistics Az ANALYZE/DESCRIPTIV STATISTICS menüben három eljárás közül választhatunk a FREQUENCIES a DESCRIPTIVE és az EXPLORE közül, attól függően, hogy milyen az adataink mérési szintje, kategori-
41
zálva vannak-e, és természetesen milyen jellegű vizsgálatot szeretnénk elvégezni. Az alábbi táblázatban csoportosítva láthatjuk a különböző elemzési célokat, és megvalósíthatóságukat: 3. Táblázat Cél/Skála Középérték Változékonyság
Nominális Módusz F, E Gyakoriság, gyakoriság F
Ordinális Módusz, Medián F,E relatív Terjedelem F, D, E
Eloszlás-numerikus meghatározás
Oszlop és kördigram F
Eloszlás-grafikus
Megjegyzés:
Steam&Leaf E
Intervallum/arány Átlag F,D,E Szórás, Variancia, St. Hiba F, D, E Aszimmetria, Lapultság F, D, E Normalitási teszt E Hisztogram F, E, Boxplot E
F: Frequencies D:Descriptive E: Explore Forrás: Kovács Erzsébet: Pénzügyi adatok statisztikai elemzése
4.1.1. FREQUENCIES A FREQUENCIES egy, vagy több változóhoz készít gyakorisági táblázatokat és leíró statisztikákat, valamint eloszlást szemléltető ábrákat. Itt bármely mérési szintű adatot elemezhetjük, ebből következően nagy figyelmet kell fordítanunk a lehetőségek jelölésénél, mert minden statisztikai mutatót megad számunkra lehetőségként. A nominális és ordinális skálán mért változók leíró elemzését csak ezen a menüponton belül végezhetjük el. A menüpontra kattintás után a következő ablak nyílik meg: 43. ábra A FREQUENCIES nyitóablaka
Az ablak jobb oldalán vannak felsorolva a változók, amelyek közül választhatunk. Amelyiket be szeretnénk vonni a vizsgálatba, azt kijelöljük majd a gombra kattintva áttesszük a VARIABLE(S) ablakba. A nyitóablak alján három parancsgomb található. A STATISTICS segítségével állíthatjuk be, hogy milyen számításokat szeretnénk elvégeztetni, a CHARTS-al állítjuk be, hogy kérünk-e valamilyen grafikus megjelenítést, a FORMAT gombra kattintás után állíthatjuk be, hogy kérjük-e az adatok sorba rendezését, vagy csoportosítását. Ez a parancs a számítások eredményét nem, csak az OUTPUTBAN történő megjelenését befolyásolja. Nézzük meg milyen alapstatisztikák számolhatók a FREQUENCIES segítségével.
42
44. ábra
Az ablak első részében (PERCENTILE VALUES)adható meg, hogy milyen kvantiliseket akarunk meghatározni. Kvartilis QUARTILES Azt adjuk meg, hogy hány egyenlő gyakoriságú részre CUT POINTS FOR …EQUAL GROUPS osszuk az adatsort A kvantilis léptéket adhatjuk meg százalékban. PERCENTILES A jobboldali részen a középértékeket (CENTRAL TENDENCY) kérhetjük: MEAN Számtani átlag ( X ) Medián (Me) MEDIAN Módusz (Mo) MODE Értékösszeg SUM
A szóródási mutatók (DISPERSION) a jobb alsó sarokban találhatóak: n
∑ ( xi − X ) 2
STD. DEVIATION
Korrigált szórás: S =
i =1
n −1 n
∑ ( xi − X ) 2
VARIANCE
Korrigált szórásnégyzet: S 2 = i =1
RANGE MINIMUM MAXIMUM
A szóródás terjedelme (i)
S.E.MEAN
Standard hiba: S X =
n −1
S n
A jobb alsó sarokban találhatók az alakmutatók: Aszimmetria SKEWNESS Lapultság, csúcsosság KURTOSIS A fentiekből kitűnik, hogy az SPSS outputjai között nem szerepel a relatív szórás, a variancia helyett korrigált tapasztalati szórásnégyzet van feltüntetve, ami torzítatlanul becsli a sokasági szórásnégyzetet. Ezen kívül kérhetjük a standard hibát, ami a várható értékre szerkeszthető konfidencia 43
intervallum sugarával arányos. Ezekkel a fogalmakkal a becslés fejezetben foglakozunk részletesebben. Az alakmutatókat az SPSS a harmadik és negyedik momentum felhasználásával számítja. Az alapstatisztikák számításával párhuzamosan lehetőségünk nyílik az adatok grafikus ábrázolására is a CHARTS gombra kattintás után: 45. ábra
Alap opcióként a NONE – semmi beállítás jelenik meg, de választhatunk oszlop (BAR CHARTS), kör (PIE CHARTS), és hisztogram (HISTOGRAMS) között. Egyszerre csak egy típust választhatunk, a hisztogramnál normál eloszlási görbét is kérhetünk. Az oszlopdiagramnál és a kördiagramnál választhatunk az adatok abszolút gyakorisági értékeinek (FREQUENCIES) és relatív gyakorisági értékeinek (PERCENTAGES) megjelenítése között. Miután minden beállítást elvégeztünk, bejelöltük a kért statisztikákat, grafikus ábrázolást, és formátumot, az OK parancsgomb lenyomása után a számítások eredménye az SPSS Viewer Output ablakában jelenik meg. 46. ábra
Az SPSS Viewer a baloldali ablakban faágszerűen jeleníti meg a végrehajtott feladatokat.
44
47. ábra
Az Output-ból ágaznak el az elvégzett feladatok. Először a vizsgálat típusát írja ki (Frequencies), majd a feladat címét (Title), az eredménytáblázatokhoz fűzött megjegyzéseket (Notes), a kért statisztikai elemzések eredményeit (Statistics), a vizsgált változó gyakorisági tábláját – ha kértük-, és a grafikus ábrákat. A kívánt elemre kattintva a jobboldali ablakba, a kiválasztott eredmény táblázathoz, vagy ábrához kerülünk. Itt elvégezhetjük az eredmények elemzését, illetve különböző megjelenítési formákat állíthatunk be. A formázásokat nagyon egyszerűen, a beállítani kívánt elemre történő kétszeri kattintással elvégezhetjük. Kattintás után megjelenik a formázási ikonsor, amely segítségével betűtípusokat, betű megjelenítéseket, szegélyeket, elrendezéseket stb. állíthatunk be, illetve beszúrhatunk magyarázó szöveget, a már meglévőket át is írhatjuk. 48. ábra Formázási lehetőségek az SPSS Viewerben
A kész, formázott táblázatainkat, ábráinkat könnyen átmásolhatjuk más pl. Ms Word, NotePad stb. alkalmazásokba. Kijelöljük a másolni kívánt objektumot egyszeri kattintással, majd az Edit menüpont Copy Object (Ctrl+K) parancsával vágólapra helyezzük. Ezután már csak be kell illesztenünk az adott alkalmazásba az ily módon vágólapra helyezett objektumot. 45
4.1.2. Descriptive Ebben a menüpontban egyváltozós statisztikai számításokat végezhetünk, intervallum és arányskálán mérhető változókra. Itt helyzeti középértékeket, kvantiliseket nem számolhatunk, és nincs lehetőség grafikus ábrázolásra sem. A menüpont felajánlja egy-egy változó standardizáltjának új változóként történő előállítását. 49. ábra
A vizsgálni kívánt változókat a segítségével áthelyezzük a VARIABLE(S) ablakba. Ha standardizálni kívánjuk őket kattintsunk a SAVE STANDARDIZED VALUES AS VARIABLES jelölőgombjára. Az OPTIONS ablakban választhatjuk ki a számítani kívánt statisztikai mutatókat. 50. ábra
A DISPLAY ORDER blokkban azt adjuk meg, hogy milyen rendezési elv alapján jelenjenek meg a kijelölt változók statisztikai jellemzői az eredménytáblázatban. Az előző ablakban VARIABLE LIST megadott változók sorrendjében ABC sorrendben ALPHABETIC A változók átlagának ASCENDING MEANS nagysága szerint növekvő sorrendben A változók átlagának DESCENDING MEANS nagysága szerint csökkenő sorrendben A további teendőket az előző pontban már ismertetett módon végezzük.
4.1.3. Explore Láthattuk, hogy a DESCRIPTIVe-ben nem volt lehetőségünk a kijelölt változó kategorizálására. Az EXPLORE parancsnál már almintákat is feltételezhetünk, vagy egy kategóriaképző változó segítségével tagoljuk a megfigyeléseket. A parancs intervallum, vagy arányskálán mért változók esetén használható. E paranccsal a DESCRIPTIVE-ben elvégezhető összes vizsgálatot végrehajthatjuk, és ezen kívül az eloszlást jellemző további statisztikai mutatókat számol, illetve diagramokat rajzol. Nyesett átlagot, illetve a centrumtól távol értékek súlyozásával becsült átlagokat is számolhatunk, az outliereket, szélső értékeket is megjeleníthetjük, és numerikus és grafikus normalitás vizsgálatot is végezhetünk. A felsorolásból is látható, hogy ez a vizsgálat leíró jellege mellett megelőzi a további, már feltáró jellegű vizsgálatokat. Természetesen, az EXPLORE egyetlen, homogén minta vizsgálatára is alkalmas, és ugyanazokat az eredményeket adja, de ezen kívül a felsorolt többlet információ is meghatározható segítségével.
46
51. ábra
Az elemezni kívánt változókat a DEPENDENT LIST ablakba helyezzük el a változó kijelögombra lésével, majd a kattintással. Alminták esetén a csoportképző változót hasonló módon a FACTOR LIST ablakba másoljuk. Amennyiben a kiugró eseteket szeretnénk más csoportképző szerint is szemléltetni, a megfelelő változó a LABEL CASES BY sorba kerülA jön. Vigyázzunk, DEPENDENT LIST-be csak intervallum, vagy arányskálájú változók kerülhetnek. Ha a FACTOR LIST-be nominális vagy ordinális csoportosító változót adunk meg, ez csak akkor sikerülhet, ha a számformátum numerikus. A LABELS CASES BY sorba numerikus és alfanumerikus változó is kerülhet. A DISPLAY (SPSS Viewer megjelenítés) rovatban kérhetjük azt, hogy csak statisztika (STATISTICS), csak grafikus ábrázolás (PLOTS) legyen a kimeneti eredmény, vagy a BOTH opció kiválasztásával egyidejűleg mindkettőt. A STATISTICS parancsgomb lenyomása után határozhatjuk meg, hogy milyen statisztikai elemzéseket kérünk: 52. ábra
A DESCRIPTIVES jelölőgomb megadásával minden olyan statisztikát megkapunk, amit a DESCRIPTIVE parncsnál megismertünk, kiegészítve a nyesett átlaggal és a konfidencia intervallummal (CONFIDENCE INTERVAL FOR MEAN), ahol az alapbeállítás 95 %, de ezt módosíthatjuk. Az M-ESTIMATORS bejelölésével az átlagtól eltérő megfigyelések súlyozása történik meg, az átlagtól távolodva csökkenő súlyokkal, és az így korrigált átlagok az M-esztimátorok. Az SPSS négyféle, különböző eljárással számolja ezeket az értékeket. Az M-esztimátorok értéke általában az átlag és a medián között helyezkedik el. Az extrém értékek listája az OUTLIERS opció bejelölésével kérhető, a listában a változó 5 legnagyobb és 5 legkisebb értéke van felsorolva, függetlenül attól, hogy azok kilógó értékek, avagy sem. A PERCENTILES jelölésével kvantilis értékek kérhetőek. A PLOTS paranccsal kérhetőek a különböző diagramtípusok, amelyekkel a 2.1.9.-2.1.11. pontokban már részletesen foglakoztunk.
4.2.Súlyozott számítások előkészítése Az elemezni kívánt sokaságban az egyes ismérvértékek előfordulási gyakorisága különböző lehet. Ebben az esetben a statisztikai vizsgálatokban figyelembe kell vennünk ezeket az eltérő súlyokat. Az SPSS-ben azt a változót, amely az ismérvértékek gyakoriságát adja a DATA/WEIGHT CASES menüpont alatt állíthatjuk be.
47
53. ábra
A menüpont kiválasztása után az 50. ábrán található alábbi ablak nyílik meg:
54. ábra
A megfelelő gyakorisági sor kiválasztása után rákattintunk a WEIGHT CASES BY kiválasztó gombra, és a kiválasztott gyakorisági sort áttesszük a Frequency variable sorba. Az OK billentyű lenyomása után számításainkat már súlyozva végezhetjük el. Az alsó sorban mindig kiírva láthatjuk az aktuális súlyozási állapotot, ha ki szeretnénk kapcsolni a súlyváltozót, a DO NOT WEIGHT CASES opciót válasszuk. Erre, pl. akkor lehet szükség, ha először súlyozott termésátlagot szeretnénk számolni, ahol a gyakorisági sor a termőterület, majd ezután átlaghőmérsékletet, ahol a területi súlynak már nincs értelme.
48
5. Példák az SPSS alkalmazására Az Észak-Alföldi Régió növénytermesztését szeretnénk elemezni. Ennek érdekében 57 gazdasági társaság adatait gyűjtöttük össze, amelyet Excelben, az adat.xls fájlban rögzítettünk, és SPSS-ben szeretnénk elemezni. A következő kérdésekre szeretnénk választ kapni: • Van-e kapcsolat a tájegységek és a termelési színvonal között? • A tájegységek mennyiben reprezentálják a termőhelyi adottságokat? • Hogyan alakul az egyes tájegységekben a technológiai színvonal? A fenti kérdések megválaszolásához különböző statisztikai módszereket, összefüggés vizsgálatot, regresszió számítást, statisztikai hipotézis vizsgálatokat alkalmazhatunk. E módszerek alkalmazása előtt azonban el kell végeznünk a rendelkezésre álló adataink leíró vizsgálatát, ami alapján egyrészt fontos információkat nyerhetünk a gazdaságokról, másrészt dönthetünk a további statisztikai vizsgálatok jogosultságáról, szükségességéről.
5.1.Megoszlás vizsgálata Vizsgáljuk meg az kiválasztott 57 gazdaság területi eloszlását! A területi egységeket a tájegységek képezik, amelyek nominális változók. Ebben az esetben a következő számításokat célszerű kérnünk: Gyakorisági tábla, illetve a gyakoriság ábrázolására oszlop, vagy kördiagramot. Válasszuk ki az ANALYZE/DESCRIPTIVE STATISTICS/FREQUENCIES menüpontot. Mint már korábban is volt róla szó, a nominális változók vizsgálatát a FREQUENCIES-ben végezhetjük el. 55. ábra A Frequencies ablak
A bal oldali változó listából kiválasztjuk a taj_nev változót, és áthelyezzük a VARIABLES ablakba. Mivel a gyakorisági eloszlást is szeretnénk látni, bejelöljük a FREQUENCY TABLES DISPLAY jelölőnégyzetet.
56. ábra A kördiagram kijelölése
Ezután a Charts-ra kattintás után kiválasztjuk a Pie charts (kördiagram) diagramtípust, és bejelöljük az alsó Charts Values ablakban a Percentages opciót. E beállítással a kördiagramon a relatív gyakoriságokat fogjuk látni százalékos formában.
49
Miután valamennyi paramétert megadtuk, az OK paranccsal elvégeztetjük a számításokat. Az eredmények az SPSS Viewer Output1.spo fájlban tekinthető meg. Az ablakot az OK leütése után automatikusan megnyitja az SPSS. 57. ábra Az SPSS Viewer
Az eredmények értékelése: Statistics Tájegység N Valid Missing
57 0
A STATISTICS ablak az ismérvértékek gyakoriságát adja meg. A Valid értékek résztvesznek a számításokban, a MISSING értékek nem (A missing kritériumokat az ismérvek beállításánál rögzítjük). Tájegység
Valid
Egyéb Nagykunság Bihar Szatmár Nyírség Hajdúság Total
Frequency 4 9 10 10 11 13 57
Percent 7,0 15,8 17,5 17,5 19,3 22,8 100,0
Valid Percent 7,0 15,8 17,5 17,5 19,3 22,8 100,0
50
Cumulative Percent 7,0 22,8 40,4 57,9 77,2 100,0
A gyakorisági táblában láthatjuk ismérvváltozatonként az abszolút gyakoriságot (FREQUENCY), a relatív gyakoriságot (PERCENT) és a kumulált gyakoriságot (CUMULATIVE PERCENT).
58. ábra A vizsgált gazdaságok megoszlása tájegységenként
Egyéb 7,0%
Hajdúság Nagykunság
22,8%
15,8%
Nyírség
Bihar
19,3%
17,5%
A grafikonok megjelenítésének módosítására az SPSS Chart Editor sokrétű lehetőséget biztosít számunkra.
Szatmár 17,5%
A kimutatások alapján megállapítható, hogy a vizsgálatba vont 57 gazdaság tájegységenkénti megoszlása 15,8 és 22,8 % között van. A régió nem nevesített területeiről származó gazdaságok részaránya mindössze 7%, ami 4 gazdaságot takar. További információt kaphatunk az eloszlásról, ha a kiválasztott gazdaságok szántóterületének nagyságát tekintjük változónak. Készítsünk egy olyan elemzést, ahol a saját, bérelt és összes terület megoszlását vizsgáljuk. Ezt a legegyszerűbben az ANALYZE/REPORTS/CASE SUMMARIES menüponton belül végezhetjük el. A menüpont kiválasztása után az alábbi ablak jelenik meg a képernyőn: 59. ábra A CASE SUMMARIES ablaka
A baloldali ablakból kiválasztjuk az s_ter, b_ter, és o_ter változókat és áthelyezzük a VARIABLES ablakba. Csoportváltozónak (GROUPING VARIABLE(S) kiválasztjuk a taj_nev változót. Ha az adatokat részletesen, rekordonként szeretnénk megjeleníteni, pipáljuk ki a Display cases jelölőnégyzetet. Most ezt nem szeretnénk, ezért üresen hagyjuk. A STATISTICS parancsgomb segítségével határozhatjuk meg, hogy milyen vizsgálatokat kérünk.
51
60. ábra STATISZTIKÁK A CASE SUMMARY REPORTban
Látható, hogy igen sok elemzési lehetőséget ajánl fel ez a menüpont is. A Statistics ablakban láthatjuk az elérhető statisztikákat, innen helyezzük át a Cell Statistics ablakába azokat, amelyeket vizsgálni kívánunk. Mi most a gyakoriságot, az értékösszeget, a számtani átlagot, a szórást, és az összes területhez viszonyított megoszlási viszonyszámokat kértük.
A vizsgált gazdaságok területének megoszlása tájegységek szerint
A táblázatból kitűnik, ha a vizsgálatba vont gazdaságok összes területének tájegységenkénti megoszlását vizsgáljuk, teljesen más sorrendet kapunk, mint a gazdaságok számának vizsgálatakor. Az összes vizsgált gazdaság átlagos területnagysága 2483 ha, amitől az egyes tájegységek átlaga lényegesen eltér pl. Nagykunság 3604 ha, Egyéb 4789 ha. A tájegységek területnagyság szerinti megoszlása sokkal kiegyenlítettebb a gazdaságok számának megoszlásánál, ami az Egyéb területen lévő vállalkozások nagy átlagos területnagyságával magyarázható.
Tájegység Bihar
Egyéb
Hajdúság
Nagykunság
Nyírség
Szatmár
Total
Szemléltessük az előzőekben leírtakat oszlopdiagrammal:
52
N Sum Mean Std. Deviation % of Total Sum N Sum Mean Std. Deviation % of Total Sum N Sum Mean Std. Deviation % of Total Sum N Sum Mean Std. Deviation % of Total Sum N Sum Mean Std. Deviation % of Total Sum N Sum Mean Std. Deviation % of Total Sum N Sum Mean Std. Deviation % of Total Sum
Saját terület ha 10 2708 270,83 519,833 42,9% 4 199 49,75 99,500 3,2% 13 200 15,38 55,470 3,2% 9 520 57,78 117,275 8,2% 11 724 65,82 186,598 11,5% 10 1958 195,80 428,057 31,0% 57 6309 110,69 302,228 100,0%
Bérelt terület ha 10 18805 1880,47 1820,810 13,9% 4 18958 4739,50 5248,152 14,0% 13 21620 1663,11 1319,485 16,0% 9 31920 3546,67 3364,662 23,6% 11 26100 2372,72 1274,206 19,3% 10 17845 1784,51 1252,971 13,2% 57 135248 2372,77 2320,453 100,0%
Összes terület ha 10 21513 2151,30 2216,792 15,2% 4 19157 4789,25 5269,937 13,5% 13 21820 1678,49 1303,552 15,4% 9 32440 3604,44 3380,148 22,9% 11 26824 2438,54 1272,507 18,9% 10 19803 1980,31 1269,052 14,0% 57 141557 2483,46 2370,512 100,0%
Válasszuk a GRAPH/BAR menüparancsot, a STACKED és a SUMMARIES OF SEPARATE VARIABLES opciót.
61. ábra A változók megadása az oszlopdiagramhoz
Az s_ter és b_ter változókat mozgassuk át a BARS REPRESENT ablakba, majd a CHANGE SUMMARY parancsgomb segítségével adjuk meg az öszszesítés módját (értékösszeg, átlag stb.), az x-tengelyen (CATEGORY AXIS) pedig ábrázoljuk a tájegységeket. A TITLES parancsgombra kattintás után írjuk be a diagram címét. Az OK leütése után az SPSS Viewerben tovább szerkeszthetjük grafikonunkat.
62. ábra A saját és bérelt területek alakulása
Az ábrán a bérelt és saját területet egy oszlopon belül ábrázoltuk, az oszlop teljes magassága az összes területet mutatja. A saját terület nagysága a bihari és szatmári tájegységben a legnagyobb, és a diagram jól szemlélteti azt is, hogy a saját terület részaránya is az itt található gazdaságokban a legmagasabb. Természetesen az adatbázisunkat megvizsgálva még további megoszlások is számíthatók, más csoportosítási szempont, illetve egyéb változók bevonásával.
Terület ha
tájegységenként. 32000 28000 24000 20000 16000 12000 8000 Bérelt terület ha
4000 0
Saját terület ha ár m at Sz g é rs s á g yí N un yk ag N ság dú aj H b yé Eg r ha Bi
53
5.2.Egy mennyiségi ismérv kategóriákra bontása Képezzünk az ak változó (Aranykorona érték AK/ha) alapján földminőség kategóriákat! Az új változó neve legyen ak_min. Képezzük a következő kategóriákat: 4. Táblázat
Aranykorona érték AK/ha 0-14,9 15-19,9 20-24,9 25-29,9 30-34,9 35-
Kategória 1 2 3 4 5 6
Nyissuk meg a TRANSFORM/ RECODE/INTO DIFFERENT VARIABLES menüpontot. 63. ábra A menüpont kiválasztása
A következő ablak nyílik meg: 64. ábra A TRANSFORM/ RECODE/INTO DIFFERENT VARIABLES nyitóablaka
A baloldali ablakból áthelyezzük az ak változót a NUMERIC VARIABLE ablakba, a NAME alatt megadjuk az új változó nevét (ak_min), majd beírjuk az új változó címét (LABEL), végül az OLD AND NEW VALUES parancsgombra kattintunk.
54
65. ábra A kategóriák megadásának ablaka
Az ablak két részre tagolódik. Az egyik az OLD VALUE – régi értékek, a másik a NEW VALUE – új értékek. Mindkét ablakban több lehetőség közül választhatunk: Nézzük először, hogyan adjuk meg a régi étékeket. Ha a VALUE opciót jelöljük be, egyenként adhatjuk meg a régi értékeket, a SYSTEMMISSING, vagy a SYSTEM OR USER-MISSING bejelölésekor azoknak az adatoknak a csoportját, amelyek vagy az SPSS feltételeinek, vagy a felhasználó által definiált feltételeknek nem felelnek meg. A RANGE … THROUGH … választása esetén –tól –ig határokat adhatunk meg, a RANGE LOWEST THROUGH… megadásával alulról nyitott osztályközt, a RANGE…THROUGH HIGHEST pedig felülről nyitott osztályközt hoz létre. Ha már valamennyi feltételt megadtuk, az ALL OTHER VALUES segítségével besorolhatjuk a kimaradt ismérvértékeket is. Az új érték megadása akkor lehetséges, ha a régi értéket az előzőekben leírt valamelyik módon rögzítettük. Az új értéket VALUE szövegdobozába íjuk, majd az ADD parancsra kattintva, a régi és az új érték is bekerül az OLD→NEW ablakba. Ha nem akarjuk átírni a régi értéket, a COPY OLD VALUE(S) opciót válasszuk. Ha az új értékek szöveges formátumúak, az OUTPUT VARIABLES ARE STRIGS jelölőnégyzetet pipáljuk. Ha az OLD→NEW ablakból törölni akarunk egy feltételt a REMOVE, ha módosítani szeretnénk a CHANGE parancsot válasszuk. 66. ábra Osztályközök definiálása
Az ábrán a táblázatban megadott aranykorona érték osztályközök definiálása és az új változók találhatók.
55
5.3.Az adatok előkészítése súlyozott számításokhoz Gyakran olyan adatsorok elemzését kell elvégeznünk, ahol az egyes ismérvértékek gyakorisága különböző. Ilyen esetekben súlyozott számításokat kell alkalmaznunk, és a vizsgálni kívánt ismérvek gyakoriságát is meg kell adnunk. Az SPSS-ben a súlyozott számítások előkészítését a DATA/ WEIGHT CASES menüpontban végezzük el. 67. ábra A súlyok megadása
A menüpont kijelölése után az alábbi ablak nyílik meg: 68. ábra A Weight Cases ablaka
Az ablak megnyitása után először kiválasztjuk a WEIGHT CASES BY opciót, majd a bal oldali ablakból kiválasztjuk azt változót, ami a súlyt reprezentálja, majd áthelyezzük a FREQUENCY VARIABLE sorba. Az OK leütésével aktiváljuk a súlyt. Fontos! Az elemzések során valamennyi változónál a kijelölt változóval, számol, mint súllyal az SPSS. Az aktuális súly a CURRENT STATUS sorban olvasható. Ha vannak olyan változóink, amelyeknél nem a kijelölt gyakorisági értékek érvényesek, akkor, azoknál mindig újra el kell végeznünk ezt a műveletet.
56
5.4.A búza termésátlagok alakulása a vizsgált gazdaságokban Először állítsuk be az búzaterületet súlyként a DATA/ WEIGHT CASES menüpontban: 69. ábra A búzaterület, mint súly beállítása
Az elemzéshez válasszuk az ANALYZE/DESCRIPTIVE STATISTICS/DESCRIPTIVES menüpontot: 70. ábra A Descriptive ablaka
A buz_ha változót helyezzük át a ablakba, majd VARIABLES kattitntsunk az OPTIONS gombra
71. ábra Választott leíró statisztikák
Számítsuk a vizsgált gazdaságokban a búza termésátlagot, a szórást, varianciát, szóródás terjedelmét, az átlag standard hibáját, az eloszlást jellemezzük az aszimmetria, és a csúcsosság mutatójával.
57
Az eredmények: Descriptive Statistics Std. N Range Minimum Maximum Mean Variance Skewness Kurtosis Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Statistic Statistic Std. Error Statistic Std. Error Búza termésátlag 35165 4,0 2,3 6,3 4,394 ,004 ,8097 ,656 ,227 ,013 -,459 ,026 Valid N (listwise) 35165
Az eredmények értékelése: Az 57 gazdaságban a teljes elvetett búzaterület 35165 ha. A legalacsonyabb termésátlag 2,3 t/ha, a legmagasabb 6,3 t/ha, a szóródás terjedelme 4 t/ha. Az 57 gazdaságban 4,394 t/ha az átlagtermés, a szórás 0,8097 t/ha. Az aszimmetria mutatószáma 0,227, jobboldali aszimmetriát jelez. A csúcsosság mutatója -0,459, lapult eloszlást mutat, a sűrűségfüggvény értékei középen nem sűrűsödnek. A fenti információk arra engednek következtetni, hogy a sokaság heterogénnek tekinthető és érdemes megvizsgálni, hogy milyen tulajdonságú részsokaságokból épül fel.
5.5.Az erőgépek eloszlásának vizsgálata Az elemzést az ANALYZE/DESRIPTIVE STATISTICS/ FREQUENCY segítségével végezzük. A vizsgált változó: e_g_db. 72. ábra A változó kiválasztása
Ezután beállítjuk, hogy milyen statisztikai számításokat kérünk: 73. ábra A statisztikák kiválsztása
58
A grafikus ábrázolási módok közül a hisztogramot jelöljük be, normál eloszlási görbével: 74. ábra A grafikus ábrázolási mód beállítása:
A következő lépésben kinyomtatjuk, és értékeljük az eredményeket: Statistics Erőgépek száma db N Mean Std. Error of Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum Sum Percentiles
Valid Missing
25 50 75
57 0 11,49 1,329 9,00 6 10,032 100,647 1,790 ,316 3,842 ,623 49 1 50 655 4,50 9,00 15,00
Az átlagos erőgépszám gazdaságonként 11,49, a szórás 10,032. A medián 9, a módusz 6, ami aszimmetriát jelez, de ezt megerősíti az aszimmetria mutató 1,79 értéke, amely szintén erős jobboldali aszimmetriára utal. A csúcsosság értéke 3,842 erősen csúcsos eloszlásra enged következtetni. Az aszimmetriára vonatkozó következtetéseinket erősíti a kvartilisek értéke is, hisz a 11,49 db átlag mellett az adatok 75%-a 15 db alatt van. Nézzük meg, hogyan alakul az eloszlás hisztogram segítségével is:
59
75. ábra Az erőgépek számának hisztogramja
Gyakoriság
Erőgépek száma db 20
10
Std. Dev = 10,03 Mean = 11,5 N = 57,00
0
,0 50 ,0 45 ,0 40 ,0 35 ,0 30 ,0 25 ,0 20 ,0 15 ,0 10 0 5, 0 0,
Erőgépek száma db
Kétségkívül informatív számunkra az erőgépek számának vizsgálata, de a fajlagos erőgép ellátottság, vagy a területegységre jutó gépsűrűség elemzése célszerűbb.
5.6.A fajlagos erőgép ellátottság elemzése Az elemzést az ANALYZE/DESCRIPTIVE STATISTIC/EXPLORE paranccsal végezzük. A vizsgált változó: e_g_100ha. Descriptives Fajlagos erőgépellátottság db/100 ha
Mean 95% Confidence Interval for Mean
Lower Bound Upper Bound
5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis
Statistic ,46271 ,46212 ,46330 ,45873 ,45182 ,013 ,112601 ,195 1,000 ,805 ,12773 ,752 1,608
60
Std. Error ,000299
,007 ,013
Az átlagos erőgép ellátottság 0,462 db/100 ha. A nyesett átlag 0,458 db/100 ha. A szórás 0,11db/100 ha. Az interkvartilis terjedelem 0,13 db/100 ha. Jobb oldali aszimmetriát (0,75), és a normál eloszlástól csúcsosabb eloszlási görbét tapasztalhatunk (1,60). M-Estimators
Fajlagos erőgépellátottság db/100 ha
Huber's a M-Estimator
Tukey's b Biweight
Hampel's c M-Estimator
,45480
,44958
,45234
Andrews' d Wave ,44828
a. The weighting constant is 1,339. b. The weighting constant is 4,685. c. The weighting constants are 1,700, 3,400, and 8,500 d. The weighting constant is 1,340*pi.
Az M-esztimátorok is az aszimmetriát támasztják alá. 76. ábra A fajlagos erőgép ellátottság hisztogramja A fajlagos erőgép ellátottság
Gyakoriság ha
hisztogramja 50000
40000
30000
20000
Std. Dev = ,11
10000
Mean = ,46 N = 141557,47
0 4 ,9
5 ,7
6 ,5
8 ,3
9 ,1
Fajlagos erőgépellátottság db/100 ha Cases weighted by O_TER
A hisztogram is az előzőekben leírtakat támasztja alá.
A hisztogram alapján nem dönthető el egyértelműen normális eloszlás megléte, azonban grafikus és numerikus normalitás vizsgálatot is kértünk: •
numerikus vizsgálat:
61
Tests of Normality a
Kolmogorov-Smirnov Statistic df Sig. Fajlagos erőgépellátottság db/100 ha
,108
141557
,000
a. Lilliefors Significance Correction
Mivel a szignifikancia mértéke kisebb, mint 0,05, elvetjük a normalitást. (A normalitás vizsgálatról részletesen később beszélünk.) •
grafikus vizsgálat:
77. ábra Grafikus normalitás vizsgálat Normal Q-Q Plot of Fajlagos erőgép ellátottság
db/100 ha 3 2 1
Expected Normal
0 -1 -2 -3 0,0
,2
,4
,6
,8
1,0
1,2
Observed Value
A pontok nem esnek egybe az egyenessel, ezért elvethetjük a normalitást. Azonban az is egyértelmű, hogy az outlierek elhagyásával a normalitás valószínűleg fennáll. Ezt az extrém értékek és az adatvesztés szakmai vizsgálatának kell megelőznie.
62
A kiugró értékek vizsgálatára ad lehetőséget az extrém értékek táblázata és a box-plot diagram is. Extreme Values Fajlagos erőgépellátottság db/100 ha
Highest
Lowest
1 2 3 4 5 1 2 3 4 5
Case Number 35 22 33 17 29 46 32 39 41 42
Value 1,000 ,905 ,833 ,722 ,711 ,195 ,245 ,261 ,263 ,274
78. ábra Box-plot 1,2
1,0
A interkvartilis terjedelem (0,128) – a dobozon belüli terület – másfélszeresének határain kívül – alsó és felső határvonal – összesen 3 megfigyelés van, a 35., a 22., és a 33. számú gazdaság. Ezek területnagysága rendre: 100, 994, és 120 ha. A későbbiekben vizsgálhatjuk, hogy e három gazdaság adatainak eliminálása, milyen hatással lesz a teljes sokaság adataira.
35 22 33
,8
17 29 11
,6
,4
,2 0,0 N=
141557
Fajl. erőgépell.
db/100 ha Analysis weighted by O_TER
5.7. Az erőgépek átlagéletkorának elemzése
Az életkor intervallum skálán mérhető mennyiségi ismérv, az elemzést az ANALYZE/DESCRIPTIVE STATISTICS/EXPLORE segítségével hajtjuk végre.
63
Először áthelyezzük az atl_kor változót a DEPENDENT LIST ablakba. 79. ábra A változó kiválasztása
Beállítjuk az elvégezni kívánt statisztikai elemzéseket: 80. ábra
Megadjuk a grafikus ábrázolás módját: 81. ábra Diagrammok definiálása
Eredmények: Descriptives Erőgépek átlagéletkora
Mean 95% Confidence Interval for Mean
Lower Bound Upper Bound
5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis
Statistic 7,925 7,007 8,842 7,977 8,300 11,952 3,4571 ,0 16,7 16,7 4,150 -,232 ,368
64
Std. Error ,4579
,316 ,623
A gépek átlagéletkora 7,9 év. A nyesett átlag és a közönséges átlag között minimális az eltérés, ami közel szimmetrikus eloszlásra utal. Az aszimmetria mutató (-0,232) enyhe bal oldali aszimmetriára utal. A csúcsosság mutatója (0,368) a normálisnál egy kicsit csúcsosabb eloszlást jelez. 82. ábra A gépek átlagéletkorának
Gyakoriság
hisztogramja 12 10 8 6 4 Std. Dev = 3,46
2
Mean = 7,9 N = 57,00
0
, 16
, 12
0 8,
0 4,
0 0,
0
0
Erőgépek átlagéletkora Erőgépek átlagéletkora Stem-and-Leaf Plot Frequency
Stem &
3,00 0 5,00 0 7,00 0 10,00 0 19,00 0 8,00 1 3,00 1 1,00 1 1,00 Extremes Stem width: Each leaf:
. . . . . . . .
Leaf 000 23333 4455555 6666677777 8888888889999999999 00111111 222 4 (>=17)
10,0 1 case(s)
Mind a hisztogram, mind a leveles-ábra normál eloszláshoz közeli formát jelez. A leveles-ábra két éves lépésekben mutatja be a gyakoriságokat. Ennek alapján a legnagyobb gyakoriságú köz (19) a 8-9 éves kategóriában található. Tests of Normality a
Erőgépek átlagéletkora
Kolmogorov-Smirnov Statistic df Sig. ,070 57 ,200*
*. This is a lower bound of the true significance. a. Lilliefors Significance Correction
65
Statistic ,981
Shapiro-Wilk df 57
Sig. ,509
83. ábra Normal Q-Q Plot Erőgépek átlagéletkora 3
2
Expected Normal
1
0
-1
-2 -10
0
10
20
Observed Value
Mind a grafikus, mind a numerikus normalitási teszt alapján megállapítható, hogy a gazdaságokban a gépek eloszlása normál eloszlást mutat. A numerikus számítások szignifikancia-szintje nagyobb, mint 0,05, és az ismérvértékek transzformált értékei a normális eloszlású egyenes mentés helyezkednek el. 84. ábra Az erőgépek átlagéletkorának box- plot diagramja
20 23
10
0
-10 N=
57
Erőgépek átlagéletkora év
66
Felhasznált irodalom Hunyadi László – Vita László: Statisztika közgazdászoknak Budapest, 2003 Ketskeméty László-Izsó Lajos: Az SPSS® for WindowsTM programrendszer alapjai Felhasználói útmutató és oktatási segédlet Budapest, 1996 Kovács Erzsébet: Pénzügyi adatok statisztikai elemzése Budapest, 2004 Manczel Jenő (szerk.): Statisztikai módszerek alkalmazása a mezőgazdaságban Budapest, 1983 Szűcs István (szerk.): Alkalmazott statisztika Budapest, 2002
67