B a b e ş - B o l y a i Tu d o m á n y e g y e t e m Szociológia és Szociális munka Kar
MEZEI ELEMÉR
LEÍRÓ STATISZTIKA
Egyetemi jegyzet
Kolozsvár 2007-2008
TARTALOMJEGYZÉK 1. A STATISZTIKA RÖVID TÖRTÉNETE........................................................................................................5 2. A STATISZTIKA ALAPFOGALMAI..............................................................................................................6 2.1. STATISZTIKAI SOKASÁG ......................................................................................................................6 2.2. STATISZTIKAI ELEMZÉS ......................................................................................................................7 2.3. STATISZTIKAI MINTA ..........................................................................................................................7 2.4. STATISZTIKAI ISMÉRVEK.....................................................................................................................7 2.5. A STATISZTIKAI ADATGYŰJTÉS ............................................................................................................8 2.6. MÉRÉSI PROBLÉMÁK A TÁRSADALOMTUDOMÁNYOKBAN ..................................................................10 3. AZ ADATMÁTRIX............................................................................................................................................11 4. A SOKASÁG LEÍRÁSA MINŐSÉGI ISMÉRVEK ALAPJÁN .................................................................19 5. A SOKASÁG LEÍRÁSA MENNYISÉGI ISMÉRVEK ALAPJÁN............................................................22 5.1. A (SZÁMTANI) ÁTLAG .......................................................................................................................22 5.2. A MEDIÁN........................................................................................................................................22 5.3. KVANTILISEK ...................................................................................................................................23 5.4. A TERJEDELEM (AMPLITUDÓ, ANGOLUL RANGE)..............................................................................23 5.5. A KVARTILIS DEVIÁCIÓ.....................................................................................................................23 5.6. AZ ÁTLAGOS ELTÉRÉS ......................................................................................................................23 5.7. A SZÓRÁS ÉS A SZÓRÁSNÉGYZET (VARIANCIA) ...................................................................................23 5.8. AZ ÁTLAGÉRTÉK TULAJDONSÁGAI ....................................................................................................24 5.9. A SZÓRÁS (SZÓRÁSNÉGYZET) TULAJDONSÁGAI .................................................................................24 5.10. PÉLDÁK A SOKASÁG LEÍRÁSÁRA .....................................................................................................27 6. AZ ÁTLAG ÉS SZÓRÁS KISZÁMÍTÁSA RÉSZEREDMÉNYEK ALAPJÁN .....................................33 7. MENNYISÉGI ISMÉRVEK INTERVALLUMOKBA VALÓ SOROLÁSA...........................................35 8. A KORRELÁCIÓS EGYÜTTHATÓ .............................................................................................................41 8.1. A KORRELÁCIÓS EGYÜTTHATÓ ÉRTELMEZÉSE ..................................................................................41 8.2. A KORRELÁCIÓS EGYÜTTHATÓ TULAJDONSÁGAI: .............................................................................41 8.3. RANGOK KORRELÁCIÓJA .................................................................................................................44 IRODALOM............................................................................................................................................................45
4
MEZEI ELEMÉR
1. A statisztika rövid története A megszámlálás az emberiség egyik legfontosabb tevékenysége volt, népcsoportok, törzsek túlélése függött attól, hogy élelemből elég tartalékkal rendelkeznek-e, van-e harcosuk elég, de attól is, hogy mennyi harcosa van a szomszédságban élő törzseknek, felvegyék-e a harcot velük vagy inkább fizessenek adót. Fennmaradt információk szerint Kínában már több mint négy évezreddel ezelőtt tartottak népesség-számbavételt, de ugyanakkor a föld minőségéről, főldművelésről, termékekről is gyűjtöttek adatot. Ismertebbek viszont a Biblia utalásai a népszámlálásokra: a Számok Könyvében részletesen megtaláljuk a zsidók összeírásának minden lépését, igaz ugyan, hogy csak a hadba fogható férfiak számát tartalmazza a Szentírás; ennél sokkal ismertebb az a cenzus, amelyet Jézus születésének idején tartottak a Római Birodalomban. A középkorban is tartottak népességösszeírást, de ezek hangsúlyozottan katonai, adózási célokat szolgáltak; általában csak adatgyűjtések voltak és csak a népesség egy részére vonatkoztak (jobbágyok, adófizetők), az adatok feldolgozása csupán összegzést jelentett. Még nem beszélhetünk igazán tudományos igényű adatgyűjtésről. A statisztika, mint tudomány, körülbelül három és fél évszázadnyi múltra tekint vissza. A XVII. század második felében Angliában és Németalföldön, egymástól függetlenül, két áramlat indul el a társadalmi jelenségek megismerésére és leírására. Amikor John Graunt (1620–1674) angol nemes és amatőr tudós 1662-ben közzéteszi a halandóságról szóló tanulmányát, útjára indul a demográfia, mint tudomány. Ugyanakkor Graunt megállapítja, hogy ezen demográfiai elemzések eredményei meglepő szabályosságot mutatnak térben és időben, és megfogalmazza azt is, hogy a társadalom terén is találhatók olyan törvényszerűségek, amelyek leírhatók a természettudományok szabatos törvényeihez hasonlóan. Angol földön megfogalmazódik az az elv, miszerint a társadalom jelenségei megismerhetők és leírhatók. Graunt kortársa, William Petty (1623–1687) ezt a tudományt a politikai aritmetika1 névvel illette meg. Graunttal egyidőben Hermann Conring (1606–1681) azt fogalmazza meg, hogy a társadalmat meg kell ismerni és gyógyítani kell és ez megköveteli a társadalomnak olyszerű ismeretét, ahogyan az emberi testet ismernie kell egy orvosnak, ahhoz hogy gyógyítani tudjon (Conring sokoldalú tudós: filozófus, orvos, a helmstadti egyetemen 25 ország adatait ismertette meg a hallgatóival, könyv formában nem jelentek meg ezirányú eredményei és tanításai, közvetve, más szerzőktől ismertek ezek). Tehát Németalföldön az fogalmazódik meg, hogy a társadalom jelenségeit meg kell ismerni. Graunt és Conring tevékenységével hozható kapcsolatba a társadalom jelenségeinek feltárásához használt eszköznek, a statisztikának megjelenése. Sokan úgy tartják, hogy az első statisztika tankönyv szerzője Veit Ludwig von Seckendorff, a hallei egyetem tanára, a könyv címe Teutscher Furstenstaat (1656), a tantárgy neve pedig Staatskunde volt. A német irányzatnak érdeme a statisztika (Statistik) szó használata az új tudományág megnevezésére (1749, Achenwall, 1719–1772). A szó jelentésére két változat is él: egyik szerint a latin status (= állapot, helyzet) szóból kell kiindulni, a másik szerint a német Staat (=állam) szóból, de talán az a legjobb magyarázat a szó jelentésére, hogy az állam állapota. Érdekes talán megjegyezni, hogy voltak más irányzatok is a társadalomkutatásban, például Süssmilch (1707–1767), egy porosz tábori pap, a társadalom vizsgálatánál harmóniát, szabályszerűséget talált, ezeket viszont az isteni rendnek tulajdonította. Jellemző a statisztika sokféle értelmezésére és magyarázatára az, hogy másfél évszázaddal ezelőtt, amikor már önállósult ez az államleíró új tudományág, Gustav von Rümelin (1815–1889) a statisztikának 62 különböző értelmezését gyűjtötte össze, amelyet megtoldott egy saját értelmezéssel is. Valamivel később Ernst Engel (1821–1896) száznál is több definiciót talált az addigi szakirodalomban. Ez a sok értelmezés nyilván azzal is magyarázható, hogy az idők során az új ismeretek (úgy az elméleti, mint az empirikus) más-más perspektívát mutattak az új tudományág elé. A legtöbb értelmezés a társadalom jelenségeinek a tudománya formával indul, a statisztika céljának pedig a tudd, hogy miért teszed azt elvet jelölik meg. Fontos az, hogy a tömegesen előforduló jelenségek leírása lehet célja csupán a statisztikai elemzéseknek. A statisztika fejlődéséhez nagyban hozzájárult tudósok közül ime néhány nagy név: Edmund Halley (1656–1742) csillagász, Adolphe Quételet (1796–1874), Francis Galton (1822–1911), Karl Pearson (1857–1936), Ronald Aylmer Fisher (1890–1962). Mára a statisztikának is, mint minden más fontos tudománynak, több ágazata van, mindegyik jól körülírható területtel. A statisztika egészére találó az a definiciót, miszerint ez egy sokaság egyedeiről gyűjtött számszerű adatoknak a rendszerezése és feldolgozása abból a célból, hogy a sokaság egészére – és nem egyedeire – általánosan érvényes összefüggések birtokába jusssunk (1976, Vladimir Trebici). A statisztika fontosságára vonatkozóan érdekes az a kijelentés, hogy a statisztika megfelelő ismerete nélkül a társadalomtudomány kutatója olyan, mint egy vak ember, aki egy sötét szobában keres egy fekete macskát, amelyik nincs is ott (Croxton, F. E, Cowden, D. J, Klein, S.: Applied General Statistics, New York, 1967, p.1.). A statisztika ágazatai közül megemlíthetjük a matematikai statisztikát (a nevéből is következtethető, hogy a statisztika által használt elméleti apparátus tudománya, a matematika tudományának egyik ágazata, talán nem is igazán tartozik a statisztika tudományához), a gazdasági statisztikát, a társadalomstatisztikát. Ez a féléves anyag lényegében bevezetés a statisztikába, egy kicsit matematikai statisztika, egy kicsit társadalomstatisztika, illetve statisztikai elemzés.
1
Petty könyvének címe: Political Arithmetick, or a Discourse concerning the Extent and Value of Lands, People, Buildings (London, 1691).
6
MEZEI ELEMÉR
2. A statisztika alapfogalmai Ugyanúgy, mint az egzakt tudományokban, a statisztikában is vannak olyan fogalmak, amelyeket nem értelmezünk, hanem körülírjuk oly módon, hogy a hallgatók lényegében ugyanazt értsék a megnevezések alatt. 2.1. Statisztikai sokaság A statisztikai vizsgálatok tárgyát konkrét halmazok képezik: egy ország állampolgárainak a halmaza, egy megye lakosainak halmaza, Kolozsvár választójogú polgárainak a halmaza, a Babeş-Bolyai Tudományegyetem hallgatóinak a halmaza, a Szabadság című napilap olvasóinak a halmaza, a kolozsvári középiskolák halmaza, a szegény családok halmaza, Kovászna megye kisvállalkozóinak a halmaza stb. Minden halmazt, amely statisztikai elemzésnek vethető alá, statisztikai sokaságnak nevezünk. Bár a statisztikai sokaság elemei konkrét személyek, intézmények, közösségek, a halmaz maga nem mindig ismert egyértelműen. Ha a sokaság elemei a sokaság megnevezése által nem különülnek el egyértelműen a többi, nem sokaságbeli egyedektől, akkor a sokaságba tartozást kell egyértelműbben definiálni. Például a Szabadság című kolozsvári napilap olvasóinak táborát igen sokféleképpen értelmezik az emberek csupán a megnevezés alapján: (1) a napilap előfizetőinek a halmaza; (2) azoknak az egyéneknek a halmaza, akik rendszeresen olvassák az újságot; (3) akik naponta olvassák az újságot; (4) akik naponta legalább egy cikket végégolvasnak az újságból, nemcsak az apróhirdetést, a TV-műsorokat böngészik; (5) akik az elmúlt héten naponta kezükbe vették a lapot; stb. A különböző értelmezések más-más halmazt írnak körül, teljes pontossággal ezen halmazokról több-kevesebb információt tudunk: a legtöbbet (név szerint megnevezve a személyeket) az első definició szolgáltat, de ez a sokaság a legszűkebb (például az előfizetés tulajdonosának a házastársa – ha van – és egyéb felnőtt családtagja ugyanolyan rendszerességgel olvashatja a lapot, de aki naponta vásárolja, az is rendszeres olvasója lehet az újságnak, sőt az interneten böngészők is hozzáférnek a lap tartalmához). A különböző kutatások a látszólag ugyanolyan megnevezésű halmazt különbözőképpen értelmezhetik, a fontos az, hogy a kutatás céljainak tökéletesen megfeleljen a definició. Nagyon gyakran a statisztikai sokaság felbontható alsokaságokra, vagy már eleve különböző sokaságoknak tekintjük őket. Például, Kolozs megye lakosainak halmaza két alsokaságra bontható: a városlakók és a falun élők halmazára, de már eleve két sokaságként is tekinthetjük ezeket, külön egy 455.767-es lélekszámú városi népesség és egy 231.058 lelket kitevő falusi közösség2 sokaságaként. Hasonlóan vehetjük a városi és falusi magánválalkozók alsokaságait. A két statisztikai sokaságra való bontás akkor szükséges, ha a kutatás nem ugyanazon időben történik a két közösségben, vagy ha más-más kutatócsoport hajtja végre, illetve ha az egyik sokaság igen kicsi a másikhoz képest, az összehasonlító vizsgálatok ilyenkor megkövetelik arányukhoz képest nagyobb számban való megvizsgálásukat (amennyiben minta által történik ez). Két jól elkülönülő sokaság alkotja a kísérleti csoportot, illetve a kontrollcsoportot (ezekről bővebbet találni később). Egy statisztikai sokaság lehet véges vagy végtelen. A végtelen sokaság elméleti jelentőségű, de a valóságban nem ritka a gyakorlatilag végtelen sokaság (például egy 320000 lakosságú városból, amilyen Kolozsvár, gyakorlatilag végtelen sok 1000 1000
elemű minta vehető, habár az ilyen lehetséges minták száma véges: C 328000 . De ez a szám – egy kis átalakítással könnyen belátható – meglepően nagy: 1000 C320000 =
= 320 1000
(
= 2 5 ⋅ 10
)
1000
320000 ⋅ 319999 ⋅ K 319001 ⎛ 320000 ⎞ >⎜ ⎟ 1000 ⋅ 999 ⋅ K1 ⎝ 1000 ⎠
1000
( )
= 3201000 =
( )
500 500 = 2 5000 ⋅ 10 1000 = 210 ⋅ 10 1000 > 10 3 ⋅ 10 1000 = 10 2500 , 80
akkor, amikor az ismert világegyetemben található elemi részecskék száma 10 nagyságrendű. Más szempont szerint a statisztikai sokaság lehet álló vagy mozgó sokaság. Az álló sokaságról egy meghatározott időpontban levő állapotot rögzítünk, a mozgó sokaság pedig egy adott időtartam alatt bekövetkező jelenségekből áll. Például a Szabadság nevű napilap olvasóinak tábora 2006. októberének első hetében, vagy egy ország, megye, város, falu lakossága egy adott népszámlálás időpontjában, egy iskola diákjai egy új tanév kezdésekor, egy adott betegségben szenvedő kórházba utalt egyének egy adott napon. Álló sokaságot tükröznek a népszámlálások eredményei, legtipikusabb álló sokaság éppen a népszámlálás tárgyát képező lakosság, az időpontot (eszmei időpontot) is törvény írja elő (Romániában legutóbb ez 2002. március 18). Mozgó sokaság például egy adott évben az élveszületettek, az elhalálozottak sokasága, a házasságkötések, a válások sokasága, egy adott hónapban előállított egyfajta termékek sokasága, 2005-ben eladott gépkocsik sokasága, egy orvosi rendelőben egy kalendarisztikus évben jelentkező betegek, egy adott betegségben szenvedő egyének, akiknek adatait orvosi lapokról veszik át stb.
2
Évközepi népességszám, 2004. július 1, www.cluj.insse.ro.
BEVEZETÉS A STATISZTIKÁBA
7
2.2. Statisztikai elemzés A statisztika értelmezéséből kitűnik az, hogy számadatok feldolgozásával foglalkozik. A számadatokkal meghatározott aritmetikai műveleteket hajtunk végre, miáltal újabb, tömörebb információhoz jutunk. A számok azonban nem önmagukért vannak, jelenségek leírására szolgálnak, tehát fontos, hogy hűen tükrözzék a valóságban lezajló folyamatokat, állapotokat, összefüggéseket. A statisztikában, ezek miatt, a számoknak a valósághoz való hozzárendelése fontos szerephez jut, más szóval kitüntetett helyet foglal el a mérés, mérési eszközök, a mérőeszközök validálása, ezek nagyrészt a társadalomkutatás módszertanához tartoznak. Alapvető statisztikai elemzés a leírás (vagy a leíró statisztika): az adatok célszerű numérikus és grafikus elrendezése és megjelenítése a sokaság egészére vonatkozó jellemzések céljából. A statisztikai következtetés alatt egyrészt a mintában észlelt eloszlásokból a sokaság egészére vonatkozó kijelentéseket értjük, másrészt a vizsgált sokaságban mért jelenségek egymás közti összefüggéseire tett kijelentéseket. Például, ha Kolozs megye lakosságából kiválasztott mintában egy adott betegség jelentkezésének átlagos kora 35 év, akkor kijelenthetjük, hogy a lakosság egészére vonatkozóan ez az kor átlagosan 35 év, de tehetünk olyan kijelentést is, hogy az átlagosan 34–36 év között debütál az illető betegség, vagy hogy ez 30–40 év közé tehető. Érezhető, hogy a fenti kijelentéseknek bizonyossági fokuk van, és az is érezhető – semmi más ismeret nélkül is –, hogy a 30–40 év közé tett betegség-jelentkezési kor nagyobb bizonyosságú, mint 34–36 év közé tett kijelentés. A matematikai statisztika módszert nyújt arra, hogy például a fentebbi “nagyobb bizonyosság” számszerint mekkora, tehát a bizonyossági fokoknak számszerű értéket ad, vagy a különböző megbizhatósági szintekhez megfelelő intervallumokat szolgáltat. Ugyanakkor a mintánkban előfordulhat az is, hogy a nők esetében később jelentkezik a vizsgált betegség (nagyobb életkorban, átlagosan), mint a férfiaknál, és ezt kijelenthetjük az egész lakosságra is. Nyilván itt is beszélhetünk kijelentésünk bizonyossági fokáról. 2.3. Statisztikai minta A vizsgálatba vett célsokaság általában igen sok elemű halmaz, vagy gazdaságilag-technikailag megoldhatatlan a pontos nagyságrend meghatározása és minden egyed megvizsgálása. Például a Szabadság napilap rendszeres olvasóinak a halmaza a korábban felsorolt értelmezések közül a negyedik alapján van jól meg meghatározva (körülírva), de minden egyedét ennek a halmaznak gyakorlatilag lehetetlen meghatározni (még Ausztráliában is vannak olvasói – interneten vagy megrendelés alapján). Ilyenkor a sokaság vizsgálata mintavétel alapján történik: egy kis elemszámú minta egyedeit megvizsgálva előbb a minta egészére teszünk kijelentéseket, majd ezeket – bizonyos hibahatárok között – az egész sokaságra kivetítjük. Ilyen helyzetben vannak azok is, akik a termékek minőségének megállapítására tesznek vizsgálatot: például a villanyégők minőségét elsősorban élettartamuk adja meg, de az élettartam mérése azt is jelenti, hogy az égő a vizsgálat után már használhatatlan. Így csak aránylag kisszámú mintán végzik el a vizsgálatot, a mintára érvényes eredményt az egészre kiterjesztik, mindezt jól meghatározott szabványok szerint. A statisztikai minta egyedeinek kiválasztása általában véletlenszerűen történik, nagyon fontos a mintavétel típusainak ismerete, mert ennek függvényében adhatók meg a következtetések bizonyossági foka. Egyes kutatások során arra kereshetünk választ, hogy egyfajta beavatkozások (foglalkozások a sokaság egyedeivel, közvetett úton ható, többnyire serkentő szándékú rendelkezések) fejtenek-e ki lemérhető hatást, van-e értelme ezeknek a beavatkozásoknak teljesebb körű alkalmazására. Ilyen esetben két mintát is választunk a célsokaságból. A kísérleti csoportot azok fogják alkotni, akikre kiterjed a beavatkozás, a nagyságrendben hasonló méretű és hasonló összetételű kontrollcsoportba pedig olyan egyedeket választunk, akik nem kerülnek kapcsolatba a beavatkozással. Ilyenkor a beavatkozás előtti állapotot is fel kell mérni (preteszt) mindkét csoportban, a kísérleti csoportban történő beavatkozás után pedig meg kell ismételni a felmérést mindkét csoportban (posztteszt), majd csak ezután jöhet a számszerű eredmények feldolgozása. 2.4. Statisztikai ismérvek A statisztikai vizsgálat során a sokaság egyedeinek közös tulajdonsága érdekel, ezeket ismérveknek nevezzük. Egyidőben a vizsgálat állhat egy vagy több ismérv megméréséből. Az ismérv mérése alatt az egyes egyedekre vonatkozó egyedi tulajdonság (attributum) lejegyzése értendő. Például a Szabadság olvasóiról (a mintába került egyedekről) lejegyezhetjük ezek nemét, életkorát, iskolai végzettségét, foglalkozását, mióta olvassa rendszerességgel az újságot, lakhelye városon van-e vagy falun, melyik a kedvenc rovata, mit szeretne olvasni még az újságban stb. Általában igen nagyszámú ismérv kerül megmérésre. Az ismérvek két fő csoportba sorolhatók: minőségi (kalitatív) és mennyiségi (kvantitatív) ismérvek, de elég gyakoriak az olyan ismérvek is, amelyek mindkét kategóriába beletartozhatnak. Azt szokták mondani, hogy a minőségi ismérv skálája (a felvehető attributumok listája) nominális, a mennyiségi ismérvé arányskála. Ez utóbbi alatt azt kell érteni, hogy ha egyik egyed attributuma egy olyan számszerű érték, amelyik kétszer nagyobb, mint egy másik egyedé, akkor az előző egyed esetében a valóságban is kétszer nagyobb, több az, amit mérünk. Ha egy személy 46 éves, egy másik 23, akkor az előző kétszer annyi időt élt le, mint a másik (46/23=2); vagy ha valakinek a jövedelme 1000 RON, akkor ez a személy háromszor is annyi terméket tud megvásárolni ebből, mint az, akinek csupán 333 RON. De már a 6-os kódú evangélikus felekezet nem kétszer akkora, mint a 3-sal jelölt római katolikus, a felekezet minőségi ismérv még akkor is, ha számokat használunk az attributumok kódolására. Tipikusan minőségi ismérv a személy neme (férfi vagy nő), iskolai végzettsége, foglalkozása, lakhelyének típusa (város vagy vidék), továbbá ilyenek a szeme színe, haja színe, családi állapota, van-e mezőgazdasági földje, haszonállata. Mennyiségi ismérvekre közismert példák: a személy életkora, testmagassága, testsúlya, gyerekeinek száma, jövedelme; iskolások esetében a tanulmányi eredmények (jegyek, félévi vagy évvégi átlagok); iskolák esetében a tanulók, a pedagódusok száma, a bukó diákok százalékos aránya; települések esetén a népesség száma, a nyugdíjasok aránya, a munkanélküliek aránya stb. Olyan ismérv, mint a kérdezett személy lakásának szobaszáma tekinthető mennyiségi és minőségi ismérvnek is: a négyszobás lakás körülbelül kétszer akkora, mint a kétszobás lakás, de a szobaszám lakásminőséget is jelent, a négyszobás lakás nagyobb konfortot jelent a benne lakóknak, mintha azok csak kétszobás lakásban laknának.
8
MEZEI ELEMÉR
A pszichológiában gyakran vizsgált jelenségek (agresszivítás, szorongás, értelmi képesség stb) mérésére speciális teszteket alkalmaznak, amelyek kérdések-kijelentések sorából áll, a válaszok kérdésenként 1-2-3 pontot érnek, ezek összeadásából adódik a gyerek által elért pontszám. Az így előállt skála például 24-től 72 pontig terjedhet (24 kérdés pontjainak összegzéséből) és nyilvánvalóan nem arányskála, mert a pontozás kérdésenként 0-1-2 is lehetne, de a –1-0-+1 is elképzelhető, tehát az éppen használt skálán az arányoknak (skálaértékek osztásából kapott eredménynek) nincs jelentése, viszont az elemzésekben mennyiségi ismérvnek tekinthetők. Az ismérvek csoportosíthatók más kritérium szerint is, így megkülönböztethetünk objektív és szubjektív ismérveket. Az előző kategóriába tartoznak mind az előbb felsorolt minőségi és mennyiségi ismérvek, a szubjektív ismérvek körébe tartoznak a vélemények, magatartásformák mérésére használt kérdések: kedvenc újságrovata, mit szeretne olvasni még az újságban, hogyan értékeli a megkérdezett egyén a saját életkörülményeit, jövedelmét, vagy a település tisztaságát, a közlekedési viszonyokat, az orvosi ellátást stb. Magatartást tudakolnak az ilyen kérdések is: elmegy-e szavazni; ha igen, kire szavazna; ha gyereke most végezné az általános iskolát, mit javasolna neki; ha holnap munkanélkülivé válna, mihez kezdene, egyetért-e az alábbi kijelentésekkel: …, stb. A statisztikai elemzések során jelentős helyet foglalnak el az úgynevezett alternatív (kétértékű, dichotóm) ismérvek, amelyek két változattal (attributummal) rendelkeznek (például férfi–nő, városlakó–falun élő, tandíjmentes–tandíjas diák, egészséges-beteg, látó-látássérült személy stb), ilyenekhez juhatunk bármely változó átalakításával (katolikus–protestáns, fiatal– idősebb, szegény–gazdag stb). A társadalomstatisztika elsősorban a népesség számát és összetételét (nem, kor szerint), a népesség számát és összetételét befolyásoló népesedési folyamatokat (születés, házasságkötés, válás, halálozás, vándorlás), a népesség térbeli elhelyezkedését (város–falu), továbbá a társadalmi rétegződés jelenségét (iskolai végzettség, foglalkozás, jövedelem, fogyasztási kiadások, lakáshelyzet, kulturális jellegű tevékenység, egészségi állapot) vizsgálja. Külön említést kell tennünk a társadalomban előforduló problematikus jelenségek vizsgálatáról (deviáns magatartás). Ugyanakkor jelentős helyet foglal el a gazdasági jelenségek vizsgálata is, utal erre az is, hogy például Magyarországon az első hivatalos statisztikai szolgálat kezdetben a gazdasági minisztérium alosztályaként működött. 2.5. A statisztikai adatgyűjtés Már a XVIII. század végén megfogalmazódott az adatgyűjtés szolgálatában álló központi statisztikai intézménynek a szükségszerűsége (1791, Antoine Laurent Lavoisier). Magyarországon 1867-ben, a kiegyezés után közvetlenül, a földművelés-, ipar- és kereskedelemügyi minisztérium statisztikai osztályaként működik ilyen intézmény, majd 1871-ben létrejött az Országos magyar királyi Statisztikai Hivatal (mai neve Központi Statisztikai Hivatal, internetes honlapja www.ksh.hu). Romániában 1909-től 1951-ig Institutul Central de Statistică a neve az országos hivatalnak, majd Direcţia Centrală de Statistică, ezt követően Comisia Naţională de Statistică, 2000-ben az új kormány új nevet adott az intézménynek: Istitutul Naţional de Statistică şi Studii Economice (internetes honlapja www.insse.ro), de mára már csak az Istitutul Naţional de Statistică a használt megnevezés. A központi szervnek alárendelt helyi hivatalok megnevezése gyakran változik Romániában, nemrég Oficiul Judeţean de Statistică Cluj névvel illették például a Kolozs megyeit, de ma a fiókhivatalnak a cégtáblája Institutul Naţional de Statistică. Direcţia regională Cluj (a név alapján akár több megye is idetartozhatna, a gazdasági régiók működőképesebbé válásával akár 8-ra is csökkenhetne a fiókintézmények száma). A társadalomstatisztikai adatokat különböző forrásokból és különböző módszerekkel gyűjtik össze. Legismertebb adatforrások a népszámlálások. Magyarországon az első átfogó népszámlálást (és egyben Erdélyben is) 1784–87 között tartották. Ezt a népszámlálást II. József császár rendelte el, a teljes népességre kiterjedt (a nemesekre és a papokra is) és a teljes akkori Habsburg Monarchiára. Az osztrák örökös tartományokban 1784-ben, Magyarországon 1785-ben, Erdélyben 1786-ban hajtották végre az összeírást, 1786-ban és 1787-ben a települések népmozgalmi és vándormozgalmi eredményeinek felhasználásával az egész birodalomra egységesítették a népességszámot (utólagos vonatkoztatási időpontosítás). Erre a népszámlálásra jelenleg a legtöbb szerző az 1784-87-es jelzővel utal, de előfordulahat az egyetlen évszám használata is. A II. József-féle népszámlálási rendeletek arról is intézkedtek, hogy a cenzusokat 6 évente kell megtartani, de a császár korai halála utáni helyzetben a nemesség elérte, hogy rájuk ne vonatkozzon az összeírás (akkortájt a megszámlálás szónak a jelentése az alattvalók megszámlálása volt), sőt a török háborúk is hátráltatták az újabb cenzusokat. Így több mint egy fél évszázadon át nem tartottak teljes körű népességösszeírást a birodalomban (így Erdélyben sem), az időközben tartott összeírásoknak megkülönböztető megnevezése a Conscriptio-k vagy számbavételek. Ezek sora Magyarországon 1804-től 1848ig terjed, de a vármegyék nem egyformán hajtották ezeket végre. A magyar szabadságharc leverése után az osztrák hatóságok egyik első dolga egy népszámlálás végrehajtása volt. Ennek az 1850-es cenzusnak is, és az 1784-87-esnek is, elsősőrban katonai és adózási céljai voltak, pontosabban a hatalom azt akarta felmérni, hogy mekkora a hadba fogható férfiak száma, mekkora adóból származó jövedelemre számíthat. A következő népszámlálások már elsősorban a népesség összetételének megismerésére törekszenek (nemek, életkor, családi állapot, foglalkozás, felekezeti hovatartozás, anyanyelv, írni-olvasni tudás), a lakásviszonyokat kutatják. Ezek időpontjai 1857, 1869, 1880, 1890, 1900, 1910. Az 1872-ben Szentpéterváron tartott 8. nemzetközi statisztikai kongresszus ajánlásai közt szerepelt a népszámlálások eszmei időpontjának (vonatkoztatási momentumának) egységesen az évtized végére helyezése, amit a magyar statisztikai hivatal azonnal átvett és gyakorlatba is ültetett. Mivel a vonatkoztatási időpont a zérósra végződő esztendő december 31-éjének utolsó pillanata, a végrehajtás már a következő évben történik, így előfordulhat, hogy egyazon népszámlálásra két évszámmal is utalnak, de a kísérő szöveg egyértelművé teszi a jelentést (például: A magyar szent korona országainak 1880. évi népszámlálása vagy A magyar szent korona országaiban 1881-ben végrehajtott népszámlálás eredményei). Az első világháború után kialakult politikai helyzet miatt az Erdélyre vonatkozó népszámlálási adatokat a romániai népszámlálások eredményeit bemutató kiadványokban kell keresni, kivételt csak Észak-Erdély képez az 1941-ben a magyar
BEVEZETÉS A STATISZTIKÁBA
9
hatóságok által végrehajtott népszámlálásával. Az első világháború előtt a román hatóságok két népszámlálást tartottak az akkori országben: 1899-ben és 1912-ben. Az 1859–60-as népszámlálást a két fejedelemségben ugyan egyidejűleg tartották, de különbözött a vizsgált ismérvek rendszere és a közzétett adatok is nagyon hiányosak. A modern román állam által tartott népszámlálások időpontjai: 1930, 1941, 1948, 1956, 1966, 1977, 1992 és 2002. A nemzetközi gyakorlattal ellentétben ezen cenzusok eszmei időpontja sohasem volt december 31-én, ehhez legközelebb az 1930-as cenzus december 29-éje van, gyakori viszont a januári, februári, márciusi időpont: 1912. december 19, 1948. január 25, 1956. február 21, 1966. március 15, 1977. január 5, 1992. január 7, 2002. március 18. A statisztikai hivatalok feladata a népszámlálások végrehajtása (előkészítés, felügyelet, ellenőrzés, feldolgozás, publikálás) mellett az éves adatok gyűjtése is, ez alatt az értendő, hogy a társadalom minden területéről összegyűjtse, rendszerezze, feldolgozza és közzétegye a kalendarisztikus évek alatt zajló jelenségek éves mutatóit, a népszámlálás szolgáltatta demográfiai adatokat tovább vezesse (a következő népszámlálásig, amikor is a továbbvezetett számok helyébe az új cenzus adatai kerülnek). Az éves adatokat statisztikai évkönyvekben teszik közzé, például a 2004-ben kiadott romániai statisztikai évkönyv tartalmazza a 2003-es évre vonatkozó (és egyes mutatók esetében visszamenőleg) a földrajzi és környezettel kapcsolatos adatokat (hőmérséklet, csapadék stb.), a népesség összetételének és a népmozgalomnak éves adatait, a foglalkoztatottak, munkanélküliek átlagos számát, munkabalesetek számát, fizetések, kiadások és fogyasztások éves átlagos adatait, egészségügyi, tanügyi, kutatásbeli mutatókat (intézmények, alkalmazottak száma, betegek, orvosok, iskolások száma), továbbá számos adat található a kultúra, sport területéről, jelentős részt tesznek ki a nemzetközi vonatkozású adatok is. Fontos ezzel kapcsolatban megjegyezni, hogy a statisztikai évkönyben közzétett népességszámra és összetételre vonatkozó adatok különbözhetnek (és szinte mindig eltérnek egy kicsit) az ugyanabban az évben végrehajtott népszámlálás megfelelő adataitól. Például az 1992. évi január 7-i népszámlálás Romániában 21.810.035 lakost talált, a statisztikai évkönyvben ugyanabban az évben a népesség száma 22.788.969 (ez utóbbi az úgynevezett évközepi népesség vagy a július 1-i népesség), a 2002. március 18-ai megszámlált népesség száma 21.680.974, viszont az évközepi adat 21.794.793. Itt kell megemlíteni azt is, hogy a statisztikai évkönyvekben szereplő évközepi népességadatokat egy idősorba fogva és ezt tanulmányozva téves következtetéseket is le lehet vonni. Például az utóbbi években a népesség számának alakulása Romániában a következőképpen mutatható be táblás és grafikus eszközökkel: 1. ábra és tábla. Románia évközepi népességszáma 1990-2003 között Év 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
Népességszám 23 206 720 23 185 084 22 788 969 22 755 260 22 730 622 22 680 951 22 607 620 22 545 925 22 502 803 22 458 022 22 435 205 22 408 393 21 794 793 21 733 556
23500000 23000000 22500000 22000000 21500000 21000000 1990
1992
1994
1996
1998
2000
2002
Forrás: Anuarul Statistic al României, 2004 (CD)
Az ábra szerint is háromnegyedmilliónyival csökkent 1990-től 1999-ig az ország népessége (pontosabban 23206720 – 22458022 = 748698), de valójában közel négyszázezer (396115, az 1991-es és 1992-es évközepi szám különbsége)
10
MEZEI ELEMÉR
az 1977–1992 közötti illegális emigrálásból származhat. Az előző, az 1977-es népszámlálás adatainak továbbvezetése 1992-ben megszűnik, innen kezdve az 1992-es cenzus adatai alapján számítják az évközepi népességszámot, ezt nem tudván egy újságíró pár éve szenzációs hírként adta elő azt, hogy Románia népessége a 90’-es években (1990-99 között) több mint 700 ezerrel csökkent és próbált ennek okaira rájönni, de a népesség továbbvezetéséről, mint hiányt adó tényezőről nem tudott (a fekete macska a sötét szobában, ami nincs is ott!). Ilyen változás észlelhető 2002-ben is, itt még a jogi népességről a lakó népességre való áttérés is okoz különbséget. A fentiekből is a népszámlálások szükségszerűségét látjuk alátámasztva. A lakosság összetételét iskolázottság, foglalkozás, anyanyelv, nemzetiség, felekezet szerint csak a népszámlálások adatai között lehet fellelni, az éves népmozgalom adatai alapján csupán a népesség számát, nemenkénti és kor szerinti eloszlását lehet továbbvezetni. Ezért nincs a statisztikai évkönyvben adat a népesség foglalkozására vonatkozóan, de van azonban számadat a foglalkoztatottak átlagos számáról (a gazdaság területéről begyűjtött adatok alapján), az átlagos jövedelmekről (az adóhivatalok adataiból). Meg kell jegyezni még, hogy a statisztikai hivatal begyűjtötte adatok a de jure állapotot tükrözik, azaz a hivatalos, jogilag fennálló állapotokat írják le, a különböző hivatalokba soha be nem kerülő adatokat közölni sem lehet, meglehet sokan tudnak ezek létezéséről, sőt még nagyságrendjéről is (például feketemunka, feketegazdaság, csuszópénz, hálapénz, illegális emigráció, állatok száma – főleg magángazdaságokban –, prostitució stb.). Például a prostitució legalizálásával el lehetne érni ennek a jelenségnek pontosabb megismerését: foglalkoztatott személyek számát, korát, iskolázottságát, a jövedelmek nagyságrendjét, ezek változását időben stb. A statisztikai hivatal feladata az is, hogy kellő pontossággal definiálja azokat az ismérveket, amelyekről adatokat gyűjt és feldolgozott formában rendszeresen közzé is tesz. Ezen értelmezéseket feltétlenül meg kell szereznie annak, aki olyan jelenség kutatásába kezd, amelyhez háttérinformációt a statisztikai hivataltól kíván beszerezni. Íme a magyar statisztikai hivatal által használt ismérvek és kategóriáik közül néhánynak az az értelmezése, ahogyan azt a hivatal ezek használatát ajánlja. Gazdaságilag aktív népesség: a foglalkoztatottak és a regisztrált munkanélküliek együttes száma. Foglalkoztatott: a keresőtevékenységet folytató, keresettel, jövedelemmel rendelkező, társas vagy egyéni vállalkozásoknál, intézményeknél főállású munkaviszony keretében alkalmazásban álló, a dolgozó szövetkezeti tag, a társas vállalkozás dolgozó tagja, az egyéni vállalkozó és segítő családtagja, az alkalmi munkás, a napszámos és a foglalkoztatott nyugdíjas. A gyesen és a gyeden lévők a nemzetközi ajánlásoknak megfelelően nem szerepelnek a foglalkoztatottak között. Foglalkoztatott nyugdíjas: a nyugellátása szüneteltetése nélkül valamely munkáltatónál munkaviszonyban álló nyugdíjas. Regisztrált munkanélküli: Az állapotadatok – ahol más megjegyzés nincs – dátuma a népességnél január 1, az intézményi statisztikából származó adatoknál előző év december 31. Regisztrált (nyilvántartott) munkanélküli: az Országos Munkaügyi Kutató és Módszertani Központnál (OMKMK) nyilvántartott álláskeresők közül az, aki munkaviszonnyal nem rendelkezik, nem nyugdíjas, nem tanuló; foglalkoztatást elősegítő támogatásban (átképzés, közhasznú foglalkoztatás stb.) nem részesül; munkát, állást vagy önálló foglalkozást keres, és egy adódó állás elfogadására rendelkezésre áll. A zárólétszám tartalmazza a munkanélküli-ellátásban részesülteket (azokat a jogosultakat is beleértve, akiknél a járadék, a segély folyósítása a zárónapig nem történt meg), azokat a tárgyhóban nyilvántartásba vett munkanélkülieket, akik munkanélküli-ellátásra nem jogosultak (mert nem feleltek meg a törvényben előírt feltételeknek, vagy a járadékra, segélyre való jogosultságuk időtartamát már kimerítették), és a tárgyhónapban megjelentek a közvetítő irodában, illetőleg a munkanélküli-járadék kimerítését követően munkanélküliek jövedelempótló támogatására jogosultakat. Regisztrált munkanélküliségi ráta: a regisztrált munkanélküliek az előző év január 1-jei gazdaságilag aktív népesség százalékában. 2.6. Mérési problémák a társadalomtudományokban Ahhoz, hogy egy társadalomtudományi kutatás keretében statisztikai elemzést végezzünk olyan adatokra van szükségünk, amelyekkel számolni tudunk, mennyiségi jellegű összesítéseket végezhetünk. A társadalomkutatás általános módszertana segítségével megtanuljuk azt, hogyan fogalmazzunk meg egy érdekes kérdést úgy, hogy az kutatási probléma legyen, továbbá a problémára hogyan fogalmazhatunk meg hipotéziseket. A hipotéziseket konceptualizálni kell, ezt követően a kapott dimenziókat operacionalizáljuk. „A kutatási probléma sem nem több, sem nem kevesebb, mint az a bizonyos kérdés vagy kérdéscsoport, amelyre a kutatásnak kell választ adnia” (Nowak, 1981, 19 p.). Példaképp említhetünk egy napjainkban gyakran előtérbe kerülő társadalmi problémát: a roma lakosság beilleszkedése az őket befogadó társadalmakba. Erre vonatkozóan különböző hipotéziseket sorolhatnánk fel: (1) intellektuális képesség tekintetében nincs különbség a romák és a többi etnikum tagjai közt; (2) ez a beilleszkedés időben és térben különbözőképpen zajlott le és zajlik napjainkban is; (3) a kihangsúlyozottan jelentkező eltérések azért ekkora nagyok, mert legalább ennyire eltérőek a társadalmi körülmények stb. A hipotézis konceptualizálása alatt az értendő, hogy a használt fogalmaknak milyen mérhető dimenziói vannak. Tisztázni kell azt, hogy például az idő szó periódust fed (második világháború előtt, 1945–1964, 1965–1989, 1990 utáni), a tér földrajzi távolságot jelent-e vagy csak országhatárt, mit kell érteni az intellektuális képesség és társadalmi körülmények szavak alatt. Az operacionalizálás fázisa az, amely meghatározza, hogyan rögzíthetjük az adatfelvétel során a vizsgált probléma különböző jellemzőit, attributumait. A gyakorlatban általában kérdőíves felméréssel gyűjtjük adatainkat, ilyenkor a kérdőív kérdéseinek megfogalmazása képezi az operacionalizálás folyamatát. A kérdésekkel, az operációs fogalmak segítségével próbáljuk megragadni, mérni a társadalmi problémák egyes aspektusait. Egy társadalmi attributumot azonban többféleképpen is
BEVEZETÉS A STATISZTIKÁBA
11
operacionalizálhatunk, ezért a mérés eredménye némiképp eltérő lehet, például a szegénység fogalmának esetében: mérhető a család ingó és ingatlan vagyona egy adott pillanatban (lakás, termőföld, más földterület, haszonállatok, tartós fogyasztási cikkek), a család fogyasztása egy adott időtartam alatt (anyagi: élelem, ruha; szellemi: könyv, iskola stb.); így aztán többféle kép is kialakulhat a vizsgált sokaságról. Az első probléma abból adódik, hogy a társadalomtudományi mérések az illető attributum egy adott részét tudják megragadni (szerencsés esetben jelentős részét), másrészt a mérési mód sajátosságából adódóan megragadunk olyasmit is, amit nem is akartunk mérni. Ezt nevezzük mérési hibának3. A mérések egy másik problematikája abból származik, hogy a mérési skálák nem rendelkeznek annyi fokozattal, értékkel, mint amennyi formában a mért tulajdonság megjelenik a valóságban. Például a népszámlálás során mért nemzetiségi hovatartozás ismérv skálája nem tartalmaz ilyen megnevezéseket, mint erdélyi, transzilván, magyar–román, magyarcigány, románcigány stb. Vagy ha magatartást, attitűdöt vizsgálunk, a válaszok az idevágó kérdésekre csak néhány lehetőséget merítenek ki (a felgyakoribbnak vélt válaszokat), majd utolsó helyen az “Egyéb, éspedig: ……………….” szokott szerepelni. Az ívek feldolgozásakor látható csak, hogy mennyi más válaszlehetőség van, igaz ugyan, hogy ezek gyakorisága nem nagy. Röviden csak ennyit a mérés problematikájáról, erről bővebbet talál az olvasó a különböző szakágak kutatási módszertanáról szóló írásokban.
3. Az adatmátrix Az összegyűjtött, kódolt és rendszerezett adatok sokasága képezi a statisztikai elemzések tárgyát, az adatbázist, más nevén az adatmátrixot. Az adatmátrix sorai a sokaság (vagy minta) eseteinek felelnek meg, tehát egy adatmátrix annyi sort tartalmaz, ahány egyed alkotja a vizsgált sokaságot. A soroknak a neve eset (angolul case). Az oszlopok száma legalább 1 (az eset azonosító kódja), az adatmátrix létrehozásakor annyi további oszlop van benne, ahány ismérv került megmérésre, kódolásra és bevezetésre. Az oszlopok neve változó (angolul variable). Adatbázist több programban is készíthetünk. A legegyszerűbben az Excel-ben készíthetjük el, mert ez a program a legelérhetőbb. A program indítása után egy üres rács jelenik meg a képernyőn, ennek rovataiba azonnal írhatjuk adatainkat. Az első sorba írjuk be a változók nevét, az első oszlop legyen mindig a kérdőív (személy, egység stb.) azonosítója (név, kódszám, sorszám), a többi rekeszekbe pedig írjuk be a megfelelő kérdőívből (adatlapról) a változónak megfelelő értéket. Példázzuk az adatmátrixot egy agresszivitás témájú kutatás eredményeivel (fiktív adatok). Elsőre nézzük meg a szöveges anyagban (tanulmányban) megjeleníthető formáját az adatmátrixnak (2. tábla). Kísérleti csoport SorTestvérek Nem szám száma 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
Fiú Fiú Lány Fiú Lány Lány Lány Fiú Fiú Lány Fiú Fiú Lány Lány
2 1 2 3 2 1 3 0 2 0 1 5 0 4
Kor 14 15 18 17 13 15 15 17 18 13 18 13 17 17
2. tábla. A kísérleti- és kontroll-csoport főbb adatai Kontroll csoport Sor- Nem Testvérek Agresszivitásmutató preteszt posztteszt 15 12 16 11 10 9 14 13 26 20 11 9 18 15 18 14 20 15 13 11 19 13 22 18 23 18 22 17
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.
Lány Lány Fiú Fiú Fiú Fiú Lány Fiú Lány Fiú Lány Fiú Fiú Lány Lány
2 1 1 1 3 0 2 4 3 2 5 2 1 0 1
Kor
Agresszivitásmutató
14 13 14 13 18 18 16 15 17 17 18 13 16 18 15
preteszt posztteszt 19 17 18 15 14 14 19 15 18 16 15 14 24 21 23 19 17 15 21 18 14 13 12 11 20 19 19 16 11 10
Ezeket az adatokat a szövegszerkesztőből kijelöléssel átvihetjük az Excel programba vagy bevihetjük a statisztikai feldolgozásra szolgáló Spss programba is. Míg az Excel rovatai egymástól függetlenül különböző tartalommal tölthetők fel (szöveg, számadat), addig az Spss-ben az oszlopok rovatai kötelezően ugyanolyan típúsú adatokat tartalmaznak, ez utóbbiban nem lehet rovatokat sem összevonni. Az Excel-ben ugyanazon füzetlapon megjeleníthetjük a feldolgozás eredményeit is, az Spss-ben viszont a rovatok tartalmával végzett műveletek eredményeit egy új, eredménybeszámoló ablakban (Output Navigator) olvashatjuk, táblás anyag formájában. 3 A technikai mérések esetében is van hasonló helyzet: például a mérőszalagon leolvasott érték legnagyobb mértékben távolságfüggő, de kis mértékben magán viseli a hőmérséklet okozta hosszváltozást is. Ha például összehasonlítunk két távolságot a mérésből származó hosszértékük által, akkor ezek értékkülönbsége nem tisztán a hosszkülönbséget tükrözi, hanem a mérés idején létező hőmérsékletkülönbséget is.
12
MEZEI ELEMÉR
Az Excel használata eléggé ismert ahhoz, hogy itt ne térjek ki részletesebben rá, viszont az Spss-t középiskolában nem ismertetik, szűk felhasználói köre a tudományos életből kerül ki, így bemutatásának jó helye ez a tantárgy. Szűk felhasználó körének tudható be az, hogy az Spss program méregdrága. 2. ábra. Az adatmátrix a) Excel-ben
b) Spss-ben
Az Spss védett márkajegy
BEVEZETÉS A STATISZTIKÁBA
13
Az Spss-ben egy meglévő adatállomány (system file) betöltése hasonlóan történik, mint az Excel-ben, a mentési műveletek is teljesen hasonlóak. Betölthető Excel-file is, viszont itt meg kell említeni azt, hogy az Spss-ben csak egy rács alkothatja az adatállományt, így a több füzetlapos Excel-file betöltésekor egy üzenettel szembesülünk, miszerint nem tölthető be Excel 5.0 vagy újabb változatú file, ajánlásként az áll, hogy használjunk konverterprogramot vagy előbb mentsük el Excel 4.0es formátumba:
Az Spss védett márkajegy
De fogjunk hozzá és készítsük el adatállományunkat az Spss-ben. A program indítása után üres rács található az adatszerkesztőben (Data Editor), a rovatokba csak numérikus formájú adatok írhatók és ezek megjelenítése 2 tizedesjeggyel történik. Fontos tudni azt, hogy a képernyőn látható forma nem a tárolt adat formátuma, tárolva igen sok tizedesjegyűek a számadatok, az adatszerkesztő rovataiban ebből egészre kerekített értéket vagy adott számú tizedesjegyre kerekített értéket látunk. Az aktív rovat tartalmának pontosabb értékét láthatjuk a program menűje alatti sávban:
Az Spss védett márkajegy
A konkrét adatbevezetés előtt formázzuk meg oszlopainkat (definiáljuk azokat), ennek érdekében, sorra, kattintsunk duplát az egérrel az oszlopfőre (szürke mező var tartalommal), amire megjelenik a következő ablak (az újabb változatokban egy rácsszerű táblázattal allunk szemben, egy-egy változó jellemzői sorba vannak szedve):
Az Spss védett márkajegy 4
Elsőre a változó nevét cseréljük ki , a tartalomnak megfelelően legyen a neve ssz. Aztán sorra kattintgatva a Change Settings gombjaira, a Type… nevűnél hagyjuk meg a Numeric típust a 8 karakterhosszal5, viszont a tizedesjegyek számát vegyük 0-nak (az egész számnak megfelelően), majd a Labels…-nél kinyíló ablakban írjuk be a Variable Label után egy leírását annak, amit az illető változó tartalmaz6:
4 A változó neve betűvel kell kezdődjön, további karakterek lehetnek betűk, számjegyek, aláhúzás jele és még néhány speciális karakter, ezen utóbbiak használatát kerüljük, ezért nem is sorolom fel itt őket, annyit azonban tanácsolok, hogy ékezetes betűket nem szerencsés használni. A változó nevének maximális hossza 8 karakter. 5 A karakterhossz nem kritikus, a numérikus változó értékét akkor is pontosan rögzíti a program, ha az itt megadott hossz rövidnek bizonyulna, a túlméretezés okozta fájlméret-növekedés sem probléma már ma. Viszont a szöveges (String) változó hosszánál legyünk tekintettel a leghosszabb rögzítendő szöveg hosszára, mert ennél a típusnál csak annyi karakter kerül rögzítésre (memóriába), amennyit hosszként megadtunk. 6 A cimke (Label) tartalmazhat bármilyen karaktert, de itt sem ajánlom az ékezetes betűk használatát. Ajánlom továbbá azt is, hogy a cimkéket kis betűkkel írják, a rövidítések esetében használjuk a nagy betűket, a lényeget pedig a cimke elejére fogalmazni.
14
MEZEI ELEMÉR
Az Spss védett márkajegy
A következő változó is numérikus lesz annak ellenére, hogy egy alternatív minőségi ismérv: a kísérleti vagy a kontrollcsoportba tartozásáé és egész számként rögzítjük ezt: az 1 jelentése a kísérleti csoport tagja, a 2 pedig a kontrollcsoportba tartozásnak felel meg7, és habár a neve (cs) elég beszédes, leíró cimkéjében adjuk meg részletesen, pontosan, de azért minél rövidebb formában azt, amit a változó tartalmaz, a lényeges részek a leírás elejére kerüljenek:
Az Spss védett márkajegy
Itt már aktívak a Value Labels ablakai és feltétlenül írjuk be az 1-es és 2-es kódok jelentését, rendre a Value és Value Label mezőkbe beírva a kódot és jelentését, majd az Add gombbal érvényesíteni a párost:
Az Spss védett márkajegy
Ha számítani kell adathiányra (itt most tárgytalan), akkor annak kódját (egy nagyon nagy számot: 9, vagy 99, 999, vagy egy negatívat: –1) és leírását (például: Adathiány, Nincs adat, Nincs válasz, Nem tudja stb) is írjuk be itt. A Missing Values… gombot is akkor használjuk, ha ténylegesen vannak olyan számkódok az állományban, amelyek nem válasz mennyiség jelentésűek vagy amelyeket ki akarjuk iktatni az elemzésből. A Column Format… gomb után megjelenő dialógusablak az adatszerkesztőben látható oszlopszélesség beállítására ad lehetőséget (ezt gyorsabban és egyszerűbben megtehetjük, úgyanúgy, mint az Excel-ben, megfogva az egérmutatóval a választóvonalat és jobbra-balra mozgatva addig, amíg megfelelőnek nem találjuk az oszlop szélességét). Itt állítható be továbbá a rovattartalom igazítása, ha nem találjuk megfelelőnek azt, amit a program automatikusan beállít (a numérikusak jobbra igazítottak, a szövegesek pedig balra). A többi változó esetében is hasonlóan járunk el, majd elkezdjük beírni a 2. táblázatban található adatokat, végül a 2.b) ábrán is látható kép adódik. Hozzunk létre új változókat, amelyek azt fogják tartalmazni, hogy a gyerek mennyire agresszív a pretesztben, illetve a poszttesztben: a legfeljebb 14-es agresszivításmutatóval rendelkező gyerek kevésbé agresszív, a 15-19 intervalumba a közepes agresszivitás jellemző, a legalább 20-as mutató már túl agresszív gyerekre utal. E változók létrehozására több lehetőség is van, 7
A karakterhossz megadásánál meghagyhatjuk a 8-at.
BEVEZETÉS A STATISZTIKÁBA
15
de mindenképpen azt ajánlom, hogy a szöveges (String) típusra ne gondoljunk, numérikus kódokat használjunk a három típus rögzítésére (1, 2 és 3). Az első változót úgy hozzuk létre, amint ahogy korábban tettük (névadás, típus és méret megadása, cimkézés), feltétlenül megadva a kódjelentéseket is:
Az Spss védett márkajegy
Ezután jelöljük meg az egérmutatóval az oszlopot, az Edit menűpontban kattintsunk a Copy-ra (ezt megteszi egyből a Ctrl+C használata), majd jelöljük ki a következő oszlopot, Edit/Paste (vagy Ctrl+V) és ekkor csak az új változónak kell új nevet adni (tip1) a program var00002 adta név helyett, a változót leíró cimkében a pre helyett poszt-tot írni, de a többi paraméter megegyezik a tip0 nevű változóéval. A két változó leírását kezdhetjük a nevek megadásával is, majd egy utasításszerkesztő ablakban (Syntax Editor) megadjuk a paramétereket a következőképpen (a kövér betűkkel írottak kulcsszavak vagy kódok, kötelezően úgy írandók, ahogy itt a szövegben megjelennek, de az ablakban mindent írjunk egyszerűen vékony betűkkel): for var var val 2
tip0 tip1 (f8.0). lab tip0 'Agressz.tipus pretesztben'. lab tip1 'Agressz.tipus poszttesztben'. lab tip0 tip1 1 'Kevesbe (<15)' 'Kozepesen (15-19)' 3 'Tulzottan (20+)'.
(A rövid utasításnevek hosszabb parancsszavak kezdőbetűi: FORMAT, VARIABLE LABELS.) Az így megszerkesztett utasításokat kijelöljük, majd a menűsor alatti gomb lenyomásával, vagy a Ctrl+R kombinációval futtatjuk (a kijelölés nem feltétlenül kell kiterjedjen az összes karakterre, a végrehajtandó utasítás egy része is elég, ha beleesik a kijelölt szövegbe):
Az Spss védett márkajegy
Az utasítások egyesével is végrehajthatók közvetlenül a végét jelentő pont után a gomb vagy a Ctrl+R használatával, kijelölni nem kell, az az utasítás hajtódik végre, amelyiken a kurzor áll. Ha kijelölünk, akkor már az egér a kezünkben van, ezért gyorsabb a gomb használata, ha pedig az utasítás beírása után közvetlenül futtatni is akarjuk azt, akkor a Ctrl+R kombináció a “kéznél levő”. A lépésenkénti végrehajtásnak az előnye az, hogy az esetleges szerkesztési hibát azonnal jelzi nekünk a program és rögtön ki is javíthatjuk. Ha több hasonló utasítás van (itt a var lab-bal kezdődőek), akkor az első beírása és futtatása után (tehát szerkesztési hiba nélküli) kijelöljük azt, a szövegszerkesztésben már ismert Copy–Paste beszúrással annyi új sort hozunk létre, ahány kell, majd ezekben elvégezzük a módosításokat, kijelöljük őket és futtatjuk.
16
MEZEI ELEMÉR
Az új változók adatfeltöltése történhet manuálisan (ha kevés az esetek száma) és a program által. A manuális bevitel mindenki számára világos: az első gyerek a kísérleti csoportból a pretesztben 15-ös agressziómutatója közepes (kód=2), a poszttesztbeli 12-es már kicsi (kód=1) stb. A program általi kódolás többféleképpen is kiváltható. Az egyszerűbb esetekben, amikor az eredeti értékek nagyságából direkt következtethetünk az új kódokra, akkor a RECODE utasítás az ajánlott és a Syntax Editor: comp tip0 = preag. comp tip1 = posag. recode tip0 tip1 (9 thru 14 = 1) (15 thru 19 = 2) (20 thru 26 = 3). Az utasítások végrehajtása a fentiek esetén csak az “adminisztratív” intézkedések meghozatalából áll, a rovatok tartalma akkor módosul a leírtak figyelembevételével, ha olyan utasítást kérünk végrehajtani, amelyik számol velük, vagy ha egyszerűen erre kérjük: exe. Amennyiben a Cimke mutatása billentyű ( ) nincs aktiválva (benyomva), a rovatok a számkódokat tartalmazzák:
Az Spss védett márkajegy
Ha a cimkegomb be van nyomva ( rovatokban elfér:
), a kódok helyett a kódleírások olvashatók, amennyi a viszonylag keskeny
Az Spss védett márkajegy
A számítógépes program adta lehetőségek közül nézzünk meg kettőt, olyan utasításokat, melyek végrehajtása után az eredmény táblás anyag, és ezt főleg azért, hogy felsoroljuk a táblázatok részeit, ezek megnevezéseit, tartalmát és gyakoroljuk a táblázat tartalmának helyes kiolvasását.
BEVEZETÉS A STATISZTIKÁBA
17
Az első utasítás a különböző falutípusok (kicsi, közepes és nagyobb) előfordulási gyakoriságát adja meg (FREQUENCIES): fre tip0 tip1. Megjegyzendő, hogy az utasítások rövid alakban olyan táblázatokat eredményeznek, amelyek a legáltalánosabban használt rovatokat tartalmazzák, külön kérésre (az utasításban: opció, jele /) más tartalmat is lekérhetünk. Most egyelőre nem tárgyaljuk az utasítások teljes formáját, még csak a fontosabb opciók említésére sem itt kerül sor. A gyakoriságot kérő utasítás eredményét az Output Navigator nevű ablakban olvashatjuk, sok kísérő adattal, a táblázatok nyers formátumában. Magyarázat helyett legyen itt az egyik azonnali eredmény, a munkaváltozók statisztikája: Statistics
N Valid TIP0 Agressz.tipus pretesztben TIP1 Agressz.tipus poszttesztben
Missing 29
0
29
0
Az Spss védett márkajegy
Egy kis formaigazítás nem ártana a táblázatnak, amely igazítást úgy érhetjük el, hogy az Output Navigator-ban (és nem a Word-ben az átvitt táblázatban) duplát kattintunk az egérrel az illető táblázatra, majd a választóvonalak húzogatásával elérhetjük a kívánt oszlopszélességet, de a rovatok tartalmán is módosíthatunk (most érthető, miért ajánlottam rövid, tömör változócimkéket): Statistics
N Valid TIP0 Agressz.tipus pretesztben TIP1 Agressz.tipus poszttesztben
29 29
Missing 0 0
Az Spss védett márkajegy
A tartalom itt csupán annyi, hogy mindkét változó esetében minden érték érvényes válaszként tekintendő. A gyakoriságot bemutató táblázatok közül az első kissé rendbehozott formában a következőképpen néz ki (a továbbiakban nem igyekszem a rovattartalmat módosítani, magyarra fordítani, az ajánlatom is az, hogy az Output Navigator ablakban megjelenő táblázatokat munkatáblázatoknak kell tekinteni, a tanulmány szövegébe ne Copy Objects–Paste útján vigyék át – ahogy én itt szemléltetés céljából teszem –, hanem a szövegszerkesztő táblázatkészítőjével hozzák létre a – lehetőleg összevont – táblázatokat): TIP0 Agressz.tipus pretesztben
Valid
Total
1 Kevesbe (<15) 2 Kozepesen (15-19) 3 Tulzottan (20+) Total
Frequency 8 12 9 29 29
Percent 27.6 41.4 31.0 100.0 100.0
Valid Percent 27.6 41.4 31.0 100.0
Cumulative Percent 27.6 69.0 100.0
Az Spss védett márkajegy
Az olvasható ki a táblázat Frequency nevű oszlopából, hogy a pretesztben a 29 gyerek (kísérleti és kontrollcsoport együtt) agresszivítása a következőképpen oszlik el: 8 gyerek kevésbé agresszív és ők a sokaság 27,6%-át teszik ki, kicsivel több mint negyedét; aztán 12 gyerek agresszivítása közepesnek tekinthető (41,4% az összesből) és végül 9-nek magas az agresszivítása 31,0%). Itt a Percent és a Valid Percent nevű oszlopok tartalma megegyezik, érvénytelen adat hiányában mindkét esetben az egész (a 100%) ugyanaz a 29 személy, de szokjuk meg, hogy a Valid Percent oszlop tartalmát használjuk fel mindig. Az utolsó oszlopban az érvényes százalékos eloszlások kumulált (összegyűjtött) értékeit találjuk, ezek értelmezése a következőképpen történik: a kevésbé és közepesen agresszív gyerekek együtt 69%-ot tesznek ki a sokaságból (itt az első – 27,6% – és az utolsó – 100% – nem sok jelentőséggel bír). Későbbiekben kerül bemutatásra olyan helyzet, ahol ezen oszlop tartalma már nagyobb jelentőségű. A következőkben a két Output Navigator-beli gyakoriságtáblázat lényeges adatait egy táblázatba szedve találják, a szövegszerkesztő táblázatkészítőjét használva erre a célra.
18
MEZEI ELEMÉR 3. tábla. A vizsgálatba vett gyerekek eloszlása agresszivítás szerint a pretesztben és a poszttesztben A mérés ideje Agresszivítás
Agresszivításmutató
preteszt
posztteszt
diák
%
diák
%
Alacsony
– 14 lakos
8
27,6
13
44,8
Közepes
15 – 19 lakos
12
41,4
14
48,3
Magas
20 vagy több
9
31,0
2
6,9
29
100,0
29
100,0
Összesen
Amennyiben a gyakoriságok kis számok (kis esetszámú sokasággal állunk szemben), akkor nem szokták a százalékos eloszlást is megadni. Annak ellenére, hogy több oszlopa és több sora is van a táblázatnak, egyszerű táblázattal van dolgunk, mert az oszlopok rovatai között nincs kapcsolat, a pretesztbeli 8 alacsony agresszivítású gyerek többsége – talán mind – benne van a poszttesztbeli 13-ban stb. Erre vonatkozóan biztos információt az úgynevezett összetett táblázat (vagy asszociációs tábla, kereszttábla) nyújt, a teljes helyzetleíráshoz pedig több ilyen összetett táblázatra is szükség lehet. A kereszttáblázat előállítására a CROSSTABS utasítás szolgál: cro tip0 by tip1. A fenti utasítás két táblázatot szolgáltat, ezeket összevonni egybe már bonyolult lenne (ajánlatom az, hogy ne túlozzunk a táblázatok összesűrítésével, könnyebben értelmezhető, magyarázható egy kevesebb adattal terhelt táblázat), ezért csak az Output Navigator táblázatait mutatom be, oszlopszélesség módosítással csupán. Az első táblázat az érvényes és érvénytelen válaszok statisztikáját tartalmazza, azt, hogy a következő táblázat(ok)ban a Valid N-ként megadott érték (29) az összes figyelembe vett eset. A preteszt és poszttesztbeli agresszivítás összehasonlítása azt eredményezi, hogy a pretesztbeli 8 alacsony agresszivítású gyerek a poszttesztben is alacsony agresszivítású, a poszttesztben még újabb 5 gyerek agresszivítása látszik alacsonynak, akik a pretesztben mind közepes agresszivítást produkáltak és így tovább. TIP0 Agressz.tipus pretesztben * TIP1 Agressz.tipus poszttesztben Crosstabulation
Count
TIP0 Agressz.tipus pretesztben
1 Kevesbe (<15) 2 Kozepesen (15-19) 3 Tulzottan (20+)
Total
TIP1 Agressz.tipus poszttesztben 1 Kevesbe 2 Kozepesen 3 Tulzottan (<15) (15-19) (20+) 8 5 7 7 2 13 14 2
Total 8 12 9 29
Az Spss védett márkajegy
Azokban a rovatokban, ahol semmit nem találunk kiírva, a gyakoriság zéró, a szövegszerkesztőben az ilyen rovatot ne hagyjuk üresen, de 0-t se írjunk bele, hanem a dialógusjelt: — (billentyűkódja: Alt-0151). A 3. tábla adatait megjeleníthetjük grafikusan is, sőt az összetett táblázatok tartalmát is. Szemléltető példának álljon itt most csak az egyszerű tábla adatainak egyfajta grafikus megjelenítése, későbbiekben erre is kitérünk részletesebben. Alacsony 14 12 10 8 6 4 2 0
Preteszt
Közepes
Magas
Posztteszt
3. ábra A vizsgálatba vett gyerekek eloszlása agresszivítás szerint a pretesztben és a poszttesztben Kézzel készített diagram esetén a kétdimenziós változattal próbálkozzunk, továbbá nem ajánlom más programban készített grafikont objektumként átvenni a Word-be, mert utólagos változtatást csak kis mértékben végezhetünk rajta.
BEVEZETÉS A STATISZTIKÁBA
19
4. A sokaság leírása minőségi ismérvek alapján Egy vizsgált sokaságban egy változónak egy adott értékével rendelkező esetek számát az illető érték gyakoriságának nevezzük. Ha a vizsgált csoportban 7 fiú van, akkor a fiú kategória (attributum) gyakorisága 7 személy. Amennyiben ezt a gyakoriságot viszonyítjuk (leggyakrabban a teljes sokaság egyedszámához), úgy relatív gyakoriságról beszélünk. A relatív gyakoriságot általában százalékban fejezzük ki, de előfordulhat az ezrelék használata is (ha a relatív gyakoriságok 1%-nál is kisebbek), vagy bizonyos részeredmények esetében a hányad formájában való megadás. Például a 7 fiú egy 20-as csoportból a csoport 35%-át jelenti (350‰-ét vagy 0.35-ödét). Az öngyilkosságot elkövetők relatív gyakorisága viszont olyan kicsi szám, hogy 100000 lakosra viszonyítva szokták megadni. Példaként vegyük most Kászon községben (Hargita megye) 2001. nyarán vizsgált mintában az iskolázottság szerinti eloszlást. A minta 197 gazdaságból illetve az ezekben található 633 személyből állt, az iskolai végzettséget (befejezett iskolai szintet) tudakoló kérdés a következő skálával rendelkezett: 1. Nincs 2. Elemi iskola 3. Általános iskola 4. Szakiskola 5. Középiskola 6. Felsőfokú végzettség 7. Kisgyerek (0-6 éves) 8. Kisiskolás (legtöbb 11 éves) A számítógépes adatmátrixból az alábbi eloszlás adódik: 4. tábla. A5 Iskolazottsag
Valid
Total
Frequency 1 Nincs 7 2 Elemi 83 3 Altalanos 194 4 Szakiskola 129 5 Kozepiskola 84 6 Felsofoku 6 7 Kisgyerek 55 8 Kisiskolas 68 9 Adathi'ny 7 Total 633 633
Percent 1,1 13,1 30,6 20,4 13,3 ,9 8,7 10,7 1,1 100,0 100,0
Valid Percent 1,1 13,1 30,6 20,4 13,3 ,9 8,7 10,7 1,1 100,0
Cumulative Percent 1,1 14,2 44,9 65,2 78,5 79,5 88,2 98,9 100,0
Az Spss védett márkajegy
(Látható itt, hogy az eredetileg Adathiány cimkét később már Adathi’ny alakban látjuk viszont, ezért tanácsoltam korábban az ékezetes betűk mellőzését a cimkékben is, nemcsak a változónevekben). A számítógépes program adta táblázat tartalmazza az abszolút gyakoriságokat, a százalékos gyakoriságokat (két oszlopban is), valamint a kumulált százalékos gyakoriságokat. Egyelőre azt figyeljük meg, hogy létezik olyan 7 eset (sor az adatállományban), amely az iskolázottságra vonatkozóan nem rendelkezik érvényes válasszal (nem a személyeknek nincs ilyen attributumuk, hanem vagy az illető személyek vagy a kérdezőbiztosok nem tudták az iskolai végzettséget a megadott kategóriák valamelyikébe elhelyezni, vagy az a személy, aki a családtagok adatait szolgáltatta be, erre nem tudott válaszolni, de az is előfordulhat, hogy egyszerűen elfelejtődött ennek az ismérvnek a regisztrációja vagy olvashatatlanul van leírva). Az elemzésekből ki kell iktatni az ilyen eseteket, a programban egy érvénytelenítést hajtunk végre, majd ez után figyeljük meg a kapott eloszlásokat. 5. tábla A5 Iskolazottsag
Valid
Missing Total
1 Nincs 2 Elemi 3 Altalanos 4 Szakiskola 5 Kozepiskola 6 Felsofoku 7 Kisgyerek 8 Kisiskolas Total 9 Adathi'ny Total
Frequency 7 83 194 129 84 6 55 68 626 7 7 633
Percent 1,1 13,1 30,6 20,4 13,3 ,9 8,7 10,7 98,9 1,1 1,1 100,0
Valid Percent 1,1 13,3 31,0 20,6 13,4 1,0 8,8 10,9 100,0
Cumulative Percent 1,1 14,4 45,4 66,0 79,4 80,4 89,1 100,0
Az Spss védett márkajegy
20
MEZEI ELEMÉR
Megfigyelhetjük, hogy valamelyest módosulnak a Valid Percent nevű oszlop százalékos eloszlásai, mivel itt a 626 érvényes eset jelent 100%-ot, a Percent nevű oszlopban viszont az összes 633 személy. Ha jól meggondoljuk, a százalékos eloszlást csak a 12 éves és idősebb népességre kell vonatkoztatni. 6. tábla A5 Iskolazottsag
Valid
1 Nincs 2 Elemi 3 Altalanos 4 Szakiskola 5 Kozepiskola 6 Felsofoku Total 7 Kisgyerek 8 Kisiskolas 9 Adathi'ny Total
Missing
Total
Frequency 7 83 194 129 84 6 503 55 68 7 130 633
Percent 1,1 13,1 30,6 20,4 13,3 ,9 79,5 8,7 10,7 1,1 20,5 100,0
Valid Percent 1,4 16,5 38,6 25,6 16,7 1,2 100,0
Cumulative Percent 1,4 17,9 56,5 82,1 98,8 100,0
Az Spss védett márkajegy
Ez utóbbi tábla (6. tábla) alapján helyesen értelmezhetjük az iskolai végzettség eloszlását: A 12 éves és idősebb népesség iskolai végzettség szerinti eloszlása a következő: leggyakoribb iskolai végzettség az általános iskola (194 személy, több mint egyharmada az 503 személynek, 38,6%), szakiskolával 129 személy rendelkezik (egynegyede, 25,6%), nagyjából ugyanannyi személynek van elemi illetve középiskolai végzettsége (83, illetve 84 személy, 16,5 illetve 16,7%), 7 személy analfabéta (1,4%), és csupán 6 személy rendelkezik felsőfokú végzettséggel (1,2%). Mivel az iskolai végzettség fenti skálája rendezett is (1–6 kódok), értelmezhető a kumulált gyakoriság is (nem kell minden rovat tartalmáról szöveges formában beszámolni, csak az érdekesebbekről): A 12 éves és idősebb népesség több mint felének (56,5%-nak) legtöbb általános iskolai végzettsége van. Az írott tanulmányba magunk szerkesszünk táblás anyagot, de figyeljünk arra, hogy ez viszonylag kevés adatot tartalmazzon. Ha valamely táblázat sok számadatot tartalmaz, akkor azt helyezzük a tanulmány mellékletébe, a szövegben pedig utaljunk erre a táblázatra a mellékletben elfoglalt hely megadásával. A táblázatainkban, de a szövegben is a tizedesvesszőt használjuk tizedespont helyett (természetesen csak a magyar és román nyelvű szövegek esetén), és ügyeljünk arra, hogy a számadatok jobbra legyenek igazítva, de ne a rovat szegélyéhez közel, hanem attól valamivel beljebbi képzeletbeli függőlegeshez. Az Spss program adta eredmények tartalmazhatnak ilyen alakú értéket is: .7 , ennek jelentése: zéró egész hét tized (0,7). 7. tábla. A minta eloszlása iskolai végzettség szerint (Kászon, 12 éves és idősebb népesség, 2001) Iskolázottság Nincs iskolai végzettsége
Személy
Százalék
7
1,4
83
16,5
Általános iskola
194
38,6
Szakiskola
129
25,6
84
16,7
Felsőfokú végzettség
6
1,2
Összesen
503
100,0
Elemi iskola
Középiskolai végzettség
Az eloszlásbeli igen eltérő gyakoriságokat grafikusan is ki lehet fejezni. Különböző geometriai alakzatok közt válogathatunk, de arra figyeljünk, hogy a kétdimenziós alakzatok használata esetén a felület nagysága arányos a gyakorisággal, a térbeli alakzatok esetében a térfogat kell arányos legyen a gyakorisággal. Ezt legjobban úgy tudjuk megvalósítani, hogy a különböző kategóriák gyakoriságával arányos területű geometriai alakzatok csupán egyik dimenziójukban térnek el. Tehát, ha téglalapokat használunk, akkor az alapokat egyformának vesszük, a magasságot arányosnak a gyakorisággal (oszlopdiagram), de a magasság is lehet ugyanakkora, ekkor az alap lesz arányos a gyakorisággal (rúddiagram). Ha körcikkdiagramot készítünk, akkor a cikk nyílásszöge arányos a gyakorisággal, a cikkek sugara mindig ugyanakkora kell legyen (ugyanabban az ábrában). A következőkben két, nagyon gyakran használt ábrázolástípusban látható a 7. táblában bemutatott ismérv.
BEVEZETÉS A STATISZTIKÁBA
21 4. ábra. Az iskolai végzettség eloszlása (Kászon, 12 éves és idősebb népesség, 2001)
250
Személy
200 150 100 50 0 Nincs iskolai végzettsége Szakiskola
Elemi iskola Személy Középiskolai végzettség
Általános iskola Felsofokú végzettség
5. ábra. Az iskolai végzettség eloszlása (Kászon, 12 éves és idősebb népesség, 2001, N=503)
38%
26%
17%
1%1%
17%
Nincs iskolai végzettsége
Elemi iskola
Általános iskola
Szakiskola
Középiskolai végzettség
Felsofokú végzetts
Arra vigyázzunk, hogy ha több grafikon is szerepel tanulmányunkban és hasonló vagy éppen ugyanazon ismérv eloszlásait tartalmazzák (például különböző alsokaságokban, kísérleti és kontrollcsoportban), a kategóriák színezése egyezzen meg, a fenti két grafikon ellenpélda erre.
22
MEZEI ELEMÉR
5. A sokaság leírása mennyiségi ismérvek alapján 5.1. A (számtani) átlag A legegyszerűbb és a legismertebb középérték a számtani középarányos, amelyet egyszerűen átlagnak szoktunk nevezni. Az átlagot csak mennyiségi változókra számítjuk ki és főleg ezekre értelmezzük (az Spss program nem gondolkozik, bármilyen numérikus típusú változó esetén kiszámítja az átlagértéket, ha ezt kérik, még akkor is, ha a változó numérikus mennyiségei sorszámot tartalmaznak vagy etnikumok, felekezetek, nemek kódjait). Egy mennyiségi változó átlaga értelmezés szerint a felvett összes érvényes értékek számtani középarányosa. Használatos még a média kifejezés is az átlagra, valószínűségi változó esetén pedig a várható érték megnevezés. Ha a változó X és ennek értékei rendre (nem feltétlenül növekvő sorrendben) xi , i = 1..N (N a sokaságbeli érvényes esetek száma), akkor az átlagérték értelmezés szerint: x + x + ... + x N 1 N M (X ) = x = 1 2 = ∑ xi . N N i =1 Az átlagértéket szokták még egyszerűen m-el is jelölni. Ha a változó értékei között sok a hasonló, akkor nyilvánvalóan ezek összegzése helyett a gyakorisággal való szorzást fogjuk használni. Például, ha egy diákcsoportban 7-en 19 évesek, 8-an 20 évesek, 4-en 21 évesek és egy 24 éves, akkor az életkorok összegét egyszerűen így számítjuk ki: 7 ⋅ 19 + 8 ⋅ 20 + 4 ⋅ 21 + 24 = 133 + 160 + 84 + 24 = 401 Ilyen esetben az átlag képletét szokás még így is megadni: k
x=
f1 x1 + f 2 x2 + ... + f k xk = f1 + f 2 + ... + f k
∑ f jxj j =1 k
∑
j =1
. fj
A számtani átlagra klasszikus példa a tanulmányi átlag (közoktatásban), de tudni kell azt, hogy az iskolai szabályzat az átlagértékeket két tizedesjeggyel kéri és kerekítés nélkül (két tizedesjegyre való csonkítással), viszont a tudományos alkalmazásokban a kerekítést kell használni. Általában egy tizedesjeggyel többre kell kerekíteni, mint ahány tizedesjegy használatos a változóban és ajánlatos legalább 2 tizedejegy használata, így egyértelműen eltér a százalékos arányoktól. Ha az életkorokat években fejeztük ki, az átlagéletkort 2 tizedesjegy pontossággal adjuk meg (a már említett diákcsoport esetében 401/20=20,05 év), de ha az esetszám több száz vagy ezernél is több, az átlagértékeket már több tizedesjeggyel szokták megadni. Példa Egy felmért mintában a megkérdezett személyek lakásának szobaszáma a következő eloszlást mutatja: 1 szoba.......................65 személy 2 szoba...............590 személy 3 szoba ................. 616 személy 4 szoba.....................268 személy 5 szoba.................88 személy 6 szoba ................... 40 személy 7 szoba.......................11 személy 8 szoba...................2 személy 9 szoba ..................... 2 személy Akkor az átlagos szobaszám: 65 ⋅1 + 590 ⋅ 2 + 616 ⋅ 3 + 268 ⋅ 4 + 88 ⋅ 5 + 40 ⋅ 6 + 11⋅ 7 + 1 ⋅ 8 + 1 ⋅ 9 = 65 + 590 + 616 + 268 + 88 + 40 + 11 + 2 + 2 65 + 1180 + 1848 + 1072 + 440 + 240 + 77 + 8 + 9 4939 = = = 2,936 ... 1682 1682 x=
Tehát az 1682 válaszoló személy átlagosan 2,94 szobás lakásban él. 5.2. A medián A medián jelentése középső érték, egy rendezett értéksorban a középen elhelyezkedő érték(ek). Például, ha egy líceumi osztály évharmadvégi matematika jegyei (növekvő sorrendben): 3, 4, 4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9, 10, 10, 10 (az osztályban tehát 21 diák kapott osztályzatot matematikából), akkor a medián a 11-edik eset értéke: Me = 7. Ha a sor páros számú értéket tartalmaz, a két középső érték számtani közepét szokták mediánnak venni. A medián általában csak kissé tér el a számtani átlagtól, kézi számítással könnyebb meghatározni, mint a számtani átlagot, de mára, a gyors számítógépes adatfeldolgozás korában veszített jelentőségéből. Néha azért jól hangzik (és könnyen érthető is) a tanulmányban olyan formájú mondat, ahol a medián is szerepel: “A megkérdezett gyerekek közül azok, akik dohányoznak vagy korábban dohányoztak, fele 14 éves koráig már elszívta az első cigarettát” vagy “A vizsgált betegek felénél a betegség más 36 éves korukig jelentkezett”. Álljon most egy cég 10 alkalmazottjából a sokaság és legyen a havi jövedelem a vizsgált mennyiségi változó. Ha 9 alkalmazott havi jövedelme 500 RON és a tizedik-é 5500 RON (adminisztrátor vagy a tulajdonos fia), egy hónapban a 10 személy együtt 9x500+1x5500=10000 RON-t keres, ami 1000 RON átlagot jelent alkalmazottonként, viszont minden egyes kereset ettől jóval eltér. A medián nyilvánvalóan 500 RON, egy felvett érték, és a mediánnal megfogalmazott kijelentés inkább jellemzi a sokaságot, mint az átlagértékket tartalmazó szöveg: “A cég alkalmazottainak fele nem keres többet havonta 500 RONnál” illetve “A cég alkalmazottainak átlagkeresete egy hónapban 1000 RON”.
BEVEZETÉS A STATISZTIKÁBA
23
5.3. Kvantilisek A medián a sokaságot két egyenlő részre bontja a változó értéksora alapján. Ha több részre óhajtjuk bontani a sokaságot, akkor a felbontás határértékeit összefoglalóan kvantiliseknek nevezzük. A legfontosabb kvantilisek a következők: – kvartilisek: az értéksort négy egyenlő részre bontják – decilisek: 10 egyenlő részre bontják az értékek sorát – centilisek: 100 egyenlő nagyságú részre osztják fel az értéksort. Szinte magától adódik az a megjegyzés, hogy a medián egyben egyik kvartilis, egyik decilis, egyik centilis, sőt a középső ezek közül. A kvartilisek száma 3, a középső a medián, a kisebbik kvartilist alsó kvartilisnek (Q1), a nagyobbikat felső kvartilisnek (Q2) nevezzük. 5.4. A terjedelem (amplitudó, angolul range) A terjedelem a legnagyobb és a legkisebb érvényes értékek különbsége. 5.5. A kvartilis deviáció Ez a terjedelemhez hasonló, csak a felső és az alsó kvartilis különbségével számol. Nagyon gyakran ennek a különbségnek a felét veszik kvartilis deviációnak, viszonylag jó becslés a szórásra (lásd később), de ha a változó értékei között kivételesen kicsi vagy nagy is előfordul, akkor a szórás helyett jobb jellemző ez, nem függ a szélsőséges értékektől. 5.6. Az átlagos eltérés Egy adott értéktől (többnyire a mediántól, az átlagtól) szokták számítani az esetek eltérését, kiküszöbölve így a skála kezdőpontjának megválasztásától függő problémákat. Viszont az eltérések nem negatív számokat jelentenek, így matematikai alakjukat az abszolút értékkel (modulusz) fejezzük ki, az ezekkel felírt kifejezések nem átalakíthatók, ezért az eltérésekből alapműveletekkel előállítható mutatók alig használatosak a statisztikában. 5.7. A szórás és a szórásnégyzet (variancia) Az átlagos eltérés hiányosságát (amit a moduluszos kifejezések okoznak) úgy küszöbölhetjük ki, hogy az értékek átlagtól való eltérését négyzetesen átlagoljuk (azaz négyzetre emeljük, átlagoljuk és végül gyökvonással visszahozzuk az eredeti mértékegységre). Képlete:
D( X ) = σ =
1 N ∑ (xi − x )2 N i =1
Ezt a σ-t nevezzük szórásnak, a gyökjel alatti mennyiséget pedig szórásnégyzetnek (idegen eredetű szóval varianciának). Nyilvánvaló, hogy ez az értelmezés a kevesebb, de nagyobb gyakoriságú értékekkel rendelkező változók esetében a k
∑ f j (x j − x )2 σ=
j =1
k
∑ fj j =1
alakot is felveheti. A értelmezés alapján számított szórásról általában elmondható, hogy egyféle átlagos eltérés a sokaság átlagától, de elég gyakoriak az olyan esetek, amikor ez nem igaz. Ha egy eset kirívóan nagy vagy kicsi értékkel rendelkezik a vizsgált változó esetében, akkor az ehhez tartozó eltérésnégyzet mellett a többiek eltörpülnek, hangsúlyozottan dominál ez az eset a szórásnégyzetben. Példaként vegyünk egy tíztagú diákcsoportot, ezek közül 5-nek 1 testvére van, a többi 5-nek 2. Így átlagban a diákoknak 1,5 testvérük van, ettől átlagosan 0,5-tel térnek el a változóértékek, szórásnak is 0,5-öt kapunk. De ha a csoport kibővül egy új diákkal, akinek éppen 18 testvére van, a testvérek száma átlagosan 3,0 lesz (kétszeresre nő), az ettől való eltérések: 2,2,2,2,2,1,1,1,1,1,15, eltérésnégyzetek pedig: 4,4,4,4,4,1,1,1,1,1,225. A 11-re bővült csoportban az átlagtól való eltérések összege 30, ennek felét az új diák “szolgáltatja”, az eltérésnégyzetek összege 250, amiből már 90% esik az új diákra. Látható, hogy a szórás értelmezésének vannak előnyei, de vannak hátrányai is. Hátrány az is, hogy általában egy nagyobb sokaságban előfordulnak kirívó esetek, viszont az ebből vett mintában ezek kisebb valószínűséggel vesznek részt (gyakran a kutató szándékosan ki is iktatja őket), ezáltal a mintában számított szórás nem jó becslése a sokaság szórásának. Ha a mintabeli szórás alapján akarunk becslést adni a sokaság szórására, akkor módosítani kell a mintabeli szórás képletét olymód, hogy valamivel nagyobb érték adódjon, mint az eddigi értelmezés szerint. A matematikailag is levezethető összefüggés a következő: s=
1 N ∑ (xi − x )2 . N − 1 i =1
Az így kapott szórást nevezik tehát mintaszórásnak, de használják egyes szerzők erre a korrigált szórás vagy a standardizált szórás kifejezést is. Az Excel és az Spss program kizárólag ezt a szórásfajtát használja (var nevű függvénnyel érhető el, illetve Standard Deviation névvel).
24
MEZEI ELEMÉR
5.8. Az átlagérték tulajdonságai Bizonyítás nélkül elmondhatjuk azt a hasznos tulajdonságot, hogy az átlagérték a változó legkisebb és legnagyobb értéke közé esik. Ha egy diákcsoport átlagéletkorának 43 év körüli értéket ad az Spss program, akkor biztosan az adathiányt 99-el vagy 999-el kódoltuk és a programban nem érvénytelenítettük, így elég hamar rájöhetünk a mulasztásunkra (ezért ajánlatos az adathiányt vagy más érvénytelen választ kirívóan nagy értékkel kódolni). A többi tulajdonság kijelentése és bizonyítása érdekében legyenek X, Y mennyiségi változók egy sokaságon, a, b valós számok. 1. M(X+a)=M(X)+a M (X + a) =
Bizonyítás:
1 N
N
1
N
1
N
1
∑ (xi + a ) = N ∑ xi + N ∑ a = M ( X ) + N N ⋅ a = M ( X ) + a
i =1
i =1
i =1
2. M(bX)=bM(X) M (bX ) =
Bizonyítás:
1 N
N
1
N
∑ (bxi ) = N b∑ xi = b ⋅ M ( X )
i =1
i =1
3. M(bX+a)=bM(X)+a Bizonyítás: az előző két tulajdonság alapján azonnali. 4. M(X+Y)=M(X)+M(Y) M (X + Y ) =
Bizonyítás:
1 N
N
1
N
1
N
∑ (xi + yi ) = N ∑ xi + N ∑ yi = M ( X ) + M (Y )
i =1
i =1
i =1
Az első tulajdonságot nagyon jól alkalmazhatjuk kézi számítások esetében akkor, amikor a változó értékei mind nagyok. Ilyenkor jó egy közeli becslést találni az átlagértékre, majd ezt kivonni minden egyes eset értékéből. Ilyen becslés lehet például a medián, de ha nem rendelkezünk ennek értékével, az sem baj, csak olyan számot találjunk, amelyet könnyű kivonni a változó értékeiből és a különbségek látványosan kisebbek legyenek, mint az eredeti értékek. A következő táblázatban bemutatjuk az átlagérték kézi kiszámítását, párhuzamosan az értelmezés alapján és az 1. tulajdonság felhasználásával (az X változó egy diákcsoport jegyei társadalomstatisztikából, BBTE, gyógypedagógia szak, 2000/2001-es tanév). 8. tábla. Az átlag kézi kiszámítása az 1. tulajdonság segítségével zi = xi − 8 1 0 1 2 –1 1 –1
xi
i 1. 2. 3. 4. 5. 6. 7.
9 8 9 10 7 9 7
i 8. 9. 10. 11. 12. 13. Összes Átlag
zi = xi − 8 0 –2 2 0 –4 0 –1 –0,08
xi
8 6 10 8 4 8
Innen M(X) = M(Z+8) = M(Z)+8 = –0,08+8= 7,92 Megemlíthető továbbá az átlagértéknek néhány más tulajdonsága is: 5.
N
∑ ( xi − m ) = 0
(másképp írva: M(X–M(X))=0).
i =1
⎫⎪ N ⎧⎪ N 6. min ⎨∑ (xi − a )2 a ∈ R ⎬ = ∑ (xi − m )2 (más szóval: az eltérésnégyzet-összegek az átlag esetében minimálisak). ⎪⎭ i =1 ⎪⎩i =1
5.9. A szórás (szórásnégyzet) tulajdonságai A matematikai átalakítások során a szórásnégyzetből indulunk ki, ugyanis a négyzetgyökös mennyiségek is csak korlátolt mértékben alakíthatók át. Egy ilyen átalakítás azonnal elvezet a szórásnégyzetnek egy olyan alakjához, amelyet kézi számítások során gyakran alkalmaztak. A levezetést is és az alkalmazását is bemutatjuk a következőkben, annak ellenére, hogy a számítógépes programok nem használják ezen egyszerűsítő képletet.
σ2 =
(
)
__
__
N N N N 1 N (xi − x )2 = 1 ∑ xi2 − 2 xi x + x 2 = 1 ∑ xi2 − 2 x 1 ∑ xi + x 2 1 ∑1 = x 2 − 2 x x + x 2 = x 2 − x 2 . ∑ N i =1 N i =1 N i =1 N i =1 N i =1
__
Röviden tehát: σ 2 = x 2 − x 2 , azaz a szórásnégyzet számszerint egyenlő a négyzetek átlagának és az átlag négyzetének a különbségével. Kézi számítások esetében azért előnyös ennek a képletnek az alkalmazása, mert az x2-et pontosabban
BEVEZETÉS A STATISZTIKÁBA
25
kiszámíthatjuk, mint az (xi − x )2 -t, tekintettel arra, hogy az átlagérték általában nem egész szám, sok tizedesjegyet kell használni a kellő pontosság eléréséhez. A következő táblázatban bemutatjuk a szórásnégyzet kézi kiszámítását, párhuzamosan az értelmezés alapján és a számítási képlet segítségével (az X változó egy diákcsoport jegyei társadalomstatisztikából, BBTE, gyógypedagógia szak, 2000/2001-es tanév). 9. tábla. A szórásnégyzet kiszámítása xi − 7,92 xi i (xi − 7,92)2 x2 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Összes Átlag
9 8 9 10 7 9 7 8 6 10 8 4 8 103 7,92
1,08 0,08 1,08 2,08 –0,92 1,08 –0,92 0,08 –1,92 2,08 0,08 –3,92 0,08 0,04 0,003
1,1664 0,0064 1,1664 4,3264 0,8464 1,1664 0,8464 0,0064 3,6864 4,3264 0,0064 15,3664 0,0064 32,9232 2,5326
81 64 81 100 49 81 49 64 36 100 64 16 64 849 65,31
A szórásnégyzetnek az értelmezés alapján 2,5326 (számításaink szerint), a számítási képlet szerint pedig 65,31–7,922 = 2,5836. Az eltérés a kétféleképpen kiszámított szórásnégyzet esetében számottevő, és egyik sem a pontos érték. A pontosabb érték __
kiszámítására a σ 2 = x 2 − x 2 kifejezésbeli két átlagértéket kell tört alakban felírni, majd közös nevezőre hozatal és osztás után kellő pontosságú szórásnégyzet áll rendelkezésünkre:
σ2 =
2 849 ⎛ 103 ⎞ 13 ⋅ 849 − 1032 11037−10609 428 = = 2,532544 −⎜ = ⎟ = 169 169 13 ⎝ 13 ⎠ 132
A szórást gyökvonás útján kapjuk meg: σ = 1,59. Elképzelhető, hány átlagtól való eltérést kellene pontosabban felírni és négyzetreemelni, ha meg kellene győződni róla, hogy az értelmezés alapján kiszámított szórásnégyzet kellő pontosságú-e. A számítási képlet előnye az is, hogy akkor is alkalmazható, amikor még nem is rendelkezünk az összes adattal, vagy ha több személy segítségét kérjük, mindegyikük rendelkezvén az adatok egy részével, végül csak a részösszegeket kell szummázni az átlagértékek kiszámítása érdekében. A szórás (és a szórásnégyzet) esetében az értelmezés alapján könnyen levezethető néhány olyan tulajdonság, amelyek alkalmazásával leegyszerűsíthetők a kézi számítások, vagy ellenőrizhetők mások által szolgáltatott eredmények. A továbbiakban legyenek X, Y mennyiségi változók egy sokaságon, a, b valós számok. 1. D(X+a)=D(X) Bizonyítás:
1 D (X + a) = N 2
2
__________ ⎤ ⎡ 1 ∑ ⎢(xi + a ) − ( X + a ) ⎥ = N i =1 ⎣⎢ ⎦⎥ N
N
∑ (xi + a − x − a )2 =
i =1
1 N ∑(xi − x )2 = D2 ( X ) . N i=1
2. D (b ⋅ X ) = b ⋅ D ( X ) Bizonyítás:
2 _______ ⎤ 1 N 1 N 2 1 N⎡ ( ) [b(xi − x )]2 = bx − b x = D (b ⋅ X ) = ∑ ⎢(bxi ) − (bX ) ⎥ = ∑ ∑ i N N N i =1 ⎢⎣ ⎥⎦ i =1 i =1 2
=
1 N 2 1 N b (xi − x )2 = b 2 ∑ ( xi − x )2 = b 2 ⋅ D 2 ( X ) . ∑ N i =1 N i =1
3. D (b ⋅ X + a ) = b ⋅ D ( X )
Bizonyítás: az előző két tulajdonság alapján azonnal következik. Az első tulajdonságot nagyon jól alkalmazhatjuk kézi számítások esetében és amikor a változó értékei mind nagyok, a szórás viszont kicsi. Ilyenkor jó egy közeli becslést találni az átlagértékre, majd ezt kivonni minden egyes eset értékéből (ilyen becslés lehet például a medián vagy egy olyan szám, amit könnyű kivonni a változó értékeiből és a különbségek látványosan kisebbek, mint az eredeti értékek). Szemléltető példának (bár nem igazán jó erre, nem csökkenti le látványosan a számítások volumenét) vegyük a korábban már használt esetet, a 13 tagú diákcsoport jegyeit társadalomstatisztikából.
26
MEZEI ELEMÉR 10. tábla. A szórásnégyzet kézi kiszámítása az 1. tulajdonság segítségével zi = xi − 8 xi i zi2 = (xi − 8)2 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Összes Átlag
9 8 9 10 7 9 7 8 6 10 8 4 8
1 0 1 2 –1 1 –1 0 –2 2 0 –4 0 –1 –0,077
1 0 1 4 1 1 1 0 4 4 0 16 0 33 2,5385
( )
Innen D2 ( X ) = D2 (Z ) = M Z 2 − M 2 (Z ) = 2,5385 − (− 0,077)2 = 2,5326 A második tulajdonság olyan esetben tesz jó szolgálatot, ha mértékegységet kell cserélnünk a változóban. Például, ha egy csoportban a testmagasságot cm-ben adták meg, átlag és szórásértékkel együtt (m=168,6 cm, σ =14,8 cm) és nekünk méterben kell számolni, akkor a már kiszámított jellemzőket egyszerűen elosszuk 100-zal, a mértékegység cseréjének szorzótényezőjével (m=1,686 m, σ =0,148 cm). Általában nem bizonyítható az átlagérték 4. tulajdonságához hasonló összefüggés, vagyis D 2 ( X + Y ) ≠ D 2 ( X ) + D 2 (Y ) .
Az értelmezés alapján: D2 ( X + Y ) =
=
[
2
___________ ⎤ 1 N 1 N⎡ 1 N 2 2 ⎢(xi + yi ) − ( X + Y ) ⎥ = ∑(xi + yi − x − y ) = ∑ [(xi − x ) + ( yi − y )] = ∑ N N i =1⎣⎢ N i =1 i =1 ⎦⎥
]
N N N 1 N (xi − x )2 + 2(xi − x )( yi − y ) + ( yi − y )2 = 1 ∑ (xi − x )2 + 2 1 ∑ (xi − x )( yi − y ) + 1 ∑ ( yi − y )2 = ∑ N i =1 N i =1 N i =1 N i =1
= D 2 ( X ) + D 2 (Y ) + 2
1 N ∑ (xi − x )( yi − y ) , N i =1
ahonnan: D 2 ( X + Y ) − D 2 ( X ) − D 2 (Y ) = 2
1 N ∑ (xi − x )( yi − y ) . N i =1
Viszont tulajdonság helyett egy új fogalom bevezetését teszi lehetővé a fenti eredmény, éspedig a kovarianciáét: 1 N cov( X , Y ) = ∑ (xi − x )( yi − y ) N i =1
A kovariancia együttes változást mér, az (xi − x )( yi − y ) szorzat pozitív értéke arra utal, hogy egyidőben átlagon felüli vagy egyidőben átlagon aluli mindkét változó értéke, így akkor, amikor gyakori az ilyen eset (a változók összefüggnek egymással), a kovariancia értéke pozitív és nagy. Amikor a fordított összefüggés a gyakori, azaz sok egyed esetében az egyik változó átlagon aluli és a másik átlagon felüli értékkel rendelkezik, akkor a kovariancia negatív értékű lesz és abszolút értékben nagy. Amennyiben az együttes változás véletlenszerű, vagyis nagyjából egyformán gyakoriak az olyan egyedek, amelyek esetében a változók értékei átlagon aluliak is meg átlagon felüliek is, összefüggés nélkül, akkor a kovariancia értéke kicsi. Ez a kicsi eléggé viszonylagos, mert a kovariancia mértékegységfüggő, de relativizálni lehet ezt, ahogy egy későbbi paragrafusban látni is fogjuk. Addig is érjük be egy új elméleti fogalom bevezetésével. Két változót függetlennek nevezünk, ha kovarianciájuk zéró (0). Ennek a fogalomnak a felhasználásával kijelenthetünk egy újabb tulajdonságot, amit már nem kell bizonyítani, mert a függetlenséget úgy értelmeztük, hogy e tulajdonság éppen fennálljon: 4. Független X, Y mennyiségi változók esetén D ( X + Y ) = D 2 ( X ) + D 2 (Y ) .
BEVEZETÉS A STATISZTIKÁBA
27
5.10. Példák a sokaság leírására 1. példa Egy, iskolások körében végzett kutatás során azok a gyerekek, akik dohányoznak vagy akik dohányoztak korábban, a következőképpen válaszoltak arra, hogy hány évesen szívták el az első cigarettát:
Életkor
Személy
5 évesen 6 évesen 7 évesen 8 évesen 9 évesen 10 évesen 11 évesen 12 évesen
Életkor
1 4 3 4 2 6 10 14
Személy
13 évesen 14 évesen 15 évesen 16 évesen 17 évesen 18 évesen 19 évesen Nem válaszolt
24 32 29 25 11 5 1 13
Jellemezzük (írjuk le) a sokaságot ezen ismérv alapján. Kijelöljük, számítjuk a leíráshoz szükséges mutatókat: k
A célsokaság
∑ fi =1+ 4 + 3 + 4 + 2 + 6 +10+14+ 24+ 32+ 29+ 25+11+ 5 +1+13 = 184 diákból áll (azok száma, akik
i=1
dohányoznak vagy dohányoztak korábban). Közülük 13 nem válaszol a feltett kérdésre, azaz 7,065…%-a. Az érvényes válaszok száma 171. A továbbiakban ennek a 171 diáknak a sokaságán végezzük el a számításokat. Mininum: 5 éves kor,
Maximum: 19 éves kor,
Módusz: 14 éves kor, Medián: a 86-dik diák életkora az első cigi elszívásakor: k
∑ f i = 1 + 4 + 3 + 4 + 2 + 6 + 10 + 14 + 24 = 68
és
i =1
k +1
∑ f i = 1 + 4 + 3 + 4 + 2 + 6 + 10 + 14 + 24 + 32 = 100
i =1
tehát a 86-dik életkor a 14 év. Átlagéletkor az első cigaretta elszívásakor: 1 k 1 x= ∑ fi xi = 171(1⋅ 5 + 4 ⋅ 6 + 3⋅ 7 + 4 ⋅8 + 2 ⋅ 9 + 6 ⋅10+10⋅11+14⋅12+ 24⋅13 + 32⋅14 + 29⋅15 + 25⋅16 + 11⋅17 + 5 ⋅18 + 1⋅19) = 171i =1
=
1 ( 5 + 24 + 21 + 32 + 18 + 60 + 110 + 168 + 312 + 448 + 435 + 400 + 187 + 90 + 19 ) = 171 =
2329 = 13 , 61988 ... , 171
tehát átlagosan 13,62 év. A szórás kiszámításához:
x2 = =
1 k ⋅ ∑fi xi = 171 i=1
1 2 2 2 2 2 2 2 (1⋅ 52 + 4 ⋅ 62 + 3 ⋅ 7 2 + 4 ⋅ 82 + 2 ⋅ 92 + 6 ⋅102 + 10 ⋅112 + 14 ⋅122 + 24⋅13 + 32⋅14 + 29⋅15 + 25⋅16 +11⋅17 + 5 ⋅18 +1⋅19 ) =… 171
=
32973 = 192,82456... , 171
majd:
σ
2
= x 2 − x 2 = 192 ,82456 − 13 , 61988 2 = 192,82456 – 185,50113 = 7,32343
ahonnan:
σ = σ 2 = 7,32343 = 2,706...
28
MEZEI ELEMÉR
A leírás ekkor a következőképpen is kinézhet: A cigarettázó vagy régebb cigarettázott tanulók száma 184, közülük 13 (7,1%) nem válaszol arra a kérdésre, hogy hány évesen szívta el az első cigarettát. Az első cigaretta elszívásának életkora a 5 évtől 19 évig terjed, a középső életkor a 14 év, a legveszélyeztetettebb kor is ez, a 14 éves kor. A 171 diák átlagosan 13,62 éves korban szívja el az első cigarettát, 2,71 éves szórással. 2. példa E példa során bemutatjuk, hogyan lehet könnyen elvégezni akár kézi számítással, akár az Excel program segítségével a számításokat.
Egy vizsgálat során a kérdezett személyek eloszlása a lakásuk szobaszáma szerint a következő: 1 szobás 65 6 szobás 40 2 szobás 590 7 szobás 11 3 szobás 616 8 szobás 2 4 szobás 268 9 szobás 2 5 szobás 88 Egyetlen munkatáblázatba szedjük az összes kiszámítandó részeredményeket, az összesítések és átlagok egy-egy külön sorba kerülnek. Megnevezés
f i ⋅ xi
1 szobás lakás 2 szobás lakás 3 szobás lakás 4 szobás lakás 5 szobás lakás 6 szobás lakás 7 szobás lakás 8 szobás lakás 9 szobás lakás Összesen Átlagban
65 1180 1848 1072 440 240 77 16 18 4956 2,946
xi
1 2 3 4 5 6 7 8 9
fi
65 590 616 268 88 40 11 2 2 1682
xi2
1 4 9 16 25 36 49 64 81
f i ⋅ xi2
65 2360 5544 4288 2200 1440 539 128 162 16726 9,944
A szórás kiszámításához használjuk a számítási képletet és a pontosabb végeredmény érdekében az átalgértéket törtszám alakban írjuk be: σ 2 = x2 − x 2 =
2
2 16726 ⎛ 4956 ⎞ −⎜ ⎟ = 9,944114–8,681816=1,262297, σ = σ = 1,262297... = 1,123520... 1682 ⎝ 1682 ⎠
A lakás szobaszámára vonatkozóan érvényesen válaszolók száma 1682. A legkisebb lakás az 1 szobás, a legnagyobb a 9 szobás, átlagban közel 3 szobásak (2,95) a lakások 1,12-es szórással. Leggyakoribb lakástípus a 3 szobás (616 esetben), de alig marad el mellette a 2 szobás lakás (590). A medián érték is a 3 szobás lakás. Az Excel-ben az adatok bevezetése után következnek az összesítések, szorzatok, négyzetreemelések stb. kijelölései és ezek kiterjesztései az ismert módon:
…
BEVEZETÉS A STATISZTIKÁBA
29
majd végül
Az Excel-ben akkor igazan jó dolgozni, amikor több hasonló számítást kell végezni, és egyéb statisztikai feldolgozásra nincs is szükség. Például több helyről is rendelkezünk adatokkal a lakások szobaszámairól, de más változó is szóba jöhet még ugyanazon a sokaságon belül is, ekkor csak ki kell cserélni a gyakoriságokat (és esetleg a megnevezéseket) és azonnal olvasható a végeredmény. Jó ötlet ilyenkor a módosuló rovatok kiszínezése és védettségük feloldása (Format/Cells…-ben a Patterns és Protection dialógusablakokban), majd a védettség érvényesítése, miáltal a képletekkel értelmezett rovatokba se írni nem tudunk, sem a már létező definiciókat nem törölhetjük le (tévedésből). Az Spss programban utasítással kérjük a mennyiségi ismérv jellemzőit. Próbalkozhatunk a FREQUENCIES-szel is, külön kérésre (opció) megjelentethetjük az eredménytáblázatokban a legkisebb (minimum), a legnagyobb (maximum) értékeket, a mediánt, átlagot, szórást (az Spss csak a mintaszórást “ismeri”), varianciát stb. Ha csak a legfontosabb mutatókra van szükségünk, akkor a DESCRIPTIVES utasítás használata egyszerűbb. A medián értékét csak a FREQUENCIES-ből kérhetjük le, de saját magunk is megállapíthatjuk a gyakoriságtáblázat utolsó oszlopából, a kumulált százalékos arányokat mutatóból. Elsőre nézzük a gyakoriság utasítását abban az esetben, amikor a 13 diák társadalomstatisztika jegyei a mennyiségi változó értékei. Az utasítás legegyszerűbb alakban a Syntax Editor-ban a következő: fre tsjegy.
Az eredménytáblázatokból az első az érvényes és érvénytelen válaszok számát tartalmazza, a második pedig így néz ki: TSJEGY Tarsadalomstatisztika jegye
Valid
Total
4 6 7 8 9 10 Total
Frequency 1 1 2 4 3 2 13 13
Percent 7.7 7.7 15.4 30.8 23.1 15.4 100.0 100.0
Valid Percent 7.7 7.7 15.4 30.8 23.1 15.4 100.0
Cumulative Percent 7.7 15.4 30.8 61.5 84.6 100.0
Az Spss védett márkajegy
Legelsőre győződjünk meg arról, hogy a legkisebb és legnagyobb értékek érvényes válaszok, ha nem, akkor érvénytelenítsük azt, amit kell (erre már volt korábban példa). Ha minden rendben az érvényes és érvénytelen válaszok tekintetében, akkor térjünk rá az utolsó oszlopban levő növekvő számsorra és keressük meg azt a sort, amelyben a kumulált százalék 50 fölé került: 8-as jegynek a sorában látjuk ezt. Ebben a példában ez a medián, vagyis a diákok fele legfeljebb 8-asra vizsgázott, és ugyanúgy igaz az is, hogy fele legalább 8-ast kapott. A mennyiségi ismérvek esetében, az adatbevezetés után rögtön adjunk ki egy ilyen gyakoriságot kérő utasítást és vizsgáljuk meg az értékeket az érvénytelen válaszok felfedezésére. Például egy adatállományban több mennyiségi ismérv is szerepel a személyekre vonatkozóan: életkor, a háztartásban lakó személyek száma, a kérdezett személy előző havi jovedelme (fiktív adatok). A hosszabb gyakoriságtáblázatokat megrövidítve mutatjuk be. Az életkornál a legkisebb érték a 18 (4 személy esetében), majd 19 (5 személy), ezek lehetnek életkorok (főleg, ha tudjuk, hogy a kutatás a 18 éves és idősebb korú népességre terjedt ki), a sor végét záró 99 még lehetne ugyan életkor, de 5 személynél is ezt lehet találni, és az előtte álló értékek 87, 85 és 83, mind-mind egyetlen személynél, tehát arra kell következtessünk, hogy a 87 még években kifejezett életkort jelent, de a 99 érvénytelen választ (elképzelhető, hogy az illető személy nem akarta megmondani életkorát, vagy a regisztráláskor egyszerűen kimaradt vagy olvashatatlan az írás). Az adatbevezetés során
30
MEZEI ELEMÉR
szerencsésebb lett volna a 999 vagy a –1-es kód használata, egyértelműbb lett volna így a kódok értelmezése, de ha mégis a 99es mellett dönt valaki, akkor lássa el megfelelő cimkével. A02 A kerdezett szemely eletkora
Valid
Total
18 19 20 21 22 23 24 25 ... 74 75 76 77 78 79 80 83 85 87 99 Total
Frequency 4 5 7 3 4 7 3 7 ... 4 6 6 1 3 2 2 1 1 1 5 444 444
Percent .9 1.1 1.6 .7 .9 1.6 .7 1.6 ... .9 1.4 1.4 .2 .7 .5 .5 .2 .2 .2 1.1 100.0 100.0
Valid Percent .9 1.1 1.6 .7 .9 1.6 .7 1.6 ... .9 1.4 1.4 .2 .7 .5 .5 .2 .2 .2 1.1 100.0
Cumulative Percent .9 2.0 3.6 4.3 5.2 6.8 7.4 9.0 ... 93.7 95.0 96.4 96.6 97.3 97.7 98.2 98.4 98.6 98.9 100.0
Az Spss védett márkajegy
Az életkornál a 99-es kódot érvénytelenítsük előbb (sőt lássuk el megfelelő cimkével is), majd így nézzük meg újra a gyakoriság táblázatát. A cimkeadás utasítása a Syntax Editor-ban a VALUE LABEL, az érvénytelenítésé pedig a MISSING VALUE, természetesen fel kel sorolni, mely változókra vonatkoznak és mely értékekre: val lab a02 99 'Ervenytelen valasz'. mis val a02 (99). A02 A kerdezett szemely eletkora
Frequency Percent Valid 18 4 .9 19 5 1.1 20 7 1.6 21 3 .7 22 4 .9 ... ... ... 46 9 2.0 47 14 3.2 48 11 2.5 49 6 1.4 ... ... ... 79 2 .5 80 2 .5 83 1 .2 85 1 .2 87 1 .2 Total 439 98.9 Missing 99 Ervenytelen vala 5 1.1 Total 5 1.1 Total 444 100.0
Valid Cumulative Percent Percent .9 .9 1.1 2.1 1.6 3.6 .7 4.3 .9 5.2 ... ... 2.1 45.1 3.2 48.3 2.5 50.8 1.4 52.2 ... ... .5 98.9 .5 99.3 .2 99.5 .2 99.8 .2 100.0 100.0
Az Spss védett márkajegy
BEVEZETÉS A STATISZTIKÁBA
31
Most már rendben vannak a kódok, ami érvénytelen az az érvénytelenek rovataiban szerepel. A kumulált gyakoriságok oszlopából azt látjuk, hogy a medián a 48 éves kor, tehát a mintába vett személyek fele nem több, mint 48 éves. A másik két változóval is hasonlóan kell eljárni, de például a jövedelemre vonatkozóan (még régi lejben vannak kifejezve) a következő helyzet áll elő: A06 A kerdezett szemely jovedelme 2000 szeptembereben
Valid
Total
Frequency 0 58 99 Nincs valasz 19 65000 2 100000 4 130000 1 ... ... 4600000 1 5000000 4 6000000 2 6500000 1 7000000 1 7500000 1 10000000 2 Total 444 444
Percent 13.1 4.3 .5 .9 .2 ... .2 .9 .5 .2 .2 .2 .5 100.0 100.0
Valid Percent 13.1 4.3 .5 .9 .2 ... .2 .9 .5 .2 .2 .2 .5 100.0
Cumulative Percent 13.1 17.3 17.8 18.7 18.9 ... 97.5 98.4 98.9 99.1 99.3 99.5 100.0
Az Spss védett márkajegy
A 0 érvényes válasz a jövedelemre vonatkozóan (nincsen jövedelme, más tartja el), de a 99-es (a cimke jóvoltából egyértelműen) érvénytelen válasz és érvényteleníteni kell. A következő utasításban már kérhetjük a mennyiségi változók különböző jellemzőinek a kiszámítását és az eredmények bemutatását: fre a02 a05 a06 /sta min max med mea std.
Az utasításokban a kulcsszavak első 3 betűjét kell csak használni (kivételt képez a COMPUTE és a RECODE utasítás, itt 4, illetve 5 kötelező). A gyakoriságtáblázatokat megelőzi az, amelyben már az érvényes és érvénytelen válaszok száma mellett megtaláljuk az opcióban kérteket is: Statistics
A02 A kerdezett szemely eletkora A05 A haztartasban (gazdasagban) lako szemelyek szama A06 A kerdezett szemely jovedelme 2000 szeptembereben
Valid
N Missing
439
5
48.62
48.00
16.37
18
87
444
0
3.44
3.00
1.74
1
13
19 1256861 978000.00
1319250
425
Mean
Median
Std. Deviation Minimum Maximum
0 10000000
Az Spss védett márkajegy
A táblázatban található eredményeket most már nyugodtan dolgozhatjuk fel: A mintába vett sokaság 444 személyből áll. A legfiatalabb 18 éves, a legidősebb 87, a középső életkor a 48 év, 5 személy esetében nem tudjuk az életkort (1,1%). A személyek átlagos életkora 48,62 év. Egy háztartásban legalább 1 személy lakik, de van olyan is, ahol a kérdezett személlyel együtt még másik 12, átlagban körülbelül három és fél (3,44) lélek esik egy háztartásra. A megkérdezettek fele legfeljebb 3 személyes háztartásban lakik. A 2000. év szeptemberi jövedelme a megkérdezettek saját bevallása szerint (19 nem válasz mellett) maximun 10 millió régi lej és viszonylag sok a jövedelemmel nem rendelkezők száma és aránya (58 személy, 13,1%). A személyek fele nem több, mint egy és egynegyed millió lejes jövedelmet vall be.
32
MEZEI ELEMÉR
A DESCRIPTIVES utasítással a következőképpen járunk el: des a02 a05 a06. Egyetlen táblázatban találjuk a kiszámított mutatókat: Descriptive Statistics
N A02 A kerdezett szemely eletkora A05 A haztartasban (gazdasagban) lako szemelyek szama A06 A kerdezett szemely jovedelme 2000 szeptembereben Valid N (listwise)
Mean
Std. Deviation
Minimum
Maximum
439
18
87
48.62
16.37
444
1
13
3.44
1.74
425
0
10000000
1256861
1319250
420
Az Spss védett márkajegy
Ha egyből ezzel próbálkozunk, nem vesszük esetleg észre, hogy a jövedelemnél a 99-es kód érvénytelen, annak ellenére, hogy cimkéjében erre utalás volt. Amennyiben egy már sokszor használt adatállományon dolgozunk és már elrendeztük az érvénytelen válaszokat, úgy nyugodtan alkalmazhatjuk ezt az utasítást is, ilyenkor a nagyon hosszú gyakoriságtáblák zavaróak lehetnek (a gyakoriságtáblák elrejtését is kérhetjük, de ez még egy opció beszúrását jelentené). A fenti táblázat tartalmazza még azt az információt is, hogy mindhárom változóra nézve egyidőben 420 esetben van érvényes válasz (Valid N).
BEVEZETÉS A STATISZTIKÁBA
33
6. Az átlag és szórás kiszámítása részeredmények alapján Előfordulhat olyan helyzet is, hogy részsokaságonként ismeretesek az átlagértékek és a szórások, és ezekből kell meghatározni a teljes sokaságban mérhető átlagot és szórást. A következőkben a levezetések kissé bonyolult jelöléseket igényelnek. Tételezzük fel, hogy egy N elemű sokaságon értelmezett egy mennyiségi ismérv (X). Ha a sokaságot több (k számú) alsokaságból hozzuk össze, akkor lényegében van egy minőségi ismérv is (Y), amelynek kategóriáit jelöljük 1-től k-ig terjedő számokkal. A különböző egyedek ezen minőségi ismérvre vonatkozóan azt a sorszámot kapják, ahányadik csoportból származnak. A mennyiségi ismérv értékeit egyrészt jelöljük xi-vel (i=1..N), másrészt egy új jelölésbe vegyük be azt is, hogy melyik Y-beli kategóriához tartozó elem értékéről van szó: xij, ahol j=1..k, i=1..nj és nj a j-edik kategóriába tartozó esetek száma. Legyen m az egész sokaságra számított átlagértéke az X változónak, σ pedig a szórása és legyenek mj és σj ugyanennek a változónak az átlagértéke és szórása az Y szerinti j-edik
kategóriában (j=1..k). Ekkor nyilvánvalóan igazak az alábbi összefüggések: k
∑nj = N , j =1
m=
1 N
N
∑ xi =
i =1
n
1 N
⎛ nj ⎞ 1 ∑ ⎜⎜ ∑ xij ⎟⎟ = N j =1⎝ i =1 ⎠ k
(
⎛ 1 ∑ ⎜⎜ n j ⋅ n j j =1⎝ k
nj
⎞
i =1
⎠
1
k
∑ xij ⎟⎟ = N ∑ n j ⋅ m j j =1
)
1 j xij − m j 2 , j=1..k. ∑ n j i =1 A következő levezetés kissé bonyolult, de követhető és az eredmény megéri a fáradtságot: ⎞ ⎞ N k ⎛ nj k ⎛ nj N ⋅ σ 2 = ∑ (xi − m )2 = ∑ ⎜ ∑ xij − m 2 ⎟ = ∑ ⎜ ∑ xij − m j + m j − m 2 ⎟ = ⎜ ⎟ ⎜ ⎟ i =1 j =1⎝ i =1 ⎠ j =1⎝ i =1 ⎠ n ⎞ k ⎛ nj k ⎛ j ⎞ k ⎛ nj ⎞ k ⎛ nj = ∑ ⎜ ∑ xij − m j 2 + 2 xij − m j m j − m + m j − m 2 ⎟ = ∑⎜∑ xij − mj 2 ⎟ +∑⎜∑ mj − m 2 ⎟ +∑2⎜∑ mj xij − mxij − m2j + mmj ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ j =1⎝ i =1 ⎠ j=1⎝i=1 ⎠ j=1 ⎝i=1 ⎠ j=1⎝i=1 nj nj nj ⎞ k k k ⎛ nj = ∑n jσ 2j + ∑n j mj − m 2 + 2∑⎜ mj ∑xij − m∑xij −m2j ∑1+ mmj ∑1⎟ = ⎜ ⎟ j =1 j =1 j =1⎝ i =1 i=1 i=1 i =1 ⎠
σ 2j =
(
[(
)
(
)(
)]
) ( (
k
k
j =1
j =1
(
)
k
)
(
(
)
)
(
(
)
)⎟⎟ = ⎞ ⎠
)
(
)
= ∑n jσ 2j + ∑n j m j − m 2 + 2 ∑ m j n j m j − mnj m j − n j m2j + mmj n j = j =1
k
k
j =1
j =1
∑ n jσ 2j + ∑ n j (m j − m )2 .
Az utóbbi összegben szokták az első tagot a csoportokon belüli négyzetösszegnek (Qw, within=belül) nevezni, a második tagot pedig a csoportok közötti négyzetösszegnek (Qb, between=között). Amennyiben mindkét oldalt elosztjuk az összesetek számával, akkor az alábbi összefüggéshez juthatunk: k
k
∑ n j (m j − m )2
∑ n jσ 2j σ2 =
j =1
n1 + n2 + ... + nk
+
j =1
n1 + n2 + ... + nk
= σ w2 + σ b2 ,
ahol σ w2 nevezhető a csoportokon belüli szórásnégyzetnek (pontosabban a csoportokon belüli szórásnégyzetek súlyzott középarányosának), σ b2 pedig a csoportok közötti szórásnégyzet (lényegében az a teljes szórásnégyzet, ami akkor adódna, ha mindegyik csoportban a megfigyelt értékeket helyettesítenők az illető csoport átlagával, azaz a csoportok abszolút homogének lennének). Alkalmazás szempontjából ez utóbbi képlet egyszerűbben megjegyezhető, ha például k=2 esetre írjuk fel: n1σ 12 + n2σ 22 n1 (m1 − m )2 + n2 (m2 − m )2 , + n1 + n2 n1 + n2 ehhez még hozzá szokták venni az átlagérték megfelelő képletét: n m + n2 m2 . m= 1 1 n1 + n2
σ2 =
34
MEZEI ELEMÉR Konkrét alkalmazásként tekintsük egy 1998-as felmérésből számított adatokat: 11. tábla. Átlagéletkor és szórás csoportokon belül A helyi orvosi ellátással való elégedettségi szint
Átlagéletkor
Esetszám
Szórás
Szórásnégyzet
Nagyon elégedett
53,47
15
16,66
277,716
Kissé elégedett
55,30
161
14,69
215,650
Kissé elégedetlen
56,16
86
15,10
227,950
Nagyon elégedetlen
54,41
32
18,53
343,179
?
?
?
Összesen
?
Legkönnyebben az összesetszám számolható ki: N = n1 + n2 + n3 + n4 = 15 + 161 + 86 + 32 = 294 Ezután következik a 294 személy átlagéletkorának a kiszámítása: n m + n m + n3 m3 + n4 m4 15 ⋅ 53 , 47 + 161 ⋅ 55 ,30 + 86 ⋅ 56 ,16 + 32 ⋅ 54 , 41 m= 1 1 2 2 = = 55 ,36 294 N A legtöbb műveletet a szórásnégyzet kiszámítása igényli: σ2 =
=
+
n1σ12 + n2σ22 + n3σ32 + n4σ42 n1(m1 − m)2 + n2 (m2 − m)2 + n3(m3 − m)2 + n4 (m4 − m)2 + = N N
15 ⋅ 277 , 716 + 161 ⋅ 215 , 650 + 86 ⋅ 227 ,950 + 32 ⋅ 343 ,179 + 294
15⋅ (53,47− 55,36)2 +161⋅ (55,30− 55,36)2 + 86⋅ (56,16− 55,36)2 + 32⋅ (54,41− 55,36)2 = 294
= 236,295 + 0,470 = 236,765, és σ = 15,39 Meg kell jegyezni itt azt is, hogy amennyiben a részeredményeink mintaszórást tartalmaznak, úgy módosul a szórásnégyzetet adó képlet is. Például az előbbi feladatban szereplő esetekre az Spss a következő mintaszórásokat és mintavarianciákat adja: 12. tábla. Átlagéletkor és mintaszórás csoportokon belül A helyi orvosi ellátással való elégedettségi szint
Átlagéletkor
Esetszám
Mintaszórás
Mintavariancia
Nagyon elégedett
53,47
15
17,25
297,552
Kissé elégedett
55,30
161
14,73
216,998
Kissé elégedetlen
56,16
86
15,19
230,632
Nagyon elégedetlen
54,41
32
18,82
354,249
Az átlagértéket ugyanúgy számítjuk ki (m = 55,36), de s2 =
(n1 − 1)s12 + (n2 − 1)s22 + (n3 − 1)s32 + (n4 − 1)s42 + N −1
n (m − m ) + n2 (m2 − m ) + n3 (m3 − m )2 + n4 (m4 − m )2 + 1 1 = N −1 14 ⋅ 297,552 + 160 ⋅ 216,998 + 85 ⋅ 230,632 + 31 ⋅ 354,249 = + 293 2
+
2
15⋅ (53,47−55,36)2 +161⋅ (55,30−55,36)2 +86⋅ (56,16−55,36)2 + 32⋅ (54,41−55,36)2 = 293 = 237,102 + 0,471 = 237,573,
és s = 15,41 Ez utóbbi két végeredményt kapjuk, ha az Spss programmal dolgozunk (ezrednyi eltérések adódhatnak a kerekítések miatt).
BEVEZETÉS A STATISZTIKÁBA
35
7. Mennyiségi ismérvek intervallumokba való sorolása A mennyiségi ismérvek gyakran, főleg ha a sokaság elég nagy, nagyszámú különböző felvett értéket sorakoztatnak fel. Az előző részben a 444 személyes mintában már példáztuk az életkor eloszlását, de a felvett attributumok (egész számmal kifejezett életkorok) listája olyan hosszú volt, hogy csak részeit mutattuk be, azokat, amelyek az ott tárgyaltakkal összefüggtek. De ha az egész ismérvet akarjuk jellemezni és bemutatni, az, hogy „A mintába vett sokaság 444 személyből áll. A legfiatalabb 18 éves, a legidősebb 87, a középső életkor a 48 év, 5 személy esetében nem tudjuk az életkort (1,1%). A személyek átlagos életkora 48,62” kevésnek bizonyul, több kvantilist is felsorolhatunk a részletesebb leíráshoz, de legjobbnak az bizonyul, ha az életkor skáláját intervallumokra bontjuk és az intervallumba esés gyakoriságát adjuk meg (táblázatban abszolút és/vagy gyakoriságokként, vagy grafikusan ábrázolva). A probléma itt csupán az intervallumok számának és végeinek a megválasztása, az intervallumba sorolás egyszerű feladat, akár kézzel, pálcikák huzogatásával ejtjük meg, akár számítógép segítségével érjük el. Egyes kutatásokban egyszerű a feladata a szakembernek, ha rendelkezésére áll már korábban végzett hasonló témájú kutatások eredményeinek bemutatása, ekkor az ott használt intervallumokat átveszi, ezáltal összehasonlíthatóvá válnak a kutatások eredményei. Máskor egyéb megfontolásokból kész intervallumokkal rendelkezik (törvények és rendeletek írhatják elő a különböző intervallumokat: az egy főre eső jövedelem, amikor társadalmi segélyekről van szó; a vállalkozások forgalma adózási céllal stb.). Az életkor esetében a nagy (és egyben kevés számú) intervallumok a biológiai állapotokat próbálja meg visszaadni, így a 0–14 év, 15–64 év és a 65 év és ennél idősebb (jobbra nyitott intervallum8) kategóriákat szokták használni. Négy intervallum esetén a 15–64 éves kort bontják két részre: 15–39 év és 40–64 év. Az életkorintervallumoknál minősítést is használhatunk az intervallum megnevezésére: fiatalkorú, aktív korú, idős korú, ugyanúgy nevezhetjük alacsony jövedelműnek, közepes jövedelműnek és magas jövedelműnek a keresetek intervallumait. Több intervallumot (8, 10 és mégtöbb) is használhatunk a mennyiségi ismérv leírására, de inkább a grafikus ábrázoláskor éljünk ezzel és csak akkor, ha a sokaság legalább száz esetet tartalmaz. Létezik és régebben nagy becsben állt olyan képlet, mely megadta az intervallumok számát és hosszát, de mára ez egyáltalán nem fontos. Visszatérve az előbbi részben tárgyalt három mennyiségi ismérvhez (életkor, a háztartásban lakó személyek száma és a kérdezett személy jövedelme), ezek intervallumba sorolását és eloszlását az Spss program a következőképpen oldja meg: fre a02 a05 a06 /his. Ha nem adunk meg semmit az intervallumok alsó es felső határát illetően illetve az intervallumok számát sem adjuk meg, akkor a programban leírt, optimálisnak tartott procedura szerint történik ez. Az eredmények egyszerű hasábdiagramok, nem is kell több cifraság, azt kell ezeken az ábrákon észrevenni, hogy a szélsőértékek nem esnek-e túl távol a többi értékektől, és ezt könnyebb észrevenni egy egyszerű ábrán. Histogram
Histogram 200
60
50
40
30
100
Std. Dev = 16.37
10
Frequency
Frequency
20
Mean = 48.6 N = 439.00
0 20.0
30.0 25.0
40.0 35.0
50.0 45.0
60.0 55.0
70.0 65.0
80.0 75.0
Std. Dev = 1.74 Mean = 3.4 N = 444.00
0
85.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
A haztartasban (gazdasagban) lako szemelyek szama
A kerdezett szemely eletkora
Az életkorok jól kitöltik a teljes skálát, a háztartásban lakó személyek száma viszont feltűnően balra tornyosuló ábrát mutat. Az elmúlt havi jövedelem változójánál viszont még jobban feltűnik az, hogy a legnagyobb változóérték, a 10 milliós jövedelem messze esik a többiektől. Histogram 120
100
80
60
Frequency
40 Std. Dev = 1319250
20
Mean = 1256861.2 N = 425.00
0
10
90
80
70
60
50
40
30
20
0 00
0 00
0 00
0 00
0 00
0 00
0 00
0 00
0 00
0 00
0
10
0.
. 00
0
0
0
.0
. 00
0 00
. 00
0
0
0
. 00
. 00
0
0
. 00
. 00
0
. 00
. 00
A kerdezett szemely jovedelme 2000 szeptembereben
Az Spss védett márkajegy 8
Figyelmeztetném a kedves olvasót arra, hogy a középiskolában hallott már a nyílt intervallumról, itt nem erről van szó, hanem arról, hogy az intervallum felső végét nem adjuk meg (számtan órán erre a ∞ jelt használtuk). Életkornál kissé nevetségesen hangzana a [65, ∞) szimbólum használata, ezt az intervallumot egyszerűen csak “ 65+”-szal jelöljük.
36
MEZEI ELEMÉR
Régen, amikor a kézi számítás még napirenden volt, a mennyiségi ismérv értékeit elég sok intervallumba sorolták be, a számításokban az intervallumközepeket használták. Ma számítások végett ilyet ne csináljunk, a számítógépes programok, akár az Excel, akár az Spss, akár más programcsomag számára nem gond a sok művelet elvégzése, sem idő, sem pontosság tekintetében. Példázni fogjuk itt az átlagéletkor kiszámítását az előbbi sokaság esetében, intervallumokra bontással. Több intervallumot használjunk erre a célra, az intervallumokba esés gyakoriságát azért az Spss programmal számítsuk ki (439 személy életkorát kellene elhelyezni). Az erre szolgáló utasítás a RECODE, de előtte hozzunk létre egy új változót az életkorok tartalommal és ebben kódoljuk újra az években kifejezett életkorokat, ugyanis az életkor pontos, években kifejezett értékére további elemzésekben még szükség lehet, másrészt hibát is ejthetünk a kódolás utasításának szerkesztése során és ha megvannak az eredeti életkorok, akkor újra próbalkozhatunk, ha ezekkel az eredeti korévekkel feltöltjük a kódolásra szánt változót. További javaslatom az, hogy ha az eredeti értékeket tartalmazó változó neve például a02, akkor a 7 intervallumba sorolt értékeket tartalmazó változó neve legyen r7a02, így megszokható, hogy az r-betűvel kezdődő változóban 7 kategória van és az a02 nevű változó értékeinek újrakódolásával jött létre, az r3a02 nevűben 3 intervallumba lett sűrítve az a02 változó értékei. comp r7a02=a02. for r7a02 (F3.0). var lab r7a02 'Eletkor 7 intervallumba suritve'. recode r7a02 (18 thru 29=1) (30 thru 39=2) (40 thru 49=3) (50 thru 59=4) (60 thru 69=5) (70 thru 79=6) (80 thru 87=7). val lab r7a02 1 '18-29 ev' 2 '30-39 ev' 3 '40-49 ev' 4 '50-59 ev' 5 '60-69 ev' 6 '70-79 ev' 7 '80-87 ev'. cro a02 by r7a02.
Itt a COMPUTE utasítás az új változó létrehozására és az a02 értékeivel való feltöltésére szolgál, a CROSSTABS-szal pedig egy kereszttáblázatot kérünk eredményként, amelyben ellenőrizhetjük az intervallumba sorolás helyességét (a bemutatott táblázatban erőssen lecsökkentve a sorok száma): A02 A kerdezett szemely eletkora * R7A02 Eletkor 7 intervallumba suritve Crosstabulation
Count
A02 A 18 kerdezett 19 szemely 20 eletkora 21 22 23 24 25 26 27 28 29 30 ... 39 40 ... 49 50 ... 59 60 ... 69 70 ... 79 80 83 85 87 Total
R7A02 Eletkor 7 intervallumba suritve 1 18-29 2 30-39 3 40-49 4 50-59 5 60-69 6 70-79 7 80-87 ev ev ev ev ev ev ev 4 5 7 3 4 7 3 7 6 8 12 7 3 ... 8 12 ... 6 11 ... 8 9 ... 7 7 ... 2 2 1 1 1 73 62 94 80 79 46 5
Total 4 5 7 3 4 7 3 7 6 8 12 7 3 ... 8 12 ... 6 11 ... 8 9 ... 7 7 ... 2 2 1 1 1 439
Az Spss védett márkajegy
BEVEZETÉS A STATISZTIKÁBA
37
A többi utasítással a későbbi adatelemzést könnyítjük meg, leírva az új változót és kódjait. Sokszor van olyan érzésünk, hogy fölösleges a cimkézés, mert úgyis tudom, mi mit jelent, ami valóban igaz, de csak aznap, sokszor másnap vagy hetek múlva már feledésbe merültek a használt intervallumvégek és kódjelentések. Az utolsó, ellenőrző műveletet se hagyjuk ki, sok buktatóval találkoztam már az elemzések során, sőt megjelent könyvben is találtam már nyomát a felületes, ellenőrzés nélküli újrakódolásnak. Itt egy erősen leegyszerűsített esettel példáznám az előbb említett helyzetet. Ismerve lakásonként a lakófelületet és a benne lakók számát, könnyen kiszámítható az egy személyre eső lakófelület és intervallumra osztással elérhető egy 3 kategóriás új változó, ahol a kódok jelentése: 1=Kevés (<10m2); 2=Közepes (≥10 és <20m2); 3=Sok (≥20m2). Egy táblázatba szedve bemutatom az eredmények alakulását, ahogy azt mi kézzel számolva lépésrőllépésre kapnánk, valamint azt, amit az Spss ad látszólag megfelelő utasításokkal, de végeredményben egyes esetekben tévesen. Sorszám
Lakófelület (m2)
Személyszám
Lakófelület/ Személy
Kézi kódolás: <10=1; 10≤..<20=2; ≥20=3
recode rlfsz (0.1 thru 9.9=1) (10 thru 19.9=2) (20 thru hi=3).
lakof
szsz
lfsz
rlfsz
rlfsz
1.
24,5
3
8,16…
1
1
2.
35,6
2
17,80…
2
2
3.
59,9
3
19,96…
2
4.
31,7
3
10,56…
2
2
5.
89,8
9
9,97…
1
9,97…
6.
83,4
4
20,85…
3
3
7.
18,3
1
18,30…
2
2
8.
17,6
2
8,80…
1
1
9.
120,0
5
24,00…
3
3
19,96…
A probléma ott van, hogy míg az ember tudja, hogy a 10-nél kisebb számok közt nincs legnagyobb, a számítógépes programnak meg kell adni azt a legnagyobb értéket, amit ő még 1-sel (<102/fő) kell kódoljon, és ha ezt 9,9-nek vesszük, akkor a 9,9-nél nagyobb de 10-nél kisebb értékek kimaradnak az újrakódolás műveletéből. Erre a hibára a már említett és javasolt ellenőrző utasítás rámutat (a szürke alapot nem a program jelenteti meg, a kihangsúlyozás céljából történt e feltűntetés): LFSZ * RLFSZ Lakofelulet per szemely (m2/fo) Crosstabulation
Count
LFSZ 8.17 8.80 9.98 10.57 17.80 18.30 19.97 20.85 24.00 Total
RLFSZ Lakofelulet per szemely (m2/fo) 2 10<= .. <20m2 3 >=20m2 1 <10m2 10 20 1 1 1 1 1 1
Total
1
2
3
1 1 2
1
1
1 1 1 1 1 1 1 1 1 9 Az Spss védett márkajegy
Látható, hogy az egész szám formátumú újrakódolt változóban a 9,98 négyzetméter/fő 10-nek jelenik meg, a 19,97 pedig 20-nak, és ennek ellenére nem kódolódott 2-re illetve 3-ra. E fura helyzet érthetővé válik, ha az egérmutatóval duplát kattintunk a táblázat fejlécében gyanusan sorakozó egyik rovatra (a 10-est vagy a 20-ast tartalmazóra), ekkor látni fogjuk, hogy az csak egy kerekített érték, a pontos érték 9,977777777778 stb. A hiba kiküszöbölhető úgy is, hogy az újrakódolás sorában ilyet írunk, hogy: “(0.1 thru 9.9999999=1)”, de írhatjuk az egy személyre eső lakófelületet kiszámító utasítást “comp lfsz=lakof/szsz.“ helyett a következő formában: “comp lfsz=trunc(10*lakof/szsz)/10.“ (ebben az esetben 1 tizedesjegyre csonkított érték tárolódik az adatállományban az új változóban).
38
MEZEI ELEMÉR
Nem ajánlom a RECODE utasításban az utolsó kódleírás után az else=sysmis-szel élni, mert az ellenőrzés ilyenkor kevésbé hatékony. Ha a recode rlfsz (0.1 thru 9.9=1) (10 thru 19.9=2) (20 thru hi=3) (else=sysmis). formát használjuk, a CROSSTABS-szal az előbbi táblázat helyett olyat kapunk, amelyben már nincsenek benne azok az oszlopok, amelyek a hiba jelenlétére utalnának. Érdekes, de talán rejtelmes is egy kicsit, az alábbi változat: recode rlfsz (20 thru hi=3) (10 thru 20=2) (0.1 thru 10=1).
ahol csak az új kódok leírásának a sorrendje változik meg és az, hogy az intervallumvégek ugyanazok és egészszámok: 10 és 20. A végrehajtás logikája a következő: a 20 és nagyobb értékek 3-sá változnak, a 10 és ennél nagyobb, de legfeljebb 20-as értékek 2-sé (de már nincs 20-as érték, mert az előbb azok már átváltozott 3-sá) és így tovább, és így az elvárt kódleírás lesz betartva. Egy kissé csúnyának tűnik az első említett változat (9,9999999 miatt), de könnyen érthető és hibához csak akkor vezetne, ha előfordulna olyan érték is, mint 9,99999996…, de ilyenkor a hiba felfedezése után az újrakódolás utasításába beszúrúnk még pár 9-est és az egész újrakódolás csomagot még egyszer végrehajtatjuk (bár igen valószínűtlennek tűnik olyan érték előfordulása, mint a 9,99999996…, ez mégsem olyan ritka az Spss esetében, előfordulhat az is (hogy miért, azt homály fedi), hogy például a 9,90-es bevezetett adatot 9,8999999999999999-nak tárolja a program (egész számok tárolásánál nem fordul elő ilyen), és ez is csak olyankor szokott problémát jelenteni, ha néhány tizedesjegyre kerekítés helyett csonkítást kell használni, ekkor az előbb említett 9,90 helyett 9,89-el is számíthat a program (csonkítást igen kevés alkalommal alkalmazunk, a tanügyben hivatalosan számított átlagokat 2 tizedesjegyre kell csonkítani, de ha ezeket a tanulmányi eredményeket tudományos kutatásban használjuk fel, kerekítéseket alkalmazunk, a számítógépes programok elsősőrban kerekítésre vannak berendezkedve). De térjünk vissza az életkor átlagának és szórásának a kiszámítására a kódolt változat alapján, a gyakoriságok már szerepelnek egyik eredménytáblázatban, onnan azokat átvéve (kézi feldolgozás esetén a pálcikák huzogatása után azokat összeolvasva) a következő módon járunk el (táblázat használata ajánlatos!): Korcsoport
Gyakoriság
Intervallumközép
Szorzat
Intervallumközép négyzete
Szorzat
i
fi
xi
fi⋅xi
xi2
f i ⋅ xi2
18–29
73
24
1752
576
42048
30–39
62
35
2170
1225
75950
40–49
94
45
4230
2025
190350
50–59
80
55
4400
3025
242000
60–69
79
65
5135
4225
333775
70–79
46
75
3450
5625
258750
80–87
5
84
420
7056
35280
Össz.
439
Innen adódik: m =
21557
∑ f i ⋅ xi ∑ fi
=
1178153
21557 = 49,10478... , ami kb. fél évvel több, mint az egyes életkorok pontos értékével 439
számított 48,62 év. A szórásra is eltérés szokott adódni:
σ2 =
∑ f i ⋅ xi2 − ⎛⎜ ∑ f i ⋅ xi ⎞⎟ ∑ f i ⎜⎝ ∑ f i ⎟⎠
2
=
1178153 − 49,104782 = 272,44039... , 439
ahonnan σ = 16,5057…, a pontos érték pedig 16,355… (az Spss adta 16,37 mintaszórás, nem pedig a teljes szórás). Így számolva kissé pontatlan értékek adódnak, de kézzel számolva sokkal gyorsabban megkapjuk ezt az eredményt, mint a pontosat, 439 szám összeadádával stb, kézi számításnál figyelembe kell venni azt is, hogy az egyszerű, de nagyon sok művelet elvégzésébe gyakran esik hiba, kézi számításnál is számíthatunk tehát hibás eredményre, és a véletlen hiba néha nagyon eltérő eredményt is szolgáltathat, ezért törekedtek őseink a minél kevesebb művelettel előállított eredmény elérésére, még akkor is, ha az nem a pontos értéket szolgáltatta (Ma is, még a számítógépes érában is, használatosak olyan eljárások, amelyek nem a pontos értéket szolgáltatják, hanem egy közelítő értéket – például a determinánsok kiszámítása, lineáris egyenletrendszerek megoldása, amikor sok az ismeretlen). Újrakódoláskor, amikor az intervallumok végeit mi kell meghatározzuk, lehet szempont az, hogy az új kódok gyakorisága kellő nagy legyen (legalább 10%), a statisztikai tesztek igénylik ezt az arányt. Igaz ugyan, hogy a tesztek elvégzésére a pontos értékeket – és nem az intervallumkódokat – használjuk, az eredmény szemléltetése érdekében a grafikus megjelenítéshez az intervallumokat használjuk. Álljon itt egy példa teszt nélkül (fogadjuk el, hogy valami összefüggés van a dolgok lényegében, aminek leírásához a képi segédlet jót tesz):
BEVEZETÉS A STATISZTIKÁBA
39
13. tábla. Jelenlegi aggasztó tényezők korcsoportok szerint (fiktív adatok) Életkor
< 35 év
35–49
50–64
65+
A legfontosabb 4 tényező, ami jelenleg aggasztja Összes válasz
Betegség
Árak növekedése Gyereke jövője Háború a közelben
84
21
33
16
14
100%
25,0
39,3
19,0
16,7
106
36
34
27
9
100%
34,0
32,1
25,5
8,5
109
40
45
13
11
100%
36,7
41,3
11,9
10,1
76
42
15
6
13
100%
55,3
19,7
7,9
17,1
A táblázat is jól mutatja, hogy a kor előrehaladtával a betegség, mint aggasztó tényező, egyre fontosabb, a gyerek jövője egyre kevesebbé aggasztja a már koros embereket stb. De egy grafikon még szemléletesebben tudja ezt bemutatni: 6. ábra. Mi aggasztja legjobban, korcsoportok szerint
65+
50-64
35-49
-34
0%
20% Betegseg
40% Arak novekedese
60% Gyereke jovoje
80%
100%
Haboru a kozelben
A kereszttáblázatok (is) tehát fontos szerepet játszanak egy jelenség mechanizmusának, összefüggéseinek leírásában, ezért itt egy kicsit részletesebben bemutatjuk ezeket. A tanulmány szövegébe ágyazott táblázataink aránylag kevés sort és oszlopot tartalmazzanak, amennyiben a sorok száma nagy, úgy a szöveg függelékébe kerüljenek ezek és a sorok közé grafikus ábrázolás kerüljön. A táblázatoknak mindig legyen címűk, sorszámozzuk is meg és mindig a táblázat fölé kerüljenek ezek. Ha a rovatok adatai más helyről származnak, a táblázat után adjuk meg a forrást. Ha egy tanulmányban a táblázatok alatt nincs említve forrás, akkor ez azt jelenti automatikusan, hogy annak tartalma saját kutató munkánk eredménye (ezért ha olyan táblázatokat közlünk saját nevünk alatt, amelyek tartalmát más helyről vettük át de a forrást nem nevezzük meg, plágiumnak minősül). A táblázatok mindig tartalmazzanak fejlécet, ennek rovataiban leírjuk azt, hogy miféle adatokat tartalmaznak az illető oszlopok cellái (rovatai). Ugyanúgy legyen oldalléc is (a baloldali első oszlop), amely rekeszeiben az sorok tartalmát írjuk le. Általában az objektívebb ismérv (nem, kor, lakóhely, felekezet, iskolázottság, foglalkozás stb.) kategóriáit az oldallécben soroljuk fel, a szubjektívebbét a fejlécben, ha százalékos eloszlást is adunk, akkor ez vízszintes felbontásban legyen. Egyértelműbb és könnyebben olvasható a táblázat, ha van összesítő sora és összesítő oszlopa. Ha csak százalékos eloszlást közlünk a rovatokban, akkor csak egyik összesítés jelenjen meg (sorba szedett százalékos eloszlások esetében az összesítő oszlop, illetve az oszlopokban történő relatívizásláskor az összesítő sor, annak ellenére, hogy ezek a 100%-ot tartalmazzák minden rovatukban, de éppen ez teszi világossá, hogy a százalékok milyen arányt is fejeznek ki. Például az alábbi táblázatból (fiktív adatok) elég nehezen jövünk rá, hogy a szürke alapú rovatban található érték mit is fejez ki:
40
MEZEI ELEMÉR
Életkor
Lakóhely Falu
Kisváros
Nagyváros
0–14 év
31,6
45,9
21,5
15–64 év
28,8
23,6
49,6
65+ év
39,6
30,5
28,9
100,0
100,0
100,0
Ha a táblázatban megjelenne az összesítő sor is: Összesen
Akkor nyilvánvaló volna, hogy a szürke rovat jelentése az, hogy a kisvárosi lakosok körében az aktív korúak aránya 23,6%. A fenti táblás anyag olyan formában is megjeleníthető, hogy csak egészre kerekített százalékokat tartalmaznak a rovatai, összesítő sor helyett pedig a fejlécben jelenik meg az az információ, amelyik helyettesíti őt: Életkor
Lakóhely Falu (=100)
Kisváros (=100)
Nagyváros (=100)
0–14 év
32
46
22
15–64 év
29
24
50
65+ év
40
31
29
Így megspórolható egy sor, a táblázat is a lényegesebb információt tartalmazza rövidebb formában.
BEVEZETÉS A STATISZTIKÁBA
41
8. A korrelációs együttható 8.1. A korrelációs együttható értelmezése
Mennyiségi változókra vonatkozóan találtunk már egyfajta együttes változást jellemző mérőszámot, éspedig a kovarianciát. Említettük akkor ennek hibáját is, azt hogy mértékegységtől függő. Ebben a részben elemezzük ennek a mutatónak a tulajdonságait, ezek alapján értelmezünk egy relatív mutatót, a korrelációs együtthatót. Emlékeztetőül, két változó kovarianciájának az értelmezése: 1 N cov( X , Y ) = ∑ (xi − x )( yi − y ) . N i =1 Ha az xi − x
yi − y
, β = (β1 , β 2 ,..., β N ) N N jelöléseket használjuk, akkor a kovariancia az α és a β vektorok skaláris szorzata. A skaláris szorzatról lineáris algebrából ismert tulajdonság az, hogy abszolút értékben nem lehet nagyobb a vektorok hosszának (normájának) szorzatánál: α ⋅ β ≤ α ⋅ β , azaz:
αi =
, α = (α1 , α 2 ,..., α N ) és a β i =
2
2
N ⎛ y −y⎞ N ⎛x −x⎞ x −x y −y ∑ i ⋅ i ≤ ∑ ⎜⎜ i ⎟⎟ ⋅ ∑ ⎜⎜ i ⎟⎟ , N N N ⎠ N ⎠ i =1 ⎝ i =1 ⎝ i =1 N
N
∑
(xi − x )⋅ ( yi − y ) ≤ N
i =1
N
(xi − x )2
i =1
N
∑
⋅
N
( yi − y )2
i =1
N
∑
,
az ismert jelölésekkel pedig: cov( X , Y ) ≤ σ X ⋅ σ Y Fennáll tehát a következő tulajdonság:
cov( X , Y ) ≤1 σ X ⋅σ Y
Ez utóbbi tulajdonság lehetőséget kínál a mértékegységtől függő kovariancia relativizálására. Értelmezés: Két nem konstans változó (X és Y) korrelációs együtthatója értelmezés szerint az rXY =
cov( X , Y ) σ X ⋅σ Y
valós szám (nevezik még Pearson-féle korrelációs együtthatónak is). A korrelációs együttható kifejezése további alakokat is ölthet: ____
xy − x ⋅ y
rXY =
de találkozhatunk olyannal is, mint: rxy =
⎞ ⎞⎛ ___ 2 ⎟⎜ 2 2⎟ x x y y − − ⎟⎟ ⎟⎟⎜⎜ ⎜⎜ ⎠ ⎠⎝ ⎝ ⎛ ___ ⎜ 2
,
N (∑ xy ) − (∑ x )(∑ y )
N
(∑ x )− (∑ x) 2
2
N
(∑ y )− (∑ y ) 2
2
.
8.2. A korrelációs együttható tulajdonságai: 1. rxy ∈ [− 1, 1] 2. rxy = ryx 3. rxx = 1 4. rx,− y = − rx , y
Ezen négy tulajdonság az értelmezésből szinte azonnal adódik. A következő három bizonyítása sem nehéz, az átlagértékek és a szórásnégyzetek tulajdonságait kell hozzá használni. 5. rx, y + a = rx, y 6. rx,k ⋅ y = rx, y (k ≠ 0)
7. Ha léteznek a, b ∈ R , b ≠ 0 úgy, hogy Y=b⋅X+a, akkor rxy = ±1 . Ha a b > 0, akkor r = +1, ha pedig b < 0, akkor r = –1.
42
MEZEI ELEMÉR
A következő tulajdonságnak a bizonyítása már nem olyan egyszerű, az eddig bemutatott összefüggések használatával is sok átalakítást igényelne. Viszont a regressziószámítás eredményei közt ennek a tulajdonságnak az igaz voltára is rámutatunk. 8. Ha rxy = ±1 , akkor léteznek a, b ∈ R , b ≠ 0 úgy, hogy Y=b⋅X+a.
Ez utóbbi tulajdonság alapján azt mondhatjuk el, hogy a korrelációs együttható lineáris kapcsolatra utaló mutató. A két végletben, a –1 és a +1-es érték esetében, függvényszerű kapcsolat áll fenn a két változó között, éspedig elsőfokú (lineáris) függvénnyel jellemezhető kapcsolat (lineáris függőség); ha pedig az értéke 0, akkor azt mondjuk, hogy a változók lineárisan függetlenek. A lineárisan függetlenség nem zárja ki az egyéb fajta függvénykapcsolatot. Erre példa lehet az yi = xi2 , xi = –1, 0 és 1 eset (N=3), amikor is rxy = 0 a másodfokú függvénykapcsolat ellenére. A lineáris függőség vagy függetlenség elméleti fogalom, konkrét, valós változókra nagyon ritka, amikor a korrelációs együttható értéke pontosan +1, –1 vagy 0. A +1 vagy –1 előállásakor inkább hiba csúszott az elemzésbe, a program parancskötegébe olyan változókat vettünk be, amelyeket mi hoztunk létre lineáris kifejezés felhasználásával vagy ilyen kapcsolatra vezető kifejezésekkel (például településenként a férfiak és a nők százalékos arányát tartalmazó két változó korrelációs együtthatója pontosan –1, a hőmérsékleteket Celsius-fokban illetve Fahrenheit-fokban tartalmazó változók korreláciűs együtthatója +1). A valós helyzetekben a korrelációs együttható abszolút értéke 0 és 1 közé esik, ha 1-hez közeli értékű, azt mondjuk, hogy a változók korreláltak, ha pedig 0-hoz közeli, akkor korrelálatlanok. A korreláló változók értékei egyféle együttjárást mutatnak. Ha pozitív a korrelálás (r > 0), akkor többnyire az egyik változó nagyobb értékeihez a másik változó nagyobb értékei tartoznak, a kisebbekhez pedig kisebbek. Negatív korrelálás (r < 0) esetén az egyik változó nagyobb értékeihez a másik változó kisebb értékei felenek meg inkább és a kisebbekhez nagyobbak. Konkrét esetekben használni kell a változók jelentését (életkor esetében fiatalabb–idősebb, jövedelemnél kisebb jövedelmű– nagyobb jövedelmű, de lakásfelszereltség esetében már szegényebb–gazdagabb, testmagasságnál alacsonyabb–magasabb, tanulmányi eredményeknél jól tanuló–rosszabbul tanuló stb.). Példák a korrelációs együttható jellemzésére 1. Egy vizsgálatban résztvevő 27 diák évvégi matematika és fizika általánosának a korrelációs együtthatója r=0,586.
Az évvégi matematika és fizika általános jegyei pozitívan korrelálnak (r=0,586), éspedig a matematikából jobb eredményt elérő diákok általában fizikából is jobbak, a matematikában gyengébbek fizikából is gyengébbek. 2. Egy helységben 354 személy elmúlt havi jövedelme és életkora között a korrelációs együttható r=0,016.
A személyek jövedelme és életkora korrelálatlan (r=0,016), vagyis mind a fiatalabbak, mind az idősebbek közt gyakoriak a kisebb meg nagyobb keresetűek. A korrelációs együttható kiszámítására (főleg ha az esetek száma nagy) használjuk a számítógépes programokat. Az Spss egy igen rövid utasítással szolgáltaja a korrelációs együtthatót, az Excel-hez képest az előnye akkor domborul ki igazán, ha nagyon sok változó egymás közti korrelációs együtthatóit kell kiszámítani. Ha például az Spss mappájában lévő Word95.sav nevű állományt vesszük, az utasítás Syntax Editor-ban a következő is lehet: cor populatn density urban lifeexpf lifeexpm literacy pop_incr babymort gdp_cap. A változónevek beírását könnyíti a változók adatait bemutató ablakban ( (vagy változóknál, kijelöléssel) a Paste gomb benyomása:
gombra nyílik) a kiválasztott változónál
Az Spss védett márkajegy
A 9 változó felsorolásával kért korrelációs együtthatók táblázatából (lásd a következő oldalon) kihagytam a középső részt (a szignifikanciaszinteket tartalmazza), így is nagyon nagy, sok oszloppal és sorral, sőt a korrelációs együtthatókat kétszer is szerepelteti (korrelációs együtthatók mátrixát mutatja). A második részben arról kapunk információt, hogy hány esettel van kiszámítva a megfelelő helyen levő korrelációs együttható.
BEVEZETÉS A STATISZTIKÁBA
43 Correlations
Pearson Correlation
N
POPULATN Population in thousands DENSITY Number of people / sq. kilometer URBAN People living in cities (%) LIFEEXPF Average female life expectancy LIFEEXPM Average male life expectancy LITERACY People who read (%) POP_INCR Population increase (% per year)) BABYMORT Infant mortality (deaths per 1000 live births) GDP_CAP Gross domestic product / capita POPULATN Population in thousands DENSITY Number of people / sq. kilometer URBAN People living in cities (%) LIFEEXPF Average female life expectancy LIFEEXPM Average male life expectancy LITERACY People who read (%) POP_INCR Population increase (% per year)) BABYMORT Infant mortality (deaths per 1000 live births) GDP_CAP Gross domestic product / capita
POPULATN Population in thousands 1.000
DENSITY Number of people / sq. kilometer -.018
URBAN People living in cities (%) -.175
LIFEEXPF Average female life expectancy -.071
LIFEEXPM Average male life expectancy -.033
LITERACY People who read (%) -.064
POP_INCR Population increase (% per year)) -.050
BABYMORT Infant mortality (deaths per 1000 live births) .088
GDP_CAP Gross domestic product / capita -.087
-.018 -.175
1.000
.223
.128
.151
.031
-.165
-.142
.201
.223
1.000
.743
.730
.650
-.375
-.718
.605
-.071
.128
.743
1.000
.982
.865
-.579
-.962
.642
-.033
.151
.730
.982
1.000
.809
-.502
-.936
.639
-.064
.031
.650
.865
.809
1.000
-.699
-.900
.552
-.050
-.165
-.375
-.579
-.502
-.699
1.000
.602
-.521
.088
-.142
-.718
-.962
-.936
-.900
.602
1.000
-.640
-.087
.201
.605
.642
.639
.552
-.521
-.640
1.000
109
109
108
109
109
107
109
109
109
109
109
108
109
109
107
109
109
109
108
108
108
108
108
107
108
108
108
109
109
108
109
109
107
109
109
109
109
109
108
109
109
107
109
109
109
107
107
107
107
107
107
107
107
107
109
109
108
109
109
107
109
109
109
109
109
108
109
109
107
109
109
109
109
109
108
109
109
107
109
109
109
Az Spss védett márkajegy
Akkor, ha nem minden változónak kell a korrelációs együtthatója mindegyikkel, csak egy csoport változónak (állhat egy változóból is) egy másik csoport változóival, akkor használjuk az utasítás szövegében a megfelelő helyen a with szócskát. Például ha csak a várható élettartamoknak a korrelációs együtthatójára van szükségünk a többi 7 változóra nézve, akkor az utasítás legyen: cor populatn density urban literacy pop_incr babymort gdp_cap with lifeexpf lifeexpm. A with szócska előtt álló változók az eredménytáblázatban sorokba kerülnek, az utána következők oszlopokba. Correlations
Pearson Correlation
N
LIFEEXPF LIFEEXPM Average female Average male life expectancy life expectancy POPULATN Population in thousands -.071 -.033 DENSITY Number of people / sq. kilometer .128 .151 URBAN People living in cities (%) .743 .730 LITERACY People who read (%) .865 .809 POP_INCR Population increase (% per year)) -.579 -.502 BABYMORT Infant mortality (deaths per 1000 live births) -.962 -.936 GDP_CAP Gross domestic product / capita .642 .639 POPULATN Population in thousands 109 109 DENSITY Number of people / sq. kilometer 109 109 URBAN People living in cities (%) 108 108 LITERACY People who read (%) 107 107 POP_INCR Population increase (% per year)) 109 109 BABYMORT Infant mortality (deaths per 1000 live births) 109 109 GDP_CAP Gross domestic product / capita 109 109
Az Spss védett márkajegy
A táblázatban található számos korrelációs együttható alapján tömören azt mondhatjuk el, hogy: A férfiak és a nők várható élettartama nem korrelál az ország területi nagyságával, se a népesség számával (tehát kisebb országok meg nagyobb országok közt is van számos, ahol alacsony a várható élettartam és megint számos, ahol magasabb ez az mutató), viszont a többi vizsgálatba vett változóval jól korreláltak ezen mutatók. A legerősebb korrelálás a csecsemőhalandősággal áll fenn: mely országokban alacsony a csecsemőhalandóság, azokban magasak a férfiak, illetve a nők várható élettartama, ahol pedig magas a csecsemőhalandóság, ott alacsony a várható élettartam. Negatív korrelálás áll fenn a várható élettartamok és a népesség növekedési üteme között: azon országokban, ahol gyors a népesség növekedése, alacsonyabb a várható élettartam. A többi változóval pozitív korrelálás áll fenn: azokban az országokban, ahol magas a várható élettartam (úgy a férfiaké, mint a nőké), ott többnyire magas az írástudók aránya, sok a városlakó az összlakosságban, illetve nagyobb az egy lakosra jutó bruttó hazai termék.
44
MEZEI ELEMÉR
Óvakodjunk az olyan megfogalmazásoktól, mint például az, hogy a magasabb várható élettartam eredményeképpen kisebb a csecsemőhalandóság, mert itt például az ok a csecsemőhalandóság, ez nagyrészben okozza az alacsonyabb várható élettartamot (lásd a demográfia tantárgynál). Ha egyértelmű is az ok-okozati kapcsolat, akkor is ajánlatos kerülni az eredményeképpen, miatt stb. szavak használatát, mert szemlélet kérdése is lehet az ok-okozat összefüggés. Példaként álljon egy (fiktív) sokaság búzával megművelt parcellákból, a két változó legyen a felhasznált műtrágya mennyisége (kg/ha) és a búza hozama (q/ha). Ha a korrelációs együttható r=0,846, elmondhatjuk, hogy a felhasznált műtrágya mennyisége pozitívan és jól korrelál a búza hozamával, éspedig ahol több műtrágyát használtak, ott többnyire a búza hozama is nagyobb volt. Nem lenne szerencsés az a megfogalmazás, hogy több műtrágya használata nagyobb búzahozamot eredményez, mert ez biológiailag helyes ugyan, de az emberi beavatkozás (társadalomstatisztika!) szempontjából fordított a helyzet, a műtrágya azért kerül a földbe, mert nagyobb hozamra számít a gazda! A nagyobb hozam (reménye) váltja ki a műtrágya földbe kerülését! 8.3. Rangok korrelációja Nem egy másképp értelmezett korrelációs együtthatóról van szó, hanem arról, hogy bizonyos esetekben a korrelációs együttható kiszámítása leegyszerűsíthető, ami kézi számítások esetében nem elhanyagolható szempont. Ilyen eset az, ha a két mennyiségi változó értékei sorrendeket tartalmaznak. Tegyük fel, két borszakértőt felkérnek arra, hogy 9 palack bort rangsoroljanak egymástól függetlenül és ennek eredményeként az alábbi táblázat állítható össze:
17. tábla. Kilenc borfajta rangsora két szakértő szerint Megnevezés
Első szakértő rangsora
Második szakértő rangsora
1. palack
5.
2.
2. palack
2.
4.
3. palack
8.
6.
4. palack
1.
3.
5. palack
6.
9.
6. palack
4.
8.
7.palack
7.
5.
8. palack
3.
1.
9. palack
9.
7.
Amennyiben a rangsorolók jó borszakértők, azaz ugyanolyan – objektív – szempontok szerint értékelik a borokat, akkor a sorrendek kevés eltérést fognak mutatni, ha pedig szubjektív okok is közrejátszanak valamely rangsor felállításában vagy nem igazán jó szakértő legalább egyik közülük, akkor a rangsorok nagy eltérést fognak mutatni. A véletlen beavatkozásának eredménye a korrelálatlanság lesz. N
6∑ d i2
A rangok adta mennyiségi ismérvekre levezethető egy egyszerűen alkalmazható számítási képlet: rxy = 1 −
i =1 2
N (N − 1)
(nevezik még Spearman-féle rangkorrelációs együtthatónak is), ahol di az i-dik eset két rangsorbeli helyének a különbsége. Kézi számítással így könnyen megkaphatjuk az előbbi példából a korrelációs együtthatót (a különbségek a rangsoroknál rendszerint jóval kisebbek és egész számok). A különbségek rendre: 3, –2, 2, –2, –3, –4, 2, 2 és 2, ezek négyzetei 9, 4, 4, 4, 9, 16, 4, 4 és 4, a négyzetösszeg pedig 58. Akkor 6 ⋅ 58 348 rxy = 1 − = 1− = 1 − 0,483 = 0,517 2 720 9 9 −1
(
)
Mégegyszer arra hínám fel a figyelmet, hogy nem egy újfajta értelmezésű együtthatót jelent a rangok korrelációja, hanem egyszerű alakra hozott képletet, amit nagyon sajátos helyzetben alkalmazhatunk csak. Előfordulhat, hogy egyik vagy másik szakértő két vagy több eset is ugyanarra a helyre rangsorol. Például, ha két eset is együttesen az első helyre van rangsorolva, akkor szokták 1.5-re venni mindkettő rangsorát az 1. és 2. helyett, ezáltal az átlagérték nem változik meg, de a szórás kissé módosul, így a Spearman-féle képlet kissé torzított értéket ad. A rangok korrelációját a számítógépes program mindig jól számítja ki, mert a Pearson-féle képletet alkalmazza.
Irodalom Babbie, E. (1995), A társadalomtudományi kutatás gyakorlata. Balassi Kiadó, Budapest. Éltes Z. (2004), Társadalmi és gazdasági statisztika elemei. Kolozsvári Egyetemi Kiadó. Hajdú O, Pintér J, Rappai G, Rédey K. (1994), Statisztika I. Carbocomp Kiadó, Pécs. Hunyadi L, Vita L. (2002), Statisztika közgazdászoknak, Központi Statisztikai Hivatal, Budapest. Hunyadi L, Mundruczó Gy, Vita, L. (1996): Statisztikai képletgyűjtemény és táblázatok. Aula Kiadó, Budapest. Hunyadi L, Mundruczó Gy, Vita, L. (2000): Statisztika. Aula Kiadó, Budapest. Lukács O. (1996): Matematikai statisztika. Műszaki Könyvkiadó, Budapest. Mezei E, Veres V. (2001), Társadalomstatisztika. Kolozsvári Egyetemi Kiadó.