MEZEI ELEMÉR
BEVEZETÉS A STATISZTIKÁBA
Egyetemi jegyzet
Kolozsvár 2004-2005
TARTALOMJEGYZÉK
I. A STATISZTIKA RÖVID TÖRTÉNETE ....................................... 5 II. A STATISZTIKA ALAPFOGALMAI............................................ 9 2.1. STATISZTIKAI SOKASÁG............................................................. 9 2.2. STATISZTIKAI ELEMZÉS ........................................................... 13 2.3. STATISZTIKAI MINTA ............................................................... 14 2.4. STATISZTIKAI ISMÉRVEK ......................................................... 15 2.5. A STATISZTIKAI ADATGYŰJTÉS................................................ 17 2.6. MÉRÉSI PROBLÉMÁK A TÁRSADALOMTUDOMÁNYOKBAN .......... 36 III. LEÍRÓ STATISZTIKA................................................................. 39 3.1. AZ ADATMÁTRIX ..................................................................... 39 3.2. A SOKASÁG LEÍRÁSA MINŐSÉGI ISMÉRVEK ALAPJÁN ............... 42 3.3. A SOKASÁG LEÍRÁSA MENNYISÉGI ISMÉRVEK ALAPJÁN.............. 48 3.3.1. A (számtani) átlag ..........................................................................48 3.3.2. Az átlag tulajdonságai ...................................................................50 3.3.3. A medián ........................................................................................52 3.3.4. Kvantilisek......................................................................................52 3.3.5. A terjedelem (amplitudó, angolul range).......................................52 3.3.6. A kvartilis deviáció ........................................................................53 3.3.7. Az átlagos eltérés ...........................................................................53 3.3.8. A szórás és a szórásnégyzet (variancia) ........................................53 3.3.9. A szórás tulajdonságai. Két változó kovarianciája........................57 3.3.10. Az átlag és szórás kiszámítása részeredmények alapján .............62
3.5. PÉLDÁK ................................................................................... 67
4
MEZEI ELEMÉR
IV. VALÓSZÍNŰSÉGSZÁMÍTÁS ALAPFOKON .......................... 71 V. KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSE .............. 83 5.1 MINŐSÉGI VÁLTOZÓK KÖZTI KAPCSOLAT ÉS MÉRÉSE ............... 84 5.2. MINŐSÉGI ÉS MENNYISÉGI VÁLTOZÓ KAPCSOLATA.................. 89 5.2.1. Átlagértékek összehasonlítása t-teszttel.........................................89 5.2.2. Átlagértékek összehasonlítása ANOVA-teszttel (F próba) ............93
5.3. MENNYISÉGI VÁLTOZÓK KÖZÖTTI KAPCSOLATOK. .................. 96 5.3.1. A korrelációs együttható................................................................96
VI. IDŐSOROK .................................................................................. 102 VII. BEAVATKOZÁSOK ELEMZÉSE .......................................... 104 VIII. MELLÉKLETEK...................................................................... 112 8.1. F-ELOSZLÁS (AZ F-PRÓBA KRITIKUS ÉRTÉKEI P=0.05-ÖS SZIGNIFIKANCIASZINTEN)...................................... 112 8.2. T-ELOSZLÁS (AZ T-PRÓBA KRITIKUS ÉRTÉKEI P=0.05, P=0.01 ÉS P=0.001-ES SZIGNIFIKANCIASZINTEKEN) .. 114 8.3. ℵ2 -ELOSZLÁS (AZ ℵ2 -PRÓBA KRITIKUS ÉRTÉKEI P=0.05, P=0.01 ÉS P=0.001-ES SZIGNIFIKANCIASZINTEKEN) .. 115 IX. IRODALOM ................................................................................. 116
BEVEZETÉS A STATISZTIKÁBA
5
I. A STATISZTIKA RÖVID TÖRTÉNETE A megszámlálás, a megszámlálhatóság az emberiség egyik legfontosabb tevékenysége volt, népcsoportok, törzsek túlélése függött attól, hogy élelemből elég tartalékkal rendelkeznek-e, harcosuk van-e elég, de attól is, hogy mennyi harcosa van a szomszédságban élő törzseknek, felvegyék-e a harcot velük vagy inkább fizessenek adót. Több mint négy évezreddel ezelőtt Kínában már tartottak népszámlálást, ismertebbek viszont a Biblia utalásai a népesség összeírásáról: a Számok Könyvében részletesen megtaláljuk a zsidók összeírásának minden lépését, igaz ugyan, hogy csak a hadba fogható férfiak számát tudakolták és közölték; ennél sokkal ismertebb az a cenzus, amelyet Jézus születésének évében tartottak a Római Birodalomban. A középkorban is tartottak népességösszeírást, de ezek kihangsúlyozottan katonai, adózási célokat szolgáltak; általában csak adatgyűjtések voltak, az adatok feldolgozása csupán összegzést jelentett. A statisztika mint tudomány körülbelül három és fél évszázadnyi múltra tekint vissza. A XVII. század második felében Angliában és Németalföldön, egymástól függetlenül, két áramlat indul el a társadalmi jelenségek leírására. Amikor John Graunt (1620–1674) angol nemes és amatőr tudós 1662-ben közzéteszi a halandóságról szóló tanulmányát, elindítja útjára a demográfia tudományát, de ugyanakkor észreveszi, hogy ezen demográfiai elemzések meglepő szabályosságot mutatnak térben és időben, és a társadalom terén is találhatók olyan törvényszerűségek, amelyek leírhatók a természettudományok szabatos törvé-
6
MEZEI ELEMÉR
nyeihez hasonlóan; megfogalmazódik tehát az az elv, hogy a társadalom jelenségei megismerhetők és leírhatók. Graunt kortársa, William Petty (1623–1687) ezt a tudományt a politikai aritmetika névvel illette meg, könyvének címe: Political Arithmetick, or a Discourse concerning the Extent and Value of Lands, People, Buildings (London, 1691). Németalföldön Hermann Conring (1606–1681) fogalmazza meg – Graunttal egyidőben – azt a szükségszerűséget, hogy a társadalmat meg kell ismerni és gyógyítani kell és ez megköveteli ennek olyszerű ismeretét, ahogyan az emberi testet ismernie kell egy orvosnak (Conring sokoldalú tudós: filozófus, orvos). Conring a helmstadti egyetemen 25 ország adatait ismertette meg a hallgatóival. Sokan úgy tartják, hogy az első statisztika tankönyv szerzője Veit Ludwig von Seckendorff, a hallei egyetem tanára, a könyv címe Teutscher Furstenstaat (1656), a tantárgy neve pedig Staatskunde volt. A német irányzatnak kizárólagos érdeme a statisztika (Statistik) szó használata az új tudományág megnevezésére (1749, Achenwall, 1719– 1772). A szó jelentésére két változat is él: egyik szerint a latin status (= állapot, helyzet) szóból kell kiindulni, a másik szerint a német Staat (=állam) szóból, de talán az a legjobb magyarázat a szó jelentésére, hogy az állam állapota. Érdekes, hogy Süssmilch (1707–1767), egy porosz tábori pap, a társadalom vizsgálatánál harmóniát, szabályszerűséget talált, ezeket viszont az isteni rendnek tulajdonította. Jellemző a statisztika sokféle értelmezésére és magyarázatára az, hogy másfél évszázaddal ezelőtt, amikor már önállósult ez az államleíró új tudományág, Gustav von Rümelin (1815–1889) a statisztikának 62 különböző értelmezését gyűjtötte össze, amelyet megtoldott egy saját értelmezéssel is. Valamivel később Ernst Engel (1821–1896) száznál is
BEVEZETÉS A STATISZTIKÁBA
7
több definiciót számlált össze. Ez a sok értelmezés nyilván azzal is magyarázható, hogy az idők során az új ismeretek (úgy az elméleti mint az empirikus ismeretek) más-más perspektívát mutattak az új tudományág elé. A legtöbb értelmezés “a társadalom jelenségeinek a tudománya” formájú, a statisztika céljának pedig “a tudd, hogy miért teszed azt” elvet jelölik meg. Fontos az, hogy a tömegesen előforduló jelenségek leírása lehet célja csupán a statisztikai elemzéseknek. A statisztika fejlődéséhez nagyban hozzájárult tudósok közül ime néhány nagy név: Edmund Halley (1656–1742) csillagász, Adolphe Quételet (1796–1874), Francis Galton (1822–1911), Karl Pearson (1857–1936), Ronald Aylmer Fisher (1890–1962). Mára a statisztikának is több ágazata van, mindegyik jól körülírható területtel. A statisztika egészére röviden azt a definiciót adhatjuk, hogy “egy sokaság egyedeiről gyűjtött számszerű adatoknak a rendszerezése és feldolgozása abból a célból, hogy a sokaság egészére – és nem egyedeire – általánosan érvényes összefüggések birtokába jusssunk” (1976, Vladimir Trebici). A statisztika fontosságára vonatkozóan érdekes az a kijelentés, miszerint a statisztika megfelelő ismerete nélkül a társadalomtudomány kutatója olyan, mint egy vak ember, aki egy sötét szobában keres egy fekete macskát, amelyik nincs is ott (Croxton,F.E., Cowden, D.J., Klein,S: Applied General Statistics, New York, 1967, p.1). A statisztika ágazatai közül megemlíthetjük a matematikai statisztikát (a nevéből is következtethető, hogy a statisztika által használt elméleti – matematikai – apparátus tudománya, a matematika tudományának egyik ágazata, talán nem is igazán tartozik a statisztika tudományához), a gazdasági statisztikát, a társadalomstatisztikát.
8
MEZEI ELEMÉR Ez a féléves anyag lényegében bevezetés a statisztikába, egy kicsit
matematikai statisztika, egy kicsit társadalomstatisztika és gazdaságstatisztika, illetve statisztikai analízis.
BEVEZETÉS A STATISZTIKÁBA
9
II. A STATISZTIKA ALAPFOGALMAI Ugyanúgy, mint az egzakt tudományokban, a statisztikában is vannak olyan fogalmak, amelyeket nem értelmezünk, hanem körülírjuk oly módon, hogy a hallgatók lényegében ugyanazt értsék a megnevezések alatt.
2.1. Statisztikai sokaság A statisztikai vizsgálatok tárgyát konkrét halmazok képezik: egy ország állampolgárainak a halmaza, egy megye lakosainak halmaza, Kolozsvár választójogú polgárainak a halmaza, a Babeş-Bolyai Tudományegyetem hallgatóinak a halmaza, a Szabadság című napilap olvasóinak a halmaza, a kolozsvári középiskolák halmaza, a szegény családok halmaza, Kovászna megye kisvállalkozóinak a halmaza stb. Minden halmazt, amely statisztikai elemzésnek vethető alá, statisztikai sokaságnak nevezünk. Mivel a statisztikai sokaság elemei konkrét személyek, intézmények, közösségek, a halmaz maga nem mindig ismert egyértelműen. Ha a sokaság elemei a sokaság megnevezése által nem különülnek el egyértelműen a többi, nem sokaságbeli egyedektől, akkor a sokaságba tartozást kell egyértelműen definiálni. Például a Szabadság című kolozsvári napilap olvasóinak táborát igen sokféleképpen értelmezik az emberek csupán a megnevezés alapján: (1) a napilap előfizetőinek a halmaza;
10
MEZEI ELEMÉR (2) azoknak az egyéneknek a halmaza, akik rendszeresen olvassák az újságot; (3) akik naponta olvassák az újságot; (4) akik naponta legalább egy cikket végégolvasnak az újságból, nemcsak az apróhírdetést, a TV-műsorokat böngészik; (5) akik az elmúlt héten naponta kezükbe vették a lapot; stb. A különböző értelmezések más-más halmazt írnak körül, teljes
pontossággal ezen halmazokról több-kevesebb információt tudunk: a legtöbbet (név szerint megnevezve a személyeket) az első definició szolgáltat, de ez a sokaság a legszűkebb (például az előfizetés tulajdonosának a házastársa – ha van – és egyéb felnőtt családtagja ugyanolyan rendszerességgel olvassa a lapot, de aki naponta vásárolja, az is rendszeres olvasója az újságnak, sőt az interneten böngészők is hozzáférnek a lap tartalmához). A különböző kutatások a látszólag ugyanolyan megnevezésű halmazt különbözőképpen értelmezhetik, a fontos az, hogy a kutatás céljainak tökéletesen megfeleljen a definició. Nagyon gyakran a statisztikai sokaság felbontható alsokaságokra, vagy már eleve különböző sokaságoknak tekintjük őket. Például, Kolozs megye lakosainak halmaza két alsokaságra bontható: a városlakók és a falun élők halmazára, de már eleve két sokaságként is tekinthetjük ezeket, külön egy 499.909-es lélekszámú városi népesség és egy 224.446 lelket kitevő falusi közösség1 sokaságaként. A két statisztikai sokaságra való bontás akkor szükséges, ha a kutatás nem ugyanazon időben történik a két közösségben, vagy ha más-más kutatócsoport hajtja végre,
BEVEZETÉS A STATISZTIKÁBA
11
illetve ha az egyik sokaság igen kicsi a másikhoz képest, az összehasonlító vizsgálatok ilyenkor megkövetelik arányukhoz képest nagyobb számban való megvizsgálásukat (amennyiben minta által történik ez). Egy statisztikai sokaság lehet véges vagy végtelen. A végtelen sokaság elméleti jelentőségű, de a valóságban nem ritka a gyakorlatilag végtelen sokaság (például egy 320000 lakosságú városból gyakorlatilag végtelen sok 1000 elemű minta vehető, habár az ilyen lehetséges minták száma véges:
1000 C 328000
. De ez a szám – egy kis átalakítással könnyen
belátható – meglepően nagy: 1000
320000 ⋅ 319999 ⋅ K 319001 ⎛ 320000 ⎞ = >⎜ ⎟ 1000 ⋅ 999 ⋅ K1 ⎝ 1000 ⎠
1000 C320000
(
)1000 = 2 5000 ⋅10 1000 > (10 ) ⋅ 10 = 10
= 3201000 =
= 320 1000 = 2 5 ⋅ 10
( )500 ⋅ 10 1000
= 210
3 500
1000
2500
,
akkor, amikor az ismert világegyetemben található elemi részecskék 80
száma 10
nagyságrendű.
Más szempont szerint a statisztikai sokaság lehet álló vagy mozgó sokaság. Az álló sokaság egy meghatározott időpontban levő állapotot rögzít, a mozgó sokaság pedig egy adott időtartamra jellemző jelenséget fejez ki. Például a Szabadság nevű napilap olvasóinak tábora 2002. februárjának utolsó hetében, vagy egy ország, megye, város, falu lakossága egy adott népszámlálás időpontjában. Mozgó sokaság például egy adott évben az élveszületettek, az elhalálozottak sokasága, a
1
Évközepi népességszám, 1997. július 1, Statisztikai évkönyv, 1998.
12
MEZEI ELEMÉR
házasságkötések, a válások sokasága, egy adott hónapban előállított egyfajta termékek sokasága stb.
BEVEZETÉS A STATISZTIKÁBA
13
2.2. Statisztikai elemzés A statisztika értelmezéséből kitűnik, hogy számadatok feldolgozásával foglalkozik. A számadatokkal meghatározott aritmetikai műveleteket hajtunk végre, miáltal újabb, tömörebb információhoz jutunk. A számok azonban nem önmagukért vannak, jelenségek leírására szolgálnak, tehát fontos, hogy hűen tükrözzék a valóságban lezajló folyamatokat, állapotokat, összefüggéseket. A statisztikában, ezek miatt, a számoknak a valósághoz való hozzárendelése fontos szerephez jut, más szóval kitüntetett helyet foglal el a mérés, mérési eszközök, a mérőeszközök validálása, ezek nagyrészt a társadalomkutatás módszertanához tartoznak. Ez a tantárgy lényegében bevezetés a statisztikai elemzésbe: statisztikai leírásokról és alapfokú statisztikai következtetésekről szól. Alapvető statisztikai elemzés a leírás (vagy a leíró statisztika): az adatok célszerű numérikus és grafikus elrendezése és megjelenítése, a sokaság egészére vonatkozó jellemzések céljából. A statisztikai következtetés alatt egyrészt a mintában észlelt eloszlásokból a sokaság egészére vonatkozó kijelentéseket értjük, másrészt a vizsgált sokaságban mért jelenségek egymás közti összefüggéseire tett kijelentéseket. Például, ha a kiválasztott mintában a Szabadság című napilap olvasóinak átlagos életkora 45 év, akkor kijelenthetjük, hogy az olvasók egészére vonatkozóan az életkor átlagosan 45 év, de tehetünk ilyen kijelentést is, hogy az átlagéletkor 44–46 év között van, vagy hogy ez 40–50 év között. Érezhető, hogy a fenti kijelentéseknek bizonyossági foka van, és az is érezhető – semmi más ismeret nélkül is –, hogy az olvasók átlagos életkora a 40–50 év közé nagyobb bizonyossági fokkal tehető, mint 44–46 év közé. A matematikai statisztika a bizonyossági foknak
14
MEZEI ELEMÉR
számszerű értéket ad, vagy a különböző megbizhatósági szintekhez megfelelő intervallumokat szolgáltat. Ugyanakkor a mintánkban előfordulhat, hogy a városlakó újságolvasók átlagos életkora kisebb, mint a falun élő társaiké, és ezt kijelenthetjük az egész olvasótáborra is. Nyilván itt is beszélhetünk kijelentésünk bizonyossági fokáról.
2.3. Statisztikai minta A vizsgálatba vett célsokaság általában igen sok elemű halmaz, vagy gazdaságilag-technikailag megoldhatatlan a pontos nagyságrend meghatározása és minden egyed megvizsgálása. Például a Szabadság napilap rendszeres olvasóinak a halmaza a korábban felsorolt értelmezések közül a negyedik alapján van jól meg meghatározva (körülírva), de minden egyedét ennek a halmaznak gyakorlatilag lehetetlen meghatározni (még Ausztráliában is vannak olvasói – interneten vagy megrendelés alapján). Ilyenkor a sokaság vizsgálata mintavétel alapján történik: egy kis elemszámú minta egyedeit megvizsgálva előbb a minta egészére teszünk kijelentéseket, majd ezeket – bizonyos hibahatárok között – az egész sokaságra kivetítjük. Ilyen helyzetben vannak a gazdasági statisztika művelői is, amikor a termékek minőségére vonatkozóan tesznek vizsgálatot: például a villanyégők minőségét elsősorban élettartamuk adja meg, de az élettartam vizsgálata azt is jelenti, hogy az égő a vizsgálat után már használhatatlan. Így csak aránylag kisszámú mintán végzik el a vizsgálatot, a mintára érvényes eredményt az egészre kiterjesztik, mindezt jól meghatározott szabványok szerint. A statisztikai minta egyedeinek kiválasztása általában véletlenszerűen történik, nagyon fontos a mintavétel típusainak ismerete, mert ennek függvényében adhatók meg a következtetések bizonyossági foka.
BEVEZETÉS A STATISZTIKÁBA
15
Egyes kutatások során arra kereshetünk választ, hogy egyfajta beavatkozások (foglalkozások a sokaság egyedeivel, közvetett úton ható, többnyire serkentő szándékú rendelkezések) fejtenek-e ki lemérhető hatást, van-e értelme ezeknek teljesebb körű alkalmazására, két mintát is választunk a célsokaságból. A kísérleti csoportot azok fogják alkotni, akikre kiterjed a beavatkozás, a nagyságrendben hasonló méretű kontrollcsoportba pedig olyan egyedeket választunk, akik nem kerülnek kapcsolatba a beavatkozással. Ilyenkor a beavatkozás előtti állapotot is fel kell mérni (preteszt) mindkét csoportban, a kísérleti csoportban történő beavatkozás után pedig meg kell ismételni a felmérést mindkét csoportban (posztteszt), majd csak ezután jöhet a számszerű eredmények feldolgozása.
2.4. Statisztikai ismérvek A statisztikai vizsgálat során a sokaság egyedeinek közös tulajdonsága érdekel, ezeket ismérveknek nevezzük. Egyidőben a vizsgálat állhat egy vagy több ismérv megméréséből. Az ismérv mérése alatt az egyes egyedekre vonatkozó egyedi tulajdonság (attributum) lejegyzése értendő. Például a Szabadság olvasóiról (a mintába került egyedekről) lejegyezhetjük ezek nemét, életkorát, iskolai végzettségét, foglalkozását, mióta olvassa rendszerességgel az újságot, lakhelye városon van-e vagy falun, melyik a kedvenc rovata, mit szeretne olvasni még az újságban, stb. Általában igen nagyszámú ismérv kerül megmérésre. Az ismérvek két fő csoportba sorolhatók: minőségi (kalitatív) és mennyiségi (kvantitatív) ismérvek, de elég gyakoriak az olyan ismérvek is, amelyek mindkét kategóriába beletartozhatnak. Tipikusan minőségi ismérv a személy neme (férfi vagy nő), iskolai végzettsége, foglalkozása,
16
MEZEI ELEMÉR
lakhelyének típusa (a fentebb felsoroltak közül), továbbá ilyenek a szeme színe, haja színe, családi állapota, van-e mezőgazdasági földje, haszonállata. Mennyiségi ismérvek a személy életkora, testmagassága, testsúlya, gyerekeinek száma, jövedelme, iskolások esetében a tanulmányi eredmények (jegyek, félévi vagy évvégi átlagok), iskolák esetében a bukó diákok százalékos aránya, települések esetén a népesség száma, a nyugdíjasok aránya, a munkanélküliek aránya, stb. Olyan ismérv, mint a kérdezett személy lakásának szobaszáma tekinthető mennyiségi és minőségi ismérvnek is: a négyszobás lakás körülbelül kétszer akkora, mint a kétszobás lakás, de a szobaszám lakásminőséget is jelent, a négyszobás lakás nagyobb konfortot jelent a benne lakóknak, mintha azok csak kétszobás lakásban laknának. Az ismérvek csoportosíthatóak más kritérium szerint is, így megkülönböztethetjük az objektív ismérveket a szubjektívektől. Az előző kategóriába tartoznak mind az előbb felsorolt minőségi és mennyiségi ismérvek, a szubjektív ismérvek körébe tartoznak a vélemények, magatartásformák mérésére használt kérdések: kedvenc újságrovata, mit szeretne olvasni még az újságban, hogyan értékeli a megkérdezett egyén a saját életkörülményeit, jövedelmét, vagy a település tisztaságát, a közlekedési viszonyokat, az orvosi ellátást stb. Magatartást tudakolnak az ilyen kérdések is: Elmegy-e szavazni? Ha igen, kire fog szavazni? Ha gyereke most végezné az általános iskolát, mit javasolna neki? Ha holnap munkanélkülivé válna, mihez kezdene? A statisztikai elemzések során jelentős helyet foglalnak el az úgynevezett alternatív (kétértékű, dichotóm) ismérvek, amelyek két változattal
rendelkeznek
(például
férfi–nő,
városlakó–falun
élő,
tandíjmentes–tandíjas, stb), ilyenekhez juhatunk bármely változó
BEVEZETÉS A STATISZTIKÁBA
17
átalakításával (katolikus–protestáns, fiatal–idősebb, szegény–gazdag stb). A társadalomstatisztika elsősorban a népesség számát és összetételét (nem, kor szerint), a népesség számát és összetételét befolyásoló népesedési folyamatokat (születés, házasságkötés, válás, halálozás, vándorlás), a népesség térbeli elhelyezkedését (város–falu), továbbá a társadalmi rétegződés jelenségét (iskolai végzettség, foglalkozás, jövedelem, fogyasztási kiadások, lakáshelyzet, kulturális jellegű tevékenység, egészségi állapot) vizsgálja. Külön említést kell tennünk a társadalomban előforduló problematikus jelenségek vizsgálatáról (deviáns magatartás). A társadalomstatisztika szempontjából vizsgált ismérveket két fő kategóriába oszthatjuk: a társadalmi jelenségek statikájára és dinamikájára. Az első kategóriába tartoznak a népességszám és összetétel, lakóhely, foglalkozás, iskolai végzettség, jövedelmi rétegződés ismérvei, a másodikba a natalitás, mortalitás, oktatás, vándorlás, gazdaság ismérvei.
2.5. A statisztikai adatgyűjtés Már a XVIII. század végén megfogalmazódott az adatgyűjtés szolgálatában álló központi statisztikai intézménynek a szükségszerűsége (1791, Antoine Laurent Lavoisier). Magyarországon 1867-ben, a kiegyezés után közvetlenül, a földművelés-, ipar- és kereskedelemügyi minisztérium statisztikai osztályaként működik ilyen intézmény, majd 1871ben létrejött az Országos magyar királyi Statisztikai Hivatal (mai neve Központi Statisztikai Hivatal, internetes honlapja www.ksh.hu). Romániában 1909-től 1951-ig Institutul Central de Statistică a neve az országos hivatalnak, majd Direcţia Centrală de Statistică, ezt követően Comisia Naţională de Statistică, 2000-től az új kormány új
18
MEZEI ELEMÉR
nevet adott az intézménynek: Istitutul Naţional de Statistică şi Studii Economice (internetes honlapja www.insse.ro), de mára már csak az Istitutul Naţional de Statistică a használt megnevezés. A központi szervnek alárendelt helyi hivatalok megnevezése gyakran változik Romániában, legutóbb Oficiul Judeţean de Statistică volt a neve, de ma a kolozsvári székhelyű fiókhivatalnak a cégtáblája Institutul Naţional de Statistică. Direcţia regională Cluj (a név alapján akár több megye is idetartozhatna). A
társadalomstatisztikai
adatokat
különböző
forrásokból
és
különböző módszerekkel gyűjtik össze. Legismertebb adatforrások a népszámlálások során begyűjtött és közzétett adatok. Magyarországon az első átfogó népszámlálást (és egyben Erdélyben is) 1784–87 között tartották. Ezt a népszámlálást II. József császár rendelte el, a teljes népességre kiterjedt (a nemesekre és a papokra is) és a teljes akkori Habsburg Monarchiára. Az osztrák örökös tartományokban 1784-ben, Magyarországon 1785-ben, Erdélyben 1786-ban hajtották végre az összeírást, 1786-ban és 1787-ben a települések népmozgalmi és vándormozgalmi eredményeinek felhasználásával az egész birodalomra egységesítették a népességszámot (utólagos vonatkoztatási időpontosítás). Erre a népszámlálásra jelenleg a legtöbb szerző az 1784-87-es jelzővel utal, de előfordulahat az egyetlen évszám használata is. A II. József-féle népszámlálási rendeletek arról is intézkedtek, hogy a cenzusokat 6 évente kell megtartani, de a császár korai halála utáni helyzetben a nemesség elérte, hogy rájuk ne vonatkozzon az összeírás (akkortájt a számlálás szónak főleg az alattvalók megszámlálása jelentése volt), sőt a török háborúk is hátráltatták az újabb cenzusokat. Így több mint egy fél évszázadon át nem tartottak teljes körű népesség-
BEVEZETÉS A STATISZTIKÁBA
19
összeírást a birodalomban (így Erdélyben sem), az időközben tartott összeírásoknak megkülönböztető megnevezése a Conscriptio-k vagy számbavételek. Ezek sora Magyarországon 1804-től 1848-ig terjed, de a vármegyék nem egyformán hajtották végre. A magyar szabadságharc leverése után az osztrák hatóságok egyik első dolga egy népszámlálás végrehajtása volt. Ennek az 1850-es cenzusnak is, és az 1784-87-esnek is, elsősőrban katonai és adózási céljai voltak, pontosabban a hatalom azt akarta felmérni, hogy mekkora a hadba fogható férfiak száma, mekkora adóból származó jövedelemre számíthat. A következő népszámlálások már elsősorban a népesség összetételének megismerésére törekszik (nemek, életkor, családi állapot, foglalkozás, felekezeti hovatartozás, anyanyelvi megoszlás szerint), a lakásviszonyokat kutatja. Ezek időpontjai 1857, 1869, 1880, 1890, 1900, 1910. Az 1872-ben Szentpéterváron tartott 8. nemzetközi statisztikai kongresszus ajánlásai közt szerepelt a népszámlálások eszmei időpontjának (vonatkoztatási momentumának) az évtized végére helyezése, amit a magyar statisztikai hivatal azonnal átvett és gyakorlatba is ültetett. Mivel a vonatkoztatási időpont a zérósra végződő esztendő december 31éjének utolsó pillanata, a végrehajtás már a következő évben történik, így előfordulhat, hogy egyazon népszámlálásra két évszámmal is utalnak, de a kísérő szöveg egyértelművé teszi a jelentést (például: A magyar szent korona országainak 1880. évi népszámlálása vagy A magyar szent korona országaiban 1881-ben végrehajtott népszámlálás eredményei). Az első világháború után kialakult politikai helyzet miatt az Erdélyre vonatkozó népszámlálási adatokat a romániai népszámlálások eredményeit bemutató kiadványokban kell keresni, kivételt csak Észak-Erdély
20
MEZEI ELEMÉR
képez az 1941-ben a magyar hatóságok által végrehajtott népszámlálásával. Az első világháború előtt a román hatóságok két népszámlálást tartottak: 1899-ben és 1912-ben. Az 1859–60-as népszámlálást a két fejedelemségben ugyan egyidejűleg tartották, de különbözött a vizsgált ismérvek rendszere és a közzétett adatok is nagyon hiányosak. A modern román állam által tartott népszámlálások időpontjai: 1930, 1941, 1948, 1956, 1966, 1977, 1992 és 2002. A nemzetközi gyakorlattal ellentétben ezen cenzusok eszmei időpontja sohasem volt december 31-én, ehhez leg-közelebb az 1930-as cenzus december 29-éje van, gyakori viszont a januári, februári, márciusi időpont: 1912. december 19, 1948. január 25, 1956. február 21, 1966. március 15, 1977. január 5, 1992. január 7, 2002. március 18. A statisztikai hivatalok feladata a népszámlálások végrehajtása (előkészítés, felügyelet, ellenőrzés, feldolgozás, publikálás) mellett az éves adatok gyűjtése is, ez alatt az értendő, hogy a társadalom minden területéről összegyűjtse, rendszerezze, feldolgozza és közzétegye a kalendarisztikus évek alatt zajló jelenségek éves mutatóit, a népszámlálás szolgáltatta demográfiai adatokat tovább vezesse (a következő népszámlálásig, amikor is a továbbvezetett számok helyébe az új cenzus adatai kerülnek). Az éves adatokat statisztikai évkönyvekben teszik közzé, például a 2002-ben kiadott romániai statisztikai évkönyv tartalmazza a 2001-es évre (és visszamenőleg) vonatkozó földrajzi és környezettel kapcsolatos adatokat (hőmérséklet, csapadék stb.), a népesség összetételének és a népmozgalomnak éves adatait, a foglalkoztatottak, munkanélküliek átlagos számát, munkabalesetek számát, fizetések, kiadások és fogyasztások éves átlagos számait, egészségügyi, tanügyi, kutatásbeli mutatókat (intézmények, alkalma-
BEVEZETÉS A STATISZTIKÁBA
21
zottak száma, betegek, iskolások száma), továbbá számos adat található a kultúra, sport területéről, jelentős részt tesznek ki a gazdasági mutatókat tartalmazó fejezetek is. Fontos ezzel kapcsolatban megjegyezni, hogy a népesség számára és összetételére vonatkozó, statisztikai évkönyben közzétett, adatok különbözhetnek (és szinte mindig eltérnek egy kicsit) az ugyanabban az évben végrehajtott népszámlálás megfelelő adataitól. Például az 1992. évi január 7.-i népszámlálás Romániában 21.810.035 lakost talált, a statisztikai évkönyvben ugyanabban az évben a népesség száma 22.788.969 (ez utóbbi az úgynevezett évközepi népesség vagy a július 1-i népesség). Ezzel kapcsolatban meg kell említeni azt is, hogy a statisztikai évkönyvekben szereplő évközepi népességadatokat egy idősorba fogva és ezt tanulmányozva téves következtetéseket is le lehet vonni. Például a 90-es évek első felének ilyen adatai Románia egészére nézve a következőképen mutatható be táblás és grafikus eszközökkel: Az ábra szerint számottevő különbséggel kell számolni 1990-ről 1995-re térve (23206720–22680951=525769), de ebből 396115 (=1991es és 1992-es évközepi szám különbsége) az 1992 előtti illegális emigrálás nagyságrendjére utal. Az előző, az 1977-es népszámlálás adatainak továbbvezetése 1992-ben megszűnik, innen kezdve az 1992-es cenzus adatai alapján számítják az évközepi népességszámot. Így történt ez 2002-ben is, és újra csak a népszámlálások szükségszerűségét látjuk alátámasztva a fentiekből.
22
MEZEI ELEMÉR
1. ábra és tábla. Románia évközepi népességszáma 1990-2003 között 23500000 23000000 22500000 22000000 21500000 21000000 199 199 199 199 199 199 199 199 199 199 200 200 200 200 0 1 2 3 4 5 6 7 8 9 0 1 2 3
Év
Népességszám
1990
23 206 720
1991
23 185 084
1992
22 788 969
1993
22 755 260
1994
22 730 622
1995
22 680 951
1996
22 607 620
1997
22 545 925
1998
22 502 803
1999
22 458 022
2000
22 435 205
2001
22 408 393
2002
21 680 974
2003
21 733 556
Megjegyzés: 1990–2001 közötti, valamint a 2003-as adatok a statisztikai évkönyből származnak (évközepi – átlagos évi – népességszám), a 2002-es pedig népszámláláskori lélekszám (2002. március 18.)
BEVEZETÉS A STATISZTIKÁBA
23
A lakosság összetételét iskolázottság, foglalkozás, anyanyelv, nemzetiség, felekezet szerint csak a népszámlálások adatai között lehet fellelni, az éves népmozgalom adatai alapján csupán a népesség számát, nemenkénti és kor szerinti eloszlását lehet továbbvezetni. Ezért nincs a statisztikai évkönyvben adat a népesség foglalkozására vonatkozóan, de van azonban számadat a foglalkoztatottak átlagos számáról (a gazdasági területről begyűjtött adatok alapján), az átlagos jövedelmekről (az adóhivatalok adataiból). Meg kell jegyezni még, hogy a statisztikai hivatal begyűjtötte adatok a de jure állapotot tükrözik, azaz a hivatalos, jogilag fennálló állapotokat írják le, a különböző hivatalokba soha be nem kerülő adatokat közölni sem lehet, meglehet sokan tudnak ezek létezéséről, sőt még nagyságrendjéről is (például feketemunka, feketegazdaság, csuszópénz, hálapénz, illegális emigráció, állatok száma – főleg magángazdaságokban, prostitució, AIDS betegek, stb.). Például a prostitució legalizálásával el lehetne érni ennek a jelenségnek pontosabb megismerését: foglalkoztatott személyek számát, jövedelmek nagyságrendjét, ezek változását időben stb. A statisztikai hivatal feladata az is, hogy kellő pontossággal definiálja azokat az ismérveket, amelyekről adatokat gyűjt és feldolgozott formában rendszeresen közzé is tesz. Ezen értelmezéseket feltétlenül meg kell szereznie annak, aki olyan jelenség kutatásába kezd, amelyhez háttérinformációt a statisztikai hivataltól kíván beszerezni. Íme a magyar statisztikai hivatal által használt ismérvek és kategóriáik közül néhánynak az az értelmezése, ahogyan azt a hivatal ezek használatát ajánlja.
24
MEZEI ELEMÉR FOGLALKOZTATOTTSÁG, KERESET Gazdaságilag aktív népesség: a foglalkoztatottak és a regisztrált munkanélküliek együttes száma. Foglalkoztatott: a keresőtevékenységet folytató, keresettel, jövedelemmel rendelkező, társas vagy egyéni vállalkozásoknál, intézményeknél főállású munkaviszony keretében alkalmazásban álló, a dolgozó szövetkezeti tag, a társas vállalkozás dolgozó tagja, az egyéni vállalkozó és segítő családtagja, az alkalmi munkás, a napszámos és a foglalkoztatott nyugdíjas. A gyesen és a gyeden lévők a nemzetközi ajánlásoknak megfelelően nem szerepelnek a foglalkoztatottak között. Foglalkoztatott nyugdíjas: a nyugellátása szüneteltetése nélkül valamely munkáltatónál munkaviszonyban álló nyugdíjas. Regisztrált munkanélküli: Az állapotadatok – ahol más megjegyzés nincs – dátuma a népességnél január 1., az intézményi statisztikából származó adatoknál előző év december 31. Regisztrált (nyilvántartott) munkanélküli: az Országos Munkaügyi Kutató és Módszertani Központnál (OMKMK) nyilvántartott álláskeresők közül az, aki munkaviszonnyal nem rendelkezik, nem nyugdíjas, nem tanuló; foglalkoztatást elősegítő támogatásban (átképzés, közhasznú foglalkoztatás stb.) nem részesül; munkát, állást vagy önálló foglalkozást keres, és egy adódó állás elfogadására rendelkezésre áll. A zárólétszám tartalmazza a munkanélküli-ellátásban részesülteket (azokat a jogosultakat is beleértve, akiknél a járadék, a segély folyósítása a zárónapig nem történt meg), azokat a tárgyhóban nyilvántartásba vett
BEVEZETÉS A STATISZTIKÁBA
25
munkanélkülieket, akik munkanélküli-ellátásra nem jogosultak (mert nem feleltek meg a törvényben előírt feltételeknek, vagy a járadékra, segélyre való jogosultságuk időtartamát már kimerítették), és a tárgyhónapban megjelentek a közvetítő irodában, illetőleg a munkanélküli-járadék kimerítését követően munkanélküliek jövedelempótló támogatására jogosultakat. Regisztrált munkanélküliségi ráta: a regisztrált munkanélküliek az előző év január 1-jei gazdaságilag aktív népesség százalékában. Munkanélküli-ellátásban részesül az az OMKMK-nál nyilvántartott munkanélküli, aki munkanélküli-járadékban vagy pályakezdők munkanélküli-segélyben részesül. Ez utóbbi ellátási forma 1996. július 1-jével megszűnt, ezen időpont után csak azok kapnak ilyen címen segélyt, akiknek azt 1996. július 1-jét megelőzően állapították meg. A pályakezdő munkanéküliekre vonatkozó adat azoknak a segélyeseknek a számát tartalmazza, akik a vizsgált időszakban akár csak egy napra is ellátásban részesültek. Munkanélküliek
jövedelempótló
támogatása:
a
települési
önkormányzat képviselő-testülete által támogatásban részesített azon regisztrált munkanélküli, aki korábban munkanélkülijáradékot kapott és a járadék folyósítási időtartamának lejárta miatt további munkanélküli-ellátásra már nem jogosult. A támogatásban részesültek száma decemberi zárónapi létszámadat, azaz azoknak a munkanélkülieknek a száma, akik december zárónapján jövedelempótló támogatást kaptak.
26
MEZEI ELEMÉR Kereset: az OMKMK által 1999 májusában lebonyolított mintavételes egyéni kereseti felvétel adatai, amelyek a május havi összes keresetet, illetve az előző év összes, nem havi rendszerességű kifizetésének 1/12-ed részét tartalmazzák. A relatív szórás az egyéni keresetek és az átlagkeresetek közötti különbségek négyzetes átlaga az átlag százalékában. Munkaerő-felmérés: A munkaerő-felmérés reprezentatív felvétel az International Labour Office (ILO) ajánlásai alapján a 15–74 éves népesség gazdasági aktivitását vizsgálja, az adatok a 15–74 éves népességre vonatkoznak. Az 1992 óta végzett felvétel negyedévente mintegy 24 ezer háztartás, illetve 50 ezer személy, 1998-tól a mintabővítést követően 32 ezer háztartás, illetve 66 ezer személy adatait tartalmazza. Az egyes népesség-csoportok létszámának becslése a munkaerő-felmérés mintájából teljeskörűsítéssel történt. A közölt éves adatok a negyedéves felvételből származó becslések átlagai. Gazdaságilag
aktív
népesség:
a
foglalkoztatottak
és
a
munkanélküliek együttes száma. Foglalkoztatott: az a személy, aki alkalmazottként, szövetkezet vagy társas vállalkozás tagjaként, egyéni vállalkozóként, segítő családtagként a megfigyelt héten legalább 1 órányi, jövedelmet biztosító munkát végzett, illetve rendelkezett olyan munkahellyel, ahonnan átmenetileg (betegség, szabadság stb. miatt) volt távol, illetve sorkatonai szolgálatot teljesített. A gyermekgondozási díjban (gyed), gyermekgondozási segélyben (gyes) részesülők a nemzetközi ajánlásnak megfelelően nem tekinten-
BEVEZETÉS A STATISZTIKÁBA dők foglalkoztatottnak, hacsak nem végeztek a megfigyelt héten jövedelmet biztosító munkát. Alkalmazott: a vállalkozásnál, költségvetési, társadalombiztosítási, illetve nonprofit szervezetnél, egyéni vállalkozónál rendszeres jövedelemszerző munkával rendelkező munkavállaló (függetlenül attól, hogy nyugdíjas-e), beleértve a szezonális munkást, a vonatkozási héten munkát végző alkalmi munkást, a dolgozó diákot. Szövetkezet, társas vállalkozás tagja az a személy, akinek a tagsági viszonya munkavégzési kötelezettséggel jár. Egyéni vállalkozó az a személy, aki saját vállalkozásában, egyéni vállalkozóként munkát végez. Segítő családtag: a háztartásnak az a tagja, aki a háztartáshoz tartozó gazdaság, vállalkozás tevékenységében segít, ezért a munkájáért fizetséget nem kap, csak a háztartás tagjaként részesül a gazdaság, a vállalkozás eredményeiből. Munkanélküli: az a személy, aki az adott héten nem dolgozott, és nincs olyan munkája, amelytől átmenetileg távol volt; a kikérdezést megelőző négy héten aktívan keresett munkát (állami vagy magán-munkaközvetítőt keresett fel, munkáltatókat személyesen keresett meg, hirdetést adott fel vagy hirdetésre válaszolt stb.); két héten belül munkába tudott volna állni, ha talált volna megfelelő állást, illetve már talált munkát, ahol 30 napon belül dolgozni kezd. Az OMKMK adatgyűjtése a nyilvántartásba vett álláskeresőkre vonatkozik (lásd a regisztrált munkanélküli fogalmát).
27
28
MEZEI ELEMÉR Gazdaságilag nem aktív: az a személy, aki nem sorolható be sem a foglalkoztatottak, sem a munkanélküliek csoportjába. Ide tartozik többek között az idénymunkás az idényen kívül, ha nem keres munkát; az ún. passzív munkanélküli, aki szeretne ugyan munkát, de kedvezőtlennek ítélve elhelyezkedési esélyeit meg sem kísérli az álláskeresést. Aktivitási arány: a foglalkoztatottak és a munkanélküliek együttes száma a népesség százalékában. Munkanélküliségi ráta: a munkanélküliek száma a gazdaságilag aktív népesség százalékában. Alkalmazásban álló: a munkáltatóval főállású, 5 munkanapot meghaladó időtartamú munkaviszonyban lévő személy, beleértve a bedolgozói jogviszonyban, a személyes közreműködéssel járó tagsági és a munkavégzéssel járó szövetkezeti tagsági viszonyban állókat. E statisztikai állományi létszámadat magában foglalja a munkajogi állományi létszámba tartozó személyeket a munkából meghatározott okokból (szülési szabadság, a különböző gyermekgondozási
ellátás
igénybevétele,
sorkatonai
szolgálat
teljesítése, /1998-ig a három hónapot/ 1999-től az egy hónapot meghaladó betegség, fizetés nélküli szabadság stb.) távollévők kivételével, valamint a munkajogi állományba nem tartozó, de meghatározott
feltételekkel
a
munkáltatónál
folyamatosan
munkát végzőket (szünidőben foglalkoztatott diákok, más munkáltatótól kölcsönvett munkavállalók stb.).
BEVEZETÉS A STATISZTIKÁBA Kereset: a bérköltség terhére kifizetett alapbér (törzsbér), bérpótlékok, kiegészítő fizetés, prémium, jutalom, 13. és további havi fizetés. Átlagkereset: a keresettömeg (bérköltség) és a foglalkoztatottak létszámának hányadosaként számított mutató. Számításához a munkáltatóknál főállásban, teljes munkaidőben foglalkoztatottak adatait használjuk. Bruttó kereset: 1988 óta használt fogalom, a személyi jövedelemadót, az egészségbiztosítási és nyugdíjjárulékot, valamint munkavállalói járulékot is tartalmazó kereset. Nettó kereset: a gazdálkodó szervezetenkénti bruttó átlagkeresetből a mindenkori munkavállalói járulék, a személyi jövedelemadó, valamint a nyugdíj- és egészségbiztosítási járulék levonásával, továbbá a társadalombiztosítási járulékküszöb figyelembevételével számított adat. Munkaerőköltség: az élőmunka igénybevételéhez kapcsolódó összes költség. Magában foglalja a munkavállaló részére a munkavégzéshez kapcsolódóan pénzben vagy természetben nyújtott juttatásokat, a munkáltató által teljesített a szociális költségeket, a szakoktatás, képzés, továbbképzés költségét, valamint az egyéb munkaerőköltségeket. A HÁZTARTÁSOK JÖVEDELME ÉS FOGYASZTÁSA Háztartás (háztartási szektor): a fogyasztó háztartás, a személyijövedelemadó-törvény szerint adózó egyéni vállalkozó, az adószámmal nem rendelkező vállalkozási tevékenységet végző, valamint az a háztartás, amely saját fogyasztásra termel.
29
30
MEZEI ELEMÉR Bérek és keresetek: a munkavállalók részére a munkavégzésükkel kapcsolatban pénzben kifizetett bruttó összegek (mint pl. rendszeres, kiegészítő és alkalmi kifizetés, jutalék, támogatás), valamint a természetben nyújtott termékek és szolgáltatások (térítésmentesen vagy csökkentett áron nyújtott jóléti szolgáltatások, pl. óvodai, üdülési szolgáltatások, lakástámogatás, személygépkocsi-használat, kamattámogatás). Tartalmazzák a munkavállaló által fizetett összes jövedelemadót és társadalombiztosítási hozzájárulást. Munkaadói társadalombiztosítási hozzájárulás: a munkaadó által a munkavállaló nevében a társadalombiztosítás és tágabban az államháztartás különböző alapjaiba fizetett hozzájárulások, amelyek a biztosítási események bekövetkeztekor a társadalmi juttatások finanszírozására szolgálnak. Működési eredmény: a háztartási szektor esetében a saját tulajdonú lakásokra elszámolt lakásszolgáltatásból származó imputált jövedelem. Vegyes jövedelem: a kisvállalkozás jövedelme és a háztartásnak a saját fogyasztásra történő termelésből származó jövedelme, amelyeknél nem lehet szétválasztani a munkavállalói jövedelmet és a tőke után járó hozamot. Tulajdonosi jövedelem: az elsődleges jövedelmeknek az a része, amelyet a pénzügyi eszközök vagy a nem termelt tárgyi eszközök tulajdonosai realizálnak annak fejében, hogy eszközeiket más szervezeti egység rendelkezésére bocsátják. Részei: a befektetett pénzügyi eszközök után járó kamat, az osztalék- és a biztosítási
BEVEZETÉS A STATISZTIKÁBA befektetésből, továbbá a termőföld bérbeadásából származó bevételek és a felvett hitelek törlesztésére fordított kiadások egyenlege. Elsődleges jövedelmek egyenlege: a munkavállalói jövedelem, a működési eredmény, a vegyes jövedelem és a tulajdonosi jövedelem egyenlege. Pénzbeni társadalmi juttatások. Kötelező társadalombiztosítás pénzbeni juttatásai: a biztosítási alapon működő, a társadalombiztosítási alapokból fedezett juttatások, azaz a nyugdíj, a táppénz, a munkanélküliek ellátása, a gyermekszüléssel, gondozással kapcsolatos juttatások. A nyugdíj tartalmazza a nyugdíjbiztosítási alapból fizetett korhatár fölöttiek saját jogú nyugdíját és a hozzátartozói ellátásokat, valamint az egészségbiztosítási alapból fizetett korhatár alattiak rokkantsági és baleseti ellátását. Nem alapszerű társadalombiztosítási juttatások: a munkaadó által dolgozóinak fizetett társadalombiztosítási juttatás, mint pl. korengedményes nyugdíj, munkaadói táppénz. Társadalombiztosítási jellegű juttatások: a központi költségvetés vagy az önkormányzat által közvetlenül finanszírozott juttatások, amelyre a társadalombiztosítás nem terjed ki, például pótlékok, családi pótlék, nevelési és szociális segélyek, ösztöndíj stb. Magánalapok pénzbeni juttatásai: az önkéntes kölcsönös nyugdíj-, egészségbiztosítási és önsegélyező pénztárak kifizetett juttatásai. Egyéb kapott folyó transzferek: a biztosítási kártérítés, a valutabevételek, a szerencsejáték-bevételek.
31
32
MEZEI ELEMÉR Adók: a személyi jövedelemadó és az egyéb adók, illetékek, mint pl. a helyi önkormányzatok lakosságtól származó adóbevételei (iparűzési, építmény-, kommunális, idegenforgalmi stb.), valamint a központi és helyi költségvetési szervek illetékbevételei. Munkaadói és egyéb társadalombiztosítási hozzájárulás: a társadalombiztosítási és munkaadói járulékon felül idetartozik a munkáltatói táppénz-hozzájárulás, valamint az egészségügyi hozzájárulás. Tartalmazza az önállóak és munkanélküliek társadalombiztosítási hozzájárulását. Munkavállalók kötelező társadalombiztosítási hozzájárulása: az egyéni nyugdíj- és egészségbiztosítási járulék, valamint a munkavállalók befizetései a munkaerő-piaci (korábban szolidaritási) alapba. Munkavállalók önkéntes társadalombiztosítási hozzájárulása: az önkéntes kölcsönös nyugdíj-, egészségbiztosítási és önsegélyező pénztárakba belépett munkavállalók társadalombiztosítási befizetései. Egyéb fizetett folyó transzferek: a biztosítási díj, a valutakiadások, a szerencsejátékkal kapcsolatos kiadások, valamint a nonprofit szervezeteknek nyújtott lakossági hozzájárulás. Rendelkezésre álló jövedelem: az a jövedelem, amely a háztartás fogyasztási kiadásait és megtakarításait fedezi. Természetbeni társadalmi juttatások: az államháztartás (beleértve a társadalombiztosítást is), valamint a nonprofit intézmények által finanszírozott és a háztartások által egyénileg fogyasz-
BEVEZETÉS A STATISZTIKÁBA tott termékek és igénybe vett szolgáltatások összege (pl. oktatás, egészségügy, közlekedési ártámogatás stb.). Összes (korrigált rendelkezésre álló) jövedelem: a természetbeni társadalmi juttatások összegével növelt, rendelkezésre álló jövedelem. A magánnyugdíjpénztárak miatti korrekció: A magánnyugdíjpénztárakban levő megtakarítások a nemzetiszámla-rendszerek szerint a háztartások tulajdonát képezik, ezen alapok tartalékából a háztartások részesedésének a változása tehát része a háztartások megtakarításának, ezért a magánnyugdíj-pénztárak nettó vagyonváltozását jelentő tétellel korrigálni kell a háztartások rendelkezésre álló jövedelmét még a megtakarítás elszámolása előtt. Reálkereset: az adott keresetösszegért vásárolható termékek és szolgáltatások összesége. A reálkereset-index az átlagkereset-index és a fogyasztói árindex hányadosa. Összehasonlítást korlátozó tényező, hogy 1990-ig csak a munkás-alkalmazotti körre vonatkoznak az adatok, a mezőgazdasági szövetkezeti dolgozókra nem. Reáljövedelem: a termékeknek és szolgáltatásoknak azt a mennyiségét fejezi ki, amelyet a háztartások az adott időszaki jövedelmükből – az adott árszínvonal mellett – megszerezhetnek. Számszerűen a háztartások összes jövedelmének egy meghatározott év árain kifejezett értéke, ún. reálértéke. Reáljövedelemindex a jövedelemindex és a fogyasztó árindex hányadosa. Fogyasztási kiadás: mindazon termékek és szolgáltatások értéke, amelyeket a háztartások a rendelkezésre álló jövedelmükből személyes fogyasztási szükségleteik kielégítésére fordítanak.
33
34
MEZEI ELEMÉR Megtakarítás: az összes (korrigált rendelkezésre álló) jövedelem és az összes (tényleges) fogyasztás egyenlege. Részei: a tőketranszferek egyenlege, mely a kapott tőketranszfer (pl. magánlakás-építési támogatás) és a fizetett tőketranszfer (pl. az infrastrukturális fejlesztéshez fizetett lakossági hozzájárulás) egyenlege, valamint a felhalmozás (lakásberuházási kiadások, kisvállalkozók termelői beruházásai) és a nettó hitelnyújtás, mely más szektorok vagy a külföld fogyasztásának és tőkefelhalmozásának finanszírozására fordítható pénzügyi eszközök formájában felhalmozott összeg. Bruttó hitelnyújtás: a nettó hitelnyújtás összegének a hitelfelvétel és hiteltörlesztés egyenlegével növelt értéke. Hazai fogyasztás: az ország területén elfogyasztott mindazon termékek és szolgáltatások értéke, amelyeket a háztartások személyes fogyasztási szükségleteik kielégítésére fordítanak, azaz a háztartások fogyasztási kiadásának a természetbeni juttatásokkal növelt értéke. A hazai fogyasztás tartalmazza a külföldiek belföldi vásárlásait, viszont nem tartalmazza a belföldiek külföldi, illetve külföldről történő fogyasztását. Fogyasztási kiadás: mindazon termékek és szolgáltatások értéke, amelyeket a háztartások a rendelkezésre álló jövedelmükből személyes fogyasztási szükségleteik kielégítésére fordítanak. Rezidens háztartások fogyasztása (háztartások összes /tényleges/ fogyasztása, nemzeti fogyasztás): a hazai fogyasztás összege az idegenforgalmi kiadások egyenlegével (a külföldi és a belföldi valutabeváltásból származó forintegyenleggel) korrigálva, feltételezve, hogy ez utóbbi túlnyomó részét fogyasztásra
BEVEZETÉS A STATISZTIKÁBA fordítják. A Magyarországon honos háztartások fogyasztását tartalmazza. Egy főre jutó fogyasztás indexe: a háztartások egy főre jutó tényleges hazai fogyasztásának egy meghatározott bázisév árain értékelt, azaz fix árbázison számított indexe. Személyes célú nettó jövedelem: a bruttó jövedelemből (kereset, egyéb munkavégzés, vállalkozás ellenértéke, pénzbeni társadalmi jövedelemként vagy más címen kapott összegek, saját termelésből, illetve természetben kapott élelmiszerekből, élvezeti cikkekből elfogyasztott mennyisége, természetben kapott iparcikkek és szolgáltatások értéke) levonva a személyi jövedelemadót, az egészségbiztosítási és a nyugdíjjárulékot, a munkavállalói járulékot, az illetéket, a bírságot, a pénzbeni mezőgazdasági termelési ráfordítást és az adott támogatást (mint pl. gyermektartás, családi támogatás stb.). Jövedelmi decilisek: a felvétel népességének az egy főre jutó évi jövedelem alapján sorba rendezett tizedei. Kiadás: a háztartásnak folyó évi jövedelemfelhasználásból és megtakarításból, vagyontárgyak értékesítéséből, más háztartástól pénzben vagy természetben kapott ajándék, kárpótlási jegy hasznosításából, illetve hitelfelvételből fedezett kifizetése.
35
36
MEZEI ELEMÉR
2.6. Mérési problémák a társadalomtudományokban Ahhoz, hogy egy társadalomtudományi kutatás keretében statisztikai elemzést végezzünk olyan adatokra van szükségünk, amelyekkel számolni tudunk, mennyiségi jellegű összesítéseket végezhetünk. A társadalomkutatás általános módszertana segítségével megtanuljuk azt, hogyan fogalmazzunk meg egy érdekes kérdést úgy, hogy az kutatási probléma legyen, továbbá a problémára hogyan fogalmazhatunk meg hipotéziseket. A hipotéziseket konceptualizálni kell, ezt követően a kapott dimenziókat operacionalizáljuk. „A kutatási probléma sem nem több, sem nem kevesebb, mint az a bizonyos kérdés vagy kérdéscsoport, amelyre a kutatásnak kell választ adnia” (Nowak, 1981, 19 p.). Példaképp említhetünk egy napjainkban gyakran előtérbe kerülő társadalmi problémát: a roma lakosság beilleszkedése az őket befogadó társadalmakba. Erre vonatkozóan különböző hipotéziseket sorolhatnánk fel: (1) intellektuális képesség tekintetében nincs különbség a romák és a többi etnikum tagjai közt; (2) ez a beilleszkedés időben és térben különbözőképpen zajlott le és zajlik napjainkban is; (3) a kihangsúlyozottan jelentkező eltérések azért ekkora nagyok, mert legalább ennyire eltérőek a társadalmi körülmények; stb. A hipotézis konceptualizálása alatt az értendő, hogy a használt fogalmaknak milyen mérhető dimenziói vannak. Tisztázni kell azt, hogy például az idő szó periódust fed (második világháború előtt, 1945–1964, 1965–1989, 1990 utáni), a tér földrajzi távolságot jelent-e vagy csak országhatárt, mit kell érteni az intellektuális képesség és társadalmi körülmények szavak alatt.
BEVEZETÉS A STATISZTIKÁBA
37
Az operacionalizálás fázisa az, amely meghatározza, hogyan rögzíthetjük az adatfelvétel során a vizsgált probléma különböző jellemzőit, attribútumait. A gyakorlatban általában kérdőíves felméréssel gyűjtjük adatainkat, ilyenkor a kérdőív kérdéseinek megfogalmazása képezi az operacionalizálás folyamatát. A kérdésekkel, az operációs fogalmak segítségével próbáljuk megragadni, mérni a társadalmi problémák egyes aspektusait. Egy társadalmi attribútumot azonban többféleképpen is operacionalizálhatunk, ezért a mérés eredménye némiképp eltérő lehet, például a szegénység fogalmának esetében: mérhető a család ingó és ingatlan vagyona egy adott pillanatban (lakás, termőföld, más földterület, haszonállatok, tartós fogyasztási cikkek), a család fogyasztása egy adott időtartam alatt (anyagi: élelem, ruha; szellemi: könyv, iskola stb); így aztán többféle kép is kialakulhat a vizsgált sokaságról. Az első probléma abból adódik, hogy a társadalomtudományi mérések az illető attribútum egy adott részét tudják megragadni (szerencsés esetben jelentős részét), másrészt a mérési mód sajátosságából adódóan megragadunk olyasmit is, amit nem is akartunk mérni. Ezt nevezzük mérési hibának2. Egy másik nehézsége a méréseknek abból származik, hogy a mérési skálák nem rendelkeznek annyi fokozattal, értékkel, mint amennyi formában a mért tulajdonság megjelenik a valóságban. Például a
2
A technikai mérések esetében például a mérőszalagon leolvasott érték
legnagyobb mértékben távolságfüggő, de kis mértékben magán viseli a hőmérséklet okozta hosszváltozást is. Ha például összehasonlítunk két távolságot a mérésből származó hosszértékük által, akkor ezek érték-különbsége nem tisztán a különböző méret-különbséget tükrözi, hanem a méréskori különböző hőmérsékletet is.
38
MEZEI ELEMÉR
népszámlálás során mért nemzetiségi hovatartozás ismérv skálája nem tartalmaz ilyen megnevezéseket, mint erdélyi, transzilván, magyar– román, magyarcigány, románcigány stb. Röviden csak ennyit a mérés problematikájáról, erről bővebbet talál az olvasó a különböző szakágak kutatási módszertanáról szóló írásokban.
BEVEZETÉS A STATISZTIKÁBA
39
III. LEÍRÓ STATISZTIKA 3.1. Az adatmátrix Az összegyűjtött, kódolt és rendszerezett adatok sokasága képezi a statisztikai elemzések tárgyát, az adatbázist, más nevén az adatmátrixot. Az adatmátrix sorai a sokaság (vagy minta) eseteinek felelnek meg, tehát egy adatmátrix annyi sort tartalmaz, ahány egyed alkotja a vizsgált sokaságot. A soroknak a neve eset (angolul case). Az oszlopok száma legalább 1 (az eset azonosító kódja), az adatmátrix létrehozásakor annyi további oszlop van, ahány ismérv került megmérésre, kódolásra és bevezetésre. Az oszlopok neve változó (angolul variable). Adatbázist több programban is készíthetünk. A legegyszerűbben az Excel-ben készíthetjük el, mert ez a program a legelérhetőbb. A program indítása után az adatszerkesztő üres táblázata jelenik meg a képernyőn, ebbe a táblázatba azonnal írhatjuk adatainkat. Az első sorba írjuk be a változók nevét, az első oszlop legyen mindig a kérdőív (személy, egység stb.) azonosítója (név, kódszám, sorszám), a többi rekeszekbe pedig írjuk be a megfelelő kérdőívből (adatlapról) a változónak megfelelő értéket. Példázzuk az adatmátrixot egy Hargita megyei kis község törpe falvainak három, népességre vonatkozó adatával. Elsőre nézzük meg a szöveges
anyagban
(tanulmányban)
adatmátrixnak (1. tábla).
megjeleníthető
formáját
az
40
MEZEI ELEMÉR 2. tábla. Homoródszentmárton község néhány népességi adata Falu
Népesség 1977-ben
Népesség 1992-ben Összes
0–14 éves
Népesség 2002-ben
Abásfalva
434
386
100
376
Bágy
395
256
28
214
Gyepes
250
176
27
156
Keményfalva
293
227
51
201
Kénos
194
146
26
137
Lókod
93
31
0
57
Recsenyéd
210
174
27
164
Remete
137
77
11
69
Szentmárton
692
599
118
621
Szentpál
583
496
99
510
Szentpéter
236
210
48
196
Városfalva
411
323
41
286
Ezeket az adatokat átvihetjük az Excel programba is, és létrehozhatjuk a statisztikai feldolgozásra készített Spss programban is. Az Excel rovatai különböző tartalommal tölthetők fel (szöveg, számadat), míg az Spss-ben az oszlopok rovatai kötelezően ugyanolyan típúsú adatokat tartalmazhatnak, továbbá nem lehet rovatokat összevonni. Az Spss-ben rovatok tartalmával végzett műveletek eredményeit egy új, eredménybeszámoló ablakban (Output Navigator) olvashatjuk, előre kért formában.
BEVEZETÉS A STATISZTIKÁBA
41
2. ábra. Az adatmátrix Excelben és Spss-ben
Az Spss védett márkajegy
42
MEZEI ELEMÉR
3.2. A sokaság leírása minőségi ismérvek alapján Egy vizsgált sokaságban egy változónak egy adott értékével rendelkező esetek számát az illető érték gyakoriságának nevezzük. Ha a vizsgált csoportban 7 fiú van, akkor a fiú kategória (atribútum) gyakorisága 7 személy. Amennyiben ezt a gyakoriságot viszonyítjuk (leggyakrabban a teljes sokaság egyedszámához), úgy relatív gyakoriságról beszélünk. A relatív gyakoriságot általában százalékban fejezzük ki, de előfordulhat az ezrelék használata is (ha a relatív gyakoriságok 1%-nál is kisebbek), vagy bizonyos részeredmények esetében a hányad formájában való megadás. Például a 7 fiú egy 20-as csoportból a csoport 35%-át jelenti (350‰-ét vagy 0.35-ödét). Az öngyilkosságot elkövetők relatív gyakorisága viszont olyan kicsi szám, hogy 100000 lakosra viszonyítva szokták megadni. Példaként vegyük most Kászon községben (Hargita megye) 2001. nyarán vizsgált mintában az iskolázottság szerinti eloszlást. A minta 197 gazdaságból illetve az ezekben található 633 személyből állt, az iskolai végzettséget (befejezett iskolai szintet) tudakoló kérdés a következő skálával rendelkezett: 1. Nincs
2. Elemi iskola
3. Általános iskola
4. Szakiskola
5. Középiskola
6. Felsőfokú végzettség
7. Kisgyerek (0-6 éves)
8. Kisiskolás (legtöbb 11 éves)
A számítógépes adatmátrixból az alábbi eloszlás adódik (ajánlott az Spss programban az úgynevezett cimkék /label/ használata, viszont ezekben az ékezetes betűk néha furcsán jelennek meg nyomtatáskor):
BEVEZETÉS A STATISZTIKÁBA
43
3. tábla. A5 Iskolazottsag
Frequency Percent Valid 1 Nincs 7 1,1 2 Elemi 83 13,1 3 Altalanos 194 30,6 4 Szakiskola 129 20,4 5 Kozepiskola 84 13,3 6 Felsofoku 6 ,9 7 Kisgyerek 55 8,7 8 Kisiskolas 68 10,7 9 Adathi'ny 7 1,1 Total 633 100,0 Total 633 100,0
Valid Cumulative Percent Percent 1,1 1,1 13,1 14,2 30,6 44,9 20,4 65,2 13,3 78,5 ,9 79,5 8,7 88,2 10,7 98,9 1,1 100,0 100,0
Az Spss védett márkajegy
A számítógépes program (Spss) adta táblázat tartalmazza az abszolút gyakoriságokat, a százalékos gyakoriságokat (két oszlopban is), valamint a kumulált százalékos gyakoriságokat. Egyelőre azt figyeljük meg, hogy létezik olyan 7 eset (sor az adatállományban), amelyek az iskolázottságra vonatkozóan adathiánnyal rendelkezik (nem a személyeknek nincs ilyen attribútumuk, hanem az illető személyek vagy a kérdezőbiztos nem tudta az iskolai végzettséget a megadott kategóriák valamelyikébe elhelyezni, vagy az a személy, aki a családtagok adatait szolgáltatta, erre nem tudott válaszolni, de az is előfordulhat, hogy egyszerűen elfelejtődött ennek az ismérvnek a regisztrációja). Az eloszlásokból ki kell iktatni az ilyen eseteket, a programban egy érvénytelenítést hajtunk végre, majd ez után figyeljük meg a kapott eloszlásokat (4. tábla).
44
MEZEI ELEMÉR 4. tábla A5 Iskolazottsag
Valid
Missing Total
1 Nincs 2 Elemi 3 Altalanos 4 Szakiskola 5 Kozepiskola 6 Felsofoku 7 Kisgyerek 8 Kisiskolas Total 9 Adathi'ny Total
Frequency 7 83 194 129 84 6 55 68 626 7 7 633
Percent 1,1 13,1 30,6 20,4 13,3 ,9 8,7 10,7 98,9 1,1 1,1 100,0
Valid Percent 1,1 13,3 31,0 20,6 13,4 1,0 8,8 10,9 100,0
Cumulative Percent 1,1 14,4 45,4 66,0 79,4 80,4 89,1 100,0
Az Spss védett márkajegy
5. tábla A5 Iskolazottsag
Valid
Missing
Total
Frequency 1 Nincs 7 2 Elemi 83 3 Altalanos 194 4 Szakiskola 129 5 Kozepiskola 84 6 Felsofoku 6 Total 503 7 Kisgyerek 55 8 Kisiskolas 68 9 Adathi'ny 7 Total 130 633
Percent 1,1 13,1 30,6 20,4 13,3 ,9 79,5 8,7 10,7 1,1 20,5 100,0
Valid Percent 1,4 16,5 38,6 25,6 16,7 1,2 100,0
Cumulative Percent 1,4 17,9 56,5 82,1 98,8 100,0
Az Spss védett márkajegy
BEVEZETÉS A STATISZTIKÁBA
45
A 4. táblában megfigyelhető, hogy valamelyest módosulnak a Valid Percent nevű oszlop százalékos eloszlásai, mivel itt a 626 érvényes eset jelent 100%-ot, a Percent nevű oszlopban viszont az összes 633 személy. Ha jól meggondoljuk, a százalékos eloszlást csak a 12 éves és idősebb népességre kell vonatkoztatni, tehát a 7-es és 8-as kódú eseteket is ki kell iktatni a 100%-ból, így kialakul az a változat (5. tábla), amelyből az iskolai végzettség eloszlását helyesen értelmezhetjük: A 12 éves és idősebb népesség iskolai végzettség szerinti eloszlása: leggyakoribb iskolai végzettség az általános iskola (194 személy, több mint egyharmada az 503 személynek), szakiskolával 129 személy rendelkezik (egynegyede), nagyjából ugyanannyi személynek van elemi illetve középiskolai végzettsége (83, illetve 84 személy), 7 személy analfabéta (1%), és csupán 6 személy rendelkezik felsőfokú végzettséggel (1%). Mivel az iskolai végzettség fenti skálája rendezett is (1–6 kódok), értelmezhető a kumulált gyakoriság is: A 12 éves és idősebb népesség több mint felének (56,5%-nak) legtöbb általános iskolai végzettsége van. Az írott tanulmányba magunk szerkesszünk táblás anyagot, de figyeljünk arra, hogy ez viszonylag kevés adatot tartalmazzon. Ha valamely táblázat sok számadatot tartalmaz, akkor azt helyezzük a tanulmány mellékletébe, a szövegben pedig utaljunk erre a táblázatra a mellékletben elfoglalt hely megadásával.
46
MEZEI ELEMÉR 6. tábla. A minta eloszlása iskolai végzettség szerint (Kászon, 12 éves és idősebb népesség, 2001) Iskolázottság
Nincs iskolai végzettsége
Személy
Százalék
7
1.4
83
16.5
Általános iskola
194
38.6
Szakiskola
129
25.6
84
16.7
6
1.2
503
100,0
Elemi iskola
Középiskolai végzettség Felsőfokú végzettség Összesen
Az eloszlásbeli igen eltérő gyakoriságokat grafikusan is ki lehet fejezni. Különböző geometriai alakzatok közt válogathatunk, de arra figyeljünk, hogy a kétdimenziós ábrázoláskor a felület nagysága arányos a gyakorisággal, a térbeli alakzatok esetében a térfogat kell arányos legyen a gyakorisággal. Ezt legjobban úgy tudjuk megvalósítani, hogy a különböző kategóriák gyakoriságával arányos geometriai alakzatok csupán egyik dimenziójukban térnek el. Tehát, ha téglalapokat használunk, akkor az alapokat egyformának vesszük, a magasságot arányosnak a gyakorisággal (oszlopdiagram), de a magasság is lehet ugyanakkora, ekkor az alap lesz arányos a gyakorisággal (rúddiagram). Ha körcikkdiagramot készítünk, akkor a cikk nyílásszöge arányos a gyakorisággal, a cikkek sugara mindig ugyanakkora kell legyen (ugyanabban az ábrában). A következőkben két, nagyon gyakran használt ábrázolása látható a 6. táblában bemutatott ismérvnek:
BEVEZETÉS A STATISZTIKÁBA
47
3. ábra. Az iskolai végzettség eloszlása (Kászon, 12 éves és idősebb népesség, 2001) 250
Személy
200 150 100 50 0 Személy
Nincs iskolai végzettsége
Elemi iskola
Általános iskola
Szakiskola
Középiskolai végzettség
Felsofokú végzettség
4. ábra. Az iskolai végzettség eloszlása (Kászon, 12 éves és idősebb népesség, 2001, N=503) 38%
26%
17%
17%
1% 1%
Nincs iskolai végzettsége Általános iskola Középiskolai végzettség
Elemi iskola Szakiskola Felsofokú végzettség
48
MEZEI ELEMÉR
3.3. A sokaság leírása mennyiségi ismérvek alapján 3.3.1. A (számtani) átlag A legegyszerűbb és a legismertebb középérték a számtani középarányos, amelyet egyszerűen átlagnak szoktunk nevezni. Az átlagot csupán mennyiségi változókra számítjuk ki és főleg értelmezzük (az SPSS program nem gondolkozik, bármilyen numérikus típusú változó esetén kiszámítja az átlagértéket, még akkor is, ha a változó numérikus mennyiségei sorszámot tartalmaznak vagy etnikumok, felekezetek, nemek kódjait). Egy mennyiségi változó átlaga értelmezés szerint a felvett összes érvényes értékek számtani középarányosa. Használatos még a média kifejezés is az átlagra, valószínűségi változó esetén pedig a várható érték megnevezés. Ha a változó X és ennek értékei rendre (nem feltétlenül növekvő sorrendben) xi , i = 1..N (N a sokaságbeli érvényes esetek száma), akkor az átlagérték értelmezés szerint:
x1 + x2 + ... + x N 1 N M (X ) = x = = ∑ xi . N N i =1 Az átlagértéket szokták még egyszerűen m-el is jelölni. Ha a változó értékei között sok a hasonló, akkor nyilvánvalóan ezek összegzése helyett a gyakorisággal való szorzást fogjuk használni. Például, ha egy diákcsoportban 7-en 19 évesek, 8-an 20 évesek, 4-en 21 évesek és egy 24 éves, akkor az életkorok összegét egyszerűen így számítjuk ki:
7 ⋅ 19 + 8 ⋅ 20 + 4 ⋅ 21 + 24 = 133 + 160 + 84 + 24 = 401
BEVEZETÉS A STATISZTIKÁBA
49
Ilyen esetben az átlag képletét szokás még így is megadni: k f1 x1 + f 2 x2 + ... + f k xk x= = ∑ f jxj f1 + f 2 + ... + f k j =1
k
∑ fj . j =1
A számtani átlagra klasszikus példa az iskolai tanulmányi átlag, de tudni kell azt, hogy az iskolai szabályzat az átlagértékeket két tizedesjeggyel kéri és kerekítés nélkül (két tizedesjegyre való csonkítással), viszont a tudományos alkalmazásokban a kerekítést kell használni. Általában egy tizedesjeggyel többre kell kerekíteni, mint ahány tizedesjegy használatos a változóban. Ha az életkorokat években fejeztük ki, az átlagéletkort egy tizedesjegy pontossággal adjuk meg (a már említett diákcsoport esetében 401/20=20.1 év), de ha az esetszám több száz vagy ezernél is több, az átlagértékeket már kettővel több tizedesjeggyel szokták megadni. Példa Egy felmért mintában a megkérdezett személyek lakásának szobaszáma a következő eloszlást mutatja: 1 szoba......65 személy
2 szoba . 590 személy
3 szoba . 616 személy
4 szoba....268 személy
5 szoba ... 88 személy
6 szoba ... 40 személy
7 szoba......11 személy
8 szoba ..... 2 személy
9 szoba ..... 2 személy
Akkor az átlagos szobaszám:
x= =
65 ⋅ 1 + 590 ⋅ 2 + 616 ⋅ 3 + 268 ⋅ 4 + 88 ⋅ 5 + 40 ⋅ 6 + 11⋅ 7 + 1 ⋅ 8 + 1 ⋅ 9 = 65 + 590 + 616 + 268 + 88 + 40 + 11 + 2 + 2
65 + 1180 + 1848 + 1072 + 440 + 240 + 77 + 8 + 9 4939 = = 2.936 ... 1682 1682 Tehát az 1682 válaszoló személy átlagosan 2.94 szobás lakásban él.
50
MEZEI ELEMÉR 3.3.2. Az átlag tulajdonságai Bizonyítás nélkül elmondhatjuk azt a hasznos tulajdonságot, hogy az
átlagérték a változó legkisebb és legnagyobb értéke közé esik. Ha egy diákcsoport átlagéletkorának 43 év körüli értéket ad az Spss program, akkor biztosan az adathiányt 99-el vagy 999-el kódoltuk és a programban nem érvénytelenítettük, így elég hamar rájöhetünk a mulasztásunkra (ezért ajánlatos az adathiányt vagy más érvénytelen választ kirívóan nagy értékkel kódolni). A többi tulajdonság kijelentése és bizonyítása érdekében legyenek X, Y mennyiségi változók egy sokaságon, a, b valós számok. 1. M(X+a)=M(X)+a Bizonyítás:
1 N 1 N 1 N M ( X + a ) = ∑ ( xi + a ) = ∑ xi + ∑ a = N i =1 N i =1 N i =1 = M (X ) +
1 N ⋅ a = M (X ) + a N
2. M(bX)=bM(X) Bizonyítás:
1 N 1 N M (bX ) = ∑ (bxi ) = b∑ xi = b ⋅ M ( X ) N i =1 N i =1 3. M(bX+a)=bM(X)+a Bizonyítás: az előző két tulajdonság alapján azonnali.
BEVEZETÉS A STATISZTIKÁBA
51
4. M(X+Y)=M(X)+M(Y) Bizonyítás:
1 N 1 N 1 N M ( X + Y ) = ∑ ( xi + yi ) = ∑ xi + ∑ yi = M ( X ) + M (Y ) N i =1 N i =1 N i =1 Az első tulajdonságot nagyon jól alkalmazhatjuk kézi számítások esetében és amikor a változó értékei mind nagyok. Ilyenkor jó egy közeli becslést találni az átlagértékre, majd ezt kivonni minden egyes eset értékéből. Ilyen becslés lehet például a medián, de ha nem rendelkezünk ennek értékével, az sem baj, csak olyan számot találjunk, amelyet könnyű kivonni a változó értékeiből és a különbségek látványosan kisebbek legyenek, mint az eredeti értékek. A következő táblázatban bemutatjuk az átlagérték kézi kiszámítását, párhuzamosan az értelmezés alapján és az 1. tulajdonság felhasználásával (az X változó egy diákcsoport jegyei társadalomstatisztikából, BBTE, gyógypedagógia szak, 2000/2001-es tanév). 7. tábla. Az átlag kézi kiszámítása az 1. tulajdonság segítségével xi
i
z i = xi − 8
xi
i
z i = xi − 8
1.
9
1
8.
8
0
2.
8
0
9.
6
–2
3.
9
1
10.
10
2
4.
10
2
11.
8
0
5.
7
–1
12.
4
–4
6.
9
1
13.
8
0
7.
7
–1
Összes
103
–1
Átlag
7.92
–0.08
Innen M(X) = M(Z+8) = M(Z)+8 = –0.08+8= 7.92
52
MEZEI ELEMÉR Megemlíthető továbbá az átlagértéknek néhány más tulajdonsága is: N
5.
∑ (xi − m ) = 0 (másképp írva: M(X–M(X))=0). i =1
⎧N ⎫ N 2 6. min ⎨∑ ( xi − a ) a ∈ R ⎬ = ∑ ( xi − m )2 (más szóval: az ⎩ i =1 ⎭ i =1 eltérésnégyzet-összegek az átlag esetében minimálisak). 3.3.3. A medián A medián jelentése: a középső érték egy rendezett értéksorban. Például, ha egy líceumi osztály évharmadvégi matematika jegyei (növekvő sorrendben): 3, 4, 4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9, 10, 10, 10. (az osztályban tehát 21 diák kapott osztályzatot matematikából), akkor a medián a 11-edik eset értéke: Me = 7. 3.3.4. Kvantilisek A medián az értéksort két egyenlő részre bontja. Ha több értékre óhajtjuk bontani, akkor a felbontás határeseteit összefoglalóan kvantiliseknek nevezzük. A legfontosabb kvantilis értékek a következők: – kvartilisek: az értéksort négy egyenlő részre bontják. – decilisek: 10 egyenlő részre bontja az értékek sorát. – centilisek: 100 egyenlő nagyságú részre osztják fel az értéksort. 3.3.5. A terjedelem (amplitudó, angolul range) A terjedelem a legnagyobb és a legkisebb érvényes értékek különbsége.
BEVEZETÉS A STATISZTIKÁBA
53
3.3.6. A kvartilis deviáció Ez a terjedelemhez hasonló, csak a harmadik és az első kvartilis különbségét számítjuk ki. Ez a mutató nem annyira függ a szélsőséges értékektől 3.3.7. Az átlagos eltérés Egy adott értéktől (többnyire a mediántól, az átlagtól) szokták számítani az esetek eltérését, kiküszöbölve így a skála kezdőpontjának megválasztásától függő értékek adta problémákat. Viszont az eltérések nem negatív számokat jelentenek, így matematikai alakjuk az abszolút érték (modulusz) jelét használják, ezekkel felírt kifejezések nem átalakíthatók, ezért az eltérésekből származó mutatók alig használatosak a statisztikában. 3.3.8. A szórás és a szórásnégyzet (variancia) Az átlagos eltérés hiányosságát (a moduluszos kifejezéseket) úgy küszöbölhetjük ki, hogy az értékek átlagtól való eltérését négyzetesen átlagoljuk (azaz négyzetre emeljük, átlagoljuk és végül gyökvonással visszahozzuk az eredeti mértékegységre). Képlete:
D( X ) = σ =
1 N ( xi − x )2 ∑ N i =1
Ezt a σ-t nevezzük szórásnak, a gyökjel alatti mennyiséget pedig szórásnégyzetnek (idegen eredetű szóval varianciának). Nyilvánvaló, hogy ez az értelmezés a kevés, de nagyobb gyakoriságú értékekkel rendelkező változók esetében a
54
MEZEI ELEMÉR k
∑ f j (x j − x )2 σ=
j =1
k
∑ fj j =1
alakot is felveheti. A matematikai átalakítások során a szórásnégyzetből indulunk ki, ugyanis a négyzetgyökös mennyiségek is csak korlátolt mértékben alakíthatók át. Egy ilyen átalakítás azonnal elvezet a szórásnégyzetnek egy olyan alakjához, amelyet kézi számítások során gyakran alkalmaztak. A levezetést is és az alkalmazását is bemutatjuk a következőkben, annak ellenére, hogy a számítógépes programok nem használják ezen egyszerűsítő képletet.
(
)
1 N 1 N 2 2 σ = ∑ ( xi − x ) = ∑ xi − 2 xi x + x 2 = N i =1 N i =1 2
__
__
N 1 N 2 1 N 2 1 = ∑ xi − 2 x ∑ xi + x 1 = x 2 − 2 xx + x 2 = x 2 − x 2 . ∑ N i =1 N i =1 N i =1
Röviden tehát:
2
__ 2
σ = x − x 2 , azaz a szórásnégyzet számszerint
egyenlő a négyzetek átlagának és az átlag négyzetének a különbségével. Kézi számítások esetében azért előnyös ennek a képletnek az alkalmazása, mert az x2-et pontosabban kiszámíthatjuk, mint az
( xi − x )2 -t,
tekintettel arra, hogy az átlagérték általában sok tizedesjeggyel írható fel kellő pontossággal. A
következő
táblázatban
bemutatjuk
a
szórásnégyzet
kézi
kiszámítását, párhuzamosan az értelmezés alapján és a számítási képlet
BEVEZETÉS A STATISZTIKÁBA
55
segítségével (az X változó egy diákcsoport jegyei társadalomstatisztikából, BBTE, gyógypedagógia szak, 2000/2001-es tanév). 8. tábla. A szórásnégyzet kiszámítása xi − 7.92
xi
i
(xi − 7.92)2
x2
1.
9
1.08
1.1664
81
2.
8
0.08
0.0064
64
3.
9
1.08
1.1664
81
4.
10
2.08
4.3264
100
5.
7
–0.92
0.8464
49
6.
9
1.08
1.1664
81
7.
7
–0.92
0.8464
49
8.
8
0.08
0.0064
64
9.
6
–1.92
3.6864
36
10.
10
2.08
4.3264
100
11.
8
0.08
0.0064
64
12.
4
–3.92
15.3664
16
13.
8
0.08
0.0064
64
Összes
103
0.04
32.9232
849
Átlag
7.92
0.003
2.5326
65.31
A szórásnégyzet az értelmezés alapján 2.5326, a számítási képlet szerint pedig 65.31–7.922 = 2.5836. Az eltérés a kétféleképpen kiszámított szórásnégyzet esetében számottevő, és egyik sem a pontos érték. A pontosabb érték kiszámítására a
2
__ 2
σ = x − x 2 kifejezésbeli két átlagértéket kell tört
alakban felírni, majd közös nevezőre hozatal és osztás után kellő pontosságú szórásnégyzet áll rendelkezésünkre:
56
MEZEI ELEMÉR 2
849 ⎛ 103 ⎞ 13 ⋅ 849 − 1032 σ = −⎜ = ⎟ = 13 ⎝ 13 ⎠ 132 2
=
11037−10609 428 = = 2.532544 169 169
A szórást gyökvonás útján kapjuk meg: σ = 1.59. Elképzelhető, hány átlagtól való eltérést kellene pontosabban felírni és négyzetreemelni, ha meg kellene győződni róla, hogy az értelmezés alapján kiszámított szórásnégyzet kellő pontosságú-e. A számítási képlet előnye az is, hogy akkor is alkalmazható, amikor még nem is rendelkezünk az összes adattal, vagy ha több személy segítségét kérjük, mindegyikük rendelkezvén az adatok egy részével, végül csak a részösszegeket kell szummázni az átlagértékek kiszámítása érdekében. A fenti értelmezés vagy számítási képlet alapján számított szórásról általában elmondható, hogy egyféle átlagos eltérés a sokaság átlagától, de elég gyakoriak az olyan esetek, amikor ez nem igaz. Ha egy eset kirívóan nagy vagy kicsi értékkel rendelkezik a vizsgált változó esetében, akkor az ehhez tartozó eltérésnégyzet mellett a többiek eltörpülnek, hangsúlyozottan dominál ez az eset a szórásnégyzetben. Példaként vegyünk egy tíztagú diákcsoportot, ezek közül 5-nek 1 testvére van, a többi 5-nek 2. Így átlagban a diákoknak 1.5 testvérük van, ettől átlagosan 0.5-tel térnek el a változóértékek, szórásnak is 0.5-öt kapunk. De ha a csoport kibővül egy új diákkal, akinek éppen 18 testvére van, a testvérek száma átlagosan 3.0 lesz, az ettől való eltérések: 2,2,2,2,2,1,1,1,1,1,15, eltérésnégyzetek pedig: 4,4,4,4,4,1,1,1,1,1,225. A 11-re bővült csoportban az átlagtól való eltérések összege 30, ennek felét
BEVEZETÉS A STATISZTIKÁBA
57
az új diák szolgáltatja, az eltérésnégyzetek összege 250, amiből már 90% származik az új diákra számított értékből. Látható, hogy a szórás értelmezésének vannak előnyei, de vannak hátrányai is. Hátrány az is, hogy általában egy nagyobb sokaságban előfordulnak kirívó esetek, viszont az ebből vett mintában ezek kisebb valószínűséggel vesznek részt (gyakran a kutató szándékosan ki is iktatja őket), ezáltal a mintában számított szórás nem jó becslése a sokaság szórásának. Ha a mintabeli szórás alapján akarunk becslést adni a sokaság szórására, akkor módosítani kell a mintabeli szórás képletét olymód, hogy valamivel nagyobb érték adódjon, mint az eddigi értelmezés szerint. A matematikailag is levezethető összefüggés a következő:
s=
1 N ( xi − x )2 . ∑ N − 1 i =1
Az így kapott szórást nevezik tehát mintaszórásnak, de használják egyes szerzők erre a korrigált szórás vagy a standardizált szórás kifejezést is. 3.3.9. A szórás tulajdonságai. Két változó kovarianciája A szórás (és a szórásnégyzet) esetében az értelmezés alapján könnyen levezethető néhány olyan tulajdonság, amelyek alkalmazásával leegyszerűsíthetők a kézi számítások, vagy ellenőrizhetők mások eredményei. A továbbiakban legyenek X, Y mennyiségi változók egy sokaságon, a, b valós számok.
58
MEZEI ELEMÉR Tulajdonságok:
1. D(X+a)=D(X) Bizonyítás:
1 D (X + a) = N 2
2
__________ ⎤ ⎡ 1 ∑ ⎢(xi + a ) − ( X + a ) ⎥ = N ⎦ i =1 ⎣ N
=
N
∑ (xi + a − x − a )2 = i =1
1 N (xi − x )2 = D2 ( X ) , ∑ N i=1
ahonnan azonnal következik a kijelentett tulajdonság. 2. D(b ⋅ X ) = b ⋅ D( X ) Bizonyítás: 2
_______ ⎤ 1 N⎡ D (b ⋅ X ) = ∑ ⎢(bxi ) − (bX ) ⎥ = N i =1 ⎣ ⎦ 2
1 N 1 N 2 = ∑ (bxi − bx ) = ∑ [b( xi − x )]2 = N i=1 N i=1 N 1 N 2 2 2 1 ( xi − x )2 = b 2 ⋅ D 2 ( X ) , = ∑ b ( xi − x ) = b ∑ N i =1 N i =1
ahonnan azonnal következik a kijelentett tulajdonság. 3. D(b ⋅ X + a ) = b ⋅ D( X ) Bizonyítás: az előző két tulajdonság alapján azonnal következik. Az első tulajdonságot nagyon jól alkalmazhatjuk kézi számítások esetében és amikor a változó értékei mind nagyok, a szórás viszont kicsi.
BEVEZETÉS A STATISZTIKÁBA
59
Ilyenkor jó egy közeli becslést találni az átlagértékre, majd ezt kivonni minden egyes eset értékéből (ilyen becslés lehet például a medián vagy egy olyan szám, amit könnyű kivonni a változó értékeiből és a különbségek látványosan kisebbek, mint az eredeti értékek). Szemléltető példának (bár nem igazán jó erre) vegyük a korábban már használt esetet, a 13 tagú diákcsoport jegyeit társadalomstatisztikából. 9. tábla. A szórásnégyzet kézi kiszámítása az 1. tulajdonság segítségével i
xi
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Összes Átlag Innen
9 8 9 10 7 9 7 8 6 10 8 4 8
z i = xi − 8
1 0 1 2 –1 1 –1 0 –2 2 0 –4 0 –1 –0.077
z i2 = ( xi − 8)
2
1 0 1 4 1 1 1 0 4 4 0 16 0 33 2.5385
( )
D2 ( X ) = D2 (Z ) = M Z 2 − M 2 (Z ) = 2.5385 − (− 0.077)2 = 2.5326 A második tulajdonság olyan esetben tesz jó szolgálatot, ha mértékegységet kell cserélnünk a változóban. Például, ha egy csoportban a testmagasságot cm-ben adták meg, átlag és szórásértékkel együtt
60
MEZEI ELEMÉR
(m=168.6 cm, σ=14.8 cm) és nekünk méterben kell számolni, akkor a már
kiszámított
jellemzőket
egyszerűen
elosszuk
100-zal,
a
mértékegység cseréjének szorzótényezőjével (m=1.686 m, σ=0.148 cm). Általában nem bizonyítható az átlagérték 4. tulajdonságához hasonló összefüggés, vagyis
D 2 ( X + Y ) ≠ D 2 ( X ) + D 2 (Y ) . Az értelmezés alapján: 2
__________ _⎤ 1 N⎡ 1 N D ( X + Y ) = ∑⎢( xi + yi ) − ( X + Y ) ⎥ = ∑( xi + yi − x − y)2 = N i=1 ⎣ ⎦ N i=1 2
1 N = ∑ [( xi − x ) + ( yi − y )]2 = N i =1
[
]
1 N = ∑ ( xi − x )2 + 2( xi − x )( yi − y ) + ( yi − y )2 = N i =1
1 N 1 N 1 N 2 = ∑ ( xi − x ) + 2 ∑ ( xi − x )( yi − y ) + ∑ ( yi − y )2 = N i =1 N i =1 N i =1 1 N = D ( X ) + D (Y ) + 2 ∑ ( xi − x )( yi − y ) , N i =1 2
2
ahonnan:
1 D ( X + Y ) − D ( X ) − D (Y ) = 2 N 2
2
2
N
∑ (xi − x )( yi − y ). i =1
Viszont tulajdonság helyett egy új fogalom bevezetését teszi lehetővé a fenti eredmény, éspedig a kovarianciáét:
BEVEZETÉS A STATISZTIKÁBA
1 cov( X , Y ) = N
61 N
∑ (xi − x )( yi − y ) i =1
A kovariancia együttes változást mér, az ( xi − x )( yi − y ) szorzat pozitív értéke arra utal, hogy egyidőben átlagon felüli vagy egyidőben átlagon aluli mindkét változó értéke, így akkor, amikor gyakori az ilyen eset (a változók összefüggnek egymással), a kovariancia értéke pozitív és nagy. Amikor a fordított összefüggés a gyakori, azaz sok egyed esetében az egyik változó átlagon aluli és a másik átlagon felüli értékkel rendelkezik, akkor a kovariancia negatív értékű lesz és abszolút értékben nagy. Amennyiben az együttes változás véletlenszerű, vagyis nagyjából egyformán gyakoriak az olyan egyedek, akik esetében a változók értékei átlagon aluliak is meg átlagon felüliek is, összefüggés nélkül, akkor a kovariancia értéke kicsi. Ez a kicsi eléggé viszonylagos, mert a kovariancia értéke mértékegység-függő, de relativizálni lehet ezt, ahogy egy későbbi paragrafusban látni is fogjuk. Addig is érjük be egy új elméleti fogalom bevezetésével. Két változót függetlennek nevezünk, ha kovarianciájuk zéró (0). Ennek a fogalomnak a felhasználásával kijelenthetünk egy újabb tulajdonságot, amit már nem kell bizonyítani, mert a függetlenséget úgy értelmeztük, hogy e tulajdonság éppen fennálljon: 4. Független X, Y mennyiségi változók esetén
D( X + Y ) = D 2 ( X ) + D 2 (Y ) .
62
MEZEI ELEMÉR 3.3.10. Az átlag és szórás kiszámítása részeredmények alapján Előfordulhat olyan helyzet is, hogy részsokaságonként ismeretesek
az átlagértékek és a szórások, és ezekből kell meghatározni a teljes sokaságban mérhető átlagot és szórást. A következőkben a levezetések kissé bonyolult jelöléseket igényelnek. Tételezzük fel, hogy egy N elemű sokaságon értelmezett egy mennyiségi ismérv (X). Ha a sokaságot több (k számú) alsokaságból hozzuk össze, akkor lényegében van egy minőségi ismérv is (Y), amelynek kategóriáit jelöljük 1-től k-ig terjedő számokkal. A különböző egyedek ezen minőségi ismérvre vonatkozóan azt a sorszámot kapják, ahányadik csoportból származnak. A mennyiségi ismérv értékeit egyrészt jelöljük xi-vel (i=1..N), másrészt egy új jelölésbe vegyük be azt is, hogy melyik Y-beli kategóriához tartozó elem értékéről van szó: xij, ahol j=1..k, i=1..nj és nj a j-edik kategóriába tartozó esetek száma. Legyen m az egész sokaságra számított átlagértéke az X változónak, σ pedig a szórása és legyenek mj és σj ugyanennek a változónak az átlagértéke és szórása az Y szerinti j-edik kategóriában (j=1..k). Ekkor nyilvánvalóan igazak az alábbi összefüggések: k
∑nj = N , j =1
1 N 1 m = ∑ xi = N i =1 N
⎛ nj ⎞ ∑ ⎜⎜ ∑ xij ⎟⎟ = j =1⎝ i =1 ⎠ k
BEVEZETÉS A STATISZTIKÁBA
1 = N
σ 2j
1 = nj
63
⎞ 1 ∑ xij ⎟⎟ = N i =1 ⎠
⎛ 1 ∑ ⎜⎜ n j ⋅ n j j =1⎝
nj
k
k
∑nj ⋅mj j =1
nj
∑ (xij − m j )2 , j=1..k. i =1
A következő levezetés már bonyolultabb, de követhető ez is és a végeredmény megéri a fáradtságot: N
N ⋅ σ = ∑ ( xi − m ) 2
2
i =1
⎛ nj ⎞ = ∑ ⎜ ∑ xij − m 2 ⎟ = ⎜ ⎟ j =1⎝ i =1 ⎠ k
(
)
⎛ nj ⎞ = ∑ ⎜ ∑ xij − m j + m j − m 2 ⎟ = ⎜ ⎟ j =1⎝ i =1 ⎠ k
(
⎛ nj = ∑ ⎜ ∑ xij − m j ⎜ j =1⎝ i =1 k
[(
⎛ nj = ∑⎜∑ xij − mj ⎜ j =1⎝ i=1 k
(
⎞
)
k
) (
⎞ ⎟= ⎟ ⎠
)]
(
)
⎞ ⎟= ⎟ ⎠
)
nj nj nj ⎞ ⎛ nj 2 mj − m + 2∑⎜ mj ∑xij − m∑xij −mj ∑1+ mmj ∑1⎟ = ⎜ ⎟ j=1⎝ i=1 i=1 i=1 i=1 ⎠
∑ (
k
k
∑ (mj − m)
)
2
k 2 n jσ j + n j j=1 j =1
=∑
)(
(
k
=∑
(
+ 2 xij − m j m j − m + m j − m
2
⎛ nj ⎞ k ⎛ nj 2 +∑⎜∑ mj − m ⎟ +∑2⎜∑ mj xij − mxij − m2j + mmj ⎟ ⎜ ⎟ ⎜ ⎠ j=1⎝i=1 ⎠ j=1 ⎝ i=1
2⎟
k 2 n jσ j + n j j=1 j=1
)
2
)
2
k
=∑
j =1
k
(
)
+ 2∑ mj n j m j − mnj mj − n j m2j + mmj n j = j=1
n jσ 2j
k
(
)
+ ∑nj mj − m 2 . j =1
64
MEZEI ELEMÉR Az utóbbi összegben szokták az első tagot a csoportokon belüli
négyzetösszegnek (Qw, within=belül) nevezni, a második tagot pedig a csoportok közötti négyzetösszegnek (Qb, between=között). Amennyiben mindkét oldalt elosztjuk az összesetek számával, akkor az alábbi összefüggéshez juthatunk: k
σ2 = ahol
∑
j =1
k
∑ n j (m j − m)2
n jσ 2j
n1 + n2 + ... + nk
+
j =1
n1 + n2 + ... + nk
= σ w2 + σ b2 ,
σ w2 nevezhető a csoportokon belüli szórásnégyzetnek (pontosabban
a csoportokon belüli szórásnégyzetek súlyzott középarányosának),
σ b2 pedig a csoportok közötti szórásnégyzet (lényegében az a teljes szórásnégyzet, ami akkor adódna, ha mindegyik csoportban a megfigyelt értékeket helyettesítenők az illető csoport átlagával, azaz a csoportok abszolút homogének lennének). Alkalmazás szempontjából ez utóbbi képlet egyszerűbben megjegyezhető, ha például k=2 esetre írjuk fel:
n1σ 12 + n2σ 22 n1 (m1 − m )2 + n2 (m2 − m )2 , σ = + n1 + n2 n1 + n2 2
ehhez még hozzá szokták venni az átlagérték megfelelő képletét:
m=
n1m1 + n2 m2 . n1 + n2
Konkrét alkalmazásként tekintsük egy 1998-as felmérésből számított adatokat:
BEVEZETÉS A STATISZTIKÁBA
65
10. tábla. Átlagéletkor és szórás csoportokon belül A helyi orvosi ellátással való elégedettségi szint
Átlagéletkor
Esetszám
Szórás
Szórásnégyzet
Nagyon elégedett
53.47
15
16.66
277.716
Kissé elégedett
55.30
161
14.69
215.650
Kissé elégedetlen
56.16
86
15.10
227.950
Nagyon elégedetlen
54.41
32
18.53
343.179
?
?
?
?
Összesen
Legkönnyebben az összesetszám számolható ki:
N = n1 + n2 + n3 + n4 = 15 + 161 + 86 + 32 = 294 Ezután következik a 294 személy átlagéletkorának a kiszámítása:
m= =
n1m1 + n2 m2 + n3m3 + n4 m4 = N
15 ⋅ 53 . 47 + 161 ⋅ 55 . 30 + 86 ⋅ 56 . 16 + 32 ⋅ 54 . 41 = 55 . 36 294
A legtöbb műveletet a szórásnégyzet kiszámítása igényli: n1σ12 + n2σ22 + n3σ32 + n4σ42 n1(m1 − m)2 + n2(m2 − m)2 + n3(m3 − m)2 + n4(m4 − m)2 σ = + = N N 2
=
15 ⋅ 277 . 716 + 161 ⋅ 215 . 650 + 86 ⋅ 227 . 950 + 32 ⋅ 343 . 179 + 294
15(53.47− 55.36)2 +161(55.30− 55.36)2 + 86(56.16− 55.36)2 + 32(54.41− 55.36)2 + = 294
= 236.295 + 0.470 = 236.765, és σ = 15.39 Meg kell jegyezni itt azt is, hogy amennyiben a részeredményeink mintaszórást tartalmaznak, úgy módosul a szórásnégyzetet adó képlet is.
66
MEZEI ELEMÉR
Például az előbbi feladatban szereplő esetekre az Spss a következő mintaszórásokat és mintavarianciákat adja: 11. tábla. Átlagéletkor és mintaszórás csoportokon belül A helyi orvosi ellátással való elégedettségi szint
Átlagéletkor
Esetszám
Mintaszórás
Mintavariancia
Nagyon elégedett
53.47
15
17.25
297.552
Kissé elégedett
55.30
161
14.73
216.998
Kissé elégedetlen
56.16
86
15.19
230.632
Nagyon elégedetlen
54.41
32
18.82
354.249
Az átlagértéket ugyanúgy számítjuk ki (m = 55.36), de
s
2
( n1 − 1)s12 + (n2 − 1)s22 + (n3 − 1)s32 + (n4 − 1)s42 = + N −1
n1 (m1 − m )2 + n2 (m2 − m )2 + n3 (m3 − m )2 + n4 (m4 − m )2 + = N −1 =
14 ⋅ 297.552 + 160 ⋅ 216.998 + 85 ⋅ 230.632 + 31 ⋅ 354.249 + 293
15(53.47−55.36)2 +161(55.30−55.36)2 +86(56.16−55.36)2 +32(54.41−55.36)2 = + 293 = 237.102 + 0.471 = 237.573, és s = 15.41 Ez utóbbi két végeredményt kapjuk, ha az Spss programmal dolgozunk (ezrednyi eltérések adódhatnak a kerekítések miatt).
BEVEZETÉS A STATISZTIKÁBA
67
3.5. Példák 1. példa Egy, iskolások körében végzett, kutatás során azok a gyerekek, akik dohányoznak vagy akik dohányoztak korábban, a következőképen válaszoltak arra, hogy hány évesen szívták el az első cigarettát: Életkor 5 évesen 6 évesen 7 évesen 8 évesen 9 évesen 10 évesen 11 évesen 12 évesen
Személy 1 4 3 4 2 6 10 14
Életkor 13 évesen 14 évesen 15 évesen 16 évesen 17 évesen 18 évesen 19 évesen Nem válaszolt
Személy 24 32 29 25 11 5 1 13
Jellemezzük (írjuk le) a sokaságot ezen ismérv alapján. Kijelöljük, számítjuk a leíráshoz szükséges mutatókat: A célsokaság k
∑ fi = 1 + 4 + 3 + 4 + 2 + 6 + 10 + 14 + 24 + 32 + 29 + 25 + 11+ 5 + 1 + 13 = i =1
= 184 diákból áll (azok száma, akik dohányoznak, vagy dohányoztak korábban). Közülük 13 nem válaszol a feltett kérdésre, azaz 7,065…%a. Az érvényes válaszok száma 171. A továbbiakban ennek a 171 diáknak a sokaságán végezzük el a számításokat. Mininum: 5 éves kor,
Maximum: 19 éves kor,
Módusz: 14 éves kor, Medián: a 86-dik diák életkora az első cigi elszívásakor:
68
MEZEI ELEMÉR k
∑ fi = 1 + 4 + 3 + 4 + 2 + 6 + 10 + 14 + 24 = 68 és i =1
k +1
∑ fi = 1 + 4 + 3 + 4 + 2 + 6 + 10 + 14 + 24 + 32 = 100 i =1
tehát a 86-dik életkor a 14 év. Átlagéletkor az első cigaretta elszívásakor:
1 k 1 x= fi xi = (1⋅ 5 + 4 ⋅ 6 + 3⋅ 7 + 4 ⋅ 8 + 2 ⋅ 9 + 6 ⋅10 +10⋅11+14⋅12 + ∑ 171i=1 171 + 24 ⋅ 13 + 32 ⋅ 14 + 29 ⋅ 15 + 25 ⋅ 16 + 11 ⋅ 17 + 5 ⋅ 18 + 1 ⋅ 19 ) =
1 (5 + 24+ 21+ 32+ 18+ 60+ 110+ 168+ 312+ 448+ 435+ 400+ 187+ 90+ 19) = 171
=
=
2329 = 13,61988... , 171
tehát átlagosan 13,6 év.
A szórás kiszámításához: 1 k 1 x = ∑fi xi = (1⋅ 52 + 4 ⋅ 62 + 3⋅72 + 4 ⋅ 82 + 2⋅ 92 +6 ⋅ 102 +10⋅ 112 +14⋅ 122 + 171i=1 171 2
+ 24 ⋅ 132 + 32⋅ 142 + 29 ⋅ 152 + 25⋅ 162 + 11⋅ 172 + 5 ⋅ 182 + 1 ⋅ 192 ) =
=
1 (1⋅ 25 + 4 ⋅ 36 + 3 ⋅ 49 + 4 ⋅ 64 + 2 ⋅ 81+ 6 ⋅100+ 10⋅121+ 14⋅144+ 171 + 24 ⋅ 169 + 32 ⋅ 196 + 29 ⋅ 225 + 25 ⋅ 256 + 11 ⋅ 289 + 5 ⋅ 324 + 1 ⋅ 361) = =
1 ( 25 + 144 + 147 + 256 + 162 + 600 + 1210 + 171
+ 2016 + 4056 + 6272 + 6525 + 6400 + 3179 + 1620 + 361 ) =
=
32973 = 192,82456... , 171
BEVEZETÉS A STATISZTIKÁBA
69
majd:
σ
2
= x 2 − x 2 = 192 ,82456 − 13 , 61988
2
=
= 192,82456 – 185,50113 = 7,32343 ahonnan:
σ = σ 2 = 7,32343 = 2,706... A leírás ekkor a következőképen is kinézhet:
A cigarettázó vagy régebb cigarettázott tanulók száma 184, közülük 13 (7,1%) nem válaszol arra a kérdésre, hogy hány évesen szívta el az első cigarettát. Az első cigaretta elszívásának életkora a vizsgált 5 évtől 19 évig terjed, a középső életkor a 14 év, a legveszélyeztetettebb kor is ez, a 14 éves kor. A 171 diák átlagosan 13,6 éves korban szívja el az első cigarettát, 2,71 éves szórással.
2. példa E példa során bemutatjuk, hogyan lehet könnyen elvégezni akár kézi számítással, akár az Excel program segítségével a számításokat. Egy vizsgálat során a kérdezett személyek eloszlása a lakásuk szobaszáma szerint a következő: 1 szobás
65
6 szobás
40
2 szobás
590
7 szobás
11
3 szobás
616
8 szobás
2
4 szobás
268
9 szobás
2
5 szobás
88
MEZEI ELEMÉR
70
Egyetlen táblázatba szedjük az összes kiszámítandó részeredményeket, az összesítések és átlagok egy-egy külön sorba kerül. Megnevezés
f i ⋅ xi
xi
1 szobás lakás
65
1
2 szobás lakás
1180
3 szobás lakás
xi2
f i ⋅ xi2
65
1
65
2
590
4
2360
1848
3
616
9
5544
4 szobás lakás
1072
4
268
16
4288
5 szobás lakás
440
5
88
25
2200
6 szobás lakás
240
6
40
36
1440
7 szobás lakás
77
7
11
49
539
8 szobás lakás
16
8
2
64
128
9 szobás lakás
18
9
2
81
162
Összesen
4956
Átlagban
2,946
fi
1682
16726 9,944
A szórás kiszámításához használjuk az ismert számítási képletet, de amelyben a tört alakokat írjuk be, majd a számításokat ebben a képletben végezzük el:
σ
2
2
16726 ⎛ 4956 ⎞ =x −x = −⎜ ⎟ = 1682 ⎝ 1682 ⎠ 2
2
= 9,944114 ... − 8,681816 ... = 1,262297 ...
σ = σ 2 = 1,262297... = 1,123520... A lakás szobaszámára vonatkozóan válaszolók száma 1682. A legkisebb lakás az 1 szobás, a legnagyobb a 9 szobás, átlagban közel 3 szobásak (2,9) a lakások 1,12-es szórással. Leggyakoribb lakástípus a 3 szobás (616 esetben), de alig marad el mellette a 2 szobás lakás (590). A medián érték is a 3 szobás lakás.
BEVEZETÉS A STATISZTIKÁBA
71
IV. VALÓSZÍNŰSÉGSZÁMÍTÁS ALAPFOKON A valószínűségszámítás elmélete ma már egyik ága a matematikának, kezdetben nevezték még a véletlen matematikájának is, magát a valószínűséget bizonyossági foknak. A mai modern elmélete a valószínűségszámításnak nem mellőzheti az improprius integrálokat, a többszörös integrálokat, tehát ennek az elméletnek a megismerése, tételeinek levezetése és alkalmazása messze túlhaladja a középiskolai matematika szintjét, ebben az ismertetőben csupán néhány tudományos fogalom nevét, jelentését és jelölését fogjuk bemutatni, illetve néhány eredményt fogunk röviden ismertetni. A XVI-XVII. századi természettudományok egyfajta biztos tudással ringatták el az emberiséget és ezen a talajon nőtte ki magát az az elmélet, amely a dolgok bizonyossági fokát tanulmányozta. Kezdetben a szerencsejátékok körüli problémák (de Méré lovag feladata, Blaise Pascal és Pierre Fermat levelezése) megoldásával vetődött fel az a szemlélet, hogy a részleges tudás is tudás, a véletlen jelenségek bekövetkezésének bizonyossági foka számszerűsíthető és ezekre matematikai törvényszerű-
ségek érvényesek. Mint minden elméletben, a valószínűségszámításban is vannak alapfogalmak, amelyeket nem értelmezünk, csupán szemléltetünk, körülírunk. Ilyen alapfogalom a véletlen jelenség, ami elvonatkoztatott formája az olyan természetben, társadalomban megfigyelhető jelenségeknek, amelyek majdnem azonos (elméletben teljesen azonos) körülmények között megismétlődnek (az elméletben akárhányszor megismételhetők),
MEZEI ELEMÉR
72
de amelyeknek a kimenetelét teljes bizonyossággal nem tudjuk előre megmondani. Fontos az, hogy meg tudjuk nevezni a lehetséges kimenetelek mindegyikét (vagy ezek halmazát). Egy ilyen jelenség megfigyelését, leírását vizsgálatnak nevezzük, a jelenség lefolyásának körülményeit
kísérletnek, egyszeri megismétlődését pedig próbának. A kísérlet (próba) lehetséges kimeneteleit elemi eseményeknek, ezek halmazát eseménytérnek nevezzük. A kísérlet kimenetelével kapcsolatos bármely kijelentést egyszerűen eseménynek nevezünk. Ezek közt van olyan kijelentés is, amelyik bármely próba során bekövetkezik (biztos esemény) és olyan, amelyik sohasem (lehetetlen esemény). Például legyen egy kísérlet a játékkocka dobása egy asztallapon (vízszintes síkon). A kísérlet leírásához tartozik még a megfigyelt véletlen jelenség leírása: a felső lapon levő pöttyök száma. Egy próba előtt nem tudjuk biztosan, hogy hányast fogunk dobni, de abban biztosak lehetünk, hogy a felső lapon (kézbe vesszük a kockát és végigforgatjuk) 1, 2, 3, 4, 5 vagy 6 pötty lesz. Az elemi események ekkor: a kocka felső
lapján 1 pötty van, a kocka felső lapján 2 pötty van, …, a kocka felső lapján 6 pötty van. Az elemi eseményeket minél egyszerűbben szokták jelölni, ebben az esetben erre a legalkalmasabb a pöttyök számát adó számjegy: 1, 2, …, 6. Az eseménytér ekkor az E = {1, 2, 3, 4, 5, 6}. Biztos esemény lehet ilyenkor az a kijelentés, hogy 10-nél kevesebb
pötty van a kocka felső lapján, lehetetlen esemény pedig a kocka felső lapján 7 pötty van. Az elméletben az eseményeket nagy betűvel szoktuk jelölni (A,B,…) és az E részhalmazainak tekintjük őket. Két eseményt
egymást kizárónak nevezünk, ha a kísérlet bármely próbája során közülük legfeljebb csak egyik következik be, egyidőben soha nem következhetnek be (A∩B=∅).
BEVEZETÉS A STATISZTIKÁBA
73
Ha a dobókocka szabályos (mint geometriai forma), anyaga pedig homogén, akkor még abban is biztosak lehetünk, hogy mind a hat elemi esemény bizonyossági fokát ugyanazzal a számmal adhatjuk meg (egyformán valószínű elemi események). De ha a kocka nem szabályos (például egyik sarka letört) vagy anyaga nem homogén (egyik lapjához közel a belsejében egy ólomdarab van, így súlypontja ehhez a laphoz közelebb esik), akkor is feltételezhető, hogy mindegyik elemi esemény bizonyossági foka létezik, valós számmal kifejezhető. Minden más eseményről hasonlóan elmondhatjuk, hogy létezik a bizonyossági fokát jellemző szám. Nyilvánvaló, hogy a biztos esemény bizonyossági foka a legnagyobb, a lehetetlen eseményé a legkisebb, a többi eseményé pedig e két szélsőérték közé esik. A legtermészetesebb dolog, hogy a legkisebb bizonyossági (a lehetetlen eseményét) fokot 0-ra állítsuk, a legnagyobbat (a biztos eseményét) 1-re, 10-re vagy például 100-ra. Ha a biztos esemény bizonyossági fokát 1-nek vesszük, akkor az események bizonyossági fokát az esemény valószínűségének nevezzük. Maga a
valószínűség egy függvény (jele P), melynek értelmezési tartománya az összes események halmaza (esetleg ennek egy részhalmaza, mely részhalmaz eseményalgebrát alkot), értékkészlete a [0, 1] intervallum. E függvénynek rendelkeznie kell egy igen fontos tulajdonsággal, mely lehetővé teszi a számítások elvégzését. Ezt a tulajdonságot nevezik még
additívitásnak, ugyanis azt követeli meg, hogy az egymást kizáró A és B események (A∩B=∅) esetében az A∪B valószínűsége legyen egyenlő a két esemény valószínűségeinek összegével. Ezekkel a feltételekkel nagyszámú elméleti kísérlet esetében kiszá-
míthatjuk a kísérlet bármely eseményének a valószínűségét. Ha az előbb
MEZEI ELEMÉR
74
említett kockadobást vesszük példának, akkor az 1,2,…,6 elemi események páronként egymást kizárják, együtt a biztos eseményt adják és elméletileg egyformán valószínűek, így mindegyikük valószínűsége 1/6 (itt még egyszer felhívjuk az olvasó figyelmét arra, hogy az
egyformán valószínű jelzőt a kísérlet lényegéből – szimmetriáiból – származtatjuk, és nem onnan, hogy ezeknek a valószínűsége ugyanaz a szám, ez utóbbi mennyiségi reláció következménye a minőségi összefüggéseknek). Általában egy kísérletet, a hozzá rendelt eseménytérrel és valószínűséggel együtt valószínűségi mezőnek nevezünk. Ha egy kísérlet elemi eseményei egyformán valószínűek, akkor a valószínűségi mezőt
klasszikusnak nevezzük. Egy klasszikus valószínűségi mezőben bármely esemény valószínűségét a következő képlet szerint számíthatjuk ki:
k P ( A) = , n ahol n az elemi események száma (összes esetek száma), k pedig az A esemény bekövetkezését előidéző elemi események száma (kedvező
esetek száma). Azok a kísérletek, amelyeknek statisztikai alkalmazásai is vannak, klasszikus valószínűségi mezőként igen nagyszámú elemi eseménnyel rendelkeznek. Ezek közé tartoznak elsősorban a mintavétel kísérletei. Legyen egy kísérlet például egy 25 elemű halmazból (elsőéves közgazdaságtan hallgatók csoportjából) 6 elem véletlenszerű kiválasztása (6 diák kisorsolása). A lehetséges kimenetelek (egyformán valószínű elemi események) száma igen nagy:
BEVEZETÉS A STATISZTIKÁBA 6 n = C25 =
75
25! 25 ⋅ 24 ⋅ 23 ⋅ 22 ⋅ 21 ⋅ 20 = = 177100 , 6!⋅19! 1⋅ 2 ⋅ 3 ⋅ 4 ⋅ 5 ⋅ 6
a lehetséges események száma pedig csillagászati mértékekre rúg:
( )17710 = 1024 17710 > (10 3 )17710 = 10 53130 .
P (E ) = 2177100 = 210
Érdeklődésre számot tartó esemény csak néhány van: a hat diák közt
nincs fiú, a hat diák közt egy fiú van, …, a hat diák mind fiú, vagy ilyenek, mint: a hat diák közt legtöbb három fiú van, stb. Ezek az események nem egyformán valószínűek, kiszámításukra úgynevezett
valószínűségi modellek adnak egyszerű képletet. A valószínőségi modellek közül csak kettőt említünk itt meg. Az első modell a mintavétel matematikai modellje is, neve
hipergeometrikus modell. Mivel másfajta események szerepelnek benne, mint az egyformán valószínű elemi események, a halmazt, amelyből az elemeket kiválasztjuk, urnának nevezik, az urnában golyók vannak, amelyek teljesen egyformák, csupán színűk alapján lehet megkülönböztetni őket. Az urnában legyen A számú fehér golyó (itt nem eseményt, hanem darabszámot jelöl a nagy betű) és B számú nem fehér, összesen N=A+B. A kihúzott golyók száma (részhalmaza az urnának, a golyó kihúzása után nem kerül vissza az urnába) legyen n. Azt az eseményt, hogy a kihúzott n golyó között pontosan a számú fehér golyó van röviden (n;a)-val fogjuk jelölni, ennek valószínűségét pedig P(n;a)val. Akkor a modell adta számítási képlet a következő:
P(n; a ) =
C Aa ⋅ C Nn −−aA C Nn
.
MEZEI ELEMÉR
76
Az előzőleg említett példában az urnában 25 golyó van (diák), ezek közül legyen 10 fehér (fiú). Akkor: 0 6 C10 ⋅ C15 1 ⋅ 5005 P(6;0 ) = = = 0.028... ., 6 177100 C25 1 5 C10 ⋅ C15 10 ⋅ 3003 P(6;1) = = = 0.169... ., 6 177100 C25
…………………………….. 6 0 C10 ⋅ C15 210 ⋅ 1 P(6;6 ) = = = 0.001... .. 6 177100 C25
Akkor, amikor a mintavétel nagyszámú (több száz) elem kiválasztását jelenti egy igen nagy sokaságból (szociológiai felmérések leggyakoribb esete), akkor a hipergeometrikus modell képlete nehezen alkalmazható a több száztényezős szorzatok miatt, ilyenkor a modellbe egy egyszerűsítést hajtunk végre. Ha nagy volumenű a sokaság, egy egyed kiválasztása alig változtatja meg a sokaság összetételét, a következő egyed kiválasztásánál számolhatunk ugyanazzal az összetétellel. Ez a modellben úgy valósul meg, hogy a golyót kihúzása után visszatesszük az urnába, az így előálló urnamodellt binomiális
(Bernoulli) modellnek nevezik. Ebben a modellben a számítási képlet a következő:
P(n; a ) = Cnk ⋅ p k ⋅ q n − k , ahol p a fehér golyók arányát jelenti, q=1–p a nem fehér golyókét. Ha a diákok kiválasztását ebbe a modellbe helyezzük, akkor
p=10/25=2/5=0.4:
BEVEZETÉS A STATISZTIKÁBA
77
P(6;0 ) = C60 ⋅ (0.4 )0 ⋅ (0.6)6 = 0.046... ., P(6;1) = C61 ⋅ (0.4)1 ⋅ (0.6)5 = 0.186... ., ……………………………..
P(6;6 ) = C66 ⋅ (0.4)6 ⋅ (0.6 )0 = 0.004... ., Az eltérések itt még nagyok, ugyanis egy 25 elemű sokaságból 2-3 egyed kiválasztása után eléggé érzékenyen módosul az összetétel, viszont nagyszámú sokaság esetében a hipergeometrikus modell képlete alapján nehézkesen számítható valószínűség alig tér el a binomiális modell képlete adta eredménytől: Ph (20;6) =
6 14 C400000 ⋅ C600000 = 0.12441180... 20 C1000000
Pb (20 ; 6 ) = C 206 ⋅ (0 . 4 ) ⋅ (0 . 6 ) 6
14
= 0 . 12441169 ... .
Ha ábrázoljuk a két modellben számolt (20;k) alakú események valószínűségeit, ezek gyakorlatilag egybeesnek:
5. ábra. A valószínűségek eloszlása a két modellben 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0
Bernoulli H, N=1000000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
MEZEI ELEMÉR
78
A fenti ábra alapján azt a következtetést is levonhatjuk, hogy ha olyan sokaságból választunk ki 20 személyt véletlenszerűen, amelyben 0.4 arányban (40%-ban) vannak egy bizonyos tulajdonságúak, akkor a mintában legvalószínűbb, hogy 8 személy rendelkezzen ezzel a tulajdonsággal, hasonlóan nagy valószínűséggel lehetnek 7-en vagy 9-en, a többi eseteknek egyre kisebb a valószínűsége. Ha összegezzük a 8-as személyszám körüli események valószínűségeit (az, hogy az adott tulajdonságú személyek 7-en vannak a mintában kizárja azt az eseményt, hogy 8-an vannak, stb.), aránylag kevés eset együttes valószínűsége közel kerül 1-hez, a biztos esemény valószínűségéhez:
P(20;4 ≤ k ≤ 12 ) = 0.9630... P(20;3 ≤ k ≤ 13) = 0.9899... P(20;2 ≤ k ≤ 14 ) = 0.9978... Elmondható, hogy sokkal bizonyosabb az, hogy véletlen választás esetén a 20 személy közt legalább 4 és legtöbb 12 személy legyen a megadott tulajdonságú, mint az, hogy legfeljebb 3 vagy legalább 13. Általában egy alsó és felső határ adta intervallumot konfidencia-
intervallumnak (vagy megbízhatósági intervallumnak) neveznek, az ennek megfelelő esemény valószínűségét (százalékban kifejezve) meg-
bizhatósági szintnek. Gyakran használt jelölés:
P(n; a ≤ k ≤ b ) = 1 − p . A fenti alakban szereplő p neve szignifikanciaszint. A mi példánkban a [4, 12] intervallum megbízhatósági szintje 0.963 (három tizedesjegyűre szokás kerekíteni), szignifikanciaszintje pedig p=0.037.
BEVEZETÉS A STATISZTIKÁBA
79
A mintában előforduló, adott tulajdonságú egyedek százalékos arányát is megadhatjuk: a 4 személynek 4/20×100=20% felel meg, a 12nek pedig 60%. A megbízhatósági szint jelentése ekkor az, hogy 0.963 a valószínűsége annak, hogy véletlenszerűen választott 20-as mintában az adott tulajdonságú személyek aránya a sokaságbeli 40%-tól legfeljebb 20%-kal térjen el, a szignifikanciaszint jelentése pedig az, hogy 0.037 a valószínűsége annak, hogy egy ugyanilyen mintában az adott tulajdonságú egyedek aránya több mint 20%-kal térjen el a sokaságbeli 40%tól. A statisztikában alkalmazott igen sok modell esetében a valószínűségek eloszlása az 1. ábrabeli haranggörbéhez hasonló. Ennek az eloszlásnak a neve normális eloszlás, típusa folytonos, minden x∈R számhoz érték rendelődik (a fenti ábrában 21-21 pont volt csak modellenként, de ábrázolás során ezeket össze szokták kötni szaggatott vonallal, vagy síma görbével). Ennek az elméleti függvénynek az analitikus alakja:
f : R → R, f ( x ) =
1 ⋅e σ 2π
2 ( x−m) −
2σ 2
.
Ez a függvény használható binomiális modellbeli valószínűségek közelítő értékének meghatározására is, például akkor, amikor nagy a minta. Ilyenkor a függvénybeli paraméterek a következők:
m = n ⋅ p (várható érték, legvalószínűbb érték),
σ = n ⋅ p ⋅ q (q=1–p) (szórás). Legyen egy sokaság összetétele ugyanaz, mint előző példáinkban (40% adott tulajdonságú), de a minta 200-as. Ekkor például: 68 Pb (200;68) = C200 ⋅ (0.4)68 ⋅ (0.6 )132 = 0.012881... .
MEZEI ELEMÉR
80
m = 200 ⋅ 0.4 = 80 , σ = 200 ⋅ 0.4 ⋅ 0.6 = 48 = 6.928... f (68) =
1 ⋅e 6.928 ⋅ 2π
( 68 −80 )2 − 2⋅48
= 0.012848... .
Az eltérés csekély, alig 0.00003, ami magyarázza az elméleti, folytonos normális eloszlás gyakori alkalmazását konkrét, diszkrét modellek esetében. Azonban nem szabad elfelejteni azt, hogy a két modell eltérései egyre nagyobbak, ahogy az elméleti modell diszkrét esetei (pl. minta nagysága) kisebbek. A számítások még az elméleti modellben is nehézkesek lehetnek, ezért további egyszerűsítéseket szoktak alkalmazni. A megbízhatósági intervallumot a legvalószínűbb érték (várható érték) körüli szimmetrikus intervallumnak veszik, ilyenkor az alakja a szokásos jelölésekkel (m–a,
m+a), gyakran a középponttól való eltérést a szórás többszöröseként írják fel, tehát az intervallum alakja (m–tσ, m+tσ). A normális eloszlás esetén így hozzárendelhető minden t valós számhoz egy megbízhatósági szint, illetve egy szignifikanciaszint. A megbízhatósági szintek (és szignifikanciaszintek) esetében három szint kiemelkedő szerepet kapott (klasszikus küszöbértékek), de mára, a számítógépek eterjedése miatt, szerepük homályosodott, ellenben egy statisztikával ismerkedő egyén számára illő dolog ezeknek ismerete. Az N(m,σ) paraméterű normális eloszlást követő modell esetében:
P(m − 1.96σ , m + 1.96σ ) = 0.95 = 1 − 0.05 , P(m − 2.58σ , m + 2.58σ ) = 0.99 = 1 − 0.01 , P(m − 3.29σ , m + 3.29σ ) = 0.999 = 1 − 0.001.
BEVEZETÉS A STATISZTIKÁBA
81
Mindeddig az volt a feltétel, hogy a sokaságban ismert az összetétel, és a minta összetételére vonatkozóan számítottunk valószínűségeket, bizonyossági fokokat. A gyakorlatban legalább ilyen fontos a fordított szerepű feladat megoldása. Ez feltételezi a valószínűségi elméletben további fogalmak (feltételes valószínűség, események függetlensége) és összefüggések (teljes valószínűség tétele, Bayes-formula) levezetését. Itt ezektől teljesen eltekintünk, csupán az eredmények felsorolásával törődünk. Ha egy véletlenszerűen választott n elemű mintában egy adott tulajdonságú egyének száma k, és ha p-vel jelöljük ezek arányát (p=k/n),
σ=
pq -val az arány körüli szórást, illetve P(a,b)-val annak a n
valószínűségét, hogy a sokaságban az adott tulajdonságú személyek aránya a és b közé essen, akkor:
P(m − 1.96σ , m + 1.96σ ) ≈ 0.95 , P(m − 2.58σ , m + 2.58σ ) ≈ 0.99 , P(m − 3.29σ , m + 3.29σ ) ≈ 0.999 . A becslés pontossága annál jobb, minél nagyobb a minta elemszáma. Ugyanakkor a nagy elemszám azt is eredményezi, hogy a σ kisebb, vagyis a megbízhatósági intervallum (konfidencia-intervallum) kisebb. Például ha egy 1150-es véletlenszerű mintában 38%-a az egyéneknek elégedett a város tisztaságával, akkor az a kijelentés, miszerint az egész
város lakosságának 35-41%-a elégedett a tisztasággal 95%-os bizonyosságú, vagy 0.05-ös szignifikanciaszintű. Nagyon fontos az a feltétel, hogy véletlenszerű a minta, csak ezen feltétel mellett lehet megtenni a számításokat (a véletlenszerű minta gyakorlatilag azt jelenti,
MEZEI ELEMÉR
82
hogy a sokaság minden egyes egyedének ugyanakkora az esélye, hogy a mintába kerüljön). Gyakran előforduló eset az, amikor normális eloszlású változók adódnak össze vagy vonódnak ki egymásból. Bizonyítás nélkül jelentjük ki a következő tulajdonságot: ha az Xi változók páronként függetlenek és normális eloszlásúak (N(mi,σi), i=1..k), akkor az
a1 X 1 + a2 X 2 + ... + ak X k is normális eloszlást követ, melynek várható értéke
a1m1 + a2 m2 + ... + ak mk , szórása pedig
a12σ 12 + a22σ 22 + ... + ak2σ k2 . További alkalmazásokra a megfelelő helyen kerül sor.
BEVEZETÉS A STATISZTIKÁBA
83
V. KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSE A többváltozós statisztikai elemzések alapvető célja az, hogy különböző ismérvek között kapcsolat meglétét vagy hiányát mutassák ki, a kapcsolat erősségére vonatkozóan mértékszámot szolgáltassanak. A matematikai statisztika elméletében alapvető feltétel, hogy az ismérvek eloszlása azért olyan amilyen, mert a véletlen – és csupán a véletlen tényező – így hozta ki. Akkor, amikor szokatlan – másszóval: gyanus, összefüggésre utaló – eloszlást, együtteseloszlást tapasztalunk, kiszámíthatjuk, hogy mekkora valószínűséggel (gyakorisággal) fordulnak elő ilyen eltérések akkor, ha csak kizárólag a véletlen játéka miatt adódhatnak eltérések. Például roppant gyanus az, ha egy érmét 10-szer feldobunk és mind a tízszer címer van felül. Egy tökéletes (=hibátlan) érmével való véletlenszerű dobás esetén fele-fele (1/2) az esélye a címer és az írás dobásának, és annak a valószínűsége, hogy 10 véletlenszerű dobás esetén 10-szer címert dobjunk egy tökéletes érmével egyenlő 1 10 = 0.0009765... -
2
vel. Igen kicsi az esély egy ilyen esemény bekövetkezésének (0.09765%), és ha valaki fogad arra, hogy ő bizony tízszer egymásután címert dob egy érmével, akkor 99.90235% annak az esélye, hogy ez ne sikerüljön (egy tökéletes érmével, tehát becsületesen) és ha mégis sikerül, akkor meg 99.90235% az esélye annak, hogy az érmedobás során csalás történjen (például az érme mindkét oldalán címer van).
MEZEI ELEMÉR
84
5.1 Minőségi változók közti kapcsolat és mérése Minőségi ismérvek esetén a különböző kategóriák százalékos eloszlásait hasonlítjuk össze. Például figyeljük meg a azt a két helyzetet, amelyet a 14.-es táblázat mutat be.
12. tábla. Állami gondozásba vett gyerekek száma nemek és az apa lakhelyének típusa szerint (1996) Az apa lakhelyének típusa Az intézmény A gyerek neme helye Város Falu
Összesen
Fiú
23
29
52
Lány
27
26
53
Fiú és lány Kolozsváron
50
55
105
Fiú
19
6
25
Lány
50
28
78
69
34
103
Kolozsvár
Szamosújvár
Fiú és lány Szamosújváron
A két városbeli helyzet eltérőnek tűnik: Kolozsváron valamivel több az intézményekben a falun élő apától származó állami gondozott gyerek, Szamosújváron viszont a városi apa kétszer is többször szerepel, mint a falun élő apa megjelölés. Előfordulhat, hogy csupán a véletlen műve ez a számottevőnek tűnő eltérés a két város tekintetében (és kiszámítható, hogy ekkora eltérés mekkora valószínűséggel fordul elő, ha például a gyerekeket teljesen véletlenszerűen osszuk két csoportra), de előfordulhat az is, hogy a gyerekek egy része nem véletlenszerűen került a két város valamelyikébe (ebből az utóbbi helyzetből több is van, aszerint hogy mekkora rész osztódik véletlenszerűen és mekkora rész irányítva –
BEVEZETÉS A STATISZTIKÁBA
85
ez irányításnak nem feltétlenül kell tudatosnak lennie, következhet a dolgok lényegéből is). Hasonlítsuk most össze a fiúk és lányok esetében az apa lakhelyének eloszlását a két városban:
13. tábla. Állami gondozásba vett gyerekek százalékos eloszlása nemenként az apa lakhelyének típusa szerint (1996) Az apa lakhelyének típusa Az intézmény A gyerek neme helye Város Falu
Összesen
Fiú
44.2%
55.8%
100.0%
Lány
50.9%
49.1%
100.0%
Fiú és lány Kolozsváron
47.6%
52.4%
100.0%
Fiú
76.0%
24.0%
100.0%
Lány
64.1%
35.9%
100.0%
70.0%
33.0%
100.0%
Kolozsvár
Szamosújvár
Fiú és lány Szamosújváron
Azt mondhatjuk, hogy Kolozsváron alig tér el az apa lakhelyének típusa az állami gondozásba vett fiúk és lányok esetében, Szamosújváron viszont nagyobb a különbség. Igen ritkán fordul elő, hogy a százalékos eloszlások matematikailag megegyezzenek, általában kisebb-nagyobb eltérések vannak. A matematikai statisztikában csak az az eset felel meg a változók függetlenségének, amikor a csoportokon belül a relatív eloszlások teljesen megegyeznek, amennyiben eltérés van köztük, a
változók összefüggnek, azt is mondjuk, hogy asszociáció van közöttük. A gyakorlati feladat az, hogy megállapítsuk annak a valószínűségét, hogy a tapasztalt eltérések csupán véletlenszerűen adódjanak. Ezt a valószínűséget szignifikanciaszintnek nevezik. Nyilvánvaló, hogy a
MEZEI ELEMÉR
86
nagyobb eltérések szignifikanciaszintje kisebb, a kisebb eltéréseké meg nagyobb. Az elméletileg független változók esetében az szignifikanciaszint a legnagyobb, számszerint 1 (a biztos esemény valószínűsége). Minőségi
ismérvek
közti
kapcsolat
szignifikanciaszintjének
meghatározásához leggyakrabban a χ2–próbát használjuk. Nagyon fontos, hogy a χ2–próba során kiszámítandó χ2–érték számítási képletébe csak abszolút gyakoriságok kerülnek, tehát a χ2–próba egyáltalán nem használja a százalékos eloszlásokat. Egy általánosabb esetben legyen két változó együttes eloszlása a következő táblázatba szedve (fij az abszolút gyakoriságok).
14. tábla. Tapasztalati és elméleti eloszlások a χ2–próbához X kategóriái x1 … xi … xr Összesen
y1 f11 (m11) … fi1 (mi1) … fr1 (mr1) f•1
Y kategóriái yj … …
yc
f1j (m1j) … fij (mij) … frj (mrj)
f1c (m1c) … fic (mic) … frc (mrc)
… … … … … …
f•j
… … … … … …
f•c
Összesen
f1• … fi• … fr• N
A táblázatbeli mij értékek elméleti eloszlások, kiszámításuk a következőképen történik:
mij =
f i• ⋅ f • j N f•j
fi• N
BEVEZETÉS A STATISZTIKÁBA
87
Az elméleti eloszlásokat (mij) csak a belső rekeszekben számíthatunk, ezek száma r·c, ahol r az X változónak sorokba szedett (vizsgálatba vett) kategóriáinak száma, c pedig az Y változónak oszlopokba szedett (vizsgálatba vett) kategóriáinak száma. Ezek után kiszámítjuk a χ2–értéket a következő képlet szerint: r
c
χ =∑∑ 2
i =1 j =1
( fij − mij )2 . mij
Minél nagyobbak a százalékos eltérések a sorok között, annál nagyobb a χ2 értéke, tehát annál kisebb a szignifikanciaszint. De figyelembe kell venni azt is, hogy a χ2 értelmezésében a tagok száma változó, a számszerű érték a táblázat méretétől (az elméletben még
szabadságfoknak is nevezik) is függ. A különböző szabadságfokokhoz és χ2 értékekhez rendelt szignifikanciaszinteket táblázatba szedték. A táblázat használatát a már említett példa segítségével fogjuk bemutatni. Az intézmény helye
A gyerek neme Fiú
Kolozsvár Lány Fiú és lány Kolozsváron Fiú Szamosújvár Lány Fiú és lány Szamosújváron
Az apa lakhelyének típusa Város Falu 23 29 (24.76) (27.24) 27 26 (25.24) (27.76) 50
55
19 (16.75) 50 (52.25)
6 (8.25) 28 (25.75)
69
34
Összesen 52 53 105 25 78 103
Kolozsváron a nem és az apa lakhelyének típusa változói esetében a χ2–érték a következő:
MEZEI ELEMÉR
88
( 23 − 24.76)2 (29 − 27.24)2 (27 − 25.24)2 (26 − 27.76)2 χ = + + + = 2
24.76
27.24
25.24
27.76
1.76 2 1.76 2 1.76 2 1.76 2 = + + + = 24.76 27.24 25.24 27.76
=0.125...+0.113...+0.122...+0.111...=0.473... Szamosújváron pedig:
( 19 − 16.75)2 (6 − 8.25)2 (50 − 52.25)2 (28 − 25.75)2 χ = + + + = 2
16.75
8.25
52.25
25.75
2.252 2.252 2.252 2.252 = + + + = 16.75 8.25 52.25 25.75 = 0.302...+ 0.613...+ 0.096...+ 0.196... =1.209... A szabadságfok kiszámítása egyszeű: n=(r–1)·(c–1), tehát a mi esetünkben n=1·1=1. A χ2 táblázatának idevágó része a következő: Szabadságfok 1
Szignifikanciaszint p=0.05 p=0.01 p=0.001 3.841 6.635 10.827
A számított értékeink kisebbek, mint a p=0.05-ös szintnek megfelelő
3.841, tehát mindkét esetben a szignifikanciaszint nagyobb (sőt jóval nagyobb) mint 0.05. Számítógépes program adta értékek: Kolozsvár esetében χ2=0.474 és p=0.491, Szamosújvár esetében pedig χ2=1.212 és
p=0.271. Ezek alapján elmondhatjuk, hogy: Az állami gondozásba vett gyerekek esetében az apa lakhelyének típusa nem függ össze szignifikánsan a gyerek nemével sem Kolozsváron, sem Szamosújváron, annak ellenére, hogy ez utóbbi városban nagyobb eltérés észlelhető.
BEVEZETÉS A STATISZTIKÁBA
89
Ha az apa lakhelyének típusát a kolozsvári és a szamosújvári intézetekben hasonlítjuk össze, akkor az alábbi táblázatra kell alapozzunk: Város Kolozsvár Szamosújvár Összesen
Az apa lakhelye Városon Falun 50 55 (60.07) (44.93) 69 34 (58.93) (44.07) 119
89
Összesen 105 103 208
Mivel a χ2=7.967, a szignifikanciaszint 0.01 és 0.001 között van, tehát igen kicsi annak a valószínűsége, hogy véletlen legyen a két város között tapasztalható eltérés. Természetesen egy ilyen helyzetben az eltérést kiváltó okokról lehet beszélni, a különbségből származó következményeket lehet elemezni, vázolni.
5.2. Minőségi és mennyiségi változó kapcsolata 5.2.1. Átlagértékek összehasonlítása t-teszttel A tulajdonképpeni kapcsolatvizsgálat akkor kezdődik el, amikor arra a kérdésre próbálunk választ adni, hogy két mintában (almintában) az átlagértékek között tapasztalható eltérés annak tudható-e be, hogy az alsokaságokban is megvan a különbözőség vagy csak a véletlen műve. Nyilván, mindkét tényező okoz bizonyos mértékben eltérést, a t-teszttel arra kapunk választ, hogy a mintavétel során fellépő véletlen tényező mekkora valószínűséggel okoz különbözőségeket. Almintákat minden mintában találunk, ha egy minőségi ismérv két kategóriáját különválasszuk. Gyakran adottak az alminták: férfi–nő, város–falu, dohányzik–nem dohányzik, stb (dihotóm vagy alternatív
MEZEI ELEMÉR
90
ismérvek), de olyan helyzetek is lehetnek, amikor egy véleménykérdésre adott határozott válasz szerint válasszuk ki az almintákat (teljesen elégedett–egyáltalán nem elégedett, stb.). Például, egy kutatásból a következő táblázatba szedett adatokkal rendelkezünk:
15. tábla. Átlagos személyszám (öregember, gyerek, összesen) a gazdaságokban Ismérv (X)
Kategóriák (Y)
Átlag (m)
Mintaszórás ( S)
Esetszáma ( n)
Öregember a gazdaságban Gyerekszám a gazdaságban
Községközpontban lakik
0.5074
0.6992
136
Más faluban lakik
0.7048
0.7883
166
Községközpontban lakik
0.6691
0.9967
136
Más faluban lakik
0.3072
0.7680
166
3.5000
1.7394
40
2.9590 3.2083
1.5258 1.5973
195 48
4.1667
2.7247
12
Nagyon elégedett a Személy- Elégedett község szám a polgárgazdaság- Elégedetmestelen ban rével Nagyon elégedetlen
Előbb fogalmazzunk meg egy nullhipotézist (azt a feltételt, amely alapján elméleti képletek alkalmazhatók): a gazdaságonkénti öreg-
emberek száma ugyanolyan eloszlást követ a községközpont gazdaságaiban, mint a község többi falvaiban (H0), tehát az átlagértékek a teljes sokaságban ugyanazok, a jelentkező különbség a mintában a véletlen műve.
BEVEZETÉS A STATISZTIKÁBA
91
A (H0) nullhipotézis mellett az m1–m2 mintaátlagok különbsége
s12 s22 + szórással (ha n1 normális eloszlást követ 0 várható értékkel és n1 n2 és n2 elég nagy, legalább 30, vagy ha a szórások szignifikánsan eltérnek egymástól), tehát a
t=
m1 − m2 s12 s22 + n1 n2
statisztika standard normális eloszlású. Mivel az alminták sorrendje tetszőleges, a képletbe helyettesítéskor a nagyobb átlagértékű almintát vesszük elsőnek, a másikat másodiknak.
t=
m1 − m2 s12 s22 + n1 n2 =
=
0.7048 − 0.5074 0.78832 0.69922 + 166 136
=
0.1974 = 0.6214 0.4889 + 166 136
0.1974 0.1974 0.1974 = = = 2.311 0.0037 + 0.0036 0.0073 0.0854
Az esetek száma kellő nagy, így a kapott t értéket elhelyezzük a klasszikus küszöbszámok közé: 1.96 < t=2.311 < 2.58, tehát 0.05 > p > 0.01 Elmondható végül, hogy:
Szignifikáns különbség van (p<0.05) a községközpont és a község más falvai között abban a tekintetben, hogy mennyi a gazdaságonként az
MEZEI ELEMÉR
92
öregemberek
száma,
éspedig
a
községközpontban
kevesebb
az
öregember a gazdaságokban, mint a község többi falujában. Ha a mintabeli esetek száma kicsi vagy a szórások nem térnek el szignifikánsan, akkor a következő statisztikával szoktunk dolgozni:
t=
m1 − m2
(n1 − 1)
+ (n2 − 1) n1 + n2 − 2
s12
s22
⋅
1 1 + n1 n2
,
mely eloszlás n1+n2–2 szabadságfokú Student-eloszlás (röviden teloszlás). Ezzel a képlettel is számolhatunk itt:
t=
(n1 − 1)
+ (n2 − 1) n1 + n2 − 2
s12
=
s22
⋅
1 1 + n1 n2
=
0.7048 − 0.5074 2
135 ⋅ 0.6992 + 165 ⋅ 0.7883 1 1 ⋅ + 136 + 166 − 2 136 166
=
0.1974 = 135 ⋅ 0.4889 + 165 ⋅ 0.6214 ⋅ 0.007353 + 0.006024 300
=
=
m1 − m2
0.1974 0.1974 = = 66.0015 + 102.5310 168.5325 ⋅ 0.013377 ⋅ 0.1157 300 300 =
0.1974 0.1974 0.1974 = = = 2.277 0.561775 ⋅ 0.1157 0.7495 ⋅ 0.1157 0.0867
A következtetés végül ugyanaz, mint az előző számítás után. A gyerekszám esetében azt kapjuk, hogy t=3.473, és így:
BEVEZETÉS A STATISZTIKÁBA
93
Szignifikáns különbség van (p<0.001) a községközpont és a község más falvai között abban a tekintetben, hogy mennyi a gazdaságonként a gyerekek száma, éspedig a községközpontban jóval több a gyerek a gazdaságokban, mint a község többi falujában. 5.2.2. Átlagértékek összehasonlítása ANOVA-teszttel (F próba) Az ANOVA rövidítése a szóráselemzés angol elnevezésének (Analysis Of VAriance). A szórásnégyzetnél igazoltuk azt az összefüggést, amely szerint k
N ⋅σ = ∑ 2
n jσ 2j j =1
k
(
)
+ ∑nj mj − m 2 , j =1
amit írhatunk így is:
Q = Qw + Qb Az utóbbi összegben a bal oldalon a teljes négyzetösszeg áll, jobb oldalon pedig az első tag a csoportokon belüli négyzetösszeg (Qw), a második tag a csoportok közötti négyzetösszeg (Qb). A teljes négyzetösszeg nem függ a minőségi változótól (Y), kizárólag a mennyiségi változó értékei alapján értelmezett (X), viszont a másik két négyzetösszeg Y-tól függ és ha egyik tag nagyobb, a másiknak kisebbnek kell lennie. A csoportokon belüli négyzetösszeg akkor a legkisebb, ha a csoportokon belüli szórásnégyzetek minimálisak (minden csoport homogén), ugyanekkor a második tag maximális, azaz a csoportátlagok nagyon eltérnek a sokaság átlagától, ami azt jelenti, hogy az Y változó kategóriáiba való tartozás maximálisan összefügg az X változó szerinti értékekkel. Például ha egy iskolában a jobb képességvizsga eredménnyel (X változó) rendelkező gyerekek egy osztályba (Y=IX.A), a gyengébbek
MEZEI ELEMÉR
94
egy másik osztályba (Y=IX.B) kerülnek, akkor ez azzal az eredménnyel jár, hogy az osztályok homogénabbak lesznek, de átlagosan egymástól (és magától étődően, a két osztály átlagától) nagyon különbözni fognak. Ha az osztályok kialakításánál sorshúzással járnak el, akkor várhatóan mindkét osztályba kerül úgy jobb, mint gyengébb gyerek, ezáltal az osztályokon belüli képességvizsga eredmény szórása nagyobb (heterogénebbek az osztályok), az osztályok átlaga egymáshoz közelebbi, ez pedig úgy jelentkezik a négyzetösszegek egymáshoz viszonyított értékeiben, hogy megnő a csoportokon belüli négyzetösszeg és lecsökken a csoportok közötti. Általában, ha a csoportok eléggé számosak, akkor az
Qb F = k −1 Qw n−k kifejezés adta mennyiség (k-1,n-k) szabadságfokú F-eloszlást követ. Ha rendelkezünk egy olyan táblázattal (valójában sok lapot igénybe vevő táblázatokról van szó), akkor megmondhatjuk konkrét esetekben, mekkora a megbízhatósági szintje az olyan kijelentéseknek, mint: nincs
összefüggés a mennyiségi és minőségi változók együttes eloszlása között, vagy másként megfogalmazva: a különböző kategóriák átlagértékei
közötti eltérések csupán a véletlen művei. A táblázatok bonyolultsága miatt ilyen becslésekre nem adunk példát, ellenben az Spss program nyújtotta
lehetőséget
a
következőkben
egy
egyszerű
eseten
részletesebben bemutatjuk (a kluszteranalízist bemutató fejezetben valós helyzetekben is alkalmazva lesz).
BEVEZETÉS A STATISZTIKÁBA
95
A feladatot szerkeszük a következőképen: piros és fehér dobókockával dobjunk többször. Jegyezzük le egy X nevű változóba a dobott számokat kockánként (a kocka színe lesz az Y változó):
16. tábla. Piros és fehér kockával dobott véletlen számok (16 dobáspár) A dobások sorrendje
A kocka színe Piros Fehér
A dobások sorrendje
A kocka színe Piros Fehér
1.
2
5
9.
2
2
2.
4
2
10.
6
6
3.
5
5
11.
6
6
4.
6
5
12.
1
4
5.
4
4
13.
2
1
6.
5
6
14.
2
6
7.
4
5
15.
3
3
8.
6
3
16.
4
2
Számítógépes program a következő táblázatot (is) eredményezi (Sum
of Squares = négyzet-összegek, df = szabadságfok, Mean Square = a szabadságfokkal átlagolt eltérésnégyzetek): ANOVA Table Sum of Squares X A dobott sza Between (Combined .281 A kocka szine G Within Groups 86.688 Total 86.969
Mean df Square F Sig. 1 .281 .097 .757 30 2.890 31
Az Spss védett márkajegy
Olvasható az F értéke mellett, az utolsó oszlopban, a szignifikanciaszint. Ezt az utolsó számot kell csupán értelmezni, ebben az esetben a következőképen: ha feltételezzük, hogy a különbségek csupán a véletlen
MEZEI ELEMÉR
96
művei (null-hipotézis, H0), akkor annak a valószínűsége, hogy a jelen esetben előálló eltérés vagy ennél nagyobb adódjon 0.757-del egyenlő. Másszóval:
Nagyon valószínű, hogy a véletlen okozta a megfigyelhető eltéréseket (annak ellenére, hogy a dobások teljesen véletlenszerűek voltak, mégsem adódik szignifikanciaszintnek a biztos esemény valószínűsége, ti. összefüggés esetén is adódhatnak ilyen csekély eltérések).
5.3. Mennyiségi változók közötti kapcsolatok. 5.3.1. A korrelációs együttható Mennyiségi változókra vonatkozóan találtunk már egyfajta együttes változást jellemző mérőszámot, éspedig a kovarianciát. Említettük akkor ennek hibáját is, azt hogy mértékegységtől függő. Ebben a részben elemezzük ennek a mutatónak a tulajdonságait, ezek alapján értelmezünk egy relatív mutatót, a korrelációs együtthatót. Emlékeztetőül, két változó kovarianciájának az értelmezése:
1 N cov( X , Y ) = ∑ ( xi − x )( yi − y ). N i =1 Fennáll a kívetkező tulajdonság:
− D( X )D(Y ) ≤ cov( X , Y ) ≤ D( X )D(Y ). Ez utóbbi tulajdonság lehetőséget kínál a mértékegységtől függő kovariancia relativizálására.
BEVEZETÉS A STATISZTIKÁBA
97
Két nem konstans változó (X és Y) korrelációs együtthatója értelmezés szerint az
rXY =
cov( X , Y ) D( X )D(Y )
valós szám (nevezik még Pearson-féle korrelációs együtthatónak is). A korrelációs együttható kifejezése további alakokat is ölthet: ____
xy − x ⋅ y
rXY =
⎛ ___ ⎜ 2 ⎜ ⎝
⎞⎛ ___ 2 ⎟⎜ 2
x −x
⎟⎜ ⎠⎝
y −y
⎞
,
2⎟
⎟ ⎠
de találkozhatunk olyannal is, mint:
rxy =
N (∑ xy ) − (∑ x )(∑ y )
N
(∑ x ) − (∑ x ) 2
2
N
(∑ y ) − (∑ y ) 2
2
.
5.3.2. A korrelációs együttható tulajdonságai: 1. rxy ∈ [− 1, 1] 2. rxy = ryx 3. rxx = 1 4. rx , − y = − rx, y 5. Ha rxy = ±1 , akkor léteznek a, b ∈ R úgy, hogy Y=bX+a. Ez utóbbi tulajdonság alapján azt mondhatjuk el, hogy a korrelációs együttható lineáris kapcsolatra utaló mutató. A két végletben, a –1 és a
MEZEI ELEMÉR
98
+1-es érték esetében, függvényszerű kapcsolat áll fenn a két változó között, éspedig elsőfokú (lineáris) függvénnyel jellemezhető kapcsolat; ha pedig az értéke 0, akkor az ilyenfajta kapcsolat valószínűsége is 0, azaz a változók lineárisan függetlenek. A lineárisan függetlenség nem 2
zárja ki az egyéb fajta függvénykapcsolatot. Erre példa lehet az yi = xi , xi = –1, 0 és 1 eset (N=3), amikor is rxy = 0 a másodfokú függvénykapcsolat ellenére. A lineáris kapcsolat meglétére vagy hiányára általában nem kapunk egyértelmű választ, sőt amikor a korrelációs együttható értéke pontosan ±1, akkor inkább hiba csúszott az elemzésbe, a program parancskötegébe olyan változókat vettünk be, amelyeket mi hoztunk létre lineáris kifejezés felhasználásával vagy ilyen kapcsolatra vezető kifejezésekkel (például településenként a férfiak és a nők százalékos arányát tartalmazó két változó korrelációs együtthatója pontosan –1). A valós helyzetekben a korrelációs együttható abszolút értéke 0 és 1 közé esik, tehát csak bizonyos valószínűséggel utal a kapcsolat szorosságára. A tapasztalati (mintabeli) korrelációs együttható segítségével tesztelni tudjuk azt, hogy mekkora valószínűséggel fogadható el a függetlenség feltétele az egész sokaságban, vagyis az, hogy a sokaság egészében az elméleti korrelációs együttható 0. Itt el kell mondanunk azt, hogy egy teljes
sokaság
elméleti
korrelációs
együtthatója
alatt
nem
a
kovarianciával értelmezett képlet által kiszámítható együtthatóra kell gondolni, hanem arra, hogy a lehetséges összes mintában számítható
tapasztalati korrelációs együttható (ez már a kovarianciás képlet adta érték) átlaga (várható értéke, jelöljük ezt R-el) egyenlő zéróval. Ha a nullhipotézisünk az, hogy a teljes sokaságban az X és Y változók
BEVEZETÉS A STATISZTIKÁBA
99
függetlenek (R=0), akkor az n elemű összes lehetséges minták sokaságán a
t = rxy ⋅
n−2 2 1 − rxy
valószínűségi változó n–2 paraméterű t-eloszlás (Student-eloszlás), ami elég nagy n esetén (100-nál is több) N(0,1) paraméterű normális eloszlás. Így, ha az esetek száma nagy, a p=0.05, a p=0.01 és a p=0.001 szignifikanciaszinteknek megfelelő t-érték 1.96, 2.58 és 3.29. Ha viszont az esetek száma kevesebb 100-nál, szükségünk lehet egy t-eloszlás táblázatra (lásd a mellékletet). Elengedhetetlen feltétel minden esetben az, hogy a vizsgálatba vett esetek véletlenszerűen legyenek kiválasztva. Példa Egy vizsgálatban résztvevő 27 diák évvégi matematika és fizika általánosának a korrelációs együtthatója r=0.586. Állítható-e, hogy szignifikánsan összefüggnek a két tantárgy jegyei?
t = rxy ⋅
n−2 2 1 − rxy
= 0.586 ⋅
= 0.586 ⋅
25 1 − 0.5862
= 0.586 ⋅
5 = 1 − 0.343396
5 2.930 = = 3.617... 0.656604 0.810
A t-eloszlás táblázatából az idevágó sor a következő: Szabadságfok 25
p=0.05 2.064
p=0.01 2.797
p=0.001 3.745
Mivel 2.797 < t=3.617 < 3.745, a szignifikanciaszint 0.001 és 0.01 közé esik, tehát kijelenthető a következő állítás:
MEZEI ELEMÉR
100
Az évvégi matematika és fizika általános jegyei között szignifikáns összefüggés van (p<0.01), éspedig a matematikából jobb eredményt elérő diákok fizikából is jobbak, a matematikában gyengébbek fizikából is gyengébbek. 5.3.3. Rangok korrelációja Nem egy másképp értelmezett korrelációs együtthatóról van szó, hanem arról, hogy bizonyos esetekben a korrelációs együttható kiszámítása leegyszerűsíthető, ami kézi számítások esetében nem elhanyagolható szempont. Ilyen eset az, ha a két mennyiségi változó értékei sorrendeket tartalmaznak. Tegyük fel, két borszakértőt felkérnek arra, hogy 9 palack bort rangsoroljanak egymástól függetlenül és ennek eredményeként az alábbi táblázat állítható össze:
17. tábla. Kilenc borfajta rangsora két szakértő szerint Megnevezés
Első szakértő rangsora
Második szakértő rangsora
1. palack
5.
2.
2. palack
2.
4.
3. palack
8.
6.
4. palack
1.
3.
5. palack
6.
9.
6. palack
4.
8.
7.palack
7.
5.
8. palack
3.
1.
9. palack
9.
7.
Amennyiben a rangsorolók jó borszakértők, azaz ugyanolyan – objektív – szempontok szerint értékelik a borokat, akkor a sorrendek kevés eltérést mutatnak, ha pedig szubjektív okok is közrejátszanak vagy
BEVEZETÉS A STATISZTIKÁBA
101
nem igazán jó szakértő legalább egyik közülük, akkor a rangsorok nagy eltérést fognak mutatni. Ha azt a nullhipotézist fogalmazzuk meg, hogy teljesen független (=véletlenszerű) a sorrendek felállítása, akkor a korrelációs együttható szignifikanciaszintjéből következtethetünk ennek a feltevésnek a valószínűségéről. A rangok adta mennyiségi ismérvekre levezethető egy egyszerűen N
alkalmazható számítási képlet: rxy = 1 −
6∑ di2 i =1 2
(
)
N N −1
(nevezik még
Spearman-féle rangkorrelációs együtthatónak is). Kézi számítással így könnyen megkaphatjuk az előbbi példából a korrelációs együtthatót. A különbségek rendre 3, –2, 2, –2, –3, –4, 2, 2 és 2, ezek négyzetei 9, 4, 4, 4, 9, 16, 4, 4 és 4, a négyzetösszeg pedig 58. Akkor
rxy = 1 −
6 ⋅ 58
(
)
9 92 − 1
=1−
348 = 1 − 0.483 = 0.517 720
Mégegyszer arra hívjuk fel a figyelmet, hogy nem egy újfajta értelmezésű együtthatót jelent a rangok korrelációja, hanem egyszerű alakra hozott képletet, amit nagyon sajátos helyzetben alkalmazhatunk csak. Előfordulhat, hogy egyik vagy másik szakértő két vagy több eset is ugyanarra a helyre rangsorol. Például, ha két eset is együtt az első helyre van rangsorolva, akkor szokták 1.5-re venni mindkettő rangsorát az 1. és 2. helyett, ezáltal az átlagérték nem változik meg, de a szórás kissé módosul, így a Spearman-féle képlet kissé torzított értéket ad. A rangok korrelációját a számítógépes program mindig jól számítja ki, mert a Pearson-féle képletet alkalmazza.
MEZEI ELEMÉR
102
VI. IDŐSOROK Az idősor – amint a neve is mutatja – olyan változó-atribútumok sora, amelyek különböző időpontokra vonatkoznak, vagy különböző időtartamokra érvényesek. Úgy is mondhatjuk, hogy az idősor esetén a populáció időpillanatok vagy időtartamok sokasága. A vizsgált ismérvek rendszerint mennyiségi ismérvek, ezek értékeivel pedig sajátos műveletsorokat végzünk. Példák idősorokra
18. tábla. Kolozsvár népességének alakulása 1850-1992 között 1850 19612
1880 32831
1900 50908
1910 62733
1930 103840
1966 185663
1992 328602
19. tábla. Románia erdeinek összterülete, 1990-2000 (ezer ha) 1990 6252,3
1992 6253,5
1994 6245,8
1996 6240,2
1998 6227,4
2000 6223,1
A 18. tábla adatait figyelve elmondhatjuk, hogy Kolozsvár lakossága gyarapszik végig a megfigyelt időszakban, de az abszolút értékben vett növekedés önmagában nem alkalmas a növekedés jellemzésére, például 1850–1880 között 32831–19612=13219-mal növekszik a népesség, 1910–1930 között pedig 103840–62733=41107 a gyarapodás, de viszonylag hasonló arányú a két időszakban a népesség gyarapodása: közel kétharmaddal növekszik. Az idősorok esetében lényeges, hogy a változásokat relatív voltukban hasonlítsuk össze.
BEVEZETÉS A STATISZTIKÁBA
103
20. tábla. Kolozsvár népességének változása 1850-1992 között 1850–80 1880–1900 67.4% 55.1%
1900–10 23.2%
1910–30 65.5%
1930–66 78.8%
1966–92 77.0%
A legnagyobb növekedés 1930–1966 között észlelhető, viszont a periódus hossza is itt a legnagyobb, tehát érdemes egy átlagos évi növekedési ütemet3 számolni mindegyik időszakra a következő képlettel:
⎛ P ⎞ q = ⎜ n 1 − 1⎟ ⋅100% , ⎜ P ⎟ ⎝ 0 ⎠ ahol n a periódus hossza években, P1 és P0 a periódus végén és az elején jegyzett értéke a vizsgált ismérvnek.
21. tábla. Kolozsvár népességének évi átlagos növekedési üteme 1850-1992 között 1850–80 1880–1900 1.73% 2.22%
1900–10 2.11%
1910–30 2.55%
1930–66 1.63%
1966–92 2.22%
Most már helyesen írhatjuk le Kolozsvár népességének alakulását 1850–1992 között: legnagyobb a növekedési üteme 1910 és 1930 közötti években, majd az ezt követő 36 évben a legkisebb stb. Érezhető, hogy az átlagos évi növekedési ütem az időszak jellemzője, nem tartalmaz semmilyen információt a periódusban évről-évre mutatkozó eltérő éves növekedési ütemekről, így a pontosabb jellemzés céljából be kell szerezni minél több köztes időpontbeli értékeit a vizsgált ismérvnek. Az időskála nemcsak évekből állhat, vizsgálhatjuk egy ismérv változását hónaponként, naponként is.
3
Növekedési ütemnek nevezzük akkor is ha a vizsgált periódusban a megfigyelt
ismérv csökkenő képet mutat.
MEZEI ELEMÉR
104
VII. BEAVATKOZÁSOK ELEMZÉSE Olyan vizsgálatokról lesz szó ebben a fejezetben, amelyek esetében elsődleges cél nem egy személyekből álló sokaság leírása (annak ellenére, hogy ez is része lehet az elemzésnek), hanem egy beavatkozás (foglalkozás) létjogosultságának az igazolása. Például: a kutató célul tűzi ki annak mérését, hogy milyen hatást vált ki egyféle, általa kitalált, átalakított vagy egyszerűen csak mástól átvett módszer alkalmazása egy veszélyeztetett (különleges foglalkozást igénylő) csoport esetében. Még szemléltetőbb lehet egy kissé túlzott módon előadott eset: egy testnevelőtanár fizetésemelésért folyamodik az iskola igazgatójához, azzal érvelve, hogy ő egy speciális, kevés személy által ismert és még kevesebb által alkalmazott módszert alkalmaz sikeresen a tornaórákon. Az igazgató gyanakvó személy (nem sporttanár), ezért bizonyítást kér az illető tanártól. A tanárunk azzal áll elő, hogy ő bizony megmérte a VII.C és a VII.D. osztályban, szeptemberben (az iskolai év kezdetén) és júniusban is (tanév végén) a gyerekek mindkét karjában a húzóerőt (egy erre szolgáló mérőeszközzel), és az eredmény az, hogy ez átlagban 21,7 N-nal növekedett. Joggal kérdezhetjük az igazgatóval együtt, hogy ugyanez a húzóerő a VII.A. és VII.B. osztályokban mennyivel növekedett 9-10 hónap alatt, mely osztályokban egy másik testnevelőtanár tartotta a tornaórákat, és aki nem alkalmazott semmilyen húzóerőt fejlesztő gyakorlatokat, viszont ezen idő alatt a gyerekek kb. 5-10 cm-t nővekedtek magasságban, 5-10 kg-ot súlyban, tehát a karjaikban is nagyobb a húzóerő?
BEVEZETÉS A STATISZTIKÁBA
105
A testnevelőtanár igazának bizonyítása érdekében a következőképen kellett volna eljárjon: a) a VII.C és D. osztályokat, ahol egy speciális módszert alkalmaz, kísérleti csoportnak nevezi ki, a VII.A és B osztályok, ahol a módszer nem kerül alkalmazásra, a kontrollcsoportot fogják alkotni; b) tanév elején, szeptemberben megméri a kísérleti csoportban és a kontrollcsoportban is a tanulók karjában a húzóerőt (preteszt), és ezt feljegyzi oly módon, hogy minden diák esetében bármikor erről számot tudjon adni; c) a kísérleti csoportban alkalmazásra kerül a speciális módszer a tanév során, a kontrollcsoportban viszont nem; d) tanév végén újra elvégzi a karban rejlő húzóerő mérését (posztteszt) mindkét csoportban, az eredményeket minden diák esetében a szeptemberben mért érték mellé írja; e) hozzáfog az eredmények feldolgozásához. Ezen feldolgozás több részből tevődik össze, a végeredményt igen sok tényező befolyásolja. A feldolgozást a következő képen kell elvégeznie: a) ki kell mutatnia azt, hogy a karban rejlő húzóerő alakulását természetes módon befolyásoló tényezők szempontjából a kísérleti csoport és a kontrollcsoport nem különbözik szignifikánsan egymástól (sőt a szignifikanciaszintek nagyobbak, mint 0,90). Ezt biztosítja például a két csoportnak a nemenkénti illetve kor szerinti szinte azonos összetétele (ℵ2-teszt, független t-teszt). Nem felel meg az, ha a kísérleti csoportot VII. osztály(ok) alkotják, a kontrollcsoportban pedig XI. osztályok szerepelnek (a különböző korösszetétel miatt), vagy ha például a VII.C és D. osztályokban a diákok háromnegyede fiú, a VII.A és C.
MEZEI ELEMÉR
106
osztályokban pedig csupán egyharmada (ebben a korban a fiúk és lányok növekedési üteme különböző). b) azt is igazolnia kell, hogy a két csoportban a húzóerő átlagosan nem különbözik szignifikánsan (független t-teszt), nem feltétlenül 0,90-nél nagyobb szignifikanciaszintnek kijönnie, de minél nagyobb ez, annál jobb; viszont semmi esetre sem jó az, ha az átlagértékek különbözősége csak 0,10 vagy ennél kisebb értékre szignifikáns. Nem lenne becsületes dolog a tornatanár részéről olyan kor és nemenkénti összetételben a kísérleti csoporttal hasonló kontrollcsoportnak a kiválasztása, amelyben a diákok többsége már korábban túledzett, tehát további fejlődésnek nincsenek kilátásai. c) minden diák esetében ki kell számítani az évvégi és a szeptemberben mért húzóerő változását. Azok a diákok, akik tanév közben a kísérleti csoportból kiváltak, vagy akik közben érkeztek, ebből az elemzésből kiesnek (sőt ezeket az a) és b) pontoknál említett vizsgálódásból is ki kell iktatni). Ugyanígy járunk el a kontrollcsoport esetében is. d) a húzóerő változásának az átlagát össze kell hasonlítania a kísérleti és a kontrollcsoport esetében (független t-teszt). A módszer létjogosultságát az fogja bizonyítani, ha a különbözőség a kísérleti csoport javára nagyon szignifikáns. Tehát: ha a kísérleti csoportban a növekedés szignifikánsan nagyobb, mint a kontrollcsoportban. Megjegyzendő az, hogy a preteszt és a posztteszt összehasonlítása külön a kísérleti csoportban és külön a kontrollcsoportban (páros t-teszt) általában szignifikáns különbséget mutat a posztteszt javára. De amennyiben a kontrollcsoportbeli változás nem szignifikáns, a kísérleti
BEVEZETÉS A STATISZTIKÁBA
107
csoportban pedig nagyon szignifikáns elmozdulás történt pozitív irányban, úgy ez már bizonyítja a módszer hatékonyságát. A beavatkozás hosszabb időt igényel és általában ez alatt a kontrollcsoportban is szignifikáns elmozdulás történik a jó irányában, ekkor a módszer helyességének igazolására egyetlen út az egyes személyek esetében számítható változások összehasonlítása a kontrollcsoport és a kísérleti csoportok esetében. Tehát jól vigyázzunk arra, hogy a preteszt és a posztteszt eredményeit személyenként azonosítani tudjuk úgy a kísérleti csoportban, mint a kotrollcsoportban egyaránt (ezen felmérések nem lehetnek teljesen személytelenek).
Példaként vegyünk egy viszonylag kis létszámú kísérleti csoportot és hozzá hasonló nagyságú kontrollcsoportot, a beavatkozás célja legyen például a gyerekek esetében mutatkozó szorongás csökkentése. A szorongás mérésére egy speciális tesztet alkalmazunk a beavatkozás előtt és után is, a kísérleti csoportban és a kontrollcsoprtban is egyaránt. A szorongás alakulását befolyásoló tényezők közül kettőt veszünk fel ide az adatmátrixba, egy minőségi ismérvet (nem) és egy mennyiségit (előző év tanulmányi átlaga). Az adatokat a következő táblázat tartalmazza (fiktív adatok). Azonosító 1. 2. 3. 4. 5. 6.
Csoport Kisérleti Kisérleti Kisérleti Kisérleti Kisérleti Kisérleti
Osztály Nem 7.c. 7.c. 7.c. 7.c. 7.c. 7.c.
Fiú Lány Lány Lány Fiú Lány
Tanulm. Szorongásmutató átlag Preteszt posztteszt 21 17 8.45 26 19 7.93 18 16 9.12 30 21 6.84 19 17 9.25 17 14 9.51
MEZEI ELEMÉR
108 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37.
Kisérleti Kisérleti Kisérleti Kisérleti Kisérleti Kisérleti Kisérleti Kisérleti Kisérleti Kisérleti Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll Kontroll
7.c. 7.c. 7.c. 7.c. 7.c. 7.c. 7.c. 7.c. 7.c. 7.c. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a. 7.a.
Fiú Fiú Fiú Fiú Fiú Lány Fiú Lány Lány Lány Fiú Fiú Lány Fiú Fiú Lány Lány Fiú Fiú Lány Lány Fiú Lány Lány Fiú Fiú Lány
8.64 8.57 6.25 6.71 8.15 8.65 9.11 9.08 7.89 7.23 7.11 6.45 8.56 7.65 9.48 8.95 9.83 8.35 6.15 7.45 7.42 8.25 8.18 8.81 8.45 7.98 8.41
20 22 42 48 26 20 20 20 18 30 31 32 22 25 14 21 20 24 32 30 36 28 24 22 25 26 24
17 17 39 38 24 17 17 17 16 25 30 33 22 23 18 22 22 22 29 24 35 23 26 22 23 23 22
A kísérleti csoport és a kontrollcsoport nemenkénti összetétele alig mutat különbséget (p=0,866), a részletes eredmények a következő táblázatban találhatók.
BEVEZETÉS A STATISZTIKÁBA
109
CSOP * NEM Crosstabulation NEM 1 Fiu CSOP
1 Kiserleti
8 50.0% 9 52.9% 17 51.5%
2 Kontroll Total
2 Lany
Total
8 50.0% 8 47.1% 16 48.5%
16 100.0% 17 100.0% 33 100.0%
A tanulmányi átlagok enyhén a kísérleti csoport javára vallanak, de a különbség egyáltalán nem szignifikáns (p=0,720). Hasonló a szorongásmutató pretesztbeli különbözősége is a két csoport között, a szignifikanciaszint ebben az esetben p=0,745. Látszólag ellentmondásos a helyzet, éspedig az, hogy a kísérleti csoportban, ahol a beavatkozás történt, már eleve kisebb a szorongásmutató, mint a kontrollcsoportban. Ilyen helyzet előfordulhat, de nem ez szokott általában lenni. Report CSOP 1 Kiserleti
2 Kontroll
Total
Mean N Std. Deviation Mean N Std. Deviation Mean N Std. Deviation
MED 8.2113 16 .9948 8.0871 17 .9763 8.1473 33 .9718
SZM1 24.81 16 8.92 25.65 17 5.40 25.24 33 7.21
A továbbiakban azt nézzük meg, hogy hogyan változott a szorongásmutató a posztteszt és a preteszt tükrében: Paired Samples Statistics
CSOP 1 Kiserleti
Pair 1
2 Kontroll
Pair 1
SZM1 SZM2 SZM1 SZM2
Mean 24.81 20.69 25.65 24.65
N 16 16 17 17
Std. Deviation 8.92 7.53 5.40 4.50
Std. Error Mean 2.23 1.88 1.31 1.09
MEZEI ELEMÉR
110
Egyszerű ránézéssel is látható, hogy a szorongásmutató a kontrollcsoportban alig változott, a kísérleti csoportban viszont nagymértékben lecsökkent. A páros t-teszt eredményeként a kontrollcsoportbeli változás esetében a véletlen tényező valószínűsége p=0,129 (p>0,1), míg a kísérleti csoport esetében ez csupán p=0,0000084 (p<0,00001=10–5). Már ez is bizonyítaná a módszer helyességét, alkalmazhatóságát a VII. osztályos diákok esetében. De ne legyünk kényelmesek és hasonlítsuk össze a változásokat a két csoport esetében független t-teszttel: Report DIF 1 Kiserleti
2 Kontroll
Total
Mean N Std. Deviation Mean N Std. Deviation Mean N Std. Deviation
-4.13 16 2.50 -1.00 17 2.57 -2.52 33 2.96
A különbözőség szignifikanciaszintje p=0,0013, tehát a kísérleti csoportban a szorongásmutató csökkenése (4,13 egységgel) szignifikánsan nagyobb, mint a kontrollcsoportban észlelhető 1 egységnyi csökkenés, így levonható az a következtetés, hogy a beavatkozás 0,9987-es valószínűséggel eredményre vezet, éspedig csökkenti a VII. osztályos tanulók szorongását. Megjegyzések: a) A preteszt nagyobb sokaságra terjedjen ki, majd az itt szerzett adatok alapján válasszuk ki a kontrollcsoportot úgy, hogy a legjobban hasonlítson a kísérleti csoportra azon ismérvek szerint, amelyek lényegesen befolyásolják/befolyásolhatják a vizsgált jelenséget, illetve a
BEVEZETÉS A STATISZTIKÁBA
111
módszer alkalmazhatóságát. Ezért a pretesztben sokkal több dologra kell rákérdezni, mint a poszttesztben. b) A kontrollcsoportba vett egyedek száma legyen legalább annyi, mint a kísérleti csoportban, ugyanis a kisebb esetszám rosszabb szignifikanciaszintet fog eredményezni ugyanakkora különbségek esetén is (a számítások tehát kevésbé fogják alátámasztani a módszer helyességét).
Ugyanakkor
a
kontrollcsoportot
hiába
vesszük
többszörösen nagyobbnak, mint a kísérleti csoportot, szignifikanciaszintekben a javulás elenyésző. c)
Minél
homogénabbak
a
csoportok
a
vizsgált
jelenség
szempontjából (például a fenti esetben nagyon hasonló szorongásmutatójú diákok alkotnák a két csoportot külön-külön), annál inkább szignifikánsabbnak látszik a poszttesztbeli változás mindkét csoportban, tehát szükség van a változások összehasonlítására. Viszont, ha már eleve nagyon heterogén csoportokat veszünk vizsgálatba (nagy a szorongásmutató szórása), akkor várhatóan a kontrollcsoportban a páros teszt nem fog szignifikáns eltérést mutatni preteszt és posztteszt között, és ugyanakkor várhatóan a kísérleti csoportban a változás nagyon szignifikánsnak fog látszani. A csoportok bemutatásánál legyen gondunk arra is, hogy a szórásokat is mutassuk be a mennyiségi ismérvek esetében, ne csak az átlagértékeket (és ezek a szórások legyenek többnyire hasonlóak mindegyik változó esetében a két csoportban).
MEZEI ELEMÉR
112
VIII. MELLÉKLETEK 8.1. F-eloszlás (az F-próba kritikus értékei p=0.05-ös szignifikanciaszinten) A nevező A s z á m l á l szabadság1 2 3 foka 1 161 200 216 2 18.51 19.00 19.16 3 10.13 9.55 9.28 4 7.71 6.94 6.59 5 6.61 5.79 5.41 6 5.99 5.14 4.76 7 5.59 4.74 4.35 8 5.32 4.46 4.07 9 5.12 4.26 3.86 10 4.96 4.10 3.71 11 4.84 3.98 3.59 12 4.75 3.88 3.49 14 4.60 3.74 3.34 16 4.49 3.63 3.24 18 4.41 3.55 3.16 20 4.35 3.49 3.10 24 4.26 3.40 3.01 32 4.15 3.30 2.90 40 4.08 3.23 2.84 60 4.00 3.15 2.76 100 3.94 3.09 2.70 200 3.89 3.04 2.65
∞
3.84
2.99
2.60
ó
s z a b a d s á g f o k a 4
5
6
7
8
225 230 234 237 239 19.25 19.30 19.33 19.36 19.37 9.12 9.01 8.94 8.88 8.84 6.39 6.26 6.16 6.09 6.04 5.19 5.05 4.95 4.88 4.82 4.53 4.39 4.28 4.21 4.15 4.12 3.97 3.87 3.79 3.73 3.84 3.69 3.58 3.50 3.44 3.63 3.48 3.37 3.29 3.23 3.48 3.33 3.22 3.14 3.07 3.36 3.20 3.09 3.01 2.95 3.26 3.11 3.00 2.92 2.85 3.11 2.96 2.85 2.77 2.70 3.01 2.85 2.74 2.66 2.59 2.93 2.77 2.66 2.58 2.51 2.87 2.71 2.60 2.52 2.45 2.78 2.62 2.51 2.43 2.36 2.67 2.51 2.40 2.32 2.25 2.61 2.45 2.34 2.25 2.18 2.52 2.37 2.25 2.17 2.10 2.46 2.30 2.19 2.10 2.03 2.41 2.26 2.14 2.05 1.98 2.37
2.21
2.09
2.01
1.94
BEVEZETÉS A STATISZTIKÁBA
113
F-eloszlás (az F-próba kritikus értékei p=0.05-ös
(folytatás az előző oldalról)
szignifikanciaszinten) A 10
s z á m l á l ó 12
16
s z a b a d s á g f o k a 20
30
50
100
∞
242 244 246 248 250 252 253 254 19.39 19.41 19.43 19.44 19.46 19.47 19.49 19.50 8.78 8.74 8.69 8.66 8.62 8.58 8.56 8.53 5.96 5.91 5.84 5.80 5.74 5.70 5.66 5.63 4.74 4.68 4.60 4.56 4.50 4.44 4.40 4.36 4.06 4.00 3.92 3.87 3.81 3.75 3.71 3.67 3.63 3.57 3.49 3.44 3.38 3.32 3.28 3.23 3.34 3.28 3.20 3.15 3.08 3.03 2.98 2.93 3.13 3.07 2.98 2.93 2.86 2.80 2.76 2.71 2.97 2.91 2.82 2.77 2.70 2.64 2.59 2.54 2.86 2.79 2.70 2.65 2.57 2.50 2.45 2.40 2.76 2.69 2.60 2.54 2.46 2.40 2.35 2.30 2.60 2.53 2.44 2.39 2.31 2.24 2.19 2.13 2.49 2.42 2.33 2.28 2.20 2.13 2.07 2.01 2.41 2.34 2.25 2.19 2.11 2.04 1.98 1.92 2.35 2.28 2.18 2.12 2.04 1.96 1.90 1.84 2.26 2.18 2.09 2.02 1.94 1.86 1.80 1.73 2.14 2.07 1.97 1.91 1.82 1.74 1.67 1.59 2.07 2.00 1.90 1.84 1.74 1.66 1.59 1.51 1.99 1.92 1.81 1.75 1.65 1.56 1.48 1.39 1.92 1.85 1.75 1.68 1.57 1.48 1.39 1.28 1.87 1.80 1.69 1.62 1.52 1.42 1.32 1.19 1.83
1.75
1.64
1.57
1.46
1.35
1.24
1.00
A nevező szabadságfoka 1 2 3 4 5 6 7 8 9 10 11 12 14 16 18 20 24 32 40 60 100 200
∞
MEZEI ELEMÉR
114
8.2. t-eloszlás (az t-próba kritikus értékei p=0.05, p=0.01 és p=0.001-es szignifikanciaszinteken) Szabadságfok 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 18 20 22 24 26 28 30 40 60 120
∞
Szignifikanciaszint p=0.05 p=0.01 p=0.001 12.706 63.657 636.619 4.303 9.925 31.598 3.182 5.841 12.941 2.776 4.604 8.610 2.571 4.032 6.859 2.447 3.707 5.959 2.365 3.499 5.405 2.306 3.355 5.041 2.262 3.250 4.781 2.228 3.169 4.587 2.201 3.106 4.437 2.179 3.055 4.318 2.160 3.012 4.221 2.145 2.977 4.140 2.120 2.921 4.015 2.101 2.878 3.922 2.086 2.845 3.850 2.074 2.819 3.792 2.064 2.797 3.745 2.056 2.779 3.707 2.048 2.763 3.674 2.042 2.750 3.646 2.021 2.704 3.551 2.000 2.660 3.460 1.980 2.617 3.373 1.960
2.576
3.291
BEVEZETÉS A STATISZTIKÁBA
8.3.
ℵ 2 -eloszlás
(az
ℵ 2 -próba
115
kritikus értékei p=0.05,
p=0.01 és p=0.001-es szignifikanciaszinteken) Szabadságfok 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 20 21 22 24 25 26 27 28 30
Szignifikanciaszint p=0.05 p=0.01 p=0.001 3.841 6.635 10.827 5.991 9.210 13.815 7.815 11.345 16.268 9.488 13.277 18.465 11.070 15.086 20.517 12.592 16.812 22.457 14.067 18.475 24.322 15.507 20.090 26.125 16.919 21.666 27.877 18.307 23.209 29.588 19.675 24.725 31.264 21.026 26.217 32.909 22.362 27.688 34.528 23.685 29.141 36.123 24.996 30.578 37.697 26.296 32.000 39.252 28.869 34.805 42.312 31.410 37.566 45.315 32.671 38.932 46.797 33.924 40.289 48.268 36.415 42.980 51.179 37.652 44.314 52.620 38.885 45.642 54.052 40.113 46.963 55.476 41.337 48.278 56.793 43.773 50.892 59.703
MEZEI ELEMÉR
116
IX. IRODALOM Babbie, Earl (1995): A társadalomtudományi kutatás gyakorlata. Balassi Kiadó, Budapest. Blau, P. M. – Duncan, O. D. (1967): The American Occupational
Structure. In (magyarul): Róbert P. (szerk, 1998): A társadalmi mobilitás, Új Mandátum, Budapest. Coombs, C. H. (1954): Theory and Method of Social Measurement. In: Festinger, L. – Katz, D.: Research Methods in the Behavioral
Sciences. Staples press, London, 1954. Hunyadi, L. – Mundruczó, Gy. – Vita, L. (1996): Statisztikai
képletgyűjtemény és táblázatok. Aula Kiadó, Budapest. Hunyadi, L. – Mundruczó, Gy. – Vita, L. (2000): Statisztika. Aula Kiadó, Budapest. Lukács, O. (1996): Matematikai statisztika. Műszaki Könyvkiadó, Budapest. Morgenstern, O. (1989): Egzakt tudomány-e a közgazdaságtan? In: Cseh-Szombathy, L. – Léderer, P. Az empirikus szociológiai kutatás
statisztikai alapjai. Tankönyvkiadó, Budapest. Weiss, F. S. (1968): Statistics in Social Research. John Wiley, New York.