A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
Tóthné Parázsó Lenke
MÉDIAINFORMATIKAI KIADVÁNYOK
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
Tóthné Parázsó Lenke
Eger, 2011
Lektorálta: CleverBoard Interaktív Eszközöket és Megoldásokat Forgalmazó és Szolgáltató Kft.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
Felelős kiadó: dr. Kis-Tóth Lajos Készült: az Eszterházy Károly Főiskola nyomdájában, Egerben Vezető: Kérészy László Műszaki szerkesztő: Nagy Sándorné
Kurzusmegosztás elvén (OCW) alapuló informatikai curriculum és SCORM kompatibilis tananyagfejlesztés Informatikus könyvtáros BA, MA lineáris képzésszerkezetben TÁMOP-4.1.2-08/1/A-2009-0005
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
Tartalom 1. Bevezetés ....................................................................................................................... 9 1.1 Célkitűzés .......................................................................................................... 9 1.2 A kurzus tartalma .............................................................................................. 9 1.3 A kurzus tömör kifejtése ................................................................................... 9 1.4 Kompetenciák és követelmények .................................................................... 10 1.5 Tanulási tanácsok, tudnivalók ......................................................................... 10 2. Az általános kutatásmódszertan alapjainak áttekintése ......................................... 12 2.1 Célkitűzés ........................................................................................................ 12 2.2 Tartalom .......................................................................................................... 12 2.3 A tananyag kifejtése ........................................................................................ 12 2.3.1 A kutatás ............................................................................................. 12 2.3.2 Kutatási stratégiák ............................................................................... 13 2.3.3 A kutatás folyamata ............................................................................ 14 2.3.4 Az adatok típusai ................................................................................. 14 2.3.5 A kutatás módszere ............................................................................. 16 2.3.6 Kvalitatív kutatás ................................................................................ 16 2.3.7 Kvantitatív kutatás .............................................................................. 17 2.3.8 A kutatás tudományosságának feltételei ............................................. 18 2.4 Összefoglalás................................................................................................... 21 2.5 Önellenőrző kérdések ...................................................................................... 21 3. Matematikai döntéselmélet ........................................................................................ 22 3.1 Célkitűzés ........................................................................................................ 22 3.2 Tartalom .......................................................................................................... 22 3.3 A tananyag kifejtése ........................................................................................ 22 3.3.1 Konfidencia intervallum ..................................................................... 22 3.3.2 Hipotézis-vizsgálat .............................................................................. 23 3.3.3 A hipotézis-vizsgálat lépései ............................................................... 24 3.3.4 Tévedések lehetősége .......................................................................... 25 3.3.5 Gyakori hibák...................................................................................... 26 3.4 Összefoglalás................................................................................................... 26 3.5 Önellenőrző kérdések ...................................................................................... 27 4. Középérték-mutatók, grafikai ábrázolás.................................................................. 28 4.1 Célkitűzés ........................................................................................................ 28 4.2 Tartalom .......................................................................................................... 28 4.3 A tananyag kifejtése ........................................................................................ 28 4.3.1 A középérték mérőszámai. Középérték-mutatók ................................ 28 4.3.2 Módusz ................................................................................................ 29 4.3.3 Médián ................................................................................................ 29 4.3.4 A középértékek közti összefüggések .................................................. 30 4.3.5 Szóródási mutatók ............................................................................... 30 4.3.6 Terjedelem .......................................................................................... 30
5
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 4.3.7 Átlagos eltérés ..................................................................................... 31 4.3.8 Gyakoriság .......................................................................................... 32 4.3.9 Gyakorisági eloszlás ........................................................................... 33 4.3.10 A középérték mutatók és a gyakorisági adatok viszonya .................... 33 4.3.11 Az eredmények ábrázolása.................................................................. 34 4.4 Összefoglalás................................................................................................... 40 4.5 Önellenőrző kérdések ...................................................................................... 41 5. Korreláció, korrelációanalízis ................................................................................... 42 5.1 Célkitűzés ........................................................................................................ 42 5.2 Tartalom .......................................................................................................... 42 5.3 A tananyag kifejtése ........................................................................................ 42 5.3.1 A korreláció értelmezése ..................................................................... 42 5.4 A korrelációs együttható ................................................................................. 43 5.4.1 A kovariancia ...................................................................................... 43 5.4.2 A lineáris korrelációs együttható ........................................................ 44 5.5 A korrelációs együttható szignifikanciája ....................................................... 45 5.5.1 Korrelációanalízis ............................................................................... 47 5.6 Összefoglalás................................................................................................... 47 5.7 Önellenőrző kérdések ...................................................................................... 47 6. Hipotézisvizsgálat. paraméteres próbák, nem paraméteres próbák...................... 48 6.1 Célkitűzés ........................................................................................................ 48 6.2 Tartalom .......................................................................................................... 48 6.3 A tananyag kifejtése ........................................................................................ 48 6.3.1 Paraméteres és nem paraméteres próba jellemzői ............................... 48 6.3.2 Egymintás T-próba .............................................................................. 49 6.3.3 Egymintás T-próba alkalmazási feltételei ........................................... 49 6.3.4 Kétmintás T-próba és az F-próba ........................................................ 52 6.4 Khi négyzet próba ........................................................................................... 54 6.5 A Mann–Whitney-próba, Wilcoxon-próba, Kruskal–Wallis-próba értelmezése ......................................................................................................................... 54 6.6 Összefoglalás................................................................................................... 55 6.7 Önellenőrző kérdések ...................................................................................... 55 7. Varianciabecslés, regresszió analízis, klaszteranalízis, faktoranalízis ................... 56 7.1 Célkitűzés ........................................................................................................ 56 7.2 Tartalom .......................................................................................................... 56 7.3 A tananyag kifejtése ........................................................................................ 56 7.3.1 Varianciaanalízis ................................................................................. 56 7.3.2 A több egydimenziós minta vizsgálat összehasonlítása ...................... 57 7.3.3 Egyutas osztályozás vagy egytényezős varianciaanalízis ................... 60 7.3.4 Kétutas osztályozás vagy kéttényezős varianciaanalízis ..................... 64 7.3.5 Kétutas osztályozás vagy kéttényezős varianciaanalízis ismétléssel .. 65 7.3.6 Többváltozós populációk statisztikai elemzései ................................. 66 7.3.7 Főkomponensanalízis .......................................................................... 69 7.3.8 Klaszteranalízis ................................................................................... 70
6
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 7.4 7.5
7.3.9 Faktoranalízis ...................................................................................... 74 Összefoglalás................................................................................................... 79 Önellenőrző kérdések ...................................................................................... 79
8. SPSS alapfogalmak. Adatértelmezés. ....................................................................... 81 8.1 Célkitűzés ........................................................................................................ 81 8.2 Tartalom .......................................................................................................... 81 8.3 A tananyag kifejtése ........................................................................................ 81 8.3.1 A szoftver használatának feltételei...................................................... 81 8.3.2 Az SPSS felülete ................................................................................. 82 8.3.3 A menüsor parancsainak rövid ismertetése és a kitöltés menete ........ 85 8.4 Összefoglalás................................................................................................... 93 8.5 Önellenőrző kérdések ...................................................................................... 93 9. Statisztikai alapműveletek az SPSS-sel. Adatbázist módosító utasítások ............. 94 9.1 Célkitűzés ........................................................................................................ 94 9.2 Tartalom .......................................................................................................... 94 9.3 A tananyag kifejtése ........................................................................................ 94 9.3.1 Leíró statisztikák (Descriptives ) ........................................................ 94 9.3.2 Gyakorisági táblázatok (Frequenties) ................................................. 97 9.3.3 Az adatbázist módosító utasítások .................................................... 103 9.3.4 Összefoglalás .................................................................................... 107 9.4 Önellenőrző kérdések .................................................................................... 107 10. Összefüggés vizsgálat SPSS-sel. Korreláció, korrelációanalízis ........................... 108 10.1 Célkitűzés ...................................................................................................... 108 10.2 Tartalom ........................................................................................................ 108 10.3 A tananyag kifejtése ...................................................................................... 108 10.3.1 Korreláció.......................................................................................... 108 10.3.2 Korreláció-analízis ............................................................................ 115 10.4 Összefoglalás................................................................................................. 116 11. Hipotézis-vizsgálat az SPSS-sel. Varianciaanalízis. Kereszttábla elemzés .......... 117 11.1 Célkitűzés ...................................................................................................... 117 11.2 Tartalom ........................................................................................................ 117 11.3 A tananyag kifejtése ...................................................................................... 117 11.3.1 Hipotézis-vizsgálat SPSS-sel ............................................................ 117 11.3.2 Egymintás T-próba ............................................................................ 118 11.3.3 Kétmintás T-próba ............................................................................ 119 11.3.4 Varianciaanalízis ............................................................................... 121 11.3.5 Kereszttáblák..................................................................................... 123 11.4 Összefoglalás................................................................................................. 129 11.5 Önellenőrző kérdések .................................................................................... 129 12. A kurzusban kitűzött célok összefoglalása ............................................................. 130 12.1 Tartalmi összefoglalás ................................................................................... 130 12.2 A tananyagban tanultak részletes összefoglalása .......................................... 130
7
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 13. Kiegészítések ............................................................................................................. 132 13.1.1 Irodalomjegyzék................................................................................ 132 13.1.2 Hivatkozások ..................................................................................... 132 13.2 Glosszárium, kulcsfogalmak értelmezése ..................................................... 133 14. Ábrajegyzék .............................................................................................................. 135 15. Médiaelemek ............................................................................................................. 137 16. Tesztek ....................................................................................................................... 138 16.1 Próbateszt ...................................................................................................... 138 16.2 Záróteszt A. ................................................................................................... 141 16.3 Záróteszt B. ................................................................................................... 144 16.4 Záróteszt C. ................................................................................................... 146
8
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 1.
BEVEZETÉS
Kedves hallgató, az elmúlt évek tapasztalatai arra engednek következtetni, hogy a természettudományi kutatások mellett a társadalomtudományi elemzések is megkövetelik a matematikai statisztikai ismereteken alapuló mérés-értékelés kreatív ismeretét. Ezen tudáselemek birtokában a kutatás során kapott adatok elemzése végezhető el, melyekkel feltárhatóak az események mélyebb összefüggései. A numerikusan kapott eredmények értelmezése és a helyes következtetések levonása meghatározója a további kutatás menetének. A jegyzet abban a reményben készült, hogy segíti a hallgatókat a szakterületen kapott kutatási eredmények hatékony feldolgozásához, a kutatások eredményeinek gyors és korrekt statisztikai értékeléséhez, értelmezéséhez. A jegyzet leckékre bontva tagolja azon ismereteket, amelyek a gyakorlati oldalról közelíti meg a statisztikai eredmények értékelését SPSS segítségével valamint az adatok értelmezését.
1.1 CÉLKITŰZÉS A kurzus célja, hogy a hallgatók ismerjék a kutatás során nyert adatok számítógépes statisztikai feldolgozás lehetőségeit. Elsajátítják a legismertebb számítógépes alkalmazásokat (SPSS), képessé válnak a kutatási feladatok megoldására.
1.2 A KURZUS TARTALMA Matematikai döntéselmélet Az általános kutatásmódszertan alapjainak áttekintése Középérték mutatók, grafikai ábrázolás Korreláció, korrelációanalízis Hipotézisvizsgálat, paraméteres próbák, nem paraméteres próbák Varianciabecslés, regresszióanalízis, klaszteranalízis, faktoranalízis SPSS alapfogalmak. Adatértelmezés. Grafikus ábrázolás. Transform Statisztikai alapműveletek az SPSS-sel. Adatbázist módosító utasítások Összefüggés vizsgálat SPSS-sel. Korreláció, korrelációanalízis Hipotézis vizsgálat az SPSS-sel. Varianciaanalízis. Kereszttábla-elemzés
1.3 A KURZUS TÖMÖR KIFEJTÉSE Az adatfeldolgozás kvantitatív, kvalitatív módszerei. A kvantitatív feldolgozás lépései, kvantifikálás. Az EXCEL és az SPSS program, alapfogalmak, kezelési tudnivalók. A leíró statisztika elemei: adat, adat fajtái, az adatok eloszlása, a minta jellemzői és az SPSS-ben való generálása. Középértékek, szóródás, variancia. Változók közti kapcsolatok, azok értelmezése. A minta eloszlásának grafikus szemléltetése.
9
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Hipotézis-vizsgálat (null- és alternatív hipotézisek, döntési szituációk) lépései (egymintás- és kétmintás T-próba, és az F-próba alkalmazási feltételei). A hipotézisvizsgálat lépései az egymintás, önkontrollos, és kétmintás esetekben. Az eredmények értelmezése. Az adatok transzformálása, logikai műveletek, adatszűrés lehetőségei és alkalmazási feltételei. Ismérvek közötti kapcsolatok. Rangkorreláció, korreláció és lineáris regresszió értelmezése, meghatározása. Az elemzések SPSS-el történő bemutatása. A több egydimenziós minta vizsgálat összehasonlítása, a többmintás elemzés varianciabecslés eljárásai. Varianciaanalízis, faktoranalízis és a klaszteranalízis alkalmazása. Rangsorolt adatok elemzése (a Wilcoxon-próba, a Mann–Whitney próba, a Kruskal–Wallispróba). A rangkorreláció-számítás. Megállapítható adatok elemzésére alkalmas statisztika eljárások (a 2-próba).
1.4 KOMPETENCIÁK ÉS KÖVETELMÉNYEK A tanulók műveltségének, készségeinek, és képességeinek fejlesztése, ennek alapján az adott tudományterületen a kutatási eljárások megismertetése. A pedagógiai értékelés változatos eszközeinek alkalmazása. Neveléstudományi kutatások fontosabb módszereinek, elemzési eljárásainak alkalmazása, saját kutatómunka tudományosan megalapozott eszközöket felhasználó értékelése
1.5 TANULÁSI TANÁCSOK, TUDNIVALÓK Amikor kézbe veszi a jegyzetet és áttekinti a tartalomjegyzéket, a tudományos kutatás alapismereteit sajátíthatja el. Az ismeretanyag a kutatás alapismereteit, módszereit foglalja össze abból a célból, hogy kutatásait tudatosan, tervszerűen végezve eredményeit tanulmányban foglalja össze. Mielőtt elkezdené a tantárgy tananyagának elsajátítását, kérjük fogadja meg az alábbi tanácsokat a sikeres tananyag elsajátítása érdekében. A tananyag feldolgozása előtt érdemes az egész tankönyvet átlapoznia, hogy globális képet alkothasson az egész tananyagról. A leckék elején a bevezetőben a leckében lévő tartalmat olvashatja a felvetődő kérdések globális áttekintésének megkönnyítésére. A fejezetek ábrái vizuálisan segítik a szövegben jelzett összefüggések feltárását, a megértést. Az olvasással párhuzamosan tanulmányozza azokat. A leckék végén önellenőrző kérdésekkel, a rájuk adott válaszokkal a tananyag bevésését könnyíti meg. Ne feledkezzen meg az ismétlés jótékony hatásáról! A leckék elsajátítását a következő lépések alapján érdemes elvégezni: Olvassa el figyelmesen a fejezetek elején a célokat, a tartalmi tagolást. Figyelmesen tanulmányozza a lecke tananyagát, különösen a szakaszok, alfejezetek címeire helyezzen nagy hangsúlyt, mely segíti a tananyag tartalmi-szerkezeti áttekintését és növeli az ismeretek előhívási hatékonyságát.
10
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Ezt követően lépésként olvassa el figyelmesen a lecke anyagát. A tanulás során kis lépésekben, alfejezetekként haladjon. Szükség esetén készítsen a legfontosabb összefüggéseket rögzítő vázlatot. Ne essen abba a hibába, hogy egyes részeket túl egyértelműnek találva, csak átolvassa, de nem tanulja meg. A leckék tanulmányozását követően válaszoljon az önellenőrző kérdésekre, tesztelje saját tudását.
11
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
2. AZ ÁLTALÁNOS KUTATÁSMÓDSZERTAN ALAPJAINAK ÁTTEKINTÉSE
2.1 CÉLKITŰZÉS A kutatásmódszertan alapelemeinek összefoglalása segíti az olvasót abban, hogy a különböző kurzusokon, gyakorlati tapasztalatai alatt szerzett ismereteket csokorba foglalva felidézze, pontosítsa az ismereteit. A kutatás egyedi sajátosságokkal rendelkezik, azonban az adatok feldolgozási menetét közel azonos logika jellemzi.
2.2 TARTALOM A kutatás Kutatási stratégiák Adatok típusai A kutatás folyamata A kutatás módszerei Kvalitatív kutatás Kvantitatív kutatás A kutatás tudományosságának feltételei
2.3 A TANANYAG KIFEJTÉSE 2.3.1
A kutatás
A kutatás során új ismeretek (összefüggések, törvényszerűségek) feltárása a cél. Egy általunk kiválasztott populáció vizsgálata az általunk előre meghatározott kritériumok szerint. Megvalósulhat átfogóbb és szűkebb populációban. Pl. Egy általunk kiválasztott megye középfokú oktatásában tanulók körében felmérést végzünk az élvezeti cikkek fogyasztása területén és következtetéseket vonunk le a megkérdezettek alapján az általunk kiválasztott régió helyzetére. Kutatás tárgya: a fejlesztés során érvényesülő törvényszerűségek feltárása. Kutatás metodikája: a tudomány előírásainak megfelelő megismerési folyamat (technikák, eljárások). A kutatás alatt értendő valamilyen tudatosult igény, probléma megoldására irányuló tevékenység, melynek során a jelenséget komplex módon előre átgondolt hipotézis alapján kell tanulmányozni. A kutatások típusai (Falus, I: 2000) lehetnek: alapkutatások, alkalmazott kutatások, akciókutatások.
12
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 2.3.2
Kutatási stratégiák
Deduktív (analitikus) kutatási stratégia A szaktudományokban az adott tudomány területén elért kutatási eredményekre támaszkodva valósul meg a következtetések megállapítása. Deduktív (analitikus) kutatási stratégia: a forrásokat, dokumentumokat és eddigi tapasztalatokat elemezve fogalmazza meg az elveket , törvényszerűségeket. Az információ forrásai A tartalomelemzés olyan kutatási módszer, ami lehetővé teszi egy szöveg elemzését oly módon, hogy annak minden komponensét figyelembe veszi. Forráskritika: külső forráskritika során vizsgáljuk, hogy eredeti-e a forrás, ha másolat, eredeti-e a reprodukció. A belső forráskritika során vizsgáljuk, hogy mennyire hitelesek a forrásban állított események, kompetens volt-e a szerző ezek leírására, vannak-e belső ellentmondások a műben Dokumentumelemzés: Dokumentumnak tekintünk minden olyan, a jelenben vagy a közelmúltban keletkezett anyagot, ami nem közvetlenül a kutatás céljára készült, de melyekből adalékokat, fontos információkat kaphatunk a kutatómunkánkhoz. A dokumentumok fajtái A kutatás témájával való kapcsolatuk szerint: Nincs közvetlen kapcsolat a témával, hanem a kapcsolatot a kutató teremti meg (ilyenek a filmek, színművek, tv és rádióműsorok). A témával kapcsolatos hivatalos dokumentumok (törvények, tervezetek, jelentések). A hivatalos dokumentumok a nyilvánossághoz szólnak (vitaanyagok, törvénytervezetek stb.). Lehetnek eredeti, vagy összegző dokumentumok, személyes dokumentumok (naplók, levelek, feljegyzések), fontos az etikai követelmények betartása, Személyességet előhívó hivatalos dokumentumok, a vizsgálati alany magánszférájára vonatkozó hivatalos kérdés Fontos megjegyezni, a forrás és dokumentumelemzés közötti különbség: a forráselemzés történelmi dokumentumokat vizsgál. Dokumentumelemzés: kizárólag a szövegben lévő explicit tartalomra vonatkozik. Tartalomelemzés: a szöveg mélyrétegeibe kíván behatolni, rejtett összefüggéseket kíván feltárni. Az elsődleges források: közvetlenül szolgáltatnak információt, míg a másodlagos források: közvetítésen keresztül teszik hozzáférhetővé az információt
Induktív (empirikus) kutatási stratégia A módszertani kutatások alapját képezi a kísérleti megfigyeléseken, méréseken szerzett adatok értékelése és a következtetések megállapítása. Induktív (empirikus) kutatási stratégia: a következtetéseket a tapasztalati mérésekre és azok elemzésére alapozva kell levonni. A vizsgálatok leírásával a következő leckékben bőven találkozhat az olvasó.
13
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 2.3.3
A kutatás folyamata
A kutatás kritériuma megköveteli a kutatótól, hogy új ismeret feltárását célzó probléma megoldására a javaslatait megtegye.
1. ábra: A kutatás folyamatábrája Kutatási probléma meghatározása: az elméleti tételek, melyek gyakorlati szituációkban lévő létjogosultságát bizonyítani kell. Gyakorlat, melynek során pl. ajánlott módszerek közül kell választani, melyik a hatékonyabb. Elemzési egységek és időfaktor kiválasztása: elemzési egységek azok, kit vagy mit kívánunk tanulmányozni. Az időfaktor alatt értendő, hogy adott jelenséget egy időpontban, vagy időintervallumban kívánjuk mérni, megfigyelni. Korábbi eredmények áttekintése: a szakirodalom, melyben a tanulmány nyitott, felvetett, megválaszolatlan kérdésekkel zárul. A felvetett és kutatott probléma időszerűségének, gyakorlati jelentőségének stb. eldöntése Konceptualizálás, operacionalizálás: vizsgálat változójának mérési eljárásának (technikai megközelítés) megfogalmazása fogalmak mérésére szolgáló technikákat határozzuk meg. Az indikátor a fogalmak, hipotézisek mérhető leírása. Módszer kiválasztása: válasz a hipotézisre az adott a vizsgálati eljárás megválasztása. Mintavétel: a populáció és a reprezentativitást biztosító mintavételi technika meghatározása. Adatgyűjtés: az információk gyűjtése. az adatok elemezhető formába rendezése (gyakran kikódolással) Eredmények közlése: az adatok statisztikai feldolgozását követően az eredményeket értelmezve, tanulmányban összefoglalva közli a kutató. 2.3.4
Az adatok típusai Az adat egy szimbólum, mely a hozzárendelt értékek bármelyikét felveheti.
Az adatok jellemzői Konstans, ha a változó csak egy értéket vehet fel.
14
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Diszkrét vagy folytonos adat, ha az adatokat diszkrét vagy folytonos változó írhat le. A változó alatt értjük az egyed vagy a rendszer mérhető tulajdonságait, jellemzőit. A változók logikai kapcsolatban álló attribútumokból (kategóriák, értékek) épülnek fel. Megkülönböztetünk függő és független változókat. A függő változót minden esetben a független változó határozza meg, ok és okozat kapcsolat áll fenn közöttük. A statisztikai mérések során a váltózókat a valós számok jellemzőihez viszonyítva osztályozzuk. A valós számok jellemzői: Lineárisan rendezettek (pl. x1 kisebb, mint x2) A valós számok összeadhatók, kivonhatók egymásból. Meghatározható hogy x1 mennyivel kisebb vagy, nagyobb, mint x2). A valós számok egymással szorozhatók és oszthatóak. A valós számok jellemzői alapján a változókat skálatípusokba osztályozzuk. A mérendő objektumok sajátosságai befolyásolják a mérőskálát, melynek típusai:
Nominális – névleges – skála Az objektumokat számozással ellátva, a dolgokat tartalmazó osztályokat kódolja. pl. intézettípusa…. Fontos szabály a számozások során, hogy nem kaphatnak azonos számot különböző objektumok, de különböző számot azonos objektumok sem. A statisztikai eljárás során számítható: Az objektum darabszáma Az osztályokban lévő dolgok száma (gyakoriságok) Rangsorban való állítás Médián, kvantilisek, rangkorrelációs együttható. Pl. a tanulók teljesítményéhez pontszám rendelhető. A nominális skála azon szimbólumok, számok, melyek csak az azonosítást szolgálják. A valós számok egy tulajdonsága sem jellemzi, vagyis még sorba sem rendezhetőek (pl. nemek, beosztás, lakóhely, vallás…)
Ordinális – sorrendi – skála: Olyan szimbólumok, számok, amelyek alkalmassá teszik a vizsgált egyedek közötti sorrendiség felállítását, mely lehet az egynemű adatok rendezésének alapja is. A változó értékeinek különbsége nem értelmezhető. (Pl. iskolai végzettség, a termékek minősítés értékei, tanulmányi versenyen kialakult eredmény, országok sorrendje a PISA mérés során…)
Intervallumskála Az objektum kvantitatív mérése során a mérhető adatokat vizsgálva az egyedeket jellemző ún. méréssel kapott adatokat kapjunk. Az intervallum nagyságát a két adat közötti eltérés adja, definiált mértékegységgel rendelkezik, tehát különbségük értelmezhető (születési dátum, életkor, attitűd skála értéke, osztályzatok …). A szomszédos értékek garantáltan azonos távolságra intervallumra vannak egymástól. Jellemzői:
15
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Bármelyik két skálaérték különbsége független a skála nullpontjától. A skálaérték különbségek hányadosa független a mértékegységtől. A hányadosok objektív összehasonlításra alkalmas, mivel nem tartalmazzák a mértékegység választás és nullpontválasztás önkényét.
Arányskála Az arányskála alatt olyan számértékeket értünk, melyek a nagyság szerinti viszonyokat és az eltérés mértékét is meghatározzák. A skálaértékek különbsége értelmezhető és tartalmaz egy abszolút nullapontot (rögzített zérus-pont) A két intervallum aránya független a mértékegységétől, valamint minden statisztikai jellemző meghatározható. Az egyedek ismérveit numerikusan kifejező számérték. A változó értékei sorba rendezhetőek, különbségük és arányuk is értelmezhető (pl. testmagasság, súly…) Megjegyzés: a fenti skálatípusok növekvő mennyiségű információt hordoznak az alábbi sorrendben: Nominális
ordinális
intervallum
arány
A különböző skálatípusok feldolgozása más statisztikai módszerrel történik. A magasabb szintű skálatípusok adatai alacsonyabb színtűbe konvertálható adatveszteséggel. 2.3.5
A kutatás módszere
A kutatás általában már előzően, pl. előfelmérések, tapasztalatok alapján valósul meg. A kutatás során szöveges, vagy numerikus formában kapott az információ halmaz, alkalmas azok kvantitatív és kvalitatív feldolgozására (Babbie, 2003). A kutatás során azt tapasztalhatjuk, hogy nem lehet éles határt húzni a két módszer között, mivel mindkettőt komplex módon alkalmazva kell értékelni az eredményeket. A kvantitatív mérési eredmények számadatait értelmezni kell didaktikai szempontból is. 2.3.6
Kvalitatív kutatás
A kutatás során minőségi kérdésekre, – „Mi? Miért? – adunk választ. A minőségi – kvantitatív – változók a nominális és ordinális adatokat leírt változókból tevődnek össze. a kvantitatív eljárásra kijelenthető, hogy kisegítő jellegű. Az eredményeket kvantitatív adatokkal való alátámasztás teszi megbízhatóbbá.
A kutatómunka során a legismertebb kvalitatív eljárások: Tipizálás a kutatómunka során az adatok rendezése útján történik (pl. időigény, tipikus hibák), melynek alapja a megoldás logikai menete, megtervezettsége. Táblázatba foglalás a modulrendszerek formai lehetősége. Összehasonlítás során a vizsgált csoportok közötti kategóriák, típusok, táblázatok közötti összehasonlítását végezzük el.
16
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Elemzés a kommunikáció szempontjából igen fontos része a kutatásnak, mely a kiegészítő következmények leírását tartalmazza. Forráselemzés a kritikai érzékkel feltárt írásbeli, szóbeli anyag, mely a kutatásunk részét képezi Következtetés, mely a nyert tapasztalatok alapján a problémák, tapasztalatok megállapítása. Eredményrögzítés a kvalitatív kutatási eljárás szövegesen megfogalmazott leírása. A kvalitatív eljárás előnyei: Nyitott, dinamikus, rugalmas. Mélyreható megértés lehetőségét kínálja. Felhasználja a kutató kreativitását. Gazdagabb ötletforrásokat szolgáltat. Áthatol az egyszerűsített vagy felületes válaszokon 2.3.7
Kvantitatív kutatás
A kutatás során mennyiségi kérdésekre – „Mennyi?” – adunk választ. Azokat az eljárásokat nevezzük kvantitatíveknek, melynek során numerikus adatokból, statisztikai eljárásokkal vonjuk le a populációra vonatkozó következtetéseket. Az eljárás alkalmazásához a vizsgált minta jellemzőit numerikus adatokkal kell kifejezni, melyet kvantifikálásnak nevezzük. A mérés két típusú lehet: A vizsgált csoport önmagában, egy adott időintervallumra jellemző rögzített adatokkal rendelkezik. Az adatok elemzése adott műveletek sorozatát leíró statisztikai eljárás. Két különböző teljesítményszint egymáshoz rendelése során alkalmazott matematikai statisztikai módszer. Két típusú egymáshoz rendelést vizsgálhatunk: Ugyanazon tanulócsoport között Két különböző tanulócsoport között
Kvantitatív eljárás előnyei Statisztikai és számszerű mérés Alcsoport – mintavétel – vagy összehasonlítások lehetősége Felmérés – a jövőben megismételhető és az eredmények összevethetők Egyéni válaszokra épít Kevésbé függ a kutató szemléletétől
A kutatás tárgyát képező jelenségek Determinisztikus: azonos körülmények között mindig ugyanúgy játszódik le; a feltételek ismeretében a jelenség további jellemzői egyértelműen meghatározottak (pl. szabadesés stb.).
17
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Sztochasztikus vagy véletlen: a jelenségek kimenetele, azonos körülmények között is nem egyértelműek (pl. pénzfeldobás, lottó stb.) 2.3.8
A kutatás tudományosságának feltételei
Érvényesség – Validitás Ennek a kritériumnak való megfelelés azt jelenti, hogy a kutatás a valóban a vizsgálat tárgyára irányul-e, milyen mértékben szolgáltat információt a módszer arra a kérdéskörre, amit meg akarunk vizsgálni, ismerni. Az érvényesség (validity) rávilágít, hogy a választott módszer mennyiben méri azt, ami szándékunkban áll. Fajtái: Tartalmi érvényesség (content validity) – (a fogalom mindes elemét lefedi-e) Konstrukciós vagy fogalmi érvényesség (construct validity), mely mérőeszköz az elvárásnak való megfelelését jelenti. Egyeztetésen alapuló érvényesség (current validity) – egy új mérési eszközzel kapott eredmények milyen mértékben egyeznek meg a már igazolt mérési eszköz eredményeivel. Előrejelző, prognosztikus érvényesség (predictív validity) egy jelenlegi mérés mennyire felel meg egy későbbi mérés eredményének (felvételi eredménye).
Megbízhatóság – Reliability Ennek a kritériumnak való megfelelés azt jelenti, hogy a kutatás annak megismétlése, ismételt alkalmazása során is az eredetivel egyező illetve kevéssé eltérő eredményt szolgáltat. A megbízhatóság mértéke azt jelzi, milyen pontossággal kapjuk ugyanazt az eredményt, mekkora a mérési hiba. A megbízhatóság ellen ható tényezők forrása: az eszközből, a kikérdező, megfigyelő személy, vizsgálati körülményekből tevődik össze. Mérése a varianciák összehasonlításával valósítható meg.
Objektivitás Ennek a kritériumnak való megfelelés azt jelenti, hogy mennyire tárgyilagos, vagyis független a mérés során kapott eredmény az adott módszert alkalmazó, a felmérést végző személytől.
Mintavétel. A szükséges mintaelemszám. Reprezentativitás A kutatás tervezése során az alkalmazott statisztikai eljárás feladata, hogy a populációra vonatkozó megalapozott következtetések levonásának feltételei biztosítva legyenek. A mintavétel célja a minél több információ szerzése az adott populációról. Elmélete a valószínűségszámítás éa a véletlen tömegjelenségeken alapul. A teljes körű kutatással szemben a mintavétel, a populáció egy bizonyos hányadának vizsgálatát (pénz-, idő- és munkamegtakarítást tesz lehetővé). A mintavételi terv kimunkálása (ld. 2. ábra) a mintavétel eredményességének, sikerességének biztosítéka, mely a meghatározza a mintavétel célját, a kiválasztás alapelveit, módszereit, a teljes és a részminták nagyságát, az eredmények pontosságára, torzítására és megbízhatóságára vonatkozó számításokat. A reprezentatív mintavétel szabályait és köve-
18
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI telményeit be kell tartani ahhoz, hogy a mintára vonatkozó megállapítások az egész populációra általánosíthatóak legyenek.
2. ábra: A mintavétel elve (forrás Kovács, 2001. p. 235.) A reprezentatív mintavétel szabályi és követelményei: A populáció minden elemének azonos esélyt kell biztosítani, hogy bekerüljön a mintába A minta adatai azonos körülmények közül származzanak A minta adatait objektív mérések biztosítsák A minta pontos adatokat tartalmazzon Az adatok torzítatlanok legyenek A minta adatai más minta adataival összevethető legyen.
19
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
3. ábra: Adatszerzési módok (forrás Dr. Illyésné dr. Molnár, 2008) A 3. ábra alapján áttekinthetjük az adatszerzési módik széles választékát, ahol a rövidítések jelentése: FAE (Független Azonos Eloszlású) minta: sokaság: homogén és végtelen vagy nagyon nagy mintavétel: véletlen visszatevéses vagy visszatevés nélküli sokaság: véges mintavétel: egyenlő valószínűséggel, visszatevéses A kiválasztás lehet: 1. Visszatevéses kiválasztás: A mintaelemek egymástól független és azonos eloszlású (FAE) valószínűségi változók: 2. Visszatevés nélküli kiválasztás: a mintaelemek függetlenek egymástól. A mintavételek számának növelésével nő a valószínűsége az egyedeknek a mintába kerülésre. A mintavételek számának növelését küszöböli ki a visszatevéses mintavétel, ennek viszont hátránya, hogy ugyanaz az egyed többször visszakerülhet a mintába 3. Egyszerű véletlen minta (EV): Sokaság: homogén, véges elemszámú; Minta: visszatevés nélküli, minden lehetséges „n” elemű minta kiválasztási valószínűsége azonos Viszonyítási alap: etalon; Elkészítése, elemek kiválasztása szisztematikus (komplett lista) 4. Rétegzett minta (R): Sokaság: heterogén;
20
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Módszer: a sokaság többé-kevésbé homogén rétegekbe sorolása. átfedés mentesen, teljesen lefedett sokaság rétegeken belül EV minta Rétegvizsgálat előnyei: hiba visszakereshetősége adott tulajdonságok adott rétegben Valószínűség növelése 5. Csoportos minta (CS): Adott tulajdonságok szerinti csoportok képzése, azokon belül vizsgálódunk. 6. Többlépcsős minta (TL): Több tulajdonságot fog össze Nem véletlen mintavételi eljárások Szisztematikus kiválasztás a. Kvótás kiválasztás (minta összetétele adott / kiegészítésként gyakran alkalmazott módszer) b. Koncentrált kiválasztás (legjobban jellemzik a sokaságot a reprezentánsok) ( példa: felvételi ponthatárok/ előre meghatározott pontértékek alapján kerülnek a hallgatók a felsőoktatásba). c. Hólabda kiválasztás (kérdőívek továbbadása / nem igazán véletlen minta) d. Önkényes – szubjektív – kiválasztás (ritkán alkalmazott, nagy a szubjektív elem, egyszerűek, olcsóak, de nem adnak jó eredményt).
2.4 ÖSSZEFOGLALÁS Ebben a fejezetben a kutatásmódszertan alapkérdéseit ismerhette meg az olvasó a kutatás fogalmától kiindulva a kutatási probléma megfogalmazásán át a mintavételig. A kutatás tervszerű előkészítése a sikeres és eredményes kutatás kulcsa.
2.5 ÖNELLENŐRZŐ KÉRDÉSEK 1. 2. 3. 4.
Ismertesse a kutatás tudományosságának feltételeit. Jellemezze a kvantitatív és a kvalitatív kutatást. Mutassa be az adatok típusait. Elemezze a mintavételi eljárásokat.
21
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
3. MATEMATIKAI DÖNTÉSELMÉLET 3.1 CÉLKITŰZÉS A leckében elemezzük, hogy az eredményeket nem véletlen tényezők határozták meg. A következtetés során választ kapunk arra, hogy a kapott eredmények a populáció egészére általánosíthatóak-e, azaz a statisztikai eredmények ugyanabból a populációból származnak vagy sem, hozható-e döntés a populáció egészére.
3.2 TARTALOM Hipotézis-vizsgálat Konfidencia intervallum A hipotézis-vizsgálat lépései Tévedések lehetősége Gyakori hibák
3.3 A TANANYAG KIFEJTÉSE A matematikai döntéselméletben a vizsgálat célja a kutatás során körülhatárolt populációra vonatkozó következtetések levonása. Például az egyetemi hallgatók tanulmányi átlaga egyenlő-e 3,8-del, vagyis µ=µ0?. Problémák: A populáció minden tagja nem vesz részt a vizsgálatban A becslés hibalehetőséget hordoz. A minta számított és adott értéke nem feltétlenül jelenti, hogy a populációra jellemző érték és az adott érték között eltérés van. Azokat a feltételezéseket, amelyeket a populáció egészére fogalmazunk meg, statisztikai hipotézisnek nevezzük (Falus–Ollé, 2008). A vizsgált minták adott valószínűségi szinten való megfigyelhető vizsgálata a matematikai statisztika módszereivel történik. Az objektív megfigyelések alapján a vizsgálatot végző egyén az adatokat elemezve összefüggéseket keres, és összevetéseket készít a tapasztalati adatok és az elméleti következtetések alapján, a gyakran bonyolult adatrendszerek többváltozós elemzésével. Az elemzések eredmények alapján: Ha a különbség nem a véletlen műve, akkor azt lényeges, szignifikáns különbségnek nevezzük és a minta a populációnak egy, a populációt reprezentáló része. Ha a különbség a véletlen műve, akkor nincs közöttük lényeges, szignifikáns különbség és a minta a populációnak nem ugyanazt a populációt reprezentáló része. És az alkalmazott módszer a vizsgált csoportoknál eltérő eredményeket hozott létre. Megoldás a statisztikai hipotézisvizsgálattal lehetséges. 3.3.1
Konfidencia intervallum
Konfidencia intervallum az ismeretlen paraméterek értékét egy előre meghatározott valószínűséggel fedi le. A konfidencia határok végpontjainak meghatározását intervallum-
22
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI becslésnek nevezzük. Az intervallumbecslés egy tartományt ad meg, amiben valószínűleg benne van az adott paraméter. Ha a vizsgált paraméter 1-p valószínűséggel esik az intervallumba, gyakran %-ban fejezik ki, pl. tipikus értéke 95%. Konfidencia-intervallum az a valószínűségi intervallum, mely az adott szignifikanciaszinten a becsült változó alsó és felső korlátját adja, vagyis a megbízható becslést. A hipotézisvizsgálat általában a megbízhatósági intervallum definiálásának leggyakrabban alkalmazott eszköze. Kijelenthető hogy a konfidencia-intervallum és a hipotézisvizsgálat bizonyos értelemben kiegészíti egymást. A konfidencia-intervallum a hipotézisvizsgálat elfogadási tartománya. Két eset lehetséges. Általánosan elfogadott, hogy nem vetik el a nullhipotézist 100 p%-os szinten a 100 (1−p)%-os szintű konfidencia-intervallum tartományába. Fordított eset, hogy elvetik a nullhipotézist 100 (1−p)%szinten 100 p%-os szintű konfidencia tartományban. Ezért a hipotézisvizsgálattal kapcsolatos feltevések átvihetők a megbízhatósági intervallumra is. 3.3.2
Hipotézis-vizsgálat
A kutatásokban során a tudományos magyarázatok okozati elemzése során az okok felderítését kell végrehajtani. A hipotézis megfogalmazása, majd a feltevésre következetes és módszeres eljárással adható válasz. A jól megfogalmazott hipotézis a vezérfonalát adja a kutatásnak. A kutatások célja, a vizsgált minta által reprezentált vizsgálati eredmények populációra való általánosíthatóságának bizonyítása. A probléma forrása, hogy a populáció adott tulajdonsága csak becsülhetők a populációból vett minta alapján és nem mérhetők közvetlenül. Megoldás a statisztikai hipotézisvizsgálat. A hipotézis egy föltevés arra, hogy a minta becsült várható értéke – μ egy megadott szignifikancia szinten azonosnak tekinthető-e az előre feltételezett értékkel. Jele: H.
Null és alternatív hipotézisek, döntési szituációk A vizsgált minták elemzése során a statisztikai hipotézist azért fogalmazzuk meg, hogy annak eredménytelenségét belássuk, és ezt követően elvessük. A nullhipotézis, – alaphipotézis, próbahipotézis – az a hipotézis, melyet a statisztikai próbával előre megadott szignifikanciaszinten vizsgálva feltételezzük, hogy a vizsgált minták között nincs szignifikáns különbség. Jele: H0. A vizsgálandó problémához illeszkedő matematikai statisztikai vizsgálatok célja az eredmények alapján, annak eldöntése, hogy a nullhipotézisben megfogalmazott kérdés fennállhat-e? Általában kétféle kérdés tevődik fel: Mi az igazság? Igaz-e hogy…? A felvetődő kérdések közül az első a becslésnek, a második pont az ún. hipotézisvizsgálatnak felel meg.
23
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A hipotézisvizsgálat lényege a már meglévő előzetes ismeretünk, elképzelésünk alapján a vizsgálandó mintáról fogalmazzuk meg a várt eredményt, melynek beigazolódása a nullhipotézis teljesülését jelenti. Ha a feltételezésünk nem igazolódik be, akkor az ellenhipotézist tekintjük elfogadottnak. Példa: Elektronikus információ forrás használati szokások felmérésére során országunk minden 18–23 éves fiatalt megkérdezése, kérdőívvel történő felmérése nem lenne gazdaságos, illetve nem lenne célszerű, vagy nem áll módunkba. Az adott populáció vizsgálata ezért reprezentatív mintavételezésével történik. Feltételezzük, hogy a vizsgált minták között van valamekkora eltérés épen a kiválasztás véletlensége folytán. A kérdés eldöntésére a matematikai statisztika próbát kell alkalmazni. 3.3.3
A hipotézis-vizsgálat lépései Nullhipotézis (jele: Ho) A hipotézis statisztikai vizsgálata során megfogalmazzuk azt a kiindulási feltételezést, hogy a két minta által reprezentált alapsokaság paraméterei között nincs eltérés, azaz a vizsgált minták ugyanazt a populációt reprezentálják. H0: µ=µ0
A nullhipotézis igazolása. a megengedett tévedés előzetes meghatározásával a szignifikanciaszint elemzésével történik. A matematika statisztikai próba kiválasztása a probléma körülményeinek megfelelően valósulhat meg. A minta alapján számított paraméter a próbamutató empirikus értéke, mely a küszöbérték meghatározását eredményezi. Ezt követi a kapott érték összevetése az elméleti úton kapott kritikus (küszöb-) értékkel. Abban az esetben, ha a számított érték meghaladja az elméleti úton kapott értéket, a nullhipotézist el kell vetni. A próbamutató empirikus értékeinek összevetése az elemszám és a szignifikanciaszint alapján, a táblázatban kiolvasható kritikus értékekkel, további eseteket feltételez: Ha a próbamutató empirikus értéke ≥ a kritikus értéknél, akkor elvetjük a nullhipotézist. A két minta eredménye szignifikánsan különbözik egymástól. H1: µ<>µ0 Ha a próbamutató empirikus értéke < a kritikus értéknél, akkor nincs elég indok a nullhipotézis elvetésére. A vizsgált esetek között nem mutatható ki eltérés, azonban ez nem jelenti, hogy a két módszer egyenértékű. Nagyobb minták esetén nem zárható ki, hogy szignifikáns eltérést fogunk tapasztalni a módszerek között. Következtetések levonása esetén az általánosítás csak arra a populációra lehetséges, amelyet a minta reprezentál. Az eredményeket korrekt módon kell megadni, melyek tartalmazzák a vizsgálat és az eredmények érvényességi határait is. Alternatív hipotézis (H1), mely a különbség meglétét feltételezi, vagyis a vizsgált becslések nem azonosak. A nullhipotézist és az ellenhipotézist mindig egymást kizáró módon kell felállítani, vagyis ha az egyik igaz, akkor a másik biztos, hogy hamis. H0 igaz voltának valószínűsége akkor állhat fenn, ha eloszlása ismert. Ebben az esetben a próbastatisztika eloszlásának ismeretében megadható, hogy milyen valószínűséggel kaphatunk meg a mintából számított vagy annál nagyobb értéket a próbastatisztikára.
24
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Abban az esetben, ha igen valószínűtlen, hogy H0 igaz volta esetén a számított értéket kapjuk akkor H0-t elvetjük. Ellenkező esetben H0-t megtartjuk. Azt a valószínűséget, amely esetén H0-t elvetjük p-vel jelöljük és szignifikanciaszintnek nevezzük. Értékei p<0,05, p<0,01 és p<0,001. Ehhez a szignifikancia szintekhez tartozó próbastatisztika értékek az ún. kritikus értékek. Ha a próbastatisztika értéke nagyobb/egyenlő egy adott szignifikancia szinthez (pl. p<0,05) tartozó kritikus értéknél, akkor H0-t elvetjük és azt mondjuk, hogy az eltérés szignifikáns p<0,05-ös szinten. 3.3.4
Tévedések lehetősége
Elsőfajú, vagyis alfa-hiba (α) keletkezik (pl. 5% esély fennállásakor), ha a nullhipotézis elutasításra kerül annak ellenére a H0 ténylegesen igaz (ebben az esetben valószínűleg az 5%-ba eső mintákat vizsgáltuk) Ha arról akarunk meggyőződni a hipotézisvizsgálat során, hogy a nullhipotézis elvethető-e, akkor szigorúbb szignifikancia szinten meg kell ismételni a vizsgálatot. Másodfajú, vagyis béta (β) hiba, ha elfogadjuk a nullhipotézist, annak ellenére, hogy a H0 ténylegesen nem igaz. Ha meg akarunk győződni a hipotézisvizsgálat során, hogy a nullhipotézis elvethető-e, akkor kisebb szignifikancia szinten (nagyobb számérték) a vizsgálatot meg kell ismételni (Ketskeméty–Izsó, 2005). Példák a hipotézis megfogalmazására: A Web böngészése során a 18–22 éves diákok a képernyő-színei alapján és nem a tartalom alapján tallóznak. Ennek alapján a nullhipotézis: a diákok egyforma eséllyel böngésznek a képernyő színe és tartalma alapján. Alternatív hipotézis: a diákok nagyobb eséllyel választanak a Web felületek tartalmi ismérvei alapján. A hipotézis megfogalmazását követően választunk egy mintát, vagyis megfigyelünk a diákok Web böngészési szokásait. Például a megfigyelt 98 diák közül 84-en az adott Web felületet a tartalma alapján választották. A szabadidős tevékenység vizsgálata során, a vizsgálatok arra mutatnak, hogy a hallgatók a könyv tetszetős szerkesztési formája (címlap, ábrák) alapján válogatják meg olvasmányaikat. Ennek alapján a nullhipotézis: a diákok egyforma eséllyel böngésznek a könyv borítója, színes képei alapján. Alternatív hipotézis: a diákok nagyobb eséllyel a szerző és tartalom ismeretében válogat a könyvek között. Abban az esetben, ha a statisztikánk arra mutat, hogy a hallgatók olvasmányaikat a színes képek és a borítója alapján választják meg, a nullhipotézis melletti eloszlás, n=100 és p=0,5 paraméterekkel vizsgálva binomális lesz. Ha azonban a szerző és a tartalom alapján választják a könyveket, akkor ez a statisztika is megváltozik. Ha az eloszlás jobboldalán lesz az a tartomány, mely meglepetés a nullhipotézis megfogalmazásával szemben, annál elfogadottabbá válik az ellenhipotézis gondolata. Ez alatt értendő, ha túl sok diák választja a könyveket a szerző és a tartalom ismeretében, akkor el fogjuk vetni a nullhipotézist. Felvetődik a kérdés, hogy mi lesz az elvetés kritériuma, hol húzzuk meg a határt? A gyakorlatban elfogadott tény, hogy az első fajú hiba értékét 0,05-ben maximalizálják, amely alatt azt az értéket értjük, melynél nagyobb vagy kisebb valószínűsége-értéknél a nullhipotézis egyenlő vagy kisebb, mint 0,05. Ezen határ feletti értéket elutasítási tarto-
25
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI mánynak nevezzük. A 0,05-t a hipotézisvizsgálat (próba) szignifikancia szintjének nevezzük A korreláció szignifikanciája: választ ad arra, hogy mennyire bízhatunk egy mintából számolt korrelációs együtthatóban. A két minta szignifikanciája függ: a két minta számtani középértékének különbségétől, a minták szórásától, a minták elemeinek számától. 3.3.5
Gyakori hibák
Görbe vonal mentén elhelyezkedő pontok, azaz a görbére illeszkedő pontok esetében a korreláció nem alkalmas az összefüggés jellemzésére. Nem használható, ha az egyik változót a kutató határozza meg, A hiba elkerülésére elemezni kell: Ha a korreláció koefficiense (r) szignifikáns, amely még nem jelenti a változók közötti erős kapcsolatot vagy annak jelentős voltát. A korreláció, és annak a valószínűsége a tény, mely a kapcsolat minőségét a szakmai értékelést és érvelést határozza meg. A változók között található kiugró értékek erősen torzíthatják a korrelációs együtthatót. A szóródás elemzése során a kiugró értékek vizsgálatára szükség van. Ebben az esetben a nem-paraméteres módszer, a Spearman féle rang-korreláció használata javasolt. Gyakori és súlyos hibaként említhető: A két változó közötti korrelációból gyakran ok-okozati összefüggésre következtünk. Két változó korreláltságát előidézheti ok-okozati viszony, de az is előfordulhat, hogy a két korrelált változó nincs egymással okokozati kapcsolatban, hanem mindkettő egy harmadik, közös októl függ. Előfordulhat, hogy a korreláció magyarázata lehet a véletlen eredménye is. Ez az eset fennállhat, ha mind a két változó az idővel korrelált. A közös tényezővel korrelált változók között is gyakran van korreláció. Tehát ennek tanulsága, hogy a változók között az ok-okozati összefüggést logikai, vagy kísérleti úton kell bizonyítani. A becslés során azonban véletlen hibákkal kell szembe nézni, mely nem szükségszerűen jelentik azt, hogy a maga után vonja a számszerű eltérést a populációra jellemző érték és az adott érték között.
3.4 ÖSSZEFOGLALÁS Összefoglalva megállapítható, hogy a nullhipotézis soha nem vethető el teljes biztonsággal, vagyis 100%-kal, és nem jelenthető ki, hogy a két minta közötti különbség nem a véletlen műve. A minták statisztikai 95% feletti vizsgálatakor kapott eredmények alapján tekinthető szignifikánsan különbözőnek. Ebben az esetben a tévedés lehetősége kisebb, mint 5%. Jelölése p<0,05.
26
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 3.5 1. 2. 3. 4.
ÖNELLENŐRZŐ KÉRDÉSEK Ismertesse a hipotézisvizsgálat igazolásának módszereit. A hipotézis vizsgálat során milyen tévedési lehetőségekkel lehet számolni? A kutatás tervezése során milyen hipotézisek megfogalmazására kerül sor? Milyen követelményeknek kell teljesülnie a hipotézisek megfogalmazása során?
27
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
4. KÖZÉPÉRTÉK-MUTATÓK, GRAFIKAI ÁBRÁZOLÁS 4.1 CÉLKITŰZÉS A középértékmutatók összefoglalása segíti az olvasót abban, hogy megismerje a statisztikai vizsgáltok során a rendelkezésre álló információk sűrítésének lehetőségeit. A sokaságot valamilyen ismérv szerint tömören, egy adattal (mutatóval) jellemezi a középérték. Azonos jellemzőkkel rendelkező adatok halmazából számítható, és a minta jellemzését szolgálja.
4.2 TARTALOM A középérték mérőszámai Középérték mérőszámai. Középérték mutatók Számtani átlag Módusz Médián Szélsőérték vizsgálatok Szóródási mutatók Terjedelem Átlagos eltérés Gyakoriság Gyakorisági eloszlás A középérték mutatók és a gyakorisági adatok viszonya Az eredmények ábrázolása
4.3 A TANANYAG KIFEJTÉSE 4.3.1
A középérték mérőszámai. Középérték-mutatók
A felmérés során kapott minták összevetését számszerűsített adatok segítik és teszik egzakttá A vizsgált csoportok elemeit tartalmazó adathalmazt a következtetések levonása céljából a táblázatba foglalva elemezzük, amelynek során növekvő vagy csökkenő sorrendben feltüntetve foglaljuk a kapott eredményeket. Az adathalmaz kezelését megkönnyíti az adatok osztályokba történő sorolása. A minimális és maximális pontszám közötti intervallumot egyenlő szélességű osztályokba soroljuk. A minták összehasonlítását középérték mutatók meghatározásával célszerű elindítani. Az adatfajták meghatározzák a középérték mutatók értelmezhetőségét. Ennek megfelelően, ha intervallum skálával dolgozva, általában az átlagot vagy a mediánt kell elemezni. Ha a mintában vannak kilógó értékek, célszerű a mediánt választani, mert az erre érzéketlen. A minta legnagyobb értékét még tovább növelve a medián nem változik, miközben az átlag jelentősen nőhet. Ha viszont a minta nem mutat ilyen anomáliákat, akkor az átlagot használják, mert a mintával kapcsolatban több információt tartalmaz.
28
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Számtani átlag Az átlag egy adott diszkrét adatsor jellemző adata, mely az adathalmaz közepén helyezkedik el. Minta átlaga: A számhalmaz átlaga, más szóval – számtani közepe –, az a szám, amelytől az adatok eltéréseinek összege zérus. Az n elemű minta – x1, x2, … xn – átlaga: n
x
x1
x2 ... xn n
xn n 1
n
A fenti képlet más kifejezéssel élve, a minta számtani átlaga. 4.3.2
Módusz
Az adatsorok osztályokba való sorolása esetén a legnagyobb gyakoriságú osztály közepét értjük alatta. Egy számhalmaz módusza, a legnagyobb gyakorisággal rendelkező érték. A módusz nem feltétlenül létezik, és ha igen, nem biztos, hogy egyetlen érték képviseli. Alkalmazása: az ordinális és a nominális változókból álló minta esetén lehetséges. Jellemzője, hogy leíró, jósló szerepe van, mivel a tipikus értékre (tipikus eredmény, vélemény) mutat rá. Alkalmas az eloszlás gyors jellemzésére is, abban az esetben, ha a mintának egy módusza van. 4.3.3
Médián
A vizsgált mintát két azonos részre bontja, rámutat a minta közepére. Médián, a nagyság szerint rendezett, vagyis rangsorba állított számhalmaz középső értéke, páratlan számsorok esetén, vagy a két középső érték számtani átlaga, – páros számsorok esetén (a nominális adatokra nem értelmezhető, de az ordinális adatok esetén igen) Alkalmazása a nominális skála kivételével minden esetben lehetséges. A vizsgált minta középmezőnyének jellemzésére alkalmas. Az arányskála mindhárom középérték mutató alkalmazását lehetővé teszi. Mely esetben melyiket a legoptimálisabb használni, függ a minta számától és értékeitől, vagyis melyik mutató ad több információt a minta jellemzőiről. Alkalmazását táblázatosan összefoglalva:
29
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
1.
táblázat: A középérték mutatók értelmezhetősége az adat típusának függvényében Adat típusa
4.3.4
Középérték mutató alkalmazása
Nominális skála
átlag Nem
médián Nem
módusz Igen
Ordinális Intervallun arányskála
Nem Nem igen
Igen Igen Igen
Igen Igen Igen
A középértékek közti összefüggések
A szimmetrikus görbék esetén az átlag és a módusz egybeesnek, míg a balra illetve jobbra ferdülő görbék esetén a médián az átlag és a módusz között veszi fel az értéket. 4.3.5
Szóródási mutatók
A szóródási mutatók (más szóval ingadozási mutatók) azt mérik, hogy az adott minta értékei mennyire koncentrálódnak a középérték körül. A szórás annak a várható hibának a nagysága, melyet akkor vétünk, ha egy populáció egy tagjának valamely mérhető értékét a populáció átlagával becsüljük meg 4.3.6
Terjedelem
Maximum (a legnagyobb érték), minimum (a legkisebb értéket jeleníti meg, a gép a nullát is értéknek tekinti), range(=terjedelem, -tól -ig, a legkisebb és legnagyobb érték közti különbség v. távolság) Az adatok változékonyságának egyik jellemzője a terjedelem, ami a szélsőértékek (minimum-maximum) közötti különbséget jelenti. A szélsőértékek között az egyes adatok előfordulási gyakorisága adja az eloszlást, érzékeny mutató. Jele:Ri
R = Xmax – Xmin Jelentősen befolyásolhatja az átlagos értéket egy-egy nagy érték. A szélső érték torzít. Az értékek megoszlását modus nem mutatja. A középső érték pedig nem mond semmit, de gyakran jól jelzi a változó megoszlását. Felmerül a kérdés: van értelme a paraméter meghatározásának? Válasz, abban az esetben, ha a szélső értékek fontosak a mérés szempontjából.
Interkvartilis félterjedelem A minta szóródását (ingadozását) méri, mivel megadja azt a középső tartományt, ahova az értékek fele esik. Minél nagyobb ez a tartomány, annál nagyobb az ingadozás mértéke. Az adathalmazt négy egyenlő részre osztás eredményeként kapott kvartilisek, amelynek jelei a Q1, Q2, Q3. Az interkvartilis félterjedelem képlettel való definiálása:
30
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Q
Q3
Q1 2
10–90 percentilis terjedelem Centilis alatt értjük az adathalmazt 10 egyenlő részre osztás eredményeként kapott D 1, D2, D3 jellel jelölt értékeket. 10-90 percentilis terjedelem képlettel definiálva:
P90 4.3.7
P10
Átlagos eltérés A minta elemeinek és a számtani átlag közötti különbségek abszolút értékeinek számtani átlaga. n
x AE
xi
j 1
n
Négyzetes összeg Az eltérések négyzetének összege.
Alkalmazása a további számítások során gyakori. A fenti paramétereket elsősorban a további számítások során részeredményként alkalmazzuk. Variancia A szóródási mutatók a minta jellemzőiről sokat jeleznek, mivel az adatok átlag körüli ingadozására mutatnak. Varianciának nevezzük az átlagoktól való eltérések négyzetöszszegét.
s
2
xi
x
2
n 1
Szórás Szórás alatt értjük az adatok mintaátlagától vett négyzetes átlagát (középértéke). A nevező nem más, mint a szabadságfok, mely a független elemek számát mutatja meg.
31
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Szórásnégyzet A minta szórásnégyzete rámutat arra a tényezőre, hogy a minta adatai hogyan helyezkednek el a középérték körül. Mivel az átlagtól való eltérések egyenlő mértékűek pozitív és negatív irányban, ezért a különbségek négyzetre emelése optimalizálja az eredményt. Képletben kifejezve:
s
xi
2
x
2
n
A mérések során azonban nem csak a minta, de végső eredményként az adott populáció szórásnégyzetét kell megbecsülni. Mivel a populáció középértéke pontosan nem meghatározható, a mintavétel miatt (a minta számtani középértéke eltérést mutat a populáció számtani középértékétől). A populáció becsült szórásnégyzete (varianciája) nagyobb pontossággal becsülhető, ha a nevező értékét eggyel csökkentjük. A populáció szórásnégyzete (varianciája):
s
xi
2
x
2
n 1
ahol (n-1) a nevezőben a minta szabadságfoka. A populáció szórása a variancia pozitív előjelű négyzetgyök értékével egyenlő.
s
xi n 1
x
2
s2
A feladatok során a szórás a különböző minták összehasonlítására alkalmas. A számítás eredményei arra utalnak, hogy a középértéktől való szórásnyi eltérések közötti eltérés jellemzi a populációt: Bizonyítható, hogy: az adatok 2/3 része a szórás 68%-a x s 1 intervallumába helyezkednek el az adatok 95%-a a szórás x
s 2 intervallumába he-
az adatok 99%-a a szórás x
s 3 intervallumába he-
lyezkednek el lyezkednek el 4.3.8
Gyakoriság
Az adatok értéktartományát intervallumokra osztva, az adatokat azokba be kell sorolni. Ügyelni kell arra, hogy az intervallumok alsó és felső határa ne fedje egymást. Az intervallum: Az értelmezési tartomány a minta legnagyobb és legkisebb eleme által határolt intervallum. A gyakoriság egy olyan mutató, amely jellemzi, hogy egy-egy csoportba hány adat tartozik.
32
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A gyakorisági eloszlást az adott csoportok és a hozzájuk rendelhető gyakoriságok alkotják. Az eljárás menete: Első lépésként az értéktartományt csoportokra kell osztani, melyek egyenlő intervallumúak. Ha túl nagy intervallum számot választunk, pontatlan értékmeghatározást okozhat. A csoport intervallumok általában, a minta függvényében 2, 3, 5, 10 max. 20 (50 fős minta esetén 7 kategória ajánlott) legyen. 4.3.9
Gyakorisági eloszlás
Abszolút gyakoriság A gyakorisági eloszlás egy olyan statisztikai mutató, mely arra mutat, hogy a minta elemei hogyan oszlanak meg a különböző csoportok között. A mintára vonatkozóeredményt abszolút gyakorisági elosztásnak nevezzük. Jele fa
Relatív gyakoriság A relatív gyakoriság a csoport abszolút gyakoriság értékének a minta elemszámához százalékosan viszonyított értéke.
f%
f a 100 n
A relatív gyakoriság alapján válik lehetővé, hogy különböző, akár eltérő elemszámú mintát vessünk össze.
Kumulatív gyakoriság A kumulatív gyakoriság egy olyan statisztikai mutató, mely arra mutat, hogy a mintából mennyi azon elemek száma, amely egy előre meghatározott szintet ér el. Jele: cf. 4.3.10 A középérték mutatók és a gyakorisági adatok viszonya A középértékek az átlag, a módusz és a medián összefoglaló neve és a mintát jellemzik. A számtani középértékben az minta elemei „elvesznek”. Ebben az esetben használható a módusz, hisz az adatok közül kiemel egyet. Ha több adat is közel azonos gyakorisággal emelkedik ki a mintából használata nem szerencsés. A medián és a számtani átlag viszonyát tekintve asszimetria lép fel, ha a medián és a számtani átlag eltávolodnak a modusztól. A medián mindig a módusz és a számtani átlag közé esik. Az asszimetria esetei: balra aszimmetrikus, ha x < Me < Mo
33
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI jobbra aszimmetrikus, ha
Mo< Me < x
x Me = Mo (Gauss görbe, szimmetrikus, ha normál eloszlással) Az átlag és a szórás kapcsolata: az átlagtól egyszórásnyi terjedelembe tartozik az adatok több mint 2/3-a, 2 szórásnyiba, több mint 95%-a, 3 szórásnyiba több mint 99%-a). 4.3.11 Az eredmények ábrázolása A grafikus ábrázolás célja az eredmények áttekinthetőbbé és szemléletesebbé tétele A diagramok leggyakoribb típusa vonaldiagram, az oszlopdiagram és a kördiagram. Vonaldiagram az adatok egymáshoz való viszonyát, oszlopdiagram pedig, ha a rész adatok egészhez történő arányát ábrázolja.
Vonaldiagram Több adatsor megjelenítésére alkalmas. Az ábrázolás alapjául pontok szolgálnak, melynek a függőleges tengelyen mért magassága fejezi ki az ábrázolandó érték nagyságát. Speciális és gyakran alkalmazott vonaldiagram az eloszlásfüggvény.
Eloszlásfüggvény Azt mutatja meg, hogy a minta elemszámához, mint száz százalékhoz képest, hogyan oszlanak meg az egyes csoportok között a minta elemei. A gyakorisági eloszlások esetében gyakran alkalmazott függvénytípus. Gyakorisági poligon: az x tengelyen az adott csoport középértékét, az y tengelyen a csoportokhoz tartozó középértékeket kell feltüntetni Az osztályközepek függvényében kapott pontokat vonalakkal összekötve kapjuk a gyakorisági poligont. Jellemzői: Szimmetrikus: ezen belül megkülönböztetünk – lapított (platykurtic) – az eloszlás értékei viszonylag gyakoriak – csúcsos (leptokurtic) – az eloszlás közepe túlzottan kiemelkedik Aszimmetrikus (skewed), amely esetében lehet az adatok eloszlása jobb vagy bal irányba eltolódott. Az eloszlás jellemzői: Ferdeség – egy mérőszám, mely arra ad választ, hogy a szóródás a centrumtól jobbra vagy balra lapul-e. 2.
táblázat Normál, balra és jobbra ferdülő eloszlásfüggvény
A ferdeség – Skewness Lapultság – Kurtois
34
Ha (-), balra ferdül a kiugrás (+), jobbra (0), szimetrikus
0 csúcsos, leptokurtic 0 lapos, platykurtic
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Kördiagram A kördiagram a nominális és ordinális mérési szintű változókra alkalmas. A kördiagram készítésénél a körcikkek középponti szöge arányos lesz az adatfajta gyakoriságával. A kördiagram kifejezően szemlélteti az arányokat, a részt szemlélteti az egészhez. A kördiagramon az ábrázolt százalékérték a körcikk középponti szögével egyenesen arányos.
4. ábra: Kördiagram A kör- és sávdiagramot leggyakrabban a relatív gyakoriságok ábrázolására alkalmazzák. A százalékos formában kifejezett értéksort kördiagramban ábrázolva a figyelem egyegy körcikk kiemelésével fókuszálható.
Oszlopdiagram A kördiagram alternatívája. Nominális és ordinális mérési szintű változókra alkalmazzuk, de intervallum skála esetében is alkalmazható, ha a hangsúly a mennyiségen van. Ordinális mérés esetén a változó-kategóriák az x tengely mentén sorba vannak rendezve, az oszlopok egymás mellett helyezkednek el. Oszlopdiagram esetén a vízszintes tengelyen a lehetséges adatokat vesszük fel, a függőleges tengelyen pedig azok előfordulásának számát, ezt nevezzük az adat gyakoriságának.
35
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
5. ábra: Oszlopdiagram A nagyszámú változók esetén: minél finomabb beosztással definiáljuk a kategóriákat, annál egyenetlenebb a gyakorisági kép, több lesz az üres kategóriák jelenléte, A kisebb létszámú változók esetében torzít, mivel százalékos megoszlása arányaiban várhatóan jobban eltér a valós populációs megoszlástól.
Hisztogram Azt mutatja meg, hogy a minta elemszámához, mint száz százalékhoz képest, hogyan oszlanak meg az egyes csoportok között a minta elemei. A hisztogramot más néven empirikus sűrűségfüggvénynek is nevezik. A gyakorisági eloszlásnak az oszlopos ábrázolása. A mennyiségi változó osztály gyakoriságát a téglalapok felülete fejezi ki; a magasság az osztálygyakoriság, a szélesség az osztályköz.
36
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
6. ábra: Hisztogram a normál eloszlással Intervallum-arányskála mérési szintű változókra alkalmas. Fix a kategóriák szélessége és az adott kategória középpontja a kategória gyakorisága. A halmozott oszlopdiagram az adatsorok különböző tételeinek egyenkénti és összesített értékének együttes szemléltetésére alkalmas.
37
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
7. ábra: Halmozott oszlopdiagram Tő-és-levél ábra (stem-and-leaf plot) Intervallum-arányskála mérési szintű változókra alkalmazzák. A változó értékeit a számjegyeik alapján „tövekre” és „levelekre” bontva, általában az első vagy első két helyi érték a tő. Ezután növekvő sorrendbe rendezzük a töveket, majd az azonos tőhöz tartozó leveleket soronként ismét rendezni kell. Az ábra egy elfordított hisztogramra emlékeztet, de a hisztogramtól eltérően a tényleges értékeket ábrázolja.
38
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
8. ábra: Tő és levél (Steam-and-leaf) Boksz-Plot ábra A kvartilisek alapján készített összegző ábra, a mennyiségi ismérveket adja tömören ábrázolva.
9. ábra: Boksz-Plot ábra
39
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A dobozt az eljárás egy egyenesre fűzi fel a középső 50% elhelyezkedésével és a medián feltüntetésével. Rámutat, hogy a minta középső 50%-a hogyan helyezkedik el a medián körül és jelzi a kieső értékeket. Xmin a minta legkisebb eleme Q1 az alsó kvartikis, a minta első 25%-a ME median, 50% median mean, a közép Q3 harmadik kvartilis , a minta 75%-a Xmax a minta legnagyobb eleme a minta kieső eleme
Pókháló, sugár (Pókháló) diagram Az adatok ábrázolása során a pontokat ábrázolva azokat egy pontból ábrázolva a félegyenesek a szomszédos félegyenesekkel azonos szöget zárnak be.
10. ábra: Pókháló diagram Minden egyes adatot a neki megfelelő félegyenesen ábrázolva a kapott pontokat egy törött vonallal összekötve jön létre a pókháló. Az adatok változásának szemléltetésére alkalmas, kézi elkészítése nehézkes. Az egyenesek meredekségéből leolvasható az adatok változásának nagysága: egy szakasz minél jobban az origó felé tart, annál inkább csökken az adat nagysága, és fordítva.
4.4 ÖSSZEFOGLALÁS Ebben a fejezetben a középértékek mérőszámait, az áltagos eltérést, ismerhette meg az olvasó, melyek a mért adatok tömörítését teszik lehetővé. Rámutatnak a mintában rejlő
40
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI összefüggésekre és különbségekre, és a gyakoriságok összehasonlításával összevethető a minták eloszlása. A grafikus ábrázolás lehetőségével az adott eljárással kapott eredmények vizuálisan is megjeleníthetőek, ezáltal a jellemzők szemléletesebbé válnak. 4.5 1. 2. 3. 4.
ÖNELLENŐRZŐ KÉRDÉSEK Elemezze a középérték-mutatókat és szerepüket a minta jellemzése céljából. Elemezze a gyakoriságot és a gyakorisági eloszlást a kutatás szempontjából. Foglalja össze az átlagos eltérés mérőszámait és azok értelmezését. Ismertesse a grafikus ábrázolás célját és lehetőségeit.
41
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
5. KORRELÁCIÓ, KORRELÁCIÓANALÍZIS 5.1 CÉLKITŰZÉS A kutató a feltáró vizsgálatok során keresi az összefüggéseket a változók között. A változók adatfajtája meghatározza az alkalmazható vizsgálati módszert. Abban az esetben, ha a változó az intervallum és az arányskálába tartozik az alkalmazható módszer a korreláció számításával elemezhető a változók közötti összefüggés. A korreláció és a korrelációs együttható értelmezése segít bizonyítani az összefüggés jellegét.
5.2 TARTALOM A korreláció értelmezése A korrelációs együttható A kovariancia A korrelációs együttható szignifikanciája Korrelációanalízis
5.3 A TANANYAG KIFEJTÉSE 5.3.1
A korreláció értelmezése
Kutatásaink során gyakori feladat, hogy egy-egy elem tulajdonságait, jellemzőit több adattal leírva, azok kapcsolatát, köztük lévő összefüggéseket kell elemezni. (pl a tanulók társadalmi helyzete, a különböző területen elért eredményessége, tanulási körülménye közötti kapcsolatot szeretnénk feltárni. A korrelációs együttható az egyik legismertebb kapcsolati mérőszám. Értéke azt mutatja, hogy a vizsgált két (X, Y) kvantitatív – legalább intervallum vagy arányskálájú – változó milyen lineáris kapcsolatban van egymással, milyen az együttjárásuk, együttmozgásuk. E két utóbbi kifejezés talán jobban rávilágít a korreláció lényegére, nevezetesen arra, hogy nem ok-okozati viszony méréséről, nem hatások, egymásra hatások feltérképezéséről van szó, hanem lineáris együttváltozásról. A gyakorlatban egyszerűen ez azt jelenti, hogy szoros együttjárás esetén nem helyes érvelés, hogy „X változó azért magas, mert Y is magas”. Y nem oka X-nek és X nem okozata Y változtatását. A kapcsolatvizsgálatok két kategóriába sorolhatók: lineáris és nemlineáris A lineáris regresszióvizsgálatok szintén tovább csoportosíthatók. A nemlineáris regresszióvizsgálatokat most ez a fejezet nem tér ki bővebben. A korrelációszámítást többdimenziós minták vizsgálatakor használják, mivel a minta elemeihez rendelt adatok közötti összefüggés feltárását szolgálja. Az egyszerűbb esetet feltételezve két változó adatai közötti kapcsolat elemzését foglalja össze a fejezet. Két mennyiségi ismérv közötti kapcsolat jellegére vonatkozóan a korrelációs együtthatót szükségszerű megadni. A korrelációs együttható két fontos tulajdonsága: független változók esetében a korrelációs együttható értéke 0,
42
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI míg függvénykapcsolatban lévő (nem sztochasztikus) változók esetében a korrelációs együttható értéke 1. Jellemző esetek: Két változó között minél szorosabb az összefüggés, annál inkább megközelíti a korrelációs együttható értéke az 1-t. Ha a minta két változója azonos irányban változik, abban az esetben pozitív, ha ellentétes irányban, akkor negatív a korrelációs összefüggés. Lineáris függvénykapcsolatban lévő (nem sztochasztikus) változók esetében a korrelációs együttható értéke 1. Minél lazább az összefüggés két változó között, annál közelebb van a korrelációs együttható értéke a 0-hoz. Független változók esetében a korrelációs együttható értéke = 0
5.4 A KORRELÁCIÓS EGYÜTTHATÓ A kapcsolat szorosságát, a függőség fokát mérnünk kell. Ennek mérésére a korrelációs együttható a leggyakrabban alkalmazott mérőszám. Sok jellemző tulajdonsága hasonló a szórás tulajdonságaihoz: A korrelációs együttható egy minta korreláltságának leírására szolgáló statisztikai mutató. A korrelációs együttható mint paraméter a populáció változói közötti kapcsolat erősségét határozza meg. Minél szorosabb (lineáris) összefüggés van két, véletlentől is függő változó között, annál közelebb áll a korrelációs együttható értéke az 1-hez. Fordítva, minél lazább az összefüggés két változó között, annál közelebb van a korrelációs együttható értéke a 0-hoz. Figyelem: Ha az együttható értéke 0, a két változó korrelációjának vizsgálata során az még nem jelenti biztosan, hogy ezek függetlenek is! Ezért ilyenkor csak annyit mondhatunk: a két változó korrelálatlan. Az egyszerű, közel lineáris sztochasztikus kapcsolat esetében használható statisztika a korreláció. Nem alkalmas egy bonyolultabb függvénygörbe mentén elhelyezkedő értékek kapcsolatának leírására a korrelációs együttható. 5.4.1
A kovariancia
A mennyiségi ismérvek közötti kapcsolat tényét és irányát az ún. kovariancia segítségével is kifejezhetjük. n
( xi C xy
x )( yi
y)
i 1
n
Kovariancia (c): A két változó együttmozgásáról tájékoztat (növekedés, csökkenés), de a szorosságáról nem. Ez az ismérvértékek együtt-mozgását kifejező fontos mérőszám kétváltozós elsőrendű centrális momentumnak tekinthető.
43
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 5.4.2
A lineáris korrelációs együttható
Amennyiben a két ismérv között lineáris kapcsolat áll fenn, (pontjai megközelítőleg egy képzeletbeli egyenesre esnek), akkor a képlettel definiált ún. lineáris korrelációs együttható segítségével számszerűsíthetjük a kapcsolat erősségét és irányát.
C xy
r
x
y
ahol: a kovarancia x az x minta statisztikai szórása y az y minta statisztikai szórása A lineáris korrelációs együttható abszolút értéke 1-nél nem nagyobb. A 0-hoz közeli értéke a kapcsolat lazaságára vagy éppen hiányára utal. Az r negatív értékéből a két mennyiségi ismérv ellentétes irányú változására, míg pozitív értékéből azonos irányú együttmozgására következtethetünk. Lineáris kapcsolat esetén a változók közötti kapcsolat szorosságának mérésére szolgál. A két változó közötti kovariancia (c) és a két változó szórásának hányadosából adódik. Lineáris korrelációs együttható (r) képlete: Cxy
n
x
xi
yi
y
i 1
r
C sx s y
n n
xi
x
i 1
n
yi
y
2
i 1
n 1 3.
2
n 1
táblázat: A korrelációs együttható értéke és a változók közötti kapcsolat erőssége
Korrelációs együttható értéke 0,9 – 1 0,75 – 0,9 0,5 – 0,75 0,25 – 0,5 0,0 – 0,25
Változók közötti kapcsolat Rendkívül szoros szoros érzékelhető laza Nincs kapcsolat
A korrelációs együttható a vizsgált populációt reprezentáló minták közötti kapcsolat erősségétre mutat. értéke a fentiek alapján -1 és +1 között mozoghat. az előjel a korreláció irányára utal, vagyis a független változók milyen irányba befolyásolja a függő változót. A korrelációs együttható abszolút értéke a kapcsolat erősségét mutatja a fenti táblázat alapján.
44
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 5.5 A KORRELÁCIÓS EGYÜTTHATÓ SZIGNIFIKANCIÁJA A korrelációs együttes szignifikancia vizsgálata megmutatja, hogy egy adott, többdimenziós minta esetén a változók között talált összefüggés mekkora valószínűséggel valódi és nem a véletlen műve. A mintához tartozó elemek szabadságfoka: szf=n-2 A feltételezett összefüggés általánosításához az szükséges, hogy a korrelációs együttható abszolút értéke nagyobb legyen, mint a 95%-os valószínűségi szinthez (adott szabadságfokon) tartozó érték. Abban az estben, ha 99% vagy 99,9%-os értéken végezzük az összevetést, a felfedett kapcsolat még nagyobb valószínűséggel általánosítható. 4.
táblázat: A korrelációs együttható esetei
rxy rtáblázat
a két minta korrelációs összefüggése az oszlopnak megfelelő valószínűséggel nem a véletlen műve, vagyis általánosítható
rxy rtáblázat
a korrelációs összefüggés mértékét nem lehet áltatlánosítani, vagyis a mintában észlelt kapcsolat a véletlen műve
Alkalmazása: A korrelációs együttható az egyszerű, közel lineáris stochasztikus kapcsolat esetében használható statisztikai mutató. A bonyolultabb függvénygörbe mentén elhelyezkedő értékek kapcsolatának leírására a korrelációs együttható nem alkalmas. Korrelációs együtthatók ábrázolása Ha a pontok nem fekszenek egy egyenes mentén, akkor azt mondjuk, hogy nincs korreláció közöttük (r=0), vagy gyenge korreláció van közöttük (r közel van 0-hoz). Ha a pontok egy egyenes mentén fekszenek, akkor r közel van +1-hez vagy -1-hez, ekkor azt mondjuk, hogy a két változó között szoros vagy magas korreláció van. Ha a pontok pontosan rajta vannak egy növekvő egyenesen, akkor r=1, ha pedig egy csökkenő egyenesen vannak pontosan rajta, akkor r=-1. Tegyük fel, hogy egy populáció vizsgálata során ki tudtuk számítani a populációbeli korrelációs együtthatót két változó közötti lineáris kapcsolat mérésére. Ha ez az együttható 0 lenne, azt mondhatnánk, hogy nincs korreláció a két változó között. Tehát, ha egy mintát vizsgálunk, akkor a mintából számított korrelációs együttható 0hoz közeli értéke arra enged következtetni, hogy nincs korreláció a két változó között. 0-tól távol eső (1-hez vagy -1-hez közeli) értékek pedig bizonyos korreláció meglétére engednek következtetni. A statisztikai szempontból el kell tudnunk dönteni, hogy r értéke elég messze van-e 0-tól ahhoz, hogy elég nagy biztonsággal állíthassuk, hogy valóban fennáll. Korreláció típusaihoz kapcsolódó vizsgálatok: Pearson-korreláció, a normális eloszlás, normalitásvizsgálat rangkorrelációs együtthatók (Kendall, Spearman) szám- és kategória-értékű változók kapcsolata (MannWhitney, Friedman statisztika)
45
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI maximál
korreláció,
kategória-értékű
változók
kvantifikációja
11. ábra: Kétoldalas – two tailed korreláció A korreláció vizsgálat során meghatározható, hogy a szélső értékeket a vizsgálatba be kell-e vonni. Mivel az eredmény akkor szignifikáns, ha a p < 0,05, ezért a vizsgálat során kijelölhető hogy a a minta szélső 2,5–2,5%-a vizsgálatra kerül-e.
12. ábra: Egyoldalas – one tailed korreláció Pearson-féle korrelációs együttható. (Karl Pearson, 1857-1936). Gyakori elnevezése szorzat momentum korrelációs együttható. Az együttható jele r és a mérések közötti lineáris kapcsolat szorosságát méri. Paraméteres korrelációs együttható, mértékegysége nincs.
46
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Spearman-féle és Kendall-féle rangkorrelációs együttható A Spearman-féle és Kendall-féle rangkorrelációs együttható két rangsor közötti egyezés mérőszámát adja, alkalmazása elsősorban nagyobb mintáknál ajánlott. Nem paraméteres korrelációs együttható, mely két változó közötti lineáris kapcsolat elemzésére alkalmas.
Parciális korrelációs együttható alkalmazása A többdimenziós minta változói közötti kapcsolat kimutatása a cél. A mérés során a függő és egy meghatározott független változó közötti korreláció mérését valósítjuk meg, úgy hogy minden más változót konstansnak tekintünk. 5.5.1
Korrelációanalízis
A korrelációanalízist több véletlen változó közötti kapcsolat erősségének elemzésére szolgál. A vizsgált változók száma kettőnél több, azonban a korreláció számítása páronként történik. A vizsgálat során feltételezett, hogy a valószínűségi változók (x, y,…) normális eloszlású, és a közöttük lévő lineáris összefüggés mértékét a korrelációs együttható mutatja, melynek jele r. A korrelációs együtthatók értéke , a határokat is beleértve -1 és +1 közé eshetnek. Abban az esetben, ha r pozitív, akkor y együtt növekszik vagyis együttjárás mutatható ki az x-szel, ellenkező esetben csökkenés. ha a korrelációs együttható (r) negatív ellentétes irányú a változás. Amennyiben az r értéke │1│, x és y között a kapcsolat függvényszerű, amelynél minden pont egy egyenesen helyezkedik el. Ha r=0 változók, ill. ismérvek korrelálatlanok.
5.6 ÖSSZEFOGLALÁS A fejezet rámutat arra, hogy az intervallum és arányskála típusú változók esetén a független és a függő változók közötti kapcsolat megléte és erőssége a korreláció számítás alkalmazásával mutatható ki. Ha kettőnél több változó kapcsolatát elemezzük, az eljárást korrelációanalízisnek nevezzük. 5.7
ÖNELLENŐRZŐ KÉRDÉSEK
1. Értelmezze a korrelációs együttható értéke és a változók közötti kapcsolat erősségét. 2. Értelmezze a korreláció fogalmát és mutasson rá ez egyoldalas- és kétoldalas korreláció-elemzés jellemzőire.
47
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
6. HIPOTÉZISVIZSGÁLAT. PARAMÉTERES PRÓBÁK, NEM PARAMÉTERES PRÓBÁK
6.1 CÉLKITŰZÉS A paraméteres próbák során a minták hipotéziseinek bizonyítása a T-próba vizsgálattal történik. Egymintás T-próbát akkor alkalmazzuk, ha az adatok ugyanazon csoport tagjaitól származnak, ezt önkontrollos mérésnek nevezzük. Abban az esetben, ha a mért adatok ugyanazon populáció más-más mintájától ered, kétmintás T-próbát kell végezni, melyet kontrollcsoportos vizsgálatnak nevezünk. Nem paraméteres próbák esetében a hipotézist kereszttábla elemzéssel vizsgáljuk.
6.2 TARTALOM Paraméteres és nem paraméteres próba jellemzői Egymintás T-próba Kétmintás T-próba F-próba
6.3 A TANANYAG KIFEJTÉSE A kutatás során feladat bizonyítani, hogy a függőváltozó eredményeit a véletlentényezők befolyásolták vagy nem. Meg kell különböztetni paraméteres és nem paraméteres próbát (xénia.sote.hu) Abban az esetben, ha bizonyítható, hogy az eredmények nem a véletlen műve a szignifikancia szint alapján általánosítható a populáció egészére. A két minta közötti különbség bizonyítását, a nullhipotézis elvetését a T-próba alkalmazásával végezzük. 6.3.1
Paraméteres és nem paraméteres próba jellemzői
Az intervallum és az arányskála mért adataiból az átlag, szórásnégyzet, szórás számolható és értelmezhető. Ennek alapján azokat a módszereket, amelyek ezen „származtatott paraméterek” matematikai logikai elméletén alapulnak, paraméteres módszereknek nevezzük (xenia.sote.hu). Jellemzői: Az eljárás feltételezi a vizsgált változó ismert eloszlását (általában normáleloszlás),és a hipotézis megfogalmazása során a kutató az adott eloszlás valamelyik paraméteréről állít valamit Előnye: elméleti háttere ismert, feltételeik teljesülése esetén erejük nagy Hátránya: elméletileg megkövetelt a változók eloszlása és mérési szintje Nominális mérési szintű változók esetén nem használható Ordinális változók esetén, korlátozásokkal alkalmazható, ha nem áll rendelkezésre megfelelő nem-paraméteres próba. A nominális és ordinális skálákon nincs értelme az átlagot, szórásnégyzet, szórás értelmezésének. Azokat a módszereket, amelyeknek nem feltétele, hogy az adatokból átlag és
48
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI szórás számolható, értelmezhető legyen, nem-paraméteres módszereknek nevezik. Jellemzői: Nem szükséges a populáció paramétereinek (pl. átlag) becslése. A vizsgált változó nem kell, hogy elméleti eloszlást kövessen. Előnyei: alkalmazása kevesebb feltételhez kötött, így annak esélye hogy alkalmazása hiba, kisebb. Alkalmazható nominális és ordinális változókon. Hátrányai: ereje kisebb, mint a paraméteres megfelelőinek (a feltételek teljesülése esetén), nem jelentős a különbség (kb. 5%). Több esetben a parametrikus tesztnek nincs meg a nem-parametrikus megfelelője, elsősorban az elméleti háttér bonyolultabb volta miatt. Ezek tipikus esetei: A 2-próba Mann–Whitney-próba (U-próba) hasonló esetekben használható, mint a független T-próba. Alkalmazása során az eljárás a függő változó kategóriáinak abszolút értékei helyett a helyezési sorrendből (rang, rank of cases) indul ki. 5.
táblázat: Eljárások alkalmazása
Feladat
Paraméteres
Nem-paraméteres
Átlagok összehasonlítása
Egymintás T-próba Kétmintás T-próba
Szórásnégyzetek összehasonlítása
Varianciaanalízis
2-próba Mann–Whitney-próba Wilcoxon-próba Kruskal–Wallis-próba
6.3.2
Egymintás T-próba
A T-próbák alkalmazásának feltétele A T-próba két minta megállapítható tulajdonságai közötti különbség szignifikanciájának számszerűsítését szolgálja. A szórás értelmezése alapján a számtani középértéktől két szórásterjedelmét értelmezve, a kapott értéktartomány az elemek 96%-át magába foglalja és a T-próba alapját képezi a vizsgált minta számának figyelembevételével. A vizsgálat annál megbízhatóbb és pontosabb, minél nagyobb a vizsgált minta száma. Ha a vizsgált minták számtani középértékének különbsége nagyobb, mint azok eloszlás szórásainak kétszerese, akkor a vizsgált minták számtani középérték közötti különbsége szignifikáns. 6.3.3
Egymintás T-próba alkalmazási feltételei Az egymintás T-próbát akkor kell alkalmazni, ha a mérési eredmények ugyanazon személyek különböző felméréséből származnak, vagyis önkontrollos felmérések során.
49
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Példa az egymintás T-próba alkalmazására: Szakmai továbbképzés során, a kurzus elején a hallgatók kiindulási ismeretének diagnosztizálása céljából felmérő tesztelést célszerű végezni. A hipotézis természetesen a tananyag eredményes elsajátítását feltételezi. A kurzuson célszerű folyamatosan figyelni, hogy a hallgatók lépést tudnak-e tartani a tananyag elsajátításával. Tehát célszerű a továbbképzés közben és a végén felmérő teszttel meggyőződni tudásukról. Ebben az esetben a kitöltött tesztek eredményei közötti különbségek szignifikanciaszintjének meghatározása az egymintás T-próba alapján történik. A számolás menete a következő összefüggés alapján történik:
z s
t'
n
ahol: t az egymintás T-próba értékét jelöli, z az utómérés (y) és az előmérés eredményeinek különbsége:
zi=yi-xi A „z” számtani középértékét az alábbi módon határozható meg: n
( yi z
xi )
i 1
n
A különbségértékek szórása az alábbi képlet alapján történik: n
(z s
zi ) 2
i 1
n 1
A fentiekben bemutatott egymintás T-próba kiszámításához tekintsük át az alábbi felmérést tartalmazó táblázatot, mely a szakképzések során alkalmazott számítógéppel segített tanulás eredményességét méri. A táblázatban bemutatott eredmények alapja az oktatás elején és a végén kitöltött felmérő teszt részeredményei (önkontrollos felmérés).
6.
xi 0 2 0 0 0 0 50
yi 34 32 32 32 33 32
zi=yi-xi 34 30 32 32 33 32
táblázat A példa adattáblázata
z-zi -3,3 0,7 -1,3 -1,3 -2,3 -1,3
(z-zi)2 10,89 0,49 1,69 1,69 5,29 1,69
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 0 0 0 0 0 0 0 0 0 2 0 0 0 0
26 33 27 27 32 34 30 23 31 36 33 31 31 29
26 33 27 27 32 34 30 23 31 34 33 31 31 29
4,7 -2,3 3,7 3,7 -1,3 -3,3 0,7 7,7 -0,3 -3,3 -2,3 -0,3 -0,3 1,7
22,09 5,29 13,69 13,69 1,69 10,89 0,49 59,29 0,09 10,89 5,29 0,09 0,09 2,89 2
n
z
(z
z i 614
zi )
168,2
i 1
i 1
A továbbiakban a fenti képletek alapján a számítás menete: 20
( yi
xi )
i 1
z
n
614 20
30,7
n
zi ) 2
(z i 1
s
n 1
t'
z s
n
30,7 2,37
168,2 19
20
2,97
57,9
Az egymintás T-próba értékének szignifikancia vizsgálata során a következtetéseket nemcsak a mintára, hanem a minta által reprezentált populációra vonjuk le az eredmények alapján. A legalább 95%-os valószínűségi szint esetén, az állítás alapján, ha a két különböző számolt számtani középérték között a kapcsolat szignifikáns, a kapott eredmények ennek következtében nem a véletlen művei. Az egymintás T-próba szabadságfoka a minta számánál eggyel csökkentett értéke, vagyis: szf=n-1 A statisztikai könyvekben t eloszlás valószínűségi szintjeinek táblázata (Falus I, Ollé J., 2006. 336 o.) tartalmazza a minta szabadságfokának megfelelő sorban és a kívánt valószínűségi szintet figyelembe vett oszlopban a ttáblázat értékeit.
51
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
7.
Szabadságfok szf 19
táblázat: A mintafeladat eredményei (egymintás T-próba)
90% p=0,10 1,729
95% p=0,05 2,093
99% p=0,01 2,861
99,9% p=0,001 3,883
A vizsgálat során a számított t-értéket összehasonlítva a ttáblázat értékével: Ha t’ > ttáblázat a különbség nem a véletlen műve, Ha t’ < ttáblázat a különbség a véletlen műve A bemutatott minta alapján a táblázatból kiolvasható, hogy a ttáblázat < t’, mivel a számolt érték 57,9 lett amely jóval nagyobb a táblázat 99,9% valószínűségi értékét figyelembe véve is. Tehát ennek alapján megállapíthatjuk, hogy a számítógéppel segített továbbképzés eredményességét. 6.3.4
Kétmintás T-próba és az F-próba
A kétmintás T-próbát akkor alkalmazzuk, ha arra keresünk választ, hogy a két egymástól függetlenül vett minta származhat-e azonos átlagú populációból. Két különböző minta, a kontrollcsoportos felmérés esetében alkalmazzuk, annak bizonyítására, hogy a két csoport teljesítménybeli különbsége nem a véletlen műve. A kétmintás T-próba azonban csak akkor végezhető el, ha a két csoport variancia értékei között nincs „nagy” különbség, melyre az F-próba vizsgálat ad választ a variancianégyzetek hányadosának elemzéssel.
Az F-próba Az F-próba a variancia négyzetek hányadosa, melynek képlete:
F
s12 s22
A fenti képlettel kontrollcsoportos vizsgálat során egy n1 és n2 elemű minta esetében alkalmazható a hipotézis igazolására, melynek szórásértékei s1 és s2 ahol, s1 > s2. A számított F értéket a 2. sz. táblázat értékeivel összevetve, a következő lehetőségekkel kell számolnunk: Ha Fszámolt>Ftáblázat, akkor a vizsgálatban résztvevő minták varianciája lényegesen különbözik egymástól, a kétmintás T-próba elvégzésére nincs lehetőség. Ebben az esetben más módszert kell keresni, pl. a Welchpróbát (hasonló mint a kétmintás T-próba, de nem követeli meg a varianciák egyenlőségét). Ha Fszámolt
52
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A kétmintás T-próba számítása A számolás menetének számszerűsítése a következő összefüggés alapján történik:
x
t
n
y m
(x
xi ) 2
i 1
y) 2
(y i 1
n m 2
n m n m
A szignifikanciavizsgálat szabadságfoka szf = n+m-2. A kapott eredmény alapján értékelhetjük a vizsgált minták által elért teljesítményt. A kétmintás T-próba kiszámításához példaként tekintsük át az alábbi felmérést tartalmazó táblázatot, mely a számítógéppel segített tanulás megkezdésekor és a végén kitöltött felmérő teszt részeredményei alapján készült, kontrollcsoportos felméréssel: 8.
xi
2 7 2 13 6 4 0 3 3 3 9 2 9 0 0 13 9 5 0 11 x 5,05
(x 3,05 -1,95 3,05 -7,95 -0,95 1,05 5,05 2,05 2,05 2,05 -3,95 3,05 -3,95 5,05 5,05 -7,95 -3,95 0,05 5,05 -5,95
xi )
(x
xi ) 2
9,30 3,80 9,30 63,20 0,90 1,10 25,50 4,20 4,20 4,20 15,60 9,30 15,60 25,50 25,50 63,20 15,60 0,00 25,50 35,40
yi 34 32 32 32 33 32 26 33 27 27 32 34 30 23 31 36 33 31 31 29
(y
-3,1 -1,1 -1,1 -1,1 -2,1 -1,1 4,9 -2,1 3,9 3,9 -1,1 -3,1 0,9 7,9 -0,1 -5,1 -2,1 -0,1 -0,1 1,9
n
táblázat A mintafelmérés adatai
yi )
(y
9,61 1,21 1,21 1,21 4,41 1,21 24,01 4,41 15,21 15,21 1,21 9,61 0,81 62,41 0,01 26,01 4,41 0,01 0,01 3,61 m
y i 618 i 1
yi ) 2
(y
yi ) 2 185,8
i 1
53
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
s12 s 22
F
357,0 185,8
1,9214
Ftáblázat = 2,14 Mivel az F < Ftáblázat, a vizsgált minták varianciája nem különbözik egymástól lényegesen, tehát a vizsgálatot a kétmintás T-próba segítségével folytathatjuk az alábbiak szerint:
x
t
n
y
30,9 5,05
m
(x
xi ) 2
i 1
y) 2
(y i 1
n m 2
618 185 20 20 20 20 2 20 20
n m n m
5,6
Összehasonlítva a számolt értéket t'' értékét az alábbi táblázat szf=20+20-2=38 szabadságfokhoz tartozó értékkel, megállapítható, hogy még 99%-os valószínűségi szintnél is
t '' 9.
.
táblázat: A mintafeladat eredményei (kétmintás T-próba)
Szabadságfok szf
30 40
t számolt
90% p=0,1
1,679 1,684
95% p=0,05
2,042 2,021
99% p=0,01
2,750 2,704
Ennek alapján megfogalmazható, hogy az alkalmazott számítógéppel támogatott oktatás az adott képzésben eredményesebb volt a kontroll csoport résztvevőihez viszonyítva.
6.4 KHI NÉGYZET PRÓBA Alkalmazásának feltétele, hogy ismert legyen a minta elemeinek gyakorisága. A paraméteres és a nem paraméteres mintákban is a vizsgálat elvégezhető, melynek eloszlása lehet normál és nem normál. A khi-négyzet ( 2) eljárás feltétele a nagy elemszám. A khi-négyzet eljárás alkalmas több adatsor közötti összefüggés elemzésére. Ezt a statisztikát annak ellenőrzésére és bizonyítására alkalmazzuk, hogy a hipotézis megfogalmazása alapján bizonyítsuk, hogy a sor és oszlopváltozók függetlenek. Nem jól használható, ha bármelyik cellában a peremeloszlások alapján várható érték (expected value) kisebb 1-nél, vagy a cellák több mint 20%-ban ez az érték kisebb mint 5. Az eljárást elemzés bemutatását a 9.3.3. fejezetben tanulmányozhatja.
6.5 A MANN–WHITNEY-PRÓBA, WILCOXON-PRÓBA, KRUSKAL–WALLISPRÓBA ÉRTELMEZÉSE
Mann–Whitney-próba a független minták összehasonlítását szolgáló eljárás. A két mintát együtt rangsorolva, a két rangszámösszeg közel azonos értéke a nullhipotézis beigazolását jelenti.
54
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Wilcoxon előjeles rangpróba: két, összetartozó minta vizsgálata során alkalmazott előjelpróbája, ha a nullhipotézis a két minta eloszlásának megegyezését feltételezi. az egyszerű eljárást a gyors tájékozódásra használják a vizsgálat során. Az eljárás a két minta negatív és pozitív különbségeinek eloszlását vizsgálja. A nullhipotézis igazolása esetén a különbség eloszlás szimmetrikus. Kruskal–Wallis-próba az eljárás 3, vagy több mintaelemzésére alkalmas módszer. A vizsgálat feltételei: a mintavétel véletlen volta, a minták függetlensége és legalább ordinális változók megléte. Rangtranszformációs eljárásnak is nevezik, mivel a minták egyesítését követően a rangszámok meghatározását kell elvégezni, majd azokat az eredeti csoportok alapján csoportosítani. A transzformált értékek átlag rangjából vonható le a hipotézisre vonatkozó következtetés.
6.6 ÖSSZEFOGLALÁS Ebben a tananyagrészben az olvasó megismerkedhetett a paraméteres és nemparaméteres próba jellemzőivel. A paraméteres minták a kétmintás önkontrollos és a kontrollcsoportos hipotézis vizsgálattal, melynek eredményekén bizonyítható, hogy a kapott eredmények a véletlen vagy nem véletlen műve. a szignifikancia vizsgálat a minta eredményei alapján a populációra történő általánosíthatóság kérdését mutatja. A nem-paraméteres minták a khi-négyzet 2 és a Mann–Whitney-próba, Wilcoxon-próba, Kruskal–Wallispróba alkalmazásával elemezhetőek. Abban az esetben, ha kettőnél több mintát kell vizsgálni a variaanalízist kell alkalmazni. 6.7
ÖNELLENŐRZŐ KÉRDÉSEK
1. Ismertesse a paraméteres és nem paraméteres próba jellemzőit. 2. Az egymintás és kétmintás T-próba alkalmazásának feltétele és az eljárás lényege.
55
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
7. VARIANCIABECSLÉS, REGRESSZIÓ ANALÍZIS, KLASZTERANALÍZIS, FAKTORANALÍZIS
7.1 CÉLKITŰZÉS Kettőnél többcsoportos kísérlet vizsgálatánál alkalmazzuk varianciaanalízist. A fejezet a többváltozós populációk statisztikai elemzési módszerével ismerteti meg három alfejezetben az olvasót, az alábbiakban felsoroltak alapján: faktoranalízis diszkriminancia analízis főkomponens analízis klaszteranalízis A tananyag tanulmányozása segíti Önt abban, hogy a többváltozós populációk hogyan elemezhetőek. A háttérváltozók és a közöttük meglévő kapcsolatok feltárását és a jelenségek magyarázatát biztosító statisztikai módszer.
7.2 TARTALOM Varianciaanalízis A több egydimenziós minta vizsgálat összehasonlítása Egyutas osztályozás vagy egytényezős varianciaanalízis Kétutas osztályozás vagy kéttényezős varianciaanalízis Kétutas osztályozás vagy kéttényezős varianciaanalízis ismétléssel Többváltozós populációk statisztikai elemzései Diszkriminancia analízis Főkomponensanalízis Klaszteranalízis Faktoranalízis
7.3 A TANANYAG KIFEJTÉSE Kettőnél több egydimenziós minta vizsgálata során alkalmazott eljárás a varianalízis. Abban az esetben, ha a megfigyelt változók száma magas a faktoranalízissel „csökkenthető” vagyis helyesebben változók összevonása valósítható meg az eljárással. Különböző kutatási koncepciók kidolgozása során a klaszteranalízis ad lehetőséget átfedés mentes csoportosításra.
7.3.1
Varianciaanalízis
A varianciaanalízist más szóval szórásanalízisnek nevezzük. Kettőnél többcsoportos kísérlet vizsgálatánál alkalmazzuk, több minta szórás négyzetének összehasonlításán alapuló statisztikai eljárás. Feladat annak eldöntése, hogy van-e szignifikáns eltérés a mintaátlagok között, miközben feltételeztük, hogy azonos varianciából vettük a mintákat. Ezekben az esetekben a nullhipotézis vizsgálatára kerül sor, melynek igazsága esetén a mintaátlagok egyenlők.
56
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Ezekben az esetekben kettőnél több egydimenziós minta elemeinek tulajdonságát mérő változók állnak rendelkezésre. Az elemzés során a váltózók közötti különbözőség statisztikai kimutatása, a szignifikanciaszint vizsgálatával, a kétmintás T-próba számításával történik. Ennek során minden minta minden mintával való összehasonlításához, az összes változó közötti kapcsolatot felméréséhez, sokszor kell a műveletet elvégezni. Varianciaanalízisnek nevezzük azt a statisztikai eljárást, mely több egydimenziós minta ugyanazon változója közötti különbség szignifikancia szintjének összehasonlítását teszi lehetővé. Gyakorlatilag azt jelenti ez a statisztikai összehasonlítás, mintha kettős T-próbát minden mintát minden mintájával végeznénk el, amely végtelen sok számítási feladatot jelenthet (Spiegel, 1995). Az – n minta – statisztikai elemzésére a kétmintás T-próba nem alkalmas szignifikáns különbségek feltárására a fenti indokok alapján, ezért más utat kell keresni az eredményes és gyors vizsgálat biztosítására. A vizsgálat célja: az összes változó közötti kapcsolat feltárása. 7.3.2
A több egydimenziós minta vizsgálat összehasonlítása
Feltételezzük, hogy a minták ugyanabból a populációból erednek, vagyis ugyanazt a populációt reprezentálják. Ennek alapján kell megfogalmazni a nullhipotézis meglétét. Két egymástól független módon megbecsüljük a varianciát, majd megállapítjuk, hogy létezik-e az adott populáció. Ha: Nincs lényeges különbség, létezik a képzelt populáció. Ebben az esetben a vizsgált minták reprezentálják a populációt. Következtetésként megállapítható, hogy a nullhipotézis elfogadható és a vizsgált csoport eredményei között nincs szignifikáns különbség. A paraméterek összevetésének eredményeként kapott lényeges szignifikáns különbség arra mutat, hogy a több egydimenziós minta nem létezik, nem származhatnak ugyanabból a populációból. A vizsgált minták tulajdonságai lényegesen különböznek, elvetjük a Ho meglétét.
Az eredmény értékelése Során, ha a belső varianciák között nincs lényeges különbség, akkor az eltérés az egyedi különbözőségekből fakadnak. Abban az esetben, ha a külső variancia lényegesen nagyobb a belső varianciánál, akkor a különbségek a minták között jelennek meg. A mintákat érő hatások nagyobbak, mint az egyéni különbségek.
A populáció vizsgálata A több minta vizsgálatának esetében feltételezzük, hogy a vizsgált minták ugyanabból a populációból származnak
57
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A hipotézisek: H0: a különböző minták minta ugyanabból a populációból származnak, ezáltal minden, a vizsgálatban szereplő minta ugyanazt a populációt reprezentálja. H1: legalább egy minta nem ugyanabból a populációból származik. Az elemzés során meg kell határozni a populáció varianciáját két, egymástól független módszerrel. A mérések számszerűsítéséhez szükség van az adatok egységes és egyértelmű jelölésére. A vizsgált minta jelölésére xij alkalmas, pl. x 5,7 amely a hetedik minta ötödik elemét jelenti. Ennek alapján: x: a minta eleme i: adott elem sorszáma az adott mintában j: az adott elemet tartalmazó minta sorszáma n: a minta elemszáma nj: a minta sorszáma N: a minták összelemszáma h: a minták száma xij: a j-ik minta i-ik eleme Alapelv: ha a nullhipotézis igaz, akkor minden minta varianciája ugyanazt az elméleti varianciát, s2 –t becsli. Ezt, mivel több minta van, két különböző, független statisztikai eljárással becsüljük. Először a mintákon belüli varianciákból becsüljük az összvarianciát. Másodszor a mintaátlagok becsült varianciájából, mely egyenlő az összvariancia n-ed részével, ha minden minta n elemű
átlag var iancia
össz var iancia n
(Ha a minta elemszámai különböznek, akkor kicsit bonyolultabb a becslés képlete, de az elv ugyanaz.) A vizsgálat feltételei: a minták függetlensége, normális eloszlású alappopuláció, a varianciák homogenitása (a minták által becsült variancia ugyanannak a varianciának a becslése).
A többmintás elemzés, varinciaanalízis A nullhipotézis vizsgálatának menete több egydimenziós minta vizsgálat összehasonlítása esetén variaanalízissel valósítható meg. A populációt kétféle varianciával jellemezhetjük: Belső variancia kiszámítása azon a feltételezésen alapul, hogy a minták között nincsen lényeges különbség vagy az a minták elemei közötti eltérésekből fakad. Külső variancia kiszámítása azon a feltételezésen alapul, hogy az eltérések az eltérő minták között vannak.
58
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Mintákon belüli variancia (belső variancia) A csoporton belüli variancia a minta-elemek csoportátlaguktól való eltérésének négyzetösszege Belső variancia a mintaelemek adott minták eloszlása alapján a populációra meghatározott variancia (szórásnégyzet) értéke. h
nj
xij ) 2
(x j sb2
j 1 i 1
N h
A mintákon belüli szóródások jellemzése a az adott minta varianciája alapján történik, ahol a szabadságfok az összelemszám és a minta különbsége. Összefoglalva a műveletek folyamatát: Minden minta számtani középérték meghatározása A számtani középérték ismeretében a négyzetes összeg meghatározása (a minta minden egyes elemének az átlagtól való eltérés négyzetének összege). A négyzetes összegek összegzésének osztása szabadságfokkal (összes vizsgált személyek számának és a minták számának különbsége)
Minták közötti variancia (külső variancia) Meghatározzuk a főátlagot, x -t, és a mintaelemeket a mintaátlaggal helyettesítjük: A külső, vagy más szóval a minták közötti variancia a minták egymáshoz viszonyított eltérései alapján meghatározott érték. Jele:
s k2
. h
n j (x x j )2 j 1
s k2
h 1
ahol:
x - az egyes minták súlyozott számtani középértéke, más szóval a főátlag. A súlyozott számtani középérték meghatározásához a minta összelemszámából meghatározott számtani középérték, melyet az alábbi képlet alapján számoljuk ki. h
nj
xij x
j 1 i 1
N
Minták közötti variancia (külső variancia) kiszámításának lépései Az egyes minták számtani középértékének meghatározása
59
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A összelemszámot tartalmazó minta számtani középértékének meghatározása. Az összelemszámot tartalmazó minta középértékének és az adott minták számtani középértékének különbségét négyzetre kell emelni. Az előző lépés négyzeteit szorozzuk meg az adott minta elemszámával, az eredményeket összegezzük. Az összeget osszuk el az összminta eggyel csökkentett értékével, mely a külső variancia értékét adja
A hipotézis vizsgálata F-próbával a kapott eredmények alapján Az előzőekben bemutatott belső és külső variancia származtatási útja egymástól független. A belső variancia a vizsgált minták varianciáinak középértékének tekinthető. A külső variancia az egymástól külön vizsgált minták súlyozott számtani középértékéből képezett variancia. A több egydimenziós minta középérték közötti különbözőséget a minták középértékei közötti különbözőségek szignifikanciája határozza meg. Ha a varianciák szignifikánsan különböznek, azaz nem a véletlennek köszönhetőek, abban az esetben a vizsgált minták lényegesen eltérnek egymástól. Ha a varianciák nem szignifikánsan különböznek egymástól, a vizsgált minták sem különböznek egymástól jelentősen. Az F-próba kiszámítás a következő képlet szerint történik, az adott szabadságfokok figyelembevételével (szfk=h-1, és szb=N-h):
F
s k2 sb2
A számított értéket össze kell hasonlítani az F-eloszlás táblázatában lévő értékkel a vizsgálatban meghatározott valószínűségi szinten. Azt összehasonlítás esetei: Abban az esetben, ha F számolt értéke kisebb, mint a táblázat értékével: F
Ftáblázat, a két variancia (belső és külső), különbözik egymástól. Az eredmények szignifikánsan különböznek és ennek következtében nem létezhet olyan populáció, amelyet a vizsgálat mintái egy időben reprezentálnak. 7.3.3
Egyutas osztályozás vagy egytényezős varianciaanalízis Egytényezősnek nevezzük azt kísérletet, ha „j” számú független minta áll a vizsgálat rendelkezésére és minden mintában „n” számú mérés vagy megfigyelés van.
60
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 10.
61
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
11. táblázat: Egytényezős varianciaanalízis összesített adatait (Spiegel, 1995)
x11 x21, ……x j 1 x 12, x22,…..xi2 ….. X1j, x2j,…....xij
1. minta 2 minta … j minta
x1 x2 … xj
A fenti táblázat sora a populáció minta sorszámát jelöli(j), a minta elemszámának feltüntetésével.(i). Az xij, a j-ik minta a számtani közepétől, x (sokasági átlag) egy véletlen hibával tér el, melynek jele: ij . A minta átlaga: k
1 j
xj
xkj k 1
A teljes négyzetösszeg:
V
NÖ
x)2
( x jk j ,k
Ahol:
x j ,k
x
( x j ,k
x j ) (x j
x)
A mintán belüli négyzetösszeg nem más, mint az xjk-nak az ž átlagoktól vett eltérés négyzetösszege:
Vb
NÖb
x j )2
( x jk jk
A minták közötti négyzetösszeg
Vk
xj
átlagoknak a főátlagtól való eltérése:
NÖk
x)2
(x j
b
jk
NÖ
j
NÖk
NÖb
A populáció főátlaga
x A fentiek figyelembevételével:
62
(x j
1 j i
a
b
x jk j 1 i 1
x)2
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
xij
x
jk
Feltételezzük az εjk a hibatagok normális eloszlású, zérus átlagú, s2 varianciájú (szórásnégyzet) változók. A minták összelemszámából képzett átlag x és a adott minta átlag x különbségére felírva
i
x
x melyből kifejezhető: x =x +
i
,
A fenti képletek alapján:
xij
x
jk
i
,
Melynek alapján feltételezhető, hogy az εjk normális eloszlású változó, melynek átlaga zérus, a varianciája s2, ebből arra a következtetésre juthatunk, hogy xij is normális eloszlású
x átlagú és s2 varianciájú valószínűségi változó. Ebben az esetben a nullhipotézis megfogalmazza, hogy az összes mintavétel átlaga egyenlő, vagyis Ho hipotézis vizsgálata során
0 , ahol j=1,2,3,4,5,…h és ezzel ekvivalens, x
i
x , ahol j=1,2,3,…h
Ha Ho igaz, akkor a mintavételezés során vizsgált minden független minta is normális eloszlású, melyek átlaga és varianciája azonos. Így csak egy vizsgálati mintáról beszélhetünk, más szóval nincs szignifikáns eltérés a minták között. Ha Ho nem igaz, elemezzük
Fsz
sB
2
sK
2
12. táblázat: Az egy utas osztályozás vagy egytényezős varianciaanalízis össze-
foglaló táblázata (Spiegel, 1995) Négyzetösszeg
Szabadságfok
Mintavételek közötti: külső variancia
a 1
Vk
b
(x j
Átlagos négyzetösszeg
s k2
x)2
j
Mintavételen belüli : belső variancia
Vb
a (b 1)
V Vk
s
2 b
Vk a 1
F
s k2 sb2 a 1 és a (b 1)
Vb a (b 1)
szabadságfokkal
Teljes:
a b 1
63
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
V
Vb
Vk
( x j ,k
x)
2
j ,k
Megjegyzendő, hogy a teljes négyzetösszeg szabadságfoka megegyezik a mintavételen belüli és a mintavételek közötti négyzetösszegek szabadságfokainak összegével. 7.3.4
Kétutas osztályozás vagy kéttényezős varianciaanalízis
Kéttényezősnek nevezzük azt a kísérletet, ha „j” számú független minta áll a vizsgálat rendelkezésére és minden mintában b számú blokkból álló kísérletet végeznek és minden egyes mintához és blokkhoz egyetlen kísérleti érték rendelhető. 13. táblázat: Az egytényezős variaanalízis adatait (Spiegel, 1995)
Blokk
1
…
2
b
1. kísérlet
x11
x 21
…
x b1
x1
2. kísérlet
x12
x 22
…
xb 2
x2
… a. kísérlet
… x1a
… x2a
… …
… xba
… xa
x1
x2
…
xb
Az összminta négyzetösszege:
V
VE
VK
VC
ahol: VE: a hiba négyzetösszege VR: a sorok négyzetösszege VC: az oszlopok négyzetösszege A kétutas osztályozása matematikai modellje: x
j
k
j ,k
ahol: i
Ebben az estben a populáció főátlaga
0
és
k
x,
j
0
az x j ,k azon része, amely a különbö-
ző minta kísérleti eredményeinek, a blokkoknak, tulajdoníthatóak, más néven blokkhatásnak nevezzük.
64
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Feltételezzük, hogy
j, k
normális eloszlású valószínűségi változó, melynek átlaga zé-
rus és variancia négyzete s 2 . Az egytényezős variaanalízis hipotézisei: H 01 : minden minta átlaga egyenlő.
H 02 :
0 és j = 1…
j
minden blokk – oszlopátlaga egyenlő.
k
1 és k = 1…b
s R2 , mely a 1 és (a 1) (b 1) szas E2
H 01 nullhipotézis teljesülése esetén az F badságfokú eloszlást követel.
sC2 s E2
H 02 nullhipotézis teljesülése esetén F
függvény
2 s oszlop 2 s hiba
, mely b 1 és
(a 1) (b 1) szabadságfokú eloszlást követel. 14. táblázat: A kétutas osztályozás vagy kéttényezős varianciaanalízis
összefoglalása (Spiegel, 1995) Négyzetösszeg
Szabadságfok
Átlagos négyzetösszeg
Minták közötti variancia
VR
b
( xk
x)
2
s R2
a 1
VR a 1
j
F
s R2 s E2 a 1 és (a 1) (b 1) szabadságfokkal
Blokkok közötti variancia
Vc
a
s c2
b 1
x)2
( xk
VC b 1
k
sC2 s E2 b 1 és (a 1) (b 1) szabadságfokkal
Maradék vagy véletlen variancia
VE
(a 1) (b 1)
V VR VC
s E2
VE (a 1) (b 1)
Teljes:
V
VR
VC
( x j ,k
VE x)
a b 1
2
j ,k
7.3.5
Kétutas osztályozás vagy kéttényezős varianciaanalízis ismétléssel Kéttényezős varianciaanalízis ismétléssel nevezzük azt a kísérletet, ha „j” számú független minta áll a vizsgálat rendelkezésére és
65
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI minden mintában b számú blokkból álló kísérletet végeznek és minden egyes kísérlethez és blokkhoz csak egy adatot rendelünk. Minden egyes mintához és blokkhoz csak egy-egy adatot rendelünk. Gyakorlati tapasztalat, hogy vannak esetek, amikor több információt nyerhetünk a tényezőkről azáltal, hogy a kísérleteket megismételjük. Ebben az esetben egy-egy mintához és blokkhoz több adat is tartozik. Az ismétlések miatt a módosított modell:
x j , k ,l
j
k
j ,k
j , k ,l
ahol:
x j , k ,l :
j,k,l indexek (sor: j, oszlop: k, ismétlés: l)
: átlag ( x ) j
: sorátlag, más szóval a minta hatása
k
: blokkátlag, más szóval a blokkok átlaga :
véletlen vagy hibatag
:
sor-oszlop (minta-blokk) kölcsönhatás
j , k ,l j, k
Korlátozó feltétel: 0, j k j
0,
j ,k j
k
0,
j ,k
0
k
x j ,k ,l – feltételezzük, hogy normális eloszlású, s 2 varianciájú valószínűségi változó V – teljes négyzetösszeg:
V
VR VC VI
VE
ahol V R – sor-, VC – oszlop-, V I – kölcsönhatás-, V E – hiba négyzetösszege.
7.3.6
Többváltozós populációk statisztikai elemzései
Diszkriminanciaanalízis A diszkriminancia analízis két vagy több osztály egyszerre több mennyiségi változó egyidejű figyelembevételével történő szétválasztására alkalmas módszer. Az alkalmazás előfeltétele, hogy az objektumokat valamilyen tulajdonságaik alapján már előre osztályokba soroljuk. Tehát ismernünk kell az osztályokat, amelyeket éppen ez az osztályozó változó jelöl ki. A diszkriminanciaanalízis a megfigyeléseink osztályozásának egy lehetséges módszere, mely feltételezi, hogy az adatállományban legyen egy diszkrét, ún. osztályozó változó, és egy vagy több kvantitatív változó. A cél annak eldöntése, hogy ha a megadott kvantitatív változók alapján kell osztályokba sorolni a megfigyeléseket, akkor mennyire kapjuk vissza az eredeti osztályokat, azaz mennyire különböztetik meg (idegen szóval diszkriminálják) a kvantitatív változóink az egyes osztályokat.
66
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A diszkriminanciaanalízis módszerei: a paraméteres és a nem paraméteres elemzés. A paraméteres esetben feltételezzük, hogy a változók együttes eloszlása többdimenziós normális, legfeljebb csak a kovariancia mátrix tér el az egyes osztályok szerint. A nem paraméteres esetben már a változók normalitása sem áll fenn. A továbbiakban, és a példákban is, a paraméteres diszkriminálással foglalkozunk.
Az osztályok közötti és az osztályokon belüli kovariancia mátrix értelmezése A szórásanalízis mintájára a teljes (minta) kovariancia korrelációs mátrixot fel lehet bontani két részre: az első rész az osztályok közötti a második pedig az osztályokon belüli függőségi viszonyokat írja. Minél nagyobb a teljes kovariancia mátrixon belül az osztályok közötti kovariancia mátrix aránya, annál jobban tudunk diszkriminálni. További kovariancia (korrelációs) mátrixok alapján kiszámolhatjuk az egyes osztályokhoz tartozó kovariancia (korrelációs) mátrixot is. Az analízis szempontjából fontos ezek megegyezősége. Ha az egyes osztályok kovariancia struktúrája megegyezik (nem nagyon tér el egymástól), akkor lineáris diszkriminálást kell végeznünk, azaz ekkor a diszkriminálási szabály egy lineáris függvény. Ellenkező esetben pedig a kvadratikus diszkriminálást kell végrehajtanunk. Az egyezőség (homogenitást) a chi-négyzet próbával tesztelhető. Ezzel a vizsgálattal arra keresünk választ, hogy a megfigyelt gyakoriságok szignifikánsan különböznek-e a várható gyakoriságtól. Chi-négyzet próba: a megfigyelt és az elméleti gyakoriságok között fennálló eltérés mértékét határozza meg. Jele:
2
.
Tételezzük fel, hogy az E1, E2, E3, …En események halmazából vett mintavételezés során a vizsgált esemény (fej vagy írás) gyakoriságai g1,g2,g3,…gn fordulnak elő, ezzel párhuzamosan végzett számítások az e1, e2, e3,…en gyakoriságot eredményezik. A vizsgálat célja, hogy a megfigyelés és a számított gyakoriságok eredménye szignifikánsan különbözzenek-e egymástól. Táblázatosan összefoglalva (Spiegel, 1995):
Esemény Megfigyelt gyakoriság Számított gyakoriság
E1 g1 e1
E2 g2 e2
… … …
E3 g3 e3
En gn en
A megfigyelés és a statisztikai számítás által kapott eltérés mértéke: 2
e1 ) 2
( g1 e1
(g2
e2 ) 2 e2
(g3
e3 ) 2 e3
n j 1
e j )2
(g j ej
67
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 2
0 – abban az esetben, ha a megfigyelt és a száha mított gyakoriságok megegyeznek, ha
2
0 abban az esetben nem egyeznek meg pontosan,
2
Minél nagyobb lesz - értéke annál nagyobb az eltérés az elméleti és a megfigyelés által kapott gyakoriságok között. Lineáris diszkriminálás esetén az osztályok közös kovariancia mátrixával számolva, amely az egyenkénti kovariancia mátrixok súlyozott átlaga. A súlyozás vagy egyenletes, vagy az osztályok gyakorisága, vagy pedig bizonyos előre megadott valószínűségek alapján történik.
A Mahalanobis távolság A megfigyeléseknek az osztályok középpontjaitól vett távolságának mérési módszere. Egy megfigyelés nagy valószínűséggel abba az osztályba kerülhet, amely középpontjához a legközelebb van (korántsem biztos, hogy valóban ott is van). A kvadratikus diszkriminálás esetén használjuk ezt az általánosított távolságot. A változónkénti diszkriminálást mérő statisztikák alkalmazási lehetőségei. Lehetőséget ad a szignifikáns p értékek ismeretében, hogy mely változók játszanak szerepet a diszkriminálásban, a többit esetleg el is hagyható.
A Fisher-féle lineáris (vagy kvadratikus) diszkrimináló függvények Behelyettesítve a változóértékeket az adott megfigyeléshez tartozó függvénybe, az adott megfigyelés a legnagyobb függvényértéket kapott osztályba kerül besorolásra. Az elemzés lépései: A megfigyelések ábrázolása lehetőleg az egyes osztályokat különböző színnel vagy szimbólummal megjelenítve. Alapinformációk meghatározása: megfigyelések, változók és az osztályok száma, szabadsági fokok. Az egyes osztályokra vonatkozó információk meghatározása az osztályok nagysága, apriori valószínűsége stb. alapján. Osztályonkénti bontásban az egyes változók közötti korrelációk meghatározása. Az osztályok mérete (vagy az osztályok apriori valószínűsége) alapján súlyozott korrelációs mátrix elkészítése. Az osztályok közötti korrelációs mátrix összeállítása. A teljes mintára vett korrelációs mátrix összeállítása. Leíró statisztikák meghatározása: az összeg, az átlag, a variancia, a szórás, mind a teljes mintára, az osztályok szerinti bontás alapján. Az osztályok középpontjainak meghatározása: a teljes mintára a standardizált adatokból számolva, illetve az osztályok mérete alapján súlyozva.
68
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Az egyes csoportokhoz tartozó kovariancia mátrixok homogenitásának (egyezőségének) vizsgálata Az osztályok közötti távolságok meghatározása: a Mahalanobis távolságok és az általánosított távolságok alapján történnek Egyváltozós statisztikák a változónkénti diszkrimináció fokának mérése: teljes szórás, az osztályok alapján súlyozottan átlagolt szórás, osztályok közötti szórás alapján. Többváltozós statisztikák annak tesztelése, mely választ ad, hogy az adott változók diszkriminálják-e az osztályokat. Amennyiben a diszkriminálás a Fisher-féle lineáris diszkrimináló függvények alapján történik, az osztályonkénti kovariancia mátrixok megegyeznek. A diszkrimináló szabály által kapott osztályozást össze kell hasonlítani az eredeti osztályozással, és az egyes osztályokba kerülés valószínűségeivel. Példa a diszkriminanciaanalízissel megoldandó feladatra: Mérhető változást tapasztalunk-e az európai országok felsőoktatási intézményeiben az adott országokban kialakult munkafeltételek alapján. A főkomponensanalízis első példájában szereplő felsőoktatási intézmény adataihoz most hozzávettünk egy osztályozó változót, nevezetesen azt, hogy az illető intézmény melyik országban van. A diszkriminanciaanalízissel azt vizsgáljuk meg, hogy van-e különbség az egyes országok felsőoktatási intézményei között az országok gazdasági feltételek alapján. 7.3.7
Főkomponensanalízis A főkomponensanalízis a változók száma csökkentésének az egyik módszere.
Célja az, hogy az eredeti változók mintából becsült kovariancia (korreláció) struktúráját a változók minél kevesebb számú lineáris kombinációjával írja le, miközben a populációról a lehető legkevesebb adatot veszítsük el. Az első főkomponenst úgy kapjuk, hogy megkeressük azt a lineáris kombinációt, amelynek a szórása maximális. Heurisztikusan: az adatok által meghatározott pontfelhőt arra az egyenesre vetítjük le, ahol a kapott pontok szóródása a lehető legnagyobb lesz. Ezt követően az erre az egyenesre merőleges irányok mentén meghatározzuk a további főkomponenseket. Annyi főkomponens lehet amennyi a változók száma, és a főkomponensek egymásra merőlegesek. Kiindulhatunk a kovariancia és korrelációs mátrixból. A vizsgálat kiindulási feltételei: Ha nem kívánjuk figyelembe venni, hogy a változóink esetleg eltérő skálán mértek, vagy éppen ezt akarjuk kiküszöbölni, akkor dolgozzunk a korrelációs mátrixszal. Ha azonban az eltérő nagyságrendi skála fontos információt takar, pl. az egyik változó tipikus értéke 10-szer nagyobb a másikénál és ez egy lényeges viszonyt ír le. Ebben az esetben a kovariancia mátrixot kell választani.
69
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Az összes főkomponensre általában nem nincs szükségünk, éppen az a lényeg, hogy az első néhány főkomponens segítségével írjuk le, ill. helyettesítsük az eredeti adatállományt. Azt, hogy mennyi információ őrződik meg a helyettesítés után, a kumulált sajátérték rátával mérhetjük. Ha ennek értéke a 0,8–0,9 között van, akkor a helyettesítés jónak mondható, az információnak csak 10–20%-t veszítjük el. Egy másik lehetőség, hogy a korrelációs mátrix egynél nagyobb sajátértékeit vesszük figyelembe. A módszer gyakran egy összetett adatelemzés első fázisa, a főkomponensekkel dolgozunk a későbbiekben tovább, pl. a megfigyeléseinket klaszterezzük. Egy másik fontos alkalmazás többdimenziós adatállományok grafikus megjelenítése. Az első két, három főkomponenst használva egy pontfelhőként ábrázolni tudjuk a sokdimenziós adatállományt a koordinátarendszerben. Az elemzés lépései: Az adatok ábrázolása, egyszerű leíró statisztikák. A kovariancia (korrelációs) mátrix sajátértékeinek és sajátvektorainak meghatározása. Ez utóbbiak segítségével kapjuk meg a főkomponenseket. A sajátértékek szemléltetése törmelék grafikonnal. A megfigyelések és az eredeti változók ábrázolása a főkomponensek terében, az ún. főkomponens grafikon elkészítése. 7.3.8
Klaszteranalízis
A többváltozós statisztikai vizsgálatok jellegzetes feladata az objektumok elemzése, a struktúrát egészében vizsgáló módszer. Alkalmazásakor az osztályozandó objektumokat számkomponensű vektorokkal kell megadni. Általában törekedni kell arra, hogy a vektor dimenziója ne legyen túl nagy. Egy ilyen igen gyakran alkalmazott osztályozási módszer a klaszteranalízis. Feladata az, hogy csoportokba soroljuk a különböző objektumokat azok hasonlósága alapján, közös tulajdonságaik figyelembe vételével. A klaszterelemzés túllép a klasszikus logikai modelleken. Egyrészt olyan osztályokat definiál, amelyekben az objektumok egy vagy több változóban nem feltétlenül ekvivalensek, de hasonlóak, szemben a klasszikus logika osztályozásával, ahol egy osztály minden eleme minden szempontból ekvivalens. Másrészt nem definiál típusokat mielőtt az objektumokat az osztályokba sorolná, viszont az eljárás után megadhatja a típusjegyeket. Ezzel szemben a klasszikus logika először definiálja a típusokat és utána sorolja az egyedeket osztályokba. A klaszteranalízis a megfigyelések (vagy a változók) osztályozásának dimenziócsökkentő módszere. A diszkriminancia analízissel szemben itt nincsenek előre megadott osztályok, a feladatunk éppen ezeknek a létrehozása. Természetes elvárás az, hogy azok a megfigyelések kerüljenek egy osztályba (klaszterbe), amelyek a legközelebb vannak egymáshoz, illetve a leginkább hasonlóak egymáshoz. Ezért az elemzés kezdetekor meg kell határoznunk, hogy hogyan mérjük a megfigyeléseink közötti távolságot vagy az ezzel ellentétesen viselkedő hasonlóságot. Használhatjuk a standard euklideszi távolságot, de dönthetünk más mellett is (pl. diszkrét vagy bináris adatok esetén általában más távolságot érdemes használni). A klaszteranalízist az alábbi területeken lehet alkalmazni:
70
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Típusalkotás, Modellillesztés, csoportokon alapuló becslés, hipotézis-tesztelés, adatstruktúrák felderítése, hipotézis felállítása, adatredukció, A klasztertendencia vizsgálat célja annak eldöntése, hogy az adatok mutatnak-e hajlamosságot a természetes csoportosulásra. Ha az adataink hasonlóságot mérő mátrix elemei ordinális skálán mért értékek, akkor a véletlen gráfelmélet nyújt matematikai eszközt a csoportosulási tendenciák megállapítására. Amennyiben az adatok intervallum értékek, akkor az ún. véletlen gráf hipotézist kell alkalmazni. Az elméleti eredményeket nem könnyű a gyakorlatban megvalósítani, ezért alkalmazásokban még elég ritkán lehet találni klasztertendencia vizsgálatot. A klaszterezés az objektumok osztályba sorolását jelenti, vagyis az objektumok halmazának (X) C1 , C2 ,..., CM részhalmazokra való felbontását. A csoportoknak diszjunktaknak kell lenniük és együttesen a teljes halmazt kell adniuk. A klaszterezés során az objektumok a hasonlóak egy klaszterbe, a különbözőek külön klaszterbe kerülnek. Az osztályok kialakítása a rendelkezésre álló mintából, valamilyen döntési kritérium alapján történik. A klaszteranalízis nem egy módszer, mint a faktoranalízis, hanem módszerek együttese. Ezek sokfélesége miatt a klaszteranalízisnek igen sokféle eljárása létezik.
A klaszteranalízis csoportosítása Az osztályokba való sorolás két módszerét különböztethetjük meg: a hierarchikus módszereket és a nemhiearchikus módszereket. A hierarchikus módszereken belül megkülönböztetünk összevonó és felosztó eljárásokat. Az összevonó eljárások általános menete: n db egyelemű csoportból történő kiindulás A két leghasonlóbb klaszter megkeresése. A két klasztert összevonása, így a klaszterek számát egygyel való csökkentése. Az új klaszter és a régi klaszterek közti hasonlósági mérőszámok újra meghatározása. A második és a harmadik lépést n-1-szer elvégezve minden egyed egy osztályba kerül. A módszerek a csoportok hasonlóságának definiálásának módszerében különböznek. Ilyen módszerek pl.: egyszerű lánc-, teljes lánc-, centroid módszer stb. Az összevonó eljárások eredményét megjeleníthetjük az ún. dendrogramon mely a klaszterek hierarchikus elrendeződését ábrázolja. A vízszintes tengelyen az egyedek sorszámait, a függőleges tengelyen a klaszterek összevonási szintjeit jelöljük.
71
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A vízszintes tengelyen az egyedek sorszámait, a függőleges tengelyen a klaszterek öszszevonási szintjeit jelöljük. A különböző klaszterezési módszerek általában különböző dendrogramokat eredményeznek, melyek jellemzői: Szimmetrikusak, eggyel egyenlő, ha a két dendrogram azonos, nullával egyenlő, ha a két dendrogram teljesen különböző. A felosztó eljárások közé tartozik pl. az asszociációs elemzés, ahol a csoportokat dichotómia szerint bontjuk egymás után kisebb elemszámú csoportokra. Tekintsük meg az alábbi dendogramot, mely a zenei stílusokat csoportosítja:
13. ábra: Dendogram A dendogram olyan fastruktúra, mely az együvé tartozás szintjeit kapcsol a vizsgált objektumhoz. Adott szinten azok az objektumok vannak relációban, melyek között legkisebb a távolság. A nemhierarchikus módszerek általános felépítése a kezdő klaszterek kialakítása, az egyedek elhelyezése a kezdő klaszterekbe, az egyedek átrendezése a klaszterek között valamilyen optimalizáló kritérium szerint.
Klaszterosítási módszerek A különbség a hierarchikus módszerrel, mely átlagos kapcsolású, legközelebbi társ vagy centroid módszere és a dinamikus módszerrel valósítható meg, melyek közötti különbség:
72
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A hierarchikus módszereknél nem kell előzetesen ismernünk a létrehozandó klaszterek számát, ebben különféle grafikonok segítenek, csak kis mintaelemszámú populáció esetén ajánlott. A dinamikus módszernél, ezzel szemben már kiinduláskor adott a klaszterek száma, a feladat csak a megfigyelések besorolása. A klasztereket iterációval kell számolni. A másik fontos különbség, hogy egy hierarchikus módszer általában időigényesebb mint egy dinamikus klaszterezés, amelyet emiatt gyakran gyors klaszterezésnek is nevezik. A klaszteranalízist alkalmazását eldöntő tényezők: A legfontosabb segítséget a megfigyelések grafikus ábrázolása adja. Ha az így kapott pontfelhőben jól elkülönülő csoportok alakulnak ki, akkor feltétlen érdemes klaszteranalízist alkalmazni. (Persze ez csak három változóig tehető meg, ennél több változó esetén előbb valamilyen dimenziócsökkentő eljárást, pl. főkomponensanalízist, kell alkalmaznunk). Egy másik lehetőség a bimodalitási együttható. Ha értéke 0,555-nél (az egyenletes eloszlásnál ezt az értéket veszi fel) nagyobb, akkor az két vagy többcsúcsosságra utal, ami esetleg több klaszter jelenlét jelenti. Ezen együttható maximális értéke 1, melyet a kétértékű Bernoulli eloszlás esetén vesz fel. A hierarchikus módszereknél a távolság definíciója mellett meg kell adni a klaszter összevonási szabályát, melynek alapján, ha több elemű, nagyobb klasztereink vannak, akkor hogyan definiáljuk a közöttük lévő távolságot. A hierarchikus módszereknél döntenünk kell arról, hogy hány klasztert érdemes választani. Ez a probléma máig sem teljesen megoldott.
Az elemzés lépései: A megfigyelések grafikus ábrázolása a lehetséges klaszterek beazonosítása céljából. Leíró statisztikák: átlag, szórás, ferdeség, lapultság, bimodalitás. A klaszterezés történetét tartalmazó táblázat: az összevonások sorrendje és a kapcsolódó statisztikák. A klaszterezési szint megállapítását segítő grafikonok: pszeudo F és t statisztikák. A klaszterezés végeredményének grafikus ábrázolása: a dendogram. A klaszterek számának megválasztása, az egyes klaszterek listázása. Példa a kalszteranalízis alkalmazására: Európa országainak osztályozása a lakosok iskolázottsága alapján. Az alábbiakban azt vizsgáljuk meg, hogy milyen osztályokba sorolhatóak Európa országai három változó: az elemi, közép és a felsőfokú végzettség alapján. Már a kiinduló grafikus ábrázolás is jelentős eltéréseket mutat az egyes országok között. Az átlagos kapcsolású hierarchikus klaszteranalízis végül 6 vagy 9 klaszter létrehozását javasolja. Végeredményként kilistázzuk az egyes klasztereket illetve grafikonon jelenítjük meg azokat mindkét (6, ill. 9 klaszter választása mellett) esetben. Az országok adatai. Az országok ábrázolása a három változó függvényében.
73
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A klaszteranalízis (átlagos kapcsolású hierarchikus módszerrel) végeredménye. A létrehozott klaszterek listája 6 klaszter választása mellett. A 6 klaszter ábrázolása az eredeti változók terében. A létrehozott klaszterek listája 9 klaszter választása mellett. A 9 klaszter ábrázolása az eredeti változók terében. A megoldás Európa országainak osztályozása a dinamikus vagy gyors klaszterezési módszerrel. A klaszteranalízis végeredménye a klaszterek listája. A kétféle klaszterosítási módszer összehasonlítása oszlop diagrammal.
7.3.9
Faktoranalízis
Az elemzések során gyakran kettőnél több változót kell figyelembe venni az adott probléma megoldása során. Több változónak nagy elemszámú mintán történő mérése során óriási adathalmazt egy egységként kezelni bonyolult feladat. A kapcsolatok feltárásánál több, egymástól is függő változó kapcsolat lehetőségét elemezve kell a feladatot megoldani, melynek elemzése és az eredmények értelmezése a faktoranalízis segítségével történhet (Székelyi–Barna, 2002). Adott: egy sokváltozós mintaállomány, ahol a faktorok korrelálatlanok és a vizsgálat kezdetén még nem ismertek. A faktoranalízist a regresszióanalízistől az különbözteti meg, hogy a független változók ismertek. Egy adatállományon a faktoranalízis csak akkor végezhető el, ha az adatok összefüggnek, más szóval korreláltak, melynek értelmében a változók redundáns információkat hordoznak. A faktoranalízis a változók száma csökkentésének a legelterjedtebb módszere. A jelenség feltárását szolgáló vizsgálati módszer, amelyek a mért változók hátterében lehetnek, egymástól függnek és a jelenségekre magyarázatot adnak. A változók számának csökkentése a statisztikai mintában a lévő információ lehetőség csökkentésével ugyanazt a jelenséget írja kevesebb változóval. A feladat a sokváltozós adatállomány jellemzése a változónál kisebb számú célszerűen választott ún. faktorral oly módon, hogy a faktorok az eredeti lehetőség szerinti legtöbb információt tartalmazzák, és az így azonosított faktorokat célszerű értelmezni és elnevezni, melyek az eljárás kezdetén ismeretlenek. Másik fontos célkitűzés, hogy a nagyszámú változó közötti korrelációs struktúrát írjunk le kevés számú látens változó, ún. faktor segítségével. A faktoroknak fizikai jelentésük nincs, közvetlenül nem megfigyelhetőek, nem mérhetőek és létezésük csak elképzelhető az eredeti változók alapján. A faktoranalízis alapfeltevése, hogy ezeket a látens változók. A faktoranalízis során a faktorok meghatározása a vizsgált változók korrelációs mátrixából kiindulva: Ha a változó nem korrelál más váltózókkal, nagy valószínűséggel önálló faktorral rendelkezik.
74
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Ha két vagy több változó között szoros a korreláció, akkor feltételezhető, hogy egy vagy több közös faktorral rendelkeznek.
A faktoranalízist alkalmazási feltételei: ha a korrelációs mátrix alapján a változók úgy csoportosíthatóak, hogy az egy csoporton belüli változók között viszonylag magas a korreláció, ezzel szemben a csoportok között pedig alacsony. (Egy ilyen csoport olyan, mely mögött egy faktor áll. a parciális korrelációk kicsik, a Kaiser-féle mutatószám (0 és 1 közé eső érték) az adatok összefüggő voltának, korreláltság vizsgálatának módszere, amelyet Kaiser– Meyer–Olkin statisztikának is neveznek, Ha ez a mutatószám 0,8-nél nagyobb, akkor ajánlott, ha ez a mutatószám viszont 0,5-nél kisebb, akkor nem ajánlott faktoranalízis végrehajtása. A faktoranalízis egyaránt támaszkodhat a kovariancia illetve a korrelációs mátrix elemzésére. Kaiser–Meyer–Olkin mérték az alábbi képlet alapján határozható meg: p
p
rij2 KMO
i 1 j 1 p
p
p
p
2 ij i 1 j 1
rij2 i 1 j 1
Ahol: rij – az i-edik és a j-edik változók korrelációs együtthatója,
Rij ij
Rii R jj
– az i-edik és a j-edik változó parciális korreláció együtthatója,
ha a KMO értéke 0,5 abban az esetben az adatok alkalmasak a faktoranalízisre, ha a KMO értéke < 0,5 abban az esetben az adatok nem alkalmasak a faktoranalízisre. A faktoranalízist alkalmazási területei: A nagyszámú és egymással korreláló változó között tanulmányozhatjuk a kapcsolatokat úgy, hogy a változókat kisebb számú ún. faktorokba rendezzük, amelyeken belül a korrelációk nagyobbak, mint ezeken kívül. A faktorok a hozzájuk tartozó változók alapján értelmezhetőek. A faktoranalízis segítségével a nagyszámú populáció a kisebb számú faktorok a faktor-pontok segítségével mennyiségileg áttekinthetőbbé válik.
75
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A faktormodell fogalma, felépítése Meghatározza, hogyan függnek az egyes változók a faktoroktól, mely lineáris kombinációval állíthatóak elő. Tehát a főkomponens analízissel szemben, ahol az egyes főkomponenseket állítottuk elő az eredeti változók lineáris kombinációjaként, itt az egyes változók fejezhetőek ki a faktorok lineáris függvényeként. Fontos tudni, hogy faktoranalízist többféle módszerrel hajthatunk végre, a legfontosabbak ezek közül a főkomponens módszer, a főfaktor analízis és a maximum likelihood faktoranalízis. A faktort számának megválasztása A faktoranalízis az adatrendszer belső struktúráját, az adatrendszer egészét látva egyenrangúnak tekinti a változókat. A faktoranalízis célja a jelenséget leíró változók „mögött” megkeresni olyan rejtett változókat, amelyek a vizsgált jelenséget megmagyarázzák, számuk kisebb, mint az eredeti változóké, és egymástól függetlenek. A faktoranalízis során a faktorok meghatározásakor a vizsgált változók korrelációs mátrixából kell kiindulni. Amelyik változó nem korrelál más változókkal, nagy valószínűséggel önálló faktorral rendelkezik. Ha viszont két vagy több változó között szoros korreláció van, akkor feltételezhető, hogy egy vagy néhány közös faktorral rendelkeznek. A faktoranalízis modelljében a következő faktorokat különböztethetőek meg: közös faktor (több változót befolyásol), általános faktor (az összes változóra hatással van), csoport faktor (nem az összes változót befolyásolja,) egyedi faktor (csak egyetlen változót befolyásol), hiba faktor (mérési, becslési hiba hatása). Egy-egy változót eltérő súllyal befolyásolhatják a különböző faktorok, másrészt egy faktor eltérő súllyal befolyásolja az egyes változók értékét. Az eredeti változók helyett meghatározott hipotetikus változók, ún. faktorok tartalmazzák a rendszerről ismert információnk nagy részét annak ellenére, hogy számuk kisebb. A faktoroknak nincs semmilyen fizikai jelentésük, közvetlenül nem figyelhetők meg, nem mérhetők, létezésüket csak feltételezhetjük az eredeti változók kapcsolatai alapján. A változók számának csökkentése azt jelenti, hogy a statisztikai mintában lévő információ lehetőleg kis csökkentésével ugyanazt a jelenséget kevesebb változóval írjuk le. A különböző faktorok hatásainak figyelembevételével az X változó az alábbiak szerint írható fel:
Xi
ai1 Fi1
ai 2 Fi 2
... aiq Fiq
bim Fim
ei Fi
ahol: a: a közös faktorok súlya b: az egyedi faktorok súlya c: a hiba faktorok súlya A feltételezés alapján a hibakomponens korrelálatlan a közös, illetve az egyedi faktorokkal, valamint, hogy a hibakomponensek függetlenek. A standartizált változó szórásnégyzete:
76
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI q
aij2
s
2 bim
ei2
1
j
A megfigyelt értékek mátrixa, mely a faktoranalízis bemeneti (input) adathalmazának tekintendő:
x11 , x12 ,...x1 p x
...,....,....,...., x n1 , x n 2 ....x np
ahol: p: a változók száma n: a mintaelemek száma
A faktoranalízis lépéseinek fázisai Minden változóra meg kell határozni az átlagot és a korrigált tapasztalati szórást. Minden adatból ki kell vonni a változókhoz tartozó adatok átlagát. Az eredményt el kell osztani a korrigált tapasztalati szórással. A feladat megoldása során olyan új F1, F2, … Fk valószínűségi változókat kell keresni, ahol az Fk faktorok közös jellemzői: Számuk maximum p, Normális eloszlásúak Korrelálatlanok (bármely kettő korrekciós együtthatója zérus) A fenti mátrixból az Xi valószínűségi változók és a faktorok közötti kapcsolatot az alábbiak alapján képezhetőek:
X1
a11 F1
a12 F2
... a1k Fk
X2
a 21 F1
a 22 F2
... a 2 k Fk
a p1 F1
a p 2 F2
... a pk Fk
W1 W2
....... Xp
Wp
ahol: W1, W2, … Wp,: egyedi faktorok, mivel egyenként csak egy változó kifejezésében szerepelnek F1, F2, … Fk: közös faktorok W – k és a F – k korrelálatlanok egymással. A W értékétől függően, ha W – értéke nagy, a faktoranalízis nem sikeres, ha W – értéke kicsi, abban az esetben jó eredményt kaptunk.
77
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI a1j – a faktorsúly, amely azt fejezi ki, hogy, az F1 faktor milyen súllyal szerepel az X1 meghatározásában. Tekintsük át a faktoregyütthatók és a faktorsúlyok között a különbségét: A faktoregyütthatók a faktorok együtthatói a faktormodellben, melyek a megfelelő változó és faktor közötti korreláció nagyságát mérik. A faktorsúlyok ezzel szemben azt mondják meg, hogy mennyi a bevezetett új, közös faktorok értéke az egyes megfigyeléseknél.
A kommunalitás értelmezése A kommunalitás a szórásnégyzetben a faktorok hatását mutató rész, melynek maximális értéke 1. q
hi2
aij2 j 1
hi
ai21
ai22
... aik2
A kommunalitás alatt a közös faktorsúlyok hatása értendő. A bevezetett faktoroknak az eredeti változó szórásának százalékban megvalósított értékelését mutatja. Minél nagyobb a kommunalitás (maximum 1 lehet), annál jobb a választott faktormodell. Abban az esetben, ha a kommunalitás értéke közel van az 1-hez, a kommunalitás jól magyarázza és írja le az adott változót, vagyis arra ad választ, hogy a faktorok az adott változók varianciájának hány %-át értelmezi. Példaként említhető a faktorsúly +1-hez vagy –1-hez közeli értéke, melynek során xi és Fi változók között erős pozitív vagy negatív korreláció áll fenn. Fontos tényező a faktorok sajátértékére rámutatni, mely egy adott faktorhoz tartozik, mely matematikailag az adott faktor összes faktorsúlyának négyzetösszegével egyenlő. Az alábbi képlet rámutat arra, hogy a változórendszer teljes varianciájának magyarázatában az Fi milyen súllyal vesz részt.
Fi
a12i
a 22i
... a 2pi
Matematikailag az ún. „fontos” faktorok saját értéke nagy, míg a „kevésbé fontosaké” kicsi.
A faktorok rotációjának értelmezése A faktorok rotációja során a nehezen értelmezhető faktorok egyszerűbbé tehetőek. A rotációval kapott változók, melyek az új faktorokra nézve is az eredeti változók, még nagyobbaknak kell lenniük. Ezzel ellentétben a korábbi kis faktorsúlyú változók még kisebbekké válnak. Az eljárással kapott faktorszerkezet könnyebben értelmezhető és a legjellemzőbb változók alapján elnevezhető. Egy ortogonális mátrixszal transzformálva mind a faktoregyüttható mátrixot, mind pedig a faktorokat, egy új, a régivel teljesen egyenértékű modellt eredményez. A forgatást a
78
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI faktorok könnyebb interpretálhatóságára használják. Ennek eredményeként a faktoregyütthatók értékei a 0-hoz vagy az 1-hez lesznek közel. Így könnyebben meghatározható, hogy az egyes faktorok mely változócsoportokhoz tartoznak Az eredeti és a faktorváltozók közötti korrelációs együtthatók értéke rámutat, hogy az adott faktorok elsősorban mely változókkal állnak szorosabb kapcsolatban. A faktoranalízis során a faktorsúlyok mátrixát kell előállítani. A mátrix és saját transzponáltjának szorzata egyenlő a korrelációs mátrix és hibák variancia-kovariancia mátrixának különbségével. Mivel a hibakomponensek függetlenek, ezért ez utóbbi mátrix diagonális, vagyis gyakorlatilag egy olyan módosított korrelációs mátrixot eredményeznek, ahol a főátlóban lévő elemek a kommunalitásokkal lettek kicserélve, a mátrix többi elemeként pedig az rij korrelációs együttható maradt.
A faktoranalízis lépései: A korrelációs mátrix meghatározása. A parciális korrelációs mátrix meghatározása. A minta faktoranalízisre való alkalmasságát mérő Kaiser statisztika kiszámítása. A kovariancia (korrelációs) mátrix sajátértékeinek és sajátvektorainak meghatározása. A sajátértékek szemléltetése törmelék grafikonnal. A faktoregyütthatók, mint az egyes változók és a faktorok közötti korrelációk meghatározása. A kommunalitások megadják, hogy az egyes faktorok a teljes szórásnak hány százalékát magyarázzák. A faktoregyütthatók grafikonja. A változók ábrázolása a faktortérben. A faktorok forgatása. A forgató mátrix és a forgatás utáni faktoregyütthatók meghatározása. Kommunalitások a forgatás után. A (standardizált) faktorsúlyok meghatározása. A forgatás utáni faktoregyütthatók grafikonja, a változók ábrázolása a forgatott faktortérben.
7.4 ÖSSZEFOGLALÁS A fejezet nagy lélegzetvételű tananyagának elsajátítása segíti az olvasót, hogy képet kapjon a többváltozós populációk elemzéséről. A variaanalízis eljárása során képessé válik több egydimenziós minta vizsgálatára. A faktoranalízissel „csökkenthető” a megfigyelt változók száma”, vagyis helyesebben változók összevonása valósítható meg az eljárással. A kutatási koncepciók kidolgozásakor a klaszteranalízis ad lehetőséget átfedés mentes csoportosításra. 7.5
ÖNELLENŐRZŐ KÉRDÉSEK
1. Ismertesse a variaanalízis elméleti megfontolásait.
79
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 2. Ismertesse a belső- és a külső variancia közötti fogalmi különbséget. 3. Ismertesse az egyutas osztályozás vagy egytényezős variancia analízisjellemzőit és eljárását. 4. Ismertesse az kétutas osztályozás vagy kéttényezős variancia analízisjellemzőit és eljárását. 5. Mely jelenségek statisztikai feltárását szolgálja a faktoranalízis?
80
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
8. SPSS ALAPFOGALMAK. ADATÉRTELMEZÉS. 8.1 CÉLKITŰZÉS Az utóbbi évtizedben a társadalomtudományi kutatások jelentősége megnőtt és a és oktatási intézmények olyan szakembereket képeznek akik az SPSS alkalmazó szintű ismeretével rendelkeznek. Ez a fejezet betekintést nyújt az SPSS program felületének felépítésébe, az adatok rögzítésének kérdéseibe.
8.2 TARTALOM A szoftver használatának feltételei Az SPSS felülete Az adatmátrix szerkezete A menűsor parancsainak rövid ismertetése és a kitöltés menete Grafikus ábrázolás Transform
8.3 A TANANYAG KIFEJTÉSE Az SPSS segítségével adott minták statisztikai elemzését végezhetjük el, mely a tudományos kutatásban nélkülözhetetlen. Az SPSS a Statistical Package for Social Scienses rövidítése, amely statisztikai programcsomag a szociológiai tudományok számára, de természetesen egyéb területeken is elterjedt. 1968-ban Norman H. Nie, C.Handlai Hull és Dale H. Bent alkották meg az SPSS alapjait, az 1970-es években továbbfejlesztették a Chicagói Egyetemen. 1992-ben megjelent a Windows alatt futó változata, ez a verzió vált elterjedtebbé a felhasználók körében. A vállalati alkalmazások területén 1997 – 2003 vált ismertté. Kidolgozták 2007-re a Java alkalmazásokra a programot. 2009-ben SPSS felvette PASW nevet és több programból (SPSS Statistics, SPSS Modeler Clementine, SPSS Data Collection (Dimensions) és SPSS Reports for Surveys Desktop Reporter és a SPSS Text Analytics (TextMining for Clementine) álló programcsalád. Az angol nyelvű szoftvert alkalmazzuk, mivel a szakkönyvekben az utasítás szintén angol nyelvű. Több platformon is rendelkezésre áll, (de a FEFA projekt által) a Windows-os változat vált elérhetővé. Modul rendszerű szoftver (Base System, Professional Statistics, Advanced Statistics). Az SPSS for Windowshoz installálható egyéb modulok főleg valamilyen speciális szakterületen felvetődő statisztikai probléma megoldását segítik. 8.3.1
A szoftver használatának feltételei
A terméket kizárólag a megnevezett intézmény oktatói és tanulói használhatják: kutatás, egyetemi oktatás és fejlesztés céljaira. Az átvevő a termékre nem szerez tulajdonjogot, azt nem módosíthatja, nem bővítheti, csak az SPSS Partner Betéti Társaság írásbeli engedélyével. A terméket kereskedelmi célra, vagy jelentős anyagi hasznot hozó munkavégzésre felhasználni csak az SPSS BT írásbeli engedélyével, meghatározott díj kifizetése esetén lehet. A termék használói a terméket saját kockázatukra üzemeltetik, fizetik az üzemelte-
81
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI téssel járó valamennyi járulékos költséget, gondoskodnak a szakszerű kezelésről, folyamatos karbantartásról. A felmerülő hibákat dokumentálva be kell jelenteni az SPSS BT-nek, aki a hibákat haladéktalanul megszünteti, vagy a terméket kicseréli. Az SPSS BT jótáll azért, hogy a termék a leírásnak megfelelően működik, nem vállal azonban garanciát a működés közben előforduló zavarokért. Az utasításokat alapvetően egy menürendszer (ill. ikonok) segítségével adhatjuk ki, az utasítások paramétereit dialógus dobozok segítségével állíthatjuk be. A program alapvetően három, egymással részben összefüggő, részben független munkaterületet kezel. Egyrészt rendelkezésre áll az adatmátrix – mely a tulajdonképpeni input információkat tartalmazza –, melynek a formátuma igen hasonló egyes táblázatkezelő programok (pl. Excel) formátumához. Az utasítások végrehajtása után, az eredményeket egyrészt szöveges formátumban kaphatjuk meg, másrészt pedig a különböző grafikus formában (chart). A SPSS tartalmazza a leggyakrabban alkalmazott statisztikai eljárásokat, kereszttáblákat, a leíró statisztikák, a faktor-, regresszió-, megbízhatósági és a klaszteranalízis többdimenziós skálázási lehetőségeit, melynek eredményei grafikusan is megjeleníthetőek, formázhatóak a felhasználó igénye szerint. 2009-ben az SPSS 19 verzióját hozták forgalomba. 8.3.2
Az SPSS felülete
Három különböző ablakot alkalmaz a szoftver. Egyidejűleg eddig csak egy adatfájl lehetett nyitva, a 17-as verziótól kezdve több is, amely megkönnyíti a munkát több adatból való dolgozás esetén (Ketskeméty-Izsó, 2005).
Adat – Data –ablak Egy táblázatban tárolja a kiértékelendő az új adatfájlt, vagy a megnyitott adatfájlt, azok itt módosíthatóak. Az oszlopokat a szakirodalom mezőnek, vagy változóknak, a sorokat pedig rekordoknak vagy elemeknek nevezik.
Output-ablak A számítások eredményeit foglalja össze a szöveges információkkal. Az ablakban megjelenő táblázat, szöveg módosítható és menthető. Egyszerre több output ablak is nyitva lehet.
Chart-ablak Az elkészített diagram-ablak ugyanúgy funkcionál, mint az Output ablak, a benne levő diagram módosítható és menthető. Erre az ablaktípusra is igaz, hogy egyszerre több Chartablak ablak is megnyitva lehet. Az SPSS program parancsokkal dolgozik. A Syntax-ablakba lehet beírni a parancsokat, majd futtatni. Mivel az SPSS for Windowsnak nagyon jól használható menürendszere is van, ezért ez a parancs-ablakot csak rutinos felhasználók számára ajánlott. A menürendszer használata során a kiválasztott tevékenységet a „paste” funkció segítségével lehet parancs formájában a Syntax-ablakban áttenni. Egyszerre több Syntax ablakot is megnyithatunk.
82
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Az spss 17 verzióban már a végrehajtott művelet programja is megjelevik Visual Basicban, amely menthető és megismételhető.
Az adatmátrix szerkezete A program használata során minden műveletet az adatmátrixon hajtunk végre. Az adatmátrix a következőképpen néz ki: 15. táblázat: Adatmátrix
1. objektum 2. objektum ...
Változó 1 X11 X21
Változó 2 X12 X22
...
Minden egyes objektumhoz különféle változó-értékek tartozhatnak. A program megnyitásakor különböző lehetőségek adódnak.
15. ábra: Az SPSS17 nyitó felülete
83
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A fenti ábra alapján látható, hogy különböző dokumentumok megnyitásának, illetve egy új dokumentum létrehozásának lehetőségét biztosítja a program. Az alábbi hat lehetőség közül választhatunk: Run the tutorial Type in data Run an existing query Create new query using Database Wizard Open an existing file Open anothet type of file
Oktatóprogram megnyitásának tárgyszavas és címszavas lehetősége és keresési lehetőség Új adat begépelése Meglévő könyvtárakban *.spq és …fájlok megnyitása és lekérdezése Adatbázis konvertáló varázsló nyitása, mely *.dbf; *.xls; *.mdb; fájlok konvertálását teszi lehetővé másik adatbázisból Korábban mentett SPSS- adatállomány megnyitása Más títusú fájl megnyitása
Új adatbázis bevitelekor kattintsunk a Type in data választás menüre, és egy táblázatot kapunk, ahol az oszlopok, más szóval mezők vagy változók, a kérdőív kérdéseinek, a sorok, vagy rekordok illetve elemek, pedig a válaszadóknak felelnek meg.
16. ábra: Az SPSS adatszerkesztő (Data Wiev) és változók (Variable Wiev) képernyő részlete
84
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 8.3.3
A menüsor parancsainak rövid ismertetése és a kitöltés menete
17. ábra: SPSS Variable Wiev menűje Minden változóhoz tartozik egy változónév, amivel az adott változóra hivatkozunk az elemzések során. Ez a címke a változó tartalmát szemléletesen írja le (mint egy comment). Az adatmátrixot első lépésként a rendelkezésre álló adatokkal fel kell tölteni a változó jellemzőit, melynek lépései: Az egérrel az oszlop első cellájára kattintunk az ahol alapértelmezésben – pl. var0001 – áll. A megjelenő egy dialógus ablakban értelemszerűen kitöltjük kérdés rövidített nevével (max. 8 karakter) Az adatsor bevitelét megelőzi a kérdésenkénti változók definiálása a Variable Wiev felületen. A menülécen az alábbi paramétereket kell definiálni. A kitöltendő változó Name cellájára kattintunk jobb egérgombbal beírjuk a nevét. A változó típusát a második oszlopba Type definiáljuk. Rákattintva az alábbi válaszpanelt kapjuk:
18. ábra: A változó típusa A Variable View/Type ablakra kattintva a lehulló ablakban meghatározzuk a változó típusát, a karakterek számáta With, és a tizedesjegyek számát a Decimal places mezőben.
85
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 16. táblázat: A változó definiálását segítő adattábla
Numeric Comma: Dot Scientific notation Date Dollar Custom currency String
numerikus adat vessző pont tudományos megjegyzés dátum dollár speciális pénznem szöveges adat, amelynek során a szöveges karakter hossza állítható be
A Label címkébe a változó rövid magyarázó szövegét gépelhetjük.
Define Labels – a változók definiálása
19. ábra: Változók kódolása A Values címkébe a változó értékéhez jelentést kell definiálni. Az új értékek és címke megadása után az Add gombra kattintunk és folytatjuk az újabb érték és annak nevének megjelölésével, mindaddig míg befejezéskén a Continue gombra kattintva folytatjuk a további jellemzők beállítását.
86
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Missing – az adathiány ellenőrzése
20. ábra Adathiányok kódolása Ebben a cellában az adathiány létét határozhatjuk meg. Ha a feldolgozás során nem kell számolni adathiánnyal, akkor a legfelső, No missing values pontot jelöljük meg. Abban az esetben, ha hibás értékekkel is számolni kell, az alábbi 3 beállítási lehetőségünk van: 17. táblázat: „Missing values” értelmezése
3 egyenként 8 karakteres számot tüntethetünk fel. Range of missing values: a hibás érték alsó (Low) és felső (High) határát adhatjuk meg Range plus one discrete missing az előző kettő ötvözése, mivel egy hibás értékvalues sor alsó és felső határát, valamint egy konkrét max. 9 karakteres hibás adatot adhatunk meg. Discrete missing values
87
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Columns – az oszlop formázása
21. ábra: Az oszlop formázása A lehulló ablak az oszlop szélességének formázására ad lehetőséget. Az Align Data Wiev-ben az oszlopok szélességét igazítja balra, középre vagy jobbra. A Measure oszlop címkéje a kutatónak felkínálja a változó skála típusának beállítás lehetőségét. Az SPSS lehetőségei: a Scala (arány- vagy intervallumskála), Ordinal (sorrendi, ordinális) és Nominal (névleges, nominális). Az SPSS 12 megjelenésével a felülete módosult, újabb lehetőséget adva, melynek során az adatok két címkével ellátott felülette dolgozik: a Data Wiev és a Variable Wiev.
88
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
22. ábra Variable Wiev felülete A Variable Wiev a változók beállítása alapján a Data Wiev oszlopfőiben megjelennek a változók nevei. Ezt követően Data Wiev felületére lehetővé válik a kódolt adatok felvétele.
89
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
23. ábra: A Data Wiev felülete Hiányzó oszlop beszúrása Az adatfelvitele során két oszlop közé logikus lenne egy adatsort rögzíteni, melyhez oszlop beszúrására lesz szükségünk. A művelet elvégzéséhez a menüsorból válasszuk ki Data-t.
90
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
24. ábra: Az oszlop beszúrása Majd a lehulló menüből az Insert Varieble-re kattintva, a kívánt oszlopot a megfelelő helyre beszúrjuk.
91
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
25. ábra Sorok beszúrása Az adatok rögzítésének ellenőrzése a File parancsra való kattintáskor a lehulló menüsorból kiválasztva a Display Data Info…-ra kattintva történik, melyre az alábbi adattáblát kapjuk:
92
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
26. Önellenőrzés ún. Output ablaka Az statisztikai műveletek eredménye az output ablakba érhető el amelyet SPSS Statistics Viewer-nek neveznek. Az eredményeket táblázatokba adja a program. Ezen a felületen hozhatók létre a grafikonok. Mindkettő másolható és formázható. A felület két részből épül fel: bal oldalon a kereső fa, a jobboldalin az output elemei.
8.4 ÖSSZEFOGLALÁS Ebben a fejezetben az olvasó átfogó képet ismerhetett meg az SPSS program szerkezetéről. Röviden áttekintettük az SPSS szerepét, a felületét, a változók jellemzőinek beállítását, az adatok bevitelét és a menüpontok funkcióit. A statisztikai eredmények az SPSS Statistics Viewer felületéről transzportálhatóak, módosíthatóak. 8.5
ÖNELLENŐRZŐ KÉRDÉSEK
1. Jellemezze az SPSS programot röviden 2. Ismertesse röviden a Data, Output és a Chart ablakokat és azok funkcióit. 3. Ismertesse az adatok kitöltésének menetét.
93
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
9. STATISZTIKAI ALAPMŰVELETEK AZ SPSS-SEL. ADATBÁZIST MÓDOSÍTÓ UTASÍTÁSOK
9.1 CÉLKITŰZÉS A fejezetben a leíró statisztika alapműveleteit tekintjük át a Descriptives, Frequencies és a Crosstables (Kereszttáblák) bemutatásával. A statisztikai elemzés leggyakrabban alkalmazott műveleteinek tekinthető, amelyeket az összesítő statisztikai eredményeket hoz létre.
9.2 TARTALOM A szoftver használatának feltételei Az SPSS felülete Az adatmátrix szerkezete A menüsor parancsainak rövid ismertetése és a kitöltés menete Adatbázist módosító utasítások
9.3 A TANANYAG KIFEJTÉSE A leíró statisztika keretein belül négy fő kérdésre keresünk választ: a gyakoriságok, a középérték, a szóródás és a korreláció mérésére. 18. táblázat: „Missing values” értelmezése
LEÍRÓ STATISZTIKA Gyakoriságok Abszolút gyakoriság Relatív (%-os) gy. Kumulatív gy.
9.3.1
Középértékek Átlag Módusz Medián
Szóródások Szóródási terjedelem Interkvartilis félterjedelem Átlagos eltérés Variancia Szórás Relatív szórás
Korreláció Korrelációszámítás Korrelációanalízis
Leíró statisztikák (Descriptives )
Az Analyze/Descriptives parancs az alapvető statisztikai mutatók tulajdonságairól ad információt, ezek a következők: középérték (Mean) szórás (Std deviation) szórásnégyzet (Variance) maximum minimum stb.
94
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
27. ábra: Analyze/Descriptive Statistics/Descriptives A jellemzőket az Analyze/Descriptive Statistics/Descriptives parancs kiadását követően a lehulló dialógus ablakban kell beállítani:
95
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
28. ábra: Descriptives Dialógus ablak A variable dialógus ablakba behúzzuk azokat a változókat, amelyek középérték és szóródási mutatóit az output ablakba szeretnénk kiszámolni. Az Options… gombra kattintva
29. ábra: Descriptive/Options 96
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A lehulló ablakba beállíthatjuk a kívánt menüket Mean átlag Sum összeg Std. deviation Szórás Range Intervallum Minimum minimum Maximum maximum S.E. Mean középérték standard hibája Kurtois lapultság ( >0 csúcsos; <0 lapos) Skewness ferdeség ( ha – balra ferdül; + jobbra ferdül) Variable list változók listája Alphabetic abc sorrend Ascending means átlagok növekvő sorrendbe Descending means átlagok csökkenő sorrendbe A megfelelő paraméterek kijelölését követően a Continue gombra kattintunk, majd az OK-ra. Az Output ablak a kijelölt paramétereknek megfelelően táblázatba foglalja az eredményeket. 19. táblázat: Descriptives Output ablaka
Descriptive Statistics N Statistic
nem_1 kar_3 isk_végz_5 Valid N (listwise)
185 182 185 182
Range
Minimum
Statistic
1 3 3
Statistic
1 1 1
Maxi mum
Mean
Statistic
Std. Statistic Error
2 4 4
1,58 ,036 3,26 ,072 1,72 ,068
Std. Deviation Statistic
,494 ,967 ,931
Variance Statistic
Skewness
K urtosi s
Std. Std. Statistic Error Statistic Error
,244 -,343 ,179 -1,903 ,355 ,936 -1,144 ,180 ,199 ,358 ,866 1,080 ,179 ,090 ,355
A táblázatban feltüntetett paraméterek alapján a minta jellemezhető, jósló tényezőként a további statisztikai eljárások menetét előrevetíti. 9.3.2
Gyakorisági táblázatok (Frequenties)
Az Analyze/Descriptive Statistics/ menü parancs kijelölését követi a Frequenties parancsra való kattintás.
97
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
30. ábra: Analyze/Descriptive Statistics/Frequenties A lehulló ablakba az elemzés változóit kijelölve, a nyíl mentén át kell helyezni a Variables ablakba.
98
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
31. ábra Analyze/Descriptive Statistics/Frequenties variable(s) A lehulló ablakban kipipáljuk a kívánt statisztikai paramétereket, jelen esetben a beállítható mutatók: Százalékértékek: negyedek (A 25, 50 és 75 százalékértékek megjelenítése) pontok n egyenlő részre vágása (Kiírja a minta n egyenlő részre osztásához tartozó százalékértékeket.) százalék(ok) (A felhasználó által definiált százalékértékek szerint rendezi az egyes értékeket.) Eloszlás: Skewness (Ferdeség – Egy eloszlás aszimmetriáját jellemző érték.) Kurtosis (Lapultság – Egy központi érték köré csoportosuló tartományok kiterjedésére jellemző mérőszám.) Szórások: szórás variancia (szórásnégyzet) Intervallum (A maximum és a minimum értékek különbsége.) maximum minimum átlagtól való eltérés Jellemzők: átlag medián (Felezőpont – ez alá, ill. fölé 50% eséllyel kerülhet a változó értéke)
99
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI módusz (Folytonos eloszlás esetén a helyi maximumok helyei, diszkrét eloszlásnál a legnagyobb valószínűségű helyek) összeg A szükséges paraméterek rádiógombjait kijelöljük, majd a Continue gombra kattintunk.
32. ábra: Analyze/Descriptive Statistics/Frequenties/Statistics A fenti művelet hatására visszatérő ablakban a Chart gombra kattintva megjelöljük, milyen grafikus ábrázolást szeretnénk létrehozni.
100
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
33. ábra: Analyze/Descriptive Statistics/Frequenties/Charts A diagram kiválasztása során lehetőségünk van elutasítani, illetve kiválasztani oszlopdiagramot, kördiagramot, hisztogramot a lehetőségek közül. A Format gombra kattintva az alábbi lehetőségeket állíthatjuk be:
34. ábra: Analyze/Descriptive Statistics/Frequenties/Format A Format gomb lenyomása után beállíthatjuk a változók növekvő vagy csökkenő sorrendjét a táblázatban. Descriptives menűben tapasztalthoz hasonlóan. Ügyeljünk arra, hogy a Display Frequency tables felirat melletti ablakot pipáljuk ki, mellyel biztosítjuk, hogy a változók mellett azok eloszlása is megjelenjen. Ezt követően az OK gomb lenyomásával az eredmény közlésére kerül az Output ablakban, mely átemelhető szövegszerkesztő programba is és formázható.
101
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
20. táblázat: Analyze/Descriptive Statistics/Frequenties output ablaka
Frequency Valid
79
41,6
43,2
43,2
22-25
57
30,0
31,1
74,3
26-29
22
11,6
12,0
86,3
30-33
7
3,7
3,8
90,2
18
9,5
9,8
100,0
183
96,3
100,0
7
3,7
190
100,0
Total
Total
Valid Percent
18-21
34-
Missing
Percent
Cumulative Percent
System
35. ábra: Analise/Descriptive Statistics/Frequenties/chart_histogram
102
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Az eredményt összefoglaló táblázatok a fentiekben bemutatott értékeket számszerűsítve mutatják. A Frequency kívánság szerint a gyakoriság értékét számszerűsített és százalékos formában is biztosítja. Az utolsó adatoszlop a Cumulatív gyakoriságot %-ban tünteti fel.. A táblázat Word-be másolva formázható és magyar szöveggel átdolgozva tanulmányba illeszthető. 9.3.3
Az adatbázist módosító utasítások
Adatok transzformálása A kutatások során gyakori eset, hogy egy változó értékeit új szempont szerint kell csoportosítani a további vizsgálatok eredményessége céljából. Erre az SPSS lehetőséget ad.
36. ábra: Transform/Recode into Different Variables A Transform/Recode into Different Variables használata lehetővé teszi, hogy az eredeti változót kódoljuk át, vagy új változót hozunk létre.
103
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
37. ábra: Transform/Recode into Different Variables Az átkódolni kívánt változót húzzuk át a Numeric Variable/Output Variable dobozba. Kiválasztva a változókat a jobboldali mezőben Output Variable doboz alatt megadjuk a változó új elnevezését, valamint az átkódolás logikai feltételei megadhatóak az if… beállításával. Az Old and New Values gombra kattintva az alábbi felületet kapjuk:
37. ábra: Transform/Recodeinto Different Variables/Old and New Values Az OK gombra kattintva elvégzi a program a kijelölt műveletet.
104
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Adatokkal művelet végzése Az SPSS-ben lehetőség van a bevitt adatokkal műveletet végezni (összeg, különbség stb.). Az eredeti változók sértetlenségét a program biztosítja, az új adatsor megnevezhető. A művelet a Transform/Compute Variable menü alatt végezhető el.
38. ábra: Tansform/Compute Variable Az új változó nevét a bal felső sarokban lévő TargetVariable mezőbe kell beírni (39. ábra). Az alatta található a Type&Label ablak, mellyel az új változó tulajdonságai állítható be, megcímkézhető (label) és a változó típusa meghatározható (numeric, string stb. A kért változás a Numeric Expression ablakba írható be. A műveleteket a középen megjelenő klaviatura gombjaival kell elvégezni, szükség esetén további feltételek hozhatók létre az If… gombbal. Az OK gomb lenyomásával a kívánt műveletet a program elvégzi.
105
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
39. ábra: Tansform/Compute Variable Logikai műveletek, A fenti alapján a Compute Variable párbeszédpanel logikai művelet végzésére is alkalmas. A logikai műveleteket az alábbi táblázat foglalja össze:
106
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
40. ábra: Logikai műveletek Ez esetben nem alapműveleteket, csoportosítást végzünk, hanem az adatokat valamilyen logikai kritérium alapján megszűrjük. A műveletet a Transform/Compute Variable menüre kattintva, a párbeszédpanelen be kell írni az új változó nevét, majd az If gomb megnyomásával a logikai feltételnek alávetjük az adatsort és az OK gombot lenyomva a műveletet végrehajtjuk. 9.3.4
Összefoglalás
Áttekintettük az SPSS felületén a leíró statisztika alapműveleteit a Descriptivest és a Frequenciest. A lecke második része az adatok új szempont szerint csoportosítását, matematikai és logikai műveletek elvégzésének lehetőségeit mutatja be.
9.4 ÖNELLENŐRZŐ KÉRDÉSEK 1. Jellemezze az SPSS program által végezhető logikai műveleteket 2. Ismertesse az adatok transzformálásának lehetőségeit. 3. Ismertesse a leíró statisztikai elemzések menetét az SPSS-sel, és értelmezze a kapott adatokat. 4. Ismertesse az SPSS által generálható leíró statisztikákat (Descriptives) és csoportosítsa azokat. 5. Milyen adatbázis módosító utasításokra van lehetőség az SPSS alkalmazásával és mutassa be azokat.
107
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
10. ÖSSZEFÜGGÉS VIZSGÁLAT SPSS-SEL. KORRELÁCIÓ, KORRELÁCIÓANALÍZIS
10.1 CÉLKITŰZÉS A kutatások során gyakran merül fel annak igénye, hogy többdimenziós minták közötti kapcsolat meglétének vizsgálatát végezzük. A korrelációszámításnál kétdimenziós minta változói közötti összefüggést vizsgáljuk. A korrelációanalízis esetében kettőnél több a dimenziók száma.
10.2 TARTALOM Korreláció Grafikus ábrázolás Korrelációanalízis
10.3 A TANANYAG KIFEJTÉSE Mielőtt a fejezet tanulmányozását elkezdi, ismételje át az 5. leckében tanultakat, mely a korreláció elméleti kérdéseit mutatja be. Az ismeretek felfrissítése könnyebbé teszi a fejezet feldolgozását. A változók skálájának függvényében az összefüggés vizsgálati módszereket az alábbi táblázat foglalja össze. 21. táblázat Soros összefüggés vizsgálata a változók számának függvényében
MATEMATIKAI STATISZTIKA Van-e szoros összefüggés? Adatfajták Változók száma Kettő Kettő vagy több Több
Intervallum Korrelációszámítás Regresszióanalízis Parciális korreláció Faktoranalízis Klaszteranalízis
Ordinális Rangkorreláció
Nominális χ²-próba
10.3.1 Korreláció Ha két paraméteres változó közötti kapcsolatot vizsgálunk, a kapcsolat szorosságát mérőszámmal jellemezzük. Több ilyen mérőszám létezik, ezek közül a legelterjedtebb az ún. korrelációs együttható. Az együtthatót r-rel jelöljük, és a mérések közötti lineáris kapcsolat szorosságát méri. A korreláció mindig ugyanazon személy vagy csoport adatai közötti kapcsolatot vizsgálja. Azt vizsgálja, hogy van-e kapcsolat a két adatsor között, illetve hogy ez a kapcsolat mennyire szoros (erős) és milyen irányú (pozitív vagy negatív).
108
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A korrelációs együttható (r) -1 és 1 között van, vagyis 1 rxy 1. Grafikusan ábrázolva a pontokat és nem fekszenek egy egyenes mentén, akkor azt mondjuk, hogy nincs korreláció közöttük (r=0), vagy gyenge korreláció van közöttük ( r közel van 0-hoz.). Ha a pontok egy egyenes mentén fekszenek, akkor r közel van +1-hez vagy -1-hez, ekkor azt mondjuk, hogy a két változó között szoros vagy magas korreláció van. Ha a pontok pontosan rajta vannak egy növekvő egyenesen, akkor r=1, ha pedig egy csökkenő egyenesen vannak pontosan rajta, akkor r=-1. Korreláció: a korreláció-számítás az egyes adatcsoportok eloszlása közötti összefüggést tárja fel, jele: r pozitív (r>0), ha az egyik változó magas értékeihez a másik változó magas értékei, illetve az egyik változó alacsony értékeihez a másik változó alacsony értékei tartoznak. (Pl. A jó matematika tesztet írók jó fizika tesztet, míg a gyenge matematika tesztet írók gyenge fizika tesztet írnak.) negatív (r<0), ha az egyik változó magas értékeihez a másik változó alacsony értékei, illetve az egyik változó alacsony értékeihez a másik változó magas értékei tartoznak. (Pl. A jó fizikatesztet írók gyenge nyelvtan tesztet, míg a gyenge fizika tesztet írók jó nyelvtan tesztet írnak.) a korreláció szignifikanciája a kapcsolat erősségére mutat (5.5 fejezet).
Az eljárás menete Az adatok rögzítését követően az Analyze/Correlate/Bivariate menűsorra kattintva a lehulló ablakba jelöljük ki a Bivariate parancsot.
109
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
41. ábra: Analyze/ Correlate/Bivariate A baloldali listában találhatjuk az általunk bevitt változókat, melyek közül most két vagy több változó korrelációját szeretnénk vizsgálni. Ehhez egy kattintással ki kell jelöljük a vizsgálni kívánt változót, és a középen látható nyílra kattintva áthelyezi a Variables listába. Ugyanígy kell eljárnunk minden vizsgálandó változóval. Kipipáljuk a Pearson korrelációs együtthatót és rákkatintunk a Two-tailed-et rádiógombra.
110
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
42. ábra: Analyze/ Correlate/Bivariate/Variables
43. ábra: Analyze/ Correlate/Bivariate/Options
111
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Az Options… kijelölésével kiírathatjuk a változók átlagát és szórását is kiírattathatjuk. Majd az OK gomb lenyomásával kapjuk az Output ablakba az eredményeket. Leíró statisztika eredményei 22. táblázat: Korreláció Output táblázatai
IMM alkalmazása IMM és tanári konzultáció hagyományos módszer
Mean
Std. Deviation
N
109,10
9,142
20
98,40
5,124
20
115,75
7,078
20
IMM alkalmazás a IMM alkalmazása IMM és tanári konzultáció hagyományos módszer
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
1 20 ,225 ,340 20 -,248 ,292 20
IMM és tanári konzultáci ó ,225 ,340 20 1 20 -,138 ,562 20
hagyomán yos módszer -,248 ,292 20 -,138 ,562 20 1 20
Az eredmények alapján megállapítható: IMM és IMM+tanári konzultáció között a korrelációs együttható = 0,225 p = 0,340. Az eredmények tükrében gyenge a kapcsolat és a populáció 66%-ban a véletlen műve az eredmény Hagyományos és az IMM alkalmazása között a korrelációs együttható = -0,248; p = 0,292. Az eredmények tükrében negatív a kapcsolat és a populáció 70,8%-ban a kapott eredmény a véletlen műve. Hagyományos és IMM+tanári konzultáció A korrelációs együttható: -0,138; p=0,562. Az eredmények tükrében negatív a kapcsolat és a populáció 43,8%-ban a kapott eredmény a véletlen műve. Az eredmény grafikus ábrázolásához a menüsorból válasszuk ki: Graphs /Scatter…parancsot
112
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
44. ábra: Graphs /Scatter A lehulló ablakból válasszuk ki a Simple alparancsot:
45. ábra: Graphs /Scatter/Simple
113
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
46. ábra: Graphs /Scatter/Simple változók behúzása Az x és y axis mezőbe behúzzuk azt a két változót, amelyet a koordinátarendszer két tengelyén szeretnénk szerepeltetni. Ha pontok egyenes mentén helyezkedhetnek el, abban az esetben a meredekségtől függően pozitív/negatív kapcsolatot olvashatunk le.
114
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
47. ábra: Az adatok random jellege 10.3.2 Korreláció-analízis A korrelációanalízis több véletlen változó közötti kapcsolat jellemzésére szolgál. Feltételezzük, hogy mindkét valószínűségi változó (x és y) normális eloszlású, és a közöttük lévő lineáris összefüggés mértékét a korrelációs együttható mutatja, melyet r-rel jelölünk. Értéke -1 és +1 közé eshet, a határokat is beleértve. Ha r pozitív, akkor y együtt növekszik, vagy csökken x-szel. Negatív r esetében ellentétes irányú a változás. Amennyiben az r értéke │1│, x és y között függvényszerű kapcsolat van, amelynél minden pont egy egyenesen helyezkedik el. A két változót, ill. ismérvet korrelálatlannak nevezzük, ha r=0. A korreláció szignifikanciájának meghatározása során a Variable ablakba behúzzuk változókat (kettőnél több) és a Correlation Coefficients és a Test of Significance beállítását követően az Output ablak táblázata a változók közötti kapcsolat erősségét is bemutatja.
115
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 23. táblázat: Korrelációanalízis összeredménye
Correlations Fizetés Fizetés
Megtakarítás
,772**
-,517**
,237
,000
,003
30
30
30
30
-,222
1
-,016
,690**
,933
,000
1
Sig. (2-tailed) Megtakarítás
Pearson Correlation Sig. (2-tailed) N
Iskolai végzettség
Pearson Correlation Sig. (2-tailed) N
Életkor
Pearson Correlation Sig. (2-tailed)
Életkor
-,222
Pearson Correlation N
Iskolai végzettség
,237 30
30
30
30
**
-,016
1
-,317
,000
,933
30
30
30
30
**
**
,690 ,000
-,317 ,088
1
30
30
30
,772
-,517 ,003
N 30 **. Correlation is significant at the 0.01 level (2-tailed).
,088
10.4 ÖSSZEFOGLALÁS A fejezetben két és több minta változói közötti kapcsolatot vizsgáltuk korrelációval, a grafikus ábrázolás a két változó közötti összefüggést vizuálisan szemlélteti. Az ok-okozati összefüggésekre a korreláció/korrelációanalízis nem mutat rá, ennek elemzése további statisztikai megfontolást kíván.
116
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
11. HIPOTÉZIS-VIZSGÁLAT AZ SPSS-SEL. VARIANCIAANALÍZIS. KERESZTTÁBLA ELEMZÉS 11.1 CÉLKITŰZÉS A hipotézis a kutatás vezérfonalát adja, amelyben a kutatás eredményivel kapcsolatos sejtésünket fogalmazzuk meg. Feladatunk a sejtések igazolása/elvetése valamint, hogy a statisztikai mutatókkal hogyan támaszthatók, bizonyíthatók a feltevéseink. A fejezet célja, hogy a kijelölt műveletet tudatosan alkalmazva, a kapott eredményeket értelmezve az olvasó képes legyen következtetéseket levonni a kutatására.
11.2 TARTALOM Egymintás T- próba Kétmintás T-próba Varianciaanalízis Kereszttáblaelemzés
11.3 A TANANYAG KIFEJTÉSE A nullhipotézis elfogadás/elvetés vizsgálata a paraméteres függő és független változók önkontrollos mérése során az egymintás, a kontrollcsoportos kísérletek esetén a kétmintás T-próbát, alkalmazzuk, kis minta esetén (n<30). Többmintás esetben a variaanalízist. Abban az esetben, ha a függő és a független változó nem paraméteres, a kereszttábla elemzés ajánlott a változók közötti kapcsolat elemzésére (igazolás, elvetés) a nullhipotézis vizsgálatára. Ebben a fejezetben az SPSS célszoftverrel tanulmányozzuk a fent említettek megvalósítását. 11.3.1 Hipotézis-vizsgálat SPSS-sel Nullhipotézis (jele: Ho) A hipotézis statisztikai vizsgálata során megfogalmazzuk azt a kiindulási feltételezést, hogy a két minta által reprezentált alapsokaság paraméterei között nincs eltérés, azaz a vizsgált minták ugyanazt a populációt reprezentálják. Ha a próbamutató empirikus értéke ≥ a kritikus értéknél, akkor elvetjük a nullhipotézist. A két minta eredménye szignifikánsan különbözik egymástól. Ha a próbamutató empirikus értéke < a kritikus értéknél, akkor nincs elég indok a nullhipotézis elvetésére. A vizsgált esetek között nem mutatható ki eltérés, azonban ez nem jelenti, hogy a két módszer egyenértékű. Nagyobb minták esetén nem zárható ki, hogy szignifikáns eltérést fogunk tapasztalni a módszerek között. Alternatív hipotézis (H1), mely a különbség meglét feltételezi, vagyis azt, hogy a populáció átlaga különbözik egy adott értéktől. Azt a valószínűséget, amely esetén H0-t elvetjük p-vel jelöljük és szignifikanciaszintnek nevezzük. Értékei p<0,05, p<0,01 és p<0,001
117
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A két minta szignifikanciája függ: a két minta számtani középértékének különbségétől, a minták szórásától, A minták elemeinek számától. 11.3.2 Egymintás T-próba A fenti minta SPSS szoftverrel történő kiszámítása gyors és megbízható. Tekintsük át röviden a lépéseket! A Fájl menüből az Open paranccsal kiválasztjuk az elemezésre kerülő adatsort, az első oszlop változója x, a másodiké y. Az egymintás T-próba az Analyze parancsból lenyíló Compare Means paranccsal aktiválható, melyben a Paired-Samples T-test parancsot választjuk az alábbi ábra alapján.
48. ábra: Analyze/Compare Means/Paired-Samples T-test Az ablakban megjelenő változók listáját kiválasztva az adatokat a nyíl segítségével a Paired Vales ablakba tesszük. A szignifikancia intervallum kiválasztása a az Option gombbal aktivizálható, mellyel a kívánt értéket beállítjuk, jelen esetben a 95%-ot.
118
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
49. ábra: Analyze/Compare Means/Paired-Samples T-test, szignifikanciaszint
50. ábra: Egymintás T-próba eredmény táblázata 11.3.3 Kétmintás T-próba Két összefüggő minta összehasonlítására alkalmas, abban az esetben, ha a mintacsoport tagjain a vizsgált változót kétszer egymás követően alkalmazzák. 1. mérés: a kísérlet előtti állapot 2. mérés: a kísérlet utáni állapot Ha kísérlet eredményes, az érkezési – és kiindulási eredmények különbsége nem lehet egyenlő nullával. A fenti minta SPSS szoftverrel a statisztikai történő kiszámítása gyors Tekintsük át a lépéseit! A Fájl menüből az Open paranccsal kiválasztjuk az elemezésre kerülő adatsort, az első oszlop változója x, a másodiké y. A kétmintás T-próba az Analyze parancsból lenyíló Compare Means paranccsal aktiválható, melyben a Paired-Saples T-test parancsot választjuk az alábbi ábra alapján.
119
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
51. ábra: Kétmintás T-próba lehulló ablaka Az ablakban megjelenő változók listáját kiválasztva az adatokat a nyíl segítségével a Paired Vales ablakba tesszük. A szignifikancia intervallum kiválasztása a az Option gombbal aktivizálható, mellyel a kívánt értéket beállítjuk, jelen esetben a 95%-ot.
52. ábra: Kétmintás T-próba szignifikanciaszint beállítása Az OK gombra kattintva megkapjuk a vizsgálat eredményét: 24. táblázat: Kétmintás T-próba eredmény táblázata
120
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
25. táblázat: Az angol nyelvű eredmények magyar megfelelői
Mean Std Deviation Std Error Mean Lower and Upper Interval of the Difference df t Sign. (2-tailed)
átlag szórás átlagos szórási hiba az alsó és a felső szignifikancia intervallum értékei az eloszlás szabadságfoka a számított t értéke biztonsági szint, p=0,000, vagyis a kapott eredmények 100%-is szignifikánsak
Az eredmények értelmezése alapján megállapítható, hogy a számítógéppel támogatott oktatás eredményessége a vizsgált körülmények között, 100%-os szinten is szignifikáns (p=0,000), és nem a véletlen műve, hanem az alkalmazott módszere eredményessége. 11.3.4 Varianciaanalízis A varianciaanalízis SPSS szoftverrel történő meghatározása egyszerűen végrehajtható, ehhez azonban az adatokat az alábbi táblázat elve szerint kell átrendezni: 26. táblázat: Az adatok átstrukturálása a variaanalízishez
teljesítmény pont1 … pont1 … pont1 … Pont1 … pont1 ….
csoport 1 1 2 2 3 3 4 4 5 5
A varianciaanalízis végrehajtása az Analyze menüből lehulló Compare Means parancs Means almenü létrehozásával valósítható meg, melyet tekintsük át röviden. A Means parancs egy változón belüli alcsoport átlagát írja ki az alábbiak szerint:
121
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
53. ábra: Analyze/Compare Means/Means A Depend List ablakába a függő változókat helyezzük, az Independent List ablakába a független változókat, amelyek alapján a csoportosítást végeztük. Majd a jobb alsó sarokban az Option gombra történő kattintással beállítjuk a statisztikai mérőszámokat. Elemezzük önállóan az egytényezős variaanalízissel elemezhető alábbi feladatot: A hallgatók tanulási szokásainak eredményesség mérését 5 csoportban kívánjuk összehasonlítani, feltételezve, hogy a minták egy populáció tagjai. Adjunk választ arra, melyik csoport sajátította el legeredményesebben a tananyagot az alábbi 5 csoport közül.
122
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
27. táblázat: A feladat adattáblázata
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
A csoport 89 69 86 86 86 88 74 101 101 104 81 99 95 92 94 69 75 75 92 75
B csoport 70 83 83 85 47 100 79 88 78 73 88 68 67 83 97 100 89 86 90 95
C csoport 107 80 98 101 102 109 109 103 92 95 92 108 95 109 81 107 116 100 105 84
D csoport 99 102 114 93 119 117 119 98 94 93 110 114 88 93 92 105 94
E csoport 103 90 103 113 77 69 100 102 83 91 107 95 85 82 89 102 82 79 95 97
11.3.5 Kereszttáblák A kereszttáblákat két nem paraméteres (legalább nominális) változó összefüggésének vizsgálatánál alkalmazható. A táblázat azon cellái, melyek tartalmazzák a két változó (oszlop és sorváltozó) értékeinek minden kombinációja esetén kapott értékeket. A kapott értékek információt szolgáltatnak a két változó közötti összefüggésről. A nominális változók statisztikában gyakran használt hipotézis-vizsgálati módszere a Pearson–Chi-négyzet próba, nem befolyásolja a hipotézisvizsgálat megbízhatóságát. A chinégyzet próbával nullhipotézis (a vizsgált változók között nincsen összefüggés) ellenőrzése végezhető. Abban az esetben ha a chi-négyzet értékhez tartozó szignifikanciaszint kisebb, mint 0,05, elvetjük a nullhipotézist, ellenkező esetben megtartjuk.
Jellemzői: A sor és oszlopváltozók függetlenség vizsgálata, ezáltal a hipotézis ellenőrzésének a statisztikai eljárása.
123
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Nem jól használható, ha bármelyik cellában a peremeloszlások alapján várható érték (expected value) kisebb 1-nél, vagy a cellák több mint 20%-ban ez az érték kisebb mint 5. A likelihood-ratio chi-négyzet a max. likelihood elméleten alapuló Pearson chi-négyzet a legelterjedtebb forma.
Az eljárás menete Count a cellák elsődlegesen a két változó által meghatározott esetek számait, a gyakoriságot tartalmazzák (bal felső sarok) Row Percentages a második érték a sor százalék, amely a sor értékeinek a cellába eső hányadát mutatja. Column Percentages a harmadik elem az oszlop százalék, amely az egész oszlop értékeinek a cellába eső hányadát mutatja. Table Percentage az utolsó elem a táblázat százalék, amely a táblázat értékeinek a cellába eső hányadát mutatja Marginals a táblázat alatt és tőle jobbra látható értékek a határértékek, amelyek az oszlop- és sorváltozók százalék és számértékeit külön-külön tartalmazzák.
Kereszttábla, a Chi-négyzet próba Tekintsük át a Kereszttábla próba lépéseit! Az Spss felületén kattintsunk az Analyze/Desciptive Statistics/Crosstabs menűre.
54. ábra: Analyze/Desciptive Statistics/Crosstabs menűre
124
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Húzzunk át egy vagy több változót a Row(s) (sorok) ill. Column(s) (oszlopok) dobozaiba. A tábla sorait sorváltozók kategóriái adják, a tábla oszlopait az oszlopváltozó kategóriáit. Egy kereszttábla generálódik minden sor- és oszlopváltozó párhoz. A válaszpanelen beállítjuk a szükséges paramétereket.
55. ábra: Analyze/Desciptive Statistics/Crosstabs felülete Display clustered bar charts: olyan oszlopdiagramot közöl, amely a kereszttábla egyes celláihoz tartozók elemszámát mutatja Suppress tables: a kereszttáblát nem, csak a statisztikákat közli A Format gomb lenyomása után megjelenő dialógus dobozban a táblázat formátumát adhatjuk meg. A Crosstabs ablakon belül lehetőségünk van arra, hogy beállítsuk, milyen adatokat akarunk a cellákban megjeleníteni: Cells …
125
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
56. ábra: Analyze/Desciptive Statistics/Crosstabs/Cells felülete A Counts felületén: Observed: a megfigyelt gyakoriságok (a sor- és az oszlopváltozók függetlensége esetén) Expected: a várt gyakoriságok (a sor- és az oszlopváltozók függetlensége esetén) Percentages felületén: Row: sorszázalék Column: oszlopszázalék Total: totálszázalék, vagyis az adott cellába eső esetek száma az összeshez viszonyítva A Continue gomb lenyomását követően visszatérünk a Kereszttábla bejelentkező felületére. Ezt követően lenyomjuk a Statistics gombot.
126
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
57. ábra: Analyze/Desciptive Statistics/Crosstabs/Statistics A Statistics válaszfelületen különböző statisztikai mutatókat kérhetünk Chi-square: a nullhipotézist teszteli, nem ad választ a kapcsolatuk irányáról és erősségéről. Correlation: (Pearson's R): intervallum szintű, a változó lineáris összefüggésének mérésére alkalmas mérőszám. Értéke a -1; 1 zárt intervallumba esik. negatív értékek negatív (az egyik változó értékének emelkedésével a másik értéke csökken), lineáris meghatározottságot pozitívak pozitív összefüggést jelentenek (az egyik változó értékének emelkedésével a másik értéke is nő), lineáris meghatározottságot 0 jelentése, hogy a két változó között nincs lineáris összefüggés, vagyis a két változó korrelálatlan Nominal Data: (nominális adatok) Phi and Cramer’s V: 2 alapú asszociációs mérőszám. Értéke 0; 1 között mozoghat, ahol a 0 érték azt jelenti, hogy nincs kapcsolat a két változó között, 1 érték tökéletes statisztikai együttjárást jelez. 2 2-s táblánál Phi-t használunk, nagyobbra Cramer’s V-t. Lambda: asszociációs mérőszám, amely arra mutat, hogy az egyik változó értékeinek megtippelése mekkora hibacsökkenést okoz a másik változóban. Értéke 0; 1 között mozoghat, ahol 1 jelzi a tökéletes statisztikai együttjárást.
127
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Gamma: asszociációs mérőszám. A lambdához hasonlóan ez is arra mutat, hogy menynyire segíti az egyik változó ismerete a másik értékének előrejelzését. De a gamma esetében nem az értékre történik s tippelés, hanem az értékek ordinális elrendezésére, nagyságviszonyára. Értéke -1; 1 közé esik és a kapcsolat nagyságán kívül annak irányára is utal. Format gomb dialógus dobozában a táblázat formátumát adhatjuk meg. 28. táblázat: Crosstabs Output ablaka
A táblázat alapján a következő olvasható le. A Case Prcessing Summary táblázatban foglaltak szerint a kérdésre a mintában résztvevők 86,8%-a adott választ, 13,2% nem,Az első évfolyamos tanulók 74,2%-a úgy nyilatkozott nem iszik alkoholt ez az iskolatanulóinak 20,2%-t jelenti. A tanulók 25,8%-atársaságban iszik, ők az iskola tanulóinak 7,0%.t jelentik. Rendszeresen nem isznak az elsős gimnazisták. Hasonlóan jellemezhető mind a négy osztály, majd a utolsó sora (Total) az alkohol fogyasztást iskolai szinten összesítve számszerűsíti.
128
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 11.4 ÖSSZEFOGLALÁS Az empirikus kutatások számítógépes feldolgozásának jelentősége megnövekedett. A hallgatók számára elsősorban elméleti ismeretet feldolgozó tankönyvek álltak rendelkezésre. Az utóbbi évtizedben a munkapiac részéről megnőtt az SPSS alkalmazó szintű ismerete iránti igény, valamint az a követelmény, hogy az adatokat és az eredményeket SPSSprogram által generált formában prezentálják a szakemberek. A tankönyv tananyaga, modulszerű felépítése által a tanári és nem tanári szakokon is alkalmazható. Az elsajátított ismeretet a hallgatói kutatómunkán túl, felkészíti a leendő szakembert az élet különböző szakterületén, a kapott adatok elemzésére. 11.5 ÖNELLENŐRZŐ KÉRDÉSEK 1. Elemezze az egymintás T-próba menetét és értelmezze az eredményt. 2. Elemezze az kétmintás mintás T-próba menetét és értelmezze az eredményt. 3. Ismertesse a kereszttáblaelemzés folyamatát.
129
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
12. A KURZUSBAN KITŰZÖTT CÉLOK ÖSSZEFOGLALÁSA Napjaink információs társadalmában a „tudás jellege megváltozik: gyakorlatiassá, multimédiálissá és transzdiszciplinárissá lesz” írja tanulmányában Nyíri Kristóf (Benedek, 2008), mellyel a felgyorsult világban nap mint nap szembesülünk. A kutatások megtervezése, lebonyolítása, az eredmények értelmezése és annak alapján a következtetések levonása, változtatások végrehajtása napi gyakorlattá vált az élet minden területén. Társadalmunk megkívánja, hogy a szakemberek az képesek legyenek az adatokat tudományos módszerrel információkká feldolgozni, mely a tudásfejlesztés alapja. A jegyzet célja, hogy a különböző szakterületek olvasói betekintést nyerjenek a kutatási folyamat megtervezésébe, adatelemzési eljárások témakörébe valamint az SPSS statisztikai célszoftver felületébe.
12.1 TARTALMI ÖSSZEFOGLALÁS A jegyzet három nagy témakörben dolgozza fel az ismeretanyagot. Az első az alapismeretekkel foglakozik, ezen belül a matematikai döntéselmélet és a kutatásmódszertani alapismeretekkel, mely megalapozza a további ismeretanyag feldolgozását. A második rész a kutatás statisztikai elméletét elemzi a középértékmutatóktól a faktoranalízisig. A harmadik témakörben az SPSS alapismereteitől kiindulva az adatok feldolgozásával ismerkedhet meg az olvasó. A jegyzet keresztmetszetet ad a kutatás elméleti és gyakorlati kérdéseit érintve. Alapot nyújt, hogy a saját kutatást hogyan kezdje el az olvasó, milyen szakirodalomban tájékozódhat a továbbiakban.
12.2 A TANANYAGBAN TANULTAK RÉSZLETES ÖSSZEFOGLALÁSA A jegyzet 12 fejezetre tagozódik, az ismeretanyag 10 fejezetben, a fejezetek végén önellenőrző kérdésekkel és gyakorló teszttel, mely az ismeretanyag elmélyítését segítik. A második fejezet bemutatja a kutatás terv folyamatát, módszerét és kiemeli, a null és alternatív hipotézisek, döntési szituációk fontosságát. Bemutatja a tévedések lehetőségeit, a gyakori hibákat. A harmadik fejezet a kutatásmódszertan alapelemeit foglalja össze, kutatás fogalmától kiindulva a kutatási terv elkészítésén át a mintavételig. Hangsúlyozza, hogy az eredményes kutatás kulcsa a kutatás tervszerű előkészítése. A fejezet elsajátításával az olvató kutatását végiggondolva elkészítheti saját kutatási tervét. A negyedik fejezetben a középértékmutatókat ismerhetjük. mellyel a mért adatok tömörítése valósítható meg. A mutatók rávilágítanak a mintában rejlő összefüggésekre és különbségekre és a gyakoriságok összehasonlításával összevethető a minták eloszlása. Elemzi a középérték mutatókat és szerepüket a minta jellemzése céljából, a gyakoriságot és a gyakorisági eloszlást a kutatás szempontjából. A fejezet végén a grafikus ábrázolás széles választékát tekinthetjük át, mely szemléletessé teszi a változók kapcsolatát. Az ötödik fejezetben, változók adatfajtája alapján kerül csoportosításra az alkalmazható vizsgálati módszer. Az intervallum és arányskála típusú változók esetén az független és a függő változók közötti kapcsolat és annak erőssége a korreláció számítással bizonyítható.
130
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A hatodik fejezet a paraméteres és nem paraméteres próba jellemzőit ismerteti meg az olvasóval, valamint ennek alapján csoportosítja a statisztikai eljárásokat. Részletesen a kétmintás önkontrollos és a kontrollcsoportos hipotézis vizsgálattal foglalkozik. A fejezet további részében a nem paraméteres próbák során alkalmazott kerettábla elemzés jellemzőit, az eredmények értelmezését ismeri meg az olvasó A hetedik fejezet a többváltozós populációk statisztikai elemzési módszerével foglakozik, ezek közül faktoranalízis, a diszkiminancia analízis, a főkomponens analízis, a klaszteranalízis elméleti kérdéseivel. A nyolcadik fejezet betekintést nyújt az SPSS-program felületének felépítésébe, az adatok rögzítésébe. Ismerteti a szoftver használatának feltételeit, az adatmátrix szerkezetét és a menüsor parancsait és a kitöltés menetét. A kilencedik fejezetben az SPSS-célszoftverrel lefuttatható leíró statisztikai alapműveleteket ismerjük meg. A lecke második részében az adatok új szempont szerint csoportosításának, matematikai és logikai műveletek elvégzésének lehetőségeit tekintjük át, mely adott feltételeknek megfelelő adatkezelési lehetőséget tartalmaz. A tizedik fejezet két és több minta változói közötti kapcsolat vizsgálatát mutatja be korrelációszámítással. A grafikus szemléltetés vizuálisan is elemezhetővé teszi a két változó közötti összefüggést. A korrelációs együttható azonban az ok-okozati összefüggésekre nem mutat rá, ennek elemzése további szakmai megfontolásokat kíván. A tizenegyedik fejezet a nullhipotézis elfogadás/elvetés vizsgálatával foglakozik. A fejezet első részében a paraméteres függő és független változók önkontrollos mérésekkel. A fejezet rámutat, hogy a kutatás során mikor alkalmazható az egy- és kétmintás T-próba és a variaanalízis. Abban az esetben, ha a függő és a független változó nem paraméteres, a kereszttábla elemzés ajánlott a változók közötti kapcsolat elemzésére. A fejezetben az SPSScélszoftverrel tanulmányozzuk a fent említettek megvalósítását. Az empirikus kutatások számítógépes feldolgozásának igénye megnövekedett. Az utóbbi évtizedben a munkaerőpiac részéről megnőtt az SPSS alkalmazó szintű ismerete iránti igény, valamint az, hogy az adatokat és az eredményeket SPSS-program által generált formában prezentálják a szakemberek. A megszerzett ismeretek alapján saját kutatás tervezhető és megvalósítható.
131
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI
13. KIEGÉSZÍTÉSEK 13.1.1 Irodalomjegyzék BABBIE, Earl:A társadalomtudományi kutatás gyakorlata. Balassi Kiadó. Budapest. 2003 BENEDEK András: Digitális Pedagógia. tanulás IKT környezetben.TYPOTEX. Budapest, 2008. KOVÁCS Zoltán: Termelésmenedzsment. Veszprémi Egyetem Kiadó. Veszprém. 2001. p. 235 Dr. ILLYÉSNÉ dr. Molnár Emese: Gondolatok a minőség mérhetőségérőlés az alkalmazható módszerekről. Tudományos Évkönyv 2007. Budapedti gazdasági Főiskola 2008. Bevezetés a pedagógiai kutatás módszereibe. szerk. Falus Iván. Keraban Kiadó Budapest. 1996. FALUS Iván és OLLÉ János: Az empirikus kutatások gyakorlata. Adatfeldolgozás és adatelemzés. Nemzeti Tankönyvkiadó. Budapest. 2008 FALUS Iván és Ollé János: Statisztikai módszerek pedagógusok számára. Budapest: Okker, 2000. Murray R. SPIEGEL: Statisztika.PANEM-McGRAW-HILLInc.. Panem Kft. Budapest. 1995 KETSKEMÉTY László – IZSÓ Lajos: Az SPSS for Windows programrendszer alapjai. SPSS Partner Bt. KETSKEMÉTY László – IZSÓ Lajos: bevezetés az SPSS programrendszerbe. ELTE Eötvös Kiadó. Budapest, 2005 SZÉKELYI Mária – BARNA Ildikó: Túlélőkészlet az SPSS-hez. Többváltozós elemzési technikáról társadalomkutatók számára.Typotex Kiadó.2002. LENGYELNÉ Molnár Tünde, TÓVÁRY Judit: Kutatásmódszertan . – Eger: Líceum kiadó, 2001. Ю.Н.Тюрин, А.А.Макаров Анализ данных на компутере. Инфра-М. Москва. 2003. 13.1.2 Hivatkozások
Könyv BABBIE, Earl: A társadalomtudományi kutatás gyakorlata. Balassi Kiadó. Budapest. 2003 BENEDEK András: Digitális Pedagógia. tanulás IKT környezetben.TYPOTEX. Budapest, 2008. KOVÁCS Zoltán: Termelésmenedzsment. Veszprémi Egyetem Kiadó. Veszprém. 2001. p. 235 Dr. ILLYÉSNÉ dr. Molnár Emese: Gondolatok a minőség mérhetőségérőlés az alkalmazható módszerekről. Tudományos Évkönyv 2007. Budapedti gazdasági Főiskola 2008. FALUS Iván és OLLÉ János: Az empirikus kutatások gyakorlata. Adatfeldolgozás és adatelemzés. Nemzeti Tankönyvkiadó. Budapest. 2008 FALUS Iván és Ollé János: Statisztikai módszerek pedagógusok számára. Budapest: Okker, 2000.
132
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Murray R. SPIEGEL: Statisztika. PANEM–McGRAW–HILLInc. Panem Kft. Budapest. 1995 KETSKEMÉTY László – IZSÓ Lajos: Az SPSS for Windows programrendszer alapjai. SPSS Partner Bt. KETSKEMÉTY László – Izsó Lajos: bevezetés az SPSS programrendszerbe. ELTE Eötvös Kiadó. Budapest, 2005 SZÉKELYI Mária – BARNA Ildikó: Túlélőkészlet az SPSS-hez. Többváltozós elemzési technikáról társadalomkutatók számára.Typotex Kiadó.2002. LENGYELNÉ Molnár Tünde, TÓVÁRY Judit: Kutatásmódszertan . –Eger: Líceum kiadó, 2001. Ю.Н.Тюрин, А.А.Макаров Анализ данных на компутере. Инфра-М. Москва. 2003.
Elektronikus dokumentumok / források http://xenia.sote.hu/hu/biosci/docs/biometr/course http://www.kfki.hu/chemonet/hun/eloado/stat/index.html
13.2 GLOSSZÁRIUM, KULCSFOGALMAK ÉRTELMEZÉSE determinisztikus kutatás
Sztochasztikus Populáció Érvényesség– Validitás Értéktartomány Gyakoriság Gyakorisági eloszlás Relatív gyakoriság Megbízhatóság Reliability Objektivitás
azonos körülmények között mindig ugyanúgy játszódik le az esemény; a feltételek ismeretében a jelenség további jellemzői egyértelműen meghatározottak (pl. szabadesés, stb.) valamilyen tudatosult igény, probléma megoldására irányuló megoldási folyamat, melynek során a jelenséget komplex módon előre átgondolt hipotézis alapján tanulmányozzuk más szóval véletlen a jelenségek kimenetele, azonos körülmények között is nem egyértelműek (pl. pénzfeldobás, lottó stb.) azon egyének (dolgok) összessége, akikről (amikről) információt szeretnénk kapni. A populáció egyedei a statisztikai elem ennek a kritériumnak való megfelelés, hogy a kutatás a valóban a vizsgálat tárgyára irányul-e. A minta legnagyobb és legkisebb eleme által határolt intervallum. egy olyan mutató, amely jellemzi, hogy egy-egy csoportba hány adat tartozik. Egy olyan statisztikai mutató, mely arra mutat, hogy a minta elemei hogyan oszlanak meg a különböző csoportok között. A mintára vonatkozóeredményt abszolút gyakorisági elosztásnak nevezzük. A csoport abszolút gyakoriság értékének a minta elemszámához százalékosan viszonyított értéke. Ennek a kritériumnak való megfelelés azt jelenti, hogy a kutatás annak megismétlése, ismételt alkalmazása során is az eredetivel egyező illetve kevéssé eltérő eredményt szolgáltat. Mérése a varianciák összehasonlításával történik. Ennek a kritériumnak való megfelelés azt jelenti, hogy mennyire tárgyilagos, vagyis független a mérés során kapott eredmény az
133
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Itemek Nominális skála Ordinális skála
Intervallumskála
Arányskála Minta átlaga Módusz Médián
Szórás minta
134
adott módszert alkalmazó, a felmérést végző személytől. A tesztek legkisebb önállóan értékelhető egységét jellemző adat. Olyan szimbólumok, számok, melyek csak az azonosítást szolgálják. A valós számok egy tulajdonsága sem jellemzi, vagyis még sorba sem rendezhetőek (pl. nemek, beosztás, lakóhely, vallás…) Olyan szimbólumok, számok, amelyek alkalmassá teszik a vizsgált egyedek közötti sorrendiség felállítását, mely lehet az egynemű adatok rendezésének alapja is. A változó értékeinek különbsége nem értelmezhető. (pl. iskolai végzettség, attitűd skála értéke, a termékek minősítés értékei, osztályzatok…) Az objektum kvantitatív mérése során a mérhető adatokat vizsgálva az egyedeket jellemző ún. Méréssel kapott adatokat kapjunk. Az intervallum nagyságát a két adat közötti eltérés adja, definiált mértékegységgel rendelkezik, tehát különbségük értelmezhető (születési dátum, életkor…) Az egyedek ismérveit numerikusan kifejező számérték. A változó értékei sorba rendezhetőek, különbségük és arányuk is értelmezhető (pl. testmagasság, súly…) A számhalmaz átlaga, más szóval – számtani közepe –, az a szám, amelytől az adatok eltéréseinek összege zérus egy számhalmaz módusza a legnagyobb gyakorisággal rendelkező érték. A módusz nem feltétlenül létezik, és ha igen nem biztos, hogy egyetlen érték képviseli A nagyság szerint rendezett, vagyis rangsorba állított számhalmaz középső értéke, páratlan szám A minta a populáció részhalmaza, amelyen a kísérletet végezzük sorok esetén, vagy a két középső érték számtani átlaga, – páros számsorok esetén (a nominális adatokra nem értelmezhető, de az ordinális adatok esetén igen) Az adatok mintaátlagától vett négyzetes átlaga A populáció részhalmaza, amelyen a kísérletet végezzük.