Mérés:
dolgokhoz valamely szabály alapján számokat rendelünk.
Adat:
a dolgokhoz valamely szabály alapján rendelt számok.
Adatfajták - mérési skálák: Arányskála tulajdonsága: - egy-egy szám mint adat mindig ugyanazt a „teljesítményt” jelenti, -
sorba állítható,
-
összeadható (additív: 2 pont + 5 pont = 7 pont)
-
egyedekhez rendelt számok arányai információt hordoznak (2cm • 3 = 6 cm)
pl.:
-
van abszolút 0 pontja
-
metrikus adatok (testmagasság, időtartam, stb.)
mérhető adatok - intervallum (metrikus) skála tulajdonsága: - egy-egy szám mint adat mindig ugyanazt a „teljesítményt” jelenti,
pl.:
-
sorba állítható,
-
összeadható (additív: 2 pont + 5 pont = 7 pont)
- pontszámok (tudásszintmérő, IQ)
rangsorolt adat - rangskála tulajdonsága:
pl.:
-
sorba rendez,
-
nem összeadhatók ( nem additív: 2. hely + 7. hely ≠ 9. hely)
- fontossági sor értékek között, verseny sorrendje
megállapítható adat - nominális skála tulajdonsága:
pl.:
-
valamely kategóriába tartozást fejez ki
-
nem jellemzi sorrendiség
-
nem additív ( két férfi ≠ egy nő)
- az emberek neme, iskolai végzettség
Statisztikai alapkérdések: 1. általános tendenciának, a középértéknek a mérése 2. annak megállapítása, hogy az egyes adatok mennyire térnek el a középértéktől, azaz a szóródás mérése 3. összefüggések vizsgálata, azaz korreláció vizsgálat Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p
Fogalmak: Alapsokaság (populáció): Azon személyek, dolgok összessége, amelyre következtetést kívánunk levonni. Minta: A populáció azon része, amelyet ténylegesen bevonunk a vizsgálatba. Reprezentatív minta: Leíró statisztika: A vizsgált minta jellemzőit tárja fel. (pl.: egy osztály, iskola, stb.). Matematikai statisztika: A reprezentatív mintából a populációra levonható következtetések valószínűségét adja meg, azaz a mintában tapasztalt különbségek ill. összefüggések a populáció egészére milyen valószínűséggel érvényesek. Statisztikai számítások: Leíró statisztika Gyakoriságok abszolút %-os (relatív) kumulatív kvartilisek
Középértékek számtani közép (átlag) módusz medián
Matematikai statisztika (minták száma) egy kettő
több
Matematikai statisztika (minták száma) kettő kettő vagy több több
intervallum skála egymintás t-próba kétmintás t-próba F-próba Welch-próba varianciaanalízis
intervallum skála korrelációanalízis regresszióanalízis parciális korreláció faktoranalízis klaszteranalízis
Szóródások szóródási terjedelem
Korreláció korreláció számítás
interkvartilis félterjedelem átlagos eltérés variancia szórás relatív szórás
Jelentős-e a különbség? ordinális (rang) skála nominális skála Willcoxon-próba χ2-próba Mann-Whitney-próba
χ2-próba
Kruskall-Wallis-próba
χ2-próba
Van-e szoros összefüggés? ordinális (rang) skála nominális skála rangkorreláció χ2-próba
Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p
Mért adatok (intervallum skála): Gyakorisági eloszlások: (A példákhoz a következő 50 darab – pl. 50 tanuló valamilyen teszteredménye - adatot használjuk.) sorszám
adat
sorszám
adat
sorszám
adat
sorszám
adat
sorszám
adat
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
28 32 68 32 48 52 44 59 57 36
11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
51 49 39 42 52 39 29 62 45 47
21. 22. 23. 24. 25. 26. 27. 28. 29. 30.
64 34 33 37 41 49 48 46 53 31
31. 32. 33. 34. 35. 36. 37. 38. 39. 40.
58 43 37 39 43 56 34 61 54 54
41. 42. 43. 44. 45. 46. 47. 48. 49. 50.
51 54 53 42 48 38 41 49 47 53
adatcsoport sorszáma
csoporthatárok
valódi csoporthatárok
csoportközép
abszolút gyakoriság
relatív gyakoriság
kumulatív gyakoriság
1. 2. 3. 4. 5. 6. 7. 8.
25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64
24,5-29,5 29,5-34,5 34,5-39,5 39,5-44,5 44,5-49,5 49,5-54,5 54,5-59,5 59,5-64,5
27 32 37 42 47 52 57 62
2 6 7 7 10 10 4 3
4% 12% 14% 14% 20% 20% 8% 6%
2 8 15 22 32 42 46 49
Gyakorisági eloszlás: a csoportok és a csoporthoz tartozó gyakoriságok együttese Értéktartomány:
adatmax-adatmin
Csoportok száma:
10 –20 db. (kisminta esetén 8 – 9 db.) javasolt
Csoportintervallum: intervallumhossz = 1; 2; 3; 5; 10 javasolt Csoporthatárok:
- alsó határ legyen az intervallumhossz többszöröse - a csoporthatárok nem fedhetik egymást (pl. hibás: 1-10 ; 10 – 20; … jó: 1-10; 11 – 20; …)
Valódi csoporthatár: a csoporthatárok kiterjesztése 0,5-del (hogy a határok „érintkezzenek”) Csoportközép:
az alsó és felső csoporthatár számtani közepe
Abszolút gyakoriság: jele: fi a minta adatai közül a csoportba tartozók száma Relatív gyakoriság:
jele: f(%)i a csoportba tartozó adatok számának és az összes adatnak az aránya (%-os alakban)
Kumulatív gyakoriság: azon adatok száma a mintában, amelyek egy adott értéket elértek Kumulatív relatív gyakoriság: azon adatok számának %-os aránya a mintában, amelyek egy adott értéket elértek Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p
Gyakorisági eloszlások ábrázolása:
GYAKORISÁGI POLIGON 12
10
10
10
8 7
7 6
6
4
4 3 2
2
0
GYAKORISÁGI HISZTOGRAM 12
10
8
6
4
2
2
6
7
7
10
10
4
0
Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p
3
Kumulatív gyakoriság 60
49
50
46 42 40
30
1.+2.+3.+4. +5.
1.+2.+3.+4.+5. +6.
1.+2.+3.+4.+5.+6.+7.+ 8.+9.
1.+2.+3.+4.+5.+6 .+7.
1.+2.+3.+4.+5.+6.+7 .+8.
32
sorszám
adat
sorszám
adat
sorszám
adat
sorszám
adat
sorszám
adat
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
28 32 68 32 48 52 44 59 57 36
11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
51 49 39 42 52 39 29 62 45 47
21. 22. 23. 24. 25. 26. 27. 28. 29. 30.
64 34 33 37 41 49 48 46 53 31
31. 32. 33. 34. 35. 36. 37. 38. 39. 40.
58 43 37 39 43 56 34 61 54 54
41. 42. 43. 44. 45. 46. 47. 48. 49. 50.
51 54 53 42 48 38 41 49 47 53
22
1.+2.+ 3.
.
1.+
10
15
1.+2.+3.+ 4.
20
8
2
A középérték mérőszámai:
középértékek:
jele
értéke:
számtani közép medián módusz
(x) (Me) (Mo)
46,04 47 48
Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p
Számtani közép: n
x + x 2 + .... + x n x= 1 = n
∑x
i
i =1
n
Medián: az az érték, amelyiknél a minta egyik fele nagyobb, a másik fele kisebb (A rendezett minta közepe, középső eleme.) Páratlan darab elem (adat) esetén a középső. Páros darab elem (adat) esetén a két középső számtani közepe. Módusz: a minta elemei között leggyakrabban előforduló érték (vagy a legnagyobb gyakorisággal rendelkező csoport csoportközépértéke).
Szimmetrikus eloszlás:
x =Me=Mo
„Balra ferdült” gyakorisági eloszlás:
x <Me<Mo
Az adatok között gyakoribbak a nagyobb értékek. Mo>Me> x
„Jobbra ferdült” gyakorisági eloszlás:
Az adatok között gyakoribbak a kisebb értékek. Pearson-féle mutatószám: A =
x − Mo (csak egy móduszú esetre alkalmazható) s
Ha A pozitív (A >1), akkor az eloszlás erősen balra aszimmetrikus. Ha A pozitív (A < -1), akkor az eloszlás erősen jobbra aszimmetrikus. Bimóduszú eloszlás: két minta, amelyek különböznek. Előfordulhat, hogy több mintában is megegyezhet az átlag, a módusz és még a medián is. Ezért a középértékek mellett a szóródás mutatóira is szükség van. Pl.:
gyakoriság A csoport B csoport C csoport
u1 10 0 0
u2 20 20 10
u3 40 60 80
u4 20 20 10
A csoport B csoport C csoport
átlag 11,8 11,8 11,8
medián 10 12 12
módusz 10 10 10
u5 10 0 0
Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p
Szóródás: a minta azon tulajdonsága, hogy annak egyes elemei eltérnek a minta középértékeitől. A szóródás mérőszámai: sorszám
adat
sorszám
adat
sorszám
adat
sorszám
adat
sorszám
adat
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
28 32 68 32 48 52 44 59 57 36
11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
51 49 39 42 52 39 29 62 45 47
21. 22. 23. 24. 25. 26. 27. 28. 29. 30.
64 34 33 37 41 49 48 46 53 31
31. 32. 33. 34. 35. 36. 37. 38. 39. 40.
58 43 37 39 43 56 34 61 54 54
41. 42. 43. 44. 45. 46. 47. 48. 49. 50.
51 54 53 42 48 38 41 49 47 53
szóródás: terjedelem kvartilisek
1. 2. 3. interkvartilis félterjedelem átlagos eltérés variancia szórás relatív szórás
A szóródási terjedelem:
jele Ri Q1 Q2 Q3 Q AE 2 S S V
Ri=xmax-xmin
értéke 40 39 47 53 7 7,9984 91,7984 9,581148157 0,208104869
Pl.: Ri=68max-28min=40
Kvartilis: 1. kvartilis Q1:
az az érték, amelynél a rendezett minta elemeinek negyede kisebb, háromnegyede nagyobb.
2. kvartilis Q2:
egyenlő a mediánnal.
3. kvartilis Q3:
az az érték, amelynél a rendezett minta elemeinek negyede nagyobb, háromnegyede kisebb.
Interkvartilis félterjedelem: Q=
Q3 − Q1 2
A rendezett minta elemeinek középső 50%-át tartalmazó értéktartomány fele. Megmutatja, hogy az adatok 50%-a milyen sávban öleli körül a mediánt. A minta medián körüli értékeinek szóródása.
Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p
Átlagos eltérés:
az egyes elemek átlagtól való eltérésének átlaga. n
∑ x+ x AE=
Variancia:
i
i =1
(n = az elemek, adatok száma)
n
szórásnégyzet. n
∑ (x − x )
2
i
s2 =
i =1
(n –1 = a minta szabadságfoka, azaz az n
n −1
elemű mintából n-1 független egymástól.)
Szórás:
a minta elemeinek szóródását fejezi ki. A variancia négyzetgyökével egyezik meg. Több minta esetén csak az azonos értéktartományú minták szóródásának összehasonlítását teszi lehetővé. s= s 2 értelmezés:
Az x ±s
intervallumban van a minta elemeinek 68%-a.
Az x ±2⋅s
intervallumban van a minta elemeinek 95%-a.
Az x ±3⋅s
intervallumban van a minta elemeinek 99%-a.
Variációs együttható (= relatív szórás): Több
minta
esetén
a
különböző
értéktartományú
minták
összehasonlítását (is) lehetővé teszi. V=
s ⋅ 100% x
(V=
szórás ⋅ 100%) átlag
Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p
szóródásának
Hipotézisvizsgálat statisztikai mutatók segítségével t-próbák: két minta tulajdonságai közötti különbség szignifikanciájának számszerűsítése, megállapítása (pl.: önkontrollos vizsgálat).
egymintás t-próba: ugyanazoktól a személyektől származó két különböző mérési eredmény (két változó) számtani középértéke közötti szignifikáns különbség valószínűségének meghatározása. (Pl.: Egy osztályban egy új számolási készségfejlesztő módszer alkalmazása előtt, majd a módszer alkalmazása után is megmérik a tanulók számolási készségét. A vizsgálat arra keresi a választ, hogy a módszer alkalmazása eredményez-e lényeges változást a tanulók számolási készségében.) Jele: t’ z t’= ⋅ n s n
n
∑ (yi − x i ) z=
sorszám 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
1.mérés 2 5 3 5 4 6 6 7 6 5
i =1
n
2. mérés 2 6 4 5 5 6 7 8 6 4
sorszám 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
∑ (z − z )
2
i
;
s=
i =1
1.mérés 8 7 9 8 7 6 6 7 6 4
n −1
2.mérés 8 6 9 9 8 5 7 7 6 5
t’ = 1,8311 Az egymintás t’ értékének szignifikancia-vizsgálata: A t’ próba táblázatában n-1 (=minta elemszáma-1) szabadságfoknál kell keresni a megfelelő értéket: -
ha t’>ttáblázat, akkor az átlagok különbsége nem a véletlen hatása, vagyis a különbség szignifikáns,
-
ha t’
Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p
Kétmintás t-próba: különböző személyektől (két különböző csoportból) származó két mérési eredmény (két változó) számtani középértéke közötti különbség meghatározása (pl.: kontrollcsoportos vizsgálat). (Pl.: két párhuzamos osztályban ugyanazt a tananyagot más-más módszerrel tanítják, majd a tanítási folyamat végén ugyanazon teszten mérik a két osztályt. A vizsgálat arra keresi a választ, hogy a két módszer eredményessége között van-e lényeges különbség.) Jele: t” Csak akkor végezhető el, ha a két mérés eredményének varianciája (szórásnégyzete) között nincs jelentős (szignifikáns) eltérés. Ezt az F-próba adja meg. S12 F= 2 S2 F értékének szignifikancia-vizsgálata: Az F próba táblázatában két szabadságfok (=minta elemszáma-1) van: 1. az 1. minta elemszáma-1 2. a 2. minta elemszáma-1 -
ha F>Ftáblázat, akkor a varianciák különbsége nem a véletlen hatása, vagyis a különbség szignifikáns, tehát a kétmintás t-próba nem végezhető el!! Ekkor a t-próba helyett pl. a Welch-próbát szokták alkalmazni.
-
ha F
t" =
x−y n
m
∑ (x − x i ) 2 + ∑ ( y − y i ) 2 i =1
i =1
n+m−2
⋅
n+m n⋅m
A kétmintás t” értékének szignifikancia-vizsgálata: A t” próba táblázatában n+m-2 (=a két minta elemszámának összege-2) szabadságfoknál kell keresni a megfelelő értéket: -
ha t”>ttáblázat, akkor az átlagok különbsége nem a véletlen hatása, vagyis a különbség szignifikáns,
-
ha t”
Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p
Variancia analízis: az a statisztikai eljárás, melynek segítségével több egydimenziós minta ugyanazon változója közötti különbség szignifikaszintjét határozza meg. (Pl.: három párhuzamos osztályban ugyanazt a tananyagot más-más módszerrel tanítják, majd a tanítási folyamat végén ugyanazon teszten mérik a három osztályt. A vizsgálat arra keresi a választ, hogy a három módszer eredményessége között van-e lényeges különbség.) A variancia-analízis a következő eljárások sorozatát jelenti: -
belső variancia vizsgálat (egy-egy mintán /pl. osztály/ belüli variancia vizsgálat). Jele: S 2belső
-
külső variancia vizsgálat (minták /pl. osztályok/ közötti variancia vizsgálat) Jele: S 2külső
-
hipotézisvizsgálat F-próbával: S 2k F= 2 Sb
F értékének szignifikancia-vizsgálata: Az F próba táblázatában két szabadságfok (=minta elemszáma-1) van: az 1. minta elemszáma-1 a 2. minta elemszáma-1 -
ha F>Ftáblázat, akkor a varianciák különbsége nem a véletlen hatása, vagyis a különbség szignifikáns. Másképpen: az egyes módszerek lényeges teljesítményváltozást eredményeznek.
-
ha
F
akkor
különbségek
a
véletlen
hatásának
tulajdoníthatóak, vagyis a különbségek nem szignifikánsak. Másképpen: az egyes módszerek nem eredményeznek lényeges teljesítményváltozást.
Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p
Korrelációszámítás: -
Többdimenziós mintáról beszélünk akkor, ha a minta egyes elemeiről egyszerre legalább két adat áll rendelkezésünkre. (Pl. : ismerjük a tanulók szüleinek iskolai végzettségét és egy teszten az egyes tanulók által elért eredményt, vagy ugyanazon tanulók kémia és matematika teszteredményét, stb.)
-
A korreláció-számítás az egyes adatcsoportok eloszlása közötti összefüggést tárja fel.
-
A változók közötti összefüggés esetei: - két változó pozitív korrelációja (r>0): ha az egyik változó magas értékeihez a másik változó magas értékei, ill. az egyik változó alacsony értékeihez a másik változó alacsony értékei tartoznak. (Pl.: A jó kémia tesztet írók jó matematika tesztet, míg a gyenge kémia tesztet írók gyenge matematika tesztet írnak.) - két változó negatív korrelációja (r<0): ha az egyik változó magas
értékeihez
a másik változó alacsony értékei, ill. az egyik változó alacsony értékeihez a másik változó magas értékei tartoznak. (Pl.: A jó kémia tesztet írók gyenge nyelvtan tesztet, míg a gyenge kémia tesztet írók jó nyelvtan tesztet írnak.) - két változó korrelálatlan: ha az egyik változó magas értékeihez egyes esetekben a másik változó magas, egyes esetekben alacsony értékei tartoznak. Ez sem jelenti feltétlenül a két adatsor függetlenségét, esetenként csak arról van szó, hogy a kapcsolat nem lineáris. -
A minta két változója szimmetrikus: egyiknek sincs kitüntetett szerepe a másikkal szemben. Vagyis a korreláció-analízis nem tárja fel azt, hogy a két adat közül melyik van hatássál a másikra.
-
Korrelációs együttható: Jele: rxy n
∑ (x − x ) ⋅ ( y − y ) i
i
i =1
rxy =
n
n
∑ (x − x i ) 2 ⋅ ∑ ( y − y i ) 2 i =1
i =1
− 1 ≤ rxy ≤ 1
A korrelációs együttható szignifikancia-vizsgálata: A korrelációs együttható táblázatában n-1 (=a minta elemszáma-1) szabadságfoknál kell keresni a megfelelő értéket: -
ha |rxy|>rtáblázat, akkor a minta két változója közötti összefüggés nem a véletlen hatása, vagyis az összefüggés általánosítható.
-
ha |rxy|
Falus Iván-Ollé János: Statisztikai módszerek pedagógusok számára.-Bp: Okker, 2000.-172.p