Vargha András Károli Gáspár Református Egyetem Budapest
Kötelező irodalom a kurzushoz Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal (2. kiadás). Pólya Kiadó, Budapest, 2007.
Nélkülözhetetlen szoftver a kurzushoz: ROPstat www.ropstat.com Töltse le és próbálja ki a magyar nyelvű demó verziót!
A félév vázlata I. II. III. IV. V.
Statisztikai alapfogalmak, leíró statisztikák A következtetési statisztika alapfogalmai Kvantitatív változók kapcsolata (korreláció, regresszió) Változók és csoportok összehasonlítása Gyakorisági táblázatok elemzése
I. Statisztikai alapfogalmak, leíró statisztikák
Tartalom
Statisztikai alapfogalmak (adatok, adattáblázat, esetek, változók) Populáció és minta Változók és típusaik Leíró statisztika alapfogalmai Gyakorisági eloszlás Középértékek, szóródási mutatók stb. Normális eloszlás
Vágjunk bele!
Piaci szavak
Karalábé Lilahagyma Padlizsán Cukkini Sárgarépa
Tök Paprika Dinnye Jégsaláta Póréhagyma
Memóriajáték
Írja be a füzetébe, hogy milyen szavak fordultak elő az iménti dián!
1. 2. 3. 4. 5.
6. 7. 8. 9. 10.
Mely szavakra emlékezett helyesen? 1. Karalábé 2. Lilahagyma 3. Padlizsán 4. Cukkini 5. Sárgarépa
6. Tök 7. Paprika 8. Dinnye 9. Jégsaláta 10. Póréhagyma
Egy személlyel kapcsolatban mi érdekelhet bennünket? Emlékezeti teljesítmény Helyesen megjegyzett szavak száma Más?
Egyéb jellemzők Személy neme Más?
Pszichológiai változók Pszichológusok által vizsgált egyedek, személyek, házaspárok (megfigyelési egységek) egyedi jellemzői
GYAK
Példák változókra (megfigyelési egység = egy házaspár) • • • • • • •
Mióta házasok Mióta járnak együtt Férj életkora Feleség életkora Korkülönbség Gyerekeik száma IQ(férj) - IQ(feleség) GYAK
Más példák • • • • • •
(megfigyelési egység = egy személy) Nem Életkor MAWI-IQ Diagnózis Iskolázottsági szint Végzett osztályok száma GYAK
Mit várunk el egy pszichológiai változó meghatározásakor? • Egyértelműen definiált értékkészlet • Minden esetnél egyértelműen eldönthető érték
GYAK
Mi a statisztika? Akkor fordulunk hozzá, ha sok egyedünk van és mindenkit ugyanazon változó (vagy változók) segítségével jellemzünk
Emberek, gyümölcsök
Virágok
Kavicsok
A statisztika segítségével • Jellemezhetünk – leírhatunk – egy egész csoportot, mintát. Hogyan? • Különböző csoportokat összehasonlíthatunk (pl. férfiak és nők memóriája) • Változók között összefüggéseket kereshetünk (pl. van-e kapcsolat a kor és az emlékezeti teljesítmény között?) • Stb.
Hogy kell a statisztikai adatfeldolgozáshoz (elemzéshez) előkészíteni az adatokat? • Elsődlegesen egy személyek és változók szerint rendezett adattáblázatot (statisztikai adatállományt) kell létrehozni • Ennek neve: eset-változó adattáblázat (adatmátrix) • ROPstat illusztráció GYAK
3
Eset-változó adattáblázat Eset
Nem Életkor Magasság (X1) (X2) (X3)
1.
Nő
18
170
2.
Férfi
21
178
3.
Nő
19
155
…
…
Példák más adatállományokra
5
Pszichológia szakra jelentkezők, 1981
6
Gyerekek antropometriai adatai, 1993
7
Problémás és normál családok, 2005
A változóról • Eseteket (személyeket stb.) jellemzi • Értékei vannak (pl. a személy neme változó értékei mik? Kor, testmagasság, szemszín, érettségi matek jegye értékei?) • Ha egy változónak véges számú (2, 3, 4, …) különböző értéke van, diszkrét változónak nevezzük. Példa? • Folytonos változók. Mi folytonos ezeknél?
GYAK
9
Pszichometriai skálatípusok
Osztályozás szempontja: milyen logikai, illetve számtani műveletek végezhetők értelmesen a változó értékeivel? Nominális skála Ordinális skála Intervallum-skála Arányskála
Példák:
GYAK
0
Kvantitatív és kvalitatív változók Kvalitatív változók Nominális
és ordinális skálájú változók
– Hangsúly: az értékek kategóriáján
Kvantitatív változók Intervallum-
és arányskálájú változók
– Hangsúly: az értékek nagyságán
1
A változók eloszlása Azt tudjuk meg a változó eloszlásából, hogy milyen értékből mennyi (% , darab) van. Ha ismerjük egy változó eloszlását, ebből már minden jellemzőjét (pl. az átlagot is) ki lehet számítani, illetve meg lehet határozni. GYAK
2
NEM 60
50
40
30
Percent
20
10 0 férfi
NEM
nõ
3
Hogy tetszik?
4
EPIL3 60
50
40
30
Percent
20
10 0 .00
EPIL3
1.00
2.00
3.00
4.00
5
ISK 40
30
20
Percent
10
0 7
ISK
8
9
10
11
12
13
14
15
16
17
18
6
ISKKOD 50
40
30
Percent
20
10
0 7-11
ISKKOD
12-15
16-20
7
Az iskolai végzettség eloszlása Alsófokú végzettség 29%
Középfokú végzettség
Felsőfokú végzettség
40%
31%
8
Statisztikai alapfogalmak o
Megfigyelési egységek (esetek) – személyek, egyedek, házaspárok
o
Változók (megfigyelési egységek jellemzői) – IQ, Nem, Kor, Megtanult tételek száma, Házasság időtartama
o o
Populáció (sokaság): esetek elvi (elméleti) összessége Minta: a populáció kiválasztott része
9
Populáció és minta o
A populáció nagyon nagy, ezért csak egy kis részét vizsgáljuk meg. Ez a MINTA (pl. 50 vagy 100 vagy 35 személy).
0
Minta o
o
Megfigyelési egységek csoportja, akiket bizonyos változók segítségével egy vizsgálat, kísérlet vagy megfigyelés során konkréten megvizsgálunk és adatokkal jellemzünk. E minta alapján nyert adatok együttese: az adatminta
1
Egy adatminta személy Nem
Életkor Magasság
1.
Nő
18
170
2.
Férfi
21
178
3.
Nő
19
155
…
…
2
Statisztikai elemzések két fő típusa Leíró statisztika o Fókusz a konkrét mintán: milyen ez a minta? (Pl. mi itt a fiúk és a lányok aránya?)
Következtetési statisztika o Következtetés a mintáról a populációra. Fókusz a populáción. (Pl. ha a minta 20%-a fiú, akkor mekkora lehet az arányuk a populációban? Kijelenthető-e, hogy a fiúk a populációban is kisebbségben vannak?)
Kiknek jobb a verbális memóriája, a fiúknak, vagy a lányoknak?
4
Leíró statisztika o o
Milyen ez az évfolyam az emlékezeti vizsgálat változói szempontjából? Az elemzést lehet változónként, változópáronként, vagy ennél is bonyolultabb változómintázatok segítségével végezni. o Nemi megoszlás o Emlékezeti teljesítmény eloszlása
5
Leíró statisztikai elemzések o o o o
Gyakorisági eloszlás Középértékek Szóródási mutatók Az eloszlás alakja o Ferdeség o Csúcsosság GYAK
6
Az iskolázottság gyakorisági eloszlása (n = 277) Érték Gyak
%
Kum%
Érték Gyak
%
Kum%
3
1
0,4
0,4
11
18
6,5
41,2
4
2
0,7
1,1
12
68 24,5
65,7
5
3
1,1
2,2
13
9
3,2
69,0
6
20
7,2
9,4
14
14
5,1
74,0
7
5
1,8
11,2
15
1
0,4
74,4
8
47
17
28,2
16
36
13
87,4
9
2
0,7
28,9
17
32 11,6
98,9
10
16
5,8
34,7
18
3
1,1
100
7
Mi olvasható ki a gyakorisági eloszlásból? o o o o o
Minimum, maximum Milyen értékből mennyi van? Relatív gyakoriság (százalékos) Milyen értékből van a legtöbb? (módusz) Kumulatív gyakoriság GYAK
8
Kvantilisek A mintát
adott arányban két részre osztó
pontok – Felezőpont: medián – Negyedelő pontok: kvartilisek – K1: alsó 25%-ot levágó osztópont – K3: alsó 75%-ot levágó osztópont
Percentilisek (centilisek): C1, C1, …, C100. - Med = C50, K1 = C25, K3 = C75,
GYAK
9
A kvantilisekről A kum%
segítségével határozhatók meg a legkönnyebben. Folytonos változók esetén lehet leginkább használni őket, mert a meghatározásuk itt a legtisztább.
GYAK
0 14 12 10 8 6
50%
4 2
25% 25%
0
K1
K3
1
Itt mi az alsó és a felső kvartilis? Érték Gyak 3 1
% Kum% 0,4 0,4
Érték Gyak 11 18
% Kum% 6,5 41,2
4
2
0,7
1,1
12
68 24,5
5
3
1,1
2,2
13
9
3,2
69,0
6
20
7,2
9,4
14
14
5,1
74,0
7
5
1,8
11,2
15
1
0,4
74,4
8
47
17
28,2
16
36
13
87,4
9
2
0,7
28,9
17
32 11,6
98,9
10
16
5,8
34,7
18
3
1,1
65,7
100
GYAK
2
Középértékek
3
Egy változó nagyságának jellemzése egyetlen adattal Legtipikusabb
érték: Módusz
Eloszlás
centruma: Átlag
Eloszlás
közepe: C50 = Medián
4
Medián = ? Érték Gyak
%
Kum%
Érték Gyak
%
Kum%
3
1
0,4
0,4
11
18
6,5
41,2
4
2
0,7
1,1
12
68 24,5
65,7
5
3
1,1
2,2
13
9
3,2
69,0
6
20
7,2
9,4
14
14
5,1
74,0
7
5
1,8
11,2
15
1
0,4
74,4
8
47
17
28,2
16
36
13
87,4
9
2
0,7
28,9
17
32 11,6
98,9
10
16
5,8
34,7
18
3
1,1
100
5
Mi az IQ mediánja?
6
Az IQ mediánja = 100
50%
50%
7
Mintajellemzők n-elemű minta: (x1, x2, x3, ..., xn) Mintaátlag: x = (xi)/n = (x1+x2+x3+...+xn)/n Mintamedián: Adatok növekvő sorában a középső vagy a középső kettő átlaga
Minta: 2 < 4 < 5 < 7 < 8 Medián: M = 5
8
Férfiak és nők testsúlyátlagai különböző életkori szinteken 85 80 75 70
Férfiak Nők
65 60 55
év
50 20
30
40
50
60
70
9
Szóródási mutatók
0
Miben különbözik az alábbi két minta?
2
4
5
6
4
5
6
8
1
Három bizonyítvány – Magatartás – Szorgalom – Magyar irodalom – Magyar nyelvtan – Matematika – Történelem – ÁTLAG:
3 3 3 3 3 3 3
5 1 5 1 5 1 3
2 4 2 4 2 4 3
2
Mennyire szóródnak az adatok az átlag körül? Átlagtól
való négyzetes eltérés egyetlen személy
esetén: – Pl. IQ = 105 esetén (105 - – IQ = 80 esetén (80 - Ezen négyzetes eltérések átlaga: variancia (Var) A variancia négyzetgyöke: szórás ( , s)
3
Mintabeli szóródási mutatók Négyzetes Variancia
összeg: Q = xi -x)2
(korrigált): Var = Q/(n - 1)
= a variancia négyzetgyöke:
Szórás
s = Var = Q/(n-1) – Szabadságfok: f = n - 1 GYAK
4
Szokásos jelölések Mintabeli
(tapasztalati) átlag: x (ejtsd: x-vonás) Populációbeli (elméleti) átlag: μ (ejtsd: mű) Mintabeli (tapasztalati) szórás: s Populációbeli (elméleti) szórás: σ (ejtsd: szigma)
5
Relatív szórás = Variációs együttható Cél:
dimenziómentes szóródási mutató
Mintában:
VE = s/x
Populációban: Feltétel: Pl.:
VE = /
X arányskálájú
Ha s = 3 kg, x = 5 kg, akkor
VE = 3kg/5kg = 0,60 = 60%
GYAK
6
Adatok nagysága Milyen
nagy egy 210 cm-es testmagasság (150-es IQ, 160-as vérnyomás)?
Milyen
kicsi egy 145 cm-es testmagasság (65-ös IQ, 80-as vérnyomás)?
GYAK
7
Standard érték
Az X változó x értékének standard értéke (z) azt mutatja meg, hogy x hány szórásnyi távolságra van az átlagtól: z = (x – átlag)/szórás
Pl. 10-es átlag és 2-es szórás esetén 15 z-értéke mennyi?
A standard értékeknek mi a mértékegysége? GYAK
8
Standardizálás
Mintában: zx = (x – x)/s
Mi lesz az átlag standard értéke?
Mi lesz a standard értékek szórása?
A nagy hibák standard értéke kiugróan nagy (vö. ROPstat)
9
Példák az IQ-val = E(IQ) = 100, = D(IQ) = 15
Ha IQ = 130, z = ?
Ha z = -1, IQ =? GYAK
0
Hogyan határozza meg az eloszlás alakját a ferdeség és a csúcsosság?
1
Szimmetrikus, átlagos csúcsosságú eloszlás
2
Szimmetrikus, átlagosnál nagyobb csúcsosságú eloszlás
3
Hogy nézhet ki egy átlagosnál kisebb csúcsosságú (pl. lapos) eloszlás?
?
4
Folytonos egyenletes eloszlás
5
Pozitív ferdeségű eloszlás
6
Negatív ferdeségű eloszlás
7
Szimmetrikus, kétcsúcsú (bimodális) eloszlás
8
Ferdeség és csúcsosság mérése
Ferdeségi együttható (skewness): E(z3)
Csúcsossági együttható (kurtosis): E(z4) – 3
A normális eloszlás ferdeségi és csúcsossági együtthatója 0
9
A normális eloszlástípus
0
1
Milyen változó normális eloszlású?
Például a fejek száma 100-200-1000 dobásból Sok apró hasonló, de független mennyiség összegeződése Egy véletlen minta átlaga (vö. ROPstat) Kis minta? Nagy minta?
GYAK
2
Változó: fejek száma 50 dobásból (gyakorisági eloszlás, n = 15000) 12 10 8 6 4 2 0 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
3
A normális eloszlás kiterjedtsége
4
A normális eloszlás kiterjedtsége 68%
95% 99,8%
5
Például = 100 és = 15 esetén 68%
95% 99,8% GYAK
6
Példák normális és nem normális eloszlású változókra Hisztogram és kum% megtekintése az alábbi adatfájlok változóira Antr500.msw Új fájl 1000 esettel random normál változóval GYAK