Mgr. Karla Hrbáčková, Ph.D.
Základy kvantitativního výzkumu
K čemu slouží statistika • Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). • Hledá skryté zákonitosti v souborech dat (explorační statistika). • S pomocí teorie pravděpodobnosti ověřuje platnost hypotéz.
Statistický software • Uživatelsky příjemný (Statistica 8, MiniTab) • Profesionální (SPSS, SAS)
Typy dat • Kategorizované proměnné (do jaké kategorie respondent nebo případ patří) a) nominální (nemá smysl pořadí kategorií) b) ordinální (uspořádání, které vychází z logiky kategorií, lze seřadit vzestupně nebo sestupně)
• Číselné proměnné (informace, kde se primárně ptáme na nějaké číslo) a) intervalová b) poměrová (vyjádřena číselně sama o sobě)
Typy dat • Nominální i. ii. iii.
muž, žena vesnice, město absolvoval, neabsolvoval
• Ordinální i. ii.
1, 2, 3, 4, 5 silně souhlasím, souhlasím, nesouhlasím, silně nesouhlasím
• Intervalová i.
10, 12, 15, 17, 20 bodů v testu
• Poměrová i. ii.
12, 18, 22, 38, 54 let 55, 6 kg
Proměnné • V případě, že má výzkumný problém dvě proměnné, určujeme závisle a nezávisle proměnnou. • Nezávisle proměnná (proměnná, která je příčinou změny) • Závisle proměnná (proměnná, jejíž hodnoty se změnily vlivem nezávisle proměnné) • Jaký vliv má interaktivnost výuky na míru osvojených znalostí?
Data nám slouží k přesnému výběru statistické metody • Jestliže jsou obě proměnné nominální nebo ordinální, použijeme kontingenční tabulku (chí-kvadrát), např. rozdíly v postoji ke škole (pozitivní, negativní) mezi chlapci a dívkami
• Jestliže je jedna proměnná nominální a druhá metrická (poměrová, intervalová), použijeme t-test, např. rozdíly v EQ u studentů prvních a posledních ročníků gymnázií
• Jestliže je jedna proměnná metrická a druhá nominální s více kategoriemi (nebo ordinální), použijeme analýzu rozptylu, např. rozdíly v testu tvořivosti v různých věkových kategoriích
• Jestliže jsou obě proměnné metrické nebo ordinální a zjišťujeme závislost, použijeme test korelace
Popisná statistika • Jaká je úspěšnost žáků 5. třídy ZŠ Vsetín Ohrada v matematice? • Školní úspěšnost operačně definujeme jako známku z testu matematických znalostí. • Vzorek bude tvořit 22 žáků 5. třídy • 1, 1, 2, 4, 3, 3, 3, 2, 4, 1, 3, 2, 1, 5, 1, 1, 2, 4, 3, 2, 3, 3 (viz pracovní sešit.xls) • Co můžeme o těchto datech říci?
Popis střední hodnoty
Proměnná Známka z testu MA
Popis né statis tiky (pracovni_data2) N platných Průměr Minimum Maximum Sm.odch. 22 2,454545 1,000000 5,000000 1,184313
Tabulka četností Známka
Četnost ni
Relativní četnost fi
Kumulativní četnost
1
6
0,273
6
2
5
0,227
11
3
7
0,318
18
4
3
0,136
21
5
1
0,046
22
∑22
∑1,000
Histogram četností Histogram z Známka z testu MA pracovni_data 4v*22c Známka z testu MA = 22*1*normal(x; 2,4545; 1,1843) 8 7; 32%
7
Počet pozorování
6
6; 27% 5; 23%
5 4
3; 14%
3 2
1; 5%
1 0 1
2
3 Známka z testu MA
4
5
Výsečový graf Výsečový graf z Známka z testu MA pracovni_data 4v*22c
5; 1; 5% 4; 3; 14% 1; 6; 27%
3; 7; 32% 2; 5; 23%
Známka z testu MA
Spojnicový graf Spojnicový graf z Známka z testu MA pracovni_data 4v*22c 5,5 5,0 4,5
Známka z testu MA
4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Krabicový graf Krabicový graf z Známka z testu MA pracovni_data2 8v*22c 5,5 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 Známka z testu MA
Medián = 2,5 25%-75% = (1, 3) Rozsah neodleh. = (1, 5) Odlehlé Extrémy
Charakteristiky centrální tendence • Čísla, která nejlépe zastupují celý soubor dat I. Aritmetický průměr (data metrická) II. Modus (data nominální) III. Medián (data ordinální)
Výpočet střední hodnoty • Průměr – intervalový popis střední hodnoty • Medián – prostřední hodnota z řady hodnot seřazených podle velikosti (nad mediánem leží 50% dat a pod mediánem 50% dat) • Modus – ta hodnota, která se v daném souboru dat vyskytuje nejčastěji • 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5
Příklad • • • • • •
Výsledky IQ testu 96, 96, 97, 99, 100, 101, 102, 104, 195. Modus (nejfrekventovanější skóre) 96 Medián (prostřední skóre) 100 Průměr (aritmetický průměr) 110,6 V tomto případě centrální hodnotu nejlépe vystihuje medián.
Výpočet průměru Známka
Četnost ni
n . xi
1
6
6
2
5
10
3
7
21
4
3
12
5
1
5
∑22
∑54
Míra variability (charakteristika rozptýlení) • Průměr nám nemusí poskytovat komplexní informace o souboru. • 1, 1, 1, 5, 5, 5 nebo 3, 3, 3, 3, 3, 3 • Rozptyl – míra rozptýlení, zda mezi průměry jsou či nejsou významné rozdíly. • Směrodatná odchylka – druhá odmocnina z rozptylu, jak jsou data rozptýlena od průměru, ukazatel vstupních dat.
Rozptyl a směrodatná odchylka • Data 8, 12, 12, 12, 13, 16, 17, 18, 18 • Zakreslení dat na číselnou osu (zjišťuji průměrnou vzdálenost od průměru). • Vychází nula, jak tedy postupovat? • Průměrný součet čtverců odchylek od aritmetického průměru. • Jaký je matematický postup výpočtu rozptylu (průměrné odchylky od průměru)?
Výpočet rozptylu a směrodatné odchylky
x
x2
x
x2
1
-2
4
3
0
0
1
-2
4
3
0
0
1
-2
4
3
0
0
5
2
4
3
0
0
5
2
4
3
0
0
5
2
4
3
0
0
s2 =4
r=3
r=3
s2 =0
Příklad • Dva soubory dat se stejným průměrem (data2, testy v páté a šesté třídě. • Co nám říká směrodatná odchylka? • Jak vypadá distribuce dat? Popis né statis tiky (pracovni _data2) Prom ěnná N platných Prům ěr Minim um Maxim um Sm .odch. TEST5 22 20,00000 16,00000 23,00000 2,070197 TEST6 22 20,00000 8,00000 31,00000 7,131419
• K čemu je nám znalost směrodatné odchylky v praxi?
Příklad • Petr je student sedmé třídy a v testu z JČ získal 40 bodů, v test z MA získal 30 bodů. Co můžeme říct o srovnání jeho znalostí z obou předmětů? Předmět
Počet bodů
Průměr
Směrodatná odchylka
Jazyk český
40
35
10
Matematika
30
25
2
• JČ o půl směrodatné odchylky nad průměrem • MA o 2,5 směrodatné odchylky nad průměrem
Otázky • Jak jsem uspěl v případě, že jsem napsal test hodně špatně, ale směrodatná odchylka bodů v testu je velká? • Jak jsem uspěl v případě, že jsem napsal test hodně špatně a směrodatná odchylka bodů v testu je malá? • Jak jsem uspěl v případě, že jsem napsal test hodně dobře a směrodatná odchylka bodů v testu je velká? • Jak jsem uspěl v případě, že jsem napsal test hodně dobře a směrodatná odchylka bodů v testu je malá?
Otázky • Jak jsem uspěl v testech ve srovnání s ostatními spolužáky? Počet bodů
Průměr
Směrodatná odchylka
Matematika
87
75
13
Literatura
16
13
2
Všeobecné znalosti
31
34
6
• Vím, jak si vedu ve srovnání s ostatními, můžu to i vyčíslit tzv. percentily nebo z skóre.
Směrodatná odchylka -1
+1
68,27%, 95,4%, 99,73%
r = průměr rozptyl Hodnoty, kterých může studovaná proměnná nabývat
Interval spolehlivosti • Odhadujeme skutečnou hodnotu (průměr) základního souboru na základě výběru (výzkumný vzorek). • Odhad se může měnit, my ho neznáme (jelikož jsme jej nezměřili na celé populaci), proto určujeme intervalový odhad. • S předem zvolenou pravděpodobností obsahuje skutečnou střední hodnotu v populaci. • 11.800 Kč – 12.800 Kč
Testování hypotéz • Při testování hypotéz (relační a kauzální výzkumné problémy) formulujeme dvě vzájemně si odporující hypotézy • H0 – nulová hypotéza, jednoduché tvrzení o neexistenci vztahu • HA – tzv. alternativní hypotéza, negace nulové hypotézy
Postup • Stanovení nulové a alternativní hypotézy. • Volba matematicko-statistické metody vedoucí k rozhodnutí ve prospěch H0 nebo HA. • Volba spolehlivosti. • Kritérium pro rozhodnutí (signifikance).
Testová statistika • • • •
chí-kvadrát test (kontingenční tabulka) t-test koeficient korelace analýza rozptylu
Spolehlivost • Před samotným testováním volíme spolehlivost, s jakou budeme chtít pracovat. • Standardně se stanovuje 95%. • Povolujeme riziko max. 5%, že uděláme chybu.
Rizika chybných rozhodnutí skutečnost
H0
HA
H0
OK
Chyba 1. druhu
HA
Chyba 2. druhu
OK
Signifikance • Nejpodstatnější hodnota. • Pravděpodobnost toho, že zamítneme nulovou hypotézu, ačkoliv ona platí. • Předem jsme si stanovili, že chceme pracovat s pravděpodobností 95%. • Signifikance nám toto riziko vyčísluje. • Hodnota mezi 0 a 1.
Signifikance • p < 0,05 – zamítám H0 • p > 0,05 – nezamítám H0 – riziko by bylo větší než 5%
Chí-kvadrát • Test nezávislosti chí-kvadrát • Rozdíly ve známce z matematického testu u dívek a chlapců • H0: PCH = PD • HA: PCH ≠ PD • p < 0,05, zamítáme nulovou hypotézu Zjistili jsme statisticky významný rozdíl v úspěšnosti u dívek a chlapců.
Test nezávislosti chí-kvadrát
Kontingenční tabulka (pracovni_data2) Četnost označených buněk > 10 (Marginální součty nejsou označeny) Známka z testu pohlaví pohlaví Řádk. MA D CH součty 1 6 0 6 2 5 0 5 3 1 6 7 4 1 2 3 5 0 1 1 Vš .skup. 13 9 22
Souhrnná tab.: Očekávané četnos ti (pracovni_data2) Četnost označených buněk > 10 Pears onův chí-kv. : 15,6964, sv=4, p=,003456 Známka z testu pohlaví pohlaví Řádk. MA D CH součty 1 3,54545 2,454545 6,00000 2 2,95455 2,045455 5,00000 3 4,13636 2,863636 7,00000 4 1,77273 1,227273 3,00000 5 0,59091 0,409091 1,00000 Vš .skup. 13,00000 9,000000 22,00000
Korelační analýza • Zkoumá vzájemný vztah kvantitativních proměnných • Soubor TESTY • Nejčastěji se používá Pearsonův koeficient korelace – r. • Nabývá hodnot od -1 do 1. • Záporné hodnoty značí nepřímou závislost, kladné přímou, nula značí nezávislost.
Korelace Proměnná Známka z testu MA Známka z testu PŘ
Korelace (pracovni_data2) Označ. korelace js ou významné na hlad. p < ,05000 N=22 (Celé případy vynechány u ChD) Průměry Sm.odch. Známka z testu Známka z testu MA PŘ 2,454545 1,184313 1,000000 0,918770 2,318182 1,086119 0,918770 1,000000
Bodový graf: Známka z testu MA vs. Známka z testu PŘ (Celé příp. vynech. u ChD) Známka z testu PŘ = ,25000 + ,84259 * Známka z testu MA Korelace : r = ,91877 8 4 0 5,0 4,5
Známka z testu PŘ
4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 0
1
2
3 Známka z testu MA
4
5
6 0
4
8
95% hladina spolehlivosti
T- testy • Zda ženy dosahují stejného skóre v testu jako muži. • H0: PM = PŽ (ženy dosahují stejných výsledků jako muži) • HA: PM ≠ PŽ
• T- test nezávislé dle skupin • p < 0,05, zamítáme nulovou hypotézu
T-testy t-testy; grupováno: pohlaví (pracovni_s es it3) Skup. 1: M Skup. 2: Ž Průměr Průměr t sv p Proměnná M Ž test 9,166667 15,11111 -4,63412 46 0,000030 Krabicový graf :
test
18
16
test
14
12
10
8
6 Ž
M pohlaví
Průměr Průměr±SmCh Průměr±1,96*SmCh
ANOVA • Zajímá nás vliv více nominálních proměnných na kvantitativní proměnnou. • H0 – mezi skupinami není statisticky významný rozdíl • HA – mezi skupinami je statisticky významný rozdíl • Zda má prospěch vliv na výsledek v testu.
Graf Anova Kategoriz. krabicový graf:
test
20
18
16
test
14
12
10
8
6 C
D
E
F prospěch
A
B
Průměr Průměr±SmCh Průměr±1,96*SmCh
Analýza rozptylu Analýza rozptylu (pracovni_s esi t3) Označ. efekty js ou význ. na hlad. p < ,05000 SČ SV PČ SČ SV PČ F p Prom ěnná efekt efekt efekt chyba chyba chyba test 665,6992 5 133,1398 333,5508 42 7,941686 16,76468 0,000000
Předpoklady • Základním předpokladem pro volbu testu je normalita • H0: Data pochází z normálního rozdělení • HA: Data nepochází z normálního rozdělení • Pokud nesplňuje normalitu, musíme použít neparametrický test • Základní statistiky, tabulky četností - normalita histogram
Test normality Proměnná
Testy normality
N
otázka 1
max D
240
0,311871
K-S
Lilliefors
p < ,01
p < ,01