1. STATISTIKA z latin. „Status“ (stav nebo stát) 1562 Benátky 17. stol. Německo Anglie 16.-17. st. tzv. „politická aritmetika“ Ideální typ člověka - Adolphe QUETÉLET 18. a 19. st. – pozorování a popis zákonitostí pozorovaných na tzv. hromadných jevech (bratři Bernoulliové, Langrange, Euler, de Moivre, Gauss, Laplacce, Bayes,…) až do poč. 20. st. tzv. vyčerpávající šetření 20. a 30. léta 20. st. metody náhodného výběru a dílčích šetření rozvoj statistiky s rozvojem výpočetní techniky (Fischer, Yule, Pearson, Neyman,…)
Statistika v současnosti 1. Vědní obor
deskriptivní induktivní
2. Metoda sběru, zpracování a
vyhodnocování dat 3. Informace
Předmětem zkoumání statistiky ve společenských vědách je
člověk
2. Vědecký výzkum v pedagogice vytvoření příslušné teorie prvky teorie vznikají na základě výzkumu různé pojetí výzkumu Gavora – „.... veškeré systematicky prováděné aktivity vedoucí ke získávání nových poznatků ...“
Kerlinger (1972): „Vědecký výzkum je systematické, kontrolované, empirické a kritické zkoumání hypotetických výroků o předpokládaných vztazích mezi přirozenými jevy.“
Základní metody poznávání (Charles Pierce) Metoda tradice Metoda autority Metoda a priori Metoda vědy
Výzkumy Kvantitativní Kvalitativní Ex-post-facto Experimenty
Pedagogický výzkum a jeho fáze Nápad, idea - stanovení problému Formulace hypotéz (Sběr dat) Testování hypotéz Závěry a jejich prezentace
2.1 Stanovení problému formulace problému
cíl šetření výzkumná otázka –ústřední hypotéza
vyjádřit cíle ve „zvládnutelné“ podobě
konkrétní jednoznačné empiricky ověřitelné
studium odborných pramenů formulace operacionalizovaných definic, proměnných
2.2 Formulace hypotézy pokusné předběžné prozatímní odpovědi na položené otázky (problémy)
Pravidla stanovení hypotézy (Gavora) H je tvrzení, v oznamovací větě (Výzkumný problém je naopak lepší vyjádřit tázací větou) H musí vyjadřuje vztah mezi dvěma proměnnými – vždy je to o rozdílech, vztazích nebo následcích H musí být možno empiricky ověřitelné, proměnné musí být měřitelné
H jsou vlastně predikcí o vztazích mezi proměnnými Málokdy je to důsledek jediného faktoru Chyby při formulacích H Nesprávná, neurčitá formulace Složité souvětí Věcná hypotéza X statistická hypotéza
Proměnné - xi je to jev nebo vlastnost ve výzkumu se mění – věk, klasifikace, . dělíme je na: Nezávisle proměnné = jev, vlastnost, která je příčinou nebo podmínkou vzniku jiné vlastnosti, jevu Závisle p. = je vlastnost, jev, která je výsledkem působení nezávislé proměnné
2.3 Testování / verifikace hypotézy Prokazujeme pravdivost nebo nepravdivost hypotézy Rozhodujeme na základě:
třídění zpracování vyhodnocení shromážděných dat
Data shromažďujeme od ……respondentů
Výzkumný vzorek základní soubor – populace výběrový soubor – výběr výběr prvků do výzkumných souborů volba jedinců – situací, jejich počtu,.. = výběr prvků do výzkumného souboru
Druhy výběrů Prostý náhodný výběr (náhodná čísla)
Výběr s vracením Výběr bez vracení
Skupinový výběr Stratifikovaný výběr Kontrolovaný výběr Vícenásobný výběr Záměrný výběr Mechanický výběr Spárované výběry
Rozsah (velikost) výběru Čím větší soubor pořídíme, tím více se blížíme skutečným vlastnostem základního souboru Odhady rozsahu výběru
u metrických dat : n = ( t²α . s²)
u nominálních či ordinálních dat:
n = [ t²α . p
. (1 – p) ] / d²
/ ²
3. Měření v pedagogickém výzkumu „Měření v nejširším slova smyslu je přiřazování čísel předmětům nebo jevům podle pravidel“ (Stevens, 1951, s. 51)
3 postuláty Jestliže (a = b) (a ≠ b) ne však oboje Jestliže (a = b) (b = c) (a = c) Jestliže (a > b) (b > c) (a > c) Platí tyto postuláty při sledovaní jevů např. u lidí?!
Úrovně měření Nominální (tj. označkování) Ordinální (pořadové) Metrické Intervalové Poměrové
Vlastnosti dobrého měření: Validita Reliabilita Praktičnost – jednoduchost, hospodárnost, ....
2.4 Vyvozování závěrů a jejich prezentace Interpretujeme dosažené výsledky Srovnáváme je s jinými Zdůvodňujeme rozdíly Dedukujeme další podmíněné výroky Přijímáme nebo odmítáme H Vyslovujeme závěry výzkumu
4. Metody sběru dat Experiment Dotazovací techniky Dotazník Anketa Interview Focus group,..
Pozorování Studium dokumentů Sociometrie
5. Metody uspořádání a zpracování dat
Tzv. popisná statistika
5.1 Uspořádání a sestavování tabulek Čárkovací metoda Interval - jeho hloubka a střed Zásady tvorby tabulek Četnost – absolutní, relativní, kumulativní Využití MS Excell – s přenosem dat do NCSS, SPSS, ….
Četnostní tabulky Př. Bylo sledováno 92 rodin a zkoumal se počet členů domácnosti Základní pojmy Znak – xi Četnost – ni Relativní četnost – ni/n Kumulativní četnost n1, n1+n2,…. Kumulativní relativní četnost p1, p1+p2, …
počet členů domácnosti
absolutní četnost
relativní četnost
kumul. četnost
kumul. rel. četnost
počet členů domácnosti
xi
absolutní četnost
ni
relativní četnost
kumul. četnost
kumul. rel. četnost
ni/n
n1, n1+n2,…
p1, p1+p2, …
počet členů domácnosti
xi 1 2
3 4 5 6 7 8 9
absolutní četnost
ni
relativní četnost
kumul. četnost
kumul. rel. četnost
ni/n
n1, n1+n2,…
p1, p1+p2, …
počet členů domácnosti
absolutní četnost
xi
ni
1
10
2
15
3
23
4
28
5
9
6
4
7
2
8
0
9
1 92
relativní četnost
kumul. četnost
kumul. rel. četnost
ni/n
n1, n1+n2,…
p1, p1+p2, …
počet členů domácnosti
absolutní četnost
relativní četnost
kumul. četnost
kumul. rel. četnost
n1, n1+n2,…
p1, p1+p2, …
xi
ni
ni/n
1
10
0,109
2
15
0,163
3
23
4
28
5
9
6
4
7
2
8
0
9
1 92
počet členů domácnosti
absolutní četnost
relativní četnost
kumul. četnost
kumul. rel. četnost
n1, n1+n2,…
p1, p1+p2, …
xi
ni
ni/n
1
10
0,109
2
15
0,163
3
23
0,250
4
28
0,304
5
9
0,098
6
4
0,043
7
2
0,022
8
0
0,000
9
1
0,011
92
1,000
počet členů domácnosti
absolutní četnost
relativní četnost
kumul. četnost
kumul. rel. četnost
p1, p1+p2, …
xi
ni
ni/n
n1, n1+n2,…
1
10
0,109
10
2
15
0,163
25
3
23
0,250
4
28
0,304
5
9
0,098
6
4
0,043
7
2
0,022
8
0
0,000
9
1
0,011
92
1,000
počet členů domácnosti
absolutní četnost
relativní četnost
kumul. četnost
kumul. rel. četnost
p1, p1+p2, …
xi
ni
ni/n
n1, n1+n2,…
1
10
0,109
10
2
15
0,163
25
3
23
0,250
48
4
28
0,304
76
5
9
0,098
85
6
4
0,043
89
7
2
0,022
91
8
0
0,000
91
9
1
0,011
92
92
1,000
počet členů domácnosti
absolutní četnost
relativní četnost
kumul. četnost
kumul. rel. četnost
p1, p1+p2, …
xi
ni
ni/n
n1, n1+n2,…
1
10
0,109
10
0,109
2
15
0,163
25
0,272
3
23
0,250
48
4
28
0,304
76
5
9
0,098
85
6
4
0,043
89
7
2
0,022
91
8
0
0,000
91
9
1
0,011
92
92
1,000
počet členů domácnosti
absolutní četnost
relativní četnost
kumul. četnost
kumul. rel. četnost
p1, p1+p2, …
xi
ni
ni/n
n1, n1+n2,…
1
10
0,109
10
0,109
2
15
0,163
25
0,272
3
23
0,250
48
0,522
4
28
0,304
76
0,826
5
9
0,098
85
0,924
6
4
0,043
89
0,967
7
2
0,022
91
0,989
8
0
0,000
91
0,989
9
1
0,011
92
1,000
92
1,000
Intervalové rozdělení četností Obor všech možných hodnot sledovaného znaku rozdělíme do vzájemně se vylučujících intervalů – tříd Čím větší rozsah sledovaného souboru – tím větší počet intervalů (max. 15 – pro přehlednost)
Výpočet intervalu Diskrétní náhodná veličina h = 0,08 × R
R R h 24 12
h – hloubka (šířka) intervalu R – variační šíře (max. – min.)
Spojitá náhodná veličina k = 1 + 3,3 log(n) k – počet dílčích intervalů n – počet různých hodnot znaku
Příklad intervalového rozdělení četností Na ZŠ se měřila výška žáků v cm: 144, 149, 145, 142, 146, 147, 141, 150, 143, 146, 150, 141, 148, 148, 144, 141, 145, 148, 144, 143, 155, 133, 158, 154, 151, 140, 136, 137, 153, 139, 138. R = 158 – 133 = 25 h = 0,08 * 25 = 2
25 25 1,04 h 2,08 24 12
5.2 Grafické metody zobrazování dat 100
Histogramy četností (sloupcový graf) Polygony četností (spojnicový graf) Výsečové grafy Kartografy
80 60
Východ
40
Západ
20
Sever
0 1. čtvrt.
90
3. čtvrt.
80 70 60 50 Východ
40
Západ
30
Sever
20
Sever
10
Západ
0 1. čtvrt.
Východ
2. čtvrt. 3. čtvrt. 4. čtvrt.
1. čtvrt. 2. čtvrt. 3. čtvrt. 4. čtvrt.
Histogram Sloupcový graf Osa x – jednotlivé naměřené hodnoty Osa y – četnosti hodnot (absolutní či relativní) Histogram of CS_SUPKT
140,0
Count
105,0
70,0
35,0
0,0 15,0
23,8
32,5
CS_SUPKT
41,3
50,0
Polygon Četnosti spojujeme úsečkami ve středu jednotlivých intervalů Polygon četností
absolutní četnost
30 25 20 15 10 5 0 1
2
3
4
5
6
počet členů domácnosti
7
8
9
Stromový graf
Stromový graf - příklad Máme k dispozici výkony v určité sportovní disciplíně: 784, 810, 806, 811, 815, 796, 811, 796, 819, 802, 807, 803, 820, 815. 78
4
79
66
80
2367
81
011559
82
0
Krabicový graf Kvantil k 25% kvantil = dolní kvartil 50% kvantil = medián 75% kvantil = horní kvartil 10% kvantily = decily 100% kvantily = percentily
Krabicový graf Box Plot 50,00
horní kvartil
Amount
41,25
32,50
23,75
15,00 CS_SUPKT
JZ_SUPKT
Variables
dolní kvartil
6. Základní statistické charakteristiky (číselný popis dat)
Střední hodnoty – charakteristiky polohy Míry rozptýlenosti - variability Míry koncentrace
6.1 Charakteristiky polohy Modus (Mode)
ˆ x
označení nejčastěji se vyskytující hodnota (nejčetnější) může odhalit nehomogenitu výběru neříká nic o extrémních hodnotách
Medián (Median) ~ x označení prostřední hodnota v řadě hodnot uspořádaných podle velikosti používá se jako charakteristika polohy, chceme-li odstranit vliv extrémních hodnot
Aritmetický průměr (Mean) označení
x n
x
xi
xi…xn
hodnoty znaku
n
počet hodnot
i 1
n
má velký význam, nelze však přeceňovat citlivý na extrémní hodnoty
Další charakteristiky polohy V symetrickém rozdělení se modus, medián i aritmetický průměr shodují! Vážený průměr Useknutý průměr Harmonický průměr (Harmonic Mean) Geometrický průměr (Geometric Mean)
6.2 Míry variability Rozpětí (Range) označení R výpočet max. hodnota – min. hodnota značně ovlivněno extrémními hodnotami
Mezikvartilové rozpětí (Interquartile Range)
výpočet horní kvartil – dolní kvartil délka obdélníka v krabicovém grafu není ovlivněno extrémními hodnotami
Krabicový graf Box Plot 50,00
horní kvartil
Amount
41,25
mezikvartilové rozpětí
32,50
23,75
15,00 CS_SUPKT
JZ_SUPKT
Variables
dolní kvartil
Střední kvadratická odchylka, rozptyl doplňuje průměr rozdělení se stejným průměrem může být více – liší se rozptylem n
s
2
(x i 1
i
x ) .ni 2
n
Směrodatná odchylka (Standard Deviation)
s
s
2
spolu s rozptylem nejužívanější doplnění průměru kritérium věrohodnosti průměru
Variační koeficient (Coefficient of Variation)
s V (c ) 100 x bezrozměrný pro porovnání variability hodnot měřených v různých jednotkách orientačně signalizuje případnou hrubou nesourodost dat
Další míry variability n
Průměrná odchylka d
Relativní průměrná odchylka
/ x x / .ni i 1
i
n
d rd 100 x
6.3 Míry koncentrace Šikmost (angl. Skewness) označení Sm Sm = 0 rozdělení symetrické
Sm > 0 zešikmené zprava (kladné hodnoty šikmosti)
Sm < 0 zešikmené zleva (záporné hodnoty šikmosti)
Špičatost (angl. Kurtosis – někdy také Exces) označení Km Km = 0 normované normální rozdělení
Km > 0 špičatost (větší četnosti prostředních hodnot)
Km 0 plochost (přibližně stejně velké četnosti prostředních a ostatních hodnot)
Normální rozdělení
Pravděpodobnost výskytu hodnot V intervalu od – S do + S (kolem aritm. Ø) se nachází přibližně 2/3 (68,27%) všech hodnot V intervalu od – 2S do + 2S (kolem Ø) se nachází přibližně 19/20 (95,4%) V intervalu od – 3S do + 3S (kolem Ø) se nachází téměř všechny hodnoty (99,73%)