Stručný úvod do vybraných zredukovaných základů statistické analýzy dat „Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí.“ Z pohádky „Princové jsou na draka“
Populace (základní soubor) a výběr Popis: řecká písmena
Popis: latinská písmena
náhodný výběr záměrný výběr
selektivní výběr
ZNAKY (vlastnosti) diskrétní kvalitativní
kvantitativní spojité
Typy měření veličin • • • •
nominální ordinální intervalové poměrové
Deskriptivní metody statistické analýzy dat Statistik je ten, kdo s hlavou v rozpálené troubě a s nohama v nádobě s ledem na dotaz, jak se cítí, odpoví: "V průměru se cítím dobře."
Utřídění dat Děláme v datech pořádek. Nejjednodušším postupem je sestavení frekvenční tabulky.
Utřídění dat Lepším způsobem je grafické vyjádření dat buď pomocí tzv. histogramu četností… Histogram for znamka 100
frequency
80 60 40 20 0 0
1
2
3
znamka
4
5
6
Utřídění dat … nebo polygonu četností. Polygon for znamka 100
frequency
80 60 40 20 0 1
2
3
znamka
4
5
Utřídění dat Četnost výskytu určité hodnoty (určitého jevu) může být absolutní… Histogram for znamka
a b s o lu t n í č e t n o s t
100 80 60 40 20 0 0
1
2
3
znamka
4
5
6
Utřídění dat …nebo relativní… r e l a t iv n í č e t n o s t ( % )
Histogram for znamka
50 40 30 20 10 0 0
1
2
3
znamka
4
5
6
Utřídění dat …nebo kumulativní. Histogram for znamka
r e l a t iv n í k u m u l a t iv n í č e t n o s t ( % )
100 80 60 40 20 0 0
1
2
3
znamka
4
5
6
Utřídění dat • Aneb co jsou kvantily, kvartily, decily a percentily… 25% kvantil
50% kvantil
75% kvantil
1. kvartil dolní kvartil
2. kvartil prostřední kvartil
3. kvartil horní kvartil
(inter)kvartilové rozpětí 142 146 147 152 154 155 158 159 162 163 164 164 164 165 165 168 173 173 175 178 180 183 189 25% menších či rovných hodnot 50% menších či rovných hodnot 75% menších či rovných hodnot
Utřídění dat • Aneb co jsou kvantily, kvartily, decily a percentily…
Charakteristiky polohy dat (středové hodnoty) • modus • medián • aritmetický průměr
37 35 35 39 38 37 39 39 38 40 40 40 43 41 41 41 40 44 42 45 45 45 46 47
Modus • je nejčastěji se vyskytující hodnota v souboru dat 35 je 2x
42 je 1x
37 je 2x
43 je 1x
38 je 2x
44 je 1x
39 je 3x
45 je 3x
40 je 4x
46 je 1x
41 je 3x
47 je 1x
Modus = 40
Modus •
Je hodnotou spíše provizorní, není příliš spolehlivý a neumožňuje další statistické zpracování.
Data 6 10 7 8 9 12 16 7 9 15 8 6 16 7 11 15 9 15 8 14 12
Uspořádání 6 6 7 7 7 8 8 8 9 9 9 10 11 12 12 14 15 15 15 16 16
Medián • je prostřední hodnota z výběru dat uspořádaných od nejmenší hodnoty po největší. 5 8 9 10 12 14
}
9,5
V případě sudého počtu hodnot ve výběru dat je medián aritmetickým průměrem dvou sousedních prostředních hodnot.
Medián •
Medián je středním kvartilem, pátým decilem, padesátým percentilem a 50%-ním kvantilem (x0,5). Velikost mediánu nepodléhá vlivu odlehlých a extrémních hodnot. Výpočet mediánu je možný i tehdy, jestliže o některých prvcích souboru máme jen neúplné informace. Výpočet mediánu lze krom dat intervalových a poměrových použít i pro data ordinální. Používá se jako středová hodnota při použití robustních statistických metod.
Aritmetický průměr •
je nejvyužívanější střední hodnotou. Vypočítá se podle vztahu: °x = xi/N kde °x je aritmetický průměr, N je celková četnost všech hodnot a xi je součet všech hodnot.
74 78 80 84 85 81 83 83 82 89 88 86 90 90 91 93 89 93 95 93 96 95 95 106
Aritmetický průměr Box-and-Whisker Plot
74 76 78 80 82 84 86 88 90 92 94 96 98 100 102 104 106 108
width
aritmetický průměr = 88,3 medián = 89,0
74 78 80 84 85 81 83 83 82 89 88 86 90 90 91 93 89 93 95 93 96 95 120 130
Aritmetický průměr je velmi citlivý k odlehlým a extrémním hodnotám Box-and-Whisker Plot
72
76
80
84
88
92
96 10 0 10 4 10 8 11 2 11 6 12 0 12 4 12 8 13 2
width aritmetický průměr = 90,3 medián = 89,0
Charakteristiky rozptýlení (variability) dat • • • • • •
variační rozpětí interkvartilové rozpětí rozptyl (variance) směrodatná (standardní) odchylka variační koeficient standardní chyba
Charakteristiky rozptýlení (variability) dat
A - malá variabilita dat B - velká variabilita dat
Variační a interkvartilové rozpětí variační rozpětí
interkvartilové rozpětí
R = xmax - xmin
Rq = x0,75 – x0,25
Variační rozpětí • Variační rozpětí je hrubou mírou rozptýlenosti dat. Tato hodnota je značně závislá na náhodných vlivech, silně je ovlivňována odlehlými a extrémními a hodnotami.
variační rozpětí
Rozptyl • Rozptyl s2 je průměr čtverců odchylek od průměru. Když však počítáme výběrový rozptyl, nedělíme většinou součet čtverců odchylek výrazem n, ale n-1, protože tím docílíme lepšího odhadu celkového rozptylu populace. Dělitel n-1 se nazývá počet stupňů volnosti rozptylu.
-
54,2 54,2 54,2 54,2 54,2 54,2 54,2 54,2 54,2 54,2 54,2
Aritemtický průměr = 54,2 kg Rozptyl = 63,36 kg2
= = = = = = = = = = =
Směrodatná odchylka
• Směrodatná odchylka (s) je v praxi nejpoužívanější mírou rozptylu hodnot. Při výpočtu této hodnoty jsou větší odchylky od středu zohledňovány více než malé. Vypočítá se jako druhá odmocnina rozptylu.
Variační koeficient
• Variační koeficient (v) je mírou relativního rozptýlení dat. v=
s
. 100%
xo
Vypočítá se jako podíl směrodatné odchylky a aritmetického průměru násobený stem. Udává se v procentech.
74 78 80 84 85 81 83 83 82 89 88 86 90 90 91 93 89 93 95 93 96 95 95 106
Standardní chyba Vztahuje se obvykle k aritmetickému průměru jako středové hodnotě. Horní mez spolehlivosti
Dolní mez spolehlivosti
86,85
- 1,44
88,29
+ 1,44
Interval spolehlivosti: 88,29 + 1,44
89,73
74 78 80 84 85 81 83 83 82 89 88 86 90 90 91 93 89 93 95 93 96 95 93 95 106
Deskriptivní statistické údaje
MS Excel
Statgraphics for Windows
Rozdělení dat
• Závisí na typu měřené veličiny. Rozeznáváme: Diskrétní náhodnou veličinu (může nabývat pouze určitých hodnot, např. krevní skupiny) Spojitou náhodnou veličinu (může nabývat všech hodnot v určitém intervalu, např. tělesná výška)
Příklady spojitých rozdělení symetrické jednovrcholové
dvouvrcholové
pravostranně asymetrické
levostranně asymetrické
Normální rozdělení Je podle svého objevitele nazýváno také Gaussovo rozdělení. Data v normálním rozdělení jsou symetrická a unimodální (jednovrcholová)
Pro normální rozdělení platí, že • aritmetický průměr = medián = modus • ve vzdálenosti menší než jedna směrodatná odchylka od průměru leží 68,27% hodnot. • ve vzdálenosti 1,96 směrodatné odchylky od průměru leží 95% všech hodnot. • 99% hodnot leží ve vzdálenosti menší než 3 směrodatné odchylky od průměru.
Testy normality rozdělení dat Density Trace for enzyme 15
density
• většinou pouze součástí specializovaného statistického software.
(X 0,001) 18
12 9 6 3 0 0
20
40
60
80
100
120
enzyme Normal Probability Plot for enzyme 120 100
enzyme
Chí-kvadrát test dobré shody Shapiro-Wilksův test Z-skóre pro šikmost Z-skóre pro špičatost
80 60 40 20 0 0,1
1
5
20
50
80
percentage
95
99
99,9
Induktivní metody statistické analýzy dat Stupňování slova „lež“: 1. stupeň: prostá lež 2. stupeň: odporná lež 3. stupeň: statistika
Testování hypotéz • Statistické testy obvykle vycházejí ze dvou hypotéz, nulové a alternativní. Nulová hypotéza H0 předpokládá, že rozdíl mezi porovnávanými charakteristikami jednotlivých proměnných je nulový. Tzv. alternativní hypotéza, H1 (případně HA) je pak kladena proti hypotéze nulové a vymezuje určitý vztah mezi proměnnými.
Formulace alternativní hypotézy
Dvoustranná hypotéza: parametr1 ≠ parametr2
Formulace alternativní hypotézy
Jednostranná hypotéza:
Jednostranná hypotéza:
parametr1 > parametr2
parametr1 < parametr2
Chyba I. a II. druhu • Testování hypotéz se provádí na určité předem stanovené hladině významnosti α (většinou 0,05 nebo 0,01). • Chyba 1. druhu vzniká v případě zamítnutí platné nulové hypotézy. • Chyba 2. druhu vzniká nezamítnutím neplatné nulové hypotézy.
Parametrické metody testování hypotéz • Podmínkou jejich použití je normální rozdělení dat. Je možné je používat pouze u dat z intervalových a poměrových měření. Pracují s aritmetickým průměrem jako středovou hodnotou a směrodatnou odchylkou jako hodnotou míry variability dat.
F-test pro analýzu rozptylů mezi dvěma nezávislými výběry •
F - test pro porovnání rozptylů je důležitý jako pomůcka pro rozhodování, jakým způsobem má být hodnocena významnost rozdílu středních hodnot dvou nezávislých souborů. Soubory dat se stejnými rozptyly označujeme jako homoskedastické, s různými rozptyly jako heteroskedastické.
Obsah kofeinu v nápoji 161,28 159,60 155,54 151,20 140,28 139,30 136,36 129,08 127,40 122,92 119,42 118,72 117,04 105,98 103,60 103,04 97,86 95,62 94,78 88,06 87,64 83,86 79,52 78,40 75,04 74,34 70,84 67,62 64,96 61,60
černá káva
Provedení F-testu
189,42 184,52 155,82 147,42 139,02 135,80 132,72 129,78 125,72 122,22 121,94 121,10 116,34 114,80 108,08 99,82 99,12 92,82 86,24 78,26
čaj
H0: s1 = s2 HA: s1 ≠ s2
MS Excel
Statgraphics for Windows
Nezamítáme nulovou hypotézu. Data v obou souborech jsou homoskedastická.
t-test pro analýzu aritmetických průměrů dvou nezávislých výběrů •
t-test nebo také Studentův test jde určen pro srovnání dvou výběrových průměrů a zodpovězení otázky, zda se od sebe statisticky významně liší, či zda je rozdíl mezi nimi pouze náhodný. U t-testu rozlišujeme 2 verze v závislosti na tom, zda se v obou souborech statisticky výrazně odlišují rozptyly (viz F test), hovoříme potom o t-testu pro shodné rozptyly a o t-testu pro rozdílné rozptyly.
Obsah kofeinu v nápoji 161,28 159,60 155,54 151,20 140,28 139,30 136,36 129,08 127,40 122,92 119,42 118,72 117,04 105,98 103,60 103,04 97,86 95,62 94,78 88,06 87,64 83,86 79,52 78,40 75,04 74,34 70,84 67,62 64,96 61,60
černá káva
189,42 184,52 155,82 147,42 139,02 135,80 132,72 129,78 125,72 122,22 121,94 121,10 116,34 114,80 108,08 99,82 99,12 92,82 86,24 78,26
Provedení t-testu Hypotéza: Černá káva obsahuje více kofeinu než čaj.
H0: xo1 = xo2
čaj
Statgraphics for Windows
Provedení t-testu
Obsah kofeinu v nápoji
Hypotéza: Černá káva obsahuje více kofeinu než čaj.
H0: xo1 = xo2 Statgraphics for Windows
MS Excel
Box-and-Whisker P lot
60
70
80
90
10 0 11 0 12 0 13 0 14 0 15 0 16 0 17 0 18 0 19 0 20 0
Párový t-test • Párový t-test se používá k porovnávání aritmetických průměrů u dvou souborů dat pocházejících z téhož výběru. Např. zjišťujeme TK u souboru hypertoniků před léčbou a u těch samých hypertoniků po léčbě. Data je třeba uspořádat do dvojic, párů.
ANOVA test (analýza rozptylu) • ANOVA je test zaměřený na vzájemné porovnávání tří a více nezávislých výběrů. Je založena na předpokladu, že každý z výběrů pochází z populace s normálním rozdělením se stejnou směrodatnou odchylkou. Zajímá nás, zda střední hodnoty (aritmetické průměry) skupin jsou všechny shodné, nebo zda se navzájem liší.
ANOVA test ANOVA test rozhodne o shodě či odlišnosti středových hodnot, neřeší však, který z průměrů je významně odlišnější od ostatních. Je třeba provést analýzu dalšími metodami. MS Excel
Mnohonásobné komparace – Fischerův LSD test
Statgraphics for Windows
Bohužel není součástí MS Excel.
Neparametrické (robustní) metody testování hypotéz • Nezávisí na typu rozdělení dat v souborech. Používají se u malých výběrů, pro data pocházející z ordinálních měření a pro data, která nemají normální rozdělení. Pracují s mediánem jako středovou hodnotou.
Mann-Whitneyův (Wilcoxonův) test (W-test) 109 214 1818 140 179 744 108 101 107 1547 529
546 844 602 87 794 643 199 91 105 479 1296
Délka remise u pacientů s endogenní a neurotickou depresí
Mann-Whitneyův (Wilcoxonův) test (W-test) 109 214 1818 140 179 744 108 101 107 1547 529
546 844 602 87 794 643 199 91 105 479 1296
Délka remise u pacientů s endogenní a neurotickou depresí
Statgraphics for Windows
Test Kolmogorov-Smirnov Zjišťuje pravděpodobnost, s jakou dva nezávislé výběry pocházejí z téhož rozdělení. 546 844 602 87 794 643 199 91 105 479 1296
Statgraphics for Windows
Quantile Plot 1
Variab le s Col_1 Col_2
0,8
proportion
109 214 1818 140 179 744 108 101 107 1547 529
0,6 0,4 0,2 0 0
0,4
0,8
1,2
1,6
2 (X 100 0)
Kruskal-Wallisův test • Je neparametrický test sloužící k porovnání mediánů tří a více nezávislých výběrů dat, u nichž nelze předpokládat normální rozdělení. Je jakousi neparametrickou obdobou ANOVA testu.
Kruskal-Wallisův test 109 214 1818 140 179 744 108 101 107 1547 529
546 844 602 87 794 643 199 91 105 479 1296
324 112 801 147 586 325 59 503 412 132 289 Statgraphics for Windows
Analýza kategoriálních dat • Kategoriální data jsou data nominální, ordinální, diskrétní a spojitá sloučená do skupin. Ke zjištění, zda mezi dvěma znaky existuje prokazatelný významný vztah se používá test χ2 (Chí-kvadrát).
χ2 test a kontingenční tabulka • Př. Účinek streptomycinu na léčbu plicní tuberkulózy
χ2 test a kontingenční tabulka • Př. Účinek streptomycinu na léčbu plicní tuberkulózy – výpočet očekávaných četností
Korelační analýza • Využívá se pro studium vztahů mezi dvěma nebo více kvantitativními veličinami, měřenými současně na každém jedinci sledovaného souboru. Korelační analýza však neřeší otázku která z proměnných ovlivňuje kterou. Mírou těsnosti vztahu mezi dvěma proměnnými je korelační koeficient. Teoreticky může nabývat hodnot v intervalu <–1;1>.
Korelační analýza • Přibližná interpretace hodnot korelačního koeficientu
Korelační analýza
Pearsonův korelační koeficient – parametrická analýza Spearmanův korelační koeficient – neparametrická analýza
Korelační analýza
MS Excel
Statgraphics for Windows
Regresní analýza • Slouží ke zkoumání vztahu mezi dvěma spojitými veličinami. Jedna z nich se nazývá nezávisle proměnná (x) a řídí druhou – závisle proměnnou (y). Regresní analýza predikuje vztah mezi oběma veličinami v závislosti na vhodném regresním modelu, který vychází z grafického rozložení dat.
Regresní analýza
Máme analyzovat data o počtu pracovních hodin za měsíc spojených s provozováním anesteziologické služby v závislosti na velikosti spádové populace nemocnice.
Plot of Hodiny vs Oblast (X 1000) 4 3
Hodiny
•
2 1 0 0
100
200
Oblast
300
400
Regresní analýza Plot of Fitted Model (X 1000) 4
Hodiny
3 2 1 0 0
100
200
Oblast
Statgraphics for Windows
300
400
Zdroj dalších informací http://ucebnice.euromise.cz/ index.php?conn=0§io n=biostat1
Děkuji vám za pozornost