Statistika v biomedicí biomedicínské nském výzkumu a ve zdravotnictví
Proč se používají statistické metody v biomedicíně • Biomedicí Biomedicínské nské obory se rychle kvantifikují kvantifikují • Plá Plánová nování, prová provádění a interpretadce výsledků výsledků biomedicí biomedicínské nského výzkumu se stá stále více stá stávají vají závislými na statistické statistické metodologii • Statistika proniká proniká do literatury v biomedicí biomedicínských oborech.
©Prof. RNDr. Jana Zvárová, DrSc. EuroMISE Centrum Ústav informatiky AV ČR v.v.i. 1
3
Statistika
Literatura
• popisná statistika
Edice Biomedicínská statistika vydávaná na Univerzitě Univerzitě Karlově Karlově v Praze, Karolinum
• shromažďování, uspořádání a popis souborů dat • přehledná sumarizace informací (např. ČSÚ) • induktivní statistika
Zvá Zvárová rová, J.: Základy statistiky pro biomedicí biomedicínské nské obory I. Karolinum, Univerzita Karlova v Praze, Praha 2001
• na základě vzorku (výběru) se snažíme odvodit obecná tvrzení o celku - závěry jsou zatíženy statistickou
chybou
• spolehlivost závěrů je stanovena objektivně
http://www.euromise.cz/ 2
4
Výběr
Obsah a význam statistiky - sché schéma
výběr
Výběr
část populace, kterou sledujeme v rámci výzkumu
Druhy výběru:
Populace
• reprezentativní výběr výběr, který svojí strukturou odpovídá struktuře populace • selektivní výběr výběr, jehož struktura neodpovídá struktuře populace - zkreslení výsledků
rozsah výběru …… počet prvků populace
zahrnutých do výběru
5
7
Konstrukce výběru
Populace • populace (základní soubor)
• záměrný výbě výběr – expertní expertní hledisko, často subjektivní subjektivní • náhodný výbě výběr – prostý – mechanický – oblastní oblastní (stratifikovaný)
přesně určena výčtem nebo vlastnostmi prvků • určené výčtem (např. demografické populace) - konečný rozsah • vymezené vlastnostmi (např. všechny možné
výsledky pokusu v daných experimentálních podmínkách)
G
- nekonečný rozsah
6
Data tvoří základ každého výzkumu, při němž jsou použity statistické metody. Jejich kvalita určuje kvalitu výsledků.
8
Znaky
Kvalitativní Kvalitativní pozorová pozorování
Předmě edmětem statistické statistického výzkumu jsou znaky, tj. urč určité ité vlastnosti objektů objektů sledovaných.
Jméno pacienta Novák Kubíček Bláhová Roubal Kratochvílová Zemanová Novotná Žitný
kvantitativní znak …… sledovanou vlastnost je možné změřit a vyjádřit číslem
Př.: tělesná výška, počet sourozenců
Rodinný stav s vobodný ženatý rozvedená rozvedený s vobodná ovdovělá vdaná s vobodný
Rod. s tav - kód Riziko povolání Kód rizika 0 s třední 1 1 velké 2 2 malé 0 2 s třední 1 0 malé 0 3 malé 0 1 s třední 1 0 velké 2
kvalitativní znak …… vlastnost je vyjádřena slovně
Př.:
rodinný stav, stupeň bolesti
9
11
Absolutní a relativní četnosti
Kvalitativní Kvalitativní znaky
Absolutní Absolutní četnost ..... poč počet pozorová pozorování v dané dané skupině skupině
• nominá nominální lní …… rozdě rozdělení lení do tř tříd bez uspoř uspořádání
Př.: rodinný stav:{ stav:{svobodný, ženatý, vdovec, rozvedený, druh} druh}
Př.:
počet svobodných osob ve výběru (v našem příkladu 3)
Relativní Relativní četnost
• ordiná ordinální lní …… rozdě rozdělení lení do tř tříd s uspoř uspořádáním
relativní četnost = mn
Př.: stupeň stupeň bolesti: {žádná dná bolest, malá malá bolest, stř středně edně
n ……… počet pozorování m ……… absolutní četnost
silná silná bolest, velmi silná silná bolest} bolest} Kvalitativní Kvalitativní znaky se pro účely analýzy mohou kó kódovat. Př.: 10
relativní četnost svobodných ve výběru je 3/8 = 0,375 12
Kvantitativní Kvantitativní znaky - míry polohy
Kvantitativní Kvantitativní znaky
Modus (výběrový) ..... hodnota, která se v souboru dat vyskytuje nejčastěji
• spojité spojité Př.: Co je modus v následujících výsledcích zjišťování krevních skupin: A, 0, 0, B, B, AB, A, A, 0, 0, 0, AB, B, 0, B, A, 0, AB, 0, 0, B, 0, A?
Př.: výš výška, hmotnost, koncentrace roztoku • diskré diskrétní tní
Př.: poč počet úmrtí mrtí, poč počet sourozenců sourozenců
Řešení:
Výsledky měření shrneme do tabulky: krevní skupina A B AB 0
četnost výskytu 5 5 3 10
Modem je tedy krevní skupina 0.
13
Kvantitativní Kvantitativní znaky - míry polohy
15
Kvantitativní Kvantitativní znaky - míry polohy
• hodnoty charakterizují charakterizující “stř střední ední" hodnotu znaku
Medián (výběrový) ...... v seřazeném souboru je to taková hodnota, která soubor rozděluje na dvě stejně velké části
Aritmetický x = 1 n průměr
n
∑
i =1
xi
Př.: Co je mediánem v následujících měřeních výšek dětí: 115, 117, 119, 122, 124, 128, 150?
Př.: Vypočtěte průměr následujících výsledků vyšetření: 39, 42, 73, 67, 24, 55. Řešení:
x=
Řešení:
122
1 6 1 ∑ xi = ⋅ 300 = 50 n i =1 6 14
16
Kvantitativní Kvantitativní znaky - míry rozptýlenosti
Normální rozdělení
R = xmax − xmin Rozptyl
1 n 1 n 2 2 s = ( xi − x ) = ∑ xi − nx 2 ∑ n − 1 i =1 n − 1 i=1 2
Směrodatná odchylka
s = s2
17
19
Prostá Prostá tabulka
Kvantily
130 136 132
100P% kvantil xP je číslo, které odděluje 100P% nejmenších hodnot znaku. Zná Známé kvantily: kvantily: Percentily Decily Kvartily Medián
140 138 146
136 142 151
Tělesná výška v cm 141 139 133 149 127 147 139 135 146 141 141 131
151 141 142
139 143 141
Skupinová tabulka
Střed třídního intervalu 125 130 135 140 145 150 Celkem 18
Počet dětí 1 3 4 12 4 3 27 20
Histogram - výška chlapců
Rozdě ozdělení lení chlapců chlapců ve věku 9,5 - 10 let podle tělesné lesné výš výšky ( délka třídní dního intervalu 5 cm )
HISTOGRAM HISTOGRAM HISTOGRAM délka itervalu 5 cm délka Délkaintervalu intervalu2 2cm cm
xi
ni
1 2 3 4 5 6 7 8 9 celkem
120 125 130 135 140 145 150 155 160 -
13 95 414 880 1013 582 199 29 6 3231
Součin nixi
Relativní četnost Relativní kumulativní četnost n /n i
1 560 11 875 53 820 118 800 141 820 84 390 29 850 4 495 960 447 570
0,0040 0,0294 0,1281 0,2724 0,3135 0,1801 0,0616 0,0090 0,0019 1,0000
0,0040 0,0334 0,1615 0,4339 0,7474 0,9275 0,9891 0,9981 1,0000 -
absolutníèetnost
i
absolutníèetnost èetnost absolutní
Číslo třídy Střed třídy Absolutní četnost
1200 500 1100 450 1000 400 400 900 350 800 350 700 300 300 600 250 250 500 200 200 400 150 150 300 100 200 100 100 50
50 0 0 116,5 0 116,5
116,5
121,5 126,5 131,5 136,5 141,5 146,5 151,5 156,5 161,5 120,5 124,5 128,5 132,5 136,5 140,5 144,5 148,5 152,5 156,5 160,5 122,5 128,5 134,5 140,5 146,5 152,5 158,5 výška v cm výška v cm
výška v cm
23
Normá Normální lní rozdě rozdělení lení
Histogram - výška chlapců HISTOGRAM
HISTOGRAM
délka itervalu 5 cm
Délka intervalu 2 cm
1200
500
1100
450
1000
absolutní èetnost
absolutníèetnost
400 900 800 350 700
300
600
250 500
200
400
150 300 200 100 100
50 0 116,5 0
116,5
121,5
122,5
126,5
131,5
128,5
136,5
134,5
141,5
140,5
výška v cm
146,5
146,5
151,5
156,5
152,5
161,5
158,5
výška v cm
22
24
Normá Normální lní rozdě rozdělení lení
Vliv populač populační smě směrodatné rodatné odchylky na tvar normá normální lního rozdě rozdělení lení
Normální rozdělení se týká populace, nikoli výběru. V případě normálního rozdělení průměr, modus a medián splývají. Normální rozdělení je plně určenou dvěma parametry: - populačním průměrem µ a - populační směrodatnou odchylkou σ.
25
Vliv populač populačního prů průměru na tvar normá normální lního rozdě rozdělení lení
27
• µ stř střední ední hodnota (poloha, populač populační prů průměr, těž těžiiště), modus i mediá medián • µ1 < µ2, σ1 = σ2
0.0
0.1
0.2
0.3
0.4
Význam parametrů parametrů
-2
0
2
4
0.0
0.1
0.2
0.3
0.4
-4
-4
26
-2
0
2
4
• σ smě směrodatná rodatná odchylka (mí (míra variability, koncentrace) • σ2 rozptyl (populač (populační rozptyl) • µ1 = µ2, σ1 < σ2 28
Obecné normální rozdělení
Normální rozdělení • souč součet spousty nepatrných nezá nezávislých příspě ě vků ů sp vk • nepř eníí nepřesnost měř měřen • délkové lkové rozmě rozměry částí stí lidské lidského tě těla • objemy, koncentrace … zpravidla až až po transformaci • relativní relativní četnost př při velké velkém poč počtu pokusů pokusů
X ~ N(µ,σ ) ⇒ 2
• (standardizace) 2,28 %
µ−σ
µ
µ +σ
µ + 2σ
Z=
0. 3
X −µ ~ N (0,1) σ
34,13 % 34,13 % 2,28 %
2,28 % 13,59 %
0 .0
µ − 2σ
13,59 %
0 .2
13,59 %
0. 1
2,28 %
0 .4
34,13 % 34,13 %
-2
13,59 %
-1
0
1
2
X −µ x−µ x−µ ≤ P( X ≤ x ) = P = Φ σ σ σ 29
Hustota N (μ,σ2)
31
Hustota logaritmicko-normálního rozdělení
Hustota N(0,1)
99,73%
0,30
2e -0 4
0,45
3e -0 4
0,60
68,27%
1e -0 4
0,15 0,00
µ−3σ µ−2σ µ−σ
0e + 0 0
95,45% µ+σ µ+2σ µ+3σ
6000
30
8000
10000
12000
14000
16000
32
Odhad populačního průměru Statistická teorie:
•
"Nejlepším odhadem populačního průměru µ je výběrový průměr."
?
Interval spolehlivosti pro µ pro velké velké n má prů průměr x př přibliž ibližně normá normální lní
rozdě rozdělení lení
Nakolik odhad vystihuje skutečnou hodnotu µ?
1−α
Vypovídací hodnotu odhadu posuzujeme podle délky intervalu spolehlivosti.
Interval spolehlivosti ... interval, v němž s 95%
pravděpodobností leží neznámý populační průměr µ.
= P
Příklad: Průměrná výška dětí: - pro 5 pozorování můžeme tvrdit, že průměrná výška leží s 95% pravděpodobnostní v intervalu (128; 148) - pro 1285 pozorování získáme interval (138,1; 138,9)
N (µ ,σ 2 n )
x − µ = P < z 1− α / 2 σ n σ x − z 1−α / 2 < µ < n
x +
σ n
z 1−α
Rozdělení výběrového průměru
35
Bodový a intervalový odhad pro μ u rozdělení N(μ,σ2)
• náhodný výbě výběr: za stá stálých podmí podmínek nezá nezávisle provedená provedená opakovaná opakovaná měřen ěřeníí stejné stejné vlastnosti • výš výšky ná náhodně hodně vybraných desetiletých hochů hochů • x1,x2,…,xn mají mají stejné stejné rozdě rozdělení lení: • µ - populač populační prů průměr, σ2 - populač populační rozptyl • pro velké velké n potom př přibliž ibližně
σx =
• při opakované opakovaném poř pořizová izování výbě výběrů obsahuje asi • 100(1100(1-α) % intervalů intervalů populač populační prů průměr µ 33
1 n σ2 x = ∑ xi ~ N µ , n i =1 n
/2
σ n
•Bodový odhad …
X
•95% 95% interval interval spolehlivosti …
σ2 X ~ N µ , n
X −1,96
σ σ ; X +1,96 n n
délka intervalu: př přesnost odhadu 34
36
Rozsah výběru Příklad: klad: Chceme konstruovat 95 % interval spolehlivosti pro prů průměrnou hodnou cholesterolu s dé délkou ++- 0,2 mmol/l, rozptyl hladiny cholesterolu je 1,252 . Řešení ení:
X − 1,96 1, 96
1, 25 1, 25 ; X + 1,96 n n
1, 25 = 0,2 n
n = (1, 96 * 1, 25 / 0 , 2 ) = 150 2
37
Statistická a klinická významnost
Možnost a b c d e f
Statistická významnost ne ne ano ano ne ano
Klinická významnost možná možná možná ano ne ne 38