Biomedicínská statistika IV. ZÁKLADY STATISTIKY V PROSTØEDÍ R Karel Zvára
Biomedicínská statistika IV. Jana Zvárová (editor) Základy statistiky v prostředí R Karel Zvára
Recenzovali: prof. RNDr. Jiří Anděl, DrSc. RNDr. Patrície Martinková, Ph.D. Obálka Anna Schlenker Sazba pomocí LaTeX Karel Zvára 1. vydání © Univerzita Karlova v Praze – Nakladatelství Karolinum, 2013 © Karel Zvára, 2013 ISBN 978-80-246-2245-3 ISBN 978-80-246-2447-1 (online : pdf)
Univerzita Karlova v Praze Nakladatelství Karolinum 2013 http://www.cupress.cuni.cz
Ukázka knihy z internetového knihkupectví www.kosmas.cz
Obsah Pˇ redmluva
7
1 Popisn´ e statistiky 1.1 Mˇeˇr´ıtka . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Kvantitativn´ı znak . . . . . . . . . . . . . . . . . . . 1.2.1 M´ıry polohy . . . . . . . . . . . . . . . . . . . 1.2.2 V´ ypoˇcet pomoc´ı R . . . . . . . . . . . . . . . 1.2.3 Co maj´ı m´ıry polohy spoleˇcn´e? . . . . . . . . 1.2.4 M´ıry variability . . . . . . . . . . . . . . . . . 1.2.5 Dalˇs´ı m´ıry, z-sk´ or . . . . . . . . . . . . . . . . 1.2.6 V´ ypoˇcet v prostˇred´ı R . . . . . . . . . . . . . 1.3 Grafick´ a zn´ azornˇen´ı . . . . . . . . . . . . . . . . . . 1.4 Popisn´e charakteristiky v geografii . . . . . . . . . . 1.4.1 Geografick´ y pr˚ umˇer, geografick´ y medi´an . . . 1.4.2 Stˇredn´ı diference . . . . . . . . . . . . . . . . 1.4.3 Giniho koeficient . . . . . . . . . . . . . . . . 1.4.4 Lorenzova kˇrivka . . . . . . . . . . . . . . . . 1.4.5 Lorenzova kˇrivka s vahami . . . . . . . . . . . 1.4.6 Form´ aln´ı zaveden´ı Lorenzovy kˇrivky s vahami 1.4.7 Lorenzova kˇrivka pˇri r˚ uznˇe jemn´em dˇelen´ı . . 1.4.8 Theil˚ uv index a jeho rozklad . . . . . . . . . 1.5 Shrnut´ı . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
9 9 10 10 18 20 20 22 23 24 25 28 31 32 33 36 38 41 45 52
2 Trocha teorie 55 2.1 N´ ahodn´e jevy, pravdˇepodobnost . . . . . . . . . . . . . . . . . 55 2.1.1 N´ ahodn´e jevy . . . . . . . . . . . . . . . . . . . . . . . 55 2.1.2 Pravdˇepodobnost . . . . . . . . . . . . . . . . . . . . . 56 3
Ukázka knihy z internetového knihkupectví www.kosmas.cz, UID: KOS190713
4
OBSAH
2.2
2.3
2.4 2.5 2.6
2.1.3 Podm´ınˇen´ a pravdˇepodobnost . 2.1.4 Bayes˚ uv vzorec . . . . . . . . . N´ ahodn´ a veliˇcina . . . . . . . . . . . . 2.2.1 Diskr´etn´ı a spojit´e rozdˇelen´ı . . 2.2.2 Stˇredn´ı hodnota . . . . . . . . 2.2.3 Kvantily, kritick´e hodnoty . . . 2.2.4 Rozptyl, kovariance, nez´ avislost D˚ uleˇzit´ a rozdˇelen´ı . . . . . . . . . . . 2.3.1 Hypergeometrick´e rozdˇelen´ı . . 2.3.2 Binomick´e rozdˇelen´ı . . . . . . 2.3.3 Multinomick´e rozdˇelen´ı . . . . 2.3.4 Poissonovo rozdˇelen´ı . . . . . . 2.3.5 Norm´ aln´ı rozdˇelen´ı . . . . . . . 2.3.6 Dalˇs´ı rozdˇelen´ı . . . . . . . . . N´ ahodn´ y v´ ybˇer . . . . . . . . . . . . . Centr´ aln´ı limitn´ı vˇeta . . . . . . . . . Shrnut´ı . . . . . . . . . . . . . . . . .
3 Statistick´ a indukce 3.1 V´ yˇsky muˇz˚ u. . . . . . . . . . . 3.2 Hrac´ı kostka . . . . . . . . . . . 3.2.1 Pad´ a ˇsestka spravedlivˇe? 3.2.2 Kostka m´ a ˇsest stran . . 3.3 Populace a v´ ybˇer . . . . . . . . 3.4 Testov´ an´ı statistick´ ych hypot´ez 3.5 Shrnut´ı . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
4 Jeden v´ ybˇ er 4.1 Jednov´ ybˇerov´ y t-test . . . . . . . . 4.1.1 Interval spolehlivosti pro µ 4.1.2 S´ıla testu . . . . . . . . . . 4.1.3 Ovˇeˇren´ı pˇredpoklad˚ u. . . . 4.2 P´ arov´ y t-test . . . . . . . . . . . . 4.3 Znam´enkov´ y test . . . . . . . . . . 4.4 P´ arov´ y Wilcoxon˚ uv test . . . . . . 4.5 Test o binomick´e pravdˇepodobnosti 4.5.1 Interval spolehlivosti pro π 4.6 Shrnut´ı . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . n´ahodn´ ych veliˇcin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
59 63 66 67 69 72 74 81 81 83 87 90 91 95 97 102 103
. . . . . . .
. . . . . . .
. . . . . . .
107 107 113 113 117 118 119 121
. . . . . . . . . .
123 . 123 . 124 . 127 . 129 . 131 . 133 . 135 . 136 . 138 . 140
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
Ukázka knihy z internetového knihkupectví www.kosmas.cz, UID: KOS190713
OBSAH 5 Dva 5.1 5.2 5.3 5.4
5 v´ ybˇ ery Dvouv´ ybˇerov´ y t-test . . . . . . . . Mann˚ uv-Whitney˚ uv test . . . . . . Porovn´ an´ı dvou pravdˇepodobnost´ı Shrnut´ı . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
141 142 148 153 157
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
159 159 169 170 177 179 181
7 Korelace a regrese 7.1 Korelace . . . . . . . . . . . . . . . . . . 7.1.1 Pearson˚ uv korelaˇcn´ı koeficient . . 7.1.2 Spearman˚ uv korelaˇcn´ı koeficient 7.2 Regrese . . . . . . . . . . . . . . . . . . 7.2.1 Regresn´ı pˇr´ımka . . . . . . . . . 7.2.2 Mnohon´ asobn´ a line´ arn´ı regrese . 7.2.3 Ovˇeˇren´ı pˇredpoklad˚ u. . . . . . . 7.3 Transformace . . . . . . . . . . . . . . . 7.4 Shrnut´ı . . . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
183 184 184 186 188 189 197 200 204 206
8 Kontingenˇ cn´ı tabulky 8.1 Ch´ı-kvadr´ at test dobr´e shody . . 8.2 Hodnocen´ı kontingenˇcn´ı tabulky ˇ rpoln´ı tabulka . . . . . . . . . 8.3 Ctyˇ 8.4 McNemar˚ uv test . . . . . . . . . 8.5 Shrnut´ı . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
209 209 211 216 221 224
A Zaˇ c´ın´ ame s R A.1 Co je R? . . . . . . . . . . . A.2 Instalace . . . . . . . . . . . . A.3 Zaˇc´ın´ ame s R . . . . . . . . . A.3.1 Datab´ aze a matice . . A.3.2 Co je a co nen´ı vidˇet . A.3.3 Uloˇzen´ı a naˇcten´ı dat
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
227 227 227 228 232 234 236
6 Anal´ yza rozptylu 6.1 Jednoduch´e tˇr´ıdˇen´ı 6.2 Kruskal˚ uv-Wallis˚ uv 6.3 Dvojn´e tˇr´ıdˇen´ı . . 6.4 N´ ahodn´e bloky . . 6.5 Friedman˚ uv test . 6.6 Shrnut´ı . . . . . .
. . . test . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
Ukázka knihy z internetového knihkupectví www.kosmas.cz, UID: KOS190713
6
OBSAH A.3.4 Uk´ azka pr´ ace s daty A.4 Skripty . . . . . . . . . . . A.5 Commander . . . . . . . . . ˇ A.6 Casto pouˇz´ıvan´e programy .
B Popis datov´ ych B.1 EU2010 . . B.2 GaltonSyn . B.3 Howells . . B.4 Kojeni . . . B.5 Kraje . . . B.6 Matky . . . B.7 Mysi . . . . B.8 Okresy . . . B.9 Policie . . . B.10 Stulong . . B.11 Transpirace
soubor˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
237 238 240 242
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
243 243 244 244 245 245 246 246 246 247 247 248
Literatura
249
Funkce R
251
Rejstˇ r´ık
255
Ukázka knihy z internetového knihkupectví www.kosmas.cz, UID: KOS190713
Pˇ redmluva Text je urˇcen student˚ um pˇr´ırodovˇedeck´e fakulty UK a nejen jim. Vych´az´ı z dlouholet´ ych pˇredn´ aˇsek pro biology, studenty uˇcitelstv´ı, v posledn´ıch letech pro geografy, demografy. . . Douf´ am, ˇze bude uˇziteˇcn´ y tak´e student˚ um l´ekaˇrsk´ ych fakult a doktorand˚ um biomedic´ınsk´ ych obor˚ u. R˚ uzn´e ˇc´asti knihy jsou nestejnˇe obt´ıˇzn´e, ale vˇeˇr´ım, ˇze si studenti dok´aˇz´ı naj´ıt to, co je pro jejich studium d˚ uleˇzit´e. Prvn´ı kapitola je vˇenov´ ana popisn´ ym statistik´am, druh´a pak z´akladn´ım pravdˇepodobnostn´ım pojm˚ um. Za nejobt´ıˇznˇejˇs´ı, ale sv´ ym zp˚ usobem nejd˚ uleˇzitˇejˇs´ı, povaˇzuji tˇret´ı kapitolu, jej´ımˇz u ´kolem je pˇribl´ıˇzit princip statistick´eho uvaˇzov´ an´ı. Zb´ yvaj´ıc´ı kapitoly uv´adˇej´ı nejbˇeˇznˇejˇs´ı statistick´e u ´lohy a metody k jejich ˇreˇsen´ı. Pˇr´ıloha A je urˇcena jako minim´aln´ı u ´vod tˇem, kteˇr´ı s R pr´ avˇe zaˇc´ınaj´ı. Tento u ´vod je moˇzno doplnit nˇekter´ ym z manu´al˚ u, kter´e lze nal´ezt na internetu, pˇredevˇs´ım na nˇekter´em ze zrcadel CRAN (viz pˇr´ılohu A). Pˇr´ıloha B struˇcnˇe popisuje data, s nimiˇz se v kn´ıˇzce pracuje a kter´ a jsou um´ıstˇena na pˇriloˇzen´em c´ed´eˇcku. Vˇeˇr´ım, ˇze toto c´ed´eˇcko usnadn´ı pr´ aci s kn´ıˇzkou. Jsou na nˇem po jednotliv´ ych kapitol´ach uloˇzeny vˇsechny erkov´e v´ ypoˇcty uveden´e v textu, v adres´aˇri data jsou uloˇzena vˇsechna data . Vzoreˇcky, na kter´e si nˇekteˇr´ı studenti stˇeˇzuj´ı, jsem se snaˇzil omezit. Pravda, k vlastn´ımu poˇc´ıt´ an´ı dnes tak ˇcasto vzoreˇcky nepotˇrebujeme, poˇc´ıtaˇce je zpravidla znaj´ı spolehlivˇeji, ale vzoreˇcky tak´e umoˇzn ˇuj´ı struˇcn´ y a pˇresn´ y z´apis mnoha myˇslenek, princip˚ u, algoritm˚ u. . . Kde vid´ım moˇznost, tam takov´ y vzoreˇcek doprov´ az´ım podrobn´ ym, a jak douf´am, snad tak´e srozumiteln´ ym vysvˇetlen´ım. Text je prostoupen uk´ azkami v´ ypoˇct˚ u v prostˇred´ı R s erkov´ ymi pˇr´ıkazy. Je to pom˚ ucka, kterou vˇrele doporuˇcuji. Pravda, seznamov´an´ı se s t´ımto programem je ponˇekud n´ aroˇcnˇejˇs´ı, neˇz tˇreba zaˇc´ atek pr´ace v Excelu. Student, kter´ y se neboj´ı samostatn´eho myˇslen´ı, po ˇcase zaˇcne komunikovat s prostˇred´ım R zcela samozˇrejmˇe. Toto prostˇred´ı umoˇzn´ı sv´emu uˇzivateli logicky 7
Ukázka knihy z internetového knihkupectví www.kosmas.cz, UID: KOS190713
ˇ PREDMLUVA
8
hledat odpovˇedi na poloˇzen´e ot´ azky. Znalost angliˇctiny pr´aci v tomto prostˇred´ı usnadn´ı. Dalˇs´ı pom˚ uckou pˇri pr´ aci v prostˇred´ı R bude, jak douf´am, speci´ aln´ı rejstˇr´ık erkov´ ych funkc´ı pouˇzit´ ych v t´eto knize. Nicm´enˇe, nepsal jsem pˇr´ıruˇcku programu R, psal jsem kn´ıˇzku o statistice. V´ yklad je doprov´ azen ˇradou pˇr´ıklad˚ u, kter´e jsou v kaˇzd´e kapitole pr˚ ubˇeˇznˇe ˇc´ıslov´ any. Mnoh´e spolu souvisej´ı, navazuj´ı na sebe, coˇz se pozn´a podle struˇcn´eho oznaˇcen´ı ˇreˇsen´e u ´lohy, kter´e je uvedeno vˇzdy za ˇc´ıslem pˇr´ıkladu. Tato oznaˇcen´ı lze nal´ezt tak´e v rejstˇr´ıku. Doporuˇcuji pˇr´ıklady pˇri studiu nepˇreskakovat. Naopak, jsou tam uv´ adˇeny interpretaˇcn´ı koment´aˇre d˚ uleˇzit´e pro osvojen´ı z´ aklad˚ u statistick´eho myˇslen´ı. Studium pˇr´ıklad˚ u je uˇziteˇcn´e i tehdy, kdyˇz si ˇcten´ aˇr v´ ystupy z R jen prohl´edne. Konec pˇr´ıkladu ˇcten´ aˇr snadno rozpozn´ a podle symbolu ⃝ um´ıstˇen´eho na jeho konci. Podobnˇe pozn´ amky, kter´e obsahuj´ı dalˇs´ı vysvˇetlen´ı, jsou odliˇseny menˇs´ım p´ısmem. Jeˇstˇe upozornˇen´ı urˇcen´e zejm´ena tˇem, kteˇr´ı znaj´ı moji podobnˇe zamˇeˇrenou kn´ıˇzku nazvanou Biostatistika (Zv´ ara, 1998), kter´a pak vyˇsla v m´ırnˇe upraven´e verzi bˇehem deseti let jeˇstˇe nˇekolikr´ at. M´ısto tam pouˇz´ıvan´ ych kritick´ ych hodnot pouˇz´ıv´ am z´ asadnˇe kvantily, takˇze napˇr´ıklad m´ısto 2,5% kritick´e hodnoty standardn´ıho norm´ aln´ıho rozdˇelen´ı rovn´e 1,96 je tu hodnotou identick´ y 97,5% kvantil t´ehoˇz rozdˇelen´ı. Vysvˇetlen´ı obou tˇechto pojm˚ u najde ˇcten´ aˇr na str. 73. Dˇekuji obˇema recenzent˚ um textu, profesoru Jiˇrimu Andˇelovi, DrSc, a RNDr. Patr´ıcii Martinkov´e, Ph.D., za peˇcliv´e pˇreˇcten´ı rukopisu, za upozornˇen´ı na nedopatˇren´ı v nˇem obsaˇzen´ a a zejm´ena za ˇradu podnˇet˚ u k jeho zlepˇsen´ı. Podobnˇe dˇekuji docentu RNDr. Josefu Jeˇzkovi, CSc., kter´ y mi kolegi´ alnˇe, bez ofici´ aln´ıho povˇeˇren´ı, pomohl pˇri koneˇcn´ ych u ´prav´ach textu. D´ık patˇr´ı i docentu RNDr. Martinu Ouˇredn´ıˇckovi, PhD., za n´amˇety t´ ykaj´ıc´ı se odstavce 1.4. Na z´ avˇer se omlouv´ am za vˇsechny pˇreklepy a jin´a nedopatˇren´ı, kter´e pˇres veˇskerou snahu v textu z˚ ustaly. Pros´ım laskav´e ˇcten´aˇre, aby mne na takov´e pˇr´ıpady upozornili, abych se jich mohl pˇr´ıˇstˇe vyvarovat.
ˇ em Dubˇe v lednu roku 2013 V Praze a v Cesk´ Karel Zv´ara
Ukázka knihy z internetového knihkupectví www.kosmas.cz
Kapitola 1
Popisn´ e statistiky 1.1
Mˇ eˇ r´ıtka
Nejprve si ujasn´ıme, ˇc´ım se budeme zab´ yvat. M´ame nˇejak´ y soubor statistick´ ych jednotek a u kaˇzd´e z nich zjiˇst’ujeme jeden ˇci nˇekolik u ´daj˚ u. Jednotliv´ ym u ´daj˚ um ˇr´ık´ ame znaky. Mohou to b´ yt tˇelesn´a v´ yˇska ˇci hmotnost, mˇes´ıˇcn´ı pˇr´ıjem nebo tak´e pohlav´ı, n´ arodnost ˇci strana, kterou dan´ y jedinec hodl´ a volit. U kaˇzd´eho znaku mus´ıme urˇcit mˇeˇr´ıtko, v nˇemˇz budeme zjiˇst’ovan´e hodnoty vyjadˇrovat. Je zˇrejm´e, ˇze nevystaˇc´ıme s jedin´ ym druhem mˇeˇr´ıtka, ˇze mˇeˇr´ıtko pro n´ arodnost bude zcela jin´eho druhu neˇz mˇeˇr´ıtko pro v´ yˇsku postavy. Nejjednoduˇsˇs´ım druhem mˇeˇr´ıtka je nomin´ aln´ı mˇ eˇ r´ıtko. K jeho zaveden´ı staˇc´ı vyjmenovat hodnoty, jichˇz m˚ uˇze dan´ y znak nab´ yvat. Je nutn´e, aby se jednotliv´e hodnoty navz´ ajem vyluˇcovaly a abychom vˇzdycky vhodnou hodnotu mohli naj´ıt. Hodnota je pak d´ ana jednoznaˇcnˇe. Pˇr´ıkladem m˚ uˇze b´ yt pohlav´ı, n´ arodnost nebo barva oˇc´ı. Pokud mˇeˇr´ıtko obsahuje pouh´e dvˇe moˇzn´e hodnoty, hovoˇr´ı se nˇekdy o mˇ eˇ r´ıtku nula-jedniˇ ckov´ em. Podrobnˇeji vypov´ıd´ a mˇ eˇ r´ıtko ordin´ aln´ı. M´ a vˇsechny vlastnosti nomin´ aln´ıho mˇeˇr´ıtka, ale nav´ıc jsou jeho hodnoty uspoˇr´ad´any. Patˇr´ı sem napˇr´ıklad nejvyˇsˇs´ı dosaˇzen´e vzdˇel´ an´ı, stupeˇ n bolesti nebo tˇreba barva v barevn´em spektru duhy. Jak uvid´ıme pozdˇeji, nˇekdy na znaky s ordin´aln´ım mˇeˇr´ıtkem m˚ uˇzeme pohl´ıˇzet jako na znaky s mˇeˇr´ıtkem nomin´aln´ım a pˇr´ısluˇsn´e uspoˇr´ad´ an´ı pro jednoduchost pom´ıj´ıme. Dalˇs´ım stupnˇem sloˇzitosti mˇeˇr´ıtek je mˇ eˇ r´ıtko intervalov´ e, kter´e stejnˇe jako ordin´ aln´ı mˇeˇr´ıtko pˇredpokl´ ad´ a uspoˇr´ adan´e hodnoty mˇeˇren´eho znaku. 9
Ukázka knihy z internetového knihkupectví www.kosmas.cz, UID: KOS190713
´ STATISTIKY KAPITOLA 1. POPISNE
10
Nav´ıc pˇredpokl´ ad´ a, ˇze hodnoty jsou pravidelnˇe rozm´ıstˇeny. Staˇc´ı pak jednu z hodnot oznaˇcit za nultou a nˇekterou vˇetˇs´ı jako jedniˇcku, n´asleduj´ıc´ı (stejnˇe vzd´ alenou od jedniˇcky, jako je jedniˇcka od nuly) jako dvojku atd. Interval mezi nulou a jedniˇckou m˚ uˇzeme libovolnˇe dˇelit (polovina, desetiny, tis´ıciny) ˇci n´ asobit (stem nebo tak´e z´ aporn´ ym ˇc´ıslem). Hodnoty pak ukazuj´ı vzd´ alenost“ od zvolen´eho poˇc´ atku, pˇr´ıpadnˇe i smˇer, jak´ ym se k dan´e hod” notˇe od poˇc´ atku dostaneme. Typickou ot´ azkou je, o kolik se dvˇe hodnoty ” liˇs´ı“. Pˇr´ıkladem m˚ uˇze b´ yt Celsiova teplotn´ı stupnice nebo rok narozen´ı. Nejsloˇzitˇejˇs´ı je mˇ eˇ r´ıtko pomˇ erov´ e. M´ a opˇet vˇsechny vlastnosti pˇredch´ azej´ıc´ıho mˇeˇr´ıtka (intervalov´eho), ale nav´ıc poˇca´tek (nulov´a hodnota) nen´ı libovoln´ y. V pomˇerov´em mˇeˇr´ıtku porovn´ av´ ame namˇeˇrenou hodnotu s pˇredem definovanou jednotkovou hodnotou. V´ yˇska postavy je u ´daj, kter´ y porovn´ av´ a skuteˇcn´ y fyzik´ aln´ı rozmˇer lidsk´eho tˇela se zvolenou fyzik´aln´ı jedˇ ık´ notkou. R´ a, kolikr´ at je ˇclovˇek delˇs´ı, neˇz je 1 m, coˇz byla, jak jsem se v polovinˇe minul´eho stolet´ı uˇcil ve ˇskole, vzd´ alenost mezi dvˇema ryskami na tyˇci ze slitiny platiny a iridia um´ıstˇen´e v S`evres u Paˇr´ıˇze. M´a zde smysl stejn´ a ot´ azka jako u mˇeˇr´ıtka intervalov´eho (o kolik km je delˇs´ı cesta z A do B, kdyˇz jedeme pˇres C a ne pˇres D), nav´ıc m´ a smysl tak´e ot´azka: Kolikr´at ” je cesta z A do B pˇres C delˇs´ı neˇz cesta z A do B pˇres D?“ Pˇr´ıkladem m˚ uˇze slouˇzit kaˇzd´e mˇeˇren´ı d´elky ˇci hmotnosti nebo tak´e u ´daj o vˇeku dan´e osoby. V nˇekter´ ych souvislostech vystaˇc´ıme s hrubˇs´ım rozliˇsen´ım na mˇ eˇ r´ıtka kvalitativn´ı (kategori´ aln´ı) a mˇ eˇ r´ıtka kvantitativn´ı (ˇ c´ıseln´ a). K prvn´ım se zpravidla zaˇrazuj´ı mˇeˇr´ıtka nomin´ aln´ı a ordin´aln´ı, ke druh´ ym pak mˇeˇr´ıtko intervalov´e a pomˇerov´e. Z tohoto hrubˇs´ıho rozdˇelen´ı vych´az´ı i dva zp˚ usoby, jak v´ ysledek mˇeˇren´ı modelujeme matematicky, jak zav´ad´ıme pojem veliˇ ciny. Protoˇze u kvantitativn´ıch mˇeˇr´ıtek pouˇz´ıv´ame k vyj´adˇren´ı hodnot ˇc´ısla, bude veliˇcina s t´ımto ˇc´ıslem pˇr´ımo ztotoˇznˇena. Naproti tomu u kvalitativn´ıch znak˚ u se bez ˇc´ısel m˚ uˇzeme obej´ıt, jednotliv´e hodnoty maj´ı ˇcasto jen slovn´ı popis. K ˇc´ısl˚ um se dostaneme, kdyˇz zjist´ıme ˇ cetnosti, tedy poˇcty pˇr´ıpad˚ u, kolikr´ at se ta kter´ a hodnota vyskytla.
1.2 1.2.1
Kvantitativn´ı znak M´ıry polohy
V r´ amci jiˇz zm´ınˇen´eho rozs´ ahl´eho sledov´ an´ı muˇz˚ u stˇredn´ıho vˇeku s ohledem na v´ yskyt ateroskler´ ozy bylo vyˇsetˇreno v´ıce neˇz tis´ıc muˇz˚ u, kteˇr´ı byli podle stupnˇe rizika ateroskler´ ozy rozdˇeleni do nˇekolika skupin. Podejme si pˇr´ısluˇsn´ y datov´ y soubor a pˇripravme uk´ azky dat.
Ukázka knihy z internetového knihkupectví www.kosmas.cz, UID: KOS190713
1.2. KVANTITATIVN´I ZNAK
11
> data(Stulong) > names(Stulong) [1] "ID" "v´ yˇ ska" [6] "chlst" "V´ ıno" [11] "KOURrisk" "Skupina"
"v´ aha" "cukr"
"syst1" "bmi"
"syst2" "vˇ ek"
> table(Stulong$Skupina) NS&NSS 204
RSI 329
RSK 348
PS 73
> bmiZdrav´ ı <- with(Stulong,bmi[Skupina=="NS&NSS"]) > length(bmiZdrav´ ı) [1] 204 > bmiNemocn´ ı <- with(Stulong,bmi[Skupina=="PS"]) > length(bmiNemocn´ ı) [1] 73
Ve skupinˇe oznaˇcen´e jako norm´ aln´ı (pro jednoduchost jim budeme ˇr´ıkat zdrav´ı) m´ ame u ´pln´ a pozorov´ an´ı 204 muˇz˚ u. Zjiˇstˇen´e hodnoty indexu BMI jsou uvedeny v tabulce 1.1. R´ adi bychom u ´roveˇ n BMI tˇechto muˇz˚ u charakterizovali jedin´ ym ˇc´ıslem. P˚ ujde o m´ıru polohy. Bude to hodnota v nˇejak´em smyslu prostˇredn´ı? Nebo hodnota, kter´ a se vyskytla nejˇcastˇeji? Nebo p˚ ujde o jak´esi tˇeˇziˇstˇe hodnot? Prohl´ednˇeme si namˇeˇren´e hodnoty. V tabulce 1.1 jsou uvedeny vˇsechny hodnoty, v tabulce 1.2 jsou tyt´eˇz hodnoty, avˇsak vzestupnˇe uspoˇr´adan´e pomoc´ı funkce sort(). Takov´e uspoˇr´ ad´ an´ı ˇc´ıseln´ ych hodnot se naz´ yv´a variaˇ cn´ı ˇ rada. Ve variaˇcn´ı ˇradˇe snadno identifikujeme nejmenˇs´ı a nejvˇetˇs´ı namˇeˇrenou hodnotu (minimum, maximum). Lze vˇsak oˇcek´avat, ˇze to nikterak nemus´ı b´ yt hodnoty pro dan´ a mˇeˇren´ı typick´e. Proto prvn´ı dvˇe z nab´ızen´ ych moˇznost´ı jak charakterizovat u ´roveˇ n vˇsech mˇeˇren´ı rychle zavrhneme. M´ ame-li jedinou hodnotou charakterizovat naˇsich 204 ˇc´ısel, asi n´as hned napadne pr˚ umˇ er, pˇresnˇeji aritmetick´ y pr˚ umˇ er. V naˇsem pˇr´ıpadˇe je pr˚ umˇer po zaokrouhlen´ı roven 24,79. Pr˚ umˇer je ˇc´ıseln´ a charakteristika zn´ am´ a z bˇeˇzn´eho ˇzivota. Z novin zn´ame napˇr´ıklad pr˚ umˇernou mˇes´ıˇcn´ı mzdu zamˇestnanc˚ u. Ta se spoˇc´ıt´a zhruba ˇreˇceno tak, ˇze se seˇctou vˇsechny jejich (hrub´e) mzdy a souˇcet se vydˇel´ı poˇctem zamˇestnanc˚ u. Je to tedy mzda, kterou by mˇel kaˇzd´ y zamˇestnanec, kdyby pˇri stejn´e celkovˇe vyplacen´e ˇc´ astce vˇsichni zamˇestnanci brali stejnˇe. Form´alnˇe
Ukázka knihy z internetového knihkupectví www.kosmas.cz, UID: KOS190713
´ STATISTIKY KAPITOLA 1. POPISNE
12
Tabulka 1.1: Hodnoty BMI zdrav´ ych muˇz˚ u v p˚ uvodn´ım poˇrad´ı 25,43 24,30 22,60 24,42 24,11 28,09 22,53 22,59 23,18 27,34 25,25 23,36 24,72 24,88 27,61 24,34 25,56 23,67 22,99 25,01 22,74
27,14 26,22 25,83 25,31 23,32 26,12 24,98 27,17 23,66 22,86 25,18 25,90 23,67 25,73 23,24 22,99 25,14 25,66 24,76 26,73 26,88
26,01 22,22 26,88 25,01 26,22 24,68 25,83 24,73 24,84 22,23 22,53 27,68 27,77 21,98 24,39 22,10 25,91 25,66 27,46 24,16 20,66
23,26 26,51 24,45 26,75 25,62 26,83 26,00 25,65 25,11 21,55 24,15 27,12 23,71 26,51 22,91 25,71 22,72 27,36 27,98 23,66 24,96
21,46 24,02 27,76 22,60 26,03 19,73 21,15 25,51 24,45 25,06 24,44 26,09 23,46 24,54 25,08 23,25 25,76 26,59 25,40 22,94
24,62 27,75 24,76 25,83 24,34 23,37 25,43 27,40 22,53 23,78 24,57 23,99 26,99 25,06 25,99 24,38 25,88 27,31 27,06 23,45
22,28 24,57 25,88 26,42 21,46 23,55 23,81 22,89 24,09 24,97 26,12 26,53 27,68 24,11 25,28 25,54 23,88 27,08 23,15 26,79
26,32 21,46 28,39 26,49 25,98 22,60 22,79 23,57 24,86 26,15 24,16 24,39 25,22 24,90 23,04 24,03 25,56 26,85 22,72 24,84
24,57 25,61 24,22 25,01 22,55 22,20 26,77 22,72 26,09 27,72 27,08 24,49 23,51 24,98 25,26 23,46 21,56 24,51 24,67 25,95
25,01 21,27 25,46 26,51 23,99 23,36 23,18 23,36 25,16 24,73 25,00 23,32 27,43 26,03 24,30 22,53 25,46 27,68 26,57 22,88
vyj´ adˇreno je pr˚ umˇer x ¯ d´ an vztahem n
1 1 x ¯ = (x1 + x2 + · · · + xn ) = xi . n n i=1
(1.1)
Je takov´ a charakteristika spravedliv´ a i v pˇr´ıpadˇe, ˇze nˇekteˇr´ı maj´ı tˇreba jen poloviˇcn´ı u ´vazek? Nemˇeli bychom mzdu odpov´ıdaj´ıc´ı ˇc´asteˇcn´emu u ´vazku vz´ıt v u ´vahu jen ˇc´ asteˇcnˇe“? Pˇrinejmenˇs´ım pˇri hodnocen´ı jak dobˇre je ” ˇ sen´ım je v´aˇzen´ zaplacena odveden´ a pr´ ace je to jistˇe na m´ıstˇe. Reˇ y pr˚ umˇer. ˇ Pˇ r´ıklad 1.1 (V4) Na internetov´e str´ ance Cesk´eho statistick´eho u ´ˇradu lze nal´ezt informace o zem´ıch Evropsk´e unie vztaˇzen´e ke konci prvn´ıho deseˇ y statistick´ tilet´ı tohoto stolet´ı (Cesk´ yu ´ˇrad, 2012). Data jsou tak´e uvedena na pˇriloˇzen´em disku. Vˇsimnˇeme si u ´daj˚ u o HDP vztaˇzen´em na jednoho obyvatele a vyj´ adˇren´em ve standardu kupn´ı s´ıly ˇctyˇr st´at˚ u Visegr´adsk´e skupiny
Ukázka knihy z internetového knihkupectví www.kosmas.cz, UID: KOS190713
1.2. KVANTITATIVN´I ZNAK
13
Tabulka 1.2: Uspoˇr´ adan´e hodnoty BMI zdrav´ ych muˇz˚ u (variaˇcn´ı ˇrada) 19,73 22,10 22,59 22,88 23,24 23,46 23,78 24,15 24,39 24,57 24,84 25,01 25,22 25,51 25,73 25,98 26,15 26,57 26,99 27,40 27,77
20,66 22,20 22,60 22,89 23,25 23,46 23,81 24,16 24,42 24,62 24,86 25,01 25,25 25,54 25,76 25,99 26,22 26,59 27,06 27,43 27,98
21,15 22,22 22,60 22,91 23,26 23,51 23,88 24,16 24,44 24,67 24,88 25,01 25,26 25,56 25,83 26,00 26,22 26,73 27,08 27,46 28,09
21,27 22,23 22,60 22,94 23,32 23,55 23,99 24,22 24,45 24,68 24,90 25,06 25,28 25,56 25,83 26,01 26,32 26,75 27,08 27,61 28,39
21,46 22,28 22,72 22,99 23,32 23,57 23,99 24,30 24,45 24,72 24,96 25,06 25,31 25,61 25,83 26,03 26,42 26,77 27,12 27,68
21,46 22,53 22,72 22,99 23,36 23,66 24,02 24,30 24,49 24,73 24,97 25,08 25,40 25,62 25,88 26,03 26,49 26,79 27,14 27,68
21,46 22,53 22,72 23,04 23,36 23,66 24,03 24,34 24,51 24,73 24,98 25,11 25,43 25,65 25,88 26,09 26,51 26,83 27,17 27,68
21,55 22,53 22,74 23,15 23,36 23,67 24,09 24,34 24,54 24,76 24,98 25,14 25,43 25,66 25,90 26,09 26,51 26,85 27,31 27,72
21,56 22,53 22,79 23,18 23,37 23,67 24,11 24,38 24,57 24,76 25,00 25,16 25,46 25,66 25,91 26,12 26,51 26,88 27,34 27,75
21,98 22,55 22,86 23,18 23,45 23,71 24,11 24,39 24,57 24,84 25,01 25,18 25,46 25,71 25,95 26,12 26,53 26,88 27,36 27,76
ˇ (CR, Mad’arsko, Polsko, Slovensko) za rok 2010. Jsou to po ˇradˇe hodnoty 19 400, 15 800, 15 300 a 18 000. M´ ame-li tuto skupinu st´at˚ u, oznaˇcovanou jako V4, charakterizovat jedinou hodnotou, jistˇe to nebude obyˇcejn´ y pr˚ umˇer (19 400 + 15 800 + 15 300 + 18 000)/4 = 17 125, ale pr˚ umˇer v´aˇzen´ y, pˇriˇcemˇz v´ ahy jsou d´ any poˇctem obyvatel: 19 400 · 10 517 247+15 800 · 9 976 062 + 15 300 · 38 441 588 + 18 000 · 5 477 038 , 10 517 247 + 9 976 062 + 38 441 588 + 5 477 038 coˇz d´ a hodnotu 16 276,48, kter´ a je t´emˇeˇr o 850 jednotek menˇs´ı, neˇz prost´ y pr˚ umˇer. Pˇri v´ ypoˇctu v´ aˇzen´eho pr˚ umˇeru jsme v ˇcitateli spoˇc´ıtali za kaˇzdou zemi celkovou hodnotu HDP a tyto hodnoty seˇcetli, takˇze jsme dostali celkov´ y hrub´ y dom´ ac´ı produkt za celou skupinu V4. Ten jsme vydˇelili celkov´ ym poˇctem obyvatel V4 a dostali tak ukazatel vztaˇzen´ y na jednoho obyvatele.
Ukázka knihy z internetového knihkupectví www.kosmas.cz, UID: KOS190713
14
´ STATISTIKY KAPITOLA 1. POPISNE
V´ ysledn´ a hodnota je menˇs´ı, neˇz prost´ y pr˚ umˇer, protoˇze poˇcty obyvatel jednotliv´ ych zem´ı jsou pomˇernˇe nevyrovnan´e, nejlidnatˇejˇs´ı Polsko m´a nejmenˇs´ı hodnotu HDP na obyvatele. ⃝ ˇ Pˇ r´ıklad 1.2 (pˇr´ıjmy) Reknˇeme, ˇze kaˇzd´ y ze tˇr´ı zamˇestnanc˚ u s mˇes´ıˇcn´ımi platy 17, 23 resp. 69 tis´ıc pracuje na cel´ yu ´vazek. Dalˇs´ı dva zamˇestnanci maj´ı jen poloviˇcn´ı u ´vazky na m´ıstech, kde je pˇri pln´em u ´vazku plat 19 resp. 32 tis´ıc. To znamen´ a, ˇze jejich mˇes´ıˇcn´ı pˇr´ıjmy jsou 9,5 a 16 tis´ıc. Mechanicky spoˇc´ıtan´ y pr˚ umˇer z cel´ ych u ´vazk˚ u by byl (17+23+69+19+32)/5 = 32 tis´ıc. Ten n´ as ale nezaj´ım´ a, protoˇze vlastnˇe nic re´ aln´eho o skuteˇcnosti nevypov´ıd´a. D˚ uleˇzitˇejˇs´ı je pr˚ umˇer mˇes´ıˇcn´ıch pˇr´ıjm˚ u, tedy skuteˇcnˇe vypl´acen´ ych ˇc´astek, totiˇz (17 + 23 + 69 + 9,5 + 16)/5 = 26,9 tis´ıce. Ovˇsem nejmenˇs´ı pˇr´ıjmy maj´ı dva zamˇestnanci s pouh´ ym poloviˇcn´ım u ´vazkem. Pro zamˇestnavatele je to vlastnˇe tot´eˇz, jako by na jejich m´ıstˇe mˇel jedin´eho zamˇestnance s mˇes´ıˇcn´ım platem 0,5 · 32 + 0,5 · 19 = 25,5 tis´ıc. Pr˚ umˇern´ y mˇes´ıˇcn´ı plat vztaˇzen´y na cel´y u ´vazek je roven (17 + 23 + 69 + 0,5 · 32 + 0,5 · 19)/(1 + 1 + 1 + 0,5 + 0,5) = 33,625 tis´ıc. Pˇr´ıjem vypl´ acen´ y lidem s poloviˇcn´ım u ´vazkem jsme vzali v u ´vahu jen s poloviˇcn´ı vahou. ⃝ Obecnˇe zap´ıˇseme v´ aˇ zen´ y pr˚ umˇ er hodnot x1 , x2 , . . . , xn s nez´aporn´ ymi vahami w1 , w2 , . . . , wn jako n wi xi w1 x1 + w2 x2 + · · · + wn xn x ¯w = = i=1 . (1.2) n w1 + w2 + · · · + wn i=1 wi K zaveden´ı dalˇs´ı charakteristiky polohy se znovu pokus´ıme vyuˇz´ıt variaˇcn´ı ˇradu. K v´ ykladu opˇet pouˇzijeme pˇr´ıklad s hodnotami BMI. V tabulce 1.2 obsahuj´ıc´ı variaˇcn´ı ˇradu hodnot BMI zdrav´ ych muˇz˚ u se pokus´ıme pracovat s ˇc´ıslem (ˇc´ısly), kter´e je (jsou) uprostˇred. Celkem je v tabulce 204 hodnot. Kdyˇz variaˇcn´ı ˇradu o 204 prvc´ıch rozdˇel´ıme na dvˇe stejnˇe velk´e ˇc´ asti, bude jej´ı 102. prvek, totiˇz hodnota 24,86, posledn´ım prvkem poloviny s menˇs´ımi hodnotami a n´ asleduj´ıc´ı 103. prvek variaˇcn´ı ˇrady rovn´ y 24,88 bude prvn´ı hodnotou v polovinˇe vˇetˇs´ıch hodnot. Pr˚ umˇer z tˇechto dvou hodnot x ˜ = 24,87 m´ a tu vlastnost, ˇze dˇel´ı variaˇcn´ı ˇradu na dvˇe stejnˇe velk´e ˇc´ asti. Na hodnoty, kter´e jsou menˇs´ı (nebo stejn´e) jako x ˜ a hodnoty kter´e ˇ ıslo s uvedenou vlastnost´ı se naz´ jsou vˇetˇs´ı (nebo stejn´e) jako x ˜. C´ yv´a meˇ aˇr si moˇzn´ di´ an. (Cten´ a uvˇedomil, ˇze zm´ınˇenou vlastnost m´a kaˇzd´e ˇc´ıslo vˇetˇs´ı neˇz 24,86 a souˇcasnˇe menˇs´ı neˇz 24,88. Abychom mˇeli zaveden medi´an jednoznaˇcnˇe, vol´ıme pr˚ umˇer tˇechto hodnot.)
Ukázka knihy z internetového knihkupectví www.kosmas.cz
1.2. KVANTITATIVN´I ZNAK
15
Tabulka 1.3: Uspoˇr´ adan´e hodnoty BMI nemocn´ ych muˇz˚ u (variaˇcn´ı ˇrada) 20,34 23,84 25,10 25,88 26,49 27,28 29,41 33,61
20,99 23,88 25,26 26,02 26,54 27,36 29,63 34,33
21,45 24,11 25,47 26,09 26,57 27,44 30,00 44,96
21,47 24,22 25,54 26,12 26,70 27,47 30,13
21,53 24,62 25,62 26,18 26,75 27,64 30,86
21,87 24,69 25,69 26,22 26,78 27,76 30,99
22,46 24,80 25,69 26,30 26,99 28,06 31,38
22,86 24,81 25,76 26,37 27,12 28,34 31,55
23,45 24,86 25,83 26,45 27,12 28,40 32,49
23,78 25,01 25,83 26,47 27,18 29,41 32,49
V tabulce 1.3 je uvedena variaˇcn´ı ˇrada hodnot BMI muˇz˚ u, kter´e l´ekaˇri oznaˇcili jako nemocn´e (pˇresnˇeji, z jejich pohledu ˇslo o patologickou skupinu). D´elka t´eto ˇrady je jen 73, takˇze pˇresnˇe uprostˇred variaˇcn´ı ˇrady je 37. hodnota, kter´ a je rovna 26,30. Stejn´ y poˇcet hodnot stoj´ı ve variaˇcn´ı ˇradˇe od t´eto hodnoty nalevo jako napravo. Pro medi´ an tedy plat´ı x ˜ = 26,30. Zapiˇsme zjiˇstˇen´e obecnˇe. Namˇeˇren´e ˇc´ıseln´e hodnoty jsme jiˇz dˇr´ıve oznaˇcili jako x1 , x2 , . . . , xn . Variaˇ cn´ı ˇ radu odliˇs´ıme od pouh´eho seznamu namˇeˇren´ ych hodnot t´ım, ˇze indexy rozliˇsuj´ıc´ı jej´ı jednotliv´e prvky nap´ıˇseme do z´ avorky. Nejmenˇs´ı z hodnot x1 , x2 , . . . , xn m´ a tedy oznaˇcen´ı x(1) , druh´a nejmenˇs´ı hodnota oznaˇcen´ı x(2) , atd. aˇz nejvˇetˇs´ı je x(n) : x(1) ≤ x(2) ≤ · · · ≤ x(n) .
(1.3)
Medi´ an pak m˚ uˇzeme definovat s rozliˇsen´ım sud´eho a lich´eho poˇctu ˇclen˚ u variaˇcn´ı ˇrady jako x n+1 pro n lich´e, ( ) x ˜ = 1 2 (1.4) 2 x( n ) + x( n +1) pro n sud´e. 2 2 S uspoˇr´ adanou posloupnost´ı (variaˇcn´ı ˇradou) souvis´ı tak´e pojem poˇ rad´ı. Nejmenˇs´ı zjiˇstˇen´ a hodnota, tedy x(1) , m´ a poˇrad´ı 1, druh´a nejmenˇs´ı hodnota x(2) m´ a poˇrad´ı 2 atd. aˇz nejvˇetˇs´ı zjiˇstˇen´ a hodnota x(n) m´a poˇrad´ı n. Pokud nˇekde doˇslo ke shodˇe (sousedn´ı prvky variaˇcn´ı ˇrady jsou stejn´e), pˇridˇel´ıme takov´ ym hodnot´ am pr˚ umˇern´e poˇrad´ı z tˇech, kter´a by dostaly, kdyby stejn´e nebyly, ale nˇejak m´ alo se liˇsily. Napˇr´ıklad hodnoty 6, 3, 5, 3, 3, 8, 6, 9 maj´ı po ˇradˇe poˇrad´ı 5,5, 2, 4, 2, 2, 7, 5,5, 8. Nejmenˇs´ı je tu trojka, a to ve tˇrech
Ukázka knihy z internetového knihkupectví www.kosmas.cz, UID: KOS190713