1 1.1
Z´ akladn´ı statistick´ e zpracov´ an´ı dat Z´ akladn´ı pojmy
Populace (z´ akladn´ı soubor) je soubor objekt˚ u (statistick´ ych jednotek), kter´ y je vymezen jejich v´ yˇctem nebo charakterizac´ı jejich vlastnost´ı, m˚ uˇze b´ yt proto koneˇcn´ y (rozsah oznaˇcujeme N ) i nekoneˇcn´ y. Informace o populaci z´ısk´av´ame prostˇrednictv´ım statistick´eho v´ yzkumu (statistick´ ych studi´ı). Rozliˇsujeme dva z´akladn´ı typy statistick´ ych studi´ı - pokus a ˇsetˇren´ı. • Pˇri pokusu pl´anovitˇe mˇen´ıme faktory a sledujeme jejich vliv. Typick´ ym pˇr´ıkladem je komparativn´ı experiment (klinick´ y pokus), kdy sledovan´e prvky rozdˇel´ıme do dvou skupin n´ahodnˇe a kaˇzdou skupinu vystav´ıme vlivu jin´ ych faktor˚ u (tzv. kontrolovan´ y pokus). Pokud nav´ıc vyhodnocuj´ıc´ı experiment´ator nebo vyhodnocuj´ıc´ı experiment´ator i sledovan´ y subjekt nev´ı, ve kter´e skupinˇe je zaˇrazen, jedn´a se o slep´ y pokus resp. dvojitˇe slep´ y pokus. • V r´amci ˇsetˇren´ı je v´ yzkumn´ y pracovn´ık pouze pasivn´ım pozorovatelem, kter´ y zasahuje co nejm´enˇe do pr˚ ubˇehu ˇsetˇren´ı. Parametr populace (populaˇ cn´ı charakteristika) je ˇc´ıseln´a charakteristika sledovan´e vlastnosti v populaci, napˇr´ıklad pr˚ umˇern´a v´ yˇska desetilet´ ych chlapc˚ u, variabilita doba l´eˇcen´ı konkr´etn´ıho ˇ onemocnˇen´ı na u ´zem´ı CR a podobnˇe. Obvykle pokl´ad´ame tento parametr za pevn´e ˇc´ıslo, kter´e je vˇsak obecnˇe nezn´am´e. Parametr obecnˇe znaˇc´ıme Θ, pro nˇekter´e parametry je zavedeno konkr´etn´ı oznaˇcen´ı µ, σ 2 , ϕ, . . . . V´ ybˇ er je koneˇcn´a podmnoˇzina populace, kdy sledujeme a mˇeˇr´ıme poˇzadovan´e vlastnosti pouze u nˇekter´ ych prvk˚ u populace. V´ ybˇer je vˇzdy koneˇcn´ y (rozsah oznaˇcujeme n) a pokud v´ ybˇer dobˇre odr´aˇz´ı strukturu cel´eho zkouman´eho souboru, naz´ yv´ame jej reprezentativn´ı v´ ybˇer. Podle charakteru z´ısk´av´an´ı v´ ybˇeru prvk˚ u z populace rozliˇsujeme • u ´pln´e ˇsetˇren´ı: sledujeme znaky vˇsech prvk˚ u z´akladn´ıho souboru; • selektivn´ı v´ ybˇer; • z´amˇern´ y v´ ybˇer: v´ ybˇer se op´ır´a o expertn´ı stanoviska nebo je ovlivnˇen subjektivn´ımi hledisky experiment´atora, pˇresnost zobecˇ nuj´ıc´ıch z´avˇer˚ u se op´ır´a o expertn´ı hledisko experiment´atora a nikoliv o statistickou metodologii; • n´ahodn´ y v´ ybˇer: prvky ze z´akladn´ıho souboru vyb´ır´ame n´ahodnˇe, nez´avisle na u ´sudku experiment´atora – prost´ y n´ahodn´ y v´ ybˇer (simple random sample) : prov´ad´ı se r˚ uzn´ ymi technikami losov´an´ı, kter´e mus´ı zaruˇcit, aby kaˇzd´ y prvek populace mˇel stejnou moˇznost b´ yt zaˇrazen do v´ ybˇeru. Pokud jsou prvky populace jsou oˇc´ıslov´any, je moˇzno prov´est v´ ybˇer pomoc´ı tabulek n´ahodn´ ych ˇc´ısel. – mechanick´ y v´ ybˇer: je zaloˇzen na urˇcit´em, pˇredem dan´em uspoˇr´ad´an´ı prvk˚ u populace, do v´ ybˇerov´eho souboru zaˇrad´ıme vˇsechny prvky, kter´e jsou od sebe vzd´aleny o zvolen´ y v´ ybˇerov´ y krok, pˇriˇcemˇz prvn´ı prvek vybereme prost´ ym n´ahodn´ ym v´ ybˇerem. Napˇr´ıklad 1
z abecednˇe uspoˇra´dan´e kartot´eky pacient˚ u u praktick´eho l´ekaˇre vyb´ır´ame s krokem dvacet. Prvn´ı kartu vylosujeme mez prvn´ımi dvaceti kartami, tˇreba dev´atou. Mus´ıme d´at pozor, aby uspoˇr´ad´an´ı prvk˚ u nesouviselo se sledovan´ ym znakem. – oblastn´ı v´ ybˇer (stratifikovan´ y): studovan´a populace je rozdˇelena do d´ılˇc´ıch oblast´ı. Oblasti jsou vytvoˇreny tak, aby byly uvnitˇr homogenn´ı (ve sledovan´ ych znac´ıch se pˇr´ıliˇs neliˇs´ı) a mezi sebou heterogenn´ı (sledovan´e znaky se znaˇcnˇe liˇs´ı). Pˇri ˇsetˇren´ı na obyvatelstvu jsou oblasti vytvoˇreny napˇr. u ´zemn´ımi celky, vˇekov´ ymi skupinami nebo socioekonomick´ ym statutem. Z kaˇzd´e oblasti vybereme vzorek metodou prost´eho n´ahodn´eho v´ ybˇeru nebo mechanick´eho v´ ybˇeru. Procento vybran´ ych prvk˚ u z oblast´ı m˚ uˇze b´ yt bud’ pro vˇsechny oblasti stejn´e, nebo se mezi oblastmi liˇs´ı. Nˇekdy m´ame p´adn´e d˚ uvody vyb´ırat z nˇekter´e oblasti relativnˇe m´enˇe prvk˚ u, napˇr. pˇri zv´ yˇsen´ ych finanˇcn´ıch n´akladech na ˇsetˇren´ı nebo obt´ıˇzn´e dostupnosti u ´daj˚ u. Koneˇcn´ y v´ ybˇerov´ y soubor vytvoˇr´ıme spojen´ım vzork˚ u ze vˇsech oblast´ı. – skupinov´ y v´ ybˇer: Pro velk´e rozsahy populace neprov´ad´ıme n´ahodn´ y v´ ybˇer, tj. nevyb´ır´ame jednotliv´e osoby, n´ ybrˇz cel´e skupiny osob, kter´e tvoˇr´ı bud’ pˇrirozen´e nebo umˇel´e agreg´aty. Tyto skupiny mohou b´ yt mal´e i vˇetˇs´ı (rodina, ˇskola, z´avod, zdravotn´ı obvod) nebo i znaˇcnˇe rozs´ahl´e (obce, okresy). Je ˇz´adouc´ı, aby skupiny byly pokud moˇzno stejnˇe velk´e a osoby uvnitˇr kaˇzd´e skupiny r˚ uznorod´e. D´ale se poˇzaduje, aby variabilita mezi skupinami byla co nejmenˇs´ı, coˇz je tedy obr´acenˇe, neˇz je tomu u oblastn´ıho v´ ybˇeru. Kdyˇz byl proveden v´ ybˇer skupin, lze d´ale pokraˇcovat dvoj´ım zp˚ usobem: bud’ vyˇsetˇr´ıme vyˇcerp´avaj´ıc´ım zp˚ usobem vˇsechny osoby vybran´ ych skupin, nebo zvol´ıme metodu v´ıcestupˇ nov´eho v´ ybˇeru. – v´ıcestupˇ nov´ y v´ ybˇer: je zaloˇzen na existenci urˇcit´eho hierarchick´eho popisu prvk˚ u z´akladn´ıho souboru. K tˇemto prvk˚ um se postupnˇe dost´av´ame pˇres vyˇsˇs´ı v´ ybˇerov´e jednotky, napˇr´ıklad: mˇesta - bloky - domy - dom´acnosti; okresy - z´avody - d´ılny - zamˇestnanci. Kaˇzd´a v´ ybˇerov´a jednotka je skupinou v´ ybˇerov´ ych jednotek niˇzˇs´ıho ˇr´adu. Postupnˇe vyb´ır´ame jednotky prvn´ıho stupnˇe (prim´arn´ı jednotky), z nich potom jednotky druh´eho stupnˇe (sekund´arn´ı jednotky), z nich jednotky tˇret´ıho stupnˇe atd., aˇz dojdeme k z´akladn´ım jednotk´am statistick´eho ˇsetˇren´ı. Postupn´e v´ ybˇery prov´ad´ıme ˇcasto metodou prost´eho n´ahodn´eho v´ ybˇeru, lze vˇsak uplatnit i v´ ybˇer mechanick´ y nebo oblastn´ı. V´ıcestupˇ nov´ y v´ ybˇer je vhodn´ y v situac´ıch, kdy u ´pln´a opora v´ ybˇeru nen´ı dostupn´a pˇred zaˇc´atkem v´ ybˇerov´eho postupu. Jeho v´ yhody jsou pˇredevˇs´ım ekonomick´eho charakteru. • cenzorovan´ y v´ ybˇer je v´ ybˇer, kdy nem´ame k dispozici pˇresnou hodnotu sledovan´e charakteristiky, ale m´ame informaci, ˇze hodnota bude vˇetˇs´ı neˇz konkr´etn´ı ˇc´ıslo (cenzorov´an´ı zprava) nebo menˇs´ı neˇz konkr´etn´ı ˇc´ıslo (cenzorov´an´ı zleva), napˇr´ıklad sleduje dobu pˇreˇzit´ı a v okamˇziku ukonˇcen´ı experimentu v´ıme, ˇze pacient pˇreˇzil v´ıce neˇz 5 let, ale nev´ıme pˇresnou dobu pˇreˇzit´ı. Data je souhrn konkr´etn´ıch ˇc´ıseln´ ych u ´daj˚ u, re´aln´ ych ˇc´ısel (v´ ysledek opakovan´ ych pokus˚ u nebo ˇsetˇren´ı), kter´e m´ame k dispozici. Jedn´a se vˇzdy o koneˇcn´ y poˇcet dat, rozsah dat je n a jednotliv´e u ´daje znaˇc´ıme x1 , x2 , x3 , . . . , xn , pokud m´ame data seˇrazena podle velikosti, pouˇz´ıv´ame znaˇcen´ı x(1) , x(2) , x(3) , . . . , x(n) . V´ ybˇ erov´ a charakteristika (statistika) je pojem pouˇz´ıvan´ y pro ˇc´ıselnou charakteristiku v´ ybˇeru, 2
napˇr. aritmetick´ y pr˚ umˇer z namˇeˇren´ ych dat, v´ ybˇerov´ y rozptyl, . . . . Pro r˚ uzn´e v´ ybˇery je hodnota t´eˇze statistiky obvykle r˚ uzn´a.
1.2
Z´ akladn´ı typy statistick´ ych dat
Podle toho, jak´ y charakter maj´ı znaky ve v´ ybˇeru nebo v populaci rozliˇsujeme r˚ uzn´e typy dat. Nejn´apadnˇejˇs´ı je rozd´ıl mezi promˇenn´ ymi vyj´adˇren´ ymi slovnˇe a promˇenn´ ymi, jejichˇz hodnoty jsou vyj´adˇreny ˇc´ıselnˇe. Tomuto odpov´ıd´a z´akladn´ı dˇelen´ı na kvalitativn´ı a kvantitativn´ı data. Pro zpracov´an´ı obvykle pˇriˇrazujeme slovn´ım promˇenn´ ym jejich ˇc´ıseln´ y ekvivalent, pokud m˚ uˇzeme pˇriˇradit ˇc´ıselnou hodnotu v libovoln´em poˇrad´ı, mluv´ıme o datech nomin´aln´ıch. Pokud pˇriˇrazen´ım ˇc´ısel z´aroveˇ n posloupnost uspoˇra´d´ame, mluv´ıme o ordin´aln´ıch datech. kvalitativn´ı nomin´ aln´ı bin´ arn´ı data (alternativn´ı, dichotomick´a) - data nab´ yvaj´ı pouze dvou hodnot typu ANO - NE nebo 0-1; kvalitativn´ı nomin´ aln´ı data (v´ıceˇ sk´ alov´ e) - (kategori´aln´ı data) data maj´ı p˚ uvodnˇe slovn´ı charakter, pˇri pˇriˇrazov´an´ı ˇc´ıseln´ ych charakteristik nelze rozumn´ ym zp˚ usobem“ zav´est do dat uspoˇra´” d´an´ı, typick´ ym pˇr´ıpadem jsou data vyjadˇruj´ıc´ı napˇr. bydliˇstˇe, r˚ uzn´e barvy sledovan´eho objektu a podobnˇe; kvalitativn´ı ordin´ aln´ı data - data maj´ı p˚ uvodnˇe slovn´ı charakter a pˇri pˇrevodu do ˇc´ıseln´e ˇsk´aly je pˇrirozen´ ym zp˚ usobem zavedeno uspoˇra´d´an´ı, napˇr´ıklad maxim´aln´ı dosaˇzen´e vzdˇel´an´ı, hodnocen´ı zn´amkami, vyj´adˇren´ı uˇziteˇcnosti a podobnˇe; kvantitativn´ı diskr´ etn´ı data - intervalov´ a stupnice data maj´ı pˇrirozenou ˇc´ıselnou charakteristiku, ˇc´ısla z´aroveˇ n vyjadˇruj´ı uspoˇra´d´an´ı v n´ami zvolen´em smyslu, z´aroveˇ n se m˚ uˇzeme pt´at o ” kolik“ je jeden znak lepˇs´ı neˇz druh´ y, sv˚ uj praktick´ y v´ yznam m´a tedy i veliˇcina xi − xj , v r´amci intervalov´e stupnice m´a nulov´a hodnota“ pouze relativn´ı charakter, napˇr´ıklad nulov´a teplota; ” kvantitativn´ı diskr´ etn´ı data - pomˇ erov´ a stupnice data maj´ı pˇrirozenou ˇc´ıselnou charakteristiku, ˇc´ısla z´aroveˇ n vyjadˇruj´ı uspoˇra´d´an´ı v n´ami zvolen´em smyslu, z´aroveˇ n se m˚ uˇzeme pt´at koli” kr´at“ je hodnota jednoho znaku jin´a (lepˇs´ı) neˇz hodnota druh´eho znaku, sv˚ uj praktick´ y v´ yznam xi m´a tedy i veliˇcina , v r´amci pomˇerov´e stupnice m´a konkr´etn´ı v´ yznam nulov´a hodnota“, ” xj napˇr´ıklad nulov´a hmotnost, nulov´a rychlost, nulov´ y poˇcet v´ yskytu sledovan´eho jevu; kvantitativn´ı spojit´ a data - data maj´ı pˇrirozenou ˇc´ıselnou charakteristiku, ale tato charakteristika m˚ uˇze nab´ yvat nekoneˇcn´eho poˇctu hodnot, nejˇcastˇeji vznikaj´ı tato data mˇeˇren´ım a v´aˇzen´ım objekt˚ u, zachycen´ım ˇcasu a podobˇe; data s ne´ uplnou informac´ı - do t´eto kategorie spadaj´ı data, o kter´ ych v´ıme napˇr´ıklad pouze to, zda jsou pod detekˇcn´ım limitem,ev. data cenzorovan´a ˇcasem, ev. data maj´ıc´ı intervalov´ y charakter (v´ıme pouze to, ˇze hodnota promˇenn´e leˇz´ı v intervalu) a podobnˇe.
3
1.3
V´ ybˇ erov´ e charakteristiky pro jednorozmˇ ern´ a data
1.3.1
V´ ybˇ erov´ e charakteristiky polohy x1 + x2 + · · · + xn aritmetick´ y pr˚ umˇ er x = n je jednoduch´ y, zaloˇzen´ y na vˇsech hodnot´ach, lze ho line´arnˇe transformovat tj. pokud yi = axi + b pro i = 1, 2, . . . , n, pak y = ax + b aritmetick´ y pr˚ umˇer x je citliv´ y na hrub´e chyby (pˇr. 8, 12, 15, 23, 1500 ⇒ x = 311.6) ........................................................................................... . V programu EXCEL pouˇz´ıv´ame pro v´ypoˇcet aritmetick´eho pr˚ umˇeru funkci ˚ ER(ˇ ˇ c´ıslo1;ˇ ˚ ER(oblast ˇ PRUM c´ıslo2;. . . ) resp. PRUM dat) v anglick´e verzi se jedn´ a o funkci MEAN(oblast dat). Pˇri pouˇzit´ı tˇechto funkc´ı jsou buˇ nky obsahuj´ıc´ı textov´e hodnoty z v´ypoˇctu vynech´any. Naproti to mu funkce AVERAGEA(hodnota1;hodnota2;. . . ) vr´at´ı aritmetick´y pr˚ umˇer hodnot v seznamu argument˚ u (argumenty mus´ı b´yt ˇc´ısla, n´azvy, matice nebo odkazy). K ˇc´ısl˚ um je nav´ıc ve v´ypoˇctu zahrnut i text (vyhodnoceno jako 0) a logick´e hodnoty PRAVDA (vyhodnoceno jako 1) a NEPRAVDA (vyhodnoceno jako 0). Aritmetick´y pr˚ umˇer z vybran´ych hodnot lze tak´e vypoˇc´ıtat jako pod´ıl souˇctu a poˇctu bunˇek odpov´ıdaj´ıc´ı krit´eriu. Pouˇzijeme funkce SUMIF(oblast;krit´ eria;souˇ cet), kde oblast jsou buˇ nky obsahuj´ıc´ı kriteri´aln´ı hodnotu, krit´ eria jsou zvolen´e podm´ınky a souˇ cet je oblast bunˇek, kter´e sˇc´ıt´ame a pro urˇcen´ı poˇctu pouˇzijeme funkci COUNTIF(oblast;krit´ erium). Pˇr. SUMIF(A2:A5;”>160000”;B2:B5) seˇcte hodnoty v tˇech buˇ nk´ach B2:B5, pro kter´e hodnota v pˇr´ısluˇsn´e buˇ nce A2:A5 je vˇetˇs´ı neˇz 160000. ............................................................................................. √ y pro pr˚ umˇernou “ geometrick´ y pr˚ umˇ er (pro kladn´e hodnoty xi ) xG = n x1 .x2 . . . . .xn je vhodn´ ” hodnotu index˚ u ik Pˇr.: Necht’ x0 , x1 , . . . , xn ud´avaj´ı poˇcet prodan´ ych v´ yrobk˚ u v i- t´em ˇcasov´em obdob´ı. V´ yvoj x1 x2 xn prodeje charakterizujeme pomoc´ı tzv. ˇretˇezov´ ych index˚ u i1 = , i2 = , . . . , in = . x0 x1 xn−1 Pak lze vyj´adˇrit xn = x0 · i1 · i2 · · · · · in . ........................................................................................... . V Excelu pouˇzijeme funkci GEOMEAN(oblast dat). .............................................................................................
4
n Pˇr´ıklad pouˇzit´ı: Auto + + · · · + x−1 n jede do kopce rychlosti v1 a po stejn´e dr´aze z kopce rychlosti v2 . Jak´a je jeho pr˚ umˇern´a rychlost ? D´elku tratˇe oznaˇcme d, dobu j´ızdy do kopce t1 = d/v1 , dobu j´ızdy z kopce t2 = d/v2 . 2 2d = −1 = vH Pr˚ umˇern´a rychlost je t1 + t2 v1 + v2−1
harmonick´ y pr˚ umˇ er (pro kladn´e hodnoty xi ) xH =
x−1 1
x−1 2
........................................................................................... . V Excelu pouˇzijeme funkci HARMEAN(oblast dat). ............................................................................................. dalˇ s´ı pr˚ umˇ ery maj´ı obecn´ y charakter r • kvadratick´ y pr˚ umˇer xK =
x21 + x22 + · · · + x2n n
• pr˚ umˇer stupnˇe α, pro α 6= 0 n
xα =
1X α x n i=1 i
!1/α
• vz´ajemn´e vztahy pr˚ umˇer˚ u – – – – – –
x(1) ≤ xH ≤ xG ≤ x ≤ xK ≤ x(n) rovnost plat´ı pr´avˇe tehdy, kdyˇz jsou vˇsechny prvky xi shodn´e x(1) ≤ xα ≤ x(n) x−1 = xH x1 = x x2 = xK lim xα = xG α→0
lim xα = x(1)
α→−∞
lim xα = x(n)
α→+∞
medi´ an je takov´a hodnota, ˇze v pˇr´ıpadˇe, ˇze uspoˇra´d´ame data podle velikosti, je pˇresnˇe polovina hodnot menˇs´ı neˇz medi´an x e a polovina hodnot je vˇetˇs´ı neˇz medi´an. Nejvˇetˇs´ı v´ yhoda medi´anu spoˇc´ıv´a v jeho robustnosti, pod t´ımto term´ınem rozum´ıme malou citlivost na odlehl´a, pˇr´ıpadnˇe chybn´a data. Pokud jsou data rozloˇzena symetricky vzhledem k pr˚ umˇeru a neobsahuj´ı odlehl´a pozorov´an´ı, je medi´an roven aritmetick´emu pr˚ umˇeru. ........................................................................................... . V Excelu pouˇzijeme funkci MEDIAN(oblast dat). .............................................................................................
5
modus nejˇcetnˇejˇs´ı hodnota, tj. hodnota, kter´a se v souboru dat opakuje nejv´ıcekr´at, tato charakteristika nem´a v´ yznamnˇejˇs´ı uplatnˇen´ı a poskytuje n´am pouze doplˇ nkov´e informace o souboru dat. ........................................................................................... . V Excelu pouˇzijeme funkci MODE(oblast dat). ............................................................................................. kvantily, kvartily, decily Zobecnˇen´ım pojmu medi´an dostaneme pojem α-procentn´ı kvantil. α-procentn´ı kvantil Qα je takov´a hodnota, ˇze v pˇr´ıpadˇe, ˇze uspoˇr´ad´ame data podle velikosti, je α procent hodnot menˇs´ı neˇz kvantil Qα a 100 − α procent hodnot je vˇetˇs´ı neˇz kvantil. Hodnotu Q25 naz´ yv´ame doln´ı kvartil, hodnota Q50 je medi´an, hodnotu Q75 naz´ yv´ame horn´ı kvartil, analogicky hodnoty Q10 resp.Q90 a Q1 resp. Q99 naz´ yv´ame doln´ı (horn´ı) decil a doln´ı (horn´ı) percil. ........................................................................................... . V Excelu pouˇzijeme funkce, kter´e pracuj´ı s poˇrad´ım hodnot bunˇek. Funkce RANK(ˇ c´ıslo;oblast;poˇ rad´ı) vrac´ı hodnotu poˇrad´ı ˇ c´ıslo v r´amci bunˇek oznaˇcen´ych oblast dat, podle hodnoty poˇ rad´ı se jedn´a o poˇrad´ı ve smyslu sestupn´em (hodnota 0 nebo nezad´ano) nebo ve smyslu vzestupn´em (jak´akoliv hodnota r˚ uzn´a od nuly). Pˇr. RANK(A4;A1:A20;1) ⇒ 3, odpov´ıd´a stavu, kdy hodnota v buˇ nce A4 vzhledem k hodnot´ am v buˇ nk´ach A1:A20 je tˇret´ı nejmenˇs´ı. Pokud se v r´amci dat nˇekter´e hodnoty opakuj´ı, m´a hodnota RANK neceloˇc´ıseln´y charakter. Inverzn´ı funkce k RANK jsou funkce LARGE(oblast;k) a SMALL(oblast;k), kter´ a vrac´ı k-tou nejvˇetˇs´ı (resp. nejmenˇs´ı) hodnotu z dat v oblasti dat. Speci´alnˇe LARGE(oblast;1)=SMALL(oblast;n) je maxim´aln´ı hodnota z dat v oblasti a LARGE(oblast;n)=SMALL(oblast;1) je minim´aln´ı hodnota v oblasti. Pokud potˇrebujeme urˇcit poˇrad´ı hodnoty ˇ c´ısla vyj´adˇren´e procentu´aln´ı ˇc´ast´ı oblasti, pouˇzijeme funkci PERCENTRANK(oblast;x;desetiny), kde v pˇr´ıpadˇe, ˇze ˇc´ıslo neodpov´ıd´a ˇz´adn´e hodnotˇe v oblasti, pouˇzije program interpolaci. Hodnota desetiny uv´ad´ı poˇcet desetinn´ych m´ıst, kter´e bereme v u ´vahu - standardnˇe 3. Pˇr. PERCENTRANK(A1:A20;B4;3) ⇒ 0.12, odpov´ıd´a stavu, kdy 12% hodnot v buˇ nk´ach A1:A20 je menˇs´ı neˇz hodnota v buˇ nce B4. Inverzn´ı funkc´ı k funkci PERCENTIL je funkce PERCENTIL(oblast;k), kter´a vrac´ı k-procentn´ı kvantil (v ˇcesk´em Ecxelu je pouˇz´ıv´an pˇreklad percentil) z oblasti. Opˇet tato funkce pracuje s interpolac´ı. Tedy PERCENTIL(oblast,k)=Qk Pˇr. Pokud v buˇ nk´ach A1:A4 jsou hodnoty 1,2,3,4, pak PERCENTIL(A1:A4;0,3) vrac´ı hodnotu 30-ti procentn´ıho kvantilu po interpolaci, tj. PERCENTIL(A1:A4;0,3) ⇒ 1.9 znamen´a, ˇze 30% hodnot v oblasti A1:A4 je menˇs´ı neˇz 1.9. Speci´aln´ım pˇr´ıpadem funkce PERCENTIL je funkce QUARTIL(oblast;kvartil), 6
kde QUARTIL(oblast;0)=Q0 je minim´aln´ı hodnota , QUARTIL(oblast;1)=Q25 je doln´ı kvartil, QUARTIL(oblast;2)=Q50 je medi´an, QUARTIL(oblast;3)=Q75 je horn´ı kvartil a QUARTIL(oblast;4)=Q100 je maxim´aln´ı hodnota. .............................................................................................
1.3.2
V´ ybˇ erov´ e charakteristiky variability n
rozptyl spoˇc´ıt´ame pomoc´ı vztahu σ 2 =
1X (xi − x)2 , kde x je aritmetick´ y pr˚ umˇer. n i=1
Jedn´a se vlastnˇe o pr˚ umˇernou kvadratickou odchylku hodnot od aritmetick´eho pr˚ umˇeru a jeho fyzik´aln´ı rozmˇer je z´akladn´ı jednotka na druhou. Stejnˇe jako aritmetick´ y pr˚ umˇer je rozptyl citliv´ y na odlehl´a pozorov´an´ı. n
1X 2 xi − (x)2 • v´ ypoˇcetn´ı tvar rozptylu s = n i=1 2
• necht’ a, b ∈ R a poloˇzme yi = axi + b pro i = 1, 2, . . . , n, pak s2y = a2 s2x • funkce S(a) =
1 n
sy = |a|sx
n X
(xi − a)2 nab´ yv´a sv´eho minima v bodˇe a = x
i=1
√ • Samuelsonova nerovnost: max |xi − x| ≤ s n − 1 i
........................................................................................... . V Excelu pouˇzijeme funkci VAR(oblast dat) pˇr´ıpadnˇe VARPA(oblast dat), pokud chceme zahrnout t´eˇz buˇ nky s logickou hodnotou a buˇ nky s textem. ............................................................................................. n
v´ ybˇ erov´ y rozptyl v´ ybˇerov´ y rozptyl poˇc´ıt´ame pomoc´ı vztahu s2 =
1 X (xi − x)2 , n − 1 i=1
n σ 2 . V´ ybˇerov´ y rozptyl m´a stejn´ y v´ yznam jako rozptyl, ale lepˇs´ı statistick´e vlastn−1 nosti, proto je v r´amci dalˇs´ıch statistick´ ych metod pouˇz´ıvanˇejˇs´ı. resp. s2 =
........................................................................................... . ´ ER(oblast ˇ V Excelu pouˇzijeme funkci VAR.VYB dat) pˇr´ıpadnˇe VARA(oblast dat), pokud chceme zahrnout t´eˇz buˇ nky s logickou hodnotou a buˇ nky s textem. .............................................................................................
7
variaˇ cn´ı rozpˇ et´ı R = x(n) − x(1) je rozd´ıl mezi maxim´aln´ı a minim´aln´ı hodnotou dat • s2 ≤
R2 4
(k d˚ ukazu pouˇziji vlastnosti funkce S(x) ≤ S R x + x (1) (n) xi − ≤ ) 2 2 • variaˇcn´ı rozpˇet´ı je vyj´adˇreno v jednotk´ach xi
x(1) + x(n) 2
a
........................................................................................... . V Excelu pouˇzijeme pro nalezen´ı maxima a minima funkce MAX(oblast dat) a MIN(oblast dat). ............................................................................................. kvartilov´ e rozpˇ et´ı je nejpouˇz´ıvanˇejˇs´ı charakteristika variability, kter´a nepracuje s aritmetick´ ym pr˚ umˇerem a je tedy robusn´ı, tj. nen´ı citliv´a na odlehl´a pozorov´an´ı. Kvartilov´e rozpˇet´ı urˇc´ıme jednoduˇse jako rozd´ıl horn´ıho a doln´ıho kvartilu RQ = Q75 − Q25 . Obdobnˇe je definov´an´e decilov´e rozpˇet´ı RD = Q90 − Q10 a variaˇcn´ı rozpˇet´ı R = Q100 − Q0 = x(n) − x(1) = max(x) − min(x). ........................................................................................... . V Excelu pouˇzijeme pro nalezen´ı horn´ıho kvartilu funkci QUARTIL(oblast dat;3) a pro nalezen´ı hodnot doln´ıho kvartilu funkci QUARTIL(oblast dat;2). ............................................................................................. smˇ erodatn´ a odchylka a v´ ybˇ erov´ a smˇ erodatn´ a odchylka je urˇcena jako odmocnina z rozptylu, znaˇc´ıme ji s. Nejˇcastˇeji je pouˇz´ıv´ana v´ ybˇerov´a smˇerodatn´a odchylka odvozen´a z v´ ybˇerov´eho rozptylu. Fyzik´aln´ı rozmˇer smˇerodatn´e odchylky odpov´ıd´a fyzik´aln´ımu rozmˇeru zpracov´avan´ ych dat. ........................................................................................... . V Excelu pouˇzijeme funkci SMODCH(oblast dat) - odmocnina z VAR, ´ ER(oblast ˇ pˇr´ıpadnˇe STDEVA(oblast dat)- odmocnina z VARPA nebo nejl´epe SMODCH.VYB ´ ER. ˇ dat) - odmocnina z VAR.VYB .............................................................................................
8
variaˇ cn´ı koeficient pouˇzijeme pokud potˇrebujeme porovnat variabilitu dvou soubor˚ u, kter´e maj´ı s rozd´ıln´ y aritmetick´ y pr˚ umˇer. Variaˇcn´ı koeficient spoˇc´ıt´ame podle vztahu v = . x Q3 − Q1 Q3 + Q1
koeficient kvartilov´ e variace je CQV =
pr˚ umˇ ern´ a absolutn´ı odchylka je dalˇs´ı z charakteristik variability, kter´e zm´ırˇ nuje vliv odlehl´ ych hodnot. Nejv´ıce pouˇz´ıv´any jsou pr˚ umˇern´a absolutn´ı odchylka od aritmetick´eho pr˚ umˇeru n n 1X 1X |xi − x| a pr˚ |xi − x e| . dx = umˇern´a absolutn´ı odchylka od medi´anu dxe = n i=1 n i=1 ........................................................................................... . ˚ V Excelu pouˇzijeme funkci PRUMODCHYLKA(oblast dat) pro pr˚ umˇernou absolutn´ı odchylku od aritmetick´eho pr˚ umˇeru. .............................................................................................
1.3.3
Dalˇ s´ı v´ ybˇ erov´ e charakteristiky
obecn´e a centr´aln´ı momenty n
• obecn´ y moment k-t´eho ˇra´du
| mk
1X k x = n i=1 i n
1X • centr´aln´ı moment k-t´eho ˇra´du mk = (xi − x)k n i=1 n
1X • moment kolem bodu a k-t´eho ˇra´du mk (a) = (xi − a)k n i=1 n
• absolutn´ı moment kolem bodu a k-t´eho ˇra´du mabs k (a) =
• mk =
k X k j=0
j
1X |xi − a|k n i=1
|
(−1)j ( x )j mk−j
• speci´alnˇe plat´ı |
|
|
|
m3 = m3 − 3 m2 x + 2 ( x )3 |
m4 = m4 − 4 m3 x + 6 m2 ( x )2 − 3 ( x )4
9
ˇ sikmost je charakteristika, kter´a n´am pom´ah´a rozhodnout o shodˇe naˇsich dat s modelem norm´aln´ıho rozdˇelen´ı z hlediska symetrie kolem pr˚ umˇeru x. m3 Pomoc´ı obecn´ ych moment˚ u lze ˇsikmost vyj´adˇrit jako α3 = 3 . s 3 n X xi − x n Nejˇcastˇeji poˇc´ıt´ame ˇsikmost podle vztahu α3 = . (n − 1)(n − 2) i=1 s Pokud je ˇsikmost dat kladn´a, jsou data vych´ ylen´a ke kladn´ ym hodnot´am, pokud je hodnota ˇsikmosti z´aporn´a, jsou data vych´ ylen´a k z´aporn´ ym hodnot´am. ........................................................................................... . V Excelu pouˇzijeme funkci SKEW(oblast dat) .............................................................................................
ˇ Obr´azek 1: Sikmost kladn´a a z´aporn´a
ˇ spiˇ catost je charakteristika, kter´a se zamˇeˇruje na strmost dat v porovn´an´ı s modelem norm´aln´ıho rozdˇelen´ı. m4 Pomoc´ı obecn´ ych moment˚ u lze ˇspiˇcatost vyj´adˇrit jako a4 = 4 nebo poˇc´ıt´ame koeficient ˇspiˇcas m4 tosti a4 = 4 − 3. s Pokud je koeficient ˇspiˇcatosti dat kladn´ y, jsou data strmˇejˇs´ı oproti norm´aln´ımu rozdˇelen´ı, pokud je hodnota koeficientu ˇspiˇcatosti z´aporn´a, maj´ı data ploˇsˇs´ı charakter. ........................................................................................... . V Excelu pouˇzijeme funkci KURT(oblast dat) .............................................................................................
10
ˇ catost kladn´a a z´aporn´a Obr´azek 2: Spiˇ
1.4
V´ ybˇ erov´ e charakteristiky pro tˇ r´ıdnˇ e rozdˇ elen´ a data
V pˇr´ıpadˇe, ˇze data maj´ı intervalov´ y charakter, mluv´ıme o tˇr´ıdnˇe rozdˇelen´ ych datech. V takov´ ychto situac´ıch m´ame k dispozici informace o intervalech (tˇr´ıd´ach) a poˇctu dat z v´ ybˇeru, kter´e se nach´az´ı v dan´e tˇr´ıdˇe. Typick´ ym pˇr´ıkladem je rozdˇelen´ı tˇr´ıd podle vˇeku, podle dojezdov´e vzd´alenosti a podobnˇe. Pokud potˇrebujeme sami rozdˇelit data do jednotliv´ ych tˇr´ıd, m˚ uˇzeme poˇcet tˇr´ıd k urˇcit napˇr´ıklad pomoc´ı Sturgesova pravidla k ≈ 1 + 3.3 · log n. Uk´azka tˇr´ıdnˇe rozdˇelen´ ych dat, kde kromˇe ˇcetnosti je k dispozici t´eˇz informace o representantech jednotliv´ ych tˇr´ıd (pr˚ umˇer ve tˇr´ıdˇe) a variabilitˇe uvnitˇr jednotliv´ ych tˇr´ıd (smˇerodatn´a odchylka).
Tˇr´ıda
Hranice
1 2 3 4 5 6 7 8 9 10 Celkem
(−∞; −2i (−2; −1.5i (−1.5; −1i (−1; −0.5i (−0.5; 0i ( 0; 0.5i ( 0.5; 1i ( 1; 1.5i ( 1.5; 2i ( 2; ∞i
Tabulka 1: Tˇr´ıdnˇe rozdˇelen´a data ˇ Cetnost Rel. ˇcetnost Pr˚ umˇer nj pj = nj /n xj 19 3.80 −2.299 15 3.00 −1.653 40 8.00 −1.265 67 13.40 −0.734 102 20.40 −0.260 100 20.00 0.235 73 14.60 0.726 45 9.00 1.224 31 6.20 1.709 8 1.60 0.019 500 100 2.490
11
Rozptyl s2j 0.055 0.013 0.017 0.023 0.017 0.021 0.019 0.022 0.019 1.020 0.057
Sm. odchylka sj 0.235 0.113 0.130 0.153 0.129 0.144 0.138 0.147 0.136 1.010 0.238
k X
k
nj X Pr˚ umˇ er pro tˇ r´ıdnˇ e rozdˇ elen´ a data spoˇcteme podle vztahu x = xj = x j pj , n j=1 j=1 kde xj je reprezentant j−t´e tˇr´ıdy (pr˚ umˇer v j−t´e tˇr´ıdˇe), nj je ˇcetnost prvk˚ u v j−t´e tˇr´ıdˇe, k X n= nj je celkov´ y poˇcet prvk˚ u ve v´ ybˇeru, k je poˇcet tˇr´ıd. j=1
Rozptyl pro tˇ r´ıdnˇ e rozdˇ elen´ a data spoˇcteme podle vztahu ! k k X X 1 s2 = (nj − 1) s2j + nj (xj − x)2 , n − 1 j=1 j=1 umˇer j−t´e tˇr´ıdy , nj je ˇcetnost prvk˚ u v j−t´e tˇr´ıdˇe, n = kde xj je pr˚
k X j=1
ve v´ ybˇeru, s2j je rozptyl v j−t´e tˇr´ıdˇe a k je poˇcet tˇr´ıd.
12
nj je celkov´ y poˇcet prvk˚ u