Deskriptivn´ı statistika
1
1
ˇ ˇc´ıslo 1145/2004. Tyto materi´ aly byly vytvoˇreny za pomoci grantu FRVS
Z´ akladn´ı charakteristiky souboru Pro lepˇs´ı pˇredstavu pouˇz´ıv´ame k popisu vlastnost´ı zkouman´eho jevu urˇcit´e charakteristiky - statistiky. Statistikami zde rozum´ıme jist´a ˇc´ısla, kter´a jsou nositeli d˚ uleˇzit´ ych informac´ı o zkouman´ ych jevech. Zp˚ usob jejich zjiˇst’ov´an´ı je jednoznaˇcnˇe d´an. Pro veliˇcinu v mˇeˇr´ıtku alespoˇ n ordin´aln´ım, lze vytvoˇrit uspoˇr´adan´ y soubor z p˚ uvodn´ıho neuspoˇr´adan´eho souboru o velikosti n takto: x(1) ≤ x(2) ≤ · · · ≤ x(l) ≤ · · · ≤ x(n) . Pak lze snadno zjistit maximum ˇci minimum Minimum: xmin = x(1)
(1)
Maximum: xmax = x(n)
(2)
Charakteristiky polohy - u ´ rovnˇ e M´ıry polohy charakterizuj´ı obecnou u ´roveˇ n (polohu) hodnot statistick´eho znaku. Tyto statistiky lze dˇelit na pr˚ umˇery a ostatn´ı stˇredn´ı hodnoty. Prvn´ı a nejˇcastˇeji pouˇz´ıvanou charakteristikou je vˇseobecnˇe zn´am´ y aritmetick´ y pr˚ umˇer. Ten je definov´an takto: n 1X x ¯= xi , (3) n i=1 jeho v´aˇzen´a varianta k
x ¯=
1X x i ni , n i=1
(4)
kde ni jsou absolutn´ı ˇcetnosti v jednotliv´ ych k tˇr´ıd´ach. Jednotliv´e hodnoty xi , jsou bud’ hodnoty znaku (v pˇr´ıpadˇe prost´eho tˇr´ıdˇen´ı) nebo stˇredy interval˚ u (v pˇr´ıpadˇe intervalov´eho tˇr´ıdˇen´ı). Dalˇs´ı m´ıry polohy, ˇrad´ıc´ı se mezi pr˚ umˇery, jsou harmonick´ y a geometrick´ y pr˚ umˇer. Ty jsou definov´any po ˇradˇe takto: n x ¯H = Pn
(5)
v u n uY n x ¯G = t xi .
(6)
1 i=1 xi
i=1
Dalˇs´ı charakteristikou je napˇr. kvadratick´ y pr˚ umˇer definovan´ y jako v u n u1 X x ¯K = t x2 . n i=1 i
1
(7)
Kvantil Velmi d˚ uleˇzit´ ym pojmem ve statistick´e teorii je pojem kvantilu. Je definov´an n´asledovnˇe: 100P %-n´ım kvantilem x ˜P statistick´eho znaku X je takov´e vhodnˇe zvolen´e ˇc´ıslo, pro kter´e plat´ı ˇze 100P % hodnot znaku je menˇs´ıch neˇz x ˜P a 100(1 − P )% hodnot znaku je vˇetˇs´ıch neˇz toto ˇc´ıslo. Mezi nejpouˇz´ıvanˇejˇs´ı kvantily patˇr´ı: doln´ı kvartil x ˜25 , medi´ an x ˜50 a horn´ı kvartil x ˜75 . Tyto tˇri kvantily rozdˇeluj´ı uspoˇr´adanou ˇradu dat na zhruba ˇctyˇri ˇca´sti s pˇribliˇznˇe stejn´ ymi rozsahy. Ve statistick´e praxi se lze setkat i s decily nebo percentily.
Ostatn´ı stˇ redn´ı hodnoty Pˇri charakterizov´an´ı souboru se nˇekdy s v´ yhodou pouˇz´ıv´a tzv. medi´ an, kter´ y ud´av´a prostˇredn´ı hodnotu souboru. Jde o tzv. robustn´ı charakteristiku. V uspoˇr´adan´em souboru x(1) ≤ x(2) ≤ · · · ≤ x(l) ≤ · · · ≤ x(n) mus´ı poˇcet menˇs´ıch nebo stejn´ ych hodnot jako medi´an ˇcinit alespoˇ n tolik, jako poˇcet hodnot vˇetˇs´ıch ˇci stejn´ ych jako medi´an. Pouˇzit´ı medi´anu pˇrich´az´ı v u ´vahu jiˇz u ordin´aln´ı stupnice. Medi´an lze definovat takto: ½ x( n+1 ) lich´e n, 2 x ˜50 = (8) 1 n n e n. 2 (x( 2 ) + x( 2 +1) ) sud´ V pˇr´ıpadˇe intervalov´eho tˇr´ıdˇen´ı dat nelze stanovit medi´an pˇresnˇe. V takov´em pˇr´ıpadˇe lze s jistotou stanovit pouze medi´anov´ y interval, tj. interval ve kter´em medi´an leˇz´ı. Hodnotu medi´anu pak stanov´ıme line´arn´ı interpolac´ı. Pnj−1 n+1 − i=1 ni x ˜50 = x0 + 2 h, (9) nj kde x0 je doln´ı mez medi´anov´eho intervalu, Pnj−1nj je ˇcetnost medi´anov´eho intervalu, h d´elka medi´anov´eho intervalu a i=1 ni je kumulativn´ı ˇcetnost interval˚ u, pˇredch´azej´ıc´ı medi´anov´ y interval. Modem souboru je hodnota x ˆ, kter´a se v souboru nejˇcastˇeji opakuje, tj. m´a nejvˇetˇs´ı ˇcetnost. Z tohoto hlediska lze rozezn´avat unimod´aln´ı, bimod´aln´ı a multimod´aln´ı soubory. Pokud je soubor intervalovˇe tˇr´ıdˇen, pak nelze urˇcit modus pˇresnˇe. Pˇresnˇe lze stanovit pouze mod´aln´ı, tj. nejˇcetnˇejˇs´ı interval. Pˇribliˇznou hodnotu modu uˇrˇc´ıme v tomto pˇr´ıpadˇe dle vzorce x ˆ=x ˆ0 +
h n1 − n−1 , 2 2n0 − n1 − n−1
(10)
kde n−1 a n1 jsou ˇcetnosti intervalu kter´ y pˇredch´az´ı resp. n´asleduje za mod´aln´ım intervalem. D´elka a ˇcetnost mod´aln´ıho intervalu je oznaˇcena po ˇradˇe symboly h a n0 . Sˇred mod´aln´ıho intervalu je oznaˇcen symbolem x ˆ0 . Pro z´ısk´an´ı z´akladn´ı pˇredstavy o rozloˇzen´ı studovan´eho souboru zpravidla staˇc´ı uv´est x ¯, x ˆ, x ˜25 , x ˜75 a hodnotu max a min, v pˇr´ıpadˇe multimod´aln´ıho rozdˇelen´ı pak i jednotliv´a maxima souboru. Pro u ´plnost lze dodat, ˇze hodnota modu je 2
znaˇcnˇe ovlivnˇena variabilitou znaku a to zejm´ena pˇri menˇs´ıch rozsaz´ıch v´ ybˇer˚ u. U jednovrcholov´ ych rozdˇelen´ı plat´ı pˇribliˇznˇe vztah x ˆ = 3˜ x50 − 2¯ x .
(11)
Pr˚ umˇ ern´ a chyba Pr˚ umˇern´a chyba byla zavedena jako protiklad smˇerodatn´e odchylky na z´akladˇe pˇresvˇedˇcen´ı, ˇze je vhodnˇejˇs´ı mˇeˇrit variabilitu hodnot na z´akladˇe aritmetick´eho pr˚ umˇeru odchylek sp´ıˇse neˇz na z´akladˇe kvadratick´eho pr˚ umˇeru. Pr˚ umˇern´a chyba d¯ vypoˇcten´a z ˇrady n hodnot x1 , x2 , · · · , xn je definov´ana jako Pn |xi − x ¯| d¯ = i=1 . (12) n
M´ıry variability
30
Dalˇs´ı d˚ uleˇzitou vlastnost´ı, kterou je tˇreba umˇet charakterizovat, je variabilita dat. M´ıry variability urˇcit´ ym zp˚ usobem charakterizuj´ı promˇenlivost hodnot. M´ıry variability jsou v podstatˇe dvoj´ıho typu. Prvn´ı z nich se poˇc´ıtaj´ı pouze z nˇekter´ ych hodnot Druh´a skupina naopak vych´az´ı ze vˇsech hodnot obsaˇzen´ ych ve studovan´em souboru.
-20
0 10
2149
47
7
26
46 14
37
3 36 16 2512 18
-10
32 30 842 4143 35 48 19 2038 45 22 269144 11 4 23
31 3915 5 29
-5
0
50
33
4028
27 24 17 13 34 10
5
10
15
3020
1
48 6 4 819 23
28 27 24 10 3243 42 35 45 22 41 2 9 15 39 16 3 46 1236 14
31 5 29 25 18 7
-4
40
34 13 38
11
44 37
26
47
-2
50
33
49
21 17
-20
0 10
30
x
0
2
4
50
33
0 10
30
x
8
13
24
28 42
32 45 44 20 36
14 -20
7 -3
-2
49 21 2710 41 4864 9 11 1629 12 25 3 46 18 37 26
-1
0 x
3
40 43 23 31
38 30 5
17 34 35 19 12
39
22 15
47 1
2
Rozpˇ et´ı Je nejjednoduˇsˇs´ı m´ırou variability. Jde o prvn´ı typ mˇer variability. R = xmax − xmin
(13)
Kvartilov´ e rozpˇ et´ı Je definov´ano jako rozd´ıl mezi horn´ım a doln´ım kvartilem tj.: Rq = x ˜75 − x ˜25 .
(14)
Takto definovan´e rozpˇet´ı vych´az´ı z cca 50% typick´ ych znak˚ u sledovan´eho souboru.
Rozptyl Je jednou z nejd˚ uleˇzitˇejˇs´ıch charakteristik variability dat. Je definov´an jako aritmetick´ y pr˚ umˇ er ˇ ctverc˚ u odchylek od aritmetick´ eho pr˚ umˇ eru. Z hlediska jeho konstrukce pozezn´av´ame rozptyl prost´ y a v´aˇzen´ y. D´ale rozptyl prost´ y v´ ybˇerov´ y a rozptyl v´aˇzen´ y v´ ybˇerov´ y. N 1 X (xi − µ)2 N i=1
(15)
k 1 X (xi − µ)2 ni N i=1
(16)
σ2 =
σ2 =
n
1 X (xi − x ¯)2 n − 1 i=1
s2 =
(17)
k
σ2 =
1 X (xi − x ¯ ) 2 ni n − 1 i=1
(18)
Smˇ erodatn´ a odchylka Vzhledem k tomu, ˇze je rozptyl ˇspatnˇe interpretovateln´ y, pouˇz´ıv´a se pˇri charakterizov´an´ı rozpt´ ylenosti dat sp´ıˇse smˇ erodatn´ a odchylka. Ta je definov´ana jako druh´ a odmocnina rozptylu, tj.: √ σ = σ2 (19) a v´ ybˇerov´a smˇerodatn´a odchylka s=
√
4
s2 .
(20)
Variaˇ cn´ı koeficient Je relativn´ı m´ırou variability a vyjadˇruje se nejˇcastˇeji v procentech. Pouˇz´ıv´ame jej pˇ ri porovn´ av´ an´ı variability statistick´ ych znak˚ u kter´ e se liˇ s´ı z hlediska m´ıry polohy nebo maj´ı odliˇ sn´ e mˇ ern´ e jednotky. Variaˇcn´ı koeficient ud´av´a z kolika procent se pod´ıl´ı smˇerodatn´a odchylka na aritmetick´em pr˚ umˇeru. VX =
σ . µ
(21)
Obdobnˇe pak i pro v´ ybˇerovou formu variaˇcn´ıho koeficientu jako VX =
s . x ¯
(22)
Entropie U veliˇcin s nomin´aln´ım mˇeˇr´ıtkem nelze pouˇz´ıt klasick´ ych charakteristik k posouzen´ı variability dat. V takov´em pˇr´ıpadˇe lze pouˇz´ıt napˇr´ıklad tzv. entropii definovanou vzorcem m X ni ni H=− ln . (23) n n i=1 Entropie dosahuje vysok´ ych hodnot, pokud jsme napozorovali mnoho r˚ uzn´ ych hodnot (maxim´aln´ıch hodnot pak, pokud jsme pozorovali m r˚ uzn´ ych hodnot a ˇcetnosti jsou pro jednotliv´e kategorie stejn´e). Naopak nulov´e hodnoty nab´ yv´a entropie v pˇr´ıpadˇe, ˇze n1 = n, tj. vˇsechna pozorov´an´ı jsou stejn´a, nen´ı mezi nimi ˇz´adn´a variabilita.
M´ıry ˇ sikmosti a ˇ spiˇ catosti ˇ Sikmost Pokud pozorovan´a data znormalizujeme tj. provedeme jejich transformaci tak, ˇze maj´ı nulovou stˇredn´ı hodnotu a rozptyl rovn´ y jedn´e, pak je lze vyuˇz´ıt k v´ ypoˇctu tˇret´ıho a ˇctvrt´eho centr´aln´ıho momentu. Ty se naz´ yvaj´ı ˇsikmosti a ˇspiˇcatost´ı. n
µ3 =
n
1X 3 1X zi = n i=1 n i=1
µ
xi − µ σ
¶3 (24)
ˇ Sikmost vyjadˇruje symetriˇcnost sledovan´eho rozdˇelen´ı kolem pr˚ umˇern´e hodnoty. Je-li pozorov´ano v´ıce mal´ ych hodnot v porovn´an´ı s vysok´ ymi hodnotami, pak je ˇsikmost kladn´a. Je-li naopak pˇrevaha vysok´ ych hodnot v porovn´an´ı s mal´ ymi hodnotami, tj. po zn´azornˇen´ı histogramu m´a rozdˇelen´ı souboru prot´ahl´ y lev´ y konec, je ˇsikmost z´aporn´a.
ˇ catost Spiˇ Jde o ˇctvrt´ y centr´aln´ı moment. Tato statistika pˇredstavuje relativn´ı strmost ˇci plochost rozdˇelen´ı ˇcetnost´ı v porovn´an´ı s norm´aln´ım rozdˇelen´ım ˇcetnost´ı.
5
Kladn´a ˇspiˇcatost znamen´a, ˇze se ve sledovan´em souboru vyskytuj´ı sp´ıˇse data koncentrovan´a kolem stˇredn´ı hodnoty. n
n
1X 4 1X µ4 = zi = n i=1 n i=1
µ
xi − µ σ
¶4 (25)
ˇ catost je obˇcas definov´ana r˚ Siˇ uznˇe. Napˇr´ıklad MS Excel ji poˇc´ıt´a n´asledovnˇe: ( ) n X n(n + 1) 3(n − 1)2 4 . (26) zi − (n − 1)(n − 2)(n − 3) i=1 (n − 2)(n − 3)
6