Masarykova univerzita v Brnˇe Pˇr´ırodovˇedeck´a fakulta
´ RSK ˇ ´ PRACE ´ BAKALA A
Jaroslav Schulz Diagnostick´ e grafy v programu STATISTICA ´ Ustav matematiky a statistiky
Vedouc´ı bakal´aˇrsk´e pr´ace : RNDr. Marie Bud´ıkov´a, Dr. Studijn´ı program: Aplikovan´a matematika, obor Matematika - ekonomie
2007
Dˇekuji vedouc´ı pr´ace RNDr. Marii Bud´ıkov´e, Dr. za ˇcas vˇenovan´ y konzultac´ım a za cenn´e rady a pˇripom´ınky.
ˇ Cestn´ e prohl´ aˇ sen´ı Prohlaˇsuji, ˇze jsem svou bakal´aˇrskou pr´aci napsal samostatnˇe a v´ yhradnˇe s pouˇzit´ım citovan´ ych pramen˚ u. Souhlas´ım se zap˚ ujˇcov´an´ım pr´ace a jej´ım zveˇrejˇ nov´an´ım. V Brnˇe dne 21. kvˇetna 2007
Jaroslav Schulz
2
Obsah 1 Motivace
5
2 Pomocn´ e pojmy
6
3 Pr˚ uzkumov´ a anal´ yza 3.1 Urˇcen´ı minim´aln´ı velikosti v´ ybˇeru . . . . . . . . 3.2 Ovˇeˇren´ı pˇredpokladu nez´avislosti prvk˚ u v´ ybˇeru 3.3 Ovˇeˇren´ı normality v´ ybˇeru . . . . . . . . . . . . 3.4 Ovˇeˇren´ı homogenity v´ ybˇeru . . . . . . . . . . . 4 Diagnostick´ e grafy 4.1 Krabicov´ y graf (Box plot) . . . . . . 4.2 Histogram . . . . . . . . . . . . . . . 4.3 Kvantilovˇe-kvantilov´ y graf (Q-Q plot) 4.4 Pravdˇepodobnostn´ı graf (P-P plot) . 4.5 Norm´aln´ı pravdˇepodobnostn´ı graf (N-P plot) . . . . . . . . . . . . . . .
. . . .
14 15 15 16 18
. . . .
19 21 22 26 29
. . . . . . . . . . . . .
31
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
A Test v´ ybˇ erov´ eˇ sikmosti a ˇ spiˇ catosti - zdrojov´ y k´ od
34
Literatura
37
3
N´azev pr´ace: Diagnostick´e grafy v programu STATISTICA Autor: Jaroslav Schulz ´ ´ Ustav: Ustav matematiky a statistiky Vedouc´ı bakal´aˇrsk´e pr´ace: RNDr. Marie Bud´ıkov´a, Dr. Abstrakt: Pr´ace je zamˇeˇrena na uˇzit´ı grafick´ ych prvk˚ u (diagnostick´ ych graf˚ u) pr˚ uzkumov´e anal´ yzy dat v programu STATISTICA. Je rozdˇelena do ˇctyˇr kapitol. V u ´vodn´ı kapitole je zm´ınˇena motivace vzniku diagnostick´ ych graf˚ u. Druh´a kapitola zav´ad´ı nˇekter´e kl´ıˇcov´e pojmy, kter´e jsou d´ale uˇzity nebo nˇejak souvis´ı s t´ımto t´ematem a jsou nutn´e pro dalˇs´ı pr´aci. Hlavn´ım u ´kolem pr˚ uzkumov´e anal´ yzy dat je ovˇeˇrit normalitu, homogenitu a nez´avislost. Ve tˇret´ı kapitole jsou zm´ınˇeny nˇekter´e klasick´e testy tˇechto pˇredpoklad˚ u, kter´e tvoˇr´ı alternativu k diagnostick´ ym graf˚ um. V praxi se oba tyto n´astroje kombinuj´ı tak, aby bylo dosaˇzeno co nejlepˇs´ıch v´ ysledk˚ u. V prvn´ı ˇca´sti posledn´ı kapitoly je uˇzivatel v kr´atkosti sezn´amen se z´akladn´ım ovl´ad´an´ım programu STATISTICA. Druh´a ˇca´st je zamˇeˇrena na popis a tvorbu jednotliv´ ych diagnostick´ ych graf˚ u, kter´e program STATISTICA nab´ız´ı. Kaˇzd´ y graf je doplnˇen pˇr´ıklady, kter´e ukazuj´ı jeho vyuˇzitelnost v praxi. Kl´ıˇcov´a slova: pr˚ uzkumov´a anal´ yza dat, diagnostick´e grafy, STATISTICA Title: Diagnostic graphs in program STATISTICA Author: Jaroslav Schulz Department: Department of Mathematics and Statistics Supervisor: RNDr. Marie Bud´ıkov´a, Dr. Abstract: Presented work is focused on how to apply graphical techniques (diagnostic graphs) of exploratory data analysis in program STATISTICA. It’s divided into four chapters. The opening chapter mentiones the purpose of origin of diagnostic graphs. The second chapter introduces key definitions that are directly related to the presented topic. Main function of exploratory data analysis is to verify hypothesis whether data are normal, homogeneous and independent. The third chapter is about several classic tests that are also used to verify basic hypothesis about data. In practice they are used as an alternative to diagnostic graphs. We use them together mostly to reach the best outcomes. In the first part of the last chapter is described brief manual how to use STATISTICA. Second part describes and shows diagnostic graphs included in STATISTICA. Each graph subsection contains examples that show their practical use. Keywords: exploratory data analysis, diagnostic graphs, STATISTICA
4
Kapitola 1 Motivace Diagnostick´e grafy patˇr´ı do tzv. pr˚ uzkumov´e (exploratorn´ı) anal´ yzy. Ta je souˇc´ast´ı ˇsirˇs´ıho tematick´eho celku - matematick´e statistiky, kter´a se zab´ yv´a aplikac´ı teorie pravdˇepodobnosti v praxi. Matematick´a statistika zkoum´a konkr´etn´ı n´ahodn´e v´ ybˇery a jejich vlastnosti a snaˇz´ı se podat co moˇzn´a nejvˇernˇejˇs´ı informace o rozloˇzen´ı, z nˇehoˇz dan´ y v´ ybˇer poch´az´ı. S rozvojem v´ ypoˇcetn´ı techniky se rozv´ıjely tak´e statistick´e metody, kter´e by bez v´ ykonn´ ych poˇc´ıtaˇc˚ u neˇslo prov´adˇet. Jednou z tˇechto metod je ovˇeˇrov´an´ı pˇredpoklad˚ u a vlastnost´ı souboru pomoc´ı diagnostick´ ych graf˚ u, kter´e v soudob´e praxi hraj´ı velmi d˚ uleˇzitou roli.
5
Kapitola 2 Pomocn´ e pojmy N´ ahodn´ a veliˇ cina Definice 2.1 (N´ahodn´a veliˇcina). Mˇejme pravdˇepodobnostn´ı prostor (Ω, A, P ). N´ahodnou veliˇcinou ch´apeme jako borelovsky mˇeˇriteln´e zobrazen´ı X : Ω −→ R, tj. vzor kaˇzd´e borelovsk´e mnoˇziny je prvkem jevov´eho pole A (symbolicky: ∀B ∈ B je X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ A) Pozn´ amka 2.1. Diskr´etn´ı n´ahodn´ a veliˇcina nab´yv´ a nejv´yˇse spocetnˇe mnoha hodnot s kladnou pravdˇepodobnost´ı. Spojit´ a n´ahodn´ a veliˇcina nab´yv´ a vˇsech hodnot z nˇejak´eho intervalu. Distribuˇ cn´ı funkce Definice 2.2 (Distribuˇcn´ı funkce). Distribuˇcn´ı funkc´ı n´ahodn´e veliˇciny X budeme naz´yvat funkci FX (x) : R −→ R, definovanou vztahem FX (x) = P (X ≤ x) Pozn´ amka 2.2. Na ose x je kvantil (viz definice 2.6) dan´eho rozloˇzen´ı, na ose y pak jemu odpov´ıdaj´ıc´ı pravdˇepodobnost. Na Obr. 2.1 je distribuˇcn´ı funkce standardizovan´eho norm´aln´ıho rozdˇelen´ı s vyznaˇcen´ymi pravdˇepodobnostmi 0,05; 0,25; 0,5 a jim odpov´ıdaj´ıc´ı kvantily. V intervalu mezi 5% a 95% kvantilem lze oˇcek´ avat 90% dat.
6
Obr´azek 2.1: Distribuˇcn´ı funkce standardizovan´eho norm´aln´ıho rozloˇzen´ı
Pravdˇ epodobnostn´ı funkce diskr´ etn´ı n´ ahodn´ e veliˇ ciny Definice 2.3 (Pravdˇepodobnostn´ı funkce diskr´etn´ı n´ahodn´e veliˇciny). N´ahodn´ a veliˇcina X se naz´yv´ a diskr´etn´ı pr´avˇe tehdy, kdyˇz existuje funkce π(x) nulov´a v R s v´yjimkou nejm´enˇe jednoho a nejv´yˇse spoˇcetnˇe mnoha bod˚ u, kde je kladn´a ( ∀x ∈ R : π(x) ≥ 0 ), je normovan´a ∞ P π(x) = 1 ) a plat´ı pro ni ( −∞
∀x ∈ R : FX (x) =
X
π(t)
t≤x
Funkce π(x) se naz´yv´ a pravdˇepodobnostn´ı funkc´ı n´ahodn´e veliˇciny X Hustota pravdˇ epodobnosti spojit´ e n´ ahodn´ e veliˇ ciny Definice 2.4 (Hustota pravdˇepodobnosti spojit´e n´ahodn´e veliˇciny). N´ahodn´ a veliˇcina X se naz´yv´ a spojit´ a, pr´avˇe tehdy kdyˇz existuje po ˇc´ astech spojit´ a nez´aporn´ a funkce fX (x) takov´a, ˇze distribuˇcn´ı funkci FX (x) lze zapsat ve tvaru Zx fX (t) dt
FX (x) = −∞
Funkce fX (x) se naz´yv´ a hustota pravdˇepodobnosti n´ahodn´e veliˇciny X Pozn´ amka 2.3. Z hustoty je obvykle patrn´ a symetrie ˇci nesymetrie dat ˇci nehomogenita. Jej´ı hodnota na ose y vˇsak nem´a na rozd´ıl od 7
distribuˇcn´ı funkce v´yznam pravdˇepodobnosti. V intervalu kolem maxima se bude vyskytovat v´ıce namˇeˇren´ych hodnot, neˇz ve stejnˇe ˇsirok´em intervalu jinde. Pˇresto, ˇze hustota poskytuje zˇrejm´e informace o rozloˇzen´ı dat, pro praktick´e u ´ˇcely se sp´ıˇse pouˇz´ıva konstrukce kvantilov´e nebo distribuˇcn´ı funkce.
Obr´azek 2.2: Hustota pravdˇepodobnosti symetrick´ ych rozloˇzen´ı
Obr´azek 2.3: Hustota pravdˇepodobnosti nesymetrick´eho rozloˇzen´ı
Kvantil, kvantilov´ a funkce Definice 2.5 (Kvantilov´a funkce). Mˇejme n´ahodnou veliˇcinu X a distribuˇcn´ı funkci FX . Pak kvantilovou funkc´ı nazveme funkci FX−1 (α) = inf {x ∈ R : FX (x) > α}, pro 0 < α < 1 Pozn´ amka 2.4. Distribuˇcn´ı funkce plnˇe charakterizuje rozloˇzen´ı pravdˇeˇ podobnosti n´ahodn´e veliˇciny. Casto je vˇsak tˇreba ˇreˇsit u ´lohu nal´ezt bod x tak, aby P (X ≤ x) byla rovna urˇcit´e hodnotˇe α ∈ (0, 1), tj. FX (xα ) = α. Probl´em je s body, kde funkce FX m´ a skok, a tak´e s body, kde FX neroste, ˇcili inverzn´ı funkce by nebyla jednoznaˇcn´ a. 8
Definice 2.6 (Kvantil). Hodnota kvantilov´e funkce v bodˇe α, tj. FX−1 (α), je naz´yv´ ana kvantil rozloˇzen´ı n´ahodn´e veliˇciny na hladinˇe α nebo αkvantil a b´yv´ a t´eˇz oznaˇcov´ an xα . Pro kvantil spojit´eho rozloˇzen´ı plat´ı: Zxα FX (xα ) =
fX (x) dx −∞
Pozn´ amka 2.5. V´yhodou kvantilov´e funkce je jej´ı snadn´a konstrukce z datov´eho souboru - data se setˇr´ıd´ı podle velikosti v neklesaj´ıc´ım poˇrad´ı od nejmenˇs´ıho k nejvˇetˇs´ımu, na osu x se rovnomˇernˇe vynesou do intervalu (0; 1) hodnoty, kter´e odpov´ıdaj´ı pravdˇepodobnosti a na osu y se vynesou setˇr´ıdˇen´ a data xi . Pro nˇekter´e v´yznaˇcn´e hodnoty jsou kvantily oznaˇcov´ any zvl´aˇstn´ımi jm´eny, viz n´asleduj´ıc´ı tabulka : Kvantil x0,50 x0,25 x0,75 x0,10 x0,90 x0,01 x0,99
N´azev medi´an doln´ı kvartil horn´ı kvartil 1. decil 9. decil 1. percentil 99. percentil
Pozn´ amka 2.6. Kvantil xα standardizovan´e norm´aln´ı veliˇciny U ∼ N (0, 1) se znaˇc´ı uα Kvartilov´ a odchylka (mezikvartilov´e rozpˇet´ı) Pomoc´ı horn´ıho a doln´ıho kvartilu lze zav´est mezikvartilov´e rozpˇet´ı, kter´e definujeme jako hodnotu q = x0,75 − x0,25 Stˇ redn´ı hodnota Definice 2.7 (Stˇredn´ı hodnota diskr´etn´ı n´ahodn´e veliˇciny). Je-li n´ahodn´a veliˇcina X diskr´etn´ı s pravdˇepodobnostn´ı funkc´ı π(x) pak jej´ı stˇ redn´ı hodnotou naz´yv´ ame ˇc´ıslo E(X) =
∞ X
x · π(x),
−∞
za pˇredpokladu, ˇze pˇr´ıpadn´ a nekoneˇcn´ a ˇrada absolutnˇe konverguje 9
Definice 2.8 (Stˇredn´ı hodnota spojit´e n´ahodn´e veliˇciny). Je-li n´ahodn´ a veliˇcina X spojit´ a a m´a hustotu pravdˇepodobnosti fX pak jej´ı stˇ redn´ı hodnotou naz´yv´ ame ˇc´ıslo Z∞ E(X) =
x · f (x) dx, −∞
za pˇredpokladu, ˇze uveden´y integr´ al konverguje absolutnˇe Pozn´ amka 2.7. Stˇredn´ı hodnota nemus´ı vˇzdy existovat. Rozptyl Definice 2.9 (Rozptyl). Rozptylem n´ahodn´e veliˇciny X naz´yv´ ame ˇc´ıslo D(X) = E([X − E(X)]2 ) za pˇredpokladu, ˇze uveden´ a stˇredn´ı hodnota existuje Pozn´ amka 2.8. Rozptyl je ˇc´ıslo, kter´e charakterizuje variabilitu ˇc´ıseln´ych realizac´ı n´ahodn´e veliˇciny X kolem stˇredn´ı hodnoty s pˇrihl´ednut´ım k pravdˇepodobnostem tˇechto realizac´ı. Pozn´ amka 2.9. Pro v´ypoˇcet rozptylu se obvykle uˇz´ıv´ a vzorce 2 2 D(X) = E(X) − [E(X)] Pozn´ a nˇekdy t´eˇz znaˇcen jako σ 2 . p amka 2.10. Rozptyl (D(X)) b´yv´ D(X) se naz´yv´ a smˇerodatn´ a odchylka, t´eˇz znaˇc´ıme σ ˇ Sikmost ˇ Definice 2.10 (Sikmost (asymetrie)). g1 (X) =
E([X − E(X)]3 ) p 3 D(X)
ˇ Pozn´ amka 2.11. Sikmost patˇr´ı spolu se ˇspiˇcatost´ı mezi parametry tvaru a je m´ırou asymetrie rozloˇzen´ı. Pro symetrick´a rozloˇzen´ı je rovna nule, napˇr. X ∼ N (µ, σ 2 ). V´yznam z´aporn´e a kladn´e hodnoty je patrn´y ˇ na Obr. 2.4. Sikmost je silnˇe ovlivnˇena jednostrann´ymi vyboˇcuj´ıc´ımi mˇeˇren´ımi.
10
Obr´azek 2.4: Data s kladnou, nulovou a z´apornou ˇsikmost´ı
ˇ catost Spiˇ ˇ catost). Definice 2.11 (Spiˇ g2 (X) =
E([X − E(X)]4 ) −3 p 4 D(X)
ˇ catost mˇeˇr´ı koncentraci rozloˇzen´ı ˇcetnost´ı kolem Pozn´ amka 2.12. Spiˇ pr˚ umˇeru. Pro X ∼ N (µ, σ 2 ) je ˇspiˇcatost g2 (X) = 0. Na Obr. 2.5 jsou data poch´ azej´ıc´ı z rozloˇzen´ı se ˇspiˇcatost´ı menˇs´ı a vˇetˇs´ı neˇz odpov´ıd´ a ˇ norm´aln´ımu rozloˇzen´ı. Spiˇcatost vzroste, jsou-li pˇr´ıtomny oboustrann´ a vyboˇcuj´ıc´ı mˇeˇren´ı.
Obr´azek 2.5: Data se z´apornou, nulovou a kladnou ˇspiˇcatost´ı
N´ ahodn´ y v´ ybˇ er Definice 2.12 (N´ahodn´ y v´ ybˇer). Necht’ n ∈ N , n´ahodn´ym v´ybˇerem (rozsahu n) rozum´ıme posloupnost n stochasticky nez´avisl´ych n´ahodn´ych veliˇcin X1 , . . . , Xn , kter´e maj´ı stejn´e rozloˇzen´ı, tj. maj´ı stejnou distribuˇcn´ı funkci FX 11
ˇ ıseln´e realizace n´ahodn´eho v´ybˇeru X1 , . . . , Xn znaˇc´ıme Pozn´ amka 2.13. C´ x1 , . . . , xn a ˇr´ık´ ame jim data. Pozn´ amka 2.14. Poˇr´ adkov´ a statistikou naz´yv´ ame neklesaj´ıc´ı posloupnost dat x(1) ≤ x(2) . . . ≤ x(n) . Indexy v z´avork´ ach ud´avaj´ı poˇrad´ı jednotliv´ych hodnot, pˇriˇcemˇz nejmenˇs´ı je x(1) . Dat˚ um seˇrazen´ym vzestupnˇe od nejmenˇs´ı hodnoty k nejvˇetˇs´ı pˇriˇrad´ıme poˇrad´ı. Jsou -li nˇekter´e hodnoty stejn´e, urˇc´ıme jejich pr˚ umˇern´e poˇrad´ı stejn´e skupiny hodnot (viz pˇr´ıklad 2.1).
Pˇ r´ıklad 2.1. Mˇejme hodnoty v´ysledk˚ u nˇejak´eho mˇeˇren´ı, kter´e seˇrad´ıme, urˇc´ıme jejich poˇrad´ı, pˇr´ıpadnˇe jejich pr˚ umˇern´e poˇrad´ı : hodnoty 8 5 usp. hodnoty 3 3 poˇrad´ı 1 2 pr˚ um. poˇrad´ı 1,5 1,5
3 11 3 4 5 5 3 4 5 3 5 5
5 5 6 5
5 7 7 7
4 8 8 9
7 11 8 8 9 10 9 9
8 8 11 11 11 12 11,5 11,5
Pozn´ amka 2.15. Navz´ ajem r˚ uzn´e hodnoty dat x1 , . . . , xn znaˇc´ıme x[1] , . . . , x[r] a ˇr´ık´ ame jim varianty. Plat´ı, ˇze x[1] < . . . < x[r] a r ≤ n. V´ ybˇ erov´ y pr˚ umˇ er Definice 2.13 (V´ ybˇerov´ y pr˚ umˇer). V´ybˇerov´ym pr˚ umˇerem z n´ahodn´eho v´ybˇeru X1 , . . . , Xn rozum´ıme n´ahodnou veliˇcinu n
1X X= Xi n i=1 Pozn´ amka 2.16. Jde o v´ybˇerov´y protˇejˇsek stˇredn´ı hodnoty. V´ybˇerov´y pr˚ umˇer je nestrann´ym a konzistentn´ım odhadem stˇredn´ı hodnoty E(X) za pˇredpokladu, ˇze E(X) existuje. V´ybˇerov´y pr˚ umˇer je m´ırou polohy, ’ tj. hodnota, kolem kter´e se data soustˇred uj´ı. ˇ ıselnou realizaci v´ybˇerov´eho pr˚ Pozn´ amka 2.17. C´ umˇeru X znaˇc´ıme x.
12
V´ ybˇ erov´ y rozptyl Definice 2.14 (V´ ybˇerov´ y rozptyl). V´ybˇerov´ym rozptylem z n´ahodn´eho v´ybˇeru X1 , . . . , Xn , n > 1, rozum´ıme n´ahodnou veliˇcinu n 1 X 2 S = (Xi − X)2 , n − 1 i=1 kde X je v´ybˇerov´y pr˚ umˇer. Pozn´ amka 2.18. Jde o v´ybˇerov´y protˇejˇsek rozptylu. V´ybˇerov´y rozptyl jakoˇzto odhad rozptylu D(x) je nestrann´y a konzistentn´ı za pˇredpokladu, ˇze D(x) existuje. V´ybˇerov´y rozptyl je m´ırou variability. ˇ ıselnou realizaci v´ybˇerov´eho rozptylu S 2 znaˇc´ıme Pozn´ amka 2.19. C´ s2 . V´ ybˇ erov´ aˇ sikmost Definice 2.15 (V´ ybˇerov´a ˇsikmost). n √ P n (xi − x)3 i=1 gˆ1 = P n [ (xi − x)2 ]3/2 i=1
V´ ybˇ erov´ aˇ spiˇ catost Definice 2.16 (V´ ybˇerov´a ˇspiˇcatost). n P n (xi − x)4 i=1 gˆ2 = P −3 n 2 2 [ (xi − x) ] i=1
p-hodnota (p-value) Definice 2.17 (p-hodnota). P-hodnota testu je u test˚ u, kde m´a tato definice smysl, pravdˇepodobnost, s jakou testovac´ı statistika nab´yv´ a hodnot horˇs´ıch“(v´ıce svˇedˇc´ıc´ıch proti testovan´e hypot´eze), neˇz je po” zorovan´ a hodnota statistiky. Pozn´ amka 2.20. P-hodnota je obvykl´ym v´ystupem poˇc´ıtaˇcov´ych program˚ u na testov´an´ı hypot´ez, ud´av´ a mezn´ı hladinu v´yznamnosti, pˇri kter´e bychom hypot´ezu jeˇstˇe zam´ıtali. ame na hladinˇe α, pr´avˇe kdyˇz Pozn´ amka 2.21. Hypot´ezu H0 zam´ıt´ p-hodnota je menˇs´ı nebo rovna α. ˇ ım niˇzˇs´ı vyjde p-hodnota, t´ım v´ıce jsme pˇresvˇedˇceni, Pozn´ amka 2.22. C´ ˇze nulov´a hypot´eza H0 nen´ı spr´avn´ a a je tˇreba j´ı zam´ıtnout. 13
Kapitola 3 Pr˚ uzkumov´ a anal´ yza ´ celem pr˚ Uˇ uzkumov´e anal´ yzy dat je odhalit zvl´aˇstnosti a ovˇeˇrit pˇredpoklady vybran´eho vzorku dat pro n´asledn´e zpracov´an´ı. Jin´ ymi slovy napom´ah´a minimalizovat riziko chybn´ ych z´avˇer˚ u o rozloˇzen´ı, z nˇehoˇz dan´ y n´ahodn´ y v´ ybˇer poch´az´ı. C´ılem statistick´eho zpracov´an´ı je z chov´an´ı n´ahodn´eho v´ ybˇeru usuzovat na chov´an´ı rozloˇzen´ı, z nˇehoˇz tento n´ahodn´ y v´ ybˇer poch´az´ı. Tento postup se naz´ yva statistick´a indukce. N´ahodn´ y v´ ybˇer je charakterizov´an n´asleduj´ıc´ımi pˇredpoklady : 1. Jednotliv´e prvky v´ ybˇeru Xi jsou stochasticky nez´avisl´e. 2. V´ ybˇer je homogenn´ı, tj. vˇsechna Xi poch´azej´ı ze stejn´eho rozloˇzen´ı pravdˇepodobnosti s konstantn´ım rozptylem. 3. Klasick´e metody matematick´e statistiky jsou zaloˇzeny na pˇredpokladu normality. 4. Vˇsechny prvky souboru maj´ı stejnou pravdˇepodobnost, ˇze budou zaˇrazeny do n´ahodn´eho v´ ybˇeru. Uveden´e pˇredpoklady tvoˇr´ı z´aklad vyhodnocov´an´ı realizac´ı n´ahodn´ ych v´ ybˇer˚ u statistick´ ymi metodami. Pˇred vlastn´ı anal´ yzou je proto nezbytn´e vyˇsetˇrit platnost tˇechto z´akladn´ıch pˇredpoklad˚ u, tj. nez´avislot, homogenita a normalita v´ ybˇeru. Nejsou-li splnˇeny, jsou veˇsker´e dalˇs´ı postupy jako je v´ ypoˇcet pr˚ umˇeru, intervalu spolehlivosti, kvantil˚ u a vˇetˇsiny test˚ u zpochybniteln´e a napadnuteln´e.
14
Ovˇ eˇ ren´ı pˇ redpoklad˚ u o datech 3.1
Urˇ cen´ı minim´ aln´ı velikosti v´ ybˇ eru
Tuto problematiku nalezneme podrobnˇe popsanou napˇr´ıklad v [5].
3.2
Ovˇ eˇ ren´ı pˇ redpokladu nez´ avislosti prvk˚ u v´ ybˇ eru
Nejsou-li statistick´a data x1 , . . . , xn nez´avisl´a, mus´ıme poˇc´ıtat se selh´an´ım vˇetˇsiny statistick´ ych v´ ypoˇct˚ u. Bude-li kaˇzdou namˇeˇrenou hodnotu urˇcovat pouze ˇcistˇe n´ahodn´a nez´avisl´a sloˇzka ei s nˇejak´ ym rozloˇzen´ım, pak ˇrekneme, ˇze data jsou nez´avisl´a. Obecnˇe lze z´avislost ch´apat jako ovlivnˇen´ı namˇeˇren´e hodnoty pˇredchoz´ımi hodnotami. Napˇr´ıklad ve tvaru xi = kG(x1 , x2 , ..., xi−1 ) + ei Pokud by bylo k = 0, jednalo by se o nez´avisl´a data. Takto obecn´a definnice vˇsak nen´ı dobˇre pouˇziteln´a. V praxi se nejˇcastˇeji ovˇeˇruje speci´aln´ı pˇr´ıpad - line´arn´ı z´avislosti, ovlivˇ nov´an´ı hodnoty hodnotou pˇredchoz´ı. Jedn´a se o autokorelaci 1.ˇr´adu. Z obecn´e definice dostaneme tedy xi = ρ(xi−1 ) + ei kde ρ pˇredstavuje autokorelaˇcn´ı koeficient 1.ˇra´du. Ten se odhadne podle zn´am´eho vztahu pro korelaˇcn´ı koeficient Xi − µ Xi−1 − µ · ) σ σ pˇriˇcemˇz nab´ yv´a hodnot v rozmez´ı < −1, 1 >. D´ale se pak testuje podle von Neumannova krit´eria ρxi ,xi−1 = E(
√ T1 n + 1 tn = √ , 1 − T1
r n2 − 1 T kde T1 = (1 − ) 2 n2 − 4
T je von Neumann˚ uv pomˇer
15
n−1 P
(xi+1 − xi )2
T = i=1 n P
(xi − X)2
i=1
Pokud jsou prvky v´ ybˇeru nez´avisl´e a plat´ı nulov´a hypot´eza H0 : ρ = 0, m´a veliˇcina tn Studentovo rozloˇzen´ı s (n + 1) stupni volnosti. Alternativn´ı hypot´ezou je HA : ρ 6= 0.
3.3
Ovˇ eˇ ren´ı normality v´ ybˇ eru
Normalita je hlavn´ım pˇredpokladem o datech ve vˇetˇsinˇe anal´ yz a test˚ u. Jde o pˇredpoklad, ˇze data poch´azej´ı z norm´aln´ıho rozloˇzen´ı. V praxi se pouˇz´ıvaj´ı dva hlavn´ı n´astroje, kter´e se navz´ajem doplˇ nuj´ı. Prvn´ı je zaloˇzen na grafick´em zn´azornˇen´ı dat a jejich vizu´aln´ım posouzen´ı pomoc´ı tzv. diagnostick´ ych graf˚ u. Druh´ y n´astroj je zaloˇzen na r˚ uzn´ ych statistick´ ych testech hypot´ez, ˇze data poch´azej´ı z norm´aln´ıho rozloˇzen´ı. V praxi se nejv´ıce osvˇedˇcil Kolmogorov˚ uv-Smirnov˚ uv test normality. Jako jeho alternativu uv´ad´ıme test zaloˇzen´ y na hodnotˇe odhadu tˇret´ıho a ˇctvrt´eho centr´aln´ıho momentu (ˇsikmosti a ˇspiˇcatosti). Oba testy jsou uvedeny n´ıˇze. A) Kolmogorov˚ uv-Smirnov˚ uv test normality dat Testujeme hypot´ezu, kter´a tvrd´ı, ˇze n´ahodn´ y v´ ybˇer X1 , . . . , Xn poch´az´ı z norm´aln´ıho rozloˇzen´ı s parametry µ a σ 2 . Distribuˇcn´ı funkci tohoto rozloˇzen´ı oznaˇc´ıme ΦT (x). Necht’ Fn (x) je v´ ybˇerov´a distribuˇcn´ı funkce. Testovou statistikou je statistika Dn = sup|Fn (x) − ΦT (x)|. Nulovou hypot´ezu H0 zam´ıt´ame na hladinˇe v´ yznamnosti α, kdyˇz Dn ≥ Dn (α), kde Dn (α) je tabelovan´ a kritick´ a hodnota. Pro n ≥ 30 lze q 1 Dn (α) aproximovat v´ yrazem 2n ln α2 . V pˇr´ıpadˇe, ˇze nezn´ame parametry µ a σ 2 norm´aln´ıho rozloˇzen´ı, zmˇen´ı se rozloˇzen´ı testov´e statistiky Dn . Pˇr´ısluˇsn´e modifikovan´e kvantily byly urˇceny pomoc´ı simulaˇcn´ıch studi´ı.
Pozn´ amka 3.1. V programu STATISTICA poskytuje test normality hodnotu testov´e statistiky (ozn. d) a dvˇe p-hodnoty. Prvn´ı se vztahuje k pˇr´ıpadu, kdy µ a σ 2 zn´ame pˇredem, druh´a (ozn. Liliefors p) se vztahuje k pˇr´ıpadu, kdy µ a σ 2 nezn´ame. Objev´ı-li se ve v´ystupu p = n.s. (t.j. non significant), pak hypot´ezu o normalitˇe nezam´ıt´ ame na hladinˇe v´yznamnosti 0, 05. 16
B) Test kombinace v´ ybˇ erov´ eˇ sikmosti a ˇ spiˇ catosti Je definov´ano testovac´ı krit´erium : gˆ1 2 [gˆ2 − E(gˆ2 )]2 C1 = + D(gˆ1 ) D(gˆ2 ) kde gˆ1 je v´ ybˇerov´a ˇsikmost a D(gˆ1 ) je jej´ı rozptyl, resp. gˆ2 je v´ ybˇerov´a ˇspiˇcatost a D(ˆ g2 ) je jej´ı rozptyl a je jej´ı stˇredn´ı hodnota E(gˆ2 ) Za pˇredpoklad˚ u normality m´a veliˇcina C1 asymptotick´e χ2 (2) rozloˇzen´ı. Prok´aˇze-li se, ˇze C1 > χ21−α (2) je nutno hypot´ezu o normalitˇe rozloˇzen´ı v´ ybˇeru zam´ıtnout na asymptotick´e hladinˇe v´ yznamnosti α. Stˇredn´ı hodnota v´ ybˇeru poch´azej´ıc´ıho z norm´aln´ıho rozloˇzen´ı je E(gˆ1 ) = 0, pro asymptotick´ y rozptyl tohoto odhadu plat´ı 6(n − 2) (n + 1)(n + 3) Momentov´ y odhad ˇspiˇcatosti je gˆ2 je n P n (xi − x)4 i=1 gˆ2 = P n [ (xi − x)2 ]2 D(ˆ g1 ) =
i=1
Stˇredn´ı hodnota tohoto odhadu pro v´ ybˇery poch´azej´ıc´ı z norm´aln´ıho rozloˇzen´ı je 6 E(gˆ2 ) = 3 − n+1 a pro asymptotick´ y rozptyl tohoto odhadu plat´ı 24 n(n − 2)(n − 3) D(gˆ2 ) = (n + 1)2 (n + 3)(n + 5) Pozn´ amka 3.2. Test v´ybˇerov´e ˇsikmosti a ˇspiˇcatosti STATISTICA nenab´ız´ı. Proto jej pˇrikl´ ad´ ame k t´eto pr´aci jako makro soubor pro doplnˇen´ı. V praxi se tento test pˇr´ıliˇs neosvedˇcil, protoˇze s rostouc´ım poˇctem dat je velmi pˇr´ısn´y. Data testovan´a pomoc´ı jin´ych n´astroj˚ u, kter´a oznaˇcujeme na z´akladˇe v´ysledk˚ u tˇechto n´astroj˚ u jako norm´aln´ı, jsou velmi ˇcasto prostˇrednictv´ım tohoto testu oznaˇcena jako data nesplˇ nuj´ıc´ı normalitu.
17
3.4
Ovˇ eˇ ren´ı homogenity v´ ybˇ eru
Homogenn´ı v´ ybˇer znamen´a, ˇze vˇsechny jeho prvky Xi , i = 1, ..., n poch´azej´ı ze stejn´eho rozloˇzen´ı s konstantn´ım rozptylem σ 2 . Test˚ u a postup˚ u existuje cel´a ˇrada, my se vˇsak omez´ıme na pˇr´ıpad, kdy se v datech vyskytuj´ı tzv. vyboˇcuj´ıc´ı hodnoty (outlier). Tyto hodnoty se co do velikosti znaˇcnˇe liˇs´ı od ostatn´ıch dat a lze je rozpoznat v diagnostick´ ych grafech. Odlehl´a mˇeˇren´ı silnˇe zkresluj´ı zejm´ena rozptyl. Ovˇeˇrov´an´ı vyboˇcuj´ıc´ıch hodnot je vˇsak dosti komplikovan´e a je zaloˇzeno na mnoha zidealizovan´ ych pˇredpokladech. Jednoduchou technikou, kdy se pouze pˇredpokl´ad´a, ˇze ostatn´ı data maj´ı norm´aln´ı rozloˇzen´ı, je tzv. modifikace doln´ı vnitˇrn´ı hradby BD a horn´ı vnitˇrn´ı hradby BH : BD = x˜0,25 − K(˜ x0,75 − x˜0,25 ), BH = x˜0,75 + K(˜ x0,75 − x˜0,25 ) Parametr K se vol´ı tak, aby pravdˇepodobnost P (n, K) byla dostateˇcnˇe vysok´a, nejˇcastˇeji 0,95. Pravdˇepodobnost P (n, K) zde vyjadˇruje, ˇze ˇz´adn´ y prvek z dan´eho v´ ybˇeru a dan´eho rozloˇzen´ı nebude mimo vnitˇrn´ı hradby [BD , BH ] s pravdˇepodobnost´ı 95%. Pˇri volbˇe P (n, K) = 0, 95 lze v rozmez´ı 8 ≤ n ≤ 100 pouˇz´ıt aproximace 3, 6 K ≈ 2, 25 − . Pro takto urˇcen´ y parametr K se vˇsechny prvky v´ ybˇeru, n leˇz´ıc´ı mimo hradby, povaˇzuj´ı za vyboˇcuj´ıc´ı. V´ yhodou je robustnost postupu.
18
Kapitola 4 Diagnostick´ e grafy Diagnostick´e grafy slouˇz´ı pˇredevˇs´ım k rychl´emu a citliv´emu posouzen´ı povahy dat. Na jejich z´akladˇe se vyb´ıraj´ı dalˇs´ı postupy zpracov´an´ı tˇechto dat pomoc´ı statistick´e anal´ yzy. Pro jejich tvorbu budeme pouˇz´ıvat program STATISTICA. Ten umoˇzn ˇuje tvorbu vˇsech nejd˚ uleˇzitˇejˇs´ıch diagnostick´ ych graf˚ u uveden´ ych n´ıˇze.
Z´ akladn´ı sezn´ amen´ı s programem STATISTICA • Uˇzivatelsk´e prostˇred´ı je velmi podobn´e tabulkov´emu procesoru MS Excel, velmi podobn´a a v ˇradˇe pˇr´ıpad˚ u stejn´a je pˇredevˇs´ım pr´ace s daty (zakl´ad´an´ı soubor˚ u, kop´ırov´an´ı a pˇremist’ov´an´ı oblast´ı, apod.). Zaˇc´ınaj´ıc´ı uˇzivatel snadno pochop´ı z´akladn´ı funkce programu. Pracovn´ı okno (tabulka dat) je ˇclenˇeno do s´ıtˇe bunˇek (podobn´e napˇr´ıklad MS Excelu). Jednotliv´e sloupce jsou tzv. promˇenn´e (pro n´as jednotliv´e n´ahodn´e v´ ybˇery), ˇr´adky pak znaˇc´ı jednotliv´e pˇr´ıpady promˇenn´ ych (pro n´as ˇc´ıseln´e realizace n´ahodn´ ych v´ ybˇer˚ u - data). • Dvojklikem na promˇennou lze nastavit nˇekter´e vlastnosti promˇenn´e jako je n´azev, typ dat a dlouh´ y n´azev, do kter´eho je moˇzn´e zadat funkce vztahuj´ıc´ı se k dan´e promˇenn´e. Prav´ ym poklik´an´ım na z´ahlav´ı promˇenn´e pak m˚ uˇzeme upravovat rozmˇer tabulky. • Vˇsechny d˚ uleˇzit´e n´astroje se nach´azej´ı v menu. Nejd˚ uleˇzitˇejˇs´ı z´aloˇzky jsou Statistika (statistick´e v´ ypoˇcty) a Grafy (grafick´a anal´ yza). Pro veˇsker´e anal´ yzy je spoleˇcn´e to, ˇze je nutno zadat promˇenn´e, pro nˇeˇz se m´a pˇr´ısluˇsn´a anal´ yza prov´adˇet. Proto se v kaˇzd´em dialogov´em oknˇe procedury vyskytuje tlaˇc´ıtko ”Promˇenn´e.” Kaˇzd´e dialogov´e okno procedury obsahuje nˇekolik z´aloˇzek, ve kter´ ych si vol´ıme rozˇs´ıˇren´e moˇznosti procedury. 19
• Pr´ace s daty, v´ ystupy procedur, protokolov´an´ı v´ ysledk˚ u a z´avˇer˚ u a programov´an´ı dodateˇcn´ ych funkc´ı prob´ıh´a ve ˇctyˇrech uˇzivatelsk´ ych rozhran´ıch. a) Samotn´a pr´ace s daty se prov´ad´ı v tzv. tabulce dat. b) V´ ysledky jednotliv´ ych procedur jsou pˇrehlednˇe ukl´ad´any v podobˇe tabulek a graf˚ u do tzv. pracovn´ıch seˇsit˚ u v hierarchick´e struktuˇre odpov´ıdaj´ıc´ı postupu prov´adˇen´ ych anal´ yz. Pracovn´ı seˇsit je rozdˇelen na dvˇe ˇc´asti. V lev´e ˇca´sti lze pˇrep´ınat mezi jednotliv´ ymi v´ ysledky procedur, v prav´e pak nalezneme konkr´etn´ı tabulky a grafy n´ami zvolen´e procedury. Jinou moˇznost´ı je ukl´ad´an´ı tabulek popˇr´ıpadˇe graf˚ u do samostatn´ ych oken. Jednotliv´e v´ ystupy tedy nebudou pˇrehlednˇe uloˇzeny v jednom pracovn´ım seˇsitˇe, ale m´enˇe pˇrehlednˇe ve spoustˇe d´ılˇc´ıch oken. V´ yhodou je snadn´ y export, jak je uvedeno n´ıˇze. c) Ukl´ad´an´ı v´ ysledk˚ u a v´ ystup˚ u do form´alnˇe pˇrijatelnˇejˇs´ı podoby nab´ız´ı tzv. protokol, jenˇz je ˇreˇsen obdobnˇe jako pracovn´ı seˇsit (hierarchick´ ym uspoˇra´d´an´ım v´ ystup˚ u mezi nimiˇz je moˇzno pˇrep´ınat v podlouhl´em oknˇe v lev´e ˇc´asti a konkr´etn´ı v´ ystupy procedur v prav´e ˇca´sti). Na rozd´ıl od pracovn´ıho seˇsitu jsou tabulky a grafy v protokolu uloˇzeny ve formˇe obr´azk˚ u. V´ yhoda protokolu tkv´ı v moˇznosti vepisovat do jednotliv´ ym v´ ysledk˚ u procedur sv´e vlastn´ı koment´aˇre, pozn´amky a z´avˇery. d) STATISTICA samozˇrejmˇe nem˚ uˇze obs´ahnout vˇsechny funkce, se kter´ ymi r˚ uznorod´ı uˇzivatel´e pracuj´ı. K tvorbˇe specifick´ ych, na ” tˇelo“ vytvoˇren´ ych funkc´ı slouˇz´ı programovac´ı prostˇred´ı STATISTICA Visual Basic, kde m˚ uˇzeme pomoc´ı standardn´ıho programovac´ıho jazyka Visual Basic a za pomoci vˇsech definovan´ ych funkc´ı v r´amci STATISTIKY vytvoˇrit pˇresnˇe takovou funkci, jakou poˇzadujeme. Program se ukl´ad´a jako makro, obdobnˇe jako v MS Ex´ stroje / cel. Veˇsker´e operace s makry se prov´adˇej´ı v Menu Na Makra. Jako z´akladn´ı je nastaveno ukl´ad´an´ı v´ ystup˚ u do pracovn´ıho seˇsitu, os´ stroje / Moˇ tatn´ı zmiˇ novan´e moˇznosti lze nastavit v nab´ıdce Na znosti na z´aloˇzce Spr´avce v´ ystup˚ u.“ ” • Program STATISTICA umoˇzn ˇuje snadn´ y import dat z MS Excelu. Staˇc´ı si tedy pˇripravit pracovn´ı soubor v tomto tabulkov´em procesoru a pot´e jej naimportovat do syst´emu STATISTICA pomoc´ı menu ˇ´ıt / v dialogov´em oknˇe Otevˇr´ıt vybereme v poli Soubor / Otevr Soubory typu“ poloˇzku Excel soubory (*.xls)“ a zvol´ıme n´ami poˇzadovan´ y ” ” 20
soubor / v´ ybˇer potvrd´ıme tlaˇc´ıtkem Otevˇr´ıt. T´ım se spust´ı pr˚ uvodce importem, kter´ y n´as jiˇz d´al navede. STATISTICA tak´e podporuje zpˇetn´ y export dat do MS Excelu. Lze vˇsak exportovat pouze po jednotliv´ ych listech seˇsitu (tedy po jednotliv´ ych tabulk´ach resp. grafech). Proto pokud nem´ame tabulku (graf) v samostatn´em oknˇe je nutn´e ji nejdˇr´ıve extrahovat z pracovn´ıho seˇsitu. Zvol´ıme si pˇr´ısluˇsnou tabulku (graf) v lev´e ˇca´sti okna a klikneme na nˇej prav´ ym tlaˇc´ıtkem myˇsi, ˇc´ımˇz vyvol´ame nab´ıdku, zvolme pˇr´ıkaz Ex´ okno / Origina ´l (Kopie). Zvol´ıme-li trahovat jako samostatne jako Origin´al“ bude tabulka (graf) vyjmuta. Export se prov´ad´ı po” moc´ı menu Soubor / Uloˇ zit jako. Dalˇs´ı postup je podobn´ y importu. Pracujeme-li s protokolem, prov´ad´ıme export standardn´ımi postupy pr´ace se schr´ankou (oznaˇcov´an´ı do bloku, kop´ırovat, vyjmout, vloˇzit). Takto je moˇzn´e exportovat data napˇr´ıklad do MS Word.
4.1
Krabicov´ y graf (Box plot)
Popis grafu : Umoˇzn ˇuje posouzen´ı robustn´ıho odhadu medi´anu, d´ale posoudit symetrii a variabilitu datov´eho souboru a odlehl´ ych ˇci extr´emn´ıch hodnot U krabicov´eho grafu definujeme tzv. hradby: Doln´ı vnitˇrn´ı hradba - x0,25 − 1, 5q Horn´ı vnitˇrn´ı hradba - x0,75 + 1, 5q Doln´ı vnˇejˇs´ı hradba - x0,25 − 3q Horn´ı vnitˇrn´ı hradba - x0,75 + 3q Krabicov´ y graf je tedy obd´eln´ık o v´ yˇsce x0,75 − x0,25 Odlehl´a hodnota - hodnota, kter´a leˇz´ı mezi vnitˇrn´ımi a vnˇejˇs´ımi hradbami Extr´emn´ı hodnota - hodnota, kter´a leˇz´ı za vnˇejˇs´ı hradbou Konstrukce grafu : √ osa x - interval velikosti n osa y - hodnoty x1 , . . . , xn Uˇ zit´ı : Pom´ah´a odhalit vyboˇcuj´ıc´ı a extr´emn´ı hodnoty v datov´em souboru Pˇ r´ıklad 4.1. Pro realizace n´ahodn´eho v´ybˇeru xi rozsahu n = 50 sestrojte krabicov´y graf. Postup ve Statistice : ´ grafy 1. Menu Grafy / 2D Grafy / Krabicove
21
2. Zvol´ıme, pro kter´e promˇenn´e chceme graf vytvoˇrit a zda je vykreslovat do jednoho nebo v´ıce obr´azk˚ u - OK Interpretace graf˚ u: Obr´azek 4.1 vyobrazuje box ploty pro 3 r˚ uzn´e n´ahodn´e v´ybˇery. Z box plot˚ u m˚ uˇzeme vyˇc´ıst r˚ uzn´e zeˇsikmen´ı dat, napˇr´ıklad v ˇc´ asti [1] jsou data v´yraznˇe zeˇsikmen´ a k niˇzˇs´ım hodnot´am. V grafu se to projevuje posunut´ım medi´ anu (horizont´aln´ı ˇc´ ara v obd´eln´ıku vymezen´em horn´ım a doln´ım kvartilem) smˇerem dol˚ u k doln´ımu kvartilu. D´ale je z grafu patrn´e, ˇze se v datech objevuj´ı hodnoty odlehl´e i extr´emn´ı (ˇc´ ast [1], [3]), kter´e znaˇcnˇe ovlivˇ nuj´ı cel´y test normality. Z tvaru box plotu lze pak soudit o symetrii rozloˇzen´ı. V ˇc´ asti [2] je velmi pravdˇepodobnˇe graf reprezentuj´ıc´ı data z norm´aln´ıho rozloˇzen´ı nejen d´ıky sv´e symetrii, ale tak´e polohou medi´ anu, kter´a leˇz´ı takˇrka v u ´pln´em prostˇredku obd´eln´ıku. Pro ovˇeˇren´ı hodnota aritmetick´eho pr˚ umˇeru x = −1, 32 je velmi bl´ızk´ a medi´ anu x0,5 = −1.
Obr´azek 4.1: Krabicov´e grafy pro r˚ uznˇe zeˇsikmen´ ych rozloˇzen´ı
4.2
Histogram
Definice 4.1 (Histogram). Histogram je graf, kter´y zobrazuje relativn´ı ˇcetnost tˇr´ıdic´ıho intervalu (uj , uj+1 i obsahem obd´eln´ıku, sestrojen´eho nad t´ımto intervalem. V´yˇska obd´eln´ıku tedy vyjadˇruje hustotu ˇcetnosti v j-t´em tˇr´ıdic´ım intervalu. (viz. [2]) 22
Pozn´ amka 4.1. Ve smyslu t´eto definice program Statistica histogram nenab´ız´ı. Statistica na osu y vyn´aˇs´ı absolutn´ı ˇci relativn´ı ˇcetnosti tˇr´ıdic´ıch interval˚ u (uj , uj+1 i ˇci variant x[j] , kde j = 1, . . . , r. Popis grafu : Histogram je nejjednoduˇsˇs´ım odhadem hustoty rozloˇzen´ı. Lze t´eˇz porovnat tvar hustoty ˇcetnosti s tvarem hustoty pravdˇepodobnosti vybran´eho teoretick´eho rozloˇzen´ı. Konstrukce grafu : osa x - tˇr´ıdic´ı intervaly osa y - odpov´ıdaj´ıc´ı ˇcetnosti Nejˇcastˇeji se poˇcet tˇr´ıd´ıc´ıch interval˚ u urˇcuje pomoc´ı vztahu l = int(2 ln(N ))
nebo
√ l = int(2 N ),
kde int(x) je celoˇc´ıseln´a ˇc´ast ˇc´ısla x. Uˇ zit´ı : Pouˇz´ıv´a se k odhadu hustoty rozloˇzen´ı a grafick´emu zn´azornˇen´ı rozdˇelen´ı ˇcetnosti. Pˇ r´ıklad 4.2. U 20 pozorovan´ych dom´acnost´ı byl zjiˇst’ov´ an poˇcet rodinn´ych pˇr´ısluˇsn´ık˚ u. Zn´azornˇete rozdˇelen´ı ˇcetnost´ı ˇclen˚ u dom´acnosti pomoc´ı histogramu. Postup ve Statistice : 1. Menu Grafy / 2D Grafy / Histogramy 2. Zvol´ıme, pro kter´e promˇenn´e chceme graf vytvoˇrit a zda je vykreslovat do jednoho nebo v´ıce obr´azk˚ u - OK Interpretace grafu : Obr´azek 4.2 zn´azorˇ nuje rozdˇelen´ı ˇcetnost´ı poˇctu ˇclen˚ u 20 pozorovan´ych dom´acnost´ı. Z grafu plyne, ˇze nejˇcastˇeji byly dom´acnosti sloˇzeny ze 4 ˇclen˚ u, a to hned v pˇeti pˇr´ıpadech. Naopak 8 ˇclen˚ u bylo zpozorov´ ano pouze u jedin´e dom´acnosti jako v´yrazn´y extr´em.
23
Obr´azek 4.2: v dom´acnosti
Grafick´e
zn´azornˇen´ı rozdˇelen´ı ˇcetnost´ı poˇctu
ˇclen˚ u
Pozn´ amka 4.2. V pˇr´ıpadech, kdy kaˇzd´ a hodnota je ve v´ybˇerov´em souboru (datech) jedineˇcn´ a nebo jen zanedbatelnˇe v´ıcekr´ at se vyskytuj´ıc´ı vzhledem k rozsahu dat, je vhodn´e setˇr´ıdit tyto data do urˇcit´ych interval˚ u a z nich pot´e vytv´aˇret histogram, zn´azorˇ nuj´ıc´ı ˇcetnosti dat. Program STATISTICA samozˇrejmˇe nab´ız´ı volbu takov´eho postupu. Histogram, zn´azorˇ nuj´ıc´ı ˇcetnosti, je grafick´ym zn´azornˇen´ım (obdobou) tzv. tabulky ˇcetnost´ı. Intervaly proto ˇ i ve STATISTICE vytv´aˇr´ıme pˇres TABULKY CETNOST I´ a to v: ´ kladn´ı statistiky a tabulky / Tabulky c ˇetnost´ı Menu Statistika / Za Dan´e intervaly m˚ uˇzeme definovat na kartˇe ”Detaily” dialogov´eho okna pro tvorbu tabulek ˇcetnost´ı (viz obr´azek 4.3) tˇremi zp˚ usoby: 1. Zad´an´ı pˇresn´eho poˇctu interval˚ u“ - nedostatkem t´eto tvorby interval˚ u ” je, ˇze prvn´ı interval m˚ uˇze m´ıt z´apornou doln´ı mez i pˇres to, ˇze se v datech ˇz´ adn´e z´aporn´e hodnoty nevyskytuj´ı. 2. Tvorba pˇekn´ych zaokrouhlen´ych interval˚ u“ odstraˇ nuje pˇredchoz´ı ne” dostatek, ale nahrazuje jej jin´ym. Posledn´ı interval bude vˇzdy s nulovou ˇcetnost´ı. 3. Stejn´eho v´ysledku jako 2. lze dos´ahnout i stanoven´ım velikosti kroku ” intervalu.“ Zde se zad´av´ a minim´aln´ı, tedy doln´ı mez poˇc´ ateˇcn´ıho intervalu a d´ale velikost kroku (ˇs´ıˇre intervalu).
24
Obr´azek 4.3: Z´aloˇzka ”Detaily” v dialogov´em oknˇe Tabulky ˇcetnost´ı
Vybaveni pˇr´ısluˇsn´ymi intervaly ˇcetnosti m˚ uˇzeme pˇristoupit ke konstrukci histogramu reflektuj´ıc´ıho n´ami definovan´e intervaly a to pˇr´ımo na kartˇe De” taily.“ V´ysledkem bude histogram zobrazen´y na obr´azku 4.4, kter´y ud´av´ a kolik dom´acnost´ı je v dan´ych intervalech. Velkou nev´yhodou tohoto postupu je bezesporu nemoˇznost proloˇzen´ı histogramu kˇrivkou hustoty norm´aln´ıho rozloˇzen´ı.
Obr´azek 4.4: Intervalov´e ˇcetnosti poˇctu ˇclen˚ u dom´acnost´ı pomoc´ı histogramu
25
Pˇ r´ıklad 4.3. Pro realizace n´ahodn´eho v´ybˇeru xi rozsahu n = 50 odhadnˇete pomoc´ı histogramu, zda rozloˇzen´ı n´ahodn´eho v´ybˇeru odpov´ıd´ a norm´aln´ımu. Postup ve Statistice : 1. Menu Grafy / 2D Grafy / Histogramy 2. Zvol´ıme, pro kter´e promˇenn´e chceme graf vytvoˇrit a zda je vykreslovat do jednoho nebo v´ıce obr´azk˚ u - OK Interpretace grafu : Z obr´azku 4.5 lze pˇredpokl´adat, ˇze data poch´ azej´ı z norm´aln´ıho rozloˇzen´ı. Histogram se vˇsak pˇr´ıliˇs ˇcasto k odhadu rozloˇzen´ı nepouˇz´ıv´ a, proto je potˇreba ovˇeˇrit normalitu jeˇstˇe nˇekter´ym z jin´ych prostˇredk˚ u pr˚ uzkumov´e anal´yzy.
Obr´azek 4.5: Histogram proloˇzen´ y hustotou norm´aln´ıho rozloˇzen´ı
4.3
Kvantilovˇ e-kvantilov´ y graf (Q-Q plot)
Popis grafu : Umoˇzn ˇuje posoudit, zda datov´ y soubor poch´az´ı z nˇejak´eho zn´am´eho rozloˇzen´ı Konstrukce grafu : j−r , radj a nadj jsou koosa x - kvantily xαj vybran´eho rozloˇzen´ı, kde α = n+nadj adj riguj´ıc´ı faktory ≤ 0, 5, implicitnˇe radj = 0, 375 a nadj = 0, 25. Jsou-li nˇekter´e hodnoty x1 ≤ ... ≤ xn stejn´e, bereme za j jejich pr˚ umˇern´e poˇrad´ı stejn´e skupiny hodnot osa y - uspoˇra´dan´e hodnoty x1 ≤ ... ≤ xn 26
Uˇ zit´ı : Z tvaru Q-Q grafu se d´a posoudit symetrie, normalita, ˇspiˇcatost a homogenita v´ ybˇeru. Hlavn´ı vyuˇzit´ı nach´az´ı v posouzen´ı normality datov´eho souboru. V pˇr´ıpadˇe, ˇze zvolen´ ym rozloˇzen´ım je norm´aln´ı rozloˇzen´ı, naz´ yv´a se Q-Q graf - rankitov´y graf Pˇ r´ıklad 4.4. Pomoc´ı kvantilovˇe-kvantilov´eho grafu posud’te, zda realizace n´ahodn´eho v´ybˇeru xi rozsahu n = 50 poch´ az´ı z norm´aln´ıho rozloˇzen´ı. Postup ve Statistice : 1. Menu Grafy / 2D Grafy / Grafy typu Q-Q 2. Zvol´ıme, pro kter´e promˇenn´e chceme graf vytvoˇrit - OK Interpretace graf˚ u: 1. Z obr´azku 4.6 lze jasnˇe usoudit, ˇze data nepoch´ azej´ı z norm´aln´ıho rozloˇzen´ı. Body v grafu neleˇz´ı na pˇr´ımce, leˇz´ı vˇsak na jednoduch´e celkem hladk´e kˇrivce bez v´yrazn´ych zlom˚ u a nehomogenit, z ˇcehoˇz lze usoudit, ˇze data poch´ azej´ı z jedin´eho (asymetrick´eho) rozloˇzen´ı (jsou homogenn´ı). Jsou nav´ıc kladnˇe zeˇsikmen´ a, protoˇze jde o konvexn´ı kˇrivku. Z toho plyne, ˇze pouˇzit´ı aritmetick´eho pr˚ umˇeru jako odhadu stˇredn´ı hodnoty by bylo nespr´avn´e. V takov´ychto pˇr´ıpadech je lepˇs´ı uˇz´ıt medi´ an (v tomto pˇr´ıpadˇe je aritmetick´y pr˚ umˇer x = 3, 819 a medi´ an x0,5 = 2, 125). Pokud jsou data homogenn´ı, lze s nimi v r´amci pr˚ uzkumov´e anal´yzy dat d´ale pracovat pˇri pouˇzit´ı nˇekter´e transformace. Z obr´azku je tak´e patrnˇe, ˇze se v datech vyskytuje odlehl´a hodnota (tzv. outlier - [1]). V nˇekter´ych pˇr´ıpadech je test normality silnˇe ovlivnˇen pˇr´ıtomnost´ı vyboˇcuj´ıc´ıch hodnot. V pˇr´ıpadˇe, ˇze se opravdu jedn´ a o vyboˇcuj´ıc´ı hodnoty, lze je v dalˇs´ım testu normality vypustit za u ´ˇcelem dosaˇzen´ı potˇrebn´e normality.
27
Obr´azek 4.6: Q-Q graf pro homogenn´ı kladnˇe zeˇsikmen´a data
2. Obr´azek 4.7 ukazuje Q-Q graf pro data poch´ azej´ıc´ı z norm´aln´ıho rozloˇzen´ı. Tato data obsahuj´ı t´eˇz jednu odlehlou hodnotu, kter´a je velmi v´yznamn´ a v klasick´ych testech normality, zaloˇzen´ych na testov´an´ı hypot´ez. Nejen Q-Q graf, ale obecnˇe diagnostick´e grafy pom´ ahaj´ı citlivˇe posoudit, zda jde o data z norm´aln´ıho rozloˇzen´ı, ve kter´ych pouze figuruj´ı odlehl´e hodnoty ˇci nikoliv.
Obr´azek 4.7: Q-Q graf pro homogenn´ı kladnˇe zeˇsikmen´a data
u (dat) 3. Obr´azek 4.8 je zˇrejmˇe tˇreba povaˇzovat za smˇes dvou v´ybˇer˚ z r˚ uzn´ych rozloˇzen´ı. D˚ uvodem je v´yrazn´y zlom a mezera mezi hodnotami oznaˇcen´y ˇsipkou. Stˇredn´ı hodnota by velmi pravdˇepodobnˇe vyˇsla 28
v m´ıstˇe, kde ˇz´ adn´ a data nejsou a rozptyl by byl pˇr´ıliˇs velk´y. V tomto pˇr´ıpadˇe by bylo zˇrejmˇe lepˇs´ı rozdˇelit v´ybˇer na dvˇe ˇc´ asti a analyzovat ’ kaˇzdou zvl´aˇst .
Obr´azek 4.8: Q-Q graf blabla
4.4
Pravdˇ epodobnostn´ı graf (P-P plot)
Popis grafu : Pravdˇepodobnostn´ı grafy jsou alternativou ke Q-Q graf˚ um, slouˇz´ı ke stejn´ ym u ´ˇcel˚ um, ale jinak se konstruuj´ı. Konstrukce grafu : Nejprve se spoˇctou standardizovan´e hodnoty: zj =
xj − x , s
kde x je realizace v´ ybˇerov´eho pr˚ umˇeru a s je realizace v´ ybˇerov´e smˇerodatn´e odchylky. osa x - hodnoty teoretick´e distribuˇcn´ı funkce Φ(zj ) osa y - hodnoty empirick´e distribuˇcn´ı funkce F (zj ) = j/n Pokud se hodnoty (Φ(zj ), F (zj )) soustˇred’uj´ı kolem hlavn´ı diagon´aly ˇctverce h0, 1i × h0, 1i, lze usuzovat na dobrou shodu teoretick´eho a empirick´eho rozloˇzen´ı. Jsou-li nˇekter´e hodnoty x1 ≤ ... ≤ xn stejn´e, bereme za j jejich pr˚ umˇern´e poˇrad´ı. Uˇ zit´ı : K porovn´an´ı poˇradov´e pravdˇepodobnosti teoretick´e distribuˇcn´ı funkce a distribuˇcn´ı funkce v´ ybˇeru, tzn. k urˇcen´ı z jak´eho rozloˇzen´ı data poch´azej´ı 29
Pˇ r´ıklad 4.5. Mˇejme realizace n´ahodn´eho v´ybˇeru xi rozsahu n = 50. Pomoc´ı P-P grafu zkuste odhadnout, z jak´eho rozloˇzen´ı poch´ az´ı. Postup ve Statistice : 1. Menu Grafy / 2D Grafy / P-P grafy 2. Zvol´ıme, pro kter´e promˇenn´e chceme graf vytvoˇrit a se kter´ym rozloˇzen´ım chceme data porovn´ avat - OK Interpretace graf˚ u: 1. Jako prvn´ı zvol´ıme porovn´ an´ı s norm´aln´ım rozloˇzen´ım. Z obr´azku 4.9 je jasnˇe patrn´e, ˇze data nepoch´ azej´ı z norm´aln´ıho rozloˇzen´ı.
Obr´azek 4.9: P-P graf, kter´ y porovn´av´a dan´a data s norm´aln´ım rozloˇzen´ım
2. Pˇristoup´ıme tedy k porovn´ an´ı s jin´ym rozloˇzen´ım, v naˇsem pˇr´ıpadˇe s exponenci´ aln´ım. Obr´azek 4.10 odhaluje, ˇze by data mohla poch´ azet z exponenci´ aln´ıho rozloˇzen´ı. Co, ale m˚ uˇzeme s jistotou ˇr´ıc´ı je, ˇze data budou kladnˇe zeˇsikmen´ a pr´avˇe z d˚ uvodu, ˇze je pravdˇepodobn´e, ˇze poch´ azej´ı z exponenci´ aln´ıho rozloˇzen´ı.
30
Obr´azek 4.10: P-P graf porovn´av´aj´ıc´ı dan´a data s exponenci´aln´ım rozloˇzen´ım
4.5
Norm´ aln´ı pravdˇ epodobnostn´ı graf (N-P plot)
Popis grafu : Umoˇzn ˇuje graficky posoudit, zda data poch´azej´ı z norm´aln´ıho rozloˇzen´ı Konstrukce grafu : osa x - uspoˇra´dan´e hodnoty x1 ≤ ... ≤ xn 3j−1 osa y - kvantily uαj , kde αj = 3n+1 , pˇriˇcemˇz j je poˇrad´ı j -t´e uspoˇra´dan´e hodnoty. Uˇ zit´ı : Grafick´e posouzen´ı normality dat Pozn´ amka 4.3. Poch´ azej´ı-li data z norm´aln´ıho rozloˇzen´ı, pak vˇsechny dvojice (x(j) , uαj ) budou leˇzet na pˇr´ımce. Pozn´ amka 4.4. Pro data z rozloˇzen´ı s kladnou ˇsikmost´ı se budou dvojice (x(j) , uαj ) ˇradit do konk´avn´ı kˇrivky. Pozn´ amka 4.5. Pro data z rozloˇzen´ı se z´apornou ˇsikmost´ı se budou dvojice (x(j) , uαj ) ˇradit do konvexn´ı kˇrivky. Pˇ r´ıklad 4.6. Mˇejme realizace n´ahodn´eho v´ybˇeru xi rozsahu n = 50. Pomoc´ı N-P grafu zjistˇete zda data vykazuj´ı zn´amky normality.
31
Postup ve Statistice : 1. Menu Grafy / 2D Grafy / N-P grafy 2. Zvol´ıme, pro kter´e promˇenn´e chceme graf vytvoˇrit - OK Interpretace graf˚ u: Podle povahy dat obdrˇz´ıme r˚ uzn´e grafy, jak jiˇz bylo zm´ınˇeno v pozn´ amce: 1. Na obr´azku 4.11 lze vidˇet ˇze dvojice (x(j) , uαj ) t´emˇeˇr leˇz´ı na pˇr´ımce, ˇ m˚ uˇzeme tedy usoudit, ˇze data poch´ azej´ı z norm´aln´ıho rozloˇzen´ı. Sikmost tˇechto dat je gˆ1 = −0, 0149 coˇz se velmi bl´ıˇz´ı ˇsimosti teoretick´eho norm´aln´ıho rozloˇzen´ı, kter´e m´a hodnotu 0.
Obr´azek 4.11: N-P graf pro data vykazuj´ıc´ı zn´amky normality
2. Na obr´azku 4.12 vid´ıme, ˇze se data ˇrad´ı do konk´avn´ı kˇrivky a jsou ˇ tedy kladnˇe zeˇsikmen´ a. Sikmost dosahuje v´yr´ aznˇe vysok´e hodnoty gˆ1 = 3, 000752. Velmi v´yraznou ˇsikmost´ı (gˆ1 (exp) = 2) se vyznaˇcuje napˇr´ıklad exponenci´ aln´ı rozloˇzen´ı. Data tedy v ˇz´ adn´em pˇr´ıpadˇe nesplˇ nuj´ı podm´ınku normality.
32
Obr´azek 4.12: N-P graf pro kladnˇe zeˇsikmen´a data
3. Na obr´azku 4.13 vid´ıme, ˇze se data ˇrad´ı do konvexn´ı kˇrivky a jsou tedy ˇ z´apornˇe zeˇsikmen´ a. Sikmost dat je gˆ1 = −3, 48249 coˇz jednoznaˇcnˇe ukazuje, ˇze data nemohou poch´ azet z norm´aln´ıho rozloˇzen´ı.
Obr´azek 4.13: N-P graf pro z´apornˇe zeˇsikmen´a data
33
Dodatek A Test v´ ybˇ erov´ eˇ sikmosti a ˇ spiˇ catosti - zdrojov´ y k´ od Sub Main Dim Matrix() As Double Dim Mean As Double ’prumer Dim Dim Dim Dim
Pom1 Pom2 Pom3 Pom4
As As As As
Double Double Double Double
Dim Dim Dim Dim Dim
Skewness As Double ’sikmost Kurtosis As Double ’spicatost EKurtosis As Double ’stredni hodnota spicatost DSkewness As Double ’rozptyl sikmost DKurtosis As Double ’rozptyl spicatost
Dim Chi square As Double ’vysledna hodnota testovaci statistiky Dim Chi kvantile As Double ’porovnavaci teoreticky kvanitl Dim alpha As Double ’hladina vyznamnosti alpha Dim pval As Double ’p hodnota pocitana z distribucni funkce Dim i As Integer ’pomocna promenna pro cyklus for Dim UserInput As String Dim M As MatrixObject ’definice matice Set M = MatrixObject
34
Cols = ActiveSpreadsheet.NumberOfVariables Rows = ActiveSpreadsheet.NumberOfCases ReDim Preserve Matrix(Rows, Cols) As Double Matrix = ActiveSpreadsheet.Data UserInput = InputBox(”Zadejte hladinu v´ yznamnosti alpha, na kter´e chcete testovat normalitu dat”,”Hladina v´ yynamnosti alpha”) alpha = 1 - CDbl(UserInput) Chi kvantile = VChi2(alpha,2) MsgBox( ”Hodnota vypoˇcten´eho teoretick´eho kvantilu z V´ami zvolen´e hladiny v´ yznamnosti alpha je :” + vbCr + vbCr &CStr( Chi kvantile ) ) Mean = 0 For i = 1 To Rows Mean = Mean + Matrix( i, 1 ) Next i Mean = Mean / Rows Pom1 = 0 For i = 1 To Rows Pom1 = (Matrix(i,1)-Mean) Pom2 = Pom2 + Pom1 * Pom1 Pom3 = Pom3 + Pom1 * Pom1 * Pom1 Pom4 = Pom4 + Pom1 * Pom1 * Pom1 * Pom1 Next i Kurtosis = ((Rows*Pom4) / (Pom2*Pom2)) - 3 Skewness = Sqrt( Rows ) * Pom3 / Sqrt( Pom2 * Pom2 * Pom2 ) DSkewness = 6*(Rows-2) / ((Rows+1)*(Rows+3)) DKurtosis = 24*Rows*(Rows-2)*(Rows-3)/((Rows+1)*(Rows+1)*(Rows+3)*(Rows+5)) EKurtosis = 3 - 6/(Rows+1) Chi square = Skewness*Skewness / DSkewness Chi square = Chi square + (Kurtosis-EKurtosis)*(Kurtosis-EKurtosis)/DKurtosis If Chi square > Chi kvantile Then MsgBox( ”Data nepoch´azej´ı z norm´aln´ıho rozloˇzen´ı” + vbCr + vbCr & CStr( Chi square ) & ” > ” & CStr( Chi kvantile ) + vbCr + vbCr
35
& ”Hypot´ezu normality dat zam´ıt´ame na hladinˇe v´ yznamnosti” & CStr( 1 - alpha )) Else MsgBox( ”Data vykazuj´ı znaky normality” + vbCr + vbCr & CStr(Chi square) & ” < ” & CStr( Chi kvantile ) + vbCr + vbCr & ”Hypot´ezu normality dat nelze zam´ıtnout na hladinˇe v´ yznamnosti” & CStr( 1 - alpha )) End If pval = 1 - IChi2(Chi square, 2) MsgBox (”p-hodnota je :” + vbCr & CStr(pval), ”p-hodnota”) If Chi square < Chi kvantile Then If pval > (1-alpha) Then MsgBox( ”P-hodnota je vˇetˇs´ı neˇz alpha, proto hypot´ezu o normalitˇe dat nelze zam´ıtnout a hypot´eze H0 tedy lze vˇeˇrit ” ) Else MsgBox( ”P-hodnota je menˇs´ı nebo rovna alpha, proto hypot´eze H0 nelze vˇeˇrit a zam´ıt´ame ji”) End If End If End Sub Pozn´ amka A.1. Makro bylo naprogramov´ ano v pˇrostˇred´ı STATISTICA Visual Basic.
36
Literatura ˇ Z´ [1] Bud´ıkov´a M., Lerch T., Mikol´aˇs S.: akladn´ı statistick´e metody, Masarykova univerzita, 2005. ˇ Popisn´ [2] Bud´ıkov´a M., Oseck´ y P., Mikol´aˇs S.: a statistika, Masarykova univerzita, 1998. [3] Kupka K.: Statistick´e ˇr´ızen´ı jakosti, TriloByte, 1997. [4] Meloun M., Militk´ y J.: Kompendium statistick´eho zpracov´ an´ı dat, Academia, 2002. y J.: Statistick´e zpracov´ an´ı experiment´ aln´ıch dat, East [5] Meloun M., Militk´ Publishing, 1998. [6] StatSoft: STATISTICA for Windows, StatSoft, Inc., 2000. ˇ ep´an J.: Pravdˇepodobnost a matematick´a statistika, [7] Zv´ara K., Stˇ MATFYZPRESS, 2002.
37