Jaroslav Schulz Diagnostické grafy v programu STATISTICA

Masarykova univerzita v Brnˇe Pˇr´ırodovˇedecká fakulta

´ RSK ˇ ´ PRACE ´ BAKALA A

Jaroslav Schulz Diagnostick´ e grafy v programu STATISTICA ´ Ustav matematiky a statistiky

Vedouc´ı bakaláˇrské práce : RNDr. Marie Bud´ıková, Dr. Studijn´ı program: Aplikovaná matematika, obor Matematika - ekonomie

2007

Dˇekuji vedouc´ı práce RNDr. Marii Bud´ıkové, Dr. za ˇcas vˇenovan´ y konzultac´ım a za cenné rady a pˇripom´ınky.

ˇ Cestn´ e prohl´ aˇ sen´ı Prohlaˇsuji, ˇze jsem svou bakaláˇrskou práci napsal samostatnˇe a v´ yhradnˇe s pouˇzit´ım citovan´ ych pramen˚ u. Souhlas´ım se zap˚ ujˇcován´ım práce a jej´ım zveˇrejˇ nován´ım. V Brnˇe dne 21. kvˇetna 2007

Jaroslav Schulz

2

Obsah 1 Motivace

5

2 Pomocn´ e pojmy

6

3 Pr˚ uzkumov´ a anal´ yza 3.1 Urˇcen´ı minimáln´ı velikosti v´ ybˇeru . . . . . . . . 3.2 Ovˇeˇren´ı pˇredpokladu nezávislosti prvk˚ u v´ ybˇeru 3.3 Ovˇeˇren´ı normality v´ ybˇeru . . . . . . . . . . . . 3.4 Ovˇeˇren´ı homogenity v´ ybˇeru . . . . . . . . . . . 4 Diagnostick´ e grafy 4.1 Krabicov´ y graf (Box plot) . . . . . . 4.2 Histogram . . . . . . . . . . . . . . . 4.3 Kvantilovˇe-kvantilov´ y graf (Q-Q plot) 4.4 Pravdˇepodobnostn´ı graf (P-P plot) . 4.5 Normáln´ı pravdˇepodobnostn´ı graf (N-P plot) . . . . . . . . . . . . . . .

. . . .

14 15 15 16 18

. . . .

19 21 22 26 29

. . . . . . . . . . . . .

31

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

A Test v´ ybˇ erov´ eˇ sikmosti a ˇ spiˇ catosti - zdrojov´ y k´ od

34

Literatura

37

3

Název práce: Diagnostické grafy v programu STATISTICA Autor: Jaroslav Schulz ´ ´ Ustav: Ustav matematiky a statistiky Vedouc´ı bakaláˇrské práce: RNDr. Marie Bud´ıková, Dr. Abstrakt: Práce je zamˇeˇrena na uˇzit´ı grafick´ ych prvk˚ u (diagnostick´ ych graf˚ u) pr˚ uzkumové anal´ yzy dat v programu STATISTICA. Je rozdˇelena do ˇctyˇr kapitol. V u ´vodn´ı kapitole je zm´ınˇena motivace vzniku diagnostick´ ych graf˚ u. Druhá kapitola zavád´ı nˇekteré kl´ıˇcové pojmy, které jsou dále uˇzity nebo nˇejak souvis´ı s t´ımto tématem a jsou nutné pro dalˇs´ı práci. Hlavn´ım u ´kolem pr˚ uzkumové anal´ yzy dat je ovˇeˇrit normalitu, homogenitu a nezávislost. Ve tˇret´ı kapitole jsou zm´ınˇeny nˇekteré klasické testy tˇechto pˇredpoklad˚ u, které tvoˇr´ı alternativu k diagnostick´ ym graf˚ um. V praxi se oba tyto nástroje kombinuj´ı tak, aby bylo dosaˇzeno co nejlepˇs´ıch v´ ysledk˚ u. V prvn´ı ˇca´sti posledn´ı kapitoly je uˇzivatel v krátkosti seznámen se základn´ım ovládán´ım programu STATISTICA. Druhá ˇca´st je zamˇeˇrena na popis a tvorbu jednotliv´ ych diagnostick´ ych graf˚ u, které program STATISTICA nab´ız´ı. Kaˇzd´ y graf je doplnˇen pˇr´ıklady, které ukazuj´ı jeho vyuˇzitelnost v praxi. Kl´ıˇcová slova: pr˚ uzkumová anal´ yza dat, diagnostické grafy, STATISTICA Title: Diagnostic graphs in program STATISTICA Author: Jaroslav Schulz Department: Department of Mathematics and Statistics Supervisor: RNDr. Marie Bud´ıková, Dr. Abstract: Presented work is focused on how to apply graphical techniques (diagnostic graphs) of exploratory data analysis in program STATISTICA. It’s divided into four chapters. The opening chapter mentiones the purpose of origin of diagnostic graphs. The second chapter introduces key definitions that are directly related to the presented topic. Main function of exploratory data analysis is to verify hypothesis whether data are normal, homogeneous and independent. The third chapter is about several classic tests that are also used to verify basic hypothesis about data. In practice they are used as an alternative to diagnostic graphs. We use them together mostly to reach the best outcomes. In the first part of the last chapter is described brief manual how to use STATISTICA. Second part describes and shows diagnostic graphs included in STATISTICA. Each graph subsection contains examples that show their practical use. Keywords: exploratory data analysis, diagnostic graphs, STATISTICA

4

Kapitola 1 Motivace Diagnostické grafy patˇr´ı do tzv. pr˚ uzkumové (exploratorn´ı) anal´ yzy. Ta je souˇcást´ı ˇsirˇs´ıho tematického celku - matematické statistiky, která se zab´ yvá aplikac´ı teorie pravdˇepodobnosti v praxi. Matematická statistika zkoumá konkrétn´ı náhodné v´ ybˇery a jejich vlastnosti a snaˇz´ı se podat co moˇzná nejvˇernˇejˇs´ı informace o rozloˇzen´ı, z nˇehoˇz dan´ y v´ ybˇer pocház´ı. S rozvojem v´ ypoˇcetn´ı techniky se rozv´ıjely také statistické metody, které by bez v´ ykonn´ ych poˇc´ıtaˇc˚ u neˇslo provádˇet. Jednou z tˇechto metod je ovˇeˇrován´ı pˇredpoklad˚ u a vlastnost´ı souboru pomoc´ı diagnostick´ ych graf˚ u, které v soudobé praxi hraj´ı velmi d˚ uleˇzitou roli.

5

Kapitola 2 Pomocn´ e pojmy N´ ahodn´ a veliˇ cina Definice 2.1 (Náhodná veliˇcina). Mˇejme pravdˇepodobnostn´ı prostor (Ω, A, P ). Náhodnou veliˇcinou chápeme jako borelovsky mˇeˇritelné zobrazen´ı X : Ω −→ R, tj. vzor kaˇzdé borelovské mnoˇziny je prvkem jevového pole A (symbolicky: ∀B ∈ B je X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ A) Pozn´ amka 2.1. Diskrétn´ı náhodn´ a veliˇcina nabýv´ a nejvýˇse spocetnˇe mnoha hodnot s kladnou pravdˇepodobnost´ı. Spojit´ a náhodn´ a veliˇcina nabýv´ a vˇsech hodnot z nˇejakého intervalu. Distribuˇ cn´ı funkce Definice 2.2 (Distribuˇcn´ı funkce). Distribuˇcn´ı funkc´ı náhodné veliˇciny X budeme nazývat funkci FX (x) : R −→ R, definovanou vztahem FX (x) = P (X ≤ x) Pozn´ amka 2.2. Na ose x je kvantil (viz definice 2.6) daného rozloˇzen´ı, na ose y pak jemu odpov´ıdaj´ıc´ı pravdˇepodobnost. Na Obr. 2.1 je distribuˇcn´ı funkce standardizovaného normáln´ıho rozdˇelen´ı s vyznaˇcenými pravdˇepodobnostmi 0,05; 0,25; 0,5 a jim odpov´ıdaj´ıc´ı kvantily. V intervalu mezi 5% a 95% kvantilem lze oˇcek´ avat 90% dat.

6

Obrázek 2.1: Distribuˇcn´ı funkce standardizovaného normáln´ıho rozloˇzen´ı

Pravdˇ epodobnostn´ı funkce diskr´ etn´ı n´ ahodn´ e veliˇ ciny Definice 2.3 (Pravdˇepodobnostn´ı funkce diskrétn´ı náhodné veliˇciny). Náhodn´ a veliˇcina X se nazýv´ a diskrétn´ı právˇe tehdy, kdyˇz existuje funkce π(x) nulová v R s výjimkou nejménˇe jednoho a nejvýˇse spoˇcetnˇe mnoha bod˚ u, kde je kladná ( ∀x ∈ R : π(x) ≥ 0 ), je normovaná ∞ P π(x) = 1 ) a plat´ı pro ni ( −∞

∀x ∈ R : FX (x) =

X

π(t)

t≤x

Funkce π(x) se nazýv´ a pravdˇepodobnostn´ı funkc´ı náhodné veliˇciny X Hustota pravdˇ epodobnosti spojit´ e n´ ahodn´ e veliˇ ciny Definice 2.4 (Hustota pravdˇepodobnosti spojité náhodné veliˇciny). Náhodn´ a veliˇcina X se nazýv´ a spojit´ a, právˇe tehdy kdyˇz existuje po ˇc´ astech spojit´ a nezáporn´ a funkce fX (x) taková, ˇze distribuˇcn´ı funkci FX (x) lze zapsat ve tvaru Zx fX (t) dt

FX (x) = −∞

Funkce fX (x) se nazýv´ a hustota pravdˇepodobnosti náhodné veliˇciny X Pozn´ amka 2.3. Z hustoty je obvykle patrn´ a symetrie ˇci nesymetrie dat ˇci nehomogenita. Jej´ı hodnota na ose y vˇsak nemá na rozd´ıl od 7

distribuˇcn´ı funkce význam pravdˇepodobnosti. V intervalu kolem maxima se bude vyskytovat v´ıce namˇeˇrených hodnot, neˇz ve stejnˇe ˇsirokém intervalu jinde. Pˇresto, ˇze hustota poskytuje zˇrejmé informace o rozloˇzen´ı dat, pro praktické u ´ˇcely se sp´ıˇse pouˇz´ıva konstrukce kvantilové nebo distribuˇcn´ı funkce.

Obrázek 2.2: Hustota pravdˇepodobnosti symetrick´ ych rozloˇzen´ı

Obrázek 2.3: Hustota pravdˇepodobnosti nesymetrického rozloˇzen´ı

Kvantil, kvantilov´ a funkce Definice 2.5 (Kvantilová funkce). Mˇejme náhodnou veliˇcinu X a distribuˇcn´ı funkci FX . Pak kvantilovou funkc´ı nazveme funkci FX−1 (α) = inf {x ∈ R : FX (x) > α}, pro 0 < α < 1 Pozn´ amka 2.4. Distribuˇcn´ı funkce plnˇe charakterizuje rozloˇzen´ı pravdˇeˇ podobnosti náhodné veliˇciny. Casto je vˇsak tˇreba ˇreˇsit u ´lohu nalézt bod x tak, aby P (X ≤ x) byla rovna urˇcité hodnotˇe α ∈ (0, 1), tj. FX (xα ) = α. Problém je s body, kde funkce FX m´ a skok, a také s body, kde FX neroste, ˇcili inverzn´ı funkce by nebyla jednoznaˇcn´ a. 8

Definice 2.6 (Kvantil). Hodnota kvantilové funkce v bodˇe α, tj. FX−1 (α), je nazýv´ ana kvantil rozloˇzen´ı náhodné veliˇciny na hladinˇe α nebo αkvantil a býv´ a téˇz oznaˇcov´ an xα . Pro kvantil spojitého rozloˇzen´ı plat´ı: Zxα FX (xα ) =

fX (x) dx −∞

Pozn´ amka 2.5. Výhodou kvantilové funkce je jej´ı snadná konstrukce z datového souboru - data se setˇr´ıd´ı podle velikosti v neklesaj´ıc´ım poˇrad´ı od nejmenˇs´ıho k nejvˇetˇs´ımu, na osu x se rovnomˇernˇe vynesou do intervalu (0; 1) hodnoty, které odpov´ıdaj´ı pravdˇepodobnosti a na osu y se vynesou setˇr´ıdˇen´ a data xi . Pro nˇekteré význaˇcné hodnoty jsou kvantily oznaˇcov´ any zvláˇstn´ımi jmény, viz následuj´ıc´ı tabulka : Kvantil x0,50 x0,25 x0,75 x0,10 x0,90 x0,01 x0,99

Název medián doln´ı kvartil horn´ı kvartil 1. decil 9. decil 1. percentil 99. percentil

Pozn´ amka 2.6. Kvantil xα standardizované normáln´ı veliˇciny U ∼ N (0, 1) se znaˇc´ı uα Kvartilov´ a odchylka (mezikvartilové rozpˇet´ı) Pomoc´ı horn´ıho a doln´ıho kvartilu lze zavést mezikvartilové rozpˇet´ı, které definujeme jako hodnotu q = x0,75 − x0,25 Stˇ redn´ı hodnota Definice 2.7 (Stˇredn´ı hodnota diskrétn´ı náhodné veliˇciny). Je-li náhodná veliˇcina X diskrétn´ı s pravdˇepodobnostn´ı funkc´ı π(x) pak jej´ı stˇ redn´ı hodnotou nazýv´ ame ˇc´ıslo E(X) =

∞ X

x · π(x),

−∞

za pˇredpokladu, ˇze pˇr´ıpadn´ a nekoneˇcn´ a ˇrada absolutnˇe konverguje 9

Definice 2.8 (Stˇredn´ı hodnota spojité náhodné veliˇciny). Je-li náhodn´ a veliˇcina X spojit´ a a má hustotu pravdˇepodobnosti fX pak jej´ı stˇ redn´ı hodnotou nazýv´ ame ˇc´ıslo Z∞ E(X) =

x · f (x) dx, −∞

za pˇredpokladu, ˇze uvedený integr´ al konverguje absolutnˇe Pozn´ amka 2.7. Stˇredn´ı hodnota nemus´ı vˇzdy existovat. Rozptyl Definice 2.9 (Rozptyl). Rozptylem náhodné veliˇciny X nazýv´ ame ˇc´ıslo D(X) = E([X − E(X)]2 ) za pˇredpokladu, ˇze uveden´ a stˇredn´ı hodnota existuje Pozn´ amka 2.8. Rozptyl je ˇc´ıslo, které charakterizuje variabilitu ˇc´ıselných realizac´ı náhodné veliˇciny X kolem stˇredn´ı hodnoty s pˇrihlédnut´ım k pravdˇepodobnostem tˇechto realizac´ı. Pozn´ amka 2.9. Pro výpoˇcet rozptylu se obvykle uˇz´ıv´ a vzorce 2 2 D(X) = E(X) − [E(X)] Pozn´ a nˇekdy téˇz znaˇcen jako σ 2 . p amka 2.10. Rozptyl (D(X)) býv´ D(X) se nazýv´ a smˇerodatn´ a odchylka, téˇz znaˇc´ıme σ ˇ Sikmost ˇ Definice 2.10 (Sikmost (asymetrie)). g1 (X) =

E([X − E(X)]3 ) p 3 D(X)

ˇ Pozn´ amka 2.11. Sikmost patˇr´ı spolu se ˇspiˇcatost´ı mezi parametry tvaru a je m´ırou asymetrie rozloˇzen´ı. Pro symetrická rozloˇzen´ı je rovna nule, napˇr. X ∼ N (µ, σ 2 ). Význam záporné a kladné hodnoty je patrný ˇ na Obr. 2.4. Sikmost je silnˇe ovlivnˇena jednostrannými vyboˇcuj´ıc´ımi mˇeˇren´ımi.

10

Obrázek 2.4: Data s kladnou, nulovou a zápornou ˇsikmost´ı

ˇ catost Spiˇ ˇ catost). Definice 2.11 (Spiˇ g2 (X) =

E([X − E(X)]4 ) −3 p 4 D(X)

ˇ catost mˇeˇr´ı koncentraci rozloˇzen´ı ˇcetnost´ı kolem Pozn´ amka 2.12. Spiˇ pr˚ umˇeru. Pro X ∼ N (µ, σ 2 ) je ˇspiˇcatost g2 (X) = 0. Na Obr. 2.5 jsou data poch´ azej´ıc´ı z rozloˇzen´ı se ˇspiˇcatost´ı menˇs´ı a vˇetˇs´ı neˇz odpov´ıd´ a ˇ normáln´ımu rozloˇzen´ı. Spiˇcatost vzroste, jsou-li pˇr´ıtomny oboustrann´ a vyboˇcuj´ıc´ı mˇeˇren´ı.

Obrázek 2.5: Data se zápornou, nulovou a kladnou ˇspiˇcatost´ı

N´ ahodn´ y v´ ybˇ er Definice 2.12 (Náhodn´ y v´ ybˇer). Necht’ n ∈ N , náhodným výbˇerem (rozsahu n) rozum´ıme posloupnost n stochasticky nezávislých náhodných veliˇcin X1 , . . . , Xn , které maj´ı stejné rozloˇzen´ı, tj. maj´ı stejnou distribuˇcn´ı funkci FX 11

ˇ ıselné realizace náhodného výbˇeru X1 , . . . , Xn znaˇc´ıme Pozn´ amka 2.13. C´ x1 , . . . , xn a ˇr´ık´ ame jim data. Pozn´ amka 2.14. Poˇr´ adkov´ a statistikou nazýv´ ame neklesaj´ıc´ı posloupnost dat x(1) ≤ x(2) . . . ≤ x(n) . Indexy v závork´ ach udávaj´ı poˇrad´ı jednotlivých hodnot, pˇriˇcemˇz nejmenˇs´ı je x(1) . Dat˚ um seˇrazeným vzestupnˇe od nejmenˇs´ı hodnoty k nejvˇetˇs´ı pˇriˇrad´ıme poˇrad´ı. Jsou -li nˇekteré hodnoty stejné, urˇc´ıme jejich pr˚ umˇerné poˇrad´ı stejné skupiny hodnot (viz pˇr´ıklad 2.1).

Pˇ r´ıklad 2.1. Mˇejme hodnoty výsledk˚ u nˇejakého mˇeˇren´ı, které seˇrad´ıme, urˇc´ıme jejich poˇrad´ı, pˇr´ıpadnˇe jejich pr˚ umˇerné poˇrad´ı : hodnoty 8 5 usp. hodnoty 3 3 poˇrad´ı 1 2 pr˚ um. poˇrad´ı 1,5 1,5

3 11 3 4 5 5 3 4 5 3 5 5

5 5 6 5

5 7 7 7

4 8 8 9

7 11 8 8 9 10 9 9

8 8 11 11 11 12 11,5 11,5

Pozn´ amka 2.15. Navz´ ajem r˚ uzné hodnoty dat x1 , . . . , xn znaˇc´ıme x[1] , . . . , x[r] a ˇr´ık´ ame jim varianty. Plat´ı, ˇze x[1] < . . . < x[r] a r ≤ n. V´ ybˇ erov´ y pr˚ umˇ er Definice 2.13 (V´ ybˇerov´ y pr˚ umˇer). Výbˇerovým pr˚ umˇerem z náhodného výbˇeru X1 , . . . , Xn rozum´ıme náhodnou veliˇcinu n

1X X= Xi n i=1 Pozn´ amka 2.16. Jde o výbˇerový protˇejˇsek stˇredn´ı hodnoty. Výbˇerový pr˚ umˇer je nestranným a konzistentn´ım odhadem stˇredn´ı hodnoty E(X) za pˇredpokladu, ˇze E(X) existuje. Výbˇerový pr˚ umˇer je m´ırou polohy, ’ tj. hodnota, kolem které se data soustˇred uj´ı. ˇ ıselnou realizaci výbˇerového pr˚ Pozn´ amka 2.17. C´ umˇeru X znaˇc´ıme x.

12

V´ ybˇ erov´ y rozptyl Definice 2.14 (V´ ybˇerov´ y rozptyl). Výbˇerovým rozptylem z náhodného výbˇeru X1 , . . . , Xn , n > 1, rozum´ıme náhodnou veliˇcinu n 1 X 2 S = (Xi − X)2 , n − 1 i=1 kde X je výbˇerový pr˚ umˇer. Pozn´ amka 2.18. Jde o výbˇerový protˇejˇsek rozptylu. Výbˇerový rozptyl jakoˇzto odhad rozptylu D(x) je nestranný a konzistentn´ı za pˇredpokladu, ˇze D(x) existuje. Výbˇerový rozptyl je m´ırou variability. ˇ ıselnou realizaci výbˇerového rozptylu S 2 znaˇc´ıme Pozn´ amka 2.19. C´ s2 . V´ ybˇ erov´ aˇ sikmost Definice 2.15 (V´ ybˇerová ˇsikmost). n √ P n (xi − x)3 i=1 gˆ1 = P n [ (xi − x)2 ]3/2 i=1

V´ ybˇ erov´ aˇ spiˇ catost Definice 2.16 (V´ ybˇerová ˇspiˇcatost). n P n (xi − x)4 i=1 gˆ2 = P −3 n 2 2 [ (xi − x) ] i=1

p-hodnota (p-value) Definice 2.17 (p-hodnota). P-hodnota testu je u test˚ u, kde má tato definice smysl, pravdˇepodobnost, s jakou testovac´ı statistika nabýv´ a hodnot horˇs´ıch“(v´ıce svˇedˇc´ıc´ıch proti testované hypotéze), neˇz je po” zorovan´ a hodnota statistiky. Pozn´ amka 2.20. P-hodnota je obvyklým výstupem poˇc´ıtaˇcových program˚ u na testován´ı hypotéz, udáv´ a mezn´ı hladinu významnosti, pˇri které bychom hypotézu jeˇstˇe zam´ıtali. ame na hladinˇe α, právˇe kdyˇz Pozn´ amka 2.21. Hypotézu H0 zam´ıt´ p-hodnota je menˇs´ı nebo rovna α. ˇ ım niˇzˇs´ı vyjde p-hodnota, t´ım v´ıce jsme pˇresvˇedˇceni, Pozn´ amka 2.22. C´ ˇze nulová hypotéza H0 nen´ı správn´ a a je tˇreba j´ı zam´ıtnout. 13

Kapitola 3 Pr˚ uzkumov´ a anal´ yza ´ celem pr˚ Uˇ uzkumové anal´ yzy dat je odhalit zvláˇstnosti a ovˇeˇrit pˇredpoklady vybraného vzorku dat pro následné zpracován´ı. Jin´ ymi slovy napomáhá minimalizovat riziko chybn´ ych závˇer˚ u o rozloˇzen´ı, z nˇehoˇz dan´ y náhodn´ y v´ ybˇer pocház´ı. C´ılem statistického zpracován´ı je z chován´ı náhodného v´ ybˇeru usuzovat na chován´ı rozloˇzen´ı, z nˇehoˇz tento náhodn´ y v´ ybˇer pocház´ı. Tento postup se naz´ yva statistická indukce. Náhodn´ y v´ ybˇer je charakterizován následuj´ıc´ımi pˇredpoklady : 1. Jednotlivé prvky v´ ybˇeru Xi jsou stochasticky nezávislé. 2. V´ ybˇer je homogenn´ı, tj. vˇsechna Xi pocházej´ı ze stejného rozloˇzen´ı pravdˇepodobnosti s konstantn´ım rozptylem. 3. Klasické metody matematické statistiky jsou zaloˇzeny na pˇredpokladu normality. 4. Vˇsechny prvky souboru maj´ı stejnou pravdˇepodobnost, ˇze budou zaˇrazeny do náhodného v´ ybˇeru. Uvedené pˇredpoklady tvoˇr´ı základ vyhodnocován´ı realizac´ı náhodn´ ych v´ ybˇer˚ u statistick´ ymi metodami. Pˇred vlastn´ı anal´ yzou je proto nezbytné vyˇsetˇrit platnost tˇechto základn´ıch pˇredpoklad˚ u, tj. nezávislot, homogenita a normalita v´ ybˇeru. Nejsou-li splnˇeny, jsou veˇskeré dalˇs´ı postupy jako je v´ ypoˇcet pr˚ umˇeru, intervalu spolehlivosti, kvantil˚ u a vˇetˇsiny test˚ u zpochybnitelné a napadnutelné.

14

Ovˇ eˇ ren´ı pˇ redpoklad˚ u o datech 3.1

Urˇ cen´ı minim´ aln´ı velikosti v´ ybˇ eru

Tuto problematiku nalezneme podrobnˇe popsanou napˇr´ıklad v [5].

3.2

Ovˇ eˇ ren´ı pˇ redpokladu nez´ avislosti prvk˚ u v´ ybˇ eru

Nejsou-li statistická data x1 , . . . , xn nezávislá, mus´ıme poˇc´ıtat se selhán´ım vˇetˇsiny statistick´ ych v´ ypoˇct˚ u. Bude-li kaˇzdou namˇeˇrenou hodnotu urˇcovat pouze ˇcistˇe náhodná nezávislá sloˇzka ei s nˇejak´ ym rozloˇzen´ım, pak ˇrekneme, ˇze data jsou nezávislá. Obecnˇe lze závislost chápat jako ovlivnˇen´ı namˇeˇrené hodnoty pˇredchoz´ımi hodnotami. Napˇr´ıklad ve tvaru xi = kG(x1 , x2 , ..., xi−1 ) + ei Pokud by bylo k = 0, jednalo by se o nezávislá data. Takto obecná definnice vˇsak nen´ı dobˇre pouˇzitelná. V praxi se nejˇcastˇeji ovˇeˇruje speciáln´ı pˇr´ıpad - lineárn´ı závislosti, ovlivˇ nován´ı hodnoty hodnotou pˇredchoz´ı. Jedná se o autokorelaci 1.ˇrádu. Z obecné definice dostaneme tedy xi = ρ(xi−1 ) + ei kde ρ pˇredstavuje autokorelaˇcn´ı koeficient 1.ˇra´du. Ten se odhadne podle známého vztahu pro korelaˇcn´ı koeficient Xi − µ Xi−1 − µ · ) σ σ pˇriˇcemˇz nab´ yvá hodnot v rozmez´ı < −1, 1 >. Dále se pak testuje podle von Neumannova kritéria ρxi ,xi−1 = E(

√ T1 n + 1 tn = √ , 1 − T1

r n2 − 1 T kde T1 = (1 − ) 2 n2 − 4

T je von Neumann˚ uv pomˇer

15

n−1 P

(xi+1 − xi )2

T = i=1 n P

(xi − X)2

i=1

Pokud jsou prvky v´ ybˇeru nezávislé a plat´ı nulová hypotéza H0 : ρ = 0, má veliˇcina tn Studentovo rozloˇzen´ı s (n + 1) stupni volnosti. Alternativn´ı hypotézou je HA : ρ 6= 0.

3.3

Ovˇ eˇ ren´ı normality v´ ybˇ eru

Normalita je hlavn´ım pˇredpokladem o datech ve vˇetˇsinˇe anal´ yz a test˚ u. Jde o pˇredpoklad, ˇze data pocházej´ı z normáln´ıho rozloˇzen´ı. V praxi se pouˇz´ıvaj´ı dva hlavn´ı nástroje, které se navzájem doplˇ nuj´ı. Prvn´ı je zaloˇzen na grafickém znázornˇen´ı dat a jejich vizuáln´ım posouzen´ı pomoc´ı tzv. diagnostick´ ych graf˚ u. Druh´ y nástroj je zaloˇzen na r˚ uzn´ ych statistick´ ych testech hypotéz, ˇze data pocházej´ı z normáln´ıho rozloˇzen´ı. V praxi se nejv´ıce osvˇedˇcil Kolmogorov˚ uv-Smirnov˚ uv test normality. Jako jeho alternativu uvád´ıme test zaloˇzen´ y na hodnotˇe odhadu tˇret´ıho a ˇctvrtého centráln´ıho momentu (ˇsikmosti a ˇspiˇcatosti). Oba testy jsou uvedeny n´ıˇze. A) Kolmogorov˚ uv-Smirnov˚ uv test normality dat Testujeme hypotézu, která tvrd´ı, ˇze náhodn´ y v´ ybˇer X1 , . . . , Xn pocház´ı z normáln´ıho rozloˇzen´ı s parametry µ a σ 2 . Distribuˇcn´ı funkci tohoto rozloˇzen´ı oznaˇc´ıme ΦT (x). Necht’ Fn (x) je v´ ybˇerová distribuˇcn´ı funkce. Testovou statistikou je statistika Dn = sup|Fn (x) − ΦT (x)|. Nulovou hypotézu H0 zam´ıtáme na hladinˇe v´ yznamnosti α, kdyˇz Dn ≥ Dn (α), kde Dn (α) je tabelovan´ a kritick´ a hodnota. Pro n ≥ 30 lze q 1 Dn (α) aproximovat v´ yrazem 2n ln α2 . V pˇr´ıpadˇe, ˇze neznáme parametry µ a σ 2 normáln´ıho rozloˇzen´ı, zmˇen´ı se rozloˇzen´ı testové statistiky Dn . Pˇr´ısluˇsné modifikované kvantily byly urˇceny pomoc´ı simulaˇcn´ıch studi´ı.

Pozn´ amka 3.1. V programu STATISTICA poskytuje test normality hodnotu testové statistiky (ozn. d) a dvˇe p-hodnoty. Prvn´ı se vztahuje k pˇr´ıpadu, kdy µ a σ 2 známe pˇredem, druhá (ozn. Liliefors p) se vztahuje k pˇr´ıpadu, kdy µ a σ 2 neznáme. Objev´ı-li se ve výstupu p = n.s. (t.j. non significant), pak hypotézu o normalitˇe nezam´ıt´ ame na hladinˇe významnosti 0, 05. 16

B) Test kombinace v´ ybˇ erov´ eˇ sikmosti a ˇ spiˇ catosti Je definováno testovac´ı kritérium : gˆ1 2 [gˆ2 − E(gˆ2 )]2 C1 = + D(gˆ1 ) D(gˆ2 ) kde gˆ1 je v´ ybˇerová ˇsikmost a D(gˆ1 ) je jej´ı rozptyl, resp. gˆ2 je v´ ybˇerová ˇspiˇcatost a D(ˆ g2 ) je jej´ı rozptyl a je jej´ı stˇredn´ı hodnota E(gˆ2 ) Za pˇredpoklad˚ u normality má veliˇcina C1 asymptotické χ2 (2) rozloˇzen´ı. Prokáˇze-li se, ˇze C1 > χ21−α (2) je nutno hypotézu o normalitˇe rozloˇzen´ı v´ ybˇeru zam´ıtnout na asymptotické hladinˇe v´ yznamnosti α. Stˇredn´ı hodnota v´ ybˇeru pocházej´ıc´ıho z normáln´ıho rozloˇzen´ı je E(gˆ1 ) = 0, pro asymptotick´ y rozptyl tohoto odhadu plat´ı 6(n − 2) (n + 1)(n + 3) Momentov´ y odhad ˇspiˇcatosti je gˆ2 je n P n (xi − x)4 i=1 gˆ2 = P n [ (xi − x)2 ]2 D(ˆ g1 ) =

i=1

Stˇredn´ı hodnota tohoto odhadu pro v´ ybˇery pocházej´ıc´ı z normáln´ıho rozloˇzen´ı je 6 E(gˆ2 ) = 3 − n+1 a pro asymptotick´ y rozptyl tohoto odhadu plat´ı 24 n(n − 2)(n − 3) D(gˆ2 ) = (n + 1)2 (n + 3)(n + 5) Pozn´ amka 3.2. Test výbˇerové ˇsikmosti a ˇspiˇcatosti STATISTICA nenab´ız´ı. Proto jej pˇrikl´ ad´ ame k této práci jako makro soubor pro doplnˇen´ı. V praxi se tento test pˇr´ıliˇs neosvedˇcil, protoˇze s rostouc´ım poˇctem dat je velmi pˇr´ısný. Data testovaná pomoc´ı jiných nástroj˚ u, která oznaˇcujeme na základˇe výsledk˚ u tˇechto nástroj˚ u jako normáln´ı, jsou velmi ˇcasto prostˇrednictv´ım tohoto testu oznaˇcena jako data nesplˇ nuj´ıc´ı normalitu.

17

3.4

Ovˇ eˇ ren´ı homogenity v´ ybˇ eru

Homogenn´ı v´ ybˇer znamená, ˇze vˇsechny jeho prvky Xi , i = 1, ..., n pocházej´ı ze stejného rozloˇzen´ı s konstantn´ım rozptylem σ 2 . Test˚ u a postup˚ u existuje celá ˇrada, my se vˇsak omez´ıme na pˇr´ıpad, kdy se v datech vyskytuj´ı tzv. vyboˇcuj´ıc´ı hodnoty (outlier). Tyto hodnoty se co do velikosti znaˇcnˇe liˇs´ı od ostatn´ıch dat a lze je rozpoznat v diagnostick´ ych grafech. Odlehlá mˇeˇren´ı silnˇe zkresluj´ı zejména rozptyl. Ovˇeˇrován´ı vyboˇcuj´ıc´ıch hodnot je vˇsak dosti komplikované a je zaloˇzeno na mnoha zidealizovan´ ych pˇredpokladech. Jednoduchou technikou, kdy se pouze pˇredpokládá, ˇze ostatn´ı data maj´ı normáln´ı rozloˇzen´ı, je tzv. modifikace doln´ı vnitˇrn´ı hradby BD a horn´ı vnitˇrn´ı hradby BH : BD = x˜0,25 − K(˜ x0,75 − x˜0,25 ), BH = x˜0,75 + K(˜ x0,75 − x˜0,25 ) Parametr K se vol´ı tak, aby pravdˇepodobnost P (n, K) byla dostateˇcnˇe vysoká, nejˇcastˇeji 0,95. Pravdˇepodobnost P (n, K) zde vyjadˇruje, ˇze ˇzádn´ y prvek z daného v´ ybˇeru a daného rozloˇzen´ı nebude mimo vnitˇrn´ı hradby [BD , BH ] s pravdˇepodobnost´ı 95%. Pˇri volbˇe P (n, K) = 0, 95 lze v rozmez´ı 8 ≤ n ≤ 100 pouˇz´ıt aproximace 3, 6 K ≈ 2, 25 − . Pro takto urˇcen´ y parametr K se vˇsechny prvky v´ ybˇeru, n leˇz´ıc´ı mimo hradby, povaˇzuj´ı za vyboˇcuj´ıc´ı. V´ yhodou je robustnost postupu.

18

Kapitola 4 Diagnostick´ e grafy Diagnostické grafy slouˇz´ı pˇredevˇs´ım k rychlému a citlivému posouzen´ı povahy dat. Na jejich základˇe se vyb´ıraj´ı dalˇs´ı postupy zpracován´ı tˇechto dat pomoc´ı statistické anal´ yzy. Pro jejich tvorbu budeme pouˇz´ıvat program STATISTICA. Ten umoˇzn ˇuje tvorbu vˇsech nejd˚ uleˇzitˇejˇs´ıch diagnostick´ ych graf˚ u uveden´ ych n´ıˇze.

Z´ akladn´ı sezn´ amen´ı s programem STATISTICA • Uˇzivatelské prostˇred´ı je velmi podobné tabulkovému procesoru MS Excel, velmi podobná a v ˇradˇe pˇr´ıpad˚ u stejná je pˇredevˇs´ım práce s daty (zakládán´ı soubor˚ u, kop´ırován´ı a pˇremist’ován´ı oblast´ı, apod.). Zaˇc´ınaj´ıc´ı uˇzivatel snadno pochop´ı základn´ı funkce programu. Pracovn´ı okno (tabulka dat) je ˇclenˇeno do s´ıtˇe bunˇek (podobné napˇr´ıklad MS Excelu). Jednotlivé sloupce jsou tzv. promˇenné (pro nás jednotlivé náhodné v´ ybˇery), ˇrádky pak znaˇc´ı jednotlivé pˇr´ıpady promˇenn´ ych (pro nás ˇc´ıselné realizace náhodn´ ych v´ ybˇer˚ u - data). • Dvojklikem na promˇennou lze nastavit nˇekteré vlastnosti promˇenné jako je název, typ dat a dlouh´ y název, do kterého je moˇzné zadat funkce vztahuj´ıc´ı se k dané promˇenné. Prav´ ym poklikán´ım na záhlav´ı promˇenné pak m˚ uˇzeme upravovat rozmˇer tabulky. • Vˇsechny d˚ uleˇzité nástroje se nacházej´ı v menu. Nejd˚ uleˇzitˇejˇs´ı záloˇzky jsou Statistika (statistické v´ ypoˇcty) a Grafy (grafická anal´ yza). Pro veˇskeré anal´ yzy je spoleˇcné to, ˇze je nutno zadat promˇenné, pro nˇeˇz se má pˇr´ısluˇsná anal´ yza provádˇet. Proto se v kaˇzdém dialogovém oknˇe procedury vyskytuje tlaˇc´ıtko ”Promˇenné.” Kaˇzdé dialogové okno procedury obsahuje nˇekolik záloˇzek, ve kter´ ych si vol´ıme rozˇs´ıˇrené moˇznosti procedury. 19

• Práce s daty, v´ ystupy procedur, protokolován´ı v´ ysledk˚ u a závˇer˚ u a programován´ı dodateˇcn´ ych funkc´ı prob´ıhá ve ˇctyˇrech uˇzivatelsk´ ych rozhran´ıch. a) Samotná práce s daty se provád´ı v tzv. tabulce dat. b) V´ ysledky jednotliv´ ych procedur jsou pˇrehlednˇe ukládány v podobˇe tabulek a graf˚ u do tzv. pracovn´ıch seˇsit˚ u v hierarchické struktuˇre odpov´ıdaj´ıc´ı postupu provádˇen´ ych anal´ yz. Pracovn´ı seˇsit je rozdˇelen na dvˇe ˇcásti. V levé ˇca´sti lze pˇrep´ınat mezi jednotliv´ ymi v´ ysledky procedur, v pravé pak nalezneme konkrétn´ı tabulky a grafy námi zvolené procedury. Jinou moˇznost´ı je ukládán´ı tabulek popˇr´ıpadˇe graf˚ u do samostatn´ ych oken. Jednotlivé v´ ystupy tedy nebudou pˇrehlednˇe uloˇzeny v jednom pracovn´ım seˇsitˇe, ale ménˇe pˇrehlednˇe ve spoustˇe d´ılˇc´ıch oken. V´ yhodou je snadn´ y export, jak je uvedeno n´ıˇze. c) Ukládán´ı v´ ysledk˚ u a v´ ystup˚ u do formálnˇe pˇrijatelnˇejˇs´ı podoby nab´ız´ı tzv. protokol, jenˇz je ˇreˇsen obdobnˇe jako pracovn´ı seˇsit (hierarchick´ ym uspoˇra´dán´ım v´ ystup˚ u mezi nimiˇz je moˇzno pˇrep´ınat v podlouhlém oknˇe v levé ˇcásti a konkrétn´ı v´ ystupy procedur v pravé ˇca´sti). Na rozd´ıl od pracovn´ıho seˇsitu jsou tabulky a grafy v protokolu uloˇzeny ve formˇe obrázk˚ u. V´ yhoda protokolu tkv´ı v moˇznosti vepisovat do jednotliv´ ym v´ ysledk˚ u procedur své vlastn´ı komentáˇre, poznámky a závˇery. d) STATISTICA samozˇrejmˇe nem˚ uˇze obsáhnout vˇsechny funkce, se kter´ ymi r˚ uznorod´ı uˇzivatelé pracuj´ı. K tvorbˇe specifick´ ych, na ” tˇelo“ vytvoˇren´ ych funkc´ı slouˇz´ı programovac´ı prostˇred´ı STATISTICA Visual Basic, kde m˚ uˇzeme pomoc´ı standardn´ıho programovac´ıho jazyka Visual Basic a za pomoci vˇsech definovan´ ych funkc´ı v rámci STATISTIKY vytvoˇrit pˇresnˇe takovou funkci, jakou poˇzadujeme. Program se ukládá jako makro, obdobnˇe jako v MS Ex´ stroje / cel. Veˇskeré operace s makry se provádˇej´ı v Menu Na Makra. Jako základn´ı je nastaveno ukládán´ı v´ ystup˚ u do pracovn´ıho seˇsitu, os´ stroje / Moˇ tatn´ı zmiˇ nované moˇznosti lze nastavit v nab´ıdce Na znosti na záloˇzce Správce v´ ystup˚ u.“ ” • Program STATISTICA umoˇzn ˇuje snadn´ y import dat z MS Excelu. Staˇc´ı si tedy pˇripravit pracovn´ı soubor v tomto tabulkovém procesoru a poté jej naimportovat do systému STATISTICA pomoc´ı menu ˇ´ıt / v dialogovém oknˇe Otevˇr´ıt vybereme v poli Soubor / Otevr Soubory typu“ poloˇzku Excel soubory (*.xls)“ a zvol´ıme námi poˇzadovan´ y ” ” 20

soubor / v´ ybˇer potvrd´ıme tlaˇc´ıtkem Otevˇr´ıt. T´ım se spust´ı pr˚ uvodce importem, kter´ y nás jiˇz dál navede. STATISTICA také podporuje zpˇetn´ y export dat do MS Excelu. Lze vˇsak exportovat pouze po jednotliv´ ych listech seˇsitu (tedy po jednotliv´ ych tabulkách resp. grafech). Proto pokud nemáme tabulku (graf) v samostatném oknˇe je nutné ji nejdˇr´ıve extrahovat z pracovn´ıho seˇsitu. Zvol´ıme si pˇr´ısluˇsnou tabulku (graf) v levé ˇca´sti okna a klikneme na nˇej prav´ ym tlaˇc´ıtkem myˇsi, ˇc´ımˇz vyvoláme nab´ıdku, zvolme pˇr´ıkaz Ex´ okno / Origina ´l (Kopie). Zvol´ıme-li trahovat jako samostatne jako Originál“ bude tabulka (graf) vyjmuta. Export se provád´ı po” moc´ı menu Soubor / Uloˇ zit jako. Dalˇs´ı postup je podobn´ y importu. Pracujeme-li s protokolem, provád´ıme export standardn´ımi postupy práce se schránkou (oznaˇcován´ı do bloku, kop´ırovat, vyjmout, vloˇzit). Takto je moˇzné exportovat data napˇr´ıklad do MS Word.

4.1

Krabicov´ y graf (Box plot)

Popis grafu : Umoˇzn ˇuje posouzen´ı robustn´ıho odhadu mediánu, dále posoudit symetrii a variabilitu datového souboru a odlehl´ ych ˇci extrémn´ıch hodnot U krabicového grafu definujeme tzv. hradby: Doln´ı vnitˇrn´ı hradba - x0,25 − 1, 5q Horn´ı vnitˇrn´ı hradba - x0,75 + 1, 5q Doln´ı vnˇejˇs´ı hradba - x0,25 − 3q Horn´ı vnitˇrn´ı hradba - x0,75 + 3q Krabicov´ y graf je tedy obdéln´ık o v´ yˇsce x0,75 − x0,25 Odlehlá hodnota - hodnota, která leˇz´ı mezi vnitˇrn´ımi a vnˇejˇs´ımi hradbami Extrémn´ı hodnota - hodnota, která leˇz´ı za vnˇejˇs´ı hradbou Konstrukce grafu : √ osa x - interval velikosti n osa y - hodnoty x1 , . . . , xn Uˇ zit´ı : Pomáhá odhalit vyboˇcuj´ıc´ı a extrémn´ı hodnoty v datovém souboru Pˇ r´ıklad 4.1. Pro realizace náhodného výbˇeru xi rozsahu n = 50 sestrojte krabicový graf. Postup ve Statistice : ´ grafy 1. Menu Grafy / 2D Grafy / Krabicove

21

2. Zvol´ıme, pro které promˇenné chceme graf vytvoˇrit a zda je vykreslovat do jednoho nebo v´ıce obrázk˚ u - OK Interpretace graf˚ u: Obrázek 4.1 vyobrazuje box ploty pro 3 r˚ uzné náhodné výbˇery. Z box plot˚ u m˚ uˇzeme vyˇc´ıst r˚ uzné zeˇsikmen´ı dat, napˇr´ıklad v ˇc´ asti [1] jsou data výraznˇe zeˇsikmen´ a k niˇzˇs´ım hodnotám. V grafu se to projevuje posunut´ım medi´ anu (horizontáln´ı ˇc´ ara v obdéln´ıku vymezeném horn´ım a doln´ım kvartilem) smˇerem dol˚ u k doln´ımu kvartilu. Dále je z grafu patrné, ˇze se v datech objevuj´ı hodnoty odlehlé i extrémn´ı (ˇc´ ast [1], [3]), které znaˇcnˇe ovlivˇ nuj´ı celý test normality. Z tvaru box plotu lze pak soudit o symetrii rozloˇzen´ı. V ˇc´ asti [2] je velmi pravdˇepodobnˇe graf reprezentuj´ıc´ı data z normáln´ıho rozloˇzen´ı nejen d´ıky své symetrii, ale také polohou medi´ anu, která leˇz´ı takˇrka v u ´plném prostˇredku obdéln´ıku. Pro ovˇeˇren´ı hodnota aritmetického pr˚ umˇeru x = −1, 32 je velmi bl´ızk´ a medi´ anu x0,5 = −1.

Obrázek 4.1: Krabicové grafy pro r˚ uznˇe zeˇsikmen´ ych rozloˇzen´ı

4.2

Histogram

Definice 4.1 (Histogram). Histogram je graf, který zobrazuje relativn´ı ˇcetnost tˇr´ıdic´ıho intervalu (uj , uj+1 i obsahem obdéln´ıku, sestrojeného nad t´ımto intervalem. Výˇska obdéln´ıku tedy vyjadˇruje hustotu ˇcetnosti v j-tém tˇr´ıdic´ım intervalu. (viz. [2]) 22

Pozn´ amka 4.1. Ve smyslu této definice program Statistica histogram nenab´ız´ı. Statistica na osu y vynáˇs´ı absolutn´ı ˇci relativn´ı ˇcetnosti tˇr´ıdic´ıch interval˚ u (uj , uj+1 i ˇci variant x[j] , kde j = 1, . . . , r. Popis grafu : Histogram je nejjednoduˇsˇs´ım odhadem hustoty rozloˇzen´ı. Lze téˇz porovnat tvar hustoty ˇcetnosti s tvarem hustoty pravdˇepodobnosti vybraného teoretického rozloˇzen´ı. Konstrukce grafu : osa x - tˇr´ıdic´ı intervaly osa y - odpov´ıdaj´ıc´ı ˇcetnosti Nejˇcastˇeji se poˇcet tˇr´ıd´ıc´ıch interval˚ u urˇcuje pomoc´ı vztahu l = int(2 ln(N ))

nebo

√ l = int(2 N ),

kde int(x) je celoˇc´ıselná ˇcást ˇc´ısla x. Uˇ zit´ı : Pouˇz´ıvá se k odhadu hustoty rozloˇzen´ı a grafickému znázornˇen´ı rozdˇelen´ı ˇcetnosti. Pˇ r´ıklad 4.2. U 20 pozorovaných domácnost´ı byl zjiˇst’ov´ an poˇcet rodinných pˇr´ısluˇsn´ık˚ u. Znázornˇete rozdˇelen´ı ˇcetnost´ı ˇclen˚ u domácnosti pomoc´ı histogramu. Postup ve Statistice : 1. Menu Grafy / 2D Grafy / Histogramy 2. Zvol´ıme, pro které promˇenné chceme graf vytvoˇrit a zda je vykreslovat do jednoho nebo v´ıce obrázk˚ u - OK Interpretace grafu : Obrázek 4.2 znázorˇ nuje rozdˇelen´ı ˇcetnost´ı poˇctu ˇclen˚ u 20 pozorovaných domácnost´ı. Z grafu plyne, ˇze nejˇcastˇeji byly domácnosti sloˇzeny ze 4 ˇclen˚ u, a to hned v pˇeti pˇr´ıpadech. Naopak 8 ˇclen˚ u bylo zpozorov´ ano pouze u jediné domácnosti jako výrazný extrém.

23

Obrázek 4.2: v domácnosti

Grafické

znázornˇen´ı rozdˇelen´ı ˇcetnost´ı poˇctu

ˇclen˚ u

Pozn´ amka 4.2. V pˇr´ıpadech, kdy kaˇzd´ a hodnota je ve výbˇerovém souboru (datech) jedineˇcn´ a nebo jen zanedbatelnˇe v´ıcekr´ at se vyskytuj´ıc´ı vzhledem k rozsahu dat, je vhodné setˇr´ıdit tyto data do urˇcitých interval˚ u a z nich poté vytváˇret histogram, znázorˇ nuj´ıc´ı ˇcetnosti dat. Program STATISTICA samozˇrejmˇe nab´ız´ı volbu takového postupu. Histogram, znázorˇ nuj´ıc´ı ˇcetnosti, je grafickým znázornˇen´ım (obdobou) tzv. tabulky ˇcetnost´ı. Intervaly proto ˇ i ve STATISTICE vytváˇr´ıme pˇres TABULKY CETNOST I´ a to v: ´ kladn´ı statistiky a tabulky / Tabulky c ˇetnost´ı Menu Statistika / Za Dané intervaly m˚ uˇzeme definovat na kartˇe ”Detaily” dialogového okna pro tvorbu tabulek ˇcetnost´ı (viz obrázek 4.3) tˇremi zp˚ usoby: 1. Zadán´ı pˇresného poˇctu interval˚ u“ - nedostatkem této tvorby interval˚ u ” je, ˇze prvn´ı interval m˚ uˇze m´ıt zápornou doln´ı mez i pˇres to, ˇze se v datech ˇz´ adné záporné hodnoty nevyskytuj´ı. 2. Tvorba pˇekných zaokrouhlených interval˚ u“ odstraˇ nuje pˇredchoz´ı ne” dostatek, ale nahrazuje jej jiným. Posledn´ı interval bude vˇzdy s nulovou ˇcetnost´ı. 3. Stejného výsledku jako 2. lze dosáhnout i stanoven´ım velikosti kroku ” intervalu.“ Zde se zadáv´ a minimáln´ı, tedy doln´ı mez poˇc´ ateˇcn´ıho intervalu a dále velikost kroku (ˇs´ıˇre intervalu).

24

Obrázek 4.3: Záloˇzka ”Detaily” v dialogovém oknˇe Tabulky ˇcetnost´ı

Vybaveni pˇr´ısluˇsnými intervaly ˇcetnosti m˚ uˇzeme pˇristoupit ke konstrukci histogramu reflektuj´ıc´ıho námi definované intervaly a to pˇr´ımo na kartˇe De” taily.“ Výsledkem bude histogram zobrazený na obrázku 4.4, který udáv´ a kolik domácnost´ı je v daných intervalech. Velkou nevýhodou tohoto postupu je bezesporu nemoˇznost proloˇzen´ı histogramu kˇrivkou hustoty normáln´ıho rozloˇzen´ı.

Obrázek 4.4: Intervalové ˇcetnosti poˇctu ˇclen˚ u domácnost´ı pomoc´ı histogramu

25

Pˇ r´ıklad 4.3. Pro realizace náhodného výbˇeru xi rozsahu n = 50 odhadnˇete pomoc´ı histogramu, zda rozloˇzen´ı náhodného výbˇeru odpov´ıd´ a normáln´ımu. Postup ve Statistice : 1. Menu Grafy / 2D Grafy / Histogramy 2. Zvol´ıme, pro které promˇenné chceme graf vytvoˇrit a zda je vykreslovat do jednoho nebo v´ıce obrázk˚ u - OK Interpretace grafu : Z obrázku 4.5 lze pˇredpokládat, ˇze data poch´ azej´ı z normáln´ıho rozloˇzen´ı. Histogram se vˇsak pˇr´ıliˇs ˇcasto k odhadu rozloˇzen´ı nepouˇz´ıv´ a, proto je potˇreba ovˇeˇrit normalitu jeˇstˇe nˇekterým z jiných prostˇredk˚ u pr˚ uzkumové analýzy.

Obrázek 4.5: Histogram proloˇzen´ y hustotou normáln´ıho rozloˇzen´ı

4.3

Kvantilovˇ e-kvantilov´ y graf (Q-Q plot)

Popis grafu : Umoˇzn ˇuje posoudit, zda datov´ y soubor pocház´ı z nˇejakého známého rozloˇzen´ı Konstrukce grafu : j−r , radj a nadj jsou koosa x - kvantily xαj vybraného rozloˇzen´ı, kde α = n+nadj adj riguj´ıc´ı faktory ≤ 0, 5, implicitnˇe radj = 0, 375 a nadj = 0, 25. Jsou-li nˇekteré hodnoty x1 ≤ ... ≤ xn stejné, bereme za j jejich pr˚ umˇerné poˇrad´ı stejné skupiny hodnot osa y - uspoˇra´dané hodnoty x1 ≤ ... ≤ xn 26

Uˇ zit´ı : Z tvaru Q-Q grafu se dá posoudit symetrie, normalita, ˇspiˇcatost a homogenita v´ ybˇeru. Hlavn´ı vyuˇzit´ı nacház´ı v posouzen´ı normality datového souboru. V pˇr´ıpadˇe, ˇze zvolen´ ym rozloˇzen´ım je normáln´ı rozloˇzen´ı, naz´ yvá se Q-Q graf - rankitový graf Pˇ r´ıklad 4.4. Pomoc´ı kvantilovˇe-kvantilového grafu posud’te, zda realizace náhodného výbˇeru xi rozsahu n = 50 poch´ az´ı z normáln´ıho rozloˇzen´ı. Postup ve Statistice : 1. Menu Grafy / 2D Grafy / Grafy typu Q-Q 2. Zvol´ıme, pro které promˇenné chceme graf vytvoˇrit - OK Interpretace graf˚ u: 1. Z obrázku 4.6 lze jasnˇe usoudit, ˇze data nepoch´ azej´ı z normáln´ıho rozloˇzen´ı. Body v grafu neleˇz´ı na pˇr´ımce, leˇz´ı vˇsak na jednoduché celkem hladké kˇrivce bez výrazných zlom˚ u a nehomogenit, z ˇcehoˇz lze usoudit, ˇze data poch´ azej´ı z jediného (asymetrického) rozloˇzen´ı (jsou homogenn´ı). Jsou nav´ıc kladnˇe zeˇsikmen´ a, protoˇze jde o konvexn´ı kˇrivku. Z toho plyne, ˇze pouˇzit´ı aritmetického pr˚ umˇeru jako odhadu stˇredn´ı hodnoty by bylo nesprávné. V takovýchto pˇr´ıpadech je lepˇs´ı uˇz´ıt medi´ an (v tomto pˇr´ıpadˇe je aritmetický pr˚ umˇer x = 3, 819 a medi´ an x0,5 = 2, 125). Pokud jsou data homogenn´ı, lze s nimi v rámci pr˚ uzkumové analýzy dat dále pracovat pˇri pouˇzit´ı nˇekteré transformace. Z obrázku je také patrnˇe, ˇze se v datech vyskytuje odlehlá hodnota (tzv. outlier - [1]). V nˇekterých pˇr´ıpadech je test normality silnˇe ovlivnˇen pˇr´ıtomnost´ı vyboˇcuj´ıc´ıch hodnot. V pˇr´ıpadˇe, ˇze se opravdu jedn´ a o vyboˇcuj´ıc´ı hodnoty, lze je v dalˇs´ım testu normality vypustit za u ´ˇcelem dosaˇzen´ı potˇrebné normality.

27

Obrázek 4.6: Q-Q graf pro homogenn´ı kladnˇe zeˇsikmená data

2. Obrázek 4.7 ukazuje Q-Q graf pro data poch´ azej´ıc´ı z normáln´ıho rozloˇzen´ı. Tato data obsahuj´ı téˇz jednu odlehlou hodnotu, která je velmi významn´ a v klasických testech normality, zaloˇzených na testován´ı hypotéz. Nejen Q-Q graf, ale obecnˇe diagnostické grafy pom´ ahaj´ı citlivˇe posoudit, zda jde o data z normáln´ıho rozloˇzen´ı, ve kterých pouze figuruj´ı odlehlé hodnoty ˇci nikoliv.

Obrázek 4.7: Q-Q graf pro homogenn´ı kladnˇe zeˇsikmená data

u (dat) 3. Obrázek 4.8 je zˇrejmˇe tˇreba povaˇzovat za smˇes dvou výbˇer˚ z r˚ uzných rozloˇzen´ı. D˚ uvodem je výrazný zlom a mezera mezi hodnotami oznaˇcený ˇsipkou. Stˇredn´ı hodnota by velmi pravdˇepodobnˇe vyˇsla 28

v m´ıstˇe, kde ˇz´ adn´ a data nejsou a rozptyl by byl pˇr´ıliˇs velký. V tomto pˇr´ıpadˇe by bylo zˇrejmˇe lepˇs´ı rozdˇelit výbˇer na dvˇe ˇc´ asti a analyzovat ’ kaˇzdou zvláˇst .

Obrázek 4.8: Q-Q graf blabla

4.4

Pravdˇ epodobnostn´ı graf (P-P plot)

Popis grafu : Pravdˇepodobnostn´ı grafy jsou alternativou ke Q-Q graf˚ um, slouˇz´ı ke stejn´ ym u ´ˇcel˚ um, ale jinak se konstruuj´ı. Konstrukce grafu : Nejprve se spoˇctou standardizované hodnoty: zj =

xj − x , s

kde x je realizace v´ ybˇerového pr˚ umˇeru a s je realizace v´ ybˇerové smˇerodatné odchylky. osa x - hodnoty teoretické distribuˇcn´ı funkce Φ(zj ) osa y - hodnoty empirické distribuˇcn´ı funkce F (zj ) = j/n Pokud se hodnoty (Φ(zj ), F (zj )) soustˇred’uj´ı kolem hlavn´ı diagonály ˇctverce h0, 1i × h0, 1i, lze usuzovat na dobrou shodu teoretického a empirického rozloˇzen´ı. Jsou-li nˇekteré hodnoty x1 ≤ ... ≤ xn stejné, bereme za j jejich pr˚ umˇerné poˇrad´ı. Uˇ zit´ı : K porovnán´ı poˇradové pravdˇepodobnosti teoretické distribuˇcn´ı funkce a distribuˇcn´ı funkce v´ ybˇeru, tzn. k urˇcen´ı z jakého rozloˇzen´ı data pocházej´ı 29

Pˇ r´ıklad 4.5. Mˇejme realizace náhodného výbˇeru xi rozsahu n = 50. Pomoc´ı P-P grafu zkuste odhadnout, z jakého rozloˇzen´ı poch´ az´ı. Postup ve Statistice : 1. Menu Grafy / 2D Grafy / P-P grafy 2. Zvol´ıme, pro které promˇenné chceme graf vytvoˇrit a se kterým rozloˇzen´ım chceme data porovn´ avat - OK Interpretace graf˚ u: 1. Jako prvn´ı zvol´ıme porovn´ an´ı s normáln´ım rozloˇzen´ım. Z obrázku 4.9 je jasnˇe patrné, ˇze data nepoch´ azej´ı z normáln´ıho rozloˇzen´ı.

Obrázek 4.9: P-P graf, kter´ y porovnává daná data s normáln´ım rozloˇzen´ım

2. Pˇristoup´ıme tedy k porovn´ an´ı s jiným rozloˇzen´ım, v naˇsem pˇr´ıpadˇe s exponenci´ aln´ım. Obrázek 4.10 odhaluje, ˇze by data mohla poch´ azet z exponenci´ aln´ıho rozloˇzen´ı. Co, ale m˚ uˇzeme s jistotou ˇr´ıc´ı je, ˇze data budou kladnˇe zeˇsikmen´ a právˇe z d˚ uvodu, ˇze je pravdˇepodobné, ˇze poch´ azej´ı z exponenci´ aln´ıho rozloˇzen´ı.

30

Obrázek 4.10: P-P graf porovnáváj´ıc´ı daná data s exponenciáln´ım rozloˇzen´ım

4.5

Norm´ aln´ı pravdˇ epodobnostn´ı graf (N-P plot)

Popis grafu : Umoˇzn ˇuje graficky posoudit, zda data pocházej´ı z normáln´ıho rozloˇzen´ı Konstrukce grafu : osa x - uspoˇra´dané hodnoty x1 ≤ ... ≤ xn 3j−1 osa y - kvantily uαj , kde αj = 3n+1 , pˇriˇcemˇz j je poˇrad´ı j -té uspoˇra´dané hodnoty. Uˇ zit´ı : Grafické posouzen´ı normality dat Pozn´ amka 4.3. Poch´ azej´ı-li data z normáln´ıho rozloˇzen´ı, pak vˇsechny dvojice (x(j) , uαj ) budou leˇzet na pˇr´ımce. Pozn´ amka 4.4. Pro data z rozloˇzen´ı s kladnou ˇsikmost´ı se budou dvojice (x(j) , uαj ) ˇradit do konkávn´ı kˇrivky. Pozn´ amka 4.5. Pro data z rozloˇzen´ı se zápornou ˇsikmost´ı se budou dvojice (x(j) , uαj ) ˇradit do konvexn´ı kˇrivky. Pˇ r´ıklad 4.6. Mˇejme realizace náhodného výbˇeru xi rozsahu n = 50. Pomoc´ı N-P grafu zjistˇete zda data vykazuj´ı známky normality.

31

Postup ve Statistice : 1. Menu Grafy / 2D Grafy / N-P grafy 2. Zvol´ıme, pro které promˇenné chceme graf vytvoˇrit - OK Interpretace graf˚ u: Podle povahy dat obdrˇz´ıme r˚ uzné grafy, jak jiˇz bylo zm´ınˇeno v pozn´ amce: 1. Na obrázku 4.11 lze vidˇet ˇze dvojice (x(j) , uαj ) témˇeˇr leˇz´ı na pˇr´ımce, ˇ m˚ uˇzeme tedy usoudit, ˇze data poch´ azej´ı z normáln´ıho rozloˇzen´ı. Sikmost tˇechto dat je gˆ1 = −0, 0149 coˇz se velmi bl´ıˇz´ı ˇsimosti teoretického normáln´ıho rozloˇzen´ı, které má hodnotu 0.

Obrázek 4.11: N-P graf pro data vykazuj´ıc´ı známky normality

2. Na obrázku 4.12 vid´ıme, ˇze se data ˇrad´ı do konkávn´ı kˇrivky a jsou ˇ tedy kladnˇe zeˇsikmen´ a. Sikmost dosahuje výr´ aznˇe vysoké hodnoty gˆ1 = 3, 000752. Velmi výraznou ˇsikmost´ı (gˆ1 (exp) = 2) se vyznaˇcuje napˇr´ıklad exponenci´ aln´ı rozloˇzen´ı. Data tedy v ˇz´ adném pˇr´ıpadˇe nesplˇ nuj´ı podm´ınku normality.

32

Obrázek 4.12: N-P graf pro kladnˇe zeˇsikmená data

3. Na obrázku 4.13 vid´ıme, ˇze se data ˇrad´ı do konvexn´ı kˇrivky a jsou tedy ˇ zápornˇe zeˇsikmen´ a. Sikmost dat je gˆ1 = −3, 48249 coˇz jednoznaˇcnˇe ukazuje, ˇze data nemohou poch´ azet z normáln´ıho rozloˇzen´ı.

Obrázek 4.13: N-P graf pro zápornˇe zeˇsikmená data

33

Dodatek A Test v´ ybˇ erov´ eˇ sikmosti a ˇ spiˇ catosti - zdrojov´ y k´ od Sub Main Dim Matrix() As Double Dim Mean As Double ’prumer Dim Dim Dim Dim

Pom1 Pom2 Pom3 Pom4

As As As As

Double Double Double Double

Dim Dim Dim Dim Dim

Skewness As Double ’sikmost Kurtosis As Double ’spicatost EKurtosis As Double ’stredni hodnota spicatost DSkewness As Double ’rozptyl sikmost DKurtosis As Double ’rozptyl spicatost

Dim Chi square As Double ’vysledna hodnota testovaci statistiky Dim Chi kvantile As Double ’porovnavaci teoreticky kvanitl Dim alpha As Double ’hladina vyznamnosti alpha Dim pval As Double ’p hodnota pocitana z distribucni funkce Dim i As Integer ’pomocna promenna pro cyklus for Dim UserInput As String Dim M As MatrixObject ’definice matice Set M = MatrixObject

34

Cols = ActiveSpreadsheet.NumberOfVariables Rows = ActiveSpreadsheet.NumberOfCases ReDim Preserve Matrix(Rows, Cols) As Double Matrix = ActiveSpreadsheet.Data UserInput = InputBox(”Zadejte hladinu v´ yznamnosti alpha, na které chcete testovat normalitu dat”,”Hladina v´ yynamnosti alpha”) alpha = 1 - CDbl(UserInput) Chi kvantile = VChi2(alpha,2) MsgBox( ”Hodnota vypoˇcteného teoretického kvantilu z Vámi zvolené hladiny v´ yznamnosti alpha je :” + vbCr + vbCr &CStr( Chi kvantile ) ) Mean = 0 For i = 1 To Rows Mean = Mean + Matrix( i, 1 ) Next i Mean = Mean / Rows Pom1 = 0 For i = 1 To Rows Pom1 = (Matrix(i,1)-Mean) Pom2 = Pom2 + Pom1 * Pom1 Pom3 = Pom3 + Pom1 * Pom1 * Pom1 Pom4 = Pom4 + Pom1 * Pom1 * Pom1 * Pom1 Next i Kurtosis = ((Rows*Pom4) / (Pom2*Pom2)) - 3 Skewness = Sqrt( Rows ) * Pom3 / Sqrt( Pom2 * Pom2 * Pom2 ) DSkewness = 6*(Rows-2) / ((Rows+1)*(Rows+3)) DKurtosis = 24*Rows*(Rows-2)*(Rows-3)/((Rows+1)*(Rows+1)*(Rows+3)*(Rows+5)) EKurtosis = 3 - 6/(Rows+1) Chi square = Skewness*Skewness / DSkewness Chi square = Chi square + (Kurtosis-EKurtosis)*(Kurtosis-EKurtosis)/DKurtosis If Chi square > Chi kvantile Then MsgBox( ”Data nepocházej´ı z normáln´ıho rozloˇzen´ı” + vbCr + vbCr & CStr( Chi square ) & ” > ” & CStr( Chi kvantile ) + vbCr + vbCr

35

& ”Hypotézu normality dat zam´ıtáme na hladinˇe v´ yznamnosti” & CStr( 1 - alpha )) Else MsgBox( ”Data vykazuj´ı znaky normality” + vbCr + vbCr & CStr(Chi square) & ” < ” & CStr( Chi kvantile ) + vbCr + vbCr & ”Hypotézu normality dat nelze zam´ıtnout na hladinˇe v´ yznamnosti” & CStr( 1 - alpha )) End If pval = 1 - IChi2(Chi square, 2) MsgBox (”p-hodnota je :” + vbCr & CStr(pval), ”p-hodnota”) If Chi square < Chi kvantile Then If pval > (1-alpha) Then MsgBox( ”P-hodnota je vˇetˇs´ı neˇz alpha, proto hypotézu o normalitˇe dat nelze zam´ıtnout a hypotéze H0 tedy lze vˇeˇrit ” ) Else MsgBox( ”P-hodnota je menˇs´ı nebo rovna alpha, proto hypotéze H0 nelze vˇeˇrit a zam´ıtáme ji”) End If End If End Sub Pozn´ amka A.1. Makro bylo naprogramov´ ano v pˇrostˇred´ı STATISTICA Visual Basic.

36

Literatura ˇ Z´ [1] Bud´ıková M., Lerch T., Mikoláˇs S.: akladn´ı statistické metody, Masarykova univerzita, 2005. ˇ Popisn´ [2] Bud´ıková M., Oseck´ y P., Mikoláˇs S.: a statistika, Masarykova univerzita, 1998. [3] Kupka K.: Statistické ˇr´ızen´ı jakosti, TriloByte, 1997. [4] Meloun M., Militk´ y J.: Kompendium statistického zpracov´ an´ı dat, Academia, 2002. y J.: Statistické zpracov´ an´ı experiment´ aln´ıch dat, East [5] Meloun M., Militk´ Publishing, 1998. [6] StatSoft: STATISTICA for Windows, StatSoft, Inc., 2000. ˇ epán J.: Pravdˇepodobnost a matematická statistika, [7] Zvára K., Stˇ MATFYZPRESS, 2002.

37

Jaroslav Schulz Diagnostické grafy v programu STATISTICA

Recommend Documents