11. Popisná statistika 11.1. Poznámka: Při statistickém zkoumání nás zajímají hromadné jevy a procesy, u kterých zkoumáme zákonitosti, které se projevují u velkého počtu prvků. Prvky zkoumání nazýváme statistické jednotky. Při zkoumání používáme dva základní druhy statistiky, popisnou statistiku a interferenční statistiku. Popisná statistika zjišťuje a sumarizuje informace, zpracovává je ve formě grafů a tabulek a vypočítává jejich číselné charakteristiky jako průměr, rozptyl percentily, rozpětí a pod. Interferenční statistika činí závěry na základě dat získaných z šetření provedených pro vybraný soubor respondentů. Analyzuje tyto závěry a predikuje z nich závěr pro celý soubor. (Volební průzkum a pod.) Pozorovaním nebo měřením hodnot zkoumané veličiny na několika statistických jednotkách získáme vstupní data. Soubor získaných údajů nazýváme datový soubor. Tento soubor je jednorozměrný, jestliže sledujeme jeden znak, nebo vícerozměrný, pokud sledujeme více znaků. Při statistickém šetření máme k dispozici: - základní soubor je soubor všech statistických jednotek; - výběrový soubor je vybraná část ze základního souboru. Rozsah základního (výběrového) souboru je počet jednotek v souboru. Při vytváření souboru jednotek provádíme výběr ve tvaru prostého náhodého výběru. 11.2. Definice: Prostý náhodný výběr je náhodný výběr ze základního souboru vytvořený tak, že: - jednotlivé prvky výběru jsou nezávislé; - výběr je homogenní, tj. všechny hodnoty pocházejí ze stejného rozdělení; - každý prvek ze základního souboru má stejnou pravděpodobnost, že bude vybrán. Popisná statistika Vlastnosti statistických jednotek, které se pro jednotlivé jednotky mění nazýváme statistické znaky příp. proměnné nebo veličiny. Vyskytují se veličiny: - kvantitativní, popsané číselnou hodnotou (výška, váha, cena); - kvalitativní, popsané vlastnostmi (muž, žena, barva očí, dosažené vzdělání). Kvalitativní veličiny mohou být diskrétní, nabývající hodnot ze zadané konečné množiny, nebo spojité, které nabývají hodnot ze zadaného intervalu. Zpracováváme-li datový soubor kvantitativních dat x 1 , x2 , . . . , x n , pak jej obvykle jej uspořádáme podle velikosti a dostaneme soubor dat tvaru x(1) ≤ x(2) . . . ≤ x(n) , kde x(1) = min{xi ; 1 ≤ i ≤ n}, x(n) = max{xi ; 1 ≤ i ≤ n}.
1
Metody zpracovaní dat 11.3. Třídění dat je rozdělení dat do skupin provedené ta, aby vynikly charakteristické vlastnosti sledovaných jevů. Uspořádáme a zhustíme data do přehlednější formy. Rozeznáváme: - jednostupňové třídění, jestliže třídíme data podle změn jednoho statistického znaku; - vícestupňové třídění, pokud provádíme třídění podle více znaků najednou. Nejčastěji při jednostupňovém třídění kvantitativních dat uspořádáme data podle velikosti a stanovíme intervaly, které odpovídají jednotlivým třídám. Mluvíme pak o intervalovém třídění. Máme-li datový soubor {x1 , x2 , . . . , xn }, který obsahuje celkem n prvků, pak interval mezi největší a nejmenší hodnotou rozdělíme na k disjunktních intervalů, tříd, tvaru (ai−1 , ai i. Potom prvek xj patří do i−té třídy, pokud je ai−1 < xj ≤ ai . Používáme následujících termínů a označení: - třída je část dat zařazená do jedné skupiny, třídy, interval hai−1 , ai ); - dolní hranice třídy je nejmenší hodnota, při které prvek do třídy patří, hodnota ai−1 ; - horní hranice třídy je největší hodnota, při které prvek do třídy patří, hodnota ai ; - střed třídy je průměr horní a dolní hranice třídy, yi = 12 (ai−1 + ai ); - šířka třídy je rozdíl horní a dolní hranice třídy, hodnota ai − ai−1 ; - (absolutní) četnost třídy ni je počet prvků souboru, které patří do třídy; - relativní četnost pi = nni je poměr četnosti třídy ku celkovému počtu dat; - kumulativní (absolutní) četnost Ni = n1 + n2 + . . . + ni je součet četnosti třídy a četností tříd předchozích; - kumulativní relativní četnost Pi = p1 + p2 + . . . + pi je součet relativních četnosti třídy a relativních četností tříd předchozích. Potom platí: k X
ni = n,
i=1
k X
pi = 1,
i=1 i X
i X
n j = Ni ,
j=1
pj = Pi , Nk = n, Pk = 1.
j=1
Při stanovení hranic tříd obvykle zachováváme tato dvě pravidla: - šířku třídy h volíme pro všechny intervaly shodnou, s vyjímkou krajních tříd pokud tvoří neomezené intervaly: - při stanovení šířky třídy h dodržujeme Sturgesovo pravidlo, kdy pro počet tříd k platí, . že k = 1 + 3, 3 log n. n k
5 10 20 40 50 100 200 1000 3 4 5 5 7 8 9 11
- pokud jsou krajní intervaly dělení neomezené, pak za střed první, resp. poslední třídy volíme bod, který má od konečného krajního bodu třídy stejnou vzdálenost jako má od středu sousední třídy. Při třídění kvalitativních dat postupujeme obdobně. Jenom místo intervalu tvoří třídu prvky, které mají stejný znak, nebo skupinu znaků. 2
11.4. Grafická znázornění Pro větší názornost používáme místo tabulek grafů. Používá se několika jejich typů. Histogram je graf kdy na vodorovnou osu znázorníme třídy a na svislou osu četnosti či relativní četnosti. Často se používá ve tvaru, kdy se hodnota odpovídající třídě znázorní jako sloupec s intervalem třídy jako základnou a výška je dána četností. Polygon četností a relativních četností je graf, kdy úsečkami spojíme body (yi , ni ), resp. (yi , pi ). Bodový graf dostaneme tak, že na vodorovnou osu vyneseme třídy jako body i, 1 ≤ i ≤ k, a ve svislém směru vynášíme jednotlivé prvky třídy znázorněné jako jednotlivé body (i, j), j = 1, 2, . . . ni . Sloupkový graf je podobný histogramu, ale sloupce bývají oddělené, mají stejnou šířku a každý sloupec odpovídá jedné třídě. Používáme je předeším u kvalitativních dat. Kruhový (výsečový) diagram je znázornění pomocí výsečí kruhu, kde každé třídě odpovídá jedna výseč. Velikosti obsahů výsečí odpovídajíčetnostem třídy. Stem-and-Leaf diagram je uspořádání dat do tabulky, kdy první sloupec -stem=stonek odpovídá třídě a do řádku -leaf=list vypisujeme prvky třídy. Pokud tyto prvky uspořádáme podle velikosti mluvíme o uspořádaném diagramu. 11.5. Příklad: Ze 7 možných výsledků jsme dostali datový soubor o 14 datech i xi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 2 1 3 2 5 2 7 1 4 5 4 2 1 5 Tab. 11.1. Datům odpovídá tabulka četností Tab. 11.2 a bodový graf na obrázku Obr. 11.1. třída četnost
1 2 3 4 5 6 7 3 4 1 2 3 0 1
Tab. 11.2 Histogram četností
•
4 3
•
•
2
•
•
1
•
•
1
• •
•
•
•
2 3 4 Obr. 11.1.
5
•
3
•
6
7
i
Polygon četností
•B
4
B
•
3
•
B B
B B
2
B
•
B
B
B
B B
B
•B
1
•
B B B B
1 2 3 Obr. 11.2.
4
5
6
i
7
Histogram 4 3 2 1
1
2 3 Obr. 11.3.
4
5
6
7
i
Sloupkový graf 4 3 2 1
i 2 3 4 5 6 7 Obr. 11.4. Řada vlastností datového souboru se dá vyčíst z tvaru histogranu či polygonu četností. Ty odpovídají grafu hustoty u rozdělení pravděpodobnosti náhodné veličiny. Rozlišuje se několik charakteristických průběhů těchto grafů. - souměrný ve tvaru zvonu, trojúhelníku či rovnoměrný; - nesouměrné ve tvaru J, obráceného J, vpravo či vlevo protažené; - podle počtu vrcholů jedno-, dvou-, či vícevrcholové. 1
4
11.6. Charakteristiky (míry) polohy. Nejznámější a nejčastěji používanou charakteristkou polohy je aritmetický průměr hodnot souboru. 1. Průměr datového souboru {x1 , x2 , . . . , xn } je definován vztahem x=
n 1X xk . n k=1
Pokud jsou {z1 , zk , . . . , zm } různé hodnoty souboru s četnostmi nj , j = 1, 2, . . . , m, a s relativními četnostmi pj , pak x=
m m X 1X zj nj = zj pj . n j=1 j=1
Věta 1. Vlastnosti průměru Pro průměr datového souboru platí: n P 1. Součet odchylek hodnot souboru od průměru je roven nule, t.j. (xi − x) = 0. i=1
2. Přičteme-li k hodnotám souboru konstantu a, pak průměr nového souboru je n 1 P (xi + a) = x + a. n i=1
3. Násobíme-li hodnoty souboru číslem b, násobí se průměr také b. Tedy yi = bxi +a, pak y = bx + a. n P 4. Funkce d(a) = (xi − a)2 je minimální pro a = x. i=1
Průměr datového souboru je citlivý na hrubé chyby, kdy jedna chybná hodnota může výrazně změnit hodnotu průměru. Robustních charakteristik,které jsou méně citlivé na zadání chybné hodnoty. Mezi ně patří medián x˜, který je pro datový soubor x1 , x2 , . . . xn definován vztahem *
x˜ =
1 2
x(m) , pro n = 2m − 1, x(m) + x(m+1) , pro n = 2m.
Jiné průměrové charakteristiky polohy. 2. Geometrický průměr xG , který je pro soubor x1 , x2 , . . . , xn kladných dat definován vztahem √ xG = n x1 x2 . . . xn . Pro taková data popisují hodnoty i1 = xx10 , n i2 = xx21 , . . . , in = xxn−1 , x0 = 1, přírůstek, např. v ekonomice roční nárust produkce, cen a pod. Je pak xk = x0 i1 i2 . . . ik a xn = x0 iG . Poznámka: Využívá se, kde má vypovídací hodnotu převrácená hodnota k původní. Nejčastěji je to v případech, kdy hodnota xi odpovídá době nutné k provedení nějakého pracovního úkonu. Převrácená hodnota pak uvádí, jakou část pracovního úkonu je splněna za jednotku času. Věta 2. Pro soubor s kladnými daty je xG ≤ x a rovnost nastane jedině pro x1 = x2 = . . . = xn . 5
3. Harmonický průměr xH , který je pro soubor kladných dat definován vztahem xH =
x−1 1
+
x−1 2
n . + . . . + x−1 n
Věta 3. Pro soubor s kladnými daty je xH ≤ xG ≤ x, přičmž rovnost nastane pouze pro x1 = x2 = . . . = xn . 4. Kvadratický průměr xK je definován vztahem xK
v u n u1 X x2i . =t
n i=1
Věta 4. Je x ≤ xK a rovnost platí pouze v případě, že x1 = x2 = . . . xn . Věta 5. Pro soubory kladných dat je x(1) ≤ xH ≤ xG ≤ x ≤ xK a rovnost nastane pouze v případě, že x1 = x2 = . . . = xn . 11.7. Charakteristiky (míry) rozptýlenosti. Rozpětí datového souboru je hodnota R = xmax − xmin . Hodnota je citlivá na extrémní chybné hodnoty. Používáme tedy jako charakteristiku tohoto druhu hodnotu x˜90 − x˜10 . Současně provedeme „ořezáníÿ souboru, kde vynecháme hodnoty menší než x˜10 a větší než x˜90 . Podobnou charakteristikou je mezikvartilové rozpětí IQR = x˜75 − x˜25 . Výběrový rozptyl je průměr čtverců odchylek od průměru a je definován vztahem s2 =
n 1X (xi − x)2 . n i=1
Hodnotu s nazýváme výběrovou směrodatnou odchylkou. Věta 6. Vlastnosti rozptylu a vzorec pro výpočet. 1. Je n 1X x2 − (x)2 . s2 = n i=1 i 2. Je-li yi = bxi + a, 1 ≤ i ≤ n, pak s2y = b2 s2x , sy = |b|sx . 6
Věta 7. Funkce S(a) =
1 n
n P
(xi − a)2 nabývá svého minima s2 pro a = x.
i=1
Věta 8. Pro soubor xi , 1 ≤ i ≤ n platí √ max{|xi − x| : 1 ≤ i ≤ n} ≤ s n − 1. Věta 9. Pro variační rozpětí souboru platí s2 ≤
R2 . 4
Variační koeficient je definován vztahem V =
s . x
1. Je-li yi = xi + a a zi = xi − a pro a > 0, pak V (y) ≤ V (x) ≤ V (z). 2. Je-li yi = bxi , pak V (y) = V (x). Je-li V > 0, 5 pak se jedná o nesourodý soubor. Pětičíselná charakteristika souboru je pětice čísel xmin , x˜25 , x˜50 , x˜75 , xmax . Průměrná odchylka da od bodu a je pro soubor dat xi definována vztahem da =
n 1X |xi − a|. n i=1
Nejčastěji se používá průměrná odchylka od aritmetického průměru x, nebo mediánu x˜. K tomu nás vede následující vlastnost. Věta 10. Funkce da nabývá svého minima pro medián a = x˜. 11.8. Charakteristiky šikmosti a špičatosti. 1. Koeficient šikmosti n 1 X A3 = α = 3 (xi − x)3 ns i=1 2. n 0
α =
n P
(xi − x)3
i=1
(n − 1)(n − 2)S 3
3. Standartizovaná šikmost α00 = α0 4. α000 =
r
n . 6
n0 − n00 , n
kde n0 je počet hodnot menších než x, n00 je počet hodnot větších než x. 7
, n > 2.
5. Koeficient špičatosti A4 =
n 1 X (xi − x)4 − 3 ns4 i=1
Pro data, která jsou rozložena symetricky kolem hodnoty x je A3 = 0. Hodnoty A3 blízké nule odpovídají rozdělení, které se blíží symetrickému. Je-li A3 > 0, pak je rozložení dat sešikmené vpravo, nižší hodnoty jsou více nahuštěny než velké hodnoty. Pro A3 < 0 je rozdělení sešikmené vlevo, větší hodnoty jsou více nahuštěny než nižší hodnoty. Je-li A4 blízké nule, říkáme, že jedná o soubor s normální špičatostí. Při A4 < 0 mluvíme o souborech plochých a při A4 > 0 mluvíme o souborech špičatých. 11. 9. Kvantilové charakteristiky. Vycházíme z uspořádaného výběru (pořádkových statistik) x(1) ≤ x(2) ≤ . . . ≤ x(n) , který dostaneme, jestliže uspořádáme prvky výběru podle velikosti. Platí: Je-li výběr náhodným výběrem s rozdělení s distribuční funkcí F, která je rostoucí a spojitá, pak je střední hodnota (♠) E(X(i) ) = F −1 (Pi ) = Q(Pi ), 1 ≤ i ≤ n, i a Q = F −1 je kvantilová funkce. kde Pi = n+1 Protože hodnoty xi jsou pouze výběrem, pro průzkumovou analýzu používáme opravených hodnot z věty, které odpovídají optimální volbě. Pro výběr z normálního rozdělení volíme i − 83 8i − 3 . Pi = 1 = 8n + 2 n+ 4
Pokud charakter rozdělení neznáme nebo není normální, volíme Pi =
i − 31 3i − 1 . 1 = 3n + 1 n+ 3
Jestliže utvoříme graf hodnot (x(i) , Pi ), 1 ≤ i ≤ n dostaneme zhruba průběh kvantilové funkce Q(p), 0 ≤ p ≤ 1. Ze vzorce (♠) vyplývá, že hodnota x(i) je odhadem pi −kvantilu. Pro zbývající hodnoty dostaneme kvantily pomocí lineární aproximace. Pro p−kvantil dostanememe vyjádření i (x(i+1) − x(i) ) + x(i) , xp = (n + 1) p − n+1
(♣) i i+1 ≤p≤ , 0 ≤ p ≤ 1. n+1 n+1 Pro rozptyl kvantilu xp platí vztah D(xp ) =
p(1 − p) , n[f (xp )]2
kde f je hustota rozdělení, ze kterého provádíme výběr. 8
V průzkumové analýze se používají speciální kvantily, které odpovídají volbě p = Nazývají se písmenové hodnoty a odpovídají volbě m = 1, 2, 3, 4. Značí se po řadě M, F, E, D. Jejich názvy a hodnoty a porovnání s kvantily up normovaného normálního rozdělení jsou v tabulce. Ve vzorcích se pro ně používá společného označení L. m název p L up 1 medián 0, 5 M 0 2 kvartil 0, 25 F −0, 674 3 oktil 0, 125 E −1, 15 4 sedecil 0, 0625 D −1, 533 1 . 2m
Tab. 11.3 Každý z kvantilů má dvě krajní hodnoty, dolní LD a horní LH , které odpovídají volbě p = 21m a p = 1 − 21m . Například FD je dolní kvartil a FH je horní kvartil. Pro jejich odhad volíme pořadí a hloubku. Pořádková statistika x(i) má rostoucí pořadí ri = i a klesající pořadí ki = n + 1 − i a hloubku Hi = min{ri , ki }. Metoda pořadí a hloubek Místo vyjádření kvantilové funkce pomocí vzorce (♣) se někdy používají robustnější vzorce, které využívají hloubky HL kvantilu. . Pokud je to celé číslo, n je liché, Pro hloubku mediánu M máme hodnotu HM = n+1 2 pak je medián roven M = x˜ = x0,5 = x(HM ) Pro sudé n dostaneme medián M pomocí lineární interpolace 1 M = x˜ = (x(n/2) + x(n/2)+1 ). 2 Pro ostatní kvantily F, E, D počítáme jejich hloubku podle vzorce HL =
1 (1 + int(HL−1 )) , 2
kde funkce int(x) je celá část čísla x a F − 1 = M, E − 1 = F, D − 1 = E. Je-li hloubka HL celé číslo, pak LD = x(HL ) , LH = x(n+1−HL ) . Pro necelé hloubky HL je LD =
1 xint(HL ) + xint(HL )+1 , 2
1 xn+1−int(HL ) + xn+2−int(HL ) . 2 Příklad. Uvedeme si jako příklad soubory dat z tabulky 11.4.
LH =
9
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
4-1 4-2 4-3 4-4 16 10 11 6 17 14 18 12 16 19 15 17 17 13 15 7 7 12 16 19 10 8 10 14 15 3 13 16 12 11 14 3 15 14 11 12 16 13 12 14 10 10 7 13 15 14 11 12 13 17 13 14 0 10 8 13 8 14 14 17 19 9 8 9 1 19 8 9 13 13 16 15 11 14 18 15 11 6 14 17 11 2 8 13 10 11 20 6 12 12 14 16 19 20 7 12 17 14 14 10 12 14 14 18 10 5 14 9 15 9 10 14
soubor n
(i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
4-1 0 1 7 8 10 10 10 10 11 11 11 12 12 12 13 13 14 14 15 15 15 16 16 16 17 17 19 19
i 14 17 5 12 6 11 22 28 19 20 21 8 23 25 13 18 26 27 7 9 12 1 3 10 2 4 16 24
4-2 2 3 6 8 9 10 10 10 11 11 12 12 13 13 13 14 14 14 14 15 17 19 19
i 21 7 20 6 16 1 11 14 8 22 5 23 4 10 18 2 12 15 19 9 13 3 17
4-3 5 7 8 8 8 9 9 10 10 11 11 12 13 13 14 14 14 14 14 14 14 15 15 15 16 16 17 18 18 20 20
i 28 11 14 17 21 29 30 6 26 1 12 10 7 13 8 9 15 20 23 27 31 3 4 6 5 18 25 2 19 22 24
4-4 3 6 6 7 7 9 10 11 12 12 12 13 13 13 14 14 14 14 14 15 15 16 16 17 17 17 17 18 19 20
i 8 1 22 4 24 17 30 19 2 12 26 11 14 21 6 10 13 25 28 18 29 7 23 3 9 15 20 27 5 16
Tab. 11.4 4−1 4−2 4−3 4−4 28 31 23 30
Medián M = x˜. i 1 2 3 x(14) +x(15) medián x˜ = 12, 5 x(12) = 12 x(16) = 14 2
4 x(15) +x(16) 2
= 14
Pomocí vzorce (♣) určíme horní a dolní kvartily. Je: (1) n + 1 = 29 :
i 1 i+1 ≤ ≤ ⇒ 4i ≤ 29 ≤ 4i + 4 ⇒ i = 7. 29 4 29
x0,25 = 29
1 7 − (x(8) − x(7) ) + x(7) = 4 29
10
1 = (x(8) − x(7) ) + x(7) = 10. 4 i 1 i+1 (2) n + 1 = 24 : ≤ ≤ ⇒ 4i ≤ 24 ≤ 4i + 4 ⇒ i = 6. 24 4 24 1 6 x0,25 = 24 − (x(7) − x(6) ) + x(6) == x(6) = 10. 4 24 i 1 i+1 (3) n + 1 = 32 : ≤ ≤ ⇒ 4i ≤ 32 ≤ 4i + 4 ⇒ i = 8. 32 4 32 x0,25 = x(8) = 10. i 1 i+1 ≤ ≤ ⇒ 4i ≤ 31 ≤ 4i + 4 ⇒ i = 7. 31 4 31 1 7 3 x0,25 = 31 − (x(8) − x(7) ) + x(7) == (x(8) − x(7) ) + x(7) = 10, 75. 4 31 4 i 3 i+1 (1) n + 1 = 29 : ≤ ≤ ⇒= 4i ≤ 87 ≤ 4i + 4 ⇒ i = 21. 29 4 29 3 21 3 − (x(22) − x(21) ) + x(21) == (x(22) − x(21) ) + x(21) = 15, 75. x0,75 = 29 4 29 4 i 3 i+1 (2) n + 1 = 24 : ≤ ≤ ⇒ i ≤ 18 ≤ i + 4 ⇒ i = 18. 24 4 24 3 18 − (x(19) − x(18) ) + x(18) == x(18) = 14. x0,75 = 24 4 24 i 3 i+1 (3) n + 1 = 32 : ≤ ≤ ⇒ i = 24. x0,75 = x(24) = 15. 32 4 32 i 3 i+1 (4) n + 1 = 31 : ≤ ≤ ⇒ i = 23 31 4 31 3 23 1 x0,75 = 31 − (x(24) − x(23) ) + x(23) == (x(24) − x(23) ) + x(23) = 16, 25. 4 31 4 Pro datové soubory dostaneme rozpětí R = x(n) − x(1) a mezikvartilové rozpětí IQR = x0,75 − x0,25 : (4) n + 1 = 31 :
soubor R IQR
4−1 4−2 4−3 4−4 19 17 15 17 5, 75 4 5 5, 5
√ Pro robustní interval spolehlivosti dostaneme jeho meze IH,D = x˜ ± 1,57IQR : n soubor 4 − 1 4 − 2 4 − 3 4 − 4 ID − IH 3, 41 2, 62 2, 82 3, 15 Grafické znazornění vlastností souboru dat 1. Kvantilový graf dostaneme, jestliže vyneseme na: i osu x - pořadová pravděpodobnost Pi = n+1 nebo její opravená hodnota
Pi =
8i − 3 3i − 1 , (N ), Pi = ; 8n + 2 3n + 1
osu y - pořádkovou statistiku x(i) . 11
2. Krabicový graf dostaneme, jestliže na osu x postupně vyneseme: hodnoty x(i) ; hodnoty M, FD , FH a hradební hodnoty BD a BH , kde BH = FH + 1, 5RF , BD = FD − 1, 5RF ; RF = FH − FD . Někdy používáme vrubový krabicový graf, kdy vynášíme omezení pomocí hodnot ID a IH , kde 1, 57RF 1, 57RF ID = M − √ , IH = M + √ . n n Grafy indikují symetrii rozdělení a podezřelá data. 3. Graf polosum slouží k ověření symetrie rozdělení. Využíváme hodnoty polosumy Zi =
1 x(i) ) + x(n+1−i) . 2
Pro symetrické rozdělení je grafem (x(i) , Zi ) vodorovná přímka určená rovnicí y = x˜ = x0,5 = M. 4. Graf symetrie dostaneme tak, že vynášíme na: i osu x - 12 u2Pi , pi = n+1 ; osu y - Zi . Pro symetrické rozdělení je grafem vodorovná přímka y = M = x˜. Pokud je grafem šikmá přímka je její směrnice odhadem koeficientu šikmosti. 5. Graf špičatosti slouží k ověření normality rozdělení. Vynášíme na: osu x - 21 u2Pi , Pi =
i ; n+1
osu y - ln
1 (x(n+1−i) −2uPi
− x(i) ) .
Pro normální rozdělení je grafem vodorovná přímka. Pokud je grafem šikmá přímka je její směrnice odhadem špičatosti. 6. Diferenční kvantilový graf slouží k porovnání rozdělení s normálním rozdělením se stejnou špičatostí. Vynášíme na: osu x - kvantil uPi ; osu y - di = x(i) − s˜upi , kde s˜ = 0, 74128RF je robustní odhad směrodatné odchylky. Identifikace rozdělení výběru 7. Jádrový odhad hustoty dostaneme jako grafické znázornění funkce y = fˆ(x), kde n 1 X x − xi fˆ(x) = K . nh i=1 h
Funkce K je tzv. jádrová funkce a volíme *
K(x) =
0, 9375(1 − x2 )2 , −1 ≤ x ≤ 1, 0, jinde.
Je-li rozdělení přibližně normální se známým rozptylem σ 2 , pak volíme h = 2, 34σn−0,2 . 12
Používáme jej pro menší rozsahy n výběru. Pro větší volíme častěji histogram. 8. Histogram dostaneme jako sloupcový graf, kde máme osu x rozdělenu na intervaly hai−1 , ai ) a výška sloupce je rovna četnosti ni . Volíme obvykle stejnou délku intervalů, kde je počet intervalů m dán vztahem √ m = int(2 n), nebo m = int(2, 46(n − 1)0,4 ). Pro výběry, které mají přibližně normální rozdělení volíme délku intervalů 3, 49σ FH − FD ∆= √ , nebo ∆ = 2 √ . 3 3 n n 9. Q-Q (kvantil-kvantilový) graf slouží k porovnání výběru s předpokládaným teoretickým rozdělením. Je-li Qt kvantilová funkce předpokládaného rozdělení, pak vynášíme na: osu x - hodnotu kvantilu Qt (Pi ); osu y - pořádkovou statistiku x(i) . Často používáme normovaných rozdělení, kde používáme substituce z=
x−Q , R
kde Q je parametr polohy (střední hodnota, prahová hodnota) a R je parametr rozptýlení (směrodatná odchylka). Pak používáme standartizované kvantilové funkce Qs a vytváříme graf (Qs (Pi ), x(i) ). V případě shody rozdělení je grafem přímka tvaru x(i) = Q + RQs (Pi ). Standartizované kvantilové funkce a odhady parametrů Q a R nalezneme v literatuře. 10. Rankitový graf je Q − Q graf, kdy rozdělení souboru porovnáváme s normovaným normálním rozdělením. Vynášíme na: osu x - kvantil uPi ; osu y - pořádkovou statistiku x(i) . Ze tvaru grafu se dá poznat zařazení rozdělení do skupin podle šikmosti, špičatosti a délky konců. 11. P-P (pravděpodobnostní) graf je doplňkem je Q − Q grafu. Porovnáváme empirickou distribuční funkci rozdělení souboru s teoretickou distribuční funkcí Ft . Obvykle používáme normované proměnné zi =
x(i) − Q . R
Do grafu vynášíme na: osu x - hodnotu Pi ; osu y - hodnotu Ft (zi ). Obdobou rankitového grafu je graf, kdy vynášíme x na: −x i osu x - hodnoty Pi = n+1 : osu y - hodnoty Φ (i)s . Je x výběrový průměr a s je výběrová směrodatná odchylka. Při porovnaní Q − Q a P − P grafů lze zjistit: a) P − P grafy jsou citlivé na odchylky od teoretického rozdělení ve střední části v okolí módu; b) Q − Q grafy jsou citlivé na odchylky na koncích intervalů. Oba typy grafů se tudíž doplňují. 13