Obsah Třídění dle statistického znaku Prosté a intervalové třídění Četnosti statistického znaku
Statistika Zpracování informací ze statistického šetření – Třídění statistického souboru
Tabulky četností Prosté třídění Intervalové třídění
Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz
Grafická vizualizace rozložení četností Polygon četností Histogram četnosti Výsečový graf
20. února 2012
„Statistikaÿ by Birom
Statistika
Třídění dle statistického znaku
Třídění
1 / 20
Třídění dle statistického znaku
◮ ◮
◮
◮ ◮
◮
◮
◮
◮
Intervalové třídění – numerický statistický znak 1. stanovení počtu intervalů
jednostupňové, dvoustupňové (kontingenční tabulky), vícestupňové.
◮ ◮ ◮
3. rozdělení na intervaly
max x − min x k h•; •), h•; •), . . . , h•; •i
hmin x + i · h ; min x + (i + 1) · h) , pro i = 0, . . . , k − 2 a hmin x + (k − 1) · h ; max xi ◮
Třídění
h
h=
zásada úplnosti (každá jednotka musí někam patřit), zásada jednoznačnosti (každá jednotka musí mít právě jedno místo při třídění).
Statistika
k, optimálně 8 ≤ k ≤ 20
k ≈ 1 + 3,3 · log n (Sturgesovo pravidlo) 8 k ≈ 100 (max x − minx) √ k≈ n
2. stanovení délky intervalu
třídění prosté (malý počet různých hodnot znaku), třídění intervalové (velký počet různých hodnot znaku, spojitý numerický znak).
„Statistikaÿ by Birom
Prosté a intervalové třídění
Prosté třídění – libovolný statistický znak
Základní zásady při třídění: ◮
2 / 20
1. stanovení počtu pozorování různých hodnot znaku (předpokládejme k různých hodnot)
Dle typu třídění: ◮
◮
◮
zpřehlednění souboru, zjištění empirického rozdělení statistického souboru, snížení numerické náročnosti výpočtu statistických charakteristik.
Dle počtu třídících znaků: ◮
Třídění
Postup třídění I
Důvody třídění: ◮
Statistika
Prosté a intervalové třídění
Třídění dle statistického znaku ◮
„Statistikaÿ by Birom
3 / 20
Pro popis statistického znaku je vhodné jak délku intervalů, tak hranice intervalů „učesatÿ, tj. vhodně zaokrouhlit; je však třeba zajistit, aby takto upravené intervaly pokryly všechny hodnoty statistického znaku.
„Statistikaÿ by Birom
Statistika
Třídění
4 / 20
Třídění dle statistického znaku
Prosté a intervalové třídění
Třídění dle statistického znaku
Postup třídění II ◮
Četnosti statistického znaku
Absolutní a relativní četnost I
Meze jednotlivých intervalů je třeba volit tak, aby nedocházelo k nejasnostem, tj. aby se každé pozorování jednoznačně „spadaloÿ do určitého intervalu.
4. stanovení počtu pozorovaní s hodnotou znaku spadajícího do příslušného intervalu
Označme sledovaný statistický znak x, nechť má N pozorování, pak pro i = 1, . . . , k: ni absolutní četnost počet pozorování s hodnotou znaku rovnou xi , respektive počet pozorování s hodnotou znaku spadající do i-tého intervalu, ◮
zřejmě platí:
k X
ni = N.
i=1
pi relativní četnost poměr počtu pozorování s hodnotou znaku rovnou xi vzhledem celkovému počtu pozorování, respektive poměr počtu pozorování s hodnotou znaku spadající do i-tého intervalu vzhledem celkovému počtu pozorování, pi =
„Statistikaÿ by Birom
Statistika
Třídění dle statistického znaku
Třídění
5 / 20
i zde zřejmě:
k X
„Statistikaÿ by Birom
Četnosti statistického znaku
pi = 1
(pi · 100 %),
i = 1, . . . , k;
Statistika
Třídění dle statistického znaku
Absolutní a relativní četnost II ◮
ni N
Třídění
6 / 20
Četnosti statistického znaku
Kumulativní četnosti I kni kumulativní (absolutní) četnost počet pozorování, u nichž je hodnota statistického znaku x ≤ xi , respektive počet pozorování zařazených díky hodnotě statistického znaku od prvního až do i-tého intervalu včetně, tj.
(100 %).
i=1
kni = n1 + n2 + · · · + ni =
i X
nj .
j=1
kpi kumulativní relativní četnost udává poměr počtu pozorování, u nichž je hodnota statistického znaku x ≤ xi , vzhledem k celkovému počtu pozorování respektive poměr počtu pozorování zařazených díky hodnotě statistického znaku od prvního až do i-tého intervalu včetně vzhledem k celkovému počtu pozorování, tj. kpi = p1 + p2 + · · · + pi =
i X
pj .
j=1
◮ ◮ ◮ „Statistikaÿ by Birom
Statistika
Třídění
7 / 20
Je nutné uspořádání znaku x, tj. má smysl dělat minimálně pro ordinální znak. Nebo ne? Jakou by pak měla kumulativní četnost interpretaci? knk = N, kpk = 1 (100 %) „Statistikaÿ by Birom
Statistika
Třídění
8 / 20
Tabulky četností
Prosté třídění
Tabulky četností
Datový soubor – Evidence studijních výsledků LS 2005 Obor PUPN VZ OP PP VZ OP ZOO BT OP VZ VZ VZ ZOO . . .
Počet ∗
Zameškáno
Zápočet
Body
Hodnocení
0 3 2 0 3 1 0 1 0 2 3 2 1
Ano Ano Rost Biskup Ano Rost Ano Ano Rost Ano Ne Ano Ano
4 1,5 4 2 1 2 4 4 0,5 4 0 1,5 1,5
1 4 2 4 4 4 2 2 4 2 4 4 4
4 0 0 0 0 0 1 13 0 1 0 0 2
„Statistikaÿ by Birom
Statistika
Tabulky četností
Prosté třídění
Přípravné práce – Evidence studijních výsledků LS 2005 Body – počet bodů získaných z písemné části zkoušky ze statistiky LS 2005 (řádný termín) 1. N = 139; k = 13 (0; 0,5; . . . ; 6 bodů) stanovení počtu pozorování jednotlivých hodnot znaku . . .
Třídění
9 / 20
„Statistikaÿ by Birom
Statistika
Prosté třídění
Tabulky četností
Tabulka četností – Evidence studijních výsledků LS 2005
Třídění
10 / 20
Intervalové třídění
Datový soubor – Splátkový prodej (2004)
Počet bodů získaných z písemné části zkoušky ze statistiky LS 2005 (řádný termín)
xi
„Statistikaÿ by Birom
ni
pi (%)
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0
27 11 20 15 14 11 22 8 7 3 1 0 0
19,42 7,91 14,39 10,79 10,07 7,91 15,83 5,76 5,04 2,16 0,72 0,00 0,00
Σ
139
100,00
Statistika
kni 27 38 58 73 87 98 120 128 135 138 139 139 139
Věk Pohlaví
kpi (%)
59 27 50 29 31 19 22 34 45 24 30 25 . . .
19,42 27,34 41,73 52,52 62,59 70,50 86,33 92,09 97,12 99,28 100,00 100,00 100,00
Třídění
11 / 20
žena žena muž muž muž žena muž muž žena muž muž muž
Stav ženatý ženatý rozvedený svobodný ženatý druh svobodný ženatý ženatý rozvedený rozvedený svobodný
„Statistikaÿ by Birom
Vzdělání Zaměstnání základní důchodce střední dělník střední kuchař vyučený dělník vyučený řidič základní mateř dovolená vyučený malíř, natěrač střední stát. zam. vyučený podnikatel vyučený technik vyučený pekař střední pol. inspektor
Statistika
Příjem (Kč) 7 200 7 000 61 000 10 000 15 000 5 500 10 000 15 159 10 000 12 000 12 500 14 000
Úvěr (Kč) Splátek 5 390 7 542 6 216 7 002 8 982 6 696 4 621 7 624 7 515 6 680 3 228 14 229
20 20 10 20 10 10 20 30 20 20 20 30
Třídění
12 / 20
Tabulky četností
Intervalové třídění
Tabulky četností
Příprava intervalů – Splátkový prodej (2004)
Tabulka četností – Splátkový prodej (2004) Cena zaplacená za celkový spotřebitelský úvěr
Úvěr – cena zaplacená za celkový spotřebitelský úvěr; 1. N = 737; k ≈ 1 + 3,3 · log 737 = 10,463, 2. min x = 1 584 a max x = 25 164; 25 164 − 1 584 = 2 151,273, 3. h = 11 intervalu rovnu 1 500 pak:
zvolme k = 11;
položme h = 2 200 a dolní mez prvního
1. 2. 3. .. .
h1 500 h3 700 h5 900
; 3 700) ; 5 900) ; 8 100)
10. 11.
h21 300 h23 500
; 23 500) ; 25 700i
4. stanovení počtu pozorovaní v jednotlivých intervalech . . .
„Statistikaÿ by Birom
Statistika
Grafická vizualizace rozložení četností
Třídění
13 / 20
◮
◮
Statistika
Třídění
14 / 20
Polygon četností
Polygon četností Počet bodů získaných z písemné části zkoušky ze statistiky LS 2005 – řádný termín 30
na vodorovnou osu se vynáší hodnoty sledovaného znaku na svislou osu se pak vynáší absolutní četnosti nad jednotlivými hodnotami znaku jsou vynášeny hodnoty odpovídající příslušným absolutním četnostem jednotlivé hodnoty jsou navíc spojeny lomenou čárou
25
20 Poþet pozor.
◮
„Statistikaÿ by Birom
Grafická vizualizace rozložení četností
vizualizace absolutních četností – prosté třídění ◮
Tabulka četností:Celková výše úvěru Četnost Kumulativní Rel.četnost Kumulativní četnost rel.četnost OD DO 1 500 Kč<=x<3 700 Kč 69 69 9,36228 9,3623 3 700 Kč<=x<5 900 Kč 217 286 29,44369 38,8060 5 900 Kč<=x<8 100 Kč 218 504 29,57938 68,3853 8 100 Kč<=x<10 300 Kč 104 608 14,11126 82,4966 10 300 Kč<=x<12 500 Kč 55 663 7,46269 89,9593 12 500 Kč<=x<14 700 Kč 54 717 7,32700 97,2863 14 700 Kč<=x<16 900 Kč 15 732 2,03528 99,3216 16 900 Kč<=x<19 100 Kč 3 735 0,40706 99,7286 19 100 Kč<=x<21 300 Kč 0 735 0,00000 99,7286 21 300 Kč<=x<23 500 Kč 1 736 0,13569 99,8643 23 500 Kč<=x<25 700 Kč 1 737 0,13569 100,0000 Vytvořeno ChDv programu STATISTICA komplet 6.1 Cz 0 737 0,00000 100,0000
Polygon četností
Polygon četností ◮
Intervalové třídění
15
10
5
0 0 0,5 1 1,5 Vytvořeno v programu MS Excel 2000
„Statistikaÿ by Birom
Statistika
Třídění
15 / 20
„Statistikaÿ by Birom
2
2,5
3
3,5
4
4,5
5
5,5
6
Body
Statistika
Třídění
16 / 20
Grafická vizualizace rozložení četností
Histogram četnosti
Grafická vizualizace rozložení četností
Histogram četnosti
Cena zaplacená za celkový spotřebitelský úvěr
vizualizace absolutních četností – intervalového třídění ◮ ◮ ◮
◮
◮
Histogram četnosti
na vodorovnou osu se vynáší meze intervalů na svislou osu pak absolutní četnosti nad jednotlivými intervaly jsou vykresleny sloupce s podstavou šířky intervalu a výškou absolutní četnosti někdy jsou hodnoty vynášené na svislou osu modifikovány tak, aby celková plocha sloupců byla rovná jedné
Histogram: Celková výše úvěru 250
200 Počet pozor.
◮
Histogram četnosti
vše pochopitelně v měřítku ;-)
150
100
„Statistikaÿ by Birom
Statistika
Grafická vizualizace rozložení četností
Třídění
17 / 20
Výsečový graf
◮ ◮
◮
25 700 Kč<=x<27 900 Kč
23 500 Kč<=x<25 700 Kč
21 300 Kč<=x<23 500 Kč
19 100 Kč<=x<21 300 Kč
16 900 Kč<=x<19 100 Kč
Statistika
Třídění
18 / 20
Výsečový graf
Výsečový graf Výsledné známky ze Statistiky 2004/05 – LS
vizualizace relativních četností ◮
Kategorie
Grafická vizualizace rozložení četností
Výsečový (koláčový) graf ◮
„Statistikaÿ by Birom
14 700 Kč<=x<16 900 Kč
Vytvořeno v programu STATISTICA komplet 6.1 Cz
12 500 Kč<=x<14 700 Kč
10 300 Kč<=x<12 500 Kč
8 100 Kč<=x<10 300 Kč
5 900 Kč<=x<8 100 Kč
3 700 Kč<=x<5 900 Kč
0
1 500 Kč<=x<3 700 Kč
50
plocha grafu je dělena na kruhové výseče v poměru, který je dán relativní četnosti, tj. |∠i | = 360◦ · P pi , zřejmě platí: ki=1 ∠i = 360◦ .
10,43% 17,18%
Graf je obvykle doplněn o legendu a relativní četnosti v procentech
45,40%
26,99% Vytvořeno v programu MS Excel 2000
„Statistikaÿ by Birom
Statistika
Třídění
19 / 20
„Statistikaÿ by Birom
1
2
Statistika
3
4
Třídění
20 / 20