Popisná statistika v praxi aneb Je statistika nuda? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava
Co je to statistika? Google – 196.106 odkazů (čeština), 2,88.109 odkazů (angličtina) • Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …) Český statistický úřad, Real Time Statistics Project
• Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) • Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)
Co je to statistika? Statistika nuda je, má však cenné údaje…
Zdroj: www.youtoube.com
… a proto patří s pojistnou matematikou mezi nejlukrativnější matematické
obory.
Využití statistiky: reklamní agentury (výzkumy chování, dopad kampaní…), politika (výzkumy veřejného mínění machiavellismus…), média (sledovanost, poslechovost, …), výzkum (účinnost léků, spolehlivost elektronických systémů…).
Základní pojmy ze statistické metodologie úplné šetření statistické zjišťování
Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. (Statistické) jednotky - prvky populace Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme
Základní pojmy ze statistické metodologie statistické zjišťování
Exploratorní (popisná) statistika
Jak provádět statistické zjišťování? Pokus (kontrolovaný, znáhodněný, slepý, dvojitě slepý pokus) Šetření (výzkumník do průběhu šetření zasahuje co nejméně)
Základní pojmy ze statistické metodologie výběrové šetření
Exploratorní (popisná) statistika
Popisná statistika (angl. Exploratory Data Analysis, EDA) – uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.
Základní pojmy ze statistické metodologie výběrové šetření
Exploratorní (popisná) statistika
Exploratorní analýza dat
Typy proměnných
Kvalitativní proměnná (kategoriální, slovní...)
Typy proměnných
Kvantitativní proměnná (numerická, číselná ...)
EDA pro kategoriální veličinu
Kategoriální veličina
(např. Typ SŠ, Barva auta, Pohlaví, Známka…)
Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi
Absolutní četnosti ni
Relativní četnosti pi
x1
n1
p1=n1 /n
x2
n2
p2=n2 /n
xk
nk
pk=nk /n
Celkem:
n1+n2+…+nk=n
1
+ Modus (název nejčetnější varianty)
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví
Absolutní četnosti
Relativní četnosti [%]
Muž
465
57,550
Žena
343
42,450
Celkem:
808
100,000
Modus = Muž
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví
Absolutní četnosti
Relativní četnosti [%]
Muž
465
57,550
Žena
343
42,450
Celkem:
808
100,000
Modus = Muž
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví
Absolutní četnosti
Relativní četnosti [%]
Muž
465
57,6
Žena
343
42,5
Celkem:
808
100,1
Modus = Muž
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví
Absolutní četnosti
Relativní četnosti [%]
Muž
465
57,6
Žena
343
42,4
Celkem:
808
100,0
Modus = Muž
= 100,0 − 57,6
Grafické znázornění A) Sloupcový graf (bar chart) Počet 25 20 15 10 5 0 Výborně
Chvalitebně
Prospěl
Neprospěl
„…můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled“ http://office.microsoft.com/cs-cz/excel-help/prezentace-dat-ve-sloupcovem-grafu-HA010218663.aspx
Grafické znázornění A) Sloupcový graf (bar chart)
Počet
20 15 10 5 0
Grafické znázornění A) Sloupcový graf (bar chart)
Počet
20 15 10 5 0
Grafické znázornění A) Sloupcový graf (bar chart)
Počet
20 15 10 5 0
Grafické znázornění A) Sloupcový graf (bar chart)
Počet
20 15 10 5 0
Grafické znázornění A) Sloupcový graf (bar chart)
Počet
20 15 10 5 0
Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor?
Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.
Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor?
Produkce CO2 [kg] na osobu
Sloupcový graf 25000
20000 15000
USA
10000
ČR
5000 0 1993
2007
zdroj dat: http://en.wikipedia.org/wiki/List_of_countries_by_carbon_dioxide_emissions_per_capita
Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor?
Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.
Nadbytečné názvy grafu, legendy, …
Neefektivní nuly A na co ještě?
Produkce CO2 [tun] na osobu
25
20
20
18
15
16
10
14
5
12
0
10
1993
2007 USA
1993
2007
ČR
Produkce CO2 [tun] na osobu (% roku 1993)
USA ČR Který z grafů je „správný“? 100%
120% 100% 80% 60% 40% 20% 0%
98% 96% 94% 92% 1993 USA
2007 ČR
90% 1993 USA
2007 ČR
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)
7; 17%
5; 12%
5; 12%
10; 24%
7; 17%
10; 24%
Výborně
Výborně
Chvalitebně
Chvalitebně
Prospěl
Prospěl
Neprospěl
Neprospěl
20; 47% 20; 47%
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)
7; 17%
5; 12%
5; 12%
10; 24%
7; 17%
10; 24%
Výborně
Výborně
Chvalitebně
Chvalitebně
Prospěl
Prospěl
Neprospěl
Neprospěl
20; 47% 20; 47%
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?
Anketa Jste pro navýšení hodinové dotace Matematiky?
50%
50%
TAKHLE NE!!! PRO
PROTI
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?
Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu
Nadbytečné názvy grafu
Výskyt krevních skupin a Rh faktoru [%] v USA 2%
1% 0+
6% 3%
A+
7%
B+
38%
AB+
9%
0AB-
34%
AB-
Krevní skupina 0 A B AB Celkem
Rh faktor Rh+ Rh38 7 34 6 9 2 3 1 84 16
Celkem 45 40 11 4 100
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?
Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu
Nadbytečné názvy grafu, legendy, …
Ne vždy je graf přehlednější než tabulka A na co ještě?
Srozumitelnost výkladu
6; 3%
1; 0%
32; 15%
Hodnocení 1
64; 29% 114; 53%
103; 47%
Hodnocení 5
Hodnocení 1
34; 16%
18; 9%
Hodnocení 1
Hodnocení 1
5; 2%
Hodnocení 5
Hodnocení 3 Hodnocení 4 Hodnocení 5
25; 11%
Hodnocení 1
89; 41%
Hodnocení 3 Hodnocení 4
Hodnocení 2
Grafická úprava
Hodnocení 2
81; 75; 39% 36%
Hodnocení 5
96; 44%
8; 4%
31; 15%
Hodnocení 4
82; 38%
Hodnocení 3
Praktické aplikace
Hodnocení 3
5; 2%0; 0%
Hodnocení 2
Hodnocení 5
3; 1%
Hodnocení 2
Užitečnost úloh k samostatné práci
Hodnocení 4
80; 37%
Hodnocení 1
76; 35%
Hodnocení 4
73; 34%
0; 0%
37; 17%
Hodnocení 3
1; 0%
48; 22%
Srozumitelnost řešených příkladů
Hodnocení 2
Množství řešených příkladů 15; 7%
2; 1%
92; 42%
2 grafy ještě chybí …
Hodnocení 2 Hodnocení 3 Hodnocení 4 Hodnocení 5
Hodnocení modulu PRA (220 respondentů) Dostatečnost textu
66
Míra používání textu
85
76
Grafická úprava
55
67
52
89
Praktické aplikace
75
Užitečnost úloh k samostatné práci
73
Srozumitelnost řešených příkladů
76
Srozumitelnost výkladu
80
85 18 3
96
34 48
103
64 0%
25 81
82
Množství řešených příkladů
23 1
92
31
63
114
5 15 1
37 32
2 61
10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1
2
3
4
5
100% skládaný pruhový graf
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?
Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu
Nadbytečné názvy grafu, legendy, …
Ne vždy je graf přehlednější než tabulka
„Jediná věc je horší než výsečový graf – několik nebo dokonce mnoho výsečových grafů“ Van Belle
„Bo co není stopro…“ Jarek Nohavica
Zdroj: www.supermusic.sk
Příklad s klobásou
Zdroj: Blesk, březen 2009
Příklad s klobásou
Google vs. Seznam: skóre je 5:3, odhalil průzkum – www.živě.cz, 28.2. 2013
Google vs. Seznam: skóre je 5:3, odhalil průzkum – www.živě.cz, 28.2. 2013
EDA pro numerická data
Číselné charakteristiky
A) Míry polohy (úrovně) B) Míry variability
Míry polohy
Aritmetický průměr n
x
x i 1
i
n
Na co si dát pozor? Vážený průměr Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) Geometrický průměr (tempa růstu) Průměrování dat na cirkulární škále Circular Statistics Toolbox
1.
Máme 4 stroje, kterým práce trvá 2,5; 2,0; 1,5 a 6,0 minut. Jaká je průměrná doba výroby součástky?
Stroj 1
Stroj 2
Stroj 3
Stroj 4
Doba t [min]
1
1
1
1
Doba výroby 1 součástky [min]
2,5
2,0
1,5
6,0
1.
Máme 4 stroje, kterým práce trvá 2,5; 2,0; 1,5 a 6,0 minut. Jaká je průměrná doba výroby součástky?
Stroj 1
Stroj 2
Stroj 3
Stroj 4
Doba t [min]
1
1
1
1
Doba výroby 1 součástky [min]
2,5
2,0
1,5
6,0
Počet součástek za t minut
1/2,5
1/2,0
1/1,5
1/6,0
1.
Máme 4 stroje, kterým práce trvá 2,5; 2,0; 1,5 a 6,0 minut. Jaká je průměrná doba výroby součástky?
Stroj 1
Stroj 2
Stroj 3
Stroj 4
Celkem
Doba t [min]
1
1
1
1
4
Doba výroby 1 součástky [min]
2,5
2,0
1,5
6,0
Počet součástek za t minut
1/2,5
1/2,0
1/1,5
1/6,0
𝑥𝐻 =
4 1 1 1 1 + + + 2,5 2,0 1,5 6,0
1 1 1 1 + + + 2,5 2,0 1,5 6,0
≅ 2,31 𝑚𝑖𝑛
2.
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná – 5 km.
A
B
C
AB
BC
CD
Dráha [km]
5
5
5
Rychlost [km/h]
40
50
60
D
2.
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná – 5 km.
A
B
C
AB
BC
CD
Dráha [km]
5
5
5
Rychlost [km/h]
40
50
60
5/40
5/50
5/60
Čas [h]
D
2.
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná – 5 km.
A
B
C
D AD
AB
BC
CD
Dráha [km]
5
5
5
Rychlost [km/h]
40
50
60
5/40
5/50
5/60
Čas [h]
2.
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná – 5 km.
A
B
C
D
AB
BC
CD
AD
Dráha [km]
5
5
5
15
Rychlost [km/h]
40
50
60
5/40
5/50
5/60
Čas [h]
x
15 3 48,7 5 5 5 1 1 1 40 50 60 40 50 60
5/40 + 5/50 + 5/60
km / h
2.
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná – 5 km.
A
B
C
D
AB
BC
CD
AD
Dráha [km]
5
5
5
15
Rychlost [km/h]
40
50
60
5/40
5/50
5/60
Čas [h]
x
15 3 48,7 5 5 5 1 1 1 40 50 60 40 50 60
5/40 + 5/50 + 5/60
km / h
Harmonický průměr
2.
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy.
A
B
C AB
Dráha [km] Rychlost [km/h]
D BC
0,15AD 40
CD 0,60AD
50
60
2.
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy.
A
B
Dráha [km] Rychlost [km/h]
C
D
AB
BC
CD
0,15AD
0,25AD
0,60AD
40
50
60
2.
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy.
A
B
Dráha [km] Rychlost [km/h] Čas [h]
C
D
AB
BC
CD
0,15AD
0,25AD
0,60AD
40
50
60
0,15AD/40
0,25AD/50
0,60AD/60
2.
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy.
A
B
Dráha [km] Rychlost [km/h] Čas [h]
C
D
AB
BC
CD
AD
0,15AD
0,25AD
0,60AD
AD
40
50
60
0,15AD/40
0,25AD/50
0,60AD/60
AD 1 x 53,3 0,15 AD 0,25 AD 0,60 AD 0,15 0,25 0,60 40 50 60 40 50 60
0,15AD/40 + 0,25AD/50 + 0,60AD/60
km / h
Vážený harmonický průměr
3.
Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie?
Cena akcie [Kč] 13. března
952,50
14. března
962,0
15. března
982,0
3.
Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie?
Cena akcie [Kč]
Koeficient růstu
13. března
952,50
14. března
962,0
1,010
15. března
982,0
1,021
𝑥𝐺 =
1,010.1,021 = 1,015
Geometrický průměr
Ošidnost průměru
Ošidnost průměru
Země K
Průměrná produkce kuřat (na osobu): 0,5 (denně) Soused snědl celé kuře, já jsem neměl nic…
Ošidnost průměru V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Určete průměrný plat obyvatel této vesnice. ($31,830) Do vesnice se přistěhoval B. G., jehož roční příjem je $40,000,000. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 $40 000 000 Určete průměrný plat obyvatel této vesnice. ($5 741 571)
Ošidnost průměru
Zdroj: Blesk, 9.4.2013
Výběrové kvantily 100p %-ní kvantil 𝑥𝑝 • odděluje 100p% menších hodnot od zbytku souboru (100p% hodnot datového souboru je menších než toto číslo.)
Význačné výběrové kvantily • Kvartily Dolní kvartil 𝑥0,25 Medián 𝑥0,5 Horní kvartil 𝑥0,75 • Decily – 𝑥0,1 ; 𝑥0,2 ; ... ; 𝑥0,9 • Percentily – 𝑥0,01 ; 𝑥0,02 ; …; 𝑥0,03 • Minimum 𝑥𝑚𝑖𝑛 a Maximum 𝑥𝑚𝑎𝑥
Růstové grafy
Srovnávací zkoušky
Míry variability
Proč k popisu numerické proměnné nestačí míry polohy? Firma vyrábějící tabulové sklo vyvinula méně nákladnou technologii pro zlepšení odolnosti skla vůči žáru. Pro testování bylo vybráno 100 tabulí skla a rozřezáno na polovinu. Jedna polovina pak byla ošetřena novou technologií, zatímco druhá byla ponechána jako kontrolní. Výsledky jsou prezentovány v následujícím grafu. Prům. tavná teplota [°C]
2200 1700
1200 1008
1200
700 200
Stará technologie
Lze doporučit zavedení nové technologie do výroby?
Nová technologie
Proč k popisu numerické proměnné nestačí míry polohy? Firma vyrábějící tabulové sklo vyvinula méně nákladnou technologii pro zlepšení odolnosti skla vůči žáru. Pro testování bylo vybráno 100 tabulí skla a rozřezáno na polovinu. Jedna polovina pak byla ošetřena novou technologií, zatímco druhá byla ponechána jako kontrolní. Výsledky jsou prezentovány v následujícím grafu. Tavná teplota [°C]
2200 1700
1200 1008
1200
700 200
Stará technologie
Lze doporučit zavedení nové technologie do výroby?
Nová technologie
Výběrový rozptyl n
s2
x i 1
i
x
2
n 1
Na co si dát pozor? Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.
Výběrová směrodatná odchylka n
s s 2
x i 1
i
x
n 1
2
Variační koeficient
(Směrodatná odchylka v procentech aritmetického průměru)
s Vx 100 % x • Čím nižší var. koeficient, tím homogennější soubor. • Vx > 50% značí silně rozptýlený soubor.
Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.
Přesnost číselných charakteristik
Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.
Chybný zápis číselných charakteristik
Průměr Medián Směrodatná odchylka Proč je zápis chybný?
Délka [m]
Váha [kg]
Teplota [0C]
2,26 2,675
127,6 117,8
0,78
23,7
14 567 13 700 1 200 (před zaokrouhlením 1235)
Chybný zápis číselných charakteristik
Průměr Medián Směrodatná odchylka Proč je zápis chybný?
Délka [m]
Váha [kg]
Teplota [0C]
2,26 2,675
127,6 117,8
0,78
23,7
14 567 13 700 1 200 (před zaokrouhlením 1235)
Různý počet des. míst.
Chybný zápis číselných charakteristik
Průměr Medián Směrodatná odchylka Proč je zápis chybný?
Délka [m]
Váha [kg]
Teplota [0C]
2,26 2,675
127,6 117,8
0,78
23,7
14 567 13 700 1 200 (před zaokrouhlením 1235)
3 platné Různý cifry počet des. u směrodatné míst. odchylky.
Chybný zápis číselných charakteristik
Průměr Medián Směrodatná odchylka
Proč je zápis chybný?
Délka [m]
Váha [kg]
2,26 2,675
127,6 117,8
Teplota [0C]
14 567 13 700 1 200 0,78 23,7 (před zaokrouhlením 1235) Nejnižší zapsaný řád 3 platné průměru (jednotky) Různý neodpovídá nejnižšímu cifry počet des. u zapsanému řádu směrodatné směrodatné odchylky (stovky)+ směr. míst. odch. není zaokrouhlena odchylky. nahoru.
Oprava
Průměr Medián Směrodatná odchylka
Proč je zápis chybný?
Délka [m]
Váha [kg]
2,26 2,68
127,6 117,8
0,78
Teplota [0C]
14 567 13 700 1 200 23,7 (před zaokrouhlením 1235) Nejnižší zapsaný řád 3 platné průměru (jednotky) neodpovídá nejnižšímu cifry u zapsanému řádu směrodatné směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena odchylky. nahoru.
Oprava
Průměr Medián Směrodatná odchylka
Proč je zápis chybný?
Délka [m]
Váha [kg]
Teplota [0C]
2,26 2,68
128 118
0,78
24
14 567 13 700 1 200 (před zaokrouhlením 1235) Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.
Správný zápis číselných charakteristik
Průměr Medián Směrodatná odchylka
Délka [m]
Váha [kg]
Teplota [0C]
2,26 2,68
128 118
14 600 13 700
0,78
24
1 300
Zajímavé odkazy k tématu Exploratorní statistika • Slovníček pojmů z exploratorní statistiky aneb co by se Vám mohlo hodit při práci se statistickým softwarem v angličtině • Interstat – sylabus popisné statistiky (nedokončeno) • Jak nevytvářet grafy (anglicky) The Evil Tutor‘s Guide
•
Real Time Statistics Project
• Projekt Gapminder • Circular Statistics Toolbox (Matlab)