Přednáška 5. Výběrová šetření, Exploratorní analýza

Přednáška 5 Výběrová šetření, Exploratorní analýza • Pravděpodobnost vs. statistika • Výběrová šetření aneb jak získat výběrový soubor • Exploratorní statistika aneb jak popsat výběrový soubor – Typy proměnných – Popis kategoriální proměnné (číselné charakteristiky, grafy) – Popis numerické proměnné (číselné charakteristiky, grafy)

Čím se zabývá teorie pravděpodobnosti? • Teorie pravděpodobnosti je matematická disciplína popisující zákonitosti týkající se náhodných jevů, tj. používá se k modelování náhodnosti a neurčitosti. (Náhodnost je spojena s nedostatečnou znalostí počátečních podmínek.)

Čím se zabývá statistika? • Rozvíjí znalosti na základě empirických dat.

Co je to statistika? Google – 196.106 odkazů (čeština), 2,88.109 odkazů (angličtina) • Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …)  Český statistický úřad, Real Time Statistics Project • Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) • Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)

Proč je dobré znát (alespoň) základy statistiky? „Informace, informace….“ „Ó, data! “ Číslo 5 žije

Kvantitativní výzkum Teorie

Hypotéza

Sběr dat

Hledání pravdy Zdroj: technet.idnes.cz

Analýza dat

Vyhodnocení

Proč je dobré znát (alespoň) základy statistiky? „Informace, informace….“ „Ó, data! “ Číslo 5 žije

Kvantitativní výzkum Teorie

Hypotéza

Sběr dat

Hledání pravdy Zdroj: technet.idnes.cz

Analýza dat

Vyhodnocení

Základní pojmy ze statistické metodologie

• Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. • (Statistické) jednotky - prvky populace • (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme

Základní pojmy ze statistické metodologie úplné šetření statistické zjišťování

• Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. • (Statistické) jednotky - prvky populace • (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme

Základní pojmy ze statistické metodologie statistické zjišťování

Exploratorní (popisná) statistika

• Jak provádět statistické zjišťování? • Pokus (kontrolovaný, znáhodněný, slepý, dvojitě slepý pokus) • Šetření (výzkumník do průběhu šetření zasahuje co nejméně)

Základní pojmy ze statistické metodologie výběrové šetření

•


Popisná statistika (angl. Exploratory Data Analysis, EDA) - uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.

Základní pojmy ze statistické metodologie výběrové šetření


Statistické šetření Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.

Způsoby statistického šetření

Vyčerpávající šetření

Výběrové šetření

Výhody: přesnost a detailnost zjištěných informací

Výhody: menší personální, finanční a časová náročnost

Nevýhody: personální, finanční a časová náročnost

Nevýhody: mírou objektivnosti získaných informací je kvalita provedení výběrového šetření

Výběrové šetření • Výběr by měl být reprezentativní – tj. odrážet vlastnosti celé populace vzhledem ke sledovaným znakům. •

Opakem reprezentativního výběru je výběr selektivní (např. vzorek účastnic soutěže MISS ČR, z něhož chceme dělat závěry o váze v české populaci dívek ve věku 17-20 let).

•

Náhodný výběr, tj. výběr, v němž má každá statistická jednotka stejnou pravděpodobnost být zařazena do výběru.

― Reprezentuje všechny známé i neznámé vlastnosti populace. ― Umožňuje odhadnout velikost chyby, která je způsobena výběrovým šetřením.

― Opora (rámec) výběru – technická dokumentace umožňující výběr stat. jednotek do výběru.

Metody náhodného výběru • prostý náhodný výběr – losováním, pomocí tabulek náhodných čísel • systematický výběr – založen na předem známém uspořádání populace (riziko souvislosti uspořádání s analyzovaným znakem), vybíráme každý k. prvek. • oblastní (stratifikovaný) výběr – populace rozdělena do heterogenních podskupin, v jejichž rámci je prováděn prostý náhodný, resp. systematický výběr. • skupinový výběr – populace je rozdělena do rovnocenných podskupin, tj. variabilita mezi podskupinami musí být co nejmenší. Poté je proveden prostý náhodný výběr podskupiny a následuje její úplné šetření. • vícestupňový výběr – Založen na hierarchickém popisu jednotek populace (např. krajeměsta-školy).

Další metody výběru • Anketa – tzv. samovýběr, tj. výběr jedinců je založen na rozhodnutí respondenta odpovědět na anketu – nelze definovat populaci, na níž se výsledky vztahují • Snowball sampling – dotázaní uvádějí kontakt na další jedince – vhodné pro výzkum dočasných populací (svědkové události, účastníci akce apod.) • Záměrný výběr, – tj. výběr založený na expertním stanovisku

• Metoda základního masivu ― prošetření velkých a středních jednotek

Exploratorní analýza dat

Typy proměnných

Nominální proměnná Kvalitativní proměnná (kategoriální, slovní...)

(nelze uspořádat)

Ordinální proměnná (lze uspořádat) Typy proměnných

Kvantitativní proměnná (numerická, číselná ...)

EDA pro kategoriální veličinu

Kategoriální veličina nominální (nemá smysl uspořádání)

(např. Typ SŠ, Barva auta, Pohlaví, …)

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi

Absolutní četnosti ni

Relativní četnosti pi

x1

n1

p1=n1 /n

x2

n2

p2=n2 /n

xk

nk

pk=nk /n

Celkem:

n1+n2+…+nk=n

1

+ Modus (název nejčetnější varianty)

Číselné charakteristiky

TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví

Absolutní četnosti

Relativní četnosti [%]

Muž

457

58,2

Žena

328

41,8

Celkem:

785

100,0

Modus = Muž

Grafické znázornění A) Sloupcový graf (bar chart) Počet 25 20 15 10 5 0 Výborně

Chvalitebně

Prospěl

Neprospěl

„…můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled“ http://office.microsoft.com/cs-cz/excel-help/prezentace-dat-ve-sloupcovem-grafu-HA010218663.aspx

Grafické znázornění A) Sloupcový graf (bar chart)

Počet

20 15 10 5 0


Počet

20 15 10 5 0


Počet

20 15 10 5 0


Počet

20 15 10 5 0


Počet

20 15 10 5 0

Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor? • Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor?

Produkce CO2 [kg] na osobu

Sloupcový graf 25000

20000 15000

USA

10000

ČR

5000 0 1993

2007

zdroj dat: http://en.wikipedia.org/wiki/List_of_countries_by_carbon_dioxide_emissions_per_capita

Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor? • Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“. • Nadbytečné názvy grafu, legendy, … • Neefektivní nuly A na co ještě?

Produkce CO2 [tun] na osobu

25

20

20

18

15

16

10

14

5

12

0

10

1993

2007 USA

1993

2007

ČR

Produkce CO2 [tun] na osobu (% roku 1993)

USA ČR Který z grafů je „správný“? 100%

120% 100% 80% 60% 40% 20% 0%

98% 96% 94% 92% 1993 USA

2007 ČR

90% 1993 USA

2007 ČR

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

7; 17%

5; 12%

5; 12%

10; 24%

7; 17%

10; 24%

Výborně

Výborně

Chvalitebně

Chvalitebně

Prospěl

Prospěl

Neprospěl

Neprospěl

20; 47% 20; 47%

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

7; 17%

5; 12%

5; 12%

10; 24%

7; 17%

10; 24%

Výborně

Výborně

Chvalitebně

Chvalitebně

Prospěl

Prospěl

Neprospěl

Neprospěl

20; 47% 20; 47%

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?

Anketa Jste pro navýšení hodinové dotace Statistiky?

TAKHLE NE!!!


• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu • Nadbytečné názvy grafu

Výskyt krevních skupin a Rh faktoru v USA

Krevní skupina 0 A B AB Celkem

Rh faktor Rh+ Rh38 7 34 6 9 2 3 1 84 16

Celkem 45 40 11 4 100


• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu • Nadbytečné názvy grafu, legendy, … • Ne vždy je graf přehlednější než tabulka A na co ještě?

Srozumitelnost výkladu

6; 3%

1; 0%

32; 15%

Hodnocení 1

64; 29% 114; 53%

103; 47%

Hodnocení 5

Hodnocení 1

34; 16%

18; 9%

Hodnocení 1

Hodnocení 1

5; 2%

Hodnocení 5

Hodnocení 3 Hodnocení 4 Hodnocení 5

25; 11%

Hodnocení 1

89; 41%

Hodnocení 3 Hodnocení 4

Hodnocení 2

Grafická úprava

Hodnocení 2

81; 75; 39% 36%

Hodnocení 5

96; 44%

8; 4%

31; 15%

Hodnocení 4

82; 38%

Hodnocení 3

Praktické aplikace

Hodnocení 3

5; 2%0; 0%

Hodnocení 2

Hodnocení 5

3; 1%

Hodnocení 2

Užitečnost úloh k samostatné práci

Hodnocení 4

80; 37%

Hodnocení 1

76; 35%

Hodnocení 4

73; 34%

0; 0%

37; 17%

Hodnocení 3

1; 0%

48; 22%

Srozumitelnost řešených příkladů

Hodnocení 2

Množství řešených příkladů 15; 7%

2; 1%

92; 42%

2 grafy ještě chybí …

Hodnocení 2 Hodnocení 3 Hodnocení 4 Hodnocení 5

Hodnocení modulu PRA (220 respondentů) Dostatečnost textu

66

Míra používání textu

85

76

Grafická úprava

55

67

52

89

Praktické aplikace

75

Užitečnost úloh k samostatné práci

73

Srozumitelnost řešených příkladů

76

Srozumitelnost výkladu

80

85 18 3

96

34 48

103

64 0%

25 81

82

Množství řešených příkladů

23 1

92

31

63

114

5 15 1

37 32

2 61

10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1

2

3

4

5

100% skládaný pruhový graf


• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu • Nadbytečné názvy grafu, legendy, … • Ne vždy je graf přehlednější než tabulka • „Jediná věc je horší než výsečový graf – několik nebo dokonce mnoho výsečových grafů“ Van Belle

Kategoriální proměnná ordinální (má smysl uspořádání)

(např. míra nezaměstnanosti (nízká, střední, vysoká), dosažené vzdělání, …)


Seřazené podle velikosti

TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi

Absolutní četnosti ni

Relativní četnosti pi

Kumulativní četnosti mi

Kumulativní relativní četnosti Fi

x1

n1

p1=n1/n

n1

p1

x2

n2

p2=n2/n

n1+n2

p1+p2

xk

nk

pk=nk/n

n1+n2+…+nk=n

p1+p2+…+pk=1

Celkem:

n1+n2+…+nk=n

1

----

----

+ Modus

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Míra nezaměstnanosti

Absolutní četnosti

Relativní četnosti [%)

Kumulativní četnosti

Kumulativní relativní četnosti [%)

nízká

27

13,6

27

13,6

střední

146

73,7

173

87,4

vysoká

25

12,6

198

100,0

Celkem:

198

100,0

Modus = střední


B) Výsečový graf – koláčový graf (pie chart)

EDA pro numerická data


A) Míry polohy (úrovně) B) Míry variability

Míry polohy

Aritmetický průměr n

x

x i 1

n

i

1.

Průměrný věk 20 osob v místnosti je 25 let. 28 letý člověk odejde z místnosti a 30 letý člověk do místnosti vejde.  Změní se průměrný věk osob v místnosti?  Pokud ano, jaký je „nový“ průměrný věk osob v místnosti?


x

x i 1

i

n

Pozor na ošidnost aritmetického průměru!

Jeden člověk sní celé kuře, druhý nic. V průměru měl každý půlku kuřete, takže se oba dobře najedli. ??? Průměr slouží k získání charakteristik velkého souboru objektů, ale ne k popisu jednotlivých objektů z tohoto souboru.

Předpokládejme, že v malé vesnici žije 6 lidí, jejichž roční příjem byl: $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Jaký je jejich průměrný plat? ($31 830)

Do vesničky se přistěhoval Bill Gates (roční příjem $40 000 000)

Jaký je nyní průměrný plat obyvatel vesnice? ($5 741 571)


x

x i 1

i

n

Na co si dát pozor? • Průměr není rezistentní vůči odlehlým pozorováním! • Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) • Geometrický průměr (tempa růstu) • Vážený průměr • Průměrování dat na cirkulární škále Circular Statistics Toolbox

2.

Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat?

Počet kuřat

Celková váha [kg]

Celková cena [Kč]

původně

1 000

1 370

50  1 370

prodáno

300

zůstalo

24 000

2.


Počet kuřat

Celková váha [kg]

Celková cena [Kč]

původně

1 000

1 370

50  1 370

prodáno

300

24 000/50 = 480

24 000

zůstalo

2.


Počet kuřat

Celková váha [kg]

Celková cena [Kč]

původně

1 000

1 370

50  1 370

prodáno

300

24 000/50 = 480

24 000

zůstalo

2.


Počet kuřat

Celková váha [kg]

Celková cena [Kč]

původně

1 000

1 370

50  1 370

prodáno

300

24 000/50 = 480

24 000

zůstalo

700

1370 – 480 = 890

890 x  1,27 700

kg

3.

Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná – 5 km.

A

B

C

AB

BC

CD

Dráha [km]

5

5

5

Rychlost [km/h]

40

50

60

D

3.


A

B

C

AB

BC

CD

Dráha [km]

5

5

5

Rychlost [km/h]

40

50

60

5/40

5/50

5/60

Čas [h]

D

3.


A

B

C

D AD

AB

BC

CD

Dráha [km]

5

5

5

Rychlost [km/h]

40

50

60

5/40

5/50

5/60

Čas [h]

3.


A

B

C

D

AB

BC

CD

AD

Dráha [km]

5

5

5

15

Rychlost [km/h]

40

50

60

5/40

5/50

5/60

Čas [h]

x

15 3   48,7 5 5 5 1 1 1     40 50 60 40 50 60

5/40 + 5/50 + 5/60

km / h

3.


A

B

C

D

AB

BC

CD

AD

Dráha [km]

5

5

5

15

Rychlost [km/h]

40

50

60

5/40

5/50

5/60

Čas [h]

x

15 3   48,7 5 5 5 1 1 1     40 50 60 40 50 60

5/40 + 5/50 + 5/60

km / h

Harmonický průměr

3.

Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy.

A

B

C AB

Dráha [km] Rychlost [km/h]

D BC

0,15AD 40

CD 0,60AD

50

60

3.


A

B

Dráha [km] Rychlost [km/h]

C

D

AB

BC

CD

0,15AD

0,25AD

0,60AD

40

50

60

3.


A

B

Dráha [km] Rychlost [km/h] Čas [h]

C

D

AB

BC

CD

0,15AD

0,25AD

0,60AD

40

50

60

0,15AD/40

0,25AD/50

0,60AD/60

3.


A

B

Dráha [km] Rychlost [km/h] Čas [h]

C

D

AB

BC

CD

AD

0,15AD

0,25AD

0,60AD

AD

40

50

60

0,15AD/40

0,25AD/50

0,60AD/60

AD 1 x   53,3 0,15 AD 0,25 AD 0,60 AD 0,15 0,25 0,60     40 50 60 40 50 60

0,15AD/40 + 0,25AD/50 + 0,60AD/60

km / h

Vážený harmonický průměr

4.

Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie?

Cena akcie [Kč] 13. března

952,50

14. března

?

15. března

982,0

4.

Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie?

Cena akcie [Kč]

Koeficient růstu

13. března

952,50

14. března

?

?/952,5

15. března

982,0

982,0/?

Průměrný denní relativní přírůstek ceny akcie byl 1,5%. x

? 982,0 982,0    1,015 952,5 ? 952,5

Geometrický průměr

Výběrové kvantily 100p %-ní kvantil 𝑥𝑝 • odděluje 100p% menších hodnot od zbytku souboru (100p% hodnot datového souboru je menších než toto číslo.)

Význačné výběrové kvantily • Kvartily Dolní kvartil 𝑥0,25 Medián 𝑥0,5 Horní kvartil 𝑥0,75 • Decily – 𝑥0,1 ; 𝑥0,2 ; ... ; 𝑥0,9 • Percentily – 𝑥0,01 ; 𝑥0,02 ; …; 𝑥0,03 • Minimum 𝑥𝑚𝑖𝑛 a Maximum 𝑥𝑚𝑎𝑥

Jak se výběrové kvantily určují? Jedna z používaných metod: 1. Výběrový soubor uspořádáme podle velikosti. 2. Jednotlivým hodnotám proměnné přiřadíme pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí n (rozsah souboru). 3. 100p%- ní kvantil je roven hodnotě proměnné s pořadím 𝑧𝑝 , kde 𝑧𝑝 = 𝑛𝑝 + 0,5. 4.

Není-li 𝑧𝑝 celé číslo, pak daný kvantil určíme jako průměr prvků s pořadím 𝑧𝑝 a 𝑧𝑝 .

5.

V předložených datech určete 0,3 kvantil (30-ti procentní kvantil):

MN [%] 8,7 7,8 6,8 6,8 7,8 9,7 15,7 6,8 4,9 6,8 𝑧𝑝 = 𝑛𝑝 + 0,5

5.


MN [%] 8,7 7,8 6,8 6,8 7,8 9,7 15,7 6,8 4,9 6,8 𝑧𝑝 = 𝑛𝑝 + 0,5

MN [%] (seřazeno) 4,9 6,8 6,8 6,8 6,8 7,8 7,8 8,7 9,7 16 ⇒ 𝑧0,3 = 10 ∙ 0,3 + 0,5 = 3,5

5.


MN [%] 8,7 7,8 6,8 6,8 7,8 9,7 15,7 6,8 4,9 6,8

MN [%] (seřazeno) 4,9 6,8 6,8 6,8 6,8 7,8 7,8 8,7 9,7 16

𝑧𝑝 = 𝑛𝑝 + 0,5 ⇒ 𝑧0,3 = 10 ∙ 0,3 + 0,5 = 3,5

𝑥0,3

6,8 + 6,8 = = 𝟔, 𝟖 2

6.

Průměrný věk 20 osob v místnosti je 25 let. 28 letý člověk odejde z místnosti a 30 letý člověk do místnosti vejde.  Změní se medián věku osob v místnosti?  Pokud ano, jaký je „nový“ medián věku osob v místnosti?

7.

Průměrný věk 21 osob v místnosti je 25 let. 28 letý člověk odejde z místnosti a 30 letý člověk do místnosti vejde.  Změní se medián věku osob v místnosti?  Pokud ano, jaký je „nový“ medián věku osob v místnosti?

Efekt změny jednotky Jak se změní míry polohy, změníme-li jednotku měřené veličiny (minuty  hodiny, metr  palec, atd.)? • Když přičteme konstantu ke každé hodnotě, tak se průměr i medián změní o tutéž konstantu. • Když každou hodnotu násobíme konstantou, průměr i medián jsou násobeny toutéž konstantou.

Míry variability

Výběrový rozptyl

 x n

s2 

i 1

i

 x

2

n 1

Na co si dát pozor? Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.

Výběrová směrodatná odchylka

 x n

s s  2

i 1

i

 x

n 1

2

Jakou představu o variabilitě dat nám dává sm. odchylka? 1 Čebyševova nerovnost: ∀𝑘 > 0: 𝑃 𝜇 − 𝑘𝜎 < 𝑋 < 𝜇 + 𝑘𝜎 > 1 − 2 𝑘 k 1 2 3

𝑃 𝜇 − 𝑘𝜎 < 𝑋 < 𝜇 + 𝑘𝜎 >0 >0,75 >0,89

Empirické pravidlo 3 sigma k 1 2 3

𝑃 𝜇 − 𝑘𝜎 < 𝑋 < 𝜇 + 𝑘𝜎 0,682 0,954 0,998

Variační koeficient

(Směrodatná odchylka v procentech aritmetického průměru)

s Vx  100 % x • Čím nižší var. koeficient, tím homogennější soubor. • Vx > 50% značí silně rozptýlený soubor.

Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.

Interkvartilové rozpětí

𝐼𝑄𝑅 = 𝑥0,75 - 𝑥0,25

Užití: např. při identifikaci odlehlých pozorování

Efekt změny jednotky Jak se změní míry variability, změníme-li jednotku měřené veličiny (minuty  hodiny, metr  palec, atd.)? • Když přičteme konstantu ke každé hodnotě, vzdálenosti mezi hodnotami zůstanou zachovány. V důsledku toho se rozptyl ani směrodatná odchylka nezmění. • Když každou hodnotu násobíme konstantou, rozptyl je násoben kvadrátem této konstanty (viz definice rozptylu), směrodatná odchylka je násobena danou konstantou.

8. Průměrná roční teplota v Praze je 10,40°C, rozptyl teploty je 0,25°C2. Určete průměrnou roční teplotu v Praze a její rozptyl ve stupních Fahrenheita. 9𝐶 𝐹= + 32 5 9 5

𝑥 °𝐹 = 𝑥 °𝐶 + 32 = 50,72°F

2

𝑠 °𝐹

2

=

9 2 2 𝑠 5

°𝐶 2 = 0,81°F2

MAD • median absolute deviation from the median, čili česky: medián absolutních odchylek od mediánu • pomocná proměnná pro identifikaci odlehlých pozorování Jak jej určíme? 1. Výběrový soubor uspořádáme podle velikosti. 2. Určíme medián souboru. 3. Pro každou hodnotu souboru určíme absolutní hodnotu její odchylky od mediánu. 4. Absolutní odchylky od mediánu uspořádáme podle velikosti. 5. Určíme medián absolutních odchylek od mediánu, tj. MAD.

Odlehlá pozorování • ty hodnoty proměnné, které se mimořádně liší od ostatních hodnot a tím ovlivňují např. vypovídací hodnotu průměru. Jak postupovat v případě, že v datech identifikujeme odlehlá pozorování? • V případě, že odlehlost pozorování je způsobena: – hrubými chybami, překlepy, prokazatelným selháním lidí či techniky ... – důsledky poruch, chybného měření, technologických chyb ... tzn., známe-li příčinu odlehlosti a předpokládáme-li, že již nenastane, jsme oprávněni tato pozorování vyloučit z dalšího zpracování. • V ostatních případech je nutno zvážit, zda se vyloučením odlehlých pozorování nepřipravíme o důležité informace o jevech vyskytujících se s nízkou četností.

Identifikace odlehlých pozorování • Metoda vnitřních hradeb

x

i

 x0, 25  1,5IQR  xi  x0,75  1,5IQR  xi je odlehlým pozorováním Dolní mez vnitřních hradeb

Horní mez vnitřních hradeb

Identifikace extrémních pozorování • Metoda vnějších hradeb

xi  x0,25  3IQR  xi  x0,75  3IQR   xi Dolní mez vnějších hradeb

Horní mez vnějších hradeb

je extrémním pozorováním

9.

V předložených datech identifikujte odlehlá pozorování:

MN0,25=6,8 MN0,5=7,3 MN0,75=8,7

Vnitřní hradby: Dolní mez: 6,8-2,85=3,95

MN [%] 4,9 6,8 6,8 6,8 6,8 7,8 7,8 8,7 9,7 15,7

IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85

Horní mez: 8,7+2,85=11,55

9.

V předložených datech identifikujte odlehlá pozorování:

MN0,25=6,8 MN0,5=7,3 MN0,75=8,7

Vnitřní hradby: Dolní mez: 6,8-2,85=3,95

MN [%] 4,9 6,8 6,8 6,8 6,8 7,8 7,8 8,7 9,7 15,7

IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85

Horní mez: 8,7+2,85=11,55

Identifikace odlehlých pozorování z-souřadnice 𝑧 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒𝑖 =

𝑥𝑖 − 𝑥 𝑠

Je-li 𝑧 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒𝑖 > 3, je 𝑥𝑖 odlehlým pozorováním.

Zase nový vzorec?

Identifikace odlehlých pozorování z-souřadnice 𝑧 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒𝑖 =

𝑥𝑖 − 𝑥 𝑠

Je-li 𝑧 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒𝑖 > 3, je 𝑥𝑖 odlehlým pozorováním. Ne, jde jen o jinou podobu pravidla 3𝜎!

Identifikace odlehlých pozorování 𝒙𝟎,𝟓 -souřadnice 𝑥0,5 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒𝑖 =

𝑥𝑖 − 𝑥0,5 1,483𝑀𝐴𝐷

Je-li 𝑥0,5 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒𝑖 > 3, je 𝑥𝑖 odlehlým pozorováním.

Míry šikmosti a špičatosti

Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin?

Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008

Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé.

Výběrová šikmost (standardizovaná) 𝑛

𝑎=

𝑓(x)

𝑛−1 𝑛−2

∙

𝑛 𝑖=1

𝑥𝑖 − 𝑥 𝑠3

𝑓 (x)

𝑓 (x)

x 𝑎<0 negativně zešikmené rozdělení

𝑥 < 𝑥0,5 < 𝑥

3

x

x 𝑎=0 symetrické rozdělení 𝑥 = 𝑥0,5 = 𝑥 obvykle

𝑎>0 pozitivně zešikmené rozdělení 𝑥 > 𝑥0,5 > 𝑥

Výběrová špičatost (standardizovaná) • míra koncentrace kolem průměru 𝑛 𝑛+1 𝑏= ∙ 𝑛−1 𝑛−2 𝑛−3

𝑛 𝑖=1

𝑥𝑖 − 𝑥 𝑠4

4

𝑛−1 2 −3 𝑛−2 𝑛−3

𝑓 (x)

𝑓(x)

x

𝑏<0 špičatost menší než u norm. rozdělení (plošší rozdělení)

𝑓 (x)

x

x

𝑏=0 špičatost odpovídající normálnímu rozdělení

𝑏>0 špičatost větší než u norm. rozdělení (špičatější rozdělení)

Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin?

Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008

Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. K číselnému vyjádření těchto rozdílů nám slouží další charakteristiky - šikmost (g1, angl. skewness) a špičatost (g2, angl. kurtosis).

Přesnost číselných charakteristik

Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.

Chybný zápis číselných charakteristik

Průměr Medián Směrodatná odchylka Proč je zápis chybný?

Délka [m]

Váha [kg]

Teplota [0C]

2,26 2,675

127,6 117,8

0,78

23,7

14 567 13 700 1 200 (před zaokrouhlením 1235)



Délka [m]

Váha [kg]

Teplota [0C]

2,26 2,675

127,6 117,8

0,78

23,7


Různý počet des. míst.



Délka [m]

Váha [kg]

Teplota [0C]

2,26 2,675

127,6 117,8

0,78

23,7


3 platné Různý cifry počet des. u směrodatné míst. odchylky.


Průměr Medián Směrodatná odchylka

Proč je zápis chybný?

Délka [m]

Váha [kg]

2,26 2,675

127,6 117,8

Teplota [0C]

14 567 13 700 1 200 0,78 23,7 (před zaokrouhlením 1235) Nejnižší zapsaný řád 3 platné průměru (jednotky) Různý neodpovídá nejnižšímu cifry počet des. u zapsanému řádu směrodatné směrodatné odchylky (stovky)+ směr. míst. odch. není zaokrouhlena odchylky. nahoru.

Oprava



Délka [m]

Váha [kg]

2,26 2,68

127,6 117,8

0,78

Teplota [0C]

14 567 13 700 1 200 23,7 (před zaokrouhlením 1235) Nejnižší zapsaný řád 3 platné průměru (jednotky) neodpovídá nejnižšímu cifry u zapsanému řádu směrodatné směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena odchylky. nahoru.

Oprava



Délka [m]

Váha [kg]

Teplota [0C]

2,26 2,675

128 118

0,78

24

14 567 13 700 1 200 (před zaokrouhlením 1235) Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

Správný zápis číselných charakteristik


Délka [m]

Váha [kg]

Teplota [0C]

2,26 2,675

127,6 117,8

14 600 13 700

0,78

23,7

1 300

Grafické znázornění num. proměnné A.) Krabicový graf (Box plot)

Četnost 45 40 35 30 25 20 15 10 5 0 Četnost 16 14 12 10 8 6 4 2 0 (158,7; 168,1>

(139,9; 149,3>

(121,1; 130,5>

(102,3; 111,7>

(83,5; 92,9>

(64,7; 74,1>

(45,9; 55,3>

<27,1; 36,5>

(147,4; 177,6>

(117,4; 147,4>

(87,3; 117,4>

(57,2; 87,3>

<27,1; 57,2>

Grafické znázornění num. proměnné B.) Histogram

Na co si dát pozor?

Grafické znázornění num. proměnné B.) Histogram

Grafické znázornění num. proměnné B.) Histogram Četnost 45 40 35 30 25 20 15 10 5 0

30

Četnost

25 20 15 10 5

(147,4; 177,6>

(117,4; 147,4>

(87,3; 117,4>

(57,2; 87,3>

<27,1; 57,2>

0

Výpočetní applet Explorační analýza

27,1 43,8 60,6 77,3 94,0 110,7 127,4 144,1 160,8 Další

Data

MS Excel 2007, funkce Histogram

Na co si dát pozor?

Souvislost mezi číselnými charakteristikami a grafy

V java appletu Výběrové charakteristiky sledujte souvislost mezi číselnými charakteristikami a grafy numerické proměnné.

Zajímavé odkazy k tématu Exploratorní statistika • Slovníček pojmů z exploratorní statistiky aneb co by se Vám mohlo hodit při práci se statistickým softwarem v angličtině • Interstat – sylabus popisné statistiky (nedokončeno) • Jak nevytvářet grafy (anglicky) The Evil Tutor‘s Guide

•

Real Time Statistics Project

• Projekt Gapminder • Circular Statistics Toolbox (Matlab)

Přednáška 5. Výběrová šetření, Exploratorní analýza

Recommend Documents