Předmět studia: Ekonomická statistika a analytické metody I, II Typ a zařazení předmětu: povinný předmět bakalářského studia, 1. ročník Rozsah předmětu: 2 semestry, celkem 24/0 hodin v kombinované formě studia a 2/1 týdně v prezenční formě studia. Studijní obory: Ekonomika a management malého a středního podnikání Obsah předmětu: jednorozměrná statistika, popis dat, metody zpracování dat, základní a výběrové soubory, základní pojmy z pravděpodobnosti, modelová rozdělení, základní charakteristiky polohy a variability; výběrová šetření, induktivní úsudky na základě náhodných výběrů, základy teorie odhadu, bodové a intervalové odhady některých parametrů; teorie testování statistických hypotéz, vybrané parametrické a neparametrické testy; použití statistických metod: lineární regrese a korelace, korelace pořadí, problematika zpracování velkých souborů, programy pro statistické zpracování; kvantitativní metody v marketingu, základní metody analýzy časových řad, indexní analýza a indexy používané v české statistické praxi, index spotřebitelských cen, měření inflace; analýza dat z marketingových průzkumů, kontingenční tabulky, vybrané analytické metody pro management (SWOT analýza, portfolio metoda). Literatura: a) základní: Bezvoda, V. – Blahuš, P.: Finanční matematika a statistika. 3. vyd., Praha, BIVŠ 2004. ISBN 807265-042-4. Blatná, D.: Statistika a pravděpodobnost. 3. vyd., Praha, BIVŠ 2007. ISBN 978-80-7265-109-2. Blatná, D.: Metody statistické analýzy. 3. vyd., Praha, BIVŠ 2008. ISBN 978-80-7265-129-0. b) doplňková: Hindls, R. – Hronová, S. - Seger, J.: Statistika pro ekonomy. 7. vyd., Praha, Professional Publishing 2006. ISBN 80-86946-16-9. Arltová, M. – Bílková, D. – Jarošová, E. – Pourová, Z.: Příklady k předmětu Statistika A. 2. vyd., Praha, Oeconomica 2004. ISBN 80-245-0730-7. Jarošová, E. – Pecáková, I.: Příklady k předmětu Statistika B. Praha, VŠE 2000. ISBN 80245-0015-9
Kolektiv autorů: Sektorové trendy v ekonomice České republiky. Praha, String 1993. ISBN 80901600-0-X. Způsob ukončení: zápočet po ZS (pro prezenční studium), klasifikovaný zápočet po LS Vyučující: doc. Ing. Dagmar Blatná, CSc., RNDr. Ivana Malá, CSc. Garant předmětu: doc. Ing. Dagmar Blatná, CSc.
Elementární popisná statistika Slovo statistika má původ v latinském slově status (stát). Původní cíl statistiky spočíval ve sbírání informací o státu, počtu obyvatel, o velikosti jejich majetku, o hospodaření, soupisy plátců daní, evidence narození a úmrtí a podobně.
Dnes lze zjednodušeně říci, že statistika se zabývá sběrem údajů a jejich vyhodnocováním. Sesbírané údaje se nemusí týkat pouze státu, ale i medicíny, biologie, chemie, fyziky, výroby, jazykovědy a mnoha dalších vědních oborů. Vznik statistiky jako vědní disciplíny se klade do 19. století. Za zakladatele současné statistiky je považován Adolphe Jacques Quételet (1796 – 1874).
Základní statistické pojmy Hromadný jev = takový jev, který se může mnohokrát opakovat a týká se skutečností velkého počtu prvků.
Individuální jev = protiklad hromadného jevu. Jedná se o jedno pozorování jednotlivého prvku.
Statistická jednotka Prvky, které sleduje statistika. Př.: osoba, věc, událost, organizace a další. Statistická jednotka musí být vymezena: o Věcně Stanovení určitých společných vlastností, jimiž se každý prvek souboru (statistická jednotka) musí projevovat a které musí být u každého prvku stejné. o Časově Je nutné určit období, do kterého zkoumané statistické jednotky patří. o Prostorově Určení regionu nebo místa, kde bude statistický průzkum probíhat. Statistický soubor tvoří souhrn statistických jednotek. Rozsah soboru = je tvořen počtem jednotek statistického souboru. Statistické znaky = vlastnosti statistických jednotek, které zkoumáme. o Jedná se o sledovanou veličinu. Mírou vlastnosti statistického znaku je hodnota (slovní / číselná).
Pokud je hodnota znaku shodná u všech jednotek, mluvíme o identifikačním znaku. Proměnné jsou znaky nabývající různých obměn. Základní soubor = statistický soubor všech statistických jednotek. Je určitá, věcně, prostorově a časově vymezená množina všech zkoumaných prvků, u nichž sledujeme hodnoty jisté sledované veličiny. Rozsah základního souboru: o Konečný nebo o Nekonečný. Výběrový soubor zpravidla se šetření provádí pouze na části základního souboru vybraného ze základního souboru = výběrový soubor. Výsledky získané z výběrového souboru slouží k úsudkům o celém základním souboru. Třídění statistický znaků (proměnných) Může být číselné (numerické, kvantitativní) a slovní (kategoriální, kvalitativní) Číselné znaky o Jejich varianty lze vyjádřit číselně. o Číselné znaky rozdělujeme na: Nespojité (diskrétní) a Podle toho, zda znak nabývá obměn, které lze vyjádřit celými čísly (např. známky ve škole, počet členů rodiny). Nabývají pouze několika celočíselných hodnot v určitém intervalu. Spojité Zda může v určitém intervalu nabýt různých hodnot a lze jej vyjádřit reálnými čísly R. (např. výška mezi 150 a 160 cm může nabýt 10 různých hodnot, ale i 100 různých hodnot). Mohou nabývat v intervalu libovolných hodnot. Slovní znaky: o jejich obměny lze vyjádřit jen slovně: alternativní znak = pokud mohou nabýt jen 2 obměn (pohlaví) množný znak = pokud může být více obměn (dosažené vzdělání, rodinný stav, typ dluhopisu)
Zpracování hodnot numerické proměnné Máme 3 etapy statistického zkoumání: 1. 2. 3. 4.
Statistické zjišťování (šetření), Statistické zpracování, Statistické vyhodnocování (rozbor), prezentace (publikace) výsledků statistického šetření.
Statistické zpracování Cíl statistického zpracování: Cíl: získat představu o vlastnostech a souvislostech zkoumaných jevů. Třídění statistických údajů – první krok zpracování. Úkolem třídění je vytvoření stejnorodých skupin (tříd) statistických jednotek podle obměn sledovaného statistického znaku, kterému říkáme třídící znak. Roztřídění souboru umožní poznat složení zkoumaných jevů a odhalovat vzájemné vztahy.
Třídící znak Třídící znak může být: 1. Slovní (kvalitativní), 2. Číselný (kvantitativní). Počet znaků, podle kterých provádíme třídění: 1. Jednostupňové (prosté) třídění – podle jednoho třídního znaků. 2. Vícestupňové (kombinační) třídění – podle více Nejčastější bývá dvoustupňové třídění. Třídy = skupiny vzniklé tříděním podle číselného znaku. Kategorie = skupiny vzniklé tříděním podle slovního znaku.
třídních
znaků.
Počet tříd Počet tříd je dán počtem obměn zkoumaného znaku. V případě spojitého třídícího znaku nebo nespojitého s velkým počtem obměn vytvoříme intervaly (skupiny). Počet skupin je dán počtem vytvořených intervalů. Počet skupin je dán povahou zkoumaného jevu a účelem třídění. Intervaly je nejjednodušší volit stejně velké. Pokud vy však tímto vznikly nesourodé skupiny, lze použít intervaly nestejné velikosti (např. ceny akcií na burze, příjmové skupiny obyvatel).
Četnosti Třídní četnost (skupinová četnost) Počet jednotek, které jsou zahrnuty do jednotlivých tříd (intervalů). Značíme je písmenem ni. Celková četnost je souhrnem třídních (skupinových) četností, značíme ji n.
Počet intervalů značíme k a vypočítáme podle následujících vzorců
Relativní četnosti Relativní četnosti pi vyjadřují strukturu souboru, získají se jako podíl:
Vlastnosti relativních četností: o o o pi = 1 … jev jistý o pi = 0 … jev nemožný V praxi se někdy násobí relativní četnosti 100; relativní četnost je pak vyjádřena v procentech
Absolutní četnosti (mi) Jsou nazývány též třídními četnostmi znaku xi, mi znamená, kolikrát byla hodnota xi naměřena, n je rozsah náhodného výběru a r je počet tříd, platí vztah Relativní četnosti (pi) pi=
, kde i = 1, 2, …, k,
vlastnosti relativních četností: o 0 ≤ pi ≤ 1, kde i = 1, 2, …, k, o Histogram = sloupcový diagram osa x znázorňuje intervaly představující třídy, do kterých jsme rozdělili zjištěná data, na osu y jsou nanášeny absolutní (mi) resp. relativní (pi) četnosti, nad každou třídou je sestaven obdelník, jehož výška odpovídá absolutní reps. Relativní četnosti této třídy, histogram používáme, pokud ve výběrovém rozdělení vystupují intervaly, ale lze ho uměle vytvořit v případě, když v rozdělení četností vystupují třídní znaky. Sturgesovo pravidlo slouží pro stanovení počtu intervalů: o
Polygon = spojnicový diagram spojující body o souřadnicích [xi; mi] případně [xi; pi], kde i = 1, 2, …, k o xi - hodnota kvantitativního znaku, o mi – četnost, o dle obecné úmluvy polygon začíná v bodě [x0; 0] a končí v bodě [xk+1; 0], kde
x0 = x1 – h,
xk+1 = xk + h,
h = x2 - x1
x1 a x2 nejsou hodnotami statistického znaku, ale jsou uměle přidány, v případě intervalových tříd se na osu x vynášejí zástupci těchto tříd zi, který bývají vypočítány pomoci vzorce pro aritmetický průměr. Kruhový diagram různým hodnotám náhodné veličiny odpovídají kruhové výseče, jejichž obsahy jsou v odpovídajícím poměru k příslušným relativním četnostem
Charakteristiky polohy Charakteristiky polohy určují přibližně polohu hodnot náhodného výběru (a tím i základního souboru) na číselné ose. Ploha čili velikost hodnot.
Aritmetický průměr Nechť (x1, x2, …, xn) je konkrétní realizace náhodného výběru. Statistiku aritmetický průměr.
nazýváme
V případě zatříděného souboru využijeme pro výpočet aritmetického průměru vzorec upravený o mi.
xi
…
(i = 1, 2, …, n) je hodnota náhodné,
mi
…
je třídní četnost,
k
…
je počet tříd,
n
…
je rozsah náhodného výběru.
Modus Je ta hodnota statistického znaku, která má v náhodném výběru největší četnost. Takových hodnot může být i několik. Pokud je v souboru jen jeden modus, je nazýván typickou hodnotou statistického znaku. Slovo modus má původ ve francouzském slově mode – móda. To co je v módě, se vyskytuje zpravidla kolem nás nejčastěji.
Medián Při zjišťování mediánu je nejprve nutné hodnoty náhodného výběru seřadit do neklesající posloupnosti. Medián najdeme v této neklesající posloupnosti. Je to ta hodnota, která leží uprostřed této posloupnosti. Pokud je lichá počet hodnot, je mediánem přímo jedna prostřední hodnota. Pokud je v náhodném výběru sudý počet hodnot, je mediánem aritmetický průměr prostředních dvou členů posloupnosti. Při extrémních hodnotách nebo například v případě chyby v měření dáváme této charakteristice přednost před aritmetickým průměrem. Je-li n liché číslo:
Je-li n sudé číslo:
Kvantily Jsou hodnoty znaků, které rozdělují soubor v určitém procentuálním poměru. p% kvantil je hodnota numerického znaku, který odděluje p % jednotek. Kvantil je hodnota statistického znaku (proměnné) určená tak, že rozděluje soubor hodnot určitého statistického znaku na dvě části: jedna část obsahuje ty hodnoty, které jsou menší (nebo stejné) než tento kvantil, druhá část naopak obsahuje ty hodnoty, které jsou větší (nebo stejné) než kvantil.
~ x
Např. dvacetipětiprocentní kvantil 25 odděluje 25 % malých hodnot a současně 75 % velkých hodnot. Tímto způsobem pak lze charakterizovat, např. při hodnocení úrovně mezd pracovníků v národním hospodářství, jaká mzdová hranice odděluje 25 % pracovníků s nejnižšími mzdami.
V praxi se používají zejména tyto skupiny kvantilů:
~ x ,~ x ,~ x
Kvartily ( 25 50 75) patří mezi kvantily, které rozdělují uspořádanou řadu hodnot na 4 stejné části:
~ x
První (dolní) kvartil 25, který odděluje 25 % jednotek s nejnižšími hodnotami,
~ x
Druhý (prostřední) kvartil 50, který odděluje 50 % jednotek s nízkými hodnotami a 50 % hodnot s vysokými hodnotami. Tento padesátiprocentní kvantil se také označuje jako medián (od latinského medius – prostřední). Třetí (horní) kvartil 75 odděluje 75 % jednotek s nízkými hodnotami od 25 % jednotek s vyššími hodnotami.
~ x
~ x ,~ x ,,~ x
Decily ( 10 20 90) rozdělují uspořádanou řadu na 10 stejných částí. Centily, resp. percentily ( 1 2 99) rozdělují uspořádanou řadu hodnot na 100 stejně početných částí.
~ x,~ x ,,~ x
Výpočet kvantilů v případě třídění prvků náhodné výběru pomocí absolutního výčtu prvků:
p 0,5, zp n100
kde n je rozsah souboru; p je relativní četnost nejnižších hodnot.
O něco málo složitější je výpočet kvantilů z intervalového rozdělení četností.
Charakteristiky variability Disperze (rozptyl) s2 Disperze s2 je součet čtverců odchylek všech hodnot náhodného výběru od aritmetického průměru, dělený rozsahem náhodného výběru.
V případě zatříděného náhodného výběru počítáme rozptyl dle následujícího vztahu.
Při výpočtech je výhodné použít výpočtový tvar vzorce rozptylu pro zatříděný náhodný výběr.
r
…
počet tříd
mi
…
absolutní četnost i-té třídy
n
…
rozsah náhodného výběru
Směrodatná odchylka
Směrodatná odchylka charakterizuje variabilitu náhodné veličiny ve stejných jednotkách, v jakých jsou zadány její hodnoty
Absolutní odchylka A Výběrová absolutní odchylka je definována jako aritmetický průměr absolutních hodnot rozdílů hodnot statistického znaku, vyskytujících se v náhodném výběru, od aritmetického průměru.
Výpočtový vztah pro zatříděný výběr je:
k
…
je počet tříd,
mi
…
je absolutní četnost i-té třídy a
n
…
je rozsah náhodného výběru.
Variační koeficient V Je definován jako podíl směrodatné odchylky a aritmetického průměru. Jedná se o bezrozměrnou veličinu vycházející v procentech. Z tohoto důvodu může sloužit k porovnávání variability dvou nebo více náhodných výběrů.
Variační rozpětí R Představuje rozdíl největší a nejmenší hodnoty statistického znaku z náhodného výběru. R = Xmax - Xmin
Normální rozdělení četností (Gaussovo rozdělení četností) Normální rozdělení pravděpodobnosti s parametry μ a σ Pro parametr
a parametr σ2 > 0
2
.
; je pro
definováno hustotou pravděpodobnosti ve
tvaru
Normované (standardizované) normální rozdělení Normální rozdělení se většinou značí
.
Rozdělení bývá označováno jako normované normální rozdělení, které má hustotu pravděpodobnosti:
Charakteristiky rozdělení Střední hodnota normálního rozdělení je
Normální rozdělení má rozptyl
Pro medián dostaneme
x0,5 = μ Koeficienty šikmosti i špičatosti normálního rozdělení jsou nulové, tzn.
Koeficent šikmosti (asymetrie) Sk Představuje míru nesymetrie náhodného výběru kolem aritmetického průměru.
Sk (ax) = 0 Rozdělení četností je souměrné, Čím je rozdělení četností šikmější, tím více se ax liší od 0 Ax > 0 Rozdělení je zešikmeno kladně Počty ztracených kreditů u dotázaných studentů byly spíše menší (převažují studenti bez ztracených kreditů) než větší (těch bylo méně, šest kreditů a více). Je tu více menších hodnot. Ax
0 Rozdělení je zešikmeno záporně. Je tu více větších hodnot.
Koeficient špičatosti (excesu) Ek Vyjadřuje koncentraci hodnot výběru kolem aritmetického průměru.
Při posuzování špičatosti se vychází ze srovnání popisovaného rozdělení četností s normovaným normálním rozdělením četností. bx = 0 Jedná se o normované normální rozdělení četností. bx > 0 Popisované rozdělení je špičatější než normované normální rozdělení četností. Počet odchylek od střední hodnoty je větší než u normálního rozdělení pravděpodobností. bx
0 Popisované rozdělení je plošší než normované normální rozdělení četností. Počet odchylek je menší než v případě normálního rozdělení pravděpodobností. Čím je tato míra odlišnější od nuly, tím více je rozdělení špičatější (resp. plošší).
Nominální variance NOMVAR Ukazatel nominální variance posuzuje, jak se zjištěná data rozptylují, jakou mají variabilitu. Používá se, pokud známe relativní četnosti a neznáme rozsah náhodné výběru n. Nabývá hodnot od 0 do 1.
Míra mutability M Míra mutability vyjadřuje variabilitu hodnot kategoriální proměnné. Čím vyšší je míra mutability, tím více je u proměnné obměn. Nejvyšší míra mutability nastane v případě, že rozsah náhodného výběru je roven počtu obměn.
Průměry (charakteristiky polohy) Aritmetický průměr Nejpoužívanější charakteristika polohy. Není vhodné ho používat v případech, kdy: jsou hodnoty statistického znaku nesymetricky rozložené kolem aritmetického průměru, soubor obsahuje extrémně nízké nebo vysoké hodnoty, součet hodnot statistického znaku nemá věcný smysl.
Harmonický průměr Používá se v případech, ve kterých má informační smysl součet převrácených hodnot statistického znaku.
Geometrický průměr Používá se v případech, kdy má nějaký informační smysl součin hodnot statistického znaku. Geometrický průměr z nezáporných hodnot statistického znaku x1, x2, …, xn je definován jako n-tá odmocnina z jejich součinu.
Kvadratický průměr Používá se v případě, že má smysl uvažovat součet čtverců hodnot statistického znaku. Kvadratický průměr z n hodnot statistického znaku x1, x2, …, xn je definován níže uvedeným vzorcem.
Vztahy mezi průměry Pro kladné honoty x1, x2, …, xn statistického znaku X platí mezi jejich výše uvedenými průměry následující vztah. Rovnost nastane pouze v případě, když jsou všechny hodnoty statistického znaku stejné.