Identifikační karta modulu Kód modulu Typ modulu
povinný
Jazyk výuky
čeština
Název Způsob ukončení
v jazyce výuky
Analýza a prezentace dat
česky
Analýza a prezentace dat
anglicky
Data analysis and presentation zkouška
*
Počet kreditů
5
Forma výuky Prezenční studium Kombinované studium
přednášek týdně
2 hod.
cvičení týdně
2 hod.
jedno soustředění
3 hod.
Doporučený typ studia Bakalářský
ročník
Magisterský
ročník
semestr
Magisterský navazující
ročník
semestr
Doktorský
ročník
semestr
2
semestr
3
Personální zabezpečení (vyplňte ve formátu Příjmení Jméno, bez titulů) Garant
Komárková Lenka
podíl na výuce
40 %
1. vyučující
Bína Vladislav
podíl na výuce
30 %
2. vyučující
Kotoučková Hana
podíl na výuce
30 %
3. vyučující
podíl na výuce
%
4. vyučující
podíl na výuce
%
5. vyučující
podíl na výuce
%
Výchozí předměty (pouze předměty ECTS, tedy s identem 6*****) 1. předmět (ident)
6MI211
podíl zastoupení
70 %
2. předmět (ident)
6MI221
podíl zastoupení
30 %
3. předmět (ident)
podíl zastoupení
%
4. předmět (ident)
podíl zastoupení
%
5. předmět (ident)
podíl zastoupení
%
*
Jeden ECTS kredit odpovídá 26 hodinám studijní zátěže průměrného studenta.
Zastoupení domén CEMS 1. doména
CBK2 Mathematics Statistics podíl zastoupení
2. doména
podíl zastoupení
%
3. doména
podíl zastoupení
%
4. doména
podíl zastoupení
%
5. doména
podíl zastoupení
%
100 %
Prerekvizity (předchozí odstudované moduly, případně jejich studijní průměr) 1. 2. 3. 4. 5.
Zaměření modulu 1.
postupy pro popis a prezentaci dat a jejich základní analýzy včetně reportování výsledků
2.
úvod do statistického induktivního uvažování (odhady a testy)
3.
základní statistické nástroje sloužící k analýze závislostí
4.
elementární modelovací techniky
5.
praktická aplikace uvedených metod na reálná data za použití vhodného statistického software s důrazem na interpetaci výsledků
Výstupy modulu (learning outcomes) Po úspěšném absolvování budou studenti schopni… 1.
identifikovat kvalitativní a kvantitativní statistické proměnné a vybrat pro ně vhodný způsob zpracování
2.
vytvářet tabulky a grafy souhrnně zobrazující příslušné popisné statistiky
3.
posuzovat normalitu kvantitativních dat a ověřovat i další předpoklady jednotlivých metod
4.
konstruovat bodové a intervalové odhady pro populační průměr a proporci
5.
porovnávat parametry polohy dvou nezávislých i závislých výběrů
6.
posoudit (ne)závislost dvou znaků pomocí dvourozměrných technik (graficky, v některých případech i testem), v případě dvou kvantitativních proměnných hledat vhodnou funkční závislost
7.
reportovat výsledky statistických analýz
Obsah modulu (podrobný rozpis témat) 1.
ÚVOD: Ukázky použití statistiky v ekonomii, marketingu a managementu. Popisná vs. matematická statistika - účel, obsah, metody, výstupy, obtížnost. Základní statistické pojmy - statistická jednotka (subjekt), statistický znak (proměnná), základní (populační) soubor, výběrový soubor. Kvalitativní (nominální, ordinální) a kvantitativní proměnné - rozdělení, příklady. Přehled statistického software (komerční, nekomerční). Datová matice, základní manipulace s daty (import, editování, filtrování, export).
2.
POPIS A PREZENTACE JEDNOROZMĚRNÝCH DAT: a) Kvalitativní data: - absolutní četnosti, relativní četnosti, tabulky (relativních) četností, kumulativní četnosti; - grafické znázornění: sloupcový graf, Clevelandův bodový graf, výsečový (koláčový) graf. b) Kvantitativní data: - číselné charakteristiky polohy (minimum, maximum, průměr, medián, kvantily) a variability (variační a kvartilové rozpětí, rozptyl a směrodatná odchylka, variační koeficient), medián vs. průměr, interpretace kvartilů, chování číselných charakteristik vzhledem k posunutí a změně měřítka; - grafické znázornění: boxplot (krabicový graf), histogram, qq-graf; - zavedení normálního rozdělení (intuitivně), posuzování normality na základě obrázků, pravidlo dvou, resp. tří směrodatných odchylek; - kategorizace kvantitativních dat, důvody kategorizace, volba velikosti intervalu.
3.
POPIS A PREZENTACE DVOUROZMĚRNÝCH DAT: a) Kvalitativní vs. kvalitativní veličina: - sdružené absolutní (relativní) četnosti, marginální absolutní (relativní) četnosti, kontingenční tabulka, podmíněné četnosti, nezávislost znaků; - grafické znázornění: podmíněné sloupcové grafy, podmíněné kumulativní sloupcové grafy. b) Kvantitativní vs. kvalitativní veličina: - podmíněné míry polohy (podmíněná minima a maxima, podmíněné průměry a mediány, podmíněné kvantily) a variability (podmíněné rozptyly a směrodatné odchylky, podmíněná variační a kvartilová rozpětí, podmíněné variační koeficienty), subjektivní vyhodnocení (ne)závislosti znaků; - grafické znázornění: podmíněné histogramy, boxploty, qq-grafy. c) Kvantitativní vs. kvantitativní veličina: - výběrová kovariance a korelace, vlastnosti korelačního koeficientu, nekorelovanost vs. nezávislost, statistická závislost vs. kauzalita; - grafické znázornění: scatterplot (rozptylový graf).
4.
VIZUALIZACE A REPORTOVÁNÍ STATISTICKÝCH DAT: Principy tvorby tabulek a grafů, optické klamy u grafů, vizualizace dat jako nástroj průzkumové analýzy, zásady psaní statistických zpráv. Statistické grafy: - rozšíření již zavedených grafů: prstencový graf, pp-graf, kombinovaný krabicový a bodový graf, měřící bodový graf, histogram v polárních souřadnicích, bublinový graf, atd.; - speciální grafy: strom života (věková pyramida), Paretův graf, zobrazování časových řad (spojnicový, plošný graf); - vizualizace vícerozměrných dat: zobecněné rozptylové diagramy (scatterploty), symbolové grafy
(profily, polygony, tváře, křivky a stromy). 5.
TYPY STATISTICKÝCH STUDIÍ: Výběrová šetření - reprezentativní (průzkumy) vs. nereprezentativní (anketa), typy náhodných výběrů (prostý náhodný výběr s vracením a bez vracení, oblastní (strafikovaný) náhodný výběr), opora výběru, výběrová chyba a výběrové vychýlení, příklady špatné volby opory výběru, příčiny výběrového vychýlení. Experimentální studie - klinický pokus, průmyslový experiment. Pozorovací studie - prospektivní, retrospektivní, kohortové studie. Ukázky použití, rozdíly v možnostech zobecňování výsledků pro jednotlivé typy studií.
6.
ZÁKLADY ODHADOVÁNÍ: Zobecňování popisných statistik na populaci, bodový odhad a směrodatná chyba odhadu, vlastnosti bodového odhadu (konzistence, nestrannost). Oboustranný a jednostranný intervalový odhad (interval spolehlivosti), interpretace intervalového odhadu, chování intervalového odhadu vzhedem k zadané spolehlivosti, vzhledem k rozsahu výběru, variabilitě dat. a) Kvalitativní data: bodový a intervalový odhad populační relativní četnosti. b) Kvantitativní data: bodový a intervalový odhad populačního průměru.
7.
ZÁKLADY TESTOVÁNÍ: Základní princip testování hypotéz, nulová a alternativní hypotéza, jednostranná a oboustranná verze testu, chyba I. druhu, chyba II. druhu a síla testu, hladina významnosti, problém současné minimalizace obou chyb, interpretace rozhodnutí (nezamítáme vs. přijímáme nulovou hypotézu, prokázat lze jen alternativu). Význam p-hodnoty a její praktické použití pro rozhodování, statistická vs. praktická významnost. Souvislost testování s intervalovými odhady. Formální ověřování normality (Shapirův-Wilkův test).
8.
JEDNOVÝBĚROVÉ TESTY: a) Kvalitativní data: - jednovýběrový test o proporci: nulová a alternativní hypotéza (symbolicky i slovně), základní princip testu, testová statistika, souvislost s intervalem spolehlivosti pro populační relativní četnost; - chí-kvadrát test dobré shody: pozorované vs. očekávané četnosti, souvislost s jednovýběrovým testem o proporci pro alternativní data, podmínka pro platnost asymptotické aproximace. b) Kvantitativní data: - jednovýběrový t-test: nulová a alternativní hypotéza (symbolicky i slovně, jednostranná, oboustranná alternativa), základní princip testu, souvislost s intervalem spolehlivosti pro populační průměr, předpoklady metody a situace, kdy není nutné brát zřetel na porušení předpokladu normality; - jednovýběrový Wilcoxonův test: předpoklady metody, odlišnost ve formulaci hypotéz oproti jednovýběrovému t-testu, jednovýběrový t-test vs. jednovýběrový Wilcoxonův test (proč se dává přednost parametrickým testům před neparametrickými).
9.
DVOUVÝBĚROVÉ TESTY (SROVNÁVÁNÍ DVOU NEZÁVISLÝCH VÝBĚRŮ): a) Kvalitativní data: - dvouvýběrový test o proporcích (založený na rozdílu): formulace nulové a alternativní hypotézy, základní princip testu, souvislost s intervalem spolehlivosti pro rozdíl relativních populačních četností; - chí-kvadrát test nezávislosti: homogenita podmíněných rozdělení, nulová hypotéza testu nezávislosti, očekávané (hypotetické) vs. pozorované (empirické) četnosti, testová statistika, řešení nesplněného předpokladu. b) Kvantitativní data: - dvouvýběrový t-test: formulace testového problému, souvislost s intervalem spolehlivosti pro rozdíl populačních průměrů, rozvolnění předpokladu normality výběrů, heteroskedastická (Welchova) verze
testu, prezentace výsledků v kombinaci s popisnou statistikou (podmíněné průměry a směrodatné odchylky); - dvouvýběrový Wilcoxonův (Mannův-Whitneyův, rank sum) test: předpoklady testu, odlišnost od dvouvýběrového t-testu ve formulaci nulové a alternativní hypotézy, příklady použití tohoto testu a situace, kdy není vhodné použít ani dvouvýběrový Wilcoxonův test, prezentace výsledků v kombinaci s popisnou statistikou (podmíněné mediány a podmíněná kvartilová rozpětí). 10. PÁROVÉ TESTY (SROVNÁVÁNÍ DVOU ZÁVISLÝCH VÝBĚRŮ): Význam párování a randomizace. a) Kvalitativní data: - McNemarův test: kontingenční tabulka 2x2, homogenita marginálních rozdělení, symetrie kontingenční tabulky, předpoklady testu, správná volba testu pro tabulky 2x2 (McNemarův test vs. chí-kvadrát test nezávislosti); - Stuartův test homogenity: zobecnění McNemarova testu, homogenita marginálních rozdělení ve čtvercové tabulce r x r. b) Kvantitativní data: - párový t-test: souvislost s jednovýběrovým testem s rozdíly, odlišnost v předpokladech použití od dvouvýběrového t-testu; - párový Wilcoxonův (signed rank) test: souvislost s jednovýběrovým Wilcoxonovým testem pro rozdíly, předpoklady testu, rozdíl v nulové hypotéze oproti dvouvýběrovému Wilcoxonovu testu. 11. ANALÝZA ROZPTYLU JEDNODUCHÉHO TŘÍDĚNÍ: Zobrazování dat v kontextu ANOVy jednoduchého třídění. ANOVA jednoduchého třídění jako zobecnění dvouvýběrového t-testu pro větší počet nezávislých výběrů, formulace nulové a alternativní hypotézy, tabulka analýzy rozptylu, diagnostické nástroje (reziduální grafy, Leveneův test homoskedasticity, Shapirův-Wilkův test aplikovaný na rezidua) a nápravné prostředky (logaritmická transformace), mnohonásobné porovnávání (rozdíl proti párovému srovnávání kumulace chyby, Bonferroniho princip, Tukeyova metoda). Heteroskedastická verze (Welchova ANOVA) a neparametrická verze analýzy rozptylu (KruskalůvWallisův test). Blokové studie jako nástroj pro porovnání většího počtu závislých výběrů (informativně). 12. JEDNODUCHÁ LINEÁRNÍ REGRESE: Normální regresní model a jeho předpoklady, odhad regresních koeficientů metodou nejmenších čtverců, intervaly spolehlivosti a testy pro regresní parametry, koeficient determinace, predikce, konfidenční vs. predikční interval, ověřování předpokladů (reziduální grafy, modifikovaný Leveneův test, ShapirůvWilkův test aplikovaný na rezidua) a nápravné prostředky. a) Regresní přímka: interpretace regresních parametrů, vztah koeficientu determinace a korelačního koeficientu. b) Ostatní regresní funkce: transformace prediktoru a/nebo odezvy, nalezení nejvhodnějšího modelu. 13
STRUČNÝ PŘEHLED DALŠÍCH STATISTICKÝCH PROCEDUR (pouze informativně): Vícenásobná lineární regrese (kvantitativní i kvalitativní prediktory), logistická regrese. Časové řady (nekorelované, korelované chyby). Vícerozměrné metody (shluková, diskriminační analýza, metoda hlavních komponent, faktorová analýza,…). Řešení ukázkové zkouškové písemky a diskuse nad dotazy studentů.
Metody výuky a studijní zátěž (počet hodin studijní zátěže) Prezenční forma
Kombinovaná forma
1. Účast na přednáškách
26 hod.
12 hod.
2. Příprava na přednášky
13 hod.
27 hod.
3. Účast na cvičeních/seminářích/tutoriálech
26 hod.
0 hod.
4. Příprava na cvičení/semináře/tutoriály
13 hod.
0 hod.
5. Příprava semestrální práce
13 hod.
26 hod.
6. Příprava prezentace
0 hod.
0 hod.
7. Příprava na průběžný test (testy)
13 hod.
26 hod.
8. Příprava na závěrečný test
26 hod.
39 hod.
9. Příprava na závěrečnou ústní zkoušku
0 hod.
0 hod.
10. Jiný požadavek (
0 hod.
0 hod.
130 hod.
130 hod.
Prezenční forma
Kombinovaná forma
1. Aktivita na přednáškách/cvičeních/seminářích
0%
0%
2. Vypracování semestrální práce
10 %
10 %
3. Prezentace
0%
0%
4. Absolvování průběžného testu (testů)
20 %
20 %
5. Absolvování závěrečného testu
70 %
70 %
6. Absolvování závěrečné ústní zkoušky
0%
0%
7. Jiný požadavek (
0%
0%
100 %
100 %
)
Celkem
Požadavky na ukončení (váha hodnocení)
)
Celkem
Zvláštní podmínky a podrobnosti Podíl využití ICT Podíl náplně s environmentální problematikou
60 % %
Literatura
1.
2.
3.
4.
5.
6.
7.
8.
Typ
základní
Název
Statistika pro ekonomy - aplikace, 2. vydání
Autor/autoři
Luboš Marek a kol.
Stav v knihovně FM
5 ks
Optimální cílový stav
10 ks
Typ
základní
ISBN
978-0-521-13007-3
Název
Data Analysis Using SAS Enterprise Guide (Paperback)
Autor/autoři
Lawrence S. Meyers, Glenn Gamst, A. J. Guarino
Stav v knihovně FM
0 ks
Optimální cílový stav
2 ks
Typ
základní
ISBN
978-1-84920-092-9
Název
Discovering Statistics Using SAS (Paperback)
Autor/autoři
Andy Field, Jeremy Miles
Stav v knihovně FM
0 ks
Optimální cílový stav
2 ks
Typ
doporučená
ISBN
978-1-4200-7057-6
Název
SAS and R: Data Management, Statistical Analysis, and Graphics (Hardcover)
Autor/autoři
Ken Kleinman, Nicholas J. Horton
Stav v knihovně FM
0 ks
Optimální cílový stav
2 ks
Typ
doporučená
ISBN
978-80-245-1227-3
Název
Základy analýzy dat a statistického úsudku s příklady v R
Autor/autoři
Lenka Komárková, Arnošt Komárek, Vladislav Bína
Stav v knihovně FM
5 ks
Optimální cílový stav
5 ks
Typ
doporučená
ISBN
978-80-245-1226-6
Název
Statistická analýza závislosti s příklady v R
Autor/autoři
Arnošt Komárek, Lenka Komárková
Stav v knihovně FM
5 ks
Optimální cílový stav
5 ks
Typ
doporučená
ISBN
978-0-4705-3703-9
Název
Statistics For Dummies Education Bundle (Two Books in 1, Paperback) (Statistics for Dummies + Statistics Workbook For Dummies)
Autor/autoři
Deborah Rumsey
Stav v knihovně FM
0 ks
Optimální cílový stav
2 ks
Typ
doporučená
ISBN
978-0-470-46646-9
Název
Statistics II for Dummies
Autor/autoři
Deborah Rumsey
Stav v knihovně FM
0 ks
Optimální cílový stav
2 ks
ISBN
978-80-86946-40-5
Literatura (pokračování)
9.
Typ
doporučená
Název
SAS For Dummies (2nd Edition, Paperback)
Autor/autoři
Stephen McDaniel, Chris Hemedinger
Stav v knihovně FM
0 ks
Optimální cílový stav
Typ 10.
Autor/autoři ks
Autor/autoři ks
Optimální cílový stav
ks
ISBN
Název Autor/autoři Stav v knihovně FM
ks
Typ
Optimální cílový stav
ks
ISBN
Název Autor/autoři Stav v knihovně FM
ks
Typ
Optimální cílový stav
ks
ISBN
Název Autor/autoři Stav v knihovně FM
ks
Typ 15.
ks
ISBN
Typ
14.
Optimální cílový stav
Název Stav v knihovně FM
13.
2 ks
ISBN
Typ
12.
978-0-470-53968-2
Název Stav v knihovně FM
11.
ISBN
Optimální cílový stav
ks
ISBN
Název Autor/autoři Stav v knihovně FM
ks
Optimální cílový stav
ks
Další požadavky (software, jiné učební pomůcky) 1. 2. 3. 4. 5.
Popis Počet (kusů, licencí)
ks
Celkové předpokládané náklady
Kč
ks
Celkové předpokládané náklady
Kč
ks
Celkové předpokládané náklady
Kč
ks
Celkové předpokládané náklady
Kč
ks
Celkové předpokládané náklady
Kč
Popis Počet (kusů, licencí) Popis Počet (kusů, licencí) Popis Počet (kusů, licencí) Popis Počet (kusů, licencí)
Zdroj modulu (vlastní idea, vyučované v zahraničí, …) 1.
Modul byl složen z toho dle našeho názoru nejdůležitějšího, co se dosud vyučovalo ve dvou povinných statistických kurzech (každý s výukou 2/2). Oproti dříve vyučovanému bylo navíc zařazeno 4. téma (Vizualizace a reportování statistických dat).
2. 3.
Jakékoliv další poznámky 1.
Po dlouhém a pečlivém uvážení nebyly do modulu zařeny základy teorie pravděpodobnosti, neboť tato látka danou problematiku u studentů nezprůhlednila, spíše naopak. Výklad je zjednodušen v tom smyslu, že se jedná o vztah výběr vs. populace, tj. o střední hodnotě se mluví jako o populačním průměru. Normální rozdělení a pravděpodobnost jsou zavedeny pouze intuitivně. Domníváme se, že tímto dojde k větší kontinuitě a srozumitelnosti přednesené látky. Nicméně základy teorie pravděpodobnosti budou zařazeny do modulu Techniky pro podporu rozhodování.
2.
V současné době počítáme pro výuku se statistickým software SAS (konkrétně s jeho grafickým rozhraním SAS Enterprise Guide). Dosud se statistické předměty vyučovaly se statistickým software R (konkrétně s nadstavbou Rcmdr).
3.
Předmět lze případně vyučovat již v 2. semestru 1. ročníku.