Základy zpracování kvantitativních dat ZZD
Mgr. Patrik Galeta, Ph.D.
ZS 2016
[email protected]
Sylabus je platný ke dni 22. 9. 2016
www.oba.zcu.cz/personalia/PG.php
http://portal.zcu.cz/wps/portal/predmety/kss/zzd
Cíle Kurz učí studenty základům zpracování kvantitativních informací v sociálních vědách, tj. popisné statistice a statistickému usuzování. Přednášky jsou uvedeny motivačním problémem ze sociologické literatury, na jehož základě se odvozuje technická stránka analýzy. Nejsou vyžadovány obsáhlé matematické znalosti. Důraz není kladen na odvození rovnic, ale na pochopení principu analýzy. Ve cvičení se poznatky prakticky aplikují na počítači v prostředí MS Excel. Způsobilosti Na konci kurzu budou studenti schopni: (1) Sumarizovat data z kvantitativních výzkumů do tabulek a grafů podle mezinárodních zvyklostí. (2) Vysvětlit princip a potřebu statistického usuzování v sociologických šetřeních. (3) Přečíst a použít informace z tabulek a grafů publikovaných v odborné literatuře. (4) Interpretovat výsledky základních kvantitativních analýz v odborné literatuře a odhadnout jejich smysl u pokročilejších analýz. (5) Provést základní statistické zhodnocení vlastních dat a prezentovat dosažené výsledky. (6) Ovládat všechny základní funkce MS Excel. Formát výuky Kurz vedeme standardní přednáškovou formou s navazujícím cvičením. Během cvičení budete v Počítačové laboratoři FF samostatně pracovat se software pro správu dat (Microsoft ® Excel 2007). Výstupem cvičení budou vyřešené vzorové příklady ve formátu MS Excel. Soubory MS Excel budou mít dynamický charakter, tj. změnou vstupních dat se automaticky přepočítají výsledky. Soubory tak budete moci použít na jakýkoliv obdobný problém s jinými vstupními daty. Případnou neúčastí na výuce ztratíte možnost ovlivnit průběh kurzu, významně se sníží Vaše schopnost pochopit princip probírané látky a zvýší se pravděpodobnost nutnosti naučení se látky nazpaměť bez pochopení souvislostí. Požadavky (1) Domácí příprava Samozřejmostí je, že se na přednášky a zejména na cvičení předem připravíte. Doporučujeme Vám prostudovat podklady uvedené v harmonogramu výuky (viz níže). Jedná se většinou o několik stran z učebnic, které si můžete stáhnout v PDF formátu na stránkách kurzu. Vyhrazujeme si právo se nepřipravenému studentu ve cvičení nevěnovat nebo jej (ji) ze cvičení vyloučit. (2) Dokončení práce z minulých cvičení
KSS/ZZD
ZS 2016
Na cvičení si budete přinášet správně vyřešené příklady v MS Excel ze všech předchozích cvičení (ukládejte je na přenosné disky nebo elektronické úložiště, ne na disk počítače v laboratoři). Důvodem je návaznost jednotlivých cvičení, protože staré soubory použijete při řešení nových úloh. O podrobnostech formátu souborů budete informováni na cvičení. Vyhrazujeme si právo nevěnovat se nebo vyloučit ze cvičení ty, kteří soubory nebudou mít k dispozici nebo si jen zajistí kopie souborů někoho jiného. Ukončení kurzu Kurz je ukončen zápočtem a zkouškou. Zápočet obdržíte v řádném termínu v případě, že do 16.12.2016 do 24.00 uspějete u více než poloviny Kontrolních testů (tj. získáte nejméně 51 % možných bodů). Kontrolní test je úkol vypracovaný v MS Excel či MS Word, při jehož řešení si ověříte, zda ve cvičení uspokojivě pracujete. Kontrolní test bude vždy obdobou úloh řešených na předchozích cvičeních. Kontrolní testy budou zadávány (bez předchozího upozornění) na většině cvičení. Za splněný test se považuje ten, který je dobře vypočítaný (správné výsledky, správné odkazy na správné buňky listů MS Excel apod.) a splňuje formální požadavky reprodukované na cvičení (zarovnání tabulek, barva, formát grafu apod.). Kontrolní testy budou zadávány nejčastěji na začátku cvičení a pro jejich splnění bude předem stanoven čas (obvykle 10 nebo 15 min), ve kterém je možné test vypracovat a odeslat na Portál ZČU ke kontrole. V uvedeném čase můžete test odevzdat vícekrát, platí vždy poslední odeslaná verze. Kontrolní testy nebude možné odesílat po uplynutí termínu. Výsledky hodnocení testů budete mít k dispozici do pátku do 24.00 daného týdne včetně. Při dlouhodobější a odůvodněné absenci na cvičeních budou podmínky zápočtu vyřešeny individuálně tak, abyste mohli zápočet reálně získat. Pracovní neschopnost oznamte a doložte vedoucí semináře bez zbytečného odkladu. Kontrolní testy musíte vytvářet samostatně. Není možné spolupracovat s někým jiným. Nelze rovněž okopírovat aplikaci od někoho jiného a změnit například formát buněk, aby se převzetí nepoznalo. Pokud zjistíme, že práce není výsledkem Vaší samostatné úvahy, zápočet v řádném termínu neobdržíte bez ohledu na předchozí či následné výsledky Kontrolních testů. Pokud nezískáte zápočet v řádném termínu, budete mít v posledním týdnu výuky k dispozici jeden opravný termín. Pro získání zápočtu v opravném termínu budete potřebovat úspěšně vyplnit jeden rozsáhlejší Kontrolní test, ve kterém budou vyžadovány znalosti z celého semestru. Doporučujeme, abyste využili naši přítomnost ve výuce a na konzultačních hodinách. Rádi Vám ukážeme problematické body, které případně bránily uznání úkolu. Hodnocení zkoušky sestává z testu. Test má písemnou formu a obsahuje 10–15 otázek. Všechny otázky předpokládají volnou slovní odpověď, nebudete mít možnost vybírat z předem stanovených možností. Hodnotíme především pochopení principu problému, návrh adekvátního způsobu hodnocení dat a schopnost interpretovat výsledky. Důležité je zdůvodnit postup, uvést pouze správný výsledek nestačí. V testu budete i počítat, ale ne složitě a dlouze. Uspějete, pokud pochopíte souvislosti a budete logicky přemýšlet. Naučení se nazpaměť k dobrému výsledku nevede. K úspěšnému absolvování testu postačí pouze informace z přednášek a doporučené literatury. Test má dva opravné termíny. K testu si přineste pouze psací potřeby, papír, statistické tabulky a kalkulačku. Osobní počítač, mobilní telefon, tablet apod. jako náhradu kalkulačky neakceptujeme. Doneste si vlastní kalkulačku, během testu si ji nebudete moci půjčovat od kolegů.
Fakulta filozofická ZČU v Plzni
2
Patrik Galeta, Martina Štípková
KSS/ZZD
ZS 2016
Bodové hodnocení zkoušky: 88,0-100,0 % výborně 76,0-87,9 % velmi dobře 65,0-75,9 % dobře 0,0-64,9 % nevyhověl (a) Základní literatura Doporučujeme Vám tři výborné učebnice zpracování dat. V každé z nich najdete oporu pro většinu témat přednášek. Můžete proto používat pouze jednu z nich. Kombinací zdrojů ale dosáhnete většího pochopení. Jak to už bývá, některá témata jsou perfektně vysvětlena v jedné knize, jiná v druhé nebo třetí. Agresti A, and Finlay B (1997) Statistical methods for the social sciences. Upper Saddle River, N.J.: Prentice Hall. Osvědčený zdroj. Oproti učebnicím biostatistiky Sokal, Rohlf (1995) a Zar (1999) je určena pro studenty společenských věd. Je proto dobře možné, že bude pro Vás pochopitelnější. K dispozici je i nová edice knihy Agresti, Finlay (2009).
Sokal, R. R., Rohlf, F. J. (1995). Biometry. The principles and practice of statistics in biological research. 3rd edition, New York: W. H. Freeman and company. Kvalitní odborný text, který přečtete stejně dychtivě jako Bulgakovovy romány. Pokud budete listovat bez předsudků, dosáhnete nenásilnou intuitivní formou pochopení i složitých konceptů. Jinými slovy, máte možnost sami sebe přesvědčit, že pochopení všech složitých úloh lze dosáhnout jejich rozdělením do mnoha malých banálních problémů.
Zar, J. H. (1999). Biostatistical analysis. 4rd edition, New Jersey: Prentice Hall. Výborná učebnice. Její výhodou je, že se Vám pravděpodobně bude zdát přehlednější než Sokal, Rohlf (1995). Učebnice je zřetelně členěna do kapitol, které odpovídají tématům přednášek. Každý problém je dokumentován na vzorových početních příkladech, ve kterých můžete sledovat postup řešení.
Informace ke kurzu Všechny informace ke kurzu jsou vystaveny na Portále ZČU, sekce CourseWare. Aktuální informace budeme posílat elektronicky na adresu, kterou máte uvedenou v Portálu a/nebo budou vystaveny na Nástěnce Katedry sociologie. Informace zde vystavené považujeme za zveřejněné. Případné obsahové a technické nedostatky stránek kurzu hlaste prosím ihned na adresu
[email protected], pomůžete udržet stránky v použitelném stavu. Etické normy studia a ochrana duševního vlastnictví jiných autorů Po celou dobu trvání kurzu jste povinni dodržovat etické normy studia a pracovat v souladu s pravidly ochrany duševního vlastnictví jiných autorů. Bližší informace viz Upozornění studentům vydaného dne 28. 1. 2005 proděkanem FF ZČU v Plzni pro studijní záležitosti. Nejasnosti a dotazy konzultujte s vyučujícími.
Fakulta filozofická ZČU v Plzni
3
Patrik Galeta, Martina Štípková
KSS/ZZD
ZS 2016
Rozpis témat přednášek a cvičení
1. téma
Měření
Jednotka výzkumu, proměnná, slovní a číselné hodnoty proměnných. Typy proměnných, poměrové, intervalové, ordinální a kategoriální proměnné, spojitá a diskrétní data, kvantitativní a kvalitativní data. Doporučená literatura Sokal, Rohlf (1995): 10–19 Zar (1999): 1–6 Agresti, Finlay (1997): 12–17, 45–67
2. téma
Popisná statistika I (tabulkové a grafické souhrny dat)
Zápis dat ve formě tabulek, řádky a sloupce tabulky, záhlaví a tělo tabulky, pravidla zápisu hodnot proměnných, číselné kódování slovních hodnot proměnných, desetinná čárka, počet desetinných míst. Četnostní tabulky kvalitativních a kvantitativních dat, absolutní četnost, relativní četnost, absolutní kumulativní četnost, relativní kumulativní četnost, součet. Grafické zobrazení struktury kvalitativních dat, sloupcový diagram, výsečový diagram. Grafické zobrazení struktury kvantitativních dat, histogram, krabicový diagram (boxplot). Sloupcový diagram vs. histogram. Pojem rozdělení proměnné. Doporučená literatura Sokal, Rohlf (1995): 19–32 Zar (1999): 6–15 Agresti, Finlay (1997): 35–44
3. téma
Popisná statistika II (číselné souhrny dat)
Míry polohy, aritmetický průměr, medián, modus. Míry rozptylu, rozsah, rozptyl, směrodatná odchylka, koeficient variance. Grafické vs. číselné způsoby popisu struktury dat. Zásady správného uvádění výsledků. Doporučená literatura Zar (1999): 20–40 Sokal, Rohlf (1995): 39–51 Agresti, Finlay (1997): 45–67
Fakulta filozofická ZČU v Plzni
4
Patrik Galeta, Martina Štípková
KSS/ZZD
4. téma
ZS 2016
Spojité proměnné a jejich rozdělení
Normální rozdělení a jeho parametry, šikmost, špičatost. Standardizace dat, standardizované normální rozdělení, statistické tabulky. Kvantily, percentily. Odchylky od normality. Doporučená literatura Sokal, Rohlf (1995): 98–123 Zar (1999): 65–76, 86–89 Agresti, Finlay (1997): 80–94
5. téma
Odhady populačních parametrů a intervaly spolehlivosti
Populace, vzorek z populace, reprezentativnost vzorku, náhodný výběr. Populační parametry a jejich nepoznatelnost, zobecnění vlastností vzorku na populaci, odhad pomocí charakteristik náhodného vzorku, spolehlivost odhadu. Intuitivní odvození principu intervalu spolehlivosti průměru, konstrukce rozdělení výběrových průměrů, standardní chyba průměru, Studentovo rozdělení. Přesnost a spolehlivost odhadu pomocí intervalu spolehlivosti, jak velký výběr potřebujeme, vztah velikosti vzorku a přesnosti a spolehlivosti odhadu. Grafické vyjádření intervalů spolehlivosti, krabicový diagram. Odvození a konstrukce rozdělení směrodatné odchylky, Pearsonovo rozdělení, interval spolehlivosti pro směrodatnou odchylku. Doporučená literatura Sokal, Rohlf (1995): 8–10, 52–53, 127–152 Zar (1999): 16–19, 76–79, 98–105, 110–112 Agresti, Finlay (1997): 4–7, 94–111, 121–141
6. téma
Testování hypotéz I (jednovýběrové testy)
Základní pojmy testování hypotéz, nulová hypotéza H0, alternativní hypotéza HA, chyba I a II druhu, hladina významnosti, síla testu. Vztah chyb I a II druhu, velikost vzorku a chyba I a II druhu. Zásady správného uvádění výsledků testování hypotéz. Srovnání populačního parametru a charakteristik jednoho vzorku. Jednovýběrový test pro průměr (one-sample t-test). Vliv velikosti souboru. Jednovýběrový test pro relativní četnosti (one-sample binomial test). Obecný postup při srovnání populačního parametru a charakteristik jednoho vzorku. Doporučená literatura Zar (1999): 79–86, 91–98 Sokal, Rohlf (1995): 157–175 Agresti, Finlay (1997): 154–198
Fakulta filozofická ZČU v Plzni
5
Patrik Galeta, Martina Štípková
KSS/ZZD
7. téma
ZS 2016
Testování hypotéz II (dvouvýběrové testy)
Srovnání charakteristik dvou vzorků, dvouvýběrové testy, nepárové a párové uspořádání testů. Dvouvýběrový t-test pro průměr s nepárovým a párovým uspořádáním. Dvouvýběrový test pro relativní četnosti. Obecný postup při srovnání charakteristik dvou vzorků. Doporučená literatura Zar (1999): 122–129 Agresti, Finlay (1997): 210–233
8. téma
Test dobré shody a kontingenční tabulky
Test dobré shody pro dvě kategorie, očekávané četnosti, pozorované četnosti, statistika χ2, předpoklady použití testu. Test dobré shody pro více kategorií, test dobré shody a velikost výběru. Aditivní vlastnost statistiky χ2, rozdělení dat do podcelků a následná interpretace, korekce na kontinuitu. Struktura kontingenční tabulky, pozorované četnosti, součty četností v řádcích a sloupcích tabulky, výpočet očekávaných četností. Výpočet statistiky χ2, předpoklady použití kontingenčních tabulek, velikost výběru. Kontingenční tabulky 22, Fisherův exaktní test. Doporučená literatura Zar (1999): 461–469, 486–491 Agresti, Finlay (1997): 248–265
Fakulta filozofická ZČU v Plzni
6
Patrik Galeta, Martina Štípková