Základy zpracování kvantitativních dat ZZD Mgr. Patrik Galeta, Mgr. Vladimír Sládek, Ph.D. ZS 2007
[email protected]
Př.: ČT, 07.30 – 09.00, SP111
www.oba.zcu.cz/personalia/PG.php
Cv.: ÚT, ST, ČT: TY110
konz. hod.: CT, 13.45 – 14.45, TY111b
www.oba.zcu.cz/vyuka/ZZD/ZZD.htm
Anotace V kurzu se naučíte základním metodám zpracování kvantitativních dat. Získáte návod, jak standardně postupovat v případě, kdy máte data připravená v počítači a potřebujete zjistit, zda data podporují vaše hypotézy o problému nebo ne. V první části kurzu se naučíte, jak data graficky, tabulkově a číselně prezentovat. Zjistíte, jak z nepřehledných vstupních dat vytvořit přehledné a pochopitelné souhrnné informace. V druhé části kurzu pochopíte, jakým způsobem lze z chování řádově stovek respondentů výběrových šetření odhadnout chování řádově miliónů lidí z celé populace. Budete schopni odlišit vliv náhody od významných trendů. V této části kurzu zjistíte, proč testovat hypotézy a jak testování prakticky uskutečnit. Po zakončení kurzu se budete orientovat v konkrétních postupech hodnocení dat, budete je umět vybírat podle druhu dat, budete umět správně interpretovat výsledky a budete rozumět hodnocení dat v odborné literatuře. Naučíte se „statisticky myslet“. Pro absolvování kurzu nevyžadujeme detailní matematické znalosti. Výuka bude probíhat na modelových příkladech sociologických a antropologických šetření, které si budete schopni uzpůsobit vlastním zadáním a potřebám. Formát výuky Kurz vedeme standardní přednáškovou formou s navazujícím cvičením. Během cvičení budete v Počítačové laboratoři FF (TY110) samostatně pracovat se software pro správu dat (Microsoft ® Excel 2000, copyright © 1985–2000, Microsoft Corporation). Výstupem cvičení budou vyřešené vzorové příklady ve formátu MS Excel. Soubory MS Excel budou mít dynamický charakter, tj. změnou vstupních dat se automaticky přepočítají výsledky. Soubory tak budete moci použít na jakýkoliv obdobný problém s jinými vstupními daty. Účast na přednáškách a cvičeních není povinná. Případnou neúčastí ztratíte možnost podílet se na výuce a ovlivnit průběh kurzu, významně se sníží Vaše schopnost pochopit princip probírané látky a zvýší se pravděpodobnost nutnosti naučení se látky nazpaměť bez pochopení souvislostí. Příprava na výuku Podmínkou pobytu na cvičení je domácí příprava na takové úrovni, abyste byli schopni aplikovat poznatky z přednášek, dokázali samostatně řešit příklady, aktivně se účastnit diskuze a odpovídat na otázky vyučujícího. Samozřejmostí je, že se na cvičení předem připravíte. Doporučujeme Vám prostudovat podklady uvedené v harmonogramu výuky (viz níže). Jedná se většinou o několik stran z učebnic, které si můžete stáhnout v PDF formátu na stránkách kurzu. Ukončení kurzu Kurz je ukončen zápočtem a zkouškou. Zápočet obdržíte za aktivní přístup na cvičení. Na každém cvičení máte možnost získat aktivním vystupováním 1 bod. Za aktivní vystupování považujeme schopnost reagovat na otázky vyučujícího, schopnost rozvíjet téma v diskuzi a kvalitní domácí přípravu.
ZZD - Základy zpracování kvantitativních dat
ZS 2007
Opravný termín zápočtu sestává z rešerše jednoho ročníku impaktovaného sociologického časopisu. Časová náročnost opravy zápočtu je přibližně stejná jako rozsah cvičení, tj. 13 × 3 = 39 vyučovacích hodin. Bodové hodnocení zápočtu: 50,0 % a více bodů započteno 0-49,9 % bodů nevyhověl (a) Hodnocení zkoušky sestává ze třech částí: testu A, testu B a závěrečné práce a to podle následující procentuální váhy. 1. Test A (25 %): Test budete vyplňovat zhruba v polovině semestru a ověříte si znalosti do té doby probrané látky. Test se bude skládat ze slovních a početních příkladů. V testu bude hodnoceno pochopení principu problému, návrh adekvátního způsobu hodnocení dat a schopnost interpretovat výsledky. Nebudete muset dlouze a složitě počítat. Uspějete, pokud pochopíte souvislosti a budete logicky přemýšlet. Naučení se nazpaměť k dobrému výsledku nevede. K úspěšnému absolvování testu postačí pouze informace z přednášek a doporučené literatury. Bude vypsán jeden (řádný) termín testu. Absolvování testu není povinné. U testu máte povoleno mít s sebou pouze psací potřeby a kalkulačku. 2. Test B (25 %): V testu si ověříte znalosti ze zbývající části semestru. Forma testu je stejná jako u testu A. Bude vypsán jeden (řádný) termín testu B. Opravné termíny testu A a B Pokud nebudete spokojeni se součtem výsledků z testu A a B, máte k dispozici dva opravné termíny. Oproti testům A a B prověřují opravné testy znalosti z celého semestru. Z opravného testu můžete získat až 50 % celkového hodnocení kurzu. Výsledek opravného termínu nahrazuje součet výsledků testu A a B, tj. předchozí dílčí výsledky se ruší. Náročnost opravných termínů bude vyšší než u testu A a B. Našim záměrem je, abyste uspěli u řádných termínů a orientovali se ve výuce po celou dobu semestru a nemuseli se účastnit opravných testů. Forma testu je stejná jako u řádných termínů testu. 3. Závěrečná práce (50 %): Prověří, jak jste schopni znalosti získané během celého semestru prakticky aplikovat na konkrétních datech. Závěrečná práci budete psát formou vědeckého článku se standardním členěním kapitol (Úvod, Cíl práce a hypotézy, Materiál, Metody, Výsledky, Diskuze, Závěr, Literatura, Vstupní data) v rozsahu 3-10 stran. Téma a vstupní data si vyberete sami podle svého zájmu a odborného zaměření. Podle potřeby můžete výběr Téma konzultovat s vyučujícími. Požadovanou strukturu, termín a způsob odevzdání závěrečné práce upřesníme během semestru. Závěrečné práce odevzdané po termínu nemůžeme akceptovat. Bodové hodnocení zkoušky: 88,0-100,0 % výborně 76,0-87,9 % velmi dobře 65,0-75,9 % dobře 0,0-64,9 % nevyhověl (a) Základní literatura Doporučujeme Vám tři výborné učebnice zpracování dat. V každé z nich najdete oporu pro všechna témata přednášek. Můžete proto používat pouze jednu z nich. Kombinací zdrojů ale dosáhnete většího pochopení. Jak to už bývá, některá témata jsou perfektně vysvětlena v jedné knize, jiná v druhé nebo třetí.
2
ZZD - Základy zpracování kvantitativních dat
ZS 2007
Agresti A, and Finlay B (1997) Statistical methods for the social sciences. Upper Saddle River, N.J.: Prentice Hall. Vyzkoušený zdroj. Komu nebudou vyhovovat učebnice biostatistiky Sokal, Rohlf (1995) nebo Zar (1999), ať už z vážných důvodů nebo z principu, volí tuto knihu.
Sokal, R. R., Rohlf, F. J. (1995) Biometry. The principles and practice of statistics in biological research. 3rd edition, New York: W. H. Freeman and company. Základní učebnice kurzu. V knize najdete 70 % obsahu přednášek. Kvalitní odborný text, který přečtete stejně dychtivě jako Bulgakovovy romány. Pokud budete listovat bez předsudků, dosáhnete nenásilnou intuitivní formou pochopení i složitých konceptů. Jinými slovy, máte možnost sami sebe přesvědčit, že pochopení všech složitých úloh lze dosáhnout jejich rozdělením do mnoha malých banálních problémů. Četba vyžaduje jen průměrné matematické schopnosti.
Zar, J. H. (1999) Biostatistical analysis. 3rd edition, New Jersey: Prentice Hall. Druhá základní učebnice kurzu. Učebnice je stejně dobrá jako Sokal, Rohlf (1995). Její výhodou je členění kapitol zřetelně podle témat tak, jak jsme v Evropě zvyklí. Každý problém je dokumentován na vzorových početních příkladech. Četba vyžaduje jen průměrné matematické schopnosti.
Doporučená literatura Disman, M. (2002) Jak se vyrábí sociologická znalost. Praha: Nakladatelství Karolinum. Výborná kniha, díky které ztratíte ostych před hodnocením dat a statistickým uvažováním. Vhodná pro čtení v dopravních prostředcích, před spaním či na začátku přednášky, než vyučující nachystají dataprojektor. Pro prochopení přednášek ale budete muset konzultovat základní literaturu.
Hendl, J. (2004) Přehled statistických metod zpracování dat. Praha: Portál. Povedená učebnice hodnocení dat v češtině. Ačkoliv z této knihy příliš nepřednášíme, najdete v ní většinu témat kurzu. Určitě v ní najdete české ekvivalenty anglických statistických termínů. Trochu méně pochopitelnější než Agresti, Finlay (1997), Sokal, Rohlf (1995) nebo Zar (1999).
Informace ke kurzu Všechny informace ke kurzu ZZD jsou vystaveny na internetové adrese: www.oba.zcu.cz/vyuka/ZZD/ZZD.htm Na této adrese (a pouze tady) budeme zveřejňovat aktuální informace. Po zveřejnění považujeme aktuality za známé a závazné, kontrolujte aktuality pravidelně. Případné obsahové a technické nedostatky stránek kurzu hlaste prosím ihned na adresu
[email protected], pomůžete nám udržet stránky v použitelném stavu. Etické normy studia a ochrana duševního vlastnictví jiných autorů Po celou dobu trvání kurzu jste povinni dodržovat etické normy studia a pracovat v souladu s pravidly ochrany duševního vlastnictví jiných autorů. Bližší informace viz Upozornění studentům vydaného dne 28. 1. 2005 proděkanem FF ZČU v Plzni pro studijní záležitosti. Nejasnosti a dotazy konzultujte s vyučujícími.
3
ZZD - Základy zpracování kvantitativních dat
ZS 2007
Rozpis přednášek
1. týden
25. – 27. 9. 2007
Přednáška: Zahájení kurzu Cvičení: Práce s MS Excel
2. týden
02. – 04. 10. 2007
Přednáška: Měření. Jednotka výzkumu, proměnná, slovní a číselné hodnoty proměnných. Typy proměnných, poměrové, intervalové, ordinální a kategoriální proměnné, spojitá a diskrétní data, kvantitativní a kvalitativní data. Doporučená literatura Disman (2002): 12–14, 55–71 Sokal, Rohlf (1995): 10–19 Zar (1999): 1–6 Agresti, Finlay (1997): 12–17, 45–67 Cvičení: Popisná statistika I (tabulkové a grafické souhrny dat) Zápis dat ve formě tabulek, řádky a sloupce tabulky, záhlaví a tělo tabulky, pravidla zápisu hodnot proměnných, číselné kódování slovních hodnot proměnných, desetinná čárka, počet desetinných míst. Četnostní tabulky kvalitativních a kvantitativních dat, absolutní četnost, relativní četnost, absolutní kumulativní četnost, relativní kumulativní četnost, součet. Grafické zobrazení struktury kvalitativních dat, sloupcový diagram, výsečový diagram. Grafické zobrazení struktury kvantitativních dat, histogram, krabicový diagram, stem-and-leaf plot; sloupcový diagram vs. histogram. Pojem rozdělení proměnné. Doporučená literatura Sokal, Rohlf (1995): 19–32 Zar (1999): 6–15 Agresti, Finlay (1997): 35–44
3. týden
09. – 11. 10. 2007
Přednáška: Popisná statistika II (číselné souhrny dat) Míry polohy, aritmetický průměr, medián, modus. Míry rozptylu, rozsah, rozptyl, směrodatná odchylka, variační koeficient. Grafické vs. číselné způsoby popisu struktury dat. Zásady správného uvádění výsledků.
4
ZZD - Základy zpracování kvantitativních dat
ZS 2007
Doporučená literatura Zar (1999): 20–40 Sokal, Rohlf (1995): 39–51 Agresti, Finlay (1997): 45–67 Disman (2002): 180–201 Cvičení: Popisná statistika I (tabulkové a grafické souhrny dat)
4. týden
16. – 18. 10. 2007
Přednáška: Diskrétní proměnné a jejich rozdělení Základní pojmy pravděpodobnostního počtu, sčítání a násobení pravděpodobností. Rozdělení diskrétní proměnné, binomické rozdělení a jeho parametry, binomický rozvoj. Pozorované četnosti, očekávané četnosti, odchylky od očekávaných frekvencí, interpretace příčin odchylek od očekávaných četností. Doporučená literatura Sokal, Rohlf (1995): 71–81 Zar (1999): 516–522 Cvičení: Popisná statistika II (číselné souhrny dat)
5. týden
23. – 25. 10. 2007
Přednáška: Spojité proměnné a jejich rozdělení Normální rozdělení a jeho parametry, šikmost, špičatost. Standardizace dat, standardizované normální rozdělení, statistické tabulky. Kvantily, percentily. Odchylky od normality. Doporučená literatura Sokal, Rohlf (1995): 98–123 Zar (1999): 65–76, 86–89 Agresti, Finlay (1997): 80–94 Cvičení: Diskrétní proměnné a jejich rozdělení
6. týden
30. 10. – 01. 11. 2007
Přednáška: Odhady populačních parametrů a intervaly spolehlivosti Populace, vzorek z populace, reprezentativnost vzorku, náhodný výběr. Populační parametry a jejich nepoznatelnost, zobecnění vlastností vzorku na populaci, odhad pomocí charakteristik náhodného vzorku, spolehlivost odhadu. Intuitivní odvození principu intervalu spolehlivosti průměru, konstrukce rozdělení výběrových průměrů, standardní chyba průměru, Studentovo rozdělení.
5
ZZD - Základy zpracování kvantitativních dat
ZS 2007
Přesnost a spolehlivost odhadu pomocí intervalu spolehlivosti, jak velký výběr potřebujeme, vztah velikosti vzorku a přesnosti a spolehlivosti odhadu. Grafické vyjádření intervalů spolehlivosti, krabicový diagram. Odvození a konstrukce rozdělení směrodatné odchylky, Pearsonovo rozdělení, interval spolehlivosti pro směrodatnou odchylku. Doporučená literatura Sokal, Rohlf (1995): 8–10, 52–53, 127–152 Zar (1999): 16–19, 76–79, 98–105, 110–112 Agresti, Finlay (1997): 4–7, 94–111, 121–141 Disman (2002): 92–115 Cvičení: Spojité proměnné a jejich rozdělení
7. týden
06. – 08. 11. 2007
Přednáška: Testování hypotéz I (jednovýběrové testy) Základní pojmy testování hypotéz, nulová hypotéza H0, alternativní hypotéza HA, chyba I a II druhu, hladina významnosti, síla testu. Vztah chyb I a II druhu, velikost vzorku a chyba I a II druhu. Zásady správného uvádění výsledků testování hypotéz. Srovnání populačního parametru a charakteristik jednoho vzorku. Jednovýběrový test pro průměr (one-sample t-test). Vliv velikosti souboru. Jednostranné a oboustranné testy. Jednovýběrový test pro relativní četnosti (one-sample binomial test). Obecný postup při srovnání populačního parametru a charakteristik jednoho vzorku. Doporučená literatura Zar (1999): 79–86, 91–98 Sokal, Rohlf (1995): 157–175 Agresti, Finlay (1997): 154–198 Cvičení: Odhady populačních parametrů a intervaly spolehlivosti
8. týden
13. – 15. 11. 2007
Přednáška: Test A Cvičení: Odhady populačních parametrů a intervaly spolehlivosti
6
ZZD - Základy zpracování kvantitativních dat
9. týden
ZS 2007
20. – 22. 11. 2007
Přednáška: Testování hypotéz I (jednovýběrové testy) Cvičení: Testování hypotéz I (jednovýběrové testy)
10. týden 27. – 29. 11. 2007 Přednáška: Testování hypotéz II (dvouvýběrové testy) Srovnání charakteristik dvou vzorků, dvouvýběrové testy, nepárové a párové uspořádání testů. Dvouvýběrový t-test pro průměr s nepárovým a párovým uspořádáním. Dvouvýběrový t-test pro relativní četnosti. Obecný postup při srovnání charakteristik dvou vzorků. Doporučená literatura Zar (1999): 122–129 Agresti, Finlay (1997): 210–233 Cvičení: Testování hypotéz I (jednovýběrové testy)
11. týden 04. – 06. 12. 2007 Přednáška: Test dobré shody a kontingenční tabulky Test dobré shody pro dvě kategorie, očekávané četnosti, pozorované četnosti, statistika χ2, předpoklady použití testu. Test dobré shody pro více kategorií, test dobré shody a velikost výběru. Aditivní vlastnost statistiky χ2, rozdělení dat do podcelků a následná interpretace, korekce na kontinuitu. Struktura kontingenční tabulky, pozorované četnosti, součty četností v řádcích a sloupcích tabulky, výpočet očekávaných četností. Výpočet statistiky χ2, předpoklady použití kontingenčních tabulek, velikost výběru. Kontingenční tabulky 2×2, Fisherův exaktní test. Doporučená literatura Zar (1999): 461–469, 486–491 Agresti, Finlay (1997): 248–265 Cvičení: Testování hypotéz II (dvouvýběrové testy)
12. týden 11. – 13. 12. 2007 Přednáška: Korelace a regrese Míry těsnosti vazby dvou kvantitativních proměnných, grafická zobrazení těsnosti vazby; kovariance, Pearsonův korelační koeficient r.
7
ZZD - Základy zpracování kvantitativních dat
ZS 2007
Srovnání populační a výběrové hodnoty korelačního koeficientu, předpoklady použití, interval spolehlivosti pro populační koeficient korelace, srovnání korelačních koeficientů dvou vzorků. Neparametrická alternativa, Spearmanův korelační koeficient rs . Nezávislá a závislá proměnná, kauzální a příčinné souvislosti, příklady použití regresní analýzy v sociálních a biologických výzkumech. Metoda nejmenších čtverců, pozorovaná a předpovídaná hodnota závislé proměnné, rezidua, rovnice jednoduché lineární regresní přímky, regresní koeficient a úsek na ose y, koeficient determinace r 2 , hodnocení reziduí. Srovnání populační a výběrové hodnoty regresních koeficientů, srovnání regresních koeficientů dvou vzorků, intervaly spolehlivosti regresní koeficientů. Doporučená literatura Zar (1999): 324–342, 377–388, 395–398 Disman (2002): 20–25, 202–215 Sokal, Rohlf (1995): 451–476, 493–499, 555–583, 593–601 Agresti, Finlay (1997): 301–355 Cvičení: Test dobré shody a kontingenční tabulky
13. týden 18. – 20. 12. 2007 Přednáška: Volné téma, opakování Cvičení: Korelace a regrese
8
ZZD - Základy zpracování kvantitativních dat
ZS 2007
Harmonogram kurzu N
datum
přednáška
cvičení
1
25.9.
-
27.9. Zahájení kurzu
Práce s MS Excel
2
2.10.
-
4.10. Měření
Popisná statistika I (tabulkové a grafické souhrny dat)
3
9.10.
-
11.10. Popisná statistika II (číselné souhrny dat)
Popisná statistika I (tabulkové a grafické souhrny dat)
4
16.10.
-
18.10. Diskrétní proměnné a jejich rozdělení
Popisná statistika II (číselné souhrny dat)
5
23.10.
-
25.10. Spojité proměnné a jejich rozdělení
Diskrétní proměnné a jejich rozdělení
6
30.10.
-
1.11. Odhady populačních parametrů a intervaly spolehlivosti
Spojité proměnné a jejich rozdělení
7
6.11.
-
8.11. Testování hypotéz I (jednovýběrové testy)
Odhady populačních parametrů a intervaly spolehlivosti
8
13.11.
-
15.11. Test A
Odhady populačních parametrů a intervaly spolehlivosti
9
20.11.
-
22.11. Testování hypotéz I (jednovýběrové testy)
Testování hypotéz I (jednovýběrové testy)
10
27.11.
-
29.11. Testování hypotéz II (dvouvýběrové testy)
Testování hypotéz I (jednovýběrové testy)
11
4.12.
-
6.12. Test dobré shody a kontigenční tabulky
Testování hypotéz II (dvouvýběrové testy)
12
11.12.
-
13.12. Korelace a regrese
Test dobré shody a kontingenční tabulky
13
18.12.
-
20.12. Volné téma
Korelace a regrese
Vyučující si vyhrazují právo z vážných důvodů změnit sylabus kurzu.
9