VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra ekonomických studií
Moţnosti zpracování dat pořízených dotazníkovým šetřením bakalářská práce
Autor: Šárka Dubová Vedoucí práce: RNDr. Jana Borůvková, Ph.D. Jihlava 2012
Anotace Tato bakalářská práce je zaměřena na analýzu dat, která jsou pořízena dotazníkovým šetřením. V teoretické části se práce zabývá druhy proměnných, se kterými je možné se setkat, a metodami analýz, kterými se tyto proměnné zpracovávají. V praktické části je vytvořen modelový dotazník, na kterém je ukázáno, jak má celý průběh dotazníkového šetření probíhat. Je znázorněna analýza proměnných a analýza závislostí, která zkoumá jejich vzájemný vztah. Klíčová slova dotazníkové šetření, druhy proměnných, analýza proměnných, analýza závislostí, data, respondent, dotazník, analýza
Annotation This bachelor thesis is aimed to data analysis getting from questionnaire survey. In the theoretic part the thesis is engaged with types of variables which are able to be encountered, and method analysis processing these variables. In the practical part is built a model questionnaire and shown how the whole process of questionnaire survey should proceed. There is shown variables analysis and dependencies analysis that examines their mutual relation. Keywords questionnaire survey, types of variables, variables analysis , dependencies analysis , data, respondent, questionnaire, analysis
Ráda bych poděkovala vedoucí práce RNDr. Janě Borůvkové, Ph.D. za její čas, trpělivost a za její odborné rady. Také bych ráda poděkovala svému příteli a mamce za jejich podporu při psaní této práce i při studiu samotném.
Prohlašuji, že předložená bakalářská práce je původní a zpracoval jsem ji samostatně. Prohlašuji, že citace použitých pramenů je úplná, že jsem v práci neporušil autorská práva (ve smyslu zákona č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů, v platném znění, dále též „AZ“). Souhlasím s umístěním bakalářské práce v knihovně VŠPJ a s jejím užitím k výuce nebo k vlastní vnitřní potřebě VŠPJ . Byl jsem seznámen s tím, že na mou bakalářskou práci plně vztahuje AZ, zejména § 60 (školní dílo). Beru na vědomí, že VŠPJ má právo na uzavření licenční smlouvy o užití mé bakalářské práce a prohlašuji, že s o u h l a s í m s případným užitím mé bakalářské práce (prodej, zapůjčení apod.). Jsem si vědom toho, že užít své bakalářské práce či poskytnout licenci k jejímu využití mohu jen se souhlasem VŠPJ, která má právo ode mne požadovat přiměřený příspěvek na úhradu nákladů, vynaložených vysokou školou na vytvoření díla (až do jejich skutečné výše), z výdělku dosaženého v souvislosti s užitím díla či poskytnutím licence. V Jihlavě dne 8. 5. 2012 ................................................... Podpis
Obsah Úvod ......................................................................................................................................7 1 Teoretická část ...................................................................................................................9 1.1 Základy dotazníkového šetření ...................................................................................9 1.2 Analýza proměnných ................................................................................................ 11 1.2.1 Druhy proměnných .............................................................................................. 11 1.2.2 Rozdělení četností ................................................................................................ 12 1.2.3 Graf rozdělení četností ......................................................................................... 15 1.2.2 Popisné charakteristiky − úroveň ..........................................................................15 1.2.3 Popisné charakteristiky – variabilita ..................................................................... 18 1.3 Analýza závislostí ......................................................................................................19 1.3.1 Závislost dvou kategoriálních proměnných ........................................................... 20 1.3.2 Závislost dvou kvantitativních proměnných.......................................................... 21 1.3.3 Závislost dvou alternativních proměnných ........................................................... 22 2 Praktická část .................................................................................................................. 23 2.1 Navrţení dotazníku ................................................................................................... 23 2.3 Analýza proměnných ................................................................................................ 29 2.3.1 Chování respondentů – možnost více odpovědí .................................................... 29 2.3.2 Chování respondentů – ordinální proměnná .......................................................... 31 2.3.3 Informovanost respondentů .................................................................................. 32 2.3.4 Pohlaví respondentů ............................................................................................. 34 2.3.5 Nejvyšší dosažené vzdělání .................................................................................. 35 2.3.6 Věk ...................................................................................................................... 36 2.3.7 Výška ................................................................................................................... 37 2.3.8 Váha .................................................................................................................... 39 2.3.9 Tlak ..................................................................................................................... 40 2.4 Analýza závislostí ......................................................................................................42 2.4.1 Analýza závislosti kategoriálních proměnných ..................................................... 42 2.4.1 Analýza závislosti kvalitativních proměnných ...................................................... 45 Závěr ................................................................................................................................... 52 Seznam uţité literatury ......................................................................................................54 Seznam tabulek ................................................................................................................... 55 Seznam obrázků ................................................................................................................. 55 Seznam příloh ..................................................................................................................... 56
Úvod Téma této bakalářské práce se týká problematiky dotazníkových šetření. V dnešní době se dají najít různé dotazníky skoro ve všech novinách, časopisech, internetových stránkách a dalších médiích, ale ne zcela všechny jsou dobře vymyšlené, správně konstruované a užitečné. Některé dotazníky nemají žádnou vypovídající hodnotu vzhledem
k jejich
nedostatečné
přípravě,
nesprávnému
zpracování
a
tím
i neadekvátnímu výstupu. Cílem této bakalářské práce je tedy ukázat možnosti analýzy dat pořízených dotazníkovým šetření v závislosti na kvalitě a úplnosti dat a dále v závislosti na stanovení výzkumného záměru. V teoretické části se bakalářská práce nejprve věnuje počátkům dotazníkového šetření, kdy je opravdu nejlepším řešením danou problematiku promyslet a zvážit, co je třeba zkoumat a na které otázky by tazatel chtěl znát odpověď. Tato prvotní část dotazníkového šetření se ale bohužel často vynechává a díky tomu se nepodaří zajistit všechna potřebná data k jejich analyzování a vytvoření závěrů. Také se práce zabývá tím, že všechny metody zpracování dat nejsou vhodné pro všechny druhy proměnných, které dotazník obsahuje, a proto jsou zde popsány druhy jednotlivých proměnných. Dále se řeší zpracování dat pomocí rozdělení četností a popisných charakteristik s ohledem na druh proměnné. Poslední kapitolou teoretické části je analýza závislostí, která může odhalit skutečnost, že některé proměnné jsou na sobě závislé a některé naopak ne. U této analýzy se využívá testování hypotéz o nezávislosti a také koeficienty, které mohou určit sílu závislosti proměnných. Praktická část této bakalářské práce pojednává o tom, jak vhodně sestavit a zpracovat dotazník. K tomuto účelu byl vytvořen modelový dotazník na téma zdravý životní styl populace v České republice, v němž nejde o obsah, ale o průběh jeho vytvoření a zpracování. Tento dotazník je přiložen jako příloha. V znázorněném průběhu dotazníkového šetření je nejprve promyšleno, co by chtěl tazatel z dotazníkového šetření zjistit, a poté jsou voleny otázky do samotného dotazníku. Po vytvoření dotazníku a získání potřebných odpovědí od respondentů se provádí analýza proměnných. Tato analýza obsahuje vytvoření tabulky rozdělení četností a její grafické zobrazení v podobě grafu. Následuje zpracování popisných 7
charakteristik, které přibližuje danou proměnnou, a je možné vytvořit první závěry o ní. Na závěr se provádí analýza závislostí mezi proměnnými, která může objasnit závislost či nezávislost mezi nimi. Díky této analýze je možné zjistit zajímavé informace o proměnných, které jsou užitečnější než samotná popisná charakteristika, ale bohužel se na analýzu závislostí často zapomíná. Výsledky z analýzy je nutné interpretovat a zamyslet se, proč tomu tak je.
8
1 Teoretická část V této části je teoreticky rozebírána příprava a průběh dotazníkového šetření a představení obvyklých chyb, které vedou k neúplnému využití dat z dotazníku při zpracování. Také se zde řeší druhy proměnných, se kterými se lze při zpracování dat pořízených z dotazníkových šetření setkat, a postupy, které jsou vhodné pro zpracování konkrétních druhů proměnných.
1.1 Základy dotazníkového šetření Data z dotazníků jsou častými doplňky různých článků, průzkumů a dalších písemných prací. Ovšem ne každý výsledek dotazníků poskytne čtenáři hodnotnou výpověď o dané situaci, což může být výsledkem špatného uchopení celého dotazníkového šetření. Častá a také chybná varianta začátku šetření je, že tazatel vybere otázky k danému tématu, které se mu zdají zajímavé, a na ty se poté ptá respondentů. V takovéto variantě tazatel vlastně ani neví, co od výsledků očekává, a proto může očekávat od průzkumu jen základní statistické údaje, ale už není schopen vyvodit závislosti mezi jednotlivými proměnnými. Nejprve tazatel musí začít tím, že si položí výzkumnou otázku, ke které bude zpracovávat příslušný dotazník. Například pro modelový dotazník v praktické části této práce je položena výzkumná otázka: „S jakými aspekty souvisí zdravý životní styl lidí v ČR?“ Poté se určí výzkumné hypotézy, které upřesňují výzkumnou otázku. Jsou to přesné otázky, na které by chtěl znát tazatel odpověď a které bude při zpracování zkoumat. Pro představu, výzkumné hypotézy dle již zmíněné výzkumné otázky jsou například: „Závisí životní styl na pohlaví respondenta? Souvisí spolu věk a zdravý životní styl?“ Podle těchto výzkumných hypotéz se teprve začne sestavovat dotazník. Z otázek se vyberou pojmy, které je potřeba zařadit do dotazníkového šetření. Tímto celým procesem by mělo začínat každé dotazníkové šetření, protože teprve z těchto informací je možné sestavit dobrý dotazník. Při tvorbě otázek je nutné si ujasnit jejich formu – jestli se použijí otevřené, zavřené či polouzavřené otázky. Otevřené otázky se užívají především pro kvalitativní výzkumy, polouzavřené pro pilotní ověření dotazníku a konečně uzavřené otázky pro kvantitativní šetření, kterým se zabývá tato bakalářská práce.
9
Zpracování jednotlivých odpovědí respondentů se řídí typem otázky, které byly v dotazníku položeny. V dotazníkových šetřeních je možné najít několik základních typů otázek:
respondent si může vybrat právě jednu odpověď z nabízených odpovědí
respondent vybírá v rámci jedné otázky ze seznamu výroků ty, které pro něj platí
v rámci jedné otázky je respondentovi nabízen seznam položek a respondent jednotlivé položky hodnotí na nabízené škále
respondent na položenou otázku odpovídá číslem
Ve druhém a třetím případě se nejedná o jedinou otázku, ale o skupinu otázek, protože každá z nabízených "odpovědí" je vlastně samostatná otázka. K tomuto sdružování do jedné otázky lze přistoupit proto, aby tazatel usnadnil respondentům vyplnění dotazníku a zkrátil tak čas potřebný na jeho vyplnění. Při vlastním sestavování dotazníku by měl znát tazatel několik pravidel tvorby otázek a odpovědí. Například měl dbát na to, aby byly jasně formulované a respondentovi srozumitelné. Otázky ani odpovědi by neměly obsahovat záporné výrazy, aby to respondenta nemátlo, a také by se neměly pokládat dvě otázky v jedné, aby bylo jasné, na co má respondent odpovídat. Jednotlivé odpovědi by se neměly významově překrývat kvůli přesnému vybrání odpovědi. Poté, co tazatel sestavil dotazník, by měl v ideálním případě provést jeho pilotní ověření. Při pilotním ověření je na místě použít místo uzavřených otázek polouzavřené otázky, ve kterých nechá volně místo pro jiné odpovědi než ty, které vybral. Toto je velmi důležité pro ověření správného výčtu odpovědí, které by měly zahrnovat všechny možnosti, a každý respondent by si měl mezi nimi najít tu, která je nejblíže realitě. Na druhé straně tazatel musí dávat pozor, aby se nabízené odpovědi významově nepřekrývaly. Z pilotního ověření je možné zjistit, zda jsou otázky dobře formulované, zda je respondenti správně chápou a pokud se v pilotním ověření dotazníku ukáže, že otázky nebo nabízené odpovědi nejsou vhodně formulované či vybrané, je nutné je před vlastním dotazníkovým šetřením ještě upravit.
10
1.2 Analýza proměnných Po ukončení vlastního dotazování respondentů, může tazatel začít se zpracováváním dat. Nejprve by měl určit druhy proměnných, které bude zpracovávat, a na základě jejich zařazení by měl volit statistické metody:
rozdělení četností do tabulky
grafické zobrazení četností
popisné charakteristiky – úrovně a variability
Podle druhů proměnných se liší zpracování rozdělení četností i popisné charakteristiky, které budou také popsány v této kapitole. Popisná statistika je ještě rozdělena na charakteristiky úrovně a variability, charakteristikami míry se tato práce zabývat nebude.
1.2.1 Druhy proměnných Alternativní proměnná se často používá v situaci, kdy je třeba rozdělit respondenty podle jedné vlastnosti a dle tohoto výběru pak budou odpovídat na další otázky. V praktické části dotazníku není například potřeba, aby respondent vyplňoval hodnotu svého krevního tlaku, když ji neví. Proto je použita otázka: „Znáte hodnotu vašeho krevního tlaku?“ Pokud ji zná, pokračuje dalším pokynem, aby vyplnil hodnotu svého tlaku. Alternativní proměnná může být symetrická, kdy obě možnosti jsou pro tazatele stejně důležité, nebo asymetrická, kdy jedna z možných odpovědí je důležitější. Nominální proměnná je proměnná, která nese nejčastěji textový údaj, a lze u ní pouze porovnávat, zda se liší či je stejná. Data u této proměnné nelze tedy sčítat a provádět matematické operace. Nejčastějšími příklady nominální proměnné jsou druh profese, typ absolvované školy, zařazení města, ve kterém respondent žije a další. Ordinální proměnná určuje pořadí či stupeň daného znaku. Je do ní možno zařadit například stupeň vzdělání, stupeň souhlasu s daným výrokem nebo stupeň spokojenosti či nespokojenosti s danou situací. Pokud se jedná o stupeň spokojenosti či stupeň souhlasu, jsou tyto stupně spíše subjektivním pocitem respondenta. S těmito proměnnými nelze provádět matematické operace, ale je možné je porovnávat mezi sebou. V některých typech odpovědí může respondent odpovídat číslovkou. Například v modelovém dotazníku v praktické části je jedna z otázek hodnocení pravdivosti 11
výroků podle respondenta, kde je možné odpovídat hodnotami 1 až 5. V další otázce respondent odpovídá pouze z výběru denně/často/občas/výjimečně/nikdy, takže další možností je odpovídat textovým údajem o frekvenci vybraných činností respondenta. Výše zmíněné proměnné se také mohou souhrnně označovat jako kvalitativní proměnné. Kvantitativní neboli numerická proměnná je proměnná, která obsahuje číselný údaj. Tyto proměnné se mohou ještě členit na intervalové či poměrové proměnné, obě dvě varianty v dotaznících zachycují číselné odpovědi jako například výšku, hmotnost či hodnotu krevního tlaku. Intervalová proměnná může nabývat hodnot 0 a více a lze u dvou takovýchto proměnných určit, o kolik je jedna menší či větší než druhá. U poměrové proměnné může zpracovatel ještě navíc určit, kolikrát je jedna hodnota větší či menší než druhá. Poměrová proměnná může tedy nabývat pouze kladných hodnot. Také je možné proměnné dělit na kategoriální a kvantitativní spojité proměnné, kdy do kategoriálních se zahrnují proměnné nominální, ordinální a kvantitativní, které mají menší rozsah variant a jsou vlastně uzavřenými odpověďmi. Kvantitativní spojité označují kvalitativní proměnné, které nabývají většího rozsahu hodnot a jsou otevřenými odpověďmi (například odpovědi týkající se váhy či výšky respondentů).
1.2.2 Tabulka rozdělení četností Zpracovávaná data mohou být rozdělena podle množství jejich výskytů, čemuž odpovídá rozdělení jejich četností. Možnost znázornění dat v číslech a přehledné tabulce umožňuje tabulka rozdělení četností a z ní se mohou data zobrazit v grafické podobě v grafu četností.
Tabulka četností se častěji používá v případech, kdy
je možnost podrobněji sledovat data a je potřeba znát přesně jednotlivá čísla, zatímco graf rozdělení četnosti tato přesná čísla neukazuje, ale je lehčí se v jeho grafickém zobrazení vyznat. Při sestrojení rozdělení četnosti se musí brát v úvahu typ dat. V případě kategoriálních dat se jedná o bodové třídění. Při práci s nominálními, ordinálními či alternativními proměnnými se musí každé proměnné dát kód, který ji bude zastupovat. Rozdělení četností pomocí tabulky rozděluje odpovědi respondentů dle jejich četnosti. Pokud se proměnná nazve X, její jednotlivé odpovědi se označí xi, kde i =1, 2, 3, ..., 12
a počet respondentů se označí n, vznikne základní tabulka rozdělení četností. V té se nejčastěji uvádí absolutní četnost a její relativní vyjádření − relativní četnost. Také je možnost
uvádět
další
charakteristiky
jako
kumulativní
absolutní
četnost
a kumulativní relativní četnost. Absolutní četnost (ni) uvádí počet výskytů daného znaku v datovém souboru. Z toho se může určit znak s nejvyšší četností, ale zároveň i s nejnižší četností. Lze ji vypočítat "ručně" sčítáním výskytů znaků, ale snadnější variantou je vypočítání například pomocí programu Excel a funkcí ČETNOSTI. Jako kontrola správnosti výpočtů může sloužit fakt, že součet ni se musí rovnat n, tedy počtu respondentů. Relativní četnost (pi) je bezrozměrná veličina, ale pokud se vynásobí 100, lze ji uvádět v procentech. V tomto případě je procentuálním vyjádřením absolutní četnosti, která říká, v jakém procentuálním poměru je daný znak zastoupen. Součet pi se musí vždy rovnat 1. Relativní četnost lze vypočítat podle vzorce:
pi
ni n
Kumulativní absolutní četnost (kni) vzniká postupným kumulováním absolutních četností. Lze z ní zjistit, jak velkou četnost má více znaků dohromady. Vzorec je následující: i
kni n j j 1
Kumulativní relativní četnost (kpi) vzniká postupným kumulováním relativních četností. Tato veličina je bezrozměrná, ale dá se vyjádřit v procentech. Tato četnost vyjadřuje, kolik procent výskytu má více znaků dohromady. Vzorec je následující: i
kpi p j j 1
13
Tabulka1: Tabulka rozdělení četností (bodové rozdělení)
Kumulativní četnost
Absolutní
Relativní četnost
četnost (ni)
(pi)
absolutní (kni)
relativní (kpi)
x1
n1
p1
kn1
kp1
x1+n
n1+n
p1+n
kn1+n
kp1+n
…
…
…
…
…
xk
nk
pk
n
1
Součet
n
1
х
х
Proměnná X
Pokud je větší množství variant odpovědí, jedná se o intervalové třídění. Toto třídění se používá nejčastěji pro kvantitativní proměnnou s velkým rozsahem hodnot. V případě intervalového třídění je nutné správně vytvořit intervaly. Intervaly by měly mít konstantní délku h, nesmí se překrývat a měl by jich být přiměřený počet k. Za vhodný počet intervalů se uvažuje k ≈ 1 + 3,3 log n. Další změnou oproti bodovému třídění je xi, kde místo jednotlivých znaků (odpovědí respondentů), se dosazuje střed daného intervalu. Délku intervalu lze zjistit pomocí vzorce. Pokud se p označí jako počet intervalů, vzorec pro výpočet délky je následující: d
x m ax x m in p
Intervaly musí obsahovat všechny hodnoty z datového souboru, proto se musí volit vhodné hranice. Buď se použije minimální hodnota ze souboru jako spodní hranice, nebo se použije ještě nižší hodnota než minimální.
14
Tabulka2: Tabulka rozdělení četností (intervalové třídění)
Kumulativní četnost Intervaly
Střed
Absolutní
Relativní
četnost (ni)
četnost (pi)
absolutní
relativní
(kni)
(kpi)
(xmin;xmin +d>
x1
n1
p1
kn1
kp1
(xmin+d;
x1+n
n1+n
p1+n
kn1+n
kp1+n
(xmin… +2d)
…
…
…
…
…
…
xk
nk
pk
knk
kpk
Součet
x
n
1
х
х
1.2.3 Graf rozdělení četností Množství výskytu daných znaků je také možné znázornit pomocí grafu rozdělení četností, který dokáže zachytit průběh rozdělení četností. Většinou se vychází z tabulky rozdělení četností, kde se vybere znázorňovaná veličina. Pro zobrazení alternativní či nominální proměnné se používá graf výsečový, pro ostatní proměnné nejčastěji graf sloupcový. Zpracovatel dotazníků, který chce použít pro prezentaci dat grafy, by měl mít na paměti, že by graf měl mít jasné barvy, menší počet objektů a čísel a měl by být především přehledný na první pohled.
1.2.2 Popisné charakteristiky − úroveň Z dotazníkového šetření lze zjistit kromě rozdělení četností další informace, a to například charakteristiky úrovně. Jak bylo již zmíněno v úvodu této kapitoly, u charakteristik se musí brát v úvahu druh zpracovávané proměnné. Pro nominální proměnnou lze počítat z charakteristik úrovně pouze modus, což je nejčastější odpověď respondentů na otázku. Modus lze zjistit například z tabulky rozdělení četností. Případ, kdy vyjde pouze jedna nejčastější hodnota, se nazývá unimodální a další případ, kdy vyjdou dvě hodnoty s tou samou nejvyšší četností, se nazývá bimodální. Pokud relativní četnost této hodnoty je větší než hodnota 0,5, dá se hovořit o majoritním modu. V tomto případě to znamená, že více než polovina
15
respondentů uvedla tuto odpověď a je to tedy velmi významná hodnota. Modus se označuje xˆ . V případě ordinální proměnné lze zjistit kromě modu také medián. Medián uvádí hodnotu, která se nachází ve středu všech sebraných dat, je to tedy střední hodnota. Stejně jako modus ani medián není ovlivněn extrémními hodnotami souboru. Pro ordinální proměnnou je nutné v tabulce rozdělení dat přiřadit každé kategorii číselné označení. V případě netříděných dat se dá medián zjistit seřazením dat dle jejich hodnot od nejmenší po největší a poté rozdělit tuto řadu na dvě stejné části. Pokud je součet hodnot lichý, jako medián se bere hodnota v půli souboru, při sudém počtu se ze dvou půlících hodnot vypočítá průměr. V případě tříděných dat lze medián vypočítat z tabulky četností. Medián je možné nalézt pomocí příslušného řádku v tabulce, ve kterém kumulativní relativní četnost (kpi) poprvé přesáhne hodnotu 0,5. Jestliže kpi > 0,5, medián se rovná příslušnému xi. Pokud ale kpi = 0,5, k příslušnému xi se přičte hodnota 0,5. Další významné hodnoty pro ordinální proměnnou mohou být kvantily. Kvantily označují hodnoty, které dělí soubor seřazených hodnot na určité části. Některé kvantily mají svá jména, například kvantil Q0,5 se nazývá medián, Q0,25 dolní kvartil a Q0,75 horní kvartil. Tyto hodnoty je možné zjistit opět z tabulky rozdělení četností. Pro výpočet dolního kvartilu se opět hledá hodnota, u které kpi ≥ 0,25 a zároveň kpi−1< 0,25. Jestliže kpi > 0,25, pak dolní kvartil se rovná příslušnému xi, ale jestliže kpi = 0,25, pak dolní kvartil se rovná xi + 0,25. Pro výpočet horního kvartilu se hledá hodnota, u které kpi ≥ 0,75 a zároveň kpi−1 < 0,75. Jestliže kpi > 0,75, pak horní kvartil se rovná příslušnému xi, ale jestliže kpi = 0,75, pak horní kvartil se rovná xi + 0,75. Kvantitativní proměnnou určují charakteristiky úrovně modus, medián, kvantily a také průměr. V tomto odstavci se budu zabývat kvantitativní proměnnou, která má malé množství variant a tvoří uzavřenou odpověď. Modus, medián a kvantily lze zjistit již zmiňovaným způsobem, průměr lze vypočítat dle vzorce. Existuje více druhů průměrů, ale pro potřeby dotazníkového šetření bude postačující aritmetický průměr ve svých dvou formách – prosté a vážené formě. Prostá forma se používá v případech, kdy data nejsou tříděna (například do tabulky). Pokud n je počet všech hodnot datového
16
souboru (počet respondentů) a xi jsou jednotlivé odpovědi, vzorec pro aritmetický průměr je následující: x
1 n xi n i 1
Vážená forma průměru se používá v případě, pokud jsou data již tříděna. Pokud se dodrží předchozí zápis s tím rozdílem, že ni je počet odpovědí pro dané xi, platí vzorec: x
1 k x i ni n i 1
Pokud se popisná charakteristika vztahuje na kvantitativní proměnnou s větším rozsahem hodnot, data jsou většinou tříděna intervalově a lze vypočítat modus, medián, kvantily a průměr. Modus a průměr jsou počítány stejným způsobem jak v předešlé proměnné, medián lze vypočítat podle vzorce. Pokud se nalezne interval, ve kterém poprvé kumulativní relativní četnost přesáhne hodnotu 0,5, v tomto intervalu se nalezne hodnota relativní četnosti pi a hodnota dolní hranice tohoto intervalu a, v předcházejícím intervalu hodnota kumulativní relativní četnosti kpi, délka intervalu h a dosadí se do následujícího vzorce:
0,5 kpi ~ x h a pi Pro kvantitativní proměnnou s větším rozsahem hodnot lze také vypočítat kvantily podle vzorce z intervalového třídění hodnot v tabulce. Při zachování značení z předcházejícího odstavce vypočítání Qp je nutné dosadit do následujícího vzorce:
p kpi ~ xp h a pi
17
1.2.3 Popisné charakteristiky – variabilita Pro ordinální proměnnou je možné určit například variační rozpětí, které ukazuje rozpětí souboru. Lze jej vypočítat pomocí vzorce: R xm ax xm in
Další charakteristikou pro ordinální proměnnou je také mezikvartilové rozpětí, které je možné vypočítat: IQR ~ x0, 75 ~ x0, 25
Důležitější jsou popisné charakteristiky variability pro kvantitativní proměnnou. Je možné opět určit variační a mezikvartilové rozpětí, ale lze určit také rozptyl, který uvádí rozdělení hodnot z dotazníkového šetření kolem střední hodnoty. Tento rozptyl lze vypočítat pomocí vzorce: n
s2
(x i 1
i
x)2
n
Další charakteristikou variability pro kvantitativní proměnnou může být směrodatná odchylka s a variační koeficient Vx. Směrodatná odchylka je, jak lze ze vzorce usoudit, kvadratický průměr odchylek, zatímco variační koeficient je směrodatnou odchylkou v relativním vyjádření. Jejich vzorce jsou následující: s s2
Vx
s x
18
1.3 Analýza závislostí S dobře sestaveným dotazníkem nemusí zjistit tazatel pouze popisné charakteristiky, ale může odvozovat závislosti z jednotlivých proměnných. Je tedy třeba se podívat na výzkumné hypotézy, které se stanovují před začátkem dotazníkového šetření, a pomocí testování závislostí a jejich intenzity lze na tyto hypotézy odpovědět. Tato kapitola je zpracována dle Hany Řezankové, která tuto problematiku řeší v knize Analýza dat z dotazníkových šetření, rok 2010. Při zjišťování závislosti dvou proměnných se nejprve zavede nulová hypotéza H0 a alternativní hypotéza H1, které se porovnávají. Hypotéza H0 se poté zkoumá pomocí různých koeficientů, které jsou použity v závislosti na druhu zkoumaných proměnných.
Také
je potřeba
zvolit
si hladinu
významnosti,
která
udává
pravděpodobnost toho, že se H0 neoprávněně zamítne, přestože platí. Po zjištění koeficientů a rozhodnutí o volbě hladiny významnosti se hypotéza zamítá či nezamítá na základě různých testovacích kritérií, jejichž volba závisí opět na druzích proměnných. Také je možné zjistit míru závislosti pomocí příslušných koeficientů. Při analýze závislostí mezi kategoriálními proměnnými se vychází z již roztříděných dat, která jsou uspořádána do dvourozměrné tabulky četnosti (kontingenční tabulky). Tato tabulka má ve svých řádcích zavedenou jednu zkoumanou proměnnou a v řádcích druhou proměnnou. Jejím obsahem jsou absolutní nebo relativní četnosti těchto proměnných. Pokud je kontingenční tabulka zaváděna pro dvě alternativní proměnné, dá se hovořit o asociační tabulce. Kontingenční i asociační tabulka se dá snadno vytvořit z neuspořádaných dat například v počítačovém programu Excel, který umí spočítat pouze absolutní četnost u dvou proměnných. Také je možné údaje z kontingenční tabulky zobrazit pomocí grafů, v tomto případě se používají grafy sloupcové. Pokud se jedna z proměnných označí X, počet jejích variant (kategorií) R, druhá proměnná Y, počet jejích variant S, rozsah i =1, 2, 3, …, R, rozsah j= 1, 2, 3, …, S, rozsah souboru n a zjištěné absolutní četnosti nij, kontingenční tabulka vypadá následovně:
19
Tabulka3: Dvourozměrná tabulka četnosti
Proměnná Y j−tá
1. kategorie
…
n11
…
n1j
…
…
…
i- tá kategorie
ni1
… R- tá kategorie
Proměnná X
1. kategorie
Součet
Četnosti nij
se
kategorie
…
S−tá kategorie
Celkem
…
n1S
n1+
…
…
…
…
…
nij
…
niS
ni+
…
…
…
…
…
…
nR1
…
nRj
…
nRS
nR+
n+1
…
n+j
…
n+S
n
nazývají sdružené absolutní četnosti a četnosti ni+ a n+j se nazývají
marginální četnosti. Jestliže se kontingenční tabulka pro relativní četnosti počítá z celého souboru, počítá se pomocí vzorce: p ij
nij n
1.3.1 Závislost dvou kategoriálních proměnných Při šetření nejčastěji obsahují dotazníky kategoriální data, proto vypočítání této závislosti je velmi důležité. Pro výpočet této závislosti se používá chí−kvadrát test o nezávislosti. Pro testování hypotéz lze využít testové kritérium Pearonova statistika chí−kvadrát, která má následující vzorec: R
S
p2 i 1 j 1
(nij mij ) 2 mij
V tomto vzorci je užita očekávaná četnost v případě nezávislosti, kterou lze vypočíst vzorcem: mij
ni n j n
20
Pokud jsou obě dvě proměnné ordinální, je možné použít i Spearmanův korelační koeficient. Ten lze vypočítat pomocí vzorce:
rs 1
6 D2 n(n 2 1)
n
D 2 ( xl y l ) 2 l 1
Tento koeficient leží na intervalu od mínus jedné do jedné.
1.3.2 Závislost dvou kvantitativních proměnných Pokud tazatel chce zjistit, jestliže jsou na sobě dvě kvantitativní proměnné vzájemně závislé, je to možné pomocí Pearsonova korelačního koeficientu. Vzorec pro jeho výpočet pomocí absolutních četností je následující:
r
R
S
i 1
j 1 ij
R 2 i 1 i i
n xi y j n x y
n x nx 2
x
1 R ni xi n i 1
y
1 S n j y j n j 1
S j 1
n j y 2j ny 2
Také je možné vypočítat míru intenzity závislosti těchto proměnných. Pearsonův korelační koeficient se vyskytuje na intervalu
1;1
, kde 0 znamená lineární
nezávislost, hodnota −1 je nepřímá závislost (negativní korelace) a hodnota 1 přímá závislost (pozitivní korelace). V případě, že analyzovaná data mají některé hodnoty odlehlé, tento koeficient není přesný, je vhodnější použít Spearmanův korelační koeficient. Zjistit, zda jsou hodnoty odlehlé, jde poměrně snadno pomocí bodového grafu. Pokud jsou hodnoty u sebe, je možné použít Pearsonův korelační koeficient. Pokud jsou některé body mimo oblast, kde jich je většina, použije se pro výpočet závislosti Spearmanův korelační koeficient.
21
1.3.3 Závislost dvou alternativních proměnných Speciálním případem kontingenční tabulky je již zmiňovaná asociační tabulka, která obsahuje dvě alternativní proměnné. V modelovém dotazníku se analýza dvou alternativních proměnných nenachází, je zde pouze pro informaci. Asociační tabulka s použitím absolutních četností vypadá následovně: Tabulka4: Asociační tabulka
Proměnná Y Proměnná X
0
1
Součet
0
n11
n12
n1+
1
n21
n22
n2+
Součet
n+1
n+2
n
Testování závislosti dvou alternativních proměnných lze provést pomocí chí-kvadrát statistiky, která má následující vzorec:
p2 n
(n11n22 n12 n21 ) 2 n1 n2 n1n2
Hodnota, kdy se při 5% hladině významnosti zamítá nulová hypotéza, je 0,021. Také je možné vypočítat míru intenzity vzájemné závislosti, kdy se používá koeficient asociace, který leží na intervalu <−1;1> a určí nejenom intenzitu, ale i směr závislosti. Koeficient asociace má následující vzorec:
r
n11n22 n12 n21 n1 n2 n1n2
22
2 Praktická část V praktické části této bakalářské práce je navržen a zpracován modelový dotazník tak, aby bylo možné vypočítat nejen charakteristiky z popisné statistiky, ale také vztahy a souvislosti mezi jednotlivými proměnnými. Nejdříve je nutné dobře promyslet, co tazatel očekává od zjištěných dat a jaké možné souvislosti by mohly nastat. Proto je také třeba, aby tazatel znal všechny aspekty dané problematiky, která je řešena v dotazníkovém šetření. Bez znalostí v oboru není možné správně formulovat otázky a také nemusí tazatel vidět všechny souvislosti, které by se mohly objevit ve zkoumaných datech. V této kapitole je zaměřena pozornost na tvorbu a analýzu dat, obsah dotazníku tedy není důležitý a není samotným cílem této práce. Jako námět na dotazník byla vybrána oblast týkající se zdravého životního stylu v populaci a kompletní dotazník je uveden v příloze.
2.1 Navrţení dotazníku Pokud se tazatel rozhodne, že udělá dotazníkové šetření zaměřené na životní styl populace, nejprve si musí ujasnit, co přesně má zkoumat. Poté je třeba si ujasnit výzkumnou otázku. Výzkumná otázka:S jakými aspekty souvisí zdravý ţivotní styl lidí v ČR? Dalším krokem je definování výzkumných hypotéz, které upřesňují výzkumnou otázku a které budou dotazníkovým šetřením zkoumány. Příklady výzkumných hypotéz
Je rozdíl mezi životním stylem mužů a žen?
Je rozdílný životní styl mezi mladou, starší a střední generací?
Závisí zdravý životní styl na dosaženém vzdělání?
Souvisí spolu zdravý životní styl a hodnota BMI respondenta?
Souvisí spolu zdravý životní styl a hodnota tlaku respondenta?
Jsou rozdíly mezi chováním a informovaností respondentů ohledně zdravého životního stylu?
23
Po navržení výzkumných otázek je třeba navrhnout proměnné, které budou použity k analýze proměnných i analýze závislostí. Z výzkumných otázek tedy vyplývají pojmy:
životní styl
pohlaví
věk
dosažené vzdělání
hodnota BMI
hodnota tlaku
informovanost o zdravém životním stylu
Některé z proměnných jsou jednoznačně určené, například pohlaví respondenta (proměnná pohlaví). Tato proměnná se řadí mezi nominální proměnné. Otázka vypadá takto: Vaše pohlaví o žena o muž Další proměnnou je dosaţené vzdělání respondenta (vzdělání), což je ordinální proměnná, protože je možné rozlišit jednotlivé stupně vzdělání. Otázka vypadá následovně: Vaše nejvyšší dosaţené vzdělání o o o o
základní vyučen střední s maturitou vysokoškolské (včetně VOŠ)
Další jednoznačně určenou proměnnou je věk respondentů (věk). Je možné použít číselnou proměnnou, která bude obsahovat rok narození či přímo věk respondenta. Tato proměnná je příkladem proměnné, kterou je možné kategorizovat podle potřebného rozdělení věku respondenta a zachází se s ní poté jako s ordinální proměnnou. Otázka na věk vypadá například takto: Rok narození ______________ 24
Další proměnnou − hodnotu BMI − nebude každý respondent znát, ale lze ji snadno vypočítat z hmotnosti a výšky respondenta. Je tedy příkladem proměnné, kterou je schopen tazatel dopočítat. Pokud se tazatel navíc bude ptát na hmotnost a výšku, je možné tyto samotné informace použít v analýze dat. Výška a hmotnost (proměnné výška a váha) jsou kvantitativními proměnnými a otázky na ně vypadají následovně: Vaše výška (cm) ______________ Vaše váha (kg) ______________ Hodnotu tlaku každý respondent také nejspíš nebude znát, ale na rozdíl od BMI ji nelze „spočítat“. Je tedy vhodné přidat do dotazníku doplňující otázku, jestli respondent zná svoji hodnotu tlaku a při kladné odpovědi teprve položit otázku, jaká je hodnota respondentova tlaku. Krevní tlak má systolickou a diastolickou hodnotu (systolický a diastolický), proto se zařadí dvě kvantitativní proměnné a předřadí se jim doplňující otázka: Znáte hodnotu vašeho krevního tlaku? o ano (pokračujte další otázkou) o ne (ukončení dotazníku) Vaše hodnota krevního tlaku diastolický (nižší)______________ systolický (vyšší)_____________ Získat informace o následujících proměnných už není možné položením jedné otázky. Je-li třeba zjistit, zda respondent ţije podle zásad zdravého ţivotního stylu. Tazatel si musí nejprve uvědomit, co všechno toto téma zahrnuje. Tyto informace lze získat položením otázek ohledně zdravého stravování, sportování, míry stresu, kouření atd. V tomto dotazníku je zařazen souhrn výroků, alternativních proměnných (označené S1_1 až S1_10), kde je možné zaškrtnout více tvrzení a které obsahují zásady zdravého životního stylu.
25
Respondent pak označí výroky, se kterými souhlasí nebo které pro něj platí. Ve své podstatě se nejedná o jedinou otázku, ale o soubor otázek, na které respondent odpovídá "ano" či "ne" tím, že zatrhne či nezatrhne daný výrok. Skupina otázek je sdružena do jedné pro zjednodušení a zrychlení vyplňování dotazníku. Výsledkem dotazování je 10 alternativních proměnných. Při tvorbě dotazníku je třeba myslet na pozdější zpracování, a proto je vhodnější zařazovat otázky, kde například označení výroku znamená žádoucí chování nebo naopak. Pokud by otázky byli významově opačně, při souhrnném zpracování by se museli překódovat. Vyberte pravdivá tvrzení, která se týkají vašich návyků (lze zaškrtnout více tvrzení) □ □ □ □ □ □ □ □ □ □
Snídám každý den. Jím pravidelně 4x až 5x denně. Denně sním alespoň 200 g zeleniny. Denně sním alespoň jednu porci ovoce. Každý týden sním alespoň jednu porci ryby. Každý týden sním alespoň jednu porci luštěnin. Upřednostňuji celozrnné výrobky. Alespoň dvě hodiny týdně se věnuji sportu. Spím více než sedm hodin denně. Moje práce (studium) mě nestresuje.
V dotazníku je zařazena ještě jedna skupina otázek zjišťující návyky respondentů, jejímž výstupem je ordinální proměnná. V tomto případě respondent odpovídá podle frekvence provádění těchto návyků. Při tvorbě dotazníku je třeba myslet na pozdější zpracování, a proto je vhodnější zařazovat otázky, kde například častější frekvence těchto zvyků znamená méně zdravý životní styl nebo naopak. Pokud by otázky byly významově opačné, při dalším zpracování by se musely překódovat. Při zpracování lze převést ordinální škálu na číselnou, aby bylo možné odpovědi na položené otázky shrnout do jedné proměnné, kterou lze považovat za číselnou proměnnou.
26
Proměnné (S2_1 až S2_10) jsou tedy následující: Vyberte z nabízených moţností, které nejlépe vystihují odpověď na danou otázku Jím tučné vepřové maso. о denně
о často
о občas
о výjimečně
о nikdy
о občas
о výjimečně
о nikdy
о občas
о výjimečně
о nikdy
о občas
о výjimečně
о nikdy
Jím tučné sýry (50 % tuku v sušině a více). о denně
о často
Piji tvrdý alkohol. о denně
о často
Piji víno nebo pivo. о denně
о často
Piji slazené nápoje (typu Coca-Cola, Fanta, Sprite atd.) . о denně
о často
о občas
о výjimečně
о nikdy
о občas
о výjimečně
о nikdy
Jím knedlíky s omáčkou. о denně
о často
Jím sladké (zákusky, sušenky, oplatky, zmrzlinu, čokoládu). о denně
о často
о občas
о výjimečně
о nikdy
о výjimečně
о nikdy
о občas
о výjimečně
о nikdy
о občas
о výjimečně
о nikdy
Vypiji více než tři šálky kávy za den. о denně
о často
о občas
Vypiji méně než 1,5 l neslazených tekutin. о denně
о často
Jak často kouříte? о denně
о často
Poslední potřebnou proměnnou je informovanost o zdravém ţivotním stylu. Ten lze zjistit z přidaných výroků o této problematice, kde respondent bude hodnotit míru pravdivosti výroku dle stupnice od 1 do 5, kde 1 znamená "vůbec nesouhlasím" 27
a 5 znamená "zcela souhlasím". Je to tedy ordinální proměnná s číselnou škálou odpovědí, které mají své určené pořadí. Opět je třeba zařazovat stejně hodnocené výroky, které obsahují buď pravdivé informace o zdravém životním stylu, či naopak. V této otázce je ukázána situace, kdy vybrané otázky neodpovídají podstatě problému. Výroky, které jsou zařazeny do dotazníku jsou velmi obecné na to, aby mohly vyjadřovat informovanost respondenta o zdravém životním stylu. Cílem tohoto nesprávného výběru výroků je ukázat, jak nevhodně zvolené otázky mohou zkreslit výsledky šetření. Je tedy vhodné pečlivě vybírat otázky, aby byly co nejpřesnější a aby měly opravdový přínos pro dotazníkové šetření. Výroky (V_1 až V_7) jsou následující: Jak souhlasíte s následujícími výroky? (Míru souhlasu vyjádřete na stupnici 1 – 5, kde 1 znamená "vůbec nesouhlasím" a 5 znamená "zcela souhlasím". Otázku nemusíte vyplňovat, pokud na výrok nemáte názor.) Veselá mysl je půl zdraví. Snídani sněz sám, o oběd se rozděl s přítelem a večeři dej nepříteli. Dodržování pitného režimu má velký vliv na naše zdraví i vzhled. Strava by měla být co nejrozmanitá. Bez pravidelného a intenzivního pohybu není možné redukovat váhu. Dostatek spánku a odpočinku je důležitý pro zdraví člověka. Kouření způsobuje rakovinu.
28
2.3 Analýza proměnných Pokud je provedeno dotazníkové šetření a data od respondentů jsou získána, musí se provést jejich kontrola. Některé chyby jsou viditelné na první pohled, například v uvedených datech bylo třeba přidat u roku narození 19 (napsáno bylo pouze 91) nebo byla také někdy přehozena hodnota diastolického a systolického tlaku. Po upravení dat je možné začít se zpracováváním. Lze začít analýzou jednotlivých proměnných, kde je možné sestavit tabulku četností a některé další popisné charakteristiky (dle druhu proměnné). Některé zjištěné skutečnosti mohou pomoci odhalit chování a zvyky respondentů, ale některé další jsou zbytečné z výzkumného hlediska. Důležitější než popisné charakteristiky budou závislosti, které se budou rozebírat následně.
2.3.1 Chování respondentů – moţnost více odpovědí Je možné začít rozebírat jednotlivé proměnné od začátku dotazníku. První je skupina alternativních proměnných, která se ptá na chování respondentů. V tomto případě lze analyzovat otázku z pohledu jednotlivých proměnných, ale také z pohledu jednotlivých respondentů. Pokud chce tazatel zjistit, jaké charakteristiky mají jednotlivé proměnné, je třeba je nejprve označit, v tomto případě pořadí v dotazníku odpovídá pořadí proměnné. Jelikož se jedná o alternativní proměnnou, uvádí se pouze absolutní a relativní četnost, kumulativní četnosti by neměly význam. Rozsah souboru (počet respondentů) je 122. Tabulka rozdělení četností je následující:
29
Tabulka5: Zvyky respondentů S1 (Zdroj: vlastní)
Absolutní četnost
Relativní četnost
(ni)
(pi)
S1_1
99
81 %
S1_2
56
46 %
S1_3
30
25 %
S1_4
57
47 %
S1_5
19
16 %
S1_6
29
24 %
S1_7
58
48 %
S1_8
59
48 %
S1_9
62
51 %
S1_10
32
26 %
Součet
x
x
Proměnné
Z tabulky je možné zjistit, že 81 % respondentů každý den snídá, zato pouze 16 % oslovených sní každý týden alespoň jednu porci ryby. Pro znázornění této tabulky je možné využít sloupcový graf, kde každé proměnné bude odpovídat jeden sloupec:
Četnost odpovědí
100% 80% 60%
40% 20% 0% S1_1 S1_2 S1_3 S1_4 S1_5 S1_6 S1_7 S1_8 S1_9 S1_10 Odpovědi
Obrázek 1: Graf četností S1 (Zdroj: vlastní)
Protože první otázka v dotazníku má soubor deseti odpovědí, je možné ji analyzovat také z pohledu jednotlivých respondentů a zjistit tak, jaké návyky mají respondenti. Je možné například pro každého respondenta sečíst počet vybraných tvrzení. Tím lze zjistit, kolik každý respondent vybral odpovědí. Čím více jich vybral, tím větší 30
je možnost, že žije podle zásad zdravého životního stylu. Také je možné zjistit pro celou tuto první otázku průměrný počet zaškrtnutých odpovědí, čehož lze docílit tím, že se všechny vybrané odpovědi respondentů sečtou a vydělí se počtem respondentů. V tomto případě vyšel průměrný počet zaškrtnutých odpovědí 4,11. Tento údaj je možné interpretovat takto: „Průměrně každý respondent vybral 4 z 10 možností.“
2.3.2 Chování respondentů – ordinální proměnná Další otázkou v dotazníku je opět chování respondentů, ale tentokrát se jedná o ordinální proměnnou. Jednotlivých výroků je celkem deset, lze tedy udělat tabulku rozdělení četností pro každý zvlášť, ale je možné také vytvořit tabulku četností pro tuto celou otázku dohromady. Pokud tazatel chce analyzovat jednotlivé proměnné, lze to ukázat například na prvním výroku: „Jím tučné vepřové maso.“ Možnosti odpovědí je vhodné překódovat, žádoucí chování je označeno vyšší hodnotou. Tabulka rozdělení četností pro tento výrok, který je označen jako S2_1, je následující: Tabulka 6: Rozdělení četností S2_1 (Zdroj: vlastní)
Kumulativní četnost Proměnná S2_1
Kód
Absolutní
Relativní
četnost (ni)
četnost (pi)
absolutní
relativní
(kni)
(kpi)
nikdy
5
19
16 %
19
16 %
výjimečně
4
45
37 %
64
52 %
občas
3
40
33 %
104
85%
často
2
17
14 %
121
99 %
denně
1
1
1%
122
100 %
Součet
x
122
100 %
х
х
Z této tabulky je vidět, že 37 % respondentů jí tučné vepřové maso pouze výjimečně, zatímco 1 % respondentů jí tučné vepřové maso denně. Také by se dalo například říci, že 85 % respondentů jí tučné vepřové maso nikdy, výjimečně nebo občas. Grafické vyjádření absolutní četnosti je následující:
31
50 45 40 35 Četnost odpovědí
30 25 20 15 10 5 0 nikdy
vyjímečně
občas
často
děnně
Obrázek 2: Graf rozdělení četností S2_1 (Zdroj: vlastní)
Pro ordinální proměnnou lze vypočítat modus, v tomto případě je nejčastější hodnota 4, což je možné interpretovat takto: „Nejčastěji respondenti odpovídali, že tučné maso jí pouze výjimečně.“ Medián se rovná také hodnotě 4, proto je možné říci, že střední hodnota z tohoto souboru je výjimečně. Toto byla analýza jednotlivých zvyků respondentů, ale také je možné analyzovat návyky jednotlivých respondentů. To lze udělat buď pomocí průměru (jako při analýze předešlé otázky), nebo pomocí součtu. Tazatel si může vybrat jakoukoliv metodu, ale nyní bude ukázán součet. Sečtou-li se hodnoty proměnných u každého z respondentů, zjistí se opět "hodnota životního stylu respondenta". Čím vyšší je tato hodnota, tím více žije respondent v souladu se zdravým životním stylem. Je možné vypočítat průměrnou hodnota z celého datového souboru, což je x 3,53 .
2.3.3 Informovanost respondentů Třetí otázka v dotazníku se týká informovanosti respondentů o zdravém životním stylu. Je to skupina výroků, kde respondent hodnotí podle sebe míru pravdivosti výroku. Jde o ordinální proměnnou, kdy respondent odpovídá pomocí číselné škály, ve které hodnota 1 znamená „vůbec nesouhlasím“ a hodnota 5 znamená „zcela souhlasím“. Opět je možné nahlížet na analýzu této proměnné jako na analýzu jednotlivých proměnných nebo jako na analýzu informovanosti jednoho respondenta. Pokud se bude analyzovat první výrok: „Veselá mysl je půl zdraví.“, označí se jako V_1, tabulka rozdělení četnosti této proměnné je: 32
Tabulka 7: Tabulka rozdělení četnosti V_1 (Zdroj: vlastní)
Kumulativní četnost Proměnná
Absolutní
Relativní
V_1
četnost (ni)
četnost (pi)
absolutní
relativní
(kni)
(kpi)
1
8
7%
8
7%
2
4
3%
12
10 %
3
23
19 %
35
29%
4
34
28 %
69
57 %
5
53
43 %
122
100 %
Součet
122
100 %
х
х
Z tabulky je možné určit další charakteristiky:
xˆ 5 ~ x 4 Q0 , 25 3 Q0 , 75 5 R4 IQR 2 Z toho vyplývá, že nejčastěji byl daný výrok hodnocen výrokem: "zcela souhlasím" a střední hodnotou souboru byl výrok hodnocený na číselné škále hodnotou 4. Z kvartilů je zjevné, že 25 % hodnot ze souboru je menších než 3 a 75 % hodnot je menších než hodnota 5. Variační rozpětí souboru je 4 a mezikvartilové rozpětí je 2. Graf pro toto rozdělení četností je:
33
Relativní četnost
50% 40% 30% 20% 10% 0% 1
2
3
4
5
Míra souhlasu s výrokem
Obrázek 3: Graf rozdělení četnosti V_1 (Zdroj: vlastní)
Další možností, jak analyzovat tuto proměnnou, je nahlížet na ni jako na celek, který informuje o tom, jak jsou respondenti informovaní o dané problematice. Je tedy možné zjistit například průměrnou hodnotu informovanosti jednoho respondenta či vytvořit sumární celkovou průměrnou hodnotu z dat.
2.3.4 Pohlaví respondentů Další analyzovanou proměnnou je nominální proměnná, která informuje o pohlaví respondentů. Z dat vyplývá, že zastoupení jednotlivých pohlaví v dotazníkovém šetření je následující: Tabulka 8: Rozdělení respondentů dle pohlaví (Zdroj: vlastní)
Pohlaví
Absolutní četnost
Relativní četnost
Ţeny
82
67 %
Muţi
40
33 %
Součet
122
100 %
Z tabulky je možné zjistit, že větší zastoupení v dotazníku mají ženy (67 %). Tento fakt nevadí, jelikož pro další účely je tento údaj potřebný pro rozdělení dat na dvě části a jejich další porovnávání. V případě, že by tazatel potřeboval pro svůj dotazník reprezentativní vzorek pro zastoupení pohlaví, poměr by měl odpovídat reálnému zastoupení ve společnosti. Grafické znázornění rozdělení respondentů dle pohlaví je následující:
34
žena muž
Obrázek 4: Graf rozdělení respondentů dle pohlaví (Zdroj: vlastní)
2.3.5 Nejvyšší dosaţené vzdělání Další otázkou v dotazníku je nejvyšší dosažené vzdělání. Je možné ji analyzovat samostatně, ale spíše je potřebnější při porovnávání dalších proměnných dle dosaženého vzdělání. Je to ordinální proměnná, takže je možné zkonstruovat tabulku rozdělení četností: Tabulka 9: Tabulka rozdělení četností Vzdělání (Zdroj: vlastní)
Proměnná Vzdělání
Kód
Absolutní četnost (ni)
Relativní
Kumulativní četnost
četnost
absolutní
relativní
(pi)
(kni)
(kpi)
základní
1
6
5%
6
5%
vyučen
2
7
6%
13
11 %
střední s maturitou
3
76
62 %
89
73%
vysokoškolské (včetně
4
33
27 %
122
100 %
VOŠ) Součet
x
122
100 %
х
х
Z tabulky je možné vyčíst tyto charakteristiky:
xˆ 3 ~ x 3 Q0 , 25 3 Q0 , 75 4 R3 IQR 1 35
Z těchto charakteristik lze usoudit, že velké množství (62 %) respondentů, má ukončené střední vzdělání s maturitou. Pro grafické zobrazení lze sestrojit sloupcový graf.
2.3.6 Věk Proměnná věk byl označen jako kvantitativní proměnná, ale lze jej pro přehlednější rozdělení a pro další zpracování rozdělit na jednotlivé kategorie. Poté je možno ho zařadit mezi ordinální proměnnou. Pro tento dotazník bylo zvoleno následující rozdělení: Tabulka 10: Rozdělení věku respondentů do kategorií (Zdroj: vlastní)
Kategorie
Spodní hranice
Horní hranice
starší
1920
1962
střední
1962
1987
mladší
1987
2000
Pro toto rozdělení je možné určit tabulku rozdělení četností: Tabulka 11: Tabulka rozdělení četností Věk (Zdroj: vlastní)
Proměnná Věk
Kód
Absolutní četnost (ni)
Relativní
Kumulativní četnost
četnost
absolutní
relativní
(pi)
(kni)
(kpi)
mladší
1
69
57 %
69
57 %
střední
2
41
34 %
110
90 %
starší
3
12
10 %
122
100%
Součet
x
122
100 %
х
х
Popisné charakteristiky pro proměnnou věk jsou následující:
xˆ 1 ~ x 1 Q0 , 25 1 Q0 , 75 2 R2 IQR 1 36
Z tabulky a popisných charakteristik je možné zjistit, že většina (57 %) respondentů je zařazena do kategorie mladší. Opět by bylo možné použít sloupcový graf pro grafické zobrazení.
2.3.7 Výška Výška respondentů je kvantitativní proměnná s větším rozsahem hodnot, proto bude muset být použito intervalové rozdělení. Nejprve se určí délka intervalu:
d
(197 138) 9,83 6
Délka intervalu se zaokrouhlí například na 12, aby byly zahrnuty všechny hodnoty, a vyjdou následující intervaly a rozdělení četností: Tabulka 12: Tabulka rozdělení četností Výška (Zdroj: vlastní)
Kumulativní četnost Dolní mez
Horní mez
Střed
Absolutní
Relativní
četnost (ni)
četnost (pi)
absolutní
relativní
(kni)
(kpi)
147
141
1
1%
1
1%
147
159
153
3
2%
4
3%
159
171
165
51
42 %
55
45 %
171
183
177
52
43 %
107
88 %
183
195
189
14
11 %
121
99 %
195
207
201
1
1%
122
100 %
Součet
x
x
122
100 %
x
x
Absolutní četnost
135
60 50 40 30 20 10 0 141
153
165
177
189
201
Středy intervalů výšky respondentů
Obrázek 5: Graf četnosti Výška (Zdroj: vlastní)
37
Z tabulky lze určit průměr, který po dosazení do vzorce pro váženou formu průměru, vyjde 172,67. Z toho se dá usuzovat, že průměrná výška respondenta je 172,67 cm. Také lze zjistit modus, který leží na intervalu 171;183 . Protože jde o intervalové rozdělení, medián se vypočítá takto:
0,5 kpi 0,5 0,45 ~ x h a 12 171 172 ,4 pi 0,43 Střední hodnota je tedy rovna 172,4 cm. Kvartily lze vypočítat podle jejich vzorce:
p kpi 0,75 0,45 ~ x0, 75 h a 12 171 179 ,37 pi 0,43 p kpi 0,25 0,03 ~ x0, 25 h a 12 159 165 ,29 pi 0,42
Dle kvartilů lze zjistit, že 75 % respondentů je menších než 179,37 cm, a zároveň, že 25 % respondentů je menších než 165,29. Také je možné vypočítat variační a mezikvartilové rozpětí: R xmax xmin 197 138 59 IQR ~ x0, 75 ~ x0, 25 179 ,37 165 ,59 13,78
Na základě těchto údajů lze vyvodit, že rozpětí souboru je 59 a rozpětí mezi horním a dolním kvartilem je 13,78. Další známé charakteristiky, které lze vypočítat pro kvantitativní proměnnou, jsou rozptyl, směrodatná odchylka a variační koeficient. n
s2
(x i 1
i
x)2
n
2536,78 20,79 122
s s 2 4,56 Vx
s 4,56 0,03 x 172 ,67
38
2.3.8 Váha Další analyzovanou proměnnou je váha, což je kvantitativní proměnná, proto bude její analýza velmi podobná analýze předchozí proměnné. Nejprve se opět určí délka intervalu:
d
(121 46) 12,5 6
Délka intervalu se určí například na 15, aby byly zahrnuty i krajní hodnoty, a vyjde následující tabulka rozdělení četností: Tabulka 13: Tabulka rozdělení četností váha (Zdroj: vlastní)
Kumulativní četnost Dolní mez
Horní mez
Střed
Absolutní
Relativní
četnost (ni)
četnost (pi)
absolutní
relativní
(kni)
(kpi)
40
55
47,5
15
12 %
15
12 %
55
70
62,5
49
40 %
64
52 %
70
85
77,5
38
31 %
102
84 %
85
100
92,5
17
14 %
119
98 %
100
115
107,5
2
2%
121
99 %
115
130
122,5
1
1%
122
100 %
Součet
x
x
122
100 %
x
x
Opět je možné zobrazit rozdělení četností pomocí sloupcového grafu. Z tabulky je možné určit průměr, který vyjde 70,74, z čehož vyplývá, že průměrná váha respondenta je 70,74 kg. Modus leží na intervalu 55; 70 . Jelikož jde o intervalové rozdělení, medián a kvartily jsou následující:
0,5 kpi 0,5 0,12 ~ x h a 15 55 69,25 pi 0,4
39
p kpi 0,75 0,52 ~ x0,75 h a 15 70 81,13 pi 0,31 p kpi 0,25 0,12 ~ x0, 25 h a 15 55 59,88 pi 0,4 Dle kvartilů lze zjistit, že 75 % respondentů má nižší hmotnost než 81,13kg, a zároveň, že 25 % respondentů má nižší hmotnost než 59,88 kg. Také je možné vypočítat variační a mezikvartilové rozpětí: R x max x min 121 46 75 IQR ~ x0, 75 ~ x0, 25 81,13 59 ,88 21,25
Je možné z toho říci, že rozpětí souboru je 75 a rozpětí mezi horním a dolním kvartilem je 21,25. Další známé charakteristiky, které lze vypočítat pro kvantitativní proměnnou, jsou rozptyl, směrodatná odchylka a variační koeficient. n
s2
(x i 1
i
x)2
n
5157,98 42,28 122
s s 2 6,50 Vx
s 6,50 0,09 x 70 ,74
2.3.9 Tlak První otázka týkající se krevního tlaku zjišťovala, jestli respondent zná hodnotu tlaku. Tato otázka byla zařazená z důvodu nasměrování respondentů na další otázku. Pokud respondent hodnotu tlaku znal, pokračoval zadáváním hodnot, pokud ji neznal, dotazník byl ukončen. Tato otázka nemusí být analyzována, jelikož spíše určuje respondenty, u kterých se budou analyzovat hodnoty tlaku. Je však možné zjistit jednoduché údaje:
40
Tabulka 14: Rozdělení respondentů, zda znají hodnotu tlaku (Zdroj: vlastní)
Znáte hodnotu tlaku?
Absolutní četnost
Relativní četnost
Ano
49
40 %
Ne
73
60 %
Součet
122
100 %
Na základě této tabulky je možno konstatovat, že 40 % respondentů zná hodnotu svého krevního tlaku. Také by se tato skutečnost dala vyjádřit výsečovým grafem. Další otázky se týkaly samotné hodnoty krevního tlaku, byly již samotné hodnoty tlaku. Krevní tlak má dvě hodnoty – systolickou a diastolickou. Jsou to číselné proměnné a jejich popisné charakteristiky se určují stejným postupem jako u váhy a výšky respondentů. Protože tato práce se primárně nezabývá samotným dotazníkovým šetřením o zdravém životním stylu, ale zpracováním těchto dat, popisné charakteristiky krevního tlaku se vynechají.
41
2.4 Analýza závislostí Pokud je dotazník správně promyšlen a vytvořen, kromě popisné statistiky získaných dat je možné zkoumat vztahy mezi proměnnými, zda jsou na sobě závislé či nikoliv. V této části práce se budou porovnávat nejdříve kategoriální proměnné a poté i kvantitativní proměnné.
2.4.1 Analýza závislosti kategoriálních proměnných Základem pro
zjišťování závislosti
mezi
dvěma
proměnnými
je
vytvoření
kontingenčních tabulek, které obsahují tyto dvě proměnné. Jedna z nich se nachází v řádcích tabulky a druhá obsazuje sloupce tabulky. Ve střední části tabulky se nachází výskyty četností při jednotlivých variantách odpovědí. Před vytvořením tabulky se nejprve musí tazatel rozhodnout, se kterými proměnnými bude pracovat. V této práci byla z dotazníku vybrána proměnná věk a S2, čímž se bude hodnotit, jestli na sobě závisí věk respondentů a jejich návyky. Je ale samozřejmě možné srovnávat ostatní aspekty s pohlavím, vzděláním a dalšími proměnnými. Proměnná S2 má deset podotázek, proto se bude zkoumat každá zvlášť. Jako metoda pro toto zjištění se používá Chí-kvadrát test o nezávislosti a hypotézy se určí takto: H0: Proměnné věk a S2_x jsou nezávislé. H1: Proměnné věk a S2_x jsou závislé. Pokud se začne analyzovat věk a S2_1, tedy výrok: „Jím tučné vepřové maso“, kontingenční tabulky vyobrazují absolutní a relativní četnosti: Tabulka 15: Závislost S2_1 a věk (Zdroj: vlastní)
Proměnná S2_1
nikdy
výjimečně
občas
často
denně
Součet
mladší
9
24
19
9
0
69
střední
6
14
18
6
1
41
starší
2
7
3
2
0
12
Součet
17
45
40
17
1
122
Proměnná věk
42
Z této tabulky lze vyčíst absolutní četnosti, takže lze například z tabulky zjistit, že 24 respondentů jedlo tučné vepřové maso pouze výjimečně a zároveň bylo mladšího věku. Další tabulka je založena na relativních četnostech a lze z ní vyčíst stejné údaje, jsou pouze uvedeny v procentuálním vyjádření: Tabulka 16: Závislost S2_1 a věk (Zdroj: vlastní)
Proměnná S2_1
nikdy
výjimečně
občas
často
denně
mladší
24,64 %
34,78 %
27,54 %
13,04 %
0%
střední
4,88 %
34,15 %
43,9 %
14,63 %
2,44 %
starší
0%
58,33 %
25 %
16,67 %
0%
Proměnná věk
Po vyhotovení kontingenčních tabulek pro každou proměnnou z S2 se zkoumají dané hypotézy již zmiňovaným testem o závislosti. Výsledná hodnota, kterou spočítá statistický software, testu ukáže, zda se daná nulová hypotéza zamítá či ne. Jestliže se pro výpočet nepoužije statistický software, je také možné počítat dle vzorce, ale je to náročnější. Pokud je tedy hodnota testu < 0,05, zamítá se nulová hypotéza na hladině významnosti 5 %, ale jestliže je hodnota > 0,05, nulovou hypotézu nelze zamítnout. Následující tabulka ukazuje, jaká je výsledná hodnota pro proměnné S2 a jestli nulovou hypotézu zamítáme či ne: Tabulka 17: Test nezávislosti pro S2 (Zdroj: vlastní)
Proměnná S2
Hodnota
H0
Závislost/nezávislost
S2_1
0,07
nelze zamítnout
nezávislost
S2_2
0,22
nelze zamítnout
nezávislost
S2_3
0,09
nelze zamítnout
nezávislost
S2_4
0,21
nelze zamítnout
nezávislost
S2_5
0,41
nelze zamítnout
nezávislost
S2_6
0,99
nelze zamítnout
nezávislost
S2_7
0,005
zamítnuta
závislost
S2_8
0,04
zamítnuta
závislost
S2_9
0,07
nelze zamítnout
nezávislost
S2_10
0,96
nelze zamítnout
nezávislost
43
Z tabulky je možné zjistit, že nulovou hypotézu lze zamítnout pouze ve dvou případech. V ostatních test ukázal, že se jedná o návyky nezávislé na respondentově věku. Pouze proměnné S2_7 a S2_8 jsou závislé na věku respondenta. To znamená, že: „Skutečnost, jestli respondent jí sladké, závisí na věku“ a „Skutečnost, jestli respondent vypije tři šálky kávy za den, závisí na jeho věku.“ Kontingenční tabulky pro tyto dvě proměnné závislé na věku vypadají následovně: Tabulka 18: Závislost mezi S2_7 a věk (Zdroj: vlastní)
Proměnná S2_7
nikdy
výjimečně
občas
často
denně
mladší
0%
20,29 %
28,99 %
39,13 %
11,59 %
střední
2,44 %
9,76 %
60,98 %
24,39 %
2,44 %
starší
8,33 %
16,67 %
66,67 %
8,33 %
0%
Proměnná věk
Z tabulky je možné zjistit, že v mladším věku se nejvíce jedí sladkosti "často", zatímco ve středním a starším věku se jedí sladkosti spíše "občas". Fakt, že jedení sladkostí souvisí s věkem respondenta, je poměrně pochopitelný, mladší lidé a děti jedí sladkosti častěji. Tabulka 19: Závislost mezi S2_8 a věk (Zdroj: vlastní)
Proměnná S2_8
nikdy
výjimečně
občas
často
denně
mladší
73,91 %
10,14 %
7,25 %
4,35 %
4,35 %
střední
41,46 %
19,51 %
14,63 %
12,20 %
12,20 %
starší
33,33 %
25 %
8,33 %
16,67 %
16,67 %
Proměnná věk
V předcházející kontingenční tabulce jsou uvedeny počty četností respondentů, které ukazují, jak často jak staří respondenti pili kávu. Lze zjistit, že převážná část mladších respondentů (73,91 %) nikdy nepije více než tři šálky kávy denně, zatímco se starším věkem tento výrazný poměr klesá. Závislost na vypité kávě a věku respondentů je také pochopitelná, protože mladí lidé často mnohdy kávu nepijí.
44
2.4.1 Analýza závislosti kvalitativních proměnných Pokud jsou data číselnými proměnnými, je třeba rozlišovat, jakých hodnot nabývají. Pokud neobsahují odlehlé hodnoty, lze používat k výpočtu nezávislosti Pearsonův korelační koeficient, v opačném případě je třeba použít Spearmanův korelační koeficient. Fakt, jestli jsou data odlehlá, zjistíme jednoduše z bodového grafu těchto dat. V modelovém dotazníku nejsou všechny proměnné číselné, ale je možné je z nich vytvořit. V případě první dotazníkové otázky, která obsahuje seznam výroků, lze vytvořit součet zaškrtnutých odpovědí pro každého respondenta a dále pak pracovat s touto hodnotou. Tato hodnota je značena S1_sum. Také pro druhou otázku je možné vytvořit součet, ale je nutné překódovat jednotlivé proměnné (často, výjimečně atd.). Je možné nastavit hodnoty tak, že proměnná nikdy má hodnotu 4, zatímco proměnná denně má hodnotu 0. Poté se provede součet těchto hodnot pro každého respondenta a označí se S2_sum. U těchto druhů otázek je třeba, aby se postupovalo stejným způsobem, což znamená, že žádoucí chování bude mít vyšší hodnoty. Také u třetí otázky z dotazníku se použije součet. Sečítají se jednotlivé hodnoty výroku každého respondenta a výsledná hodnota se označí V_sum. S těmito proměnnými lze pracovat jako s ostatními číselnými a lze zjišťovat závislosti mezi nimi. Navrhované výzkumné hypotézy se týkaly také hodnoty BMI, kterou je třeba před analýzou vypočítat z výšky a váhy respondenta. V případě číselných proměnných se testují například hypotézy: H0: Proměnné váha a výška jsou nezávislé. H1: Proměnné váha a výška jsou závislé. Po zadání dat do statistického softwaru vyšla tabulka hodnot s Pearsonovými koeficienty:
45
Tabulka 20: Pearsonovy koeficienty pro proměnné (Zdroj: vlastní)
Proměnné
výška
váha
BMI
S1_sum
S2_sum
V_sum
výška
1
0,6
0,1
-0,08
-0,06
-0,07
váha
0,60
1
0,85
0,00
-0,08
-0,12
BMI
0,1
0,85
1
0,05
-0,06
-0,09
S1_sum
-0,08
0,00
0,05
1
0,35
0,19
S2_sum
-0,06
-0,08
-0,06
0,35
1
0,12
V_sum
-0,07
-0,12
-0,09
0,19
0,12
1
Jestliže test zamítl nulovou hypotézu na hladině významnosti 5 %, koeficienty jsou zobrazeny červeně a tyto proměnné jsou tedy závislé. V případě černých koeficientů test přijal nulovou hypotézu a uvedené proměnné jsou na sobě nezávislé. Z tabulky je vidět, že závislé na sobě jsou proměnné váha a výška, váha a BMI, S1_sum a S2_sum, S1_sum a V_sum. Znamená to tedy, že spolu souvisí hmotnost respondenta a jeho výška přímo úměrně (znaménko +), takže čím vyšší je váha, tím vyšší je jeho výška. To lze vysvětlit tím, že osoba, která je vyšší, má většinou i vyšší hmotnost. Samozřejmě to není pravidlem, ale je to častý jev. Také z testu vyplývá, že spolu souvisí hmotnost respondenta a hodnota jeho BMI. Toto je také možné vysvětlit tím, že hodnota BMI se vypočítá z výšky a také tato hodnota vlastně určuje, do jaké "váhové" skupiny osoba patří. Také vyšlo, že jsou závislé dvě hodnoty, které se týkají návyků respondentů, což je pochopitelné, protože hodnotí podobné aspekty. Souvisí spolu také informovanost a návyky respondentů. Pro některé z těchto uvedených proměnných je vhodnější spočítat Spearmanovy koeficienty. Zde je tabulka s těmito koeficienty:
46
Tabulka 21: Spearmanovy koeficienty pro proměnné (Zdroj: vlastní)
Proměnné
výška
váha
BMI
S1_sum
S2_sum
V_sum
výška
1
0,65
0,21
-0,09
-0,07
-0,11
váha
0,65
1
0,85
0,03
-0,06
-0,13
BMI
0,21
0,85
1
0,1
-0,06
-0,13
S1_sum
-0,09
0,026
0,1
1
0,34
0,30
S2_sum
-0,07
-0,06
-0,06
0,34
1
0,12
V_sum
-0,11
-0,13
-0,13
0,30
0,12
1
Z této tabulky je vidět, že hodnoty koeficientů jsou dost podobné, ale z následujících grafů je zřejmé, že pro některé proměnné jsou Spearmanovy koeficienty vhodnější: 40 35 30 BMI
25 20 15 10
5 0 0
50
100
150
200
250
Výška
Obrázek 6: Hodnoty výška a BMI (Zdroj: vlastní)
Z tohoto grafu je možné vidět, že některé hodnoty jsou odlehlé a proto je přesnější použít Spearmanův koeficient. Předcházející tabulky to potvrzují, protože dle Pearsonova koeficientu nejsou proměnné výška a BMI na sobě závislé, ale podle Spearmanova jsou závislé.
47
V_sum
40 35 30 25 20 15 10 5 0 0
2
4
6
8
10
S1_sum
Obrázek 7: Závislost V_sum a S1_sum (Zdroj: vlastní)
Z grafu závislosti V_sum a S1_sum lze zjistit, že spíše než číselnou proměnnou připomíná ordinální proměnnou. Pearsonův koeficient vyšel odlišný od Spearmanova právě z tohoto důvodu. Vhodnější pro zjištění závislosti bude tedy Spearmanův koeficient. Také je možné provést analýzu pouze z respondentů, kteří znali hodnotu svého krevního tlaku. Poté by již nebyl rozsah souboru 122, ale pouze 49. Ze získaných dat se opět sestaví tabulka pro Pearsonovy koeficienty, ale protože tito respondenti znali svoji hodnotu krevního tlaku, je možné přidat také proměnné diastolický a systolický: Tabulka 22: Tabulka pro pearsonovy koeficienty, n=49 (Zdroj: vlastní)
Proměnné
výška
váha
BMI
diastolický
systolický
S1_sum
S2_sum
V_sum
výška
1
0,54
0,04
0,32
0,33
-0,04
-0,1
-0,05
váha
0,54
1
0,86
0,51
0,56
0,06
-0,2
-0,04
BMI
0,04
0,86
1
0,41
0,47
0,1
-0,2
-0,02
diastolický
0,32
0,51
0,41
1
0,82
-0,04
-0,32
-0,08
systolický
0,33
0,56
0,47
0,82
1
-0,14
-0,34
-0,12
S1_sum
-0,04
0,6
0,1
-0,04
-0,14
1
0,46
0,16
S2_sum
-0,1
-0,2
-0,2
-0,32
-0,34
0,46
1
0,05
V_sum
-0,05
-0,04
-0,02
-0,08
-0,12
0,16
0,05
1
V tabulce lze najít červeně vyznačené koeficienty, které test označil s 5% hladinou významnosti jako závislé, a černé označené, které jsou podle testu nezávislé. Hodnota
48
koeficientu ukazuje, jak moc silná závislost mezi proměnnými nastává a znaménko určuje, jestli závislost je přímá (plus) nebo nepřímá (mínus). Například vysokou závislost v tomto případě mají proměnné systolický a diastolický. Jejich výsledná hodnota Pearsonova koeficientu je 0,82, což značí pozitivní (přímou) velmi silnou závislost, kterou lze interpretovat: „Čím vyšší je hodnota respondentova systolického tlaku, tím vyšší je jeho hodnota diastolického tlaku a naopak.“ Graf této
systolický tlak
závislosti potvrzuje přímou závislost a je následný: 180 160 140 120 100 80 60 40 20 0 0
20
40
60
80
100
120
diastolický tlak
Obrázek 8: Závislost mezi diastolický a systolický (Zdroj: vlastní)
Dalším možným příkladem druhu závislosti je nepřímá závislost, která nastává například mezi proměnnými S2_sum a systolický. Hodnota jejich koeficientu je − 0,34, což odpovídá nepřímé slabé závislosti. Toto zjištění se dá interpretovat: „Čím méně se řídí respondent zásadami zdravého životního stylu, tím větší je hodnota jeho systolického tlaku a naopak.“ Graf této závislosti potvrzuje mírnou nepřímou (klesající sklon) závislost:
49
systolický
200 150 100 50 0 0
5
10
15
20
25
30
35
40
S2_sum
Obrázek 9: Závislost mezi systolický a S2_sum (Zdroj: vlastní)
Z testu také vychází, které proměnné jsou na sobě nezávislé. V případě tohoto modelového dotazníku to jsou například proměnné diastolický a S1_sum. Tento fakt lze interpretovat: „Respondentova hodnota diastolického tlaku a jeho životní styl na sobě nezávisí.“ Je to poměrně překvapivá informace, protože vyšší tlak mají často lidé, kteří se nechovají podle zásad zdravého životního stylu. Možná by bylo vhodné tyto údaje ještě roztřídit podle věku respondentů a ty porovnat, protože důsledky životního stylu se často projevují až ve středním věku. Graf tohoto vztahu nezávislost potvrzuje: 120
diastolický
100 80 60 40 20 0 0
2
4
6
8
10
S1_sum
Obrázek 10: Nezávislost mezi diastolický a S1_sum (Zdroj: vlastní)
Za zmínku ještě stojí fakt, že proměnná V_sum vyšla zcela nezávislá na všech proměnných. Mohlo by se zdát, že je to způsobeno tím, že tato proměnná nemá vztah k ostatním. Ale jak už bylo řečeno v kapitole Navržení dotazníku, výroky z této proměnné byly vybrány záměrně špatně. Pokud tazatel navrhne otázku, která nedokáže zjistit to, co by měla, může dojít k chybné interpretaci dat. V tomto případě by se dalo říci, že je tato proměnná nezávislá, jenže V_sum závislá může být, jenom byly zvoleny 50
špatně výroky, které ji měly změřit. Z tohoto důvodu ji tazatel nemůže posoudit a vyplývá z toho, jak důležitým krokem je pečlivé promyšlení dotazníku a jeho otázek.
51
Závěr Cílem této bakalářské práce bylo ukázat možnosti analýzy dat, která jsou pořízena dotazníkovým šetřením. Tyto možnosti analýzy se liší v závislosti na kvalitě a na skutečnosti, zda a jak byl stanoven výzkumný záměr. Tato práce ukázala, jak může ovlivnit nekvalitně zpracovaný dotazník jeho výsledná data. Častou chybou tvůrců dotazníkových šetření je, že nestanoví výzkumný záměr, který obsahuje výzkumnou otázku a upřesňující výzkumné hypotézy. Tento proces je velmi důležitý, protože tím si tvůrce ujasní, co přesně chce zkoumat a jaké informace potřebuje od respondentů získat. Tím se předchází problému s chybějícími daty pro uskutečnění analýz, které mohou objasnit vztahy mezi jednotlivými proměnnými. Další častou chybou tvůrců je špatné sestavení dotazníku, kdy se z odpovědí respondentů nedají vyčíst potřebné údaje. Tento případ byl v dotazníku demonstrován souborem výroků, jejichž hodnocení mělo zjistit míru informovanosti respondenta o zásadách zdravého životního stylu. Výroky byly formulované příliš obecně a na jejich základě se míra informovanosti respondenta nedala zjistit. Proto vyšla tato proměnná jako nezávislá na ostatních, ale nebylo to z důvodu nezávislosti, ale právě kvůli chybné tvorbě výroků. V této práci bylo také ukázáno, jak by mělo správně probíhat celé dotazníkové šetření a jakých analýz je možno využít, pokud je stanoven výzkumný záměr a vhodně vybrána data ke zpracování. Tomu však předcházelo nutné zařazení dat do určitých druhů proměnných, které byly také popsány. Poté bylo rozebíráno zpracování rozdělení četností v tabulkách a v grafech, které ukázalo základní charakteristiky získaných informací. Následně byly zpracovány jednotlivé popisné charakteristiky, které odhalily další vlastnosti dat. Popisné charakteristiky musely být vybírány dle druhů proměnných, protože není možné určit všechny charakteristiky pro každý typ proměnné. Tyto charakteristiky jsou výstupem skoro každého běžného dotazníku, někdy mohou být zajímavé, ale spíše jen skutečnost popisují – už nevysvětlují, proč tomu tak je a jestli to s něčím souvisí.
52
Souvislosti mezi proměnnými byly určeny analýzou závislostí, která je často opomíjena a která se dá sestavit pouze s pomocí vhodně vybraných dat z dotazníku. Opět byly použity metody analýzy vhodné pro určité proměnné. Bylo tedy zjištěno, že pokud se stanoví výzkumný závěr a na jeho základě se sestavuje dotazník, je možné získat opravdu potřebná data. Díky těmto datům lze zjistit, zda spolu dané informace souvisí a jestli ano, tak jakým způsobem. Nad těmito závislostmi je vhodné se zamyslet, proč tomu tak je. V ideálním případě by se mělo dotazníkové šetření po určité době opakovat. Toto šetření se opět zpracuje a vyhodnotí se fakt, jestli se výsledky shodují a tím se výzkumné závěry potvrdí.
53
Seznam uţité literatury HENDL, Jan. Přehled statistických metod zpracování dat : Analýza a metaanalýza dat. 1. Praha : Portál, 2004. 583 s. ISBN 80-7178-820-1. PUNCH, Keith. Základy kvantitativního šetření.Vyd. 1. Praha: Portál, 2008, 150 s. ISBN 978−80−7367−381−9. ŘEZANKOVÁ, Hana. Analýza dat z dotazníkových šetření: (druhé vydání). 2. vyd. Praha: Professional Publishing, 2010, 217 s. ISBN 978−80−7431−019−5. ŘEZANKOVÁ, Hana. Analýza kategoriálních dat. 1. Praha : Oeconomica, 2005. 99 s. ISBN 80-245-0926-1. Vysoká škola ekonomická [online]. [cit. 2012−04−19]. Dostupné z: http://iastat.vse.cz/typy_promennych.html
54
Seznam tabulek Tabulka1: Tabulka rozdělení četností (bodové rozdělení) ............................................ 14 Tabulka2: Tabulka rozdělení četností (intervalové třídění)...........................................15 Tabulka3: Dvourozměrná tabulka četnosti ................................................................... 20 Tabulka4: Asociační tabulka ....................................................................................... 22 Tabulka5: Zvyky respondentů S1 (Zdroj: vlastní) ........................................................ 30 Tabulka 6: Rozdělení četností S2_1 (Zdroj: vlastní) ..................................................... 31 Tabulka 7: Tabulka rozdělení četnosti V_1 (Zdroj: vlastní) ..........................................33 Tabulka 8: Rozdělení respondentů dle pohlaví (Zdroj: vlastní) .................................... 34 Tabulka 9: Tabulka rozdělení četností Vzdělání (Zdroj: vlastní) ................................... 35 Tabulka 10: Rozdělení věku respondentů do kategorií (Zdroj: vlastní) ......................... 36 Tabulka 11: Tabulka rozdělení četností Věk (Zdroj: vlastní) ........................................ 36 Tabulka 12: Tabulka rozdělení četností Výška (Zdroj: vlastní) ..................................... 37 Tabulka 13: Tabulka rozdělení četností váha (Zdroj: vlastní) ....................................... 39 Tabulka 14: Rozdělení respondentů, zda znají hodnotu tlaku (Zdroj: vlastní) ............... 41 Tabulka 15: Závislost S2_1 a věk (Zdroj: vlastní) ........................................................ 42 Tabulka 16: Závislost S2_1 a věk (Zdroj: vlastní) ........................................................ 43 Tabulka 17: Test nezávislosti pro S2 (Zdroj: vlastní) ................................................... 43 Tabulka 18: Závislost mezi S2_7 a věk (Zdroj: vlastní) ................................................ 44 Tabulka 19: Závislost mezi S2_8 a věk (Zdroj: vlastní) ................................................ 44 Tabulka 20: Pearsonovy koeficienty pro proměnné (Zdroj: vlastní) ............................. 46 Tabulka 21: Spearmanovy koeficienty pro proměnné (Zdroj: vlastní) .......................... 47 Tabulka 22: Tabulka pro pearsonovy koeficienty, n=49 (Zdroj: vlastní) ...................... 48
Seznam obrázků Obrázek 1: Graf četností S1 (Zdroj: vlastní) ................................................................. 30 Obrázek 2: Graf rozdělení četností S2_1 (Zdroj: vlastní).............................................. 32 Obrázek 3: Graf rozdělení četnosti V_1 (Zdroj: vlastní) ............................................... 34 Obrázek 4: Graf rozdělení respondentů dle pohlaví (Zdroj: vlastní) ............................. 35 Obrázek 5: Graf četnosti Výška (Zdroj: vlastní) ........................................................... 37 Obrázek 6: Hodnoty výška a BMI (Zdroj: vlastní) ........................................................ 47 55
Obrázek 7: Závislost V_sum a S1_sum (Zdroj: vlastní) ................................................ 48 Obrázek 8: Závislost mezi diastolický a systolický (Zdroj: vlastní) ............................... 49 Obrázek 9: Závislost mezi systolický a S2_sum (Zdroj: vlastní) ................................... 50 Obrázek 10: Nezávislost mezi diastolický a S1_sum (Zdroj: vlastní) ............................ 50
Seznam příloh Příloha 1: Modelový dotazník.........................................................................................57
56
Příloha 1: Modelový dotazník 1. Vyberte pravdivá tvrzení, která se týkají vašich návyků (lze zaškrtnout více tvrzení) □ □ □ □ □ □ □ □ □ □
Snídám každý den. Jím pravidelně 4x až 5x denně. Denně sním alespoň 200 g zeleniny. Denně sním alespoň jednu porci ovoce. Každý týden sním alespoň jednu porci ryby. Každý týden sním alespoň jednu porci luštěnin. Upřednostňuji celozrnné výrobky. Alespoň dvě hodiny týdně se věnuji sportu. Spím více než sedm hodin denně. Moje práce (studium) mě nestresuje.
2. Vyberte z nabízených moţností, které nejlépe vystihují odpověď na danou otázku Jím tučné vepřové maso. о denně
о často
о občas
о výjimečně
о nikdy
Jím tučné sýry (50 % tuku v sušině a více). о denně
о často
о občas
о výjimečně
о nikdy
о občas
о výjimečně
о nikdy
о občas
о výjimečně
о nikdy
Piji tvrdý alkohol. о denně
о často
Piji víno nebo pivo. о denně
о často
Piji slazené nápoje (typu Coca-Cola, Fanta, Sprite atd.) . о denně
о často
о občas
о výjimečně
о nikdy
о občas
о výjimečně
о nikdy
Jím knedlíky s omáčkou. о denně
о často
Jím sladké (zákusky, sušenky, oplatky, zmrzlinu, čokoládu). о denně
о často
о občas
о výjimečně
о nikdy 57
Příloha 1: Modelový dotazník Vypiji více neţ tři šálky kávy za den. о denně
о často
о občas
о výjimečně
о nikdy
о občas
о výjimečně
о nikdy
о občas
о výjimečně
о nikdy
Vypiji méně neţ 1, 5 l neslazených tekutin. о denně
о často
Jak často kouříte? о denně
о často
3. Jak souhlasíte s následujícími výroky? (Míru souhlasu vyjádřete na stupnici 1 – 5, kde 1 znamená "vůbec nesouhlasím" a 5 znamená "zcela souhlasím". Otázku nemusíte vyplňovat, pokud na výrok nemáte názor. ) Veselá mysl je půl zdraví. Snídani sněz sám, o oběd se rozděl s přítelem a večeři dej nepříteli. Dodrţování pitného reţimu má velký vliv na naše zdraví i vzhled. Strava by měla být co nejvíce rozmanitá. Bez pravidelného a intenzivního pohybu není moţné redukovat váhu. Dostatek spánku a odpočinku je důleţitý pro zdraví člověka. Kouření způsobuje rakovinu. 4. Vaše pohlaví o žena o muž 5. Vaše nejvyšší dosaţené vzdělání o o o o
základní vyučen střední s maturitou vysokoškolské (včetně VOŠ)
58
Příloha 1: Modelový dotazník 6. Rok narození ______________ 7. Vaše výška (cm) ______________ 8. Vaše váha (kg) ______________ 9. Znáte hodnotu vašeho krevního tlaku? o ano (pokračujte další otázkou) o ne (ukončení dotazníku) 10. Vaše hodnota krevního tlaku ______________
59