ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra ekonomických studií
ZÁKLADY STATISTIKY DOTAZNÍKOVÉ ŠETŘENÍ
STUDIJNÍ TEXT
Jana Borůvková
2013
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Jana Borůvková ZÁKLADY STATISTIKY – DOTAZNÍKOVÉ ŠETŘENÍ 1. vydání ISBN 978-80-87035-80-1 Vydala Vysoká škola polytechnická Jihlava, Tolstého 16, Jihlava, 2013 Tisk Ediční oddělení VŠPJ, Tolstého 16, Jihlava Za jazykovou a věcnou správnost obsahu díla odpovídá autor. Text neprošel jazykovou ani redakční úpravou.
© Jana Borůvková, 2013
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Vážení čtenáři,
dostává se vám do ruky studijní text primárně určený studentům VŠPJ, kteří v rámci své bakalářské práce provádí dotazníkové šetření. V této oblasti se jedná o poměrně ojedinělý autorský počin, který umožňuje seznámit se v českém jazyce se správným postupem při realizaci dotazníkového šetření a následným statistickým zpracování dat pomocí MS Excel. Text je rozdělen do dvou částí. V první části lze nalézt stručný popis správného postupu při tvorbě dotazníku, který by měl umožnit analýzu vztahů mezi proměnnými, nikoli jen popisnou statistiku jednotlivých proměnných. Tento vyšší stupeň analýzy je možný pouze v případě správné konstrukce dotazníkového šetření, která začíná stanovením výzkumných otázek a hypotéz, pokračuje definováním proměnných a teprve poté definováním otázek do dotazníku. Druhá část studijního textu je věnována využití softwaru MS Excel pro předběžné zpracování dat, přípravu datové matice a popisnou statistiku jednotlivých proměnných. Cílem této části je přiblížit čtenáři možnosti softwaru MS Excel při zpracování dat, které jsou velmi omezené. MS Excel umožňuje uživateli připravit data do podoby vhodné pro analýzu dat a poskytnout prvotní náhled na jednotlivé proměnné. Co ovšem MS Excel neumožňuje nebo umožňuje jen v hodně omezené míře, je vlastní testování hypotéz a zkoumání vztahů mezi proměnnými. Za tímto účelem je nutné použít statistický software (např. STATISTICA nebo SPSS, které jsou studentům a učitelům VŠPJ k dispozici). Cílem autora bylo vytvořit studijní text, který bude prvním průvodcem studentům i vyučujícím VŠPJ v případě, že se rozhodnou pořídit data pro seminární práce, bakalářské práce nebo odborné články s využitím dotazníkového šetření a data následně analyzovat softwarem, který je na VŠPJ dostupný jak studentům, tak i vyučujícím.
Jana Borůvková Jihlava, květen 2013
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Obsah 1
Tvorba dotazníku jakožto nástroje sběru dat.............................................................. 5 1.1
1.1.1
Metodologie ......................................................................................................5
1.1.2
Výhody a nevýhody...........................................................................................7
1.1.3
Techniky dotazování .........................................................................................8
1.2
Proměnné .................................................................................................................9
1.2.1
Proměnné nominální..........................................................................................9
1.2.2
Proměnné ordinální ...........................................................................................9
1.2.3
Proměnné měřitelné (intervalové) ......................................................................9
1.3
Výzkumné otázky a hypotézy ................................................................................. 10
1.3.1
Výzkumné otázky............................................................................................ 10
1.3.2
Hypotézy ......................................................................................................... 11
1.4
Operacionalizace .................................................................................................... 11
1.5
Dotazník ................................................................................................................. 13
1.5.1
Typy otázek v dotazníku.................................................................................. 13
1.5.2
Otázky a odpovědi........................................................................................... 14
1.5.3
Pravidla pro formulaci otázek .......................................................................... 15
1.6 2
Kvalitativní a kvantitativní výzkum ..........................................................................5
Výběr respondentů pro dotazníkové šetření ............................................................ 15
Zpracování dat pořízených dotazníkovým šetřením ................................................. 18 2.1
Sběr dat a jejich zpracování .................................................................................... 18
2.2
Třídění dat .............................................................................................................. 18
2.2.1
Bodové třídění ................................................................................................. 19
2.2.2
Grafické znázornění dat tříděných bodovým tříděním ...................................... 22
2.2.3
Intervalové třídění dat a jejich grafické znázornění .......................................... 24
2.3
Charakteristiky polohy a variability ........................................................................ 26
2.3.1
Charakteristiky polohy .................................................................................... 26
2.3.2
Charakteristiky variability ............................................................................... 27
2.3.3
Krabicový graf ................................................................................................ 29
2.4
Třídění druhého stupně ........................................................................................... 31
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
1 Tvorba dotazníku jakožto nástroje sběru dat Záměrem této kapitoly je objasnit místo dotazníkového šetření v sociologickém výzkumu a z toho vyplývající možnosti dotazníkového šetření. Dále je obsahem této kapitoly popis postupu při tvorbě dotazníku, kdy na počátku všeho musí být formulace výzkumných otázek a hypotéz. Dále musí být pomocí tzv. operacionalizace definovány jednotlivé proměnné a indikátory neboli způsob, jak proměnné měřit. Teprve v této chvíli lze přistoupit k formulaci jednotlivých otázek do dotazníku. Mnoho autorů dotazníkového šetření se dopouští zásadního pochybení v tom, že nevytváří indikátory, které by v celkovém pojetí tvořily takový nástroj sběru dat (dotazník), který by měřil vztahy mezi proměnnými a v důsledku toho je veškerá analýza redukována na popisnou statistiku. V kapitole jsou též popsány typy otázek, se kterými se lze setkat při dotazníkovém šetření a je zde podrobně popsán i postup tvorby otázek do dotazníku a nejčastější chyby. V závěru je diskutován vhodný počet respondentů pro výběr i census.
1.1 Kvalitativní a kvantitativní výzkum Výzkum je systematický způsob řešení problémů, kterým se rozšiřují hranice vědomostí lidstva. Výzkumem se potvrzují či vyvracejí dosavadní poznatky, anebo se získávají poznatky nové. Výzkum snižuje nevědomost lidstva a odstraňuje nesprávné, neúplné anebo nedokonalé poznání jevů. Tato skripta pojednávají o společenskovědním výzkumu. Jeho základními typy jsou kvantitativní a kvalitativní výzkum. Ačkoli jsou oba přístupy rozdílné, vzájemně se doplňují. Kvalitativní výzkum pomáhá porozumět sociální realitě a kvantitativní výzkum testuje spolehlivost (tzv. validitu) tohoto porozumění. Hlavním cílem kvalitativního výzkumu je vytváření nových poznatků. Kvalitativní výzkum bývá také nazýván konstruktivistickým, naturalistickým, interpretativním nebo reflexivním. Jedná se o nenumerické šetření a interpretaci sociální reality. Kvalitativní přístup klade důraz na důkladné (hloubkové) poznání zkoumaného sociálního jevu (události, fenoménu). Snaží se o vytvoření komplexního, holistického obrazu zkoumaného problému, o porozumění lidem v různých sociálních situacích a jejich interpretacím těchto situací. Hlavním cílem kvantitativního výzkumu je ověřování platnosti teorií pomocí testování z těchto teorií vyvozených hypotéz. Kvantitativní výzkum se označuje jako tradiční, pozitivistický, experimentální nebo empiricko-analytický. Zaměřuje se na hledání vztahů mezi dvěma či více proměnnými.
1.1.1 Metodologie Kvalitativní typ výzkumu je založen na induktivní logice, kdy na počátku výzkumného procesu je sběr dat. V sebraných datech výzkumník posléze pátrá po pravidelnostech a na základě svých objevů poté formuluje (nové) teorie či hypotézy. 5
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Kvantitativní výzkum je založen na deduktivním přístupu – z teorie jsou vyvozovány hypotézy, které jsou poté prostřednictvím sebraných dat testovány. Vzorem pro kvantitativní typ výzkumu jsou metody přírodních věd. Metodologie kvantitativního výzkumu je výrazně strukturovaná a využívá statistické metody. Kvalitativní přístup je pružnější a méně atomizovaný. I v průběhu výzkumu jsou činěna rozhodnutí, jak by se mělo postupovat dále. Lze také měnit výzkumné otázky či hypotézy. Kvalitativní výzkumníci typicky pracují s malým množstvím případů. Pozorované případy jsou však studovány do hloubky, je zkoumáno mnoho jejich vlastností (proměnných). Setkáváme se zde tedy se silnou redukcí počtu sledovaných jedinců, v důsledku čehož je zobecnění zjištěných výsledků na celou populaci problematické. Kvantitativní výzkumy sledují velké množství případů, ovšem jen málo jejich vlastností. Dochází zde k výrazné redukci počtu sledovaných proměnných a vztahů mezi nimi. Výsledky výzkumů lze však snadno generalizovat na celou populaci. Kvantitativní výzkum vyžaduje silnou standardizaci, která mu zajišťuje vysokou reliabilitu (spolehlivost, hodnověrnost). Standardizace ale také vede k výrazné redukci množství zjišťovaných informací, což způsobuje poměrně nízkou validitu (udává, zda otázka skutečně měří měřenou vlastnost)výzkumů. V kvalitativním výzkumu je standardizace jen slabá, a proto má kvalitativní výzkum nižší reliabilitu než výzkum kvantitativní. Nízká úroveň standardizace kvalitativního výzkumu a menší počet transformací, kterými získávané informace procházejí, mu však zajišťují vysokou validitu. V kvantitativním výzkumu jsou sbírána jen ta data, která potřebujeme k testování hypotéz, v kvalitativním výzkumu se výzkumník snaží sebrat všechna data související s tématem šetření. Cílem konstrukce vzorku v kvantitativním výzkumu je reprezentace populace jedinců. V kvalitativním výzkumu se jedná o reprezentaci populace problému, jeho relevantních dimenzí. Mezi kvantitativní techniky sběru dat patří např. experiment, dotazníkové šetření, obsahová analýza dokumentů či strukturované pozorování. K základním metodám kvalitativního výzkumu patří např. zúčastněné pozorování, nestandardizovaný rozhovor, analýza osobních textů či dokumentů. Porovnání obou základních typů společenskovědního výzkumu je uvedeno v tabulce 1.1.
6
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Tabulka 1.1: Porovnání kvantitativního a kvalitativního výzkumu
Kvantitativní výzkum Ptáme se: Co? Jak? Kolik? Příklady využití: analýzy návštěvnosti, frekvence půjčování, určování míry spokojenosti uživatelů Deduktivní (postupuje od obecných soudů k jednotlivostem) Testování teorií, hypotéz Strukturované, standardizované metody (dotazník) Velký výzkumný vzorek Redukce informací Zprostředkovaný kontakt s respondenty Matematické, statistické zpracování Generalizace je možná Vysoká reliabilita Nízká validita
Kvalitativní výzkum Ptáme se: Proč? Příklady využití: Proč lidé (ne)chodí do knihovny? Jak se v ní chovají a jaký význam pro ně knihovna má? Induktivní (postupujeme od jednotlivostí k obecným soudům) Vytváření teorií Rozhovor, pozorování Menší výzkumný vzorek Vyčerpávající informace o případu Těsný a dlouhodobý kontakt Kódování Generalizace je nemožná Reliabilita je nízká Vysoká validita
1.1.2 Výhody a nevýhody Kvantitativní výzkum výhody o eliminace působení rušivých proměnných o relativně rychlý sběr a analýza dat o výsledky poměrně nezávislé na výzkumníkovi
nevýhody o kategorie použité ve výzkumu nemusí odpovídat lokálním, subkulturním apod. zvláštnostem o výsledky mohou být příliš abstraktní, obecné o výzkumník může opomenout důležité fenomény či intervenující proměnné, protože se soustřeďuje pouze na testování určité teorie, která s nimi nemusí počítat
Kvalitativní výzkum výhody o problém zkoumán v přirozeném prostředí o zohlednění místních či jiných zvláštností o je vhodný k počátečnímu prozkoumání problému nevýhody o problematická generalizace výsledků o výzkum časově náročný 7
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
o
výsledky snadněji ovlivnitelné interpretací výzkumníka
1.1.3 Techniky dotazování Nejčastěji používanou metodou získávání informací o postojích, názorech a mínění lidí je dotazování. Slabinou této metody je častý rozpor mezi řečí (písemným projevem) a reálným chováním lidí. Dotazování můžeme realizovat podle dvou základních technik: rozhovorem (interview) nebo dotazníkem. Rozhovor je verbální kontakt mezi tazatelem a dotazovaným s cílem získat informace pomocí otázek, které klade tazatel. Výhodou rozhovoru je možnost velké přizpůsobivosti tazatelů dotazovaným a dále možnost osobního kontaktu s dotazovanou osobou. Osobní kontakt vnímavému výzkumníkovi poskytuje mnohem komplexnější informaci. Obě okolnosti snižují riziko nedorozumění při dotazování. Z těchto výhod vyplývají možnosti uplatnění rozhovoru ve výzkumné praxi. Rozhovor je uplatňován v situacích, kdy se výzkumníci teprve orientují ve zkoumaném problému, kdy shromažďují základní informace a kdy je nutné mít osobní kontakt s dotazovaným z psychologických důvodů. Nevýhodou rozhovoru je neefektivnost a náročnost postupu na kvalifikované tazatele. Často hrozí také narušení stejných podmínek dotazování, odpovědi mohou být ovlivněny osobou tazatele. Náročné a problematické je též zaznamenávání ať již formou polních poznámek (field notes), nebo formou audio a video záznamu. Dotazovaní mají menší pocit anonymity než při dotazníku. Dotazník je technika, kdy informace od dotazovaného získáváme prostřednictvím písemného dotazu a respondent samostatně odpovídá na sérii otázek zaměřených k určitému problému. Výhodou je relativně velká operativnost a menší organizační a finanční náročnost. Základní nevýhodou je charakter informací – dotazník neumožňuje poznávat výzkumný problém do větší hloubky. Dále je to nepružnost vzhledem k výzkumnému problému. Z uvedeného plyne, že rozhovor je vhodnou technikou zjišťování informací při realizaci kvalitativního výzkumu. Naopak dotazníkové šetření je vhodné při realizaci kvantitativního výzkumu. Dotazníkové šetření je využíváno v těchto situacích: Pokud potřebujeme generalizovat naše nálezy na populaci jedinců. Pokud je naším cílem testování hypotéz. Jsme-li s dostatečnou jistotou schopni říci, které proměnné jsou podstatné pro studovaný problém a že žádná z důležitých proměnných nebyla opomenuta. Pokud to, jak zkoumaní lidé interpretují studovaný problém, nemá pro nás prvořadou důležitost. Rozhovor používáme za těchto okolností: Potřebujeme-li zjistit, jak populace prožívá studovaný problém. Studujeme-li takový problém, o kterém nemáme dostatečnou předběžnou znalost. Jako předvýzkum pro kvantitativní výzkumnou akci.
8
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
1.2 Proměnné Chceme-li získat správná data, je potřeba postupovat metodologicky správně. Nelze si nejprve připravit dotazník a poté teprve přemýšlet, jaké jsou vlastně cíle našeho výzkumu. Na začátku výzkumného procesu musí být definován výzkumný problém, který chce výzkumník řešit. Výzkumný problém se týká vztahy mezi dvěma nebo více proměnnými. Klíčovým prvkem ve výzkumném problému jsou tedy proměnné. Proměnná je definována jako jistý znak popisující účastníky nebo situace v dané studii, která nabývá různých hodnot. Například pohlaví je proměnná, protože nabývá dvou hodnot – muž a žena. Věk je proměnná, která může nabývat velkého množství různých hodnot. Druh léčby může být proměnná, pokud existuje více než jeden způsob léčby nebo pokud existuje léčená a kontrolní skupina. Počet dnů potřebných k zotavení se z nemoci jsou obvykle měřením efektu léčby, a tak tedy i potenciální proměnnou. Přestože každý znak může být proměnnou, nabývá-li jen jediné hodnoty, nejedná se o proměnnou ale o konstantu. Takže např. etnická skupina není proměnnou, jestliže všichni účastníci zahrnutí do studie jsou např. Rómové. Pohlaví není proměnnou, jestliže výzkum probíhá jen mezi ženami. Podle způsobu následného zpracování dat se obvykle dělí do tří skupin – kategoriální nominální proměnné, kategoriální ordinální proměnné a měřitelné proměnné. 1.2.1 Proměnné nominální Jejich hodnoty se vyjadřují slovně, příkladem nominální proměnné je třeba pohlaví nebo rodinný stav. (např. hodnoty proměnné pohlaví jsou žena a muž). 1.2.2 Proměnné ordinální Mohou se také vyjadřovat slovně, ale oproti nominálním proměnným můžeme určit pořadí hodnot. Typickou ordinální proměnnou je třeba vzdělání (můžeme určit pořadí hodnot, ale nelze přesně říci, o kolik je například vysoká škola vyšší hodnota než škola základní). Jinou typickou ordinální proměnnou je míra souhlasu s daným výrokem (souhlasím – spíše souhlasím – nevím – spíše nesouhlasím – nesouhlasím). Ordinální proměnnou lze vyjadřovat i číselně, pokud je např. míra souhlasu vyjádřená na stupnici 0 až 5. 1.2.3 Proměnné měřitelné (intervalové) Hodnotou bývá zpravidla číslo a můžeme i přesně říci, o kolik je jedna hodnota vyšší než druhá. Typickými intervalovými proměnnými jsou např. věk nebo plat. Na rozdíl od ordinální číselné proměnné nabývá intervalová proměnná velkého množství obměn, které nemá smysl vyjmenovávat a pro jejich popis se používá sdružení proměnných do intervalů. Při statistické analýze dat, zejména snažíme-li se odhalit vztahy mezi proměnnými, je dále nutné rozhodnout, zda se jedná o závisle proměnnou či nezávisle proměnnou. Na tomto místě je vhodné poznamenat, že jedna konkrétní proměnná může v různých analýzách vystupovat v odlišných rolích. Chováním nezávisle proměnné se vysvětluje chování závisle proměnné. 9
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Nezávisle proměnná – proměnná, se kterou "manipulujeme", očekáváme její vliv na chování nebo prožívání respondenta. Závisle proměnná – její změny sledujeme a měříme. Tyto změny jsou důsledkem "manipulace" s nezávisle proměnnou, případně působením dalších vlivů. Například zkoumáme-li vztah mezi BMI pacienta a jeho krevním tlakem, je zřejmé, že nadváha může být jednou z příčin zvýšeného krevního tlaku. Proto v tomto případě nezávisle proměnnou je BMI a závisle proměnnou hodnota krevního tlaku – krevní tlak závisí na hodnotě BMI.
1.3 Výzkumné otázky a hypotézy Výzkumné hypotézy jsou výroky, které předpovídají vztahy mezi proměnnými, na něž se ptáme výzkumnými otázkami. Hlavní rozdíl mezi výzkumnou otázkou a výzkumnou hypotézou spočívá v tom, že hypotéza je výrok, tedy věta oznamovací s predikčním potenciálem, zatímco otázka je věta tázací. Tento rozdíl si ukážeme na následujícím příkladu. Výzkumník si může položit tuto výzkumnou otázku: "Jsou studenti přírodovědných oborů při vyhledávání zdrojů v univerzitní knihovně stejně úspěšní jako studenti humanitních oborů?". Hypotéza vztahující se k této otázce může být formulována: "Studenti přírodovědných oborů jsou při vyhledávání zdrojů v univerzitní knihovně úspěšnější než studenti humanitních oborů." 1.3.1 Výzkumné otázky Výzkumné otázky lze rozdělit do tří základních skupin:
Otázky na popis proměnné – tyto otázky slouží pouze k popisu proměnných a vzorků, které právě studujeme. Získané informace nelze zobecnit na celou populaci. Příkladem takovéto otázky může být Kolik procent respondentů je celkově spokojeno se službami knihovny? nebo Jaká je průměrná doba vyhledávání elektronického zdroje?
Otázky na rozdíl mezi proměnnými – porovnáváme např. průměrnou hodnotu dvou proměnných nebo průměrnou hodnotu proměnné v závislosti a jiné proměnné (např. v závislosti na věku, pohlaví, vzdělání atd.). Otázky tohoto typu se pokouší demonstrovat, že skupiny respondentů odpovídají různě v důsledku rozdílu nezávisle proměnné. Příkladem takovéto otázky může být např.: Liší se celková spokojenost mužů a žen se službami knihovny?
Otázky na vztahy mezi proměnnými – hledáme vztah mezi dvěma proměnnými. Zjišťujeme např. zda dvě proměnné korelují, to znamená, že vyšší hodnota jedné proměnné umožňuje očekávat i vyšší hodnotu druhé proměnné, případně jak pomocí jedné proměnné odhadnout hodnotu druhé proměnné. Příkladem otázky může být: Jsou celková spokojenost se službami knihovny a úspěšnost při vyhledávání zdrojů pozitivně korelované? nebo Jak závisí celková spokojenost se službami knihovny na úspěšnosti při vyhledávání zdrojů? 10
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
1.3.2 Hypotézy Zatímco k otázkám na popis proměnné je formulace hypotézy obtížná a téměř zbytečná, je bezpodmínečně nutné formulovat hypotézy o dosud neprokázaném vztahu dvou nebo více proměnných či rozdílu mezi dvěma či více proměnnými. Tyto hypotézy následně testujeme s využitím metod induktivní statistiky. Příklad hypotézy: Studenti přírodovědných oborů jsou při vyhledávání zdrojů v univerzitní knihovně úspěšnější než studenti humanitních oborů. Tato hypotéza predikuje vztah mezi dvěma proměnnými:
obor (s hodnotami přírodovědný/humanitní) – nezávisle proměnná, úspěšnost vyhledávání zdrojů – závisle proměnná.
Abychom obě proměnné mohli změřit, je zapotřebí správně provést tzv. operacionalizaci – tedy určit, jak budeme obě proměnné měřit.
1.4 Operacionalizace V kvantitativním výzkumu jsou proměnné vymezeny tzv. operační definicí, tedy specifikací, jak je budeme měřit. Ve složitém sociálním světě nelze všechny proměnné změřit jednoduše – např. jako ve fyzice měříme teplotu teploměrem. Operacionalizace je postup, kdy složité koncepty přetváříme na měřitelné znaky. Ukažme si to na příkladech. Příklad 1: Výzkumná hypotéza: Studenti přírodovědných oborů jsou při vyhledávání zdrojů v univerzitní knihovně úspěšnější než studenti humanitních oborů. Jak bylo uvedeno výše, v této hypotéze jsou dvě proměnné: obor a úspěšnost vyhledávání zdrojů. Změření první proměnné je jednoduché – postačí nám např. jednoduchá otázka na studovaný obor v dotazníku. Jak změřit "úspěšnost vyhledávání zdrojů"? Nejprve provedeme dekompozici, proměnnou tedy rozložíme na dílčí ukazatele, a ke každému určíme indikátor (v našem případě např. čas, ze který bude student schopný najít konkrétní zdroj). Úspěšnost vyhledávání zdrojů můžeme tedy operačně definovat jako průměr časů, za které účastník výzkumu vyhledá dané dokumenty. Schematicky je tento postup zachycen na obrázku 1.1.
11
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Obrázek 1.1: Ukázka dekompozice proměnné
Příklad 2: Výzkumná hypotéza: Forma studia má vliv na celkovou spokojenost se službami knihovny. I zde sledujeme dvě proměnné. Formu studia (nezávisle proměnná) zjistíme jednou jednoduchou otázkou v dotazníku. Jak ale změřit "celkovou spokojenost"? Opět provedeme dekompozici. Podle předchozího výzkumu se celková spokojenost uživatele knihovny skládá ze spokojenosti s: elektronickými zdroji, tištěnými publikacemi, technickým zázemím, knihovním prostředím, personálem (případně s dalšími službami, které knihovna poskytuje). Každou z těchto komponent můžeme například změřit v dotazníku mírou souhlasu s výrokem. Spokojenost s elektronickými zdroji měříme tedy mírou souhlasu s výrokem "Knihovna disponuje dostačujícím počtem kvalitních elektronických zdrojů". Pro příklad postačí baterie otázek, která je na obrázku 1.2 (ve skutečnosti bychom ale mohli s dekompozicí pokračovat a dále zjemnit znaky a indikátory).
12
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Obrázek 1.2: Ukázka baterie otázek jako výsledek operacionalizace
1.5 Dotazník Otázky do dotazníku by měly být formulovány tak, aby jejich počet nepřesáhl 20 a celková doba vyplňování netrvala více než 10 minut. Při překročení těchto hodnot se zvyšuje riziko, že respondent vyplnění dotazníku nedokončí. Otázky by měly být kladeny v logickém uspořádání za sebou. První otázky by měly vyvolat respondentův zájem, složitější otázky pokládáme uprostřed dotazníku a osobní otázky (na vzdělání, věk, pohlaví, …) by měly být kladeny až nakonec, tak, aby respondent nezaujal obranný postoj již na začátku. 1.5.1 Typy otázek v dotazníku V dotaznících se setkáváme se třemi typy otázek:
uzavřené – výběr z nabízených odpovědi,
polouzvařené (nebo také polootevřené) – výběr z nabízených odpovědí, kde poslední položka je "jiné" a respondentovi je umožněno tuto odpověď specifikovat,
otevřené – umožňují volnou tvorbu odpovědi.
Použití otevřených otázek v rámci dotazníkového šetření je diskutabilní, tento typ otázek je vhodný v kvalitativním výzkumu. Stejně tak polouzavřené otázky, které se v rámci kvantitativního výzkumu vyhodnocují jen velmi obtížně. Proto se jako nejvhodnější typ jeví uzavřené otázky, které ovšem může vytvářet pouze člověk, který má o zkoumané problematice již nějakou představu a potřebný nadhled. Z hlediska statistického zpracování dat je potřeba rozlišit otázky podle počtu odpovědí, které respondent může u otázky z nabízených možností vybírat:
výběr právě jedné odpovědi, výběr alespoň jedné odpovědi.
13
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Výběr právě jedné odpovědi. Tato otázka tvoří v datové matici jednu proměnnou, která nabývá tolika hodnot, kolik je nabídnuto odpovědí (každá z nabízených variant tvoří jednu hodnotu proměnné). Výběr alespoň jedné odpovědi. V tomto případě se nejedná o jedinou otázku ale o baterii otázek, na které respondent odpovídá ano/ne (pokud volí odpověď ano, označí příslušnou položku). V datové matici potom každá nabízená odpověď tvoří jednu proměnnou, která nabývá pouze dvou hodnot, zpravidla 0 (ne) a 1 (ano). Takováto otázka je ve své podstatě baterie otázek s dichotomickou škálou. Baterie otázek. Sdružením více otázek na obdobné téma do jednoho bloku, respektive tabulky vzniká tzv. baterie otázek. Ta se používá zpravidla v kombinaci s hodnotící škálou. Baterie otázek výrazně urychluje a zjednodušuje vyplňování pro respondenta. Ukázka baterie otázek je na obrázku 1.2. Pomocí škálování přiřazujeme číselné hodnoty takovým jevům, které nemůžeme přímo měřit na intervalové stupnici. Škála je nástroj, který umožňuje zjišťovat míru vlastnosti nebo jevu nebo jeho intenzitu. Posuzovatel určuje polohu na škále (např. velmi oblíbený, oblíbený, ani oblíbený ani neoblíbený, neoblíbený, velmi neoblíbený) nebo přiřazuje dané vlastnosti nebo jevu počet bodů. Nejčastěji používanými typy škál jsou sémantické diferenciály a Likertovy škály. Likertova škála se používá zejména na měření míry souhlasu s jistým výrokem. Např. Zařazení Internetu do výuky může zvýšit účinnost výuky na ZŠ: naprosto souhlasím – spíše souhlasím – nemám názor – spíše nesouhlasím – naprosto nesouhlasím. Sémantický diferenciál obsahuje dvě krajní možnosti, např.: hezký x ošklivý a mezi nimi pětibodovou nebo častěji sedmibodovou stupnici (např. –2, –1, 0, 1, 2 nebo 1, 2, 3, 4, 5, 6, 7). 1.5.2 Otázky a odpovědi Předpokladem získání spolehlivých informací pomocí dotazníkového šetření je správná formulace otázek a odpovědí. Nabízené odpovědi musí představovat soubor vyčerpávající všechny možné alternativy odpovědí a současně všechny kategorie odpovědí se musí vzájemně vylučovat. Nebojte se přidat odpovědi typu "Nevím, nedokážu odpovědět". Z uvedeného vyplývá, že autor dotazníku musí být odborníkem v daném oboru, musí být schopen vyjmenovat všechny alternativy. Cílem dotazníkového šetření jakožto nástroje kvantitativního výzkumu nemůže být odpověď na otázky Co? nebo Jaký? ale jen na otázku Kolik? Pokud si autor dotazníku není z jakéhokoli důvodu jistý tím, že nabídnul všechny odpovědi, je nutné otázky a nabízené odpovědi ještě před započetím dotazníkového šetření konzultovat s dalšími odborníky nebo provede předvýzkum a pilotáž
14
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
1.5.3 Pravidla pro formulaci otázek Při sestavování jednotlivých otázek byste měli mít na paměti zejména tyto hlavní zásady:
Formulujte stručné a jasné otázky, aby jim respondenti bez většího úsilí rozuměli. Komplikované otázky respondenty znechucují a odrazují od dalšího vyplňování dotazníku.
Nepoužívejte hovorový jazyk ani slangové výrazy. Na druhou stranu je nutné vyhnout se i odborným výrazům (není-li dotazník určen pro odborníky), cizím slovům a také zkratkám.
Neužívejte příliš volné znění otázky, aby se respondenti nemuseli dotazovat Který?
Otázky musí být pro respondenty smysluplné. Smysluplnost zvyšuje zájem respondenta a zvyšuje validitu odpovědi.
Nepoužívejte vágní otázky (otázky nemající jasný smysl). Výrazy jako „několik, obyčejně, někdy“ interpretují respondenti různě, proto se jim raději vyhněme.
Vyhněte se dvojitým otázkám, které se ptají na více informací (Jste šťasten ve svém manželství a práci?).
Klaďte jen takové otázky, na které dovedou respondenti odpovědět, to znamená znají odpověď. Nepoužívejte v otázkách podmiňovací způsob (Nechala byste svoji dceru očkovat?).
Vyhýbejte se záporným výrazům, pokud jich užijete, zápor zvýrazněte, ale dvojitý zápor neužívejte nikdy.
Vyhýbejte se otázkám, které vzbuzují předpojatost. Jinak bude respondent odpovídat, jak si to vyžaduje společenská nebo profesní konvence.
Nepokládejte otázky, které nesouvisí s cílem vašeho průzkumu.
1.6 Výběr respondentů pro dotazníkové šetření Hotový dotazník bude potřeba rozdat respondentům, od kterých chceme získat odpovědi a výzkumník musí mít rozmyšleno, koho oslovit a kolik respondentů zahrnout do výzkumu. Nejdříve je nutné uvážit, kolik jednotek čítá náš základní soubor. Pokud se jedná o řádově desítky nebo stovky, neděláme žádný výběr a oslovíme všechny lidi, kteří tvoří základní soubor. Toto se nazývá census. Například budou-li nás zajímat názory studentů prvních ročníků zdravotnických oborů na VŠPJ, základní soubor budou tvořit pouze tito studenti. Vzhledem k tomu, že těchto studentů je každoročně kolem stovky, určitě bude nutné oslovit je všechny a všechny požádat o vyplnění dotazníku. V tomto případě, pokud by návratnost dotazníků činila plných 100 %, bychom získali naprosto přesnou informaci o našem základním souboru. V praxi však bohužel k takové situaci nedochází, zpravidla se vrátí jen malá část rozeslaných dotazníků. Je 15
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
potřeba si uvědomit, že i malý poměr respondentů, kteří dotazník nevyplní (10 až 15 %), zpravidla způsobí značné zkreslení skutečnosti. Odlišná situace nastává tehdy, když základní soubor tvoří tisíce lidí. V tom případě není možné zjistit údaje o celém základním souboru. O vyplnění dotazníku jsou požádány jen vybrané jednotky, které tvoří výzkumný vzorek. Aby byl výzkum úspěšný, je nesmírně důležité správně vybrat, koho oslovit a požádat o vyplnění dotazníku. Základem je zvolit správnou strategii, abychom eliminovali chyby výběru a zajistili reprezentativitu souboru. Volíme mezi pravděpodobnostními a nepravděpodobnostními metodami výběru vzorku. Metody výběru vzorku z populace můžeme rozdělit do tří skupin: I. náhodný (též pravděpodobnostní) výběr, II. reprezentativní (kvótní) výběr, III. namátkový výběr, anketa. ad I. Preferovanou metodou výběru je náhodný výběr, který poskytuje výsledky nezkreslené tendenčností výběru. Tendenčnost ve výběru vzniká tehdy, když jsou některé skupiny populace systematicky nadhodnocované nebo podhodnocované. Vzorky pořízené náhodným výběrem mají vlastnosti, které umožňují měřit nejistotu, které jsme vystaveni, protože se výběr od populace neodlišuje systematicky, ale jen náhodně. Aby byl výběr náhodný, musí splňovat podmínku, že každá statistická jednotka musí mít stejnou pravděpodobnost, že bude do výběru zahrnuta. To v praxi znamená, že musí být splněny dvě základní vlastnosti: 1. pravděpodobnost zařazení do výběru je pro všechny statistické jednotky nenulová, 2. statistické jednotky jsou do výběru zařazovány nezávisle na sobě. Pokud náhodně oslovujeme lidi procházející centrem města v určitém čase, vzorek, který takto pořídíme, by mohl být přinejlepším náhodný z populace lidí procházejících v daném čase centrem. Pokud by ale tazatel oslovoval (záměrně či neúmyslně) např. jen mladé lidi, byl by vzorek zkreslen úplně. Takto není možné získat náhodný vzorek obyvatel města, protože většina z nich v době, kdy provádíme dotazování, centrem neprochází (a tedy pravděpodobnost, že je zahrneme do výběru, je nulová). Vzhledem k tomu, že každá jednotka musí mít stejnou pravděpodobnost zařazení do vzorku, je nezbytným předpokladem náhodného výběru tzv. opora, tedy úplný a přesný seznam všech statistických jednotek. Z tohoto seznamu již můžeme náhodně vybrat respondenty, které oslovíme. Příkladem opory může být např. databáze všech pacientů daného zdravotnického zařízení nebo jmenný seznam obyvatel určitého města. Pokud naše opora obsahuje např. 25 000 jednotek a my z nich chceme náhodně vybrat 700, vygenerujeme 700 náhodných čísel z intervalu 1 až 25 000. Např. v Excelu za tímto účelem lze použít funkce NÁHČÍSLO. Z opory vybereme ty jednotky, které mají námi vygenerované náhodné číslo jako pořadí. Z uvedeného je zřejmé, že pokud neexistuje opora, není vůbec možné náhodný výběr realizovat. Toto bývá velmi častou chybou mnoha výzkumů, protože i pro naprosto běžné situace není reálné pořídit seznam všech statistických jednotek. 16
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Příkladem mohou být výzkumy v oblasti cestovního ruchu, kde by oporu tvořil např. seznam všech návštěvníků dané památky nebo regionu. Druhým problémem náhodných výběrů bývá tzv. nonresponse, který je způsoben faktem, že statistická jednotka může zařazení do výzkumu odmítnout. Jestliže možnost odmítnout využije 10 až 15 % z poctivě vybraného náhodného vzorku, teorie pravděpodobnosti se stane málo použitelnou. V praxi se však velmi často stává, že účast odmítne až 80 % náhodně vybraných respondentů. Vzorek, který získáme je sice náhodně vybraný ale ne z naší populace, ale ze subpopulace ochotných zúčastnit se výzkumu. Přitom subpopulace ochotných a subpopulace neochotných se může velmi často diametrálně lišit. Proto zevšeobecňovat na celou populaci závěry, které byly učiněny na vzorku ochotných, je nesprávné. ad II. Jak se ukazuje, pořídit náhodný výběr není jednoduché, velmi často to je zhola nemožné. Pokud se při výběru respondentů nedá postupovat náhodně, je možné místo náhodného výběru pořídit tzv. reprezentativní výběr. Nejčastěji používanou metodou je kvótní výběr, který vychází z toho, že se populace rozdělí na určité skupiny podle několika proměnných (např. věk, pohlaví, vzdělání, místo bydliště, atd.). Protože vzorek má být reprezentativní (má být věrným obrazem populace), určují se tzv. kvóty. To znamená, že se předem ví, kolik je v populaci mužů a žen, jaká část populace spadá do jednotlivých věkových kategorií, kolik procent lidí dosahuje určitého vzdělání a kolik lidí žije v příslušných regionech. Potom již není problém udělat takový výběr, aby jeho struktura odpovídala struktuře populace. Předpokladem této metody však je znalost struktury populace. Výsledky reprezentativního výběru nelze zobecnit na celou populaci, přesto však ukazují, jaké je nejpravděpodobnější rozdělení proměnných v populaci. Má tedy smysl na ně použít metody popisné statistiky, se kterými se seznámíme v následující kapitole. ad III. Nejhorší možné výsledky poskytují metody typu anketa a namátkový výběr. Výsledky těchto průzkumů nejenže nejsou zobecnitelné na celou populaci, ale zpravidla ani nepopisují rozdělení proměnných v populaci. Přesto však se u výzkumníků těší značné oblibě, zejména pro svoji jednoduchost a snadnou dostupnost v době internetu. Je nutné zdůraznit, že na data pořízená těmito metodami nemá valný smysl používat metody popisné statistiky, protože přináší velmi zkreslené informace. Rozsah výběru. Neméně podstatným problémem je volba vhodného rozsahu výběru. Velké vzorky jsou spojené s vysokými náklady, malé vzorky s nedostatečnou přesností. Renomované firmy, které se zabývají statistickým šetřením, používají kolem 1 000 respondentů. Pro účely běžného dotazníkového šetření by neměl počet respondentů klesnout pod 300, pokud se bude jednat o reprezentativní vzorek.
17
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
2 Zpracování dat pořízených dotazníkovým šetřením V této kapitole se budeme věnovat metodám, které umožňují charakterizovat (tedy popsat) datové soubory pořízené různými metodami – nejčastěji vlastním dotazníkovým šetřením. Cílem je vždy zjednodušit pohled na data, vypočítat hodnoty (tzv. charakteristiky), které datový soubor popisují, a prezentovat data pomocí vhodných grafů.
2.1 Sběr dat a jejich zpracování Údaje je potřeba sbírat nejefektivnějším způsobem, jaký situace umožňuje. Provádíme-li dotazníkové šetření, je vhodné vždy, pokud to situace umožňuje, nahradit papírové formuláře elektronickými. Využití webových formulářů eliminuje riziko vzniku chyby při přepisování údajů do počítače a získaná data je možné ihned analyzovat ve statistickém programu. Takový postup zvýší kvalitu výzkumu a ušetří čas i energii. Samozřejmě, že i při využití internetu je nutné mít na paměti, že musíme oslovovat záměrně vybrané respondenty a požádat je o vyplnění dotazníku. Nelze postupovat tak, že dotazník zveřejníme a čekáme, kdo jej objeví a vyplní. Ať už máme data posbíraná jakýmkoli způsobem, je nutné je před zpracováním převést do excelovské databáze. Jedná se o tabulku v Excelu, která se řídí několika pravidly: 1. Jednotlivé řádky tabulky obsahují informace o jednotlivých respondentech – tzn. tabulka obsahuje tolik řádků, kolik jsme oslovili respondentů + jeden řádek záhlaví. 2. Záhlaví tabulky obsahuje názvy proměnných (sloupců tabulky) – zpravidla jde o zkrácené znění otázek z dotazníku. Záhlaví tabulky smí tvořit pouze jeden řádek, nesmí se zde slučovat buňky. 3. V prvním sloupci je vhodné uvést číslo respondenta, pro případ nějakých nesrovnalostí a nutnosti kontroly. Stejně očíslované by měly být dotazníky či jiné informační zdroje, aby byly propojené s elektronickou podobou dat. 4. V tabulce nesmí zůstat prázdný řádek nebo prázdný sloupec – to by rozdělilo databázi na dvě databáze, které by nespolupracovaly. Prázdné buňky databáze obsahovat může a v praxi i velmi často obsahuje. Pokud chybí informace (např. respondent neodpověděl), necháme buňku prázdnou, nepíšeme otazník, pomlčku či jiný znak. 5. Formátování databáze by mělo být co nejjednodušší, zejména nesmí být použito slučování buněk. Po vytvoření a kontrole databáze je již možné přistoupit k vlastní analýze dat a jejich prezentaci. V současné době je běžné pro tyto účely použít statistický software, buď Excel, který obsahuje celou řadu statistických funkcí, ale pro pokročilejší analýzy je nutné použít specializovaný statistický software, jakým je např. Statistica, SPSS nebo SAS.
2.2 Třídění dat Databáze, které obsahují záznamy o všech proměnných a o všech respondentech, mívají zpravidla stovky řádků a desítky sloupců. Jsou značně nepřehledné a pro běžného uživatele je 18
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
téměř nemožné vyčíst z takto uspořádaných informací nějaké závěry. Proto je nutné tyto informace zpracovat tak, aby na první pohled bylo jasné, jakých hodnot zvolená proměnná nabývá a jak často se jednotlivé hodnoty (nazývané též obměny) v datovém souboru vyskytují. Tuto činnost nazýváme třídění dat a výsledkem je pro každou proměnnou tzv. frekvenční tabulka. Jak už jsme uvedli v kapitole 1, zkoumané proměnné mohou mít různý charakter, podle toho, jakých hodnot nabývají. Z hlediska metod, které používáme při třídění dat, lze třídění rozdělit do dvou skupin: 1. bodové třídění, které používáme pro kategoriální (nominální a ordinální) proměnné, 2. intervalové třídění, které používáme pro intervalové (kardinální) proměnné. 2.2.1 Bodové třídění Bodové třídění je vhodné pro slovní znaky a číselné proměnné s „rozumným“ počtem obměn. „Rozumný“ počet obměn zpravidla znamená 6 až 10, ale pro soubory s velkým rozsahem také třeba i 15 až 20. Tímto způsobem lze třídit například informace o dietě pacienta (nominální slovní znak), spokojenosti se stravou (ordinální slovní znak) nebo délce hospitalizace ve dnech (ordinální číselný znak). Výsledkem třídění je frekvenční tabulka, která zpravidla obsahuje následující informace: pořadové číslo obměny (i), hodnota znaku (xi), absolutní četnost (ni), relativní četnost (pi), kumulativní relativní četnost (kpi). Pořadové číslo obměny se zpravidla neuvádí v případě nominálního slovního znaku, protože u tohoto typu znaku nemá smysl mluvit o přirozeném pořadí. Obměny se nejčastěji seřadí podle četností (od nejvyšší po nejnižší). Při třídění ordinálních znaků je sloupec pořadových čísel obměny vhodný, nikoli však důležitý – jinými slovy: je logické jej uvést, ale není to bezpodmínečně nutné. Hodnota znaku je naopak jednou ze dvou nepostradatelných informací, které frekvenční tabulka musí obsahovat. Jedná se o přehled všech obměn, které proměnná nabývá. Druhou neméně důležitou informací, kterou je nutné z frekvenční tabulky vyčíst, je tzv. absolutní četnost, která uvádí, kolikrát se daná hodnota v databázi vyskytuje. Součet všech absolutních četností se rovná rozsahu souboru1 n. Vzhledem k tomu, že absolutní četnosti vždy závisí na rozsahu souboru, velmi často je vyjadřujeme v procentech a nazýváme relativní četnosti2 pi. Součet všech relativních četností je vždy 100 % (nebo 1, použijeme-li formát bez procent).
1
n
n
pi
ni n
i
i
2
19
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Pro ordinální znaky má smysl ještě absolutní četnosti načítat (kumulovat) a vytvořit sloupec, který obsahuje kumulativní relativní četnosti. Ten obsahuje v j-tém řádku součet relativních četností prvních j řádků3. Např. ve třetím řádku je kp3 = p1 + p2 + p3. V posledním řádku tabulky je vždy 100 %, protože do něj sečteme všechny relativní četnosti, jejichž součet je vždy 100 %. Součtový řádek nemá smysl vyplňovat, proto je v něm křížek, což je ve statistice symbol používaný pro tyto případy. Příklady frekvenčních tabulek, které získáme prostým tříděním nominálních (slovních) znaků, ordinálních slovních znaků a ordinálních číselných znaků jsou uvedeny v tabulkách 2.1, 2.2 a 2.3. Tabulka 2.1: Počet lékařů v okresech kraje Vysočina k 31. 12. 2011; příklad frekvenční tabulky pro nominální znak (zdroj: ČSÚ)
okres (xi) Jihlava Žďár nad Sázavou Havlíčkův Brod Třebíč Pelhřimov celkem
ni 758 598 561 541 341 1 845
pi 26,3% 20,9% 20,1% 19,9% 12,8% 100,0 %
V tabulce 2.1 stojí za pozornost skutečnost, že okresy jsou seřazeny podle absolutní četnosti, tedy podle počtu lékařů v daném okrese. Poznamenejme též, že seřazení podle relativní četnosti by nepřineslo žádnou změnu. Obměny ordinálních proměnných mají již nějaké logické pořadí a to je nutné ve frekvenční tabulce zachovat (viz tabulky 2.2 a 2.3). Pro tento typ proměnných má smysl relativní četnosti načítat a vytvořit sloupeček kumulativních relativních četností, s jehož využitím se seznámíme později. Analogicky by bylo možné vytvořit i sloupec kumulativních absolutních četností, ale ten nemá žádný praktický význam. Sloupce kumulativních četností nesčítáme (součet by nedával žádný smysl), políčko vyplníme křížkem (x). Tabulka 2.2: Příklad frekvenční tabulky pro ordinální slovní znak – míra souhlasu s daným výrokem
i 1 2 3 4 5 x
míra souhlasu (xi) zcela souhlasím spíš souhlasím spíš nesouhlasím zcela nesouhlasím bez odpovědi celkem
ni 75 98 61 41 25 300
pi 25,0 % 32,7 % 20,3 % 13,7 % 8,3 % 100,0 %
kpi 25,0 % 57,7 % 78,0 % 91,7 % 100,0 % x
V tabulce 2.3 jsme vynechali sloupec pořadových čísel, protože by obsahoval stejné informace jako sloupec obsahující hodnoty číselného znaku, a je tedy zbytečné jej uvádět.
i 3
kp j p j j 1
20
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Tabulka 2.3: Příklad frekvenční tabulky pro ordinální číselný znak – počet pacientů, kteří byli ve sledovaném období na jistém oddělení FN hospitalizováni po dobu jednoho týdne a kratší (xi je počet dnů hospitalizace)
xi 1 2 3 4 5 6 7 celkem
ni 5 8 44 71 102 46 24
pi 1,7 % 2,7 % 14,7 % 23,7 % 34,0 % 15,3 % 8,0 %
300
100,0 %
kpi 1,7 % 4,3 % 19,0 % 42,7 % 76,7 % 92,0 % 100,0 % x
Poté, co máme frekvenční tabulku vytvořenou, je nutné její buňky formátovat. Relativní četnosti a kumulativní relativní četnosti zpravidla uvádíme v procentech, ale je možné je uvádět i bez procent, jako koeficienty. V tom případě platí: 50 % = 0,5 = 0,50. Avšak pozor: 50 % 50. Nelze jen tak „zapomenout“ na symbol %. Na tomto místě je také potřeba zdůraznit, že čísla v tabulce zarovnáváme vždy doprava a dodržujeme ve sloupci stejný počet desetinných míst. Vždy nastavené formáty (včetně čar ohraničení buněk) pečlivě zkontrolujte a vhodně upravte. Přesto, že již tedy víme, jak by frekvenční tabulka měla vypadat, ještě jsme neřekli, jakým způsobem získáme sloupec absolutních četností. Pokud bychom neměli k dispozici vhodný software, museli bychom si vystačit s tužkou a papírem. Procházeli bychom jednotlivé sloupce databáze, poznamenávali si, jaké informace se ve sloupci nachází a kolikrát se která opakuje. Bylo by to velmi pracné, zejména pokud naše databáze obsahuje větší množství informací, a navíc by hrozilo, že z nepozornosti vytvoříme řadu chyb, které bude takřka nemožné odhalit a dohledat. Naštěstí však je možné tyto informace získat s pomocí Excelu, což je možné udělat za předpokladu, že data jsou v tabulce, která má vlastnosti databáze. V případě bodového třídění lze využít dva nástroje: prvním z nich je kontingenční tabulka a druhým funkce COUNTIF. Jednodušší je vytvoření kontingenční tabulky (KT), kdy si program sám vypíše jak všechny obměny statistického znaku, tak i příslušné absolutní četnosti. Je jen potřeba řádky KT srovnat do námi požadovaného pořadí, protože jsou vypsané v tom pořadí, jak byly uspořádány v databázi, tedy v podstatě náhodně. Pro práci s funkcí COUNTIF je nutné nejen vědět, jak tuto funkci použít, ale i jak správně pracovat s absolutními a relativními adresami, což je nezbytné pro kopírování funkce. Dále si sami musíme zjistit a vypsat všechny obměny statistického znaku. Relativní a kumulativní relativní četnosti je třeba vypočítat. Tuto práci velmi usnadní základní znalost Excelu – tedy tvorba jednoduchých vzorců, používání funkce SUMA a kopírování vzorců.
21
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
2.2.2 Grafické znázornění dat tříděných bodovým tříděním Pro prezentaci jednotlivých proměnných je nutné volit vhodné typy grafů, které mají vysokou vypovídací schopnost a nejsou pro příjemce informací zavádějící. Pro tvorbu grafů lze využít jako nejdostupnější software MS Excel. Pokud máme data zpracovaná bodovým tříděním, je nejvhodnějším typem grafu graf výsečový, který znázorňuje strukturu proměnné a jakou část tvoří jednotlivé obměny. Pokud chceme porovnávat absolutní četnosti připadající na jednotlivé obměny, je vhodnější typ graf sloupcový. Výjimečně lze použít i graf skládaný pruhový, který má podobnou vypovídací schopnost jako graf výsečový. Příklady jednotlivých typů grafů a jejich použití je na obrázcích 2.1, 2.2 a 2.3. Zatímco grafy uvedené na obrázcích 2.1 a 2.2 jsou vhodné jak pro nominální, tak i pro ordinální proměnnou, je graf na obrázku 2.3 vhodný pouze pro ordinální proměnnou. Dále je nutné, aby pořadí obměn znaku v grafu bylo stejné jako ve frekvenční tabulce – tedy pro ordinální proměnnou existuje nějaké „přirozené“ pořadí obměn a pro nominální proměnnou pořadí obměn určuje absolutní četnost. U všech grafů musíme dbát na to, aby bylo jasné, co který graf obsahuje. Je tedy nutné volit vhodné popisky os a výstižný titulek, případně název grafu. Z každého grafu by mělo být na první pohled jasné, jakou situaci graf popisuje, graf by měl mít vyšší vypovídací schopnost než samotná frekvenční tabulka.
Pelhřimov; 236 Jihlava; 486
Třebíč; 366
Žďár nad Sázavou; 385 Havlíčkův Brod; 371 Obrázek 2.1: Výsečový graf pro proměnnou „počet lékařů v kraji Vysočina k 31. 12. 2011“
22
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
600
500
počet lékařů
400
300
200
100
0 Jihlava
Žďár nad Sázavou Havlíčkův Brod
Třebíč
Pelhřimov
Obrázek 2.2: Sloupcový graf pro proměnnou „počet lékařů v kraji Vysočina k 31. 12. 2011“
0
50
100
150
200
250
300
počty odpovědí zcela souhlasím
spíš souhlasím
spíš nesouhlasím
zcela nesouhlasím
bez odpovědi
Obrázek 2.3: Skládaný pruhový graf pro proměnnou „míra souhlasu s daným výrokem“
23
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
2.2.3 Intervalové třídění dat a jejich grafické znázornění Intervalové třídění používáme tehdy, chceme-li vytvořit frekvenční tabulku pro spojitou číselnou proměnnou, např. výška člověka v cm. V tomto případě je obměn statistického znaku obrovské množství a bodové třídění by nepřineslo to, co od frekvenční tabulky očekáváme – tedy zjednodušený pohled na data, protože frekvenční tabulka by mohla mít i stovky řádků. Proto hodnoty neuvádíme jednotlivě, ale sdružíme je do intervalů. Definujeme 6 až 10 intervalů (počet intervalů značíme k), které mají zpravidla stejnou šířku (h). I zde závisí na rozsahu souboru – pro soubory, které mají rozsah kolem 1000 lze vytvořit i větší počet intervalů, pokud se to ukáže jako přínosné. V odůvodněných případech mohou být intervaly i nestejně široké, pokud tyto intervaly mají nějaký vlastní význam. Např. věk dětského pacienta by mohl být rozdělen do následujících intervalů: 0–1, 1–3, 3–6, 6–12, 12–15, 15–19. Tyto intervaly nejsou stejně široké, ale mají z hlediska vývoje dítěte a jeho psychologie jistou logiku. Intervaly vždy musí pokrývat celou zkoumanou oblast, nevolíme intervaly např. 1–2 a 3–6, protože bychom nedokázali zařadit např. děti ve věku 2 roky a 3 měsíce. Na druhou stranu pokud zvolíme intervaly 1–3 a 3–6, je nutné říci, do kterého intervalu budeme zařazovat děti staré přesně 3 roky (mající ten den 3. narozeniny). Je jedno, pro který interval se rozhodneme, ale musíme to udělat v případě všech hraničních hodnot stejně. Matematicky zapsáno: 0, 1), 1, 3), 3, 6), 6, 12), 12, 15) a 15, 19). Pokud by se v našem datovém souboru vyskytly tzv. odlehlé hodnoty, nevytváříme pro ně již samostatný interval, ale započítáme je do prvního nebo posledního intervalu. Např. pokud bychom zkoumali výšku 300 dospívajících chlapců a 298 z nich by mělo výšku 168 až 192 cm, jeden by měl výšku 154 cm, další 202 cm, v tom případě bychom intervaly pokrývali jen oblast 168–192 a absolutní četnost v prvním a posledním intervalu bychom zvýšili o 1. Frekvenční tabulka, která vznikla intervalovým tříděním, je velmi podobná tabulce vzniklé bodovým tříděním a obsahuje následující informace: pořadové číslo obměny (i), intervaly, středy intervalů (xi), absolutní četnost (ni), relativní četnost (pi), kumulativní relativní četnost (kpi). Poznamenejme, že zatímco při bodovém třídění zůstanou zachovány všechny informace, které databáze obsahuje, při intervalovém třídění dojde k jejich částečné ztrátě. Ta je způsobena tím, že již nemáme přesné informace o hodnotách, víme jen, jaké jsou četnosti výskytů v jednotlivých intervalech. Příklad frekvenční tabulky pořízené intervalovým tříděním dat je uveden v tabulce 2.4.
24
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Tabulka 2.4: Příklad frekvenční tabulky pro spojitý číselný znak – výška 300 chlapců
i 1 2 3 4 5 6 x
xi 170 174 178 182 186 190 x
intervaly 168–172 172–176 176–180 180–184 184–188 188–192 celkem
ni
pi
kpi
10 41 81 98 60 10
3,3 % 13,7 % 27,0 % 32,7 % 20,0 % 3,3 %
3,3 % 17,0 % 44,0 % 76,7 % 96,7 % 100,0 %
300
100,0 %
x
Pro intervalové třídění lze v Excelu využít dva nástroje. Prvním z nich je kontingenční tabulka a druhým funkce ČETNOSTI. Jednodušší je stejně jako v případě bodového třídění využití kontingenční tabulky, což je možné jen pro případ, že se rozhodneme použít stejně široké intervaly. Různě široké intervaly KT vytvořit nedokáže. Pro práci s funkcí ČETNOSTI je nutné znát práci s tzv. maticovými funkcemi. Další nevýhodou je, že si sami musíme vytvořit všechny intervaly. Středy intervalů, relativní a kumulativní relativní četnosti je třeba vypočítat. Postupujeme stejně jako v případě bodového třídění. Na závěr je nutné tabulku vhodně zformátovat. Pro grafické znázornění proměnné, která je tříděná intervalovým tříděním, používáme histogram. Jedná se o sloupcový graf, ve kterém nastavíme velikost mezery mezi sloupci na 0. Histogram pro data uvedená v tabulce 2.4 je znázorněn na obrázku 2.4. V tomto typu grafu je nutné popsat osy (na vodorovnou osu vynášíme středy intervalů, na svislou osu absolutní četnosti) a uvést do titulku nebo do názvu grafu, o jaká data se jedná, aby byl graf dobře čitelný a srozumitelný všem čtenářům.
100 90 80
četnosti
70 60 50 40 30 20 10 0 170
174
178
182
186
190
výška v cm Obrázek 2.4: Histogram – výška chlapců
25
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
2.3 Charakteristiky polohy a variability V předchozí kapitole jsme ukázali, jak je možné datový soubor popsat pomocí frekvenční tabulky a grafů. Nyní ještě ukážeme, že popsat číselný datový soubor je možné také pomocí několika tzv. charakteristik, což jsou čísla, která mají velkou vypovídací schopnost a mohou do jisté míry popsat celý datový soubor. Tato čísla lze využít jednak k získání představy o datovém souboru, který může obsahovat stovky i tisíce údajů, jednak k porovnávání dvou i více datových souborů. 2.3.1 Charakteristiky polohy Charakteristiky polohy jsou většinou studentům dobře známy, protože jsou obsahem studia matematiky již na základní škole a v praxi jsou běžně využívány. Patří k nim mimo jiné i minimum, maximum a průměr. Dalšími, již méně známými charakteristikami polohy jsou modus a kvantily, z nichž nejvýznamnější se nazývá medián. Charakteristiky polohy určují, kde na číselné ose se data vyskytují. Asi není potřeba vysvětlovat, jaký význam má v souboru dat minimální (xmin) a maximální (xmax) hodnota. Pár slov uvedeme k průměru, který je v praxi také velmi často používaný. Průměr ( x ) se vypočítá tak, že se sečtou všechny hodnoty a takto vypočítaný součet se vydělí jejich počtem. Takto vypočítaný průměr (tedy průměr počítaný přímo z dat) se nazývá prostý aritmetický průměr4. Aritmetický průměr má velkou vypovídací schopnost, protože se k jeho výpočtu použijí všechny hodnoty datového souboru, a proto je v praxi tak oblíben. Toto je ale současně i nevýhodou, a to v případech, kdy v datovém souboru existují odlehlé hodnoty nebo v případě, že datový soubor není symetrický. (To, zda je či není datový soubor symetrický, poznáme z grafu, nejčastěji histogramu – ten by měl být symetrický podle svislé osy procházející průměrem.) Obsahuje-li datový soubor odlehlé hodnoty nebo není-li symetrický, není aritmetický průměr tou nejlepší charakteristikou. V těchto případech je vhodnější medián ( ~x ), což je prostřední hodnota. Data srovnáme podle velikosti a zjistíme, jaká hodnota se vyskytuje uprostřed (v případě lichého počtu hodnot). Máme-li sudý počet čísel, uprostřed se nachází dvě čísla a z nich je nutné spočítat průměr. Jak medián interpretujeme? Pokud např. medián výšky je 176 cm, znamená to, že 50 % našich respondentů je menší než 176 cm a 50 % respondentů je větších než 176 cm. Velmi pěkným příkladem jsou hrubé mzdy zaměstnanců v ČR. Průměrná hrubá mzda činila v polovině roku 2010 necelých 23 000 Kč. To však neznamená, že by polovina lidí měla mít hrubý příjem vyšší než 23 000 Kč. Ukazuje se, že této výše příjmu dosahuje jen přibližně třetina zaměstnanců. Medián hrubých mezd je přibližně 20 000 Kč, což nám říká, že polovina zaměstnanců má hrubou mzdu nižší, než 20 000 Kč. Můžeme tedy říci, že medián odděluje 50 % nejnižších hodnot.
4
x
1 n xi n i1 26
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Ukazuje se, že takováto informace je nanejvýš užitečná. Možná by nás zajímalo, jaký plat má čtvrtina zaměstnanců s nejnižším platem a jaký naopak čtvrtina s nejvyšším platem. Tato čísla nazýváme kvartily – dolní kvartil (x0,25 – odděluje 25 % nejnižších hodnot) a horní kvartil (x0,75 – odděluje 75 % nejnižších hodnot). V praxi je někdy nutné vypočítat i jiný poměr, nejen 25 %, 50 % nebo 75 %. Za tímto účelem zavádíme tzv. percentily (xp), které oddělují p % nejnižších hodnot. Obecně všechny tyto hodnoty, které oddělují nějakou část nejnižších hodnot, nazýváme kvantily. Poslední charakteristikou polohy, o které budeme hovořit, je modus ( xˆ ). Tato charakteristika nemá velký význam, zejména proto, že se při intervalovém třídění může značně lišit od hodnoty vypočítané z původních dat. Tato charakteristika říká, která hodnota se v souboru vyskytuje nejčastěji. Zpravidla se jedná o jedno číslo, ale v praxi se lze setkat i se soubory, které mají dva i více módů. Pokud máme k dispozici netříděná data, je výpočet všech výše popsaných charakteristik velmi jednoduchý – jde pouze o otázku použití vhodné statistické funkce v Excelu5:
minimum MIN maximum MAX aritmetický průměr PRŮMĚR medián MEDIAN horní a dolní kvartil QUARTIL (QUARTIL.INC) percentil PERCENTIL (PERCENTIL.INC) modus MODE (MODE.SNGL) funkci je možné použít pouze v případě, že existuje právě jeden modus
Závěrem připomeňme, že všechny výše popsané charakteristiky lze počítat pro číselné proměnné. Pro ordinální slovní znaky lze určit pouze modus a kvantily (zpravidla medián a v odůvodněných případech i horní a dolní kvartil). 2.3.2 Charakteristiky variability Variabilita vyjadřuje, jak se jednotlivé hodnoty v souboru dat odlišují či naopak podobají. Budeme např. porovnávat věk pacientů, kteří navštívili dva specialisty. Věk pacientů u prvního z nich byl 15, 20, 25, 30 a 35 let. Věk pacientů, kteří navštívili druhého specialistu, byl stejný – všem pěti pacientům bylo 25 let. Obě skupiny mají stejný rozsah souboru (5 pacientů) a také stejný průměr i medián (25 let). Liší se však variabilitou – zatímco první skupina vykazuje jistou variabilitu, ve druhé skupině je variabilita nulová. Z uvedeného je zřejmé, že variabilita má hlavní význam při porovnávání dvou souborů. Mezi základní míry variability patří různá rozpětí, rozptyl a z něj odvozené charakteristiky a řada dalších, z nichž uvedeme jen koeficient disperze. Nejjednodušší mírou variability je variační rozpětí6 (R), které se vypočítá jako rozdíl mezi maximální a minimální hodnotou v souboru dat. Říká, jak je široký interval, ve kterém se data 5
Vyjmenované funkce jsou k dispozici ve starších verzích MS Excel. Od verze MS Excel 2010 je nabídka funkcí rozšířená a původní název je rozšířen způsobem uvedeným v závorce 6
R xmax xmin
27
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
nacházejí. Z toho je zřejmé, že tuto míru variability ovlivňují extrémní hodnoty proměnné, ze kterých je přímo počítána, takže v praxi se příliš často nepoužívá. Častěji než variační rozpětí se využívá mezikvartilové rozpětí7 (Q), které představuje rozdíl mezi horním a dolním kvartilem (75. a 25. percentilem) a udává, jak je široký interval, ve kterém leží 50 % prostředních hodnot. Tato míra variability není ovlivněna extrémními hodnotami proměnné. Nejčastěji používanou mírou variability je rozptyl8 (s2), který se vypočítá jako průměrná kvadratická odchylka od průměru. Jak je vidět v tabulce 2.5, kdybychom se rozhodli spočítat pouze průměrnou odchylku od průměru, vyšla by nám vždy nula. Je to způsobeno tím, že některé odchylky mají kladné a jiné záporné znaménko, takže v konečném součtu dají nulu. Proto je nutné zbavit se záporných znamének, což lze udělat buď umocněním odchylek na druhou (tzv. kvadratická odchylka) nebo výpočtem absolutní hodnoty (tzv. absolutní odchylka). Tabulka 2.5: Výpočet odchylek, kvadratických a absolutních odchylek od průměru a jejich průměrů
i
hodnota
odchylka
kvadratická odchylka
absolutní odchylka
1
15
–10
100
10
2
20
–5
25
5
3
25
0
0
0
4
30
5
25
5
5
35
10
100
10
průměr:
25
0
50
6
Vzhledem k tomu, že při výpočtu rozptylu jsme umocnili odchylky, je jednotka rozptylu ve čtvercových jednotkách původní jednotky. Pokud jsou hodnoty v tabulce 2.5 stáří pacientů v rocích, potom rozptyl má jednotku rok2, což je velmi neobvyklé. Abychom dostali charakteristiku, která má původní jednotku (tedy rok), musíme rozptyl odmocnit. Takto vypočítaná charakteristika (tedy odmocnina z rozptylu) se nazývá směrodatná odchylka9 (s). Pokud máme k dispozici netříděná data, je výpočet všech výše popsaných charakteristik velmi jednoduchý – jde pouze o otázku použití vhodné statistické funkce v Excelu10: rozptyl VAR směrodatná odchylka SMODCH Směrodatná odchylka i rozptyl jsou vhodné k porovnání variability souborů, které mají stejný průměr. Pokud se však průměry porovnávaných souborů liší, je nutné spočítat variační 7
8
9
Q x0,75 x0, 25 s2
1 n xi x 2 n i1
s s2
10
Vyjmenované funkce jsou k dispozici ve starších verzích MS Excel. Od verze MS Excel 2010 je nabídka funkcí rozšířená a původní název je rozšířen způsobem uvedeným v závorce
28
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
koeficient11 (v), který je podílem směrodatné odchylky a průměru. Jedná se o bezrozměrnou veličinu, kterou zpravidla udáváme v procentech. Variační koeficient a směrodatná odchylka jsou charakteristiky, které jsme vypočítali z rozptylu, takže o nich mluvíme jako o charakteristikách odvozených z rozptylu. Výpočet rozptylu a odvozených charakteristik není vhodný pro data, která jsou výrazně asymetrická (stejně jako pro tato data není vhodné počítat průměr). V případě výrazné asymetrie souboru popisujeme variabilitu koeficientem disperze12 (d), který se vypočítá jako průměrná absolutní odchylka od mediánu dělená mediánem. Stejně jako variační koeficient je bezrozměrná a udává se v procentech. 2.3.3 Krabicový graf Krabicový graf je jednou z dalších možností, jak graficky zobrazit datový soubor. V praxi se používá celá řada variant tohoto grafu. My si na tomto místě ukážeme jeho nejjednodušší podobu – graf, který zachycuje polohu mediánu, obou kvartilů a obou extrémů (minima a maxima). Nevýhodou tohoto poměrně snadno interpretovatelného grafu je jeho nedostupnost v Excelu. Tento graf je sice možné v Excelu zkonstruovat, ale vyžaduje to značné úsilí a pokročilou znalost Excelu. V dnes běžně používaných statistických programech (jakým je například SPSS nebo Statistica) však lze krabicové grafy konstruovat jednoduše. Tyto softwary umí též detekovat odlehlé a extrémní hodnoty a v grafu je vyznačit. Na obrázku 2.5 je ukázka dvou krabicových grafů, které porovnávají výši platů mužů a žen v jistém zdravotnickém zařízení. Spodní vodorovná čárka vyznačuje minimální mzdu (muži 14 500 Kč, ženy 8 200 Kč), horní vodorovná čárka maximální mzdu (muži 33 600 Kč, ženy 27 600 Kč). Dno krabice vyznačuje dolní kvartil, víko krabice horní kvartil a vodorovná bílá čára medián. Z tohoto grafu je na první pohled zřejmé, nejen že se platy žen v tomto zdravotnickém zařízení pohybují níže než platy mužů, ale je vidět i to, že maximální mzda žen je nižší než průměrná mzda mužů.
11
12
s x 1 n xi ~ x d n i 1 ~ x
v
29
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
40000 35000 30000 25000 20000 15000 10000 5000 0 Muž
Žena
Obrázek 2.5: Krabicový graf – porovnání příjmů mužů a žen ve sledovaném zdravotnickém zařízení
Krabicové grafy je možné umístit svisle, jako je tomu na obrázku 2.5, ale i vodorovně, kdy je možné kombinovat krabicový graf s histogramem.
30
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
2.4 Třídění druhého stupně Třídění kategoriální proměnné, tak, jak bylo popsáno v kapitole 2.1, je tříděním prvního stupně. Přidáme-li do kontingenční tabulky další kategoriální proměnnou (jednu do řádků, druhou do sloupců), dostaneme tabulku třídění druhého stupně (příklad viz tabulka 2.6). Tato tabulka slouží k popisu vztahů mezi dvěma kategoriálními proměnnými. Měření síly tohoto vztahu si ukážeme na jednoduchém příkladu. Představme si, že máme 2100 dotazníků v obálkách, obsahujících mimo jiné informaci o respondentově pohlaví a o tom, zda respondent někdy používá rtěnku. Naším úkolem je odhadnout správně každý dotazník a udělat to s nejmenším možným počtem omylů. Můžeme třeba dávat na jednu hromádku obálky s dotazníky, o kterých si myslíme, že byly vyplněny ženami, a na druhou ty, u nichž věříme, že byly vyplněny muži. Chceme-li minimalizovat počet chyb, použijeme následující strategii k výpočtu Guttmanova koeficientu předpověditelnosti λ. Hádej o všech pozorováních, že všechna patří do modální kategorie, tj. do kategorie s nejvyšší četností pozorování. Informaci o distribuci našich dvou proměnných naleznete v tabulce 2.6. Tabulka 2.6: Distribuce proměnných pohlaví a používá rtěnku ve vzorku 2100 respondentů
muž
žena
celkem
ano
50
900
950
ne
950
200
1150
celkem
1000
1100
2100
Na začátku máme jen informaci o počtu mužů a žen v našem vzorku – ve vzorku je 1000 mužů a 1100 žen. Modální kategorie proměnné pohlaví je žena. Dáme tedy všechny obálky na jednu hromadu a prohlásíme, že všechny dotazníky byly vyplněny ženami. Je pravdou, že 1000 dotazníků máme zařazeno chybně, ale 1100 jich máme zařazeno správně. Víme tedy, že původní počet omylů je 1000. Představme si nyní, že u každého dotazníku víme, zda respondent, který jej vyplnil, používá či nepoužívá rtěnku. Můžeme tedy odhadovat pohlaví zvlášť pro ty, co používají rtěnku a ty, kteří nepoužívají rtěnku. Východiskem jsou dvě hromady dotazníků. Začneme třídit dotazníky respondentů, kteří užívají rtěnku. Mezi nimi je 50 mužů a 900 žen. Všechny dotazníky zařadíme do modální kategorie, tedy ženy. Dostaneme tak 50 nových omylů. Dále stejným způsobem zpracujeme dotazníky respondentů, kteří nepoužívají rtěnku, a zařadíme je do modální kategorie, tedy jako muže. Tím máme dalších 200 nových omylů. Koeficient λ spočítáme podle vztahu: λ=
č ů
í
č ů
č
ů í
ý ů
ů
,
31
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
což je v našem případě λ=
1000 − 250 = 0,75 1000
Vypočítaná hodnota 0,75 nám říká, že informace o tom, zda respondent používá rtěnku, zmenšila o 75 % počet omylů v odhadu pohlaví respondenta. V praxi se ovšem s takto vysokým koeficientem zpravidla nesetkáme. O vztahu mezi proměnnými vypovídá již koeficient vyšší než 0,30.
32
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)